CN110853680A

CN110853680A - 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构

Info

Publication number: CN110853680A
Application number: CN201911072974.XA
Authority: CN
Inventors: 陶华伟; 方元博; 傅洪亮; 张建华; 姜芃旭; 雷沛之; 庄志豪; 刘曼
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-28
Anticipated expiration: 2039-11-05
Also published as: CN110853680B

Abstract

本发明公布了一种面向语音情感分类的具有多输入多融合策略的双BiLSTM结构。首先，提取语音信号中的Mel谱特征和统计特征两种帧级特征，然后将两种特征同时输入两个双向LSTM网络进行学习，分别应用注意力机制和平均池化操作将两个双向LSTM的输出进行拼接得到基于各帧的注意加权和及平均的两种高级特征，最后，将这两种特征进行融合及批归一化处理后，使用softmax分类器进行语音情感识别。我们的DABL模型同时处理两种不同类型的特征，以便更好地了解情绪中的细微变化。在“EMO‑DB”数据集上的实验结果表明了本文方法的优越性。

Description

一种用于语音情感识别的具有多输入多融合策略的双BiLSTM 结构

技术领域

本发明属于语音信号处理技术领域，具体涉及到一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构。

背景技术

人类的语音作为信息传递最直接最高效的方式，在表达不同情绪的语音时，音色特征，音质特征，韵律特征，音量特征等人耳能感知到的特征方面都有明显区别。因此，利用机器对语音信息进行挖掘，模拟人的情感感知过程来实现语音情感识别是可行的。语音情感识别相关研究在数十年前就已经出现。随着人工智能的发展，人类已经迈入通过语音进行人机交互的时代，使计算机从语音信号中得到反映情绪状态的信息识别出说话人的情感状态，具有重要的研究意义。

特征提取是语音信号处理的第一步，也是最重要的一步。特征的质量直接决定了识别的效果。当前用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征等。然而这些人工特征是低级的，这些特征仍然不能很好地表达话语中的情感。近年来，深度学习在语音情感识别中得到了广泛的应用。利用适当算法训练的神经网络模型，能够从原始数据集中提取更有价值的特征并将特征学习融入到模型构建中。传统的机器学习算法和深度学习网络大多只能接受固定维数的特征作为输入。这些特征常常以帧为单位进行提取，却以全局特征统计值的形式参与情感的识别.全局统计的单位一般是听觉上独立的语句或者单词，常用的统计指标有极值、极值范围、方差等。这样做忽略了可变长度的语音波形，此外，这些特征在提取过程中丢失了语音波形的时间信息。近些年，深度学习方法中RNN神经网络在语音情感识别领域异军突起，特别是Long-Short TermMemory(LSTM)的提出，通过门控机制解决传统RNN模型对长时时序序列处理能力有限的问题，同时克服了梯度消失问题使神经网络可以针对长时序列建模问题进行训练。但是情感语音中，不同地方所包含的情感信息是不一样的，可能有些地方还不包含情感信息。尽管LSTM网络能够利用语音时序信号或语音帧特征学习情感变化的时序信息，但是对于情感在语音中分布不平衡的问题并没有考虑，在学习时会把非情感信息一起学习，降低模型性能，其他模型亦是如此。为了解决这些问题，提出了一种将双向长短时记忆(BiLSTM)与多输入多融合策略相结合的语音情感识别方法。

因此本发明主要关注于提取了表征性更好的特征以实现更优秀的语音测谎工作。

发明内容：

特征提取是语音信号处理的第一步，也是最重要的一步。特征的质量直接决定了识别的效果。为了提取更全面的高级特征，提出了一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构。具体步骤如下：

(1)语音预处理：将语料库中的语音数据按对应的情感分类并标记上数字标签，之后对其进行分帧及加窗，为下一步提取特征做准备。

(2)特征提取：对步骤(1)预处理完毕后的语音数据，提取出MFCC，过零率，基频等45维语音特征和64维log-Mel谱特征。

(3)双BiLSTM装置：将步骤(2)提取的两类特征输入改装置中，该装置由两个双向LSTM组成。 LSTM是对递归神经网络(RNN)的改进，引入了三种控制门:输入门、输出门、遗忘门，对隐藏单元进行写、读和复位操作。传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容。在语音情感识别中，从反向序列而来的未来的内容对情感极性的判断也起至关重要的作用。通过处理正向和反向的序列来抽取结构化知识，这样来自于过去和未来的互补信息可以整合到一起用于推理。双向LSTM网络是对标准正向LSTM模型的改进，该模型能够在正向和反向两个方向操作一系列特征。

原始LSTM状态：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (1)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (2)

c_t＝f_tc_t-1+i_t tanh(w_xcx_t+w_hch_t-1+b_c) (3)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t-1+b_o) (4)

h_t＝o_t tanh(c_t) (5)

其中：σ为常用的sigmoid激活函数，i，f，o，c分别表示输入门、遗忘门、输出门和记忆细胞，它们与隐层向量h的维度大小相同。双向LSTM状态:

BiLSTM网络两个输出连接到同一个输出节点。输出层可以同时获得历史和未来的信息。因此，与普通的LSTM相比，BiLSTM不需要等到以后的时间节点才能获得未来的信息。

(4)多融合装置：将步骤(3)得到的两类高级特征采用平均池化和注意力机制两种方法进行融合。常用的LSTM网络对情感语音的标签学习方法有Frame-wise、Final-frame和时间上Mean-pool三种方式。 Mean-pool相对于前两种方式能更加充分的学习到每一帧包含的情感，Mean-pool是对LSTM的输出o(t) 随时间推移执行一个滑动平均，即求所有输出的平均值：

O_average＝∑o(t)/T (7)

BiLSTM使用注意机制的标准方法是选择一个简单的、类似于逻辑回归的加权和作为池层。这个加权和是在BiLSTM、yt的帧向输出和权重u之间的内积，权重u是注意力模型中的参数向量。为了使重量和保持统一，我们对内积应用了softmax函数：

其中，α_t是t次输出y_t的权重，在时间维度上，所有时间的权系数都应用于输出o_t，并在时间维度上作为输出求和。计算公式为：

z＝∑α_to_t (9)

(5)将步骤(4)得到的两类高级特征再进行一次特征融合，经批归一化处理后，使用softmax分类器进行语音情感识别。

(6)重复步骤(2)、(3)、(4)、(5)采集语音的训练集数据，与标签作对比，对模型进行训练，得到训练后的模型。

(7)利用步骤(6)得到的模型结构，对语音的测试集数据进行特征提取和分类，最终识别语音情感。

附图说明：

图1为“BiLSTM”结构图，图2为“DABL”结构图。图3为DABL模型在“EMO-DB”混淆矩阵图。

具体实施方式：

下面结合具体实施方式对本发明做更进一步的说明。

(1)我们选择柏林EMO-DB语料库进行实验验证。实验中使用Leave-One-Speaker-Out(LOSO) 交叉验证策略，该策略更具有现实性和挑战性。在这个策略,每次以一个人的情感语音样本数据集作为测试集的选择实验,其余的情感语音样本作为训练集,每个人的声音都将作为测试集。最后,计算几个试验的平均值作为结果。本文选取加权平均召回率(WA)作为识别性能的评价指标。WA是正确识别的样本数和所有样本数的比值，这是语音情感识别领域常用的评价指标。

(2)用25ms大小和15ms重叠的汉明窗对语音信号进行分帧，然后从每帧语音中提取45个声学低水平描述子，包括MFCC及其一阶和二阶增量，过零率，每帧的均方能量根，频谱的中心、带宽、平坦度及衰减频率。另外，我们使用了64个Mel滤波器来获得log-Mel谱特征。

(3)将步骤(2)得到的两类帧级特征输入两个相同的BiLSTM网络中提取更高级的特征f1和f2。

(4)将步骤(3)得到的两个高级特征，通过Mean-Pool和注意力机制两种融合策略得两类融合特征F1，F2，再进行一次特征融合得到融合特征F＝[F1,F2]。

(5)将步骤(4)得到的融合特征F通过批处理归一化层进行传递，然后使用SoftMax分类器对情绪进行分类。为了防止训练过程中的数据过拟合，我们在DABL模型中加入Dropout。两个BiLSTM 模型并行运算。

(6)为了进一步验证该算法的有效性。将所提算法与HuWSF特征及RDBN模型在相同的评价标准下作对比。各个分类器在EMO-DB语料库的识别准确度如表1所示。

表1在EMO-DB语料库上由不同方法得到的平均正确率

方法	Killer
		HuWSF	81.74％
RDBN	82.32％
		DABL	84.43％

由表1可看出发明设计的具有多输入多融合策略的双BiLSTM结构结构相较于HuWSF以及 RDBN算法在EMO-DB语料库上的识别准确度分别提高了2.69％和2.11％。利用DABL模型同时处理两类特征，提取具有更全面的情感信息的高层次特征，并行的内部结构平衡了模块间信息的差异，相较于以往的识别方法，我们的算法可以达到更高的准确度。

Claims

1.本发明公布了一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构，其特征在于,包括以下步骤：

(1)语音预处理：将语料库中的语音数据按对应的情感分类并标记上数字标签，之后对其进行分帧及加窗，为下一步提取特征做准备；

(2)特征提取：对步骤(1)预处理完毕后的语音数据，提取出MFCC，过零率，基频等45维语音特征和64维log-Mel谱特征；

(3)双BiLSTM装置：将步骤(2)提取的两类特征输入改装置中，该装置由两个双向LSTM组成；LSTM是对递归神经网络(RNN)的改进，引入了三种控制门:输入门、输出门、遗忘门，对隐藏单元进行写、读和复位操作；传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容；在语音情感识别中，从反向序列而来的未来的内容对情感极性的判断也起至关重要的作用；通过处理正向和反向的序列来抽取结构化知识，这样来自于过去和未来的互补信息可以整合到一起用于推理；双向LSTM网络是对标准正向LSTM模型的改进，该模型能够在正向和反向两个方向操作一系列特征；原始LSTM状态：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (1)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (2)

c_t＝f_tc_t-1+i_t tanh(w_xcx_t+w_hch_t-1+b_c) (3)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t-1+b_o) (4)

h_t＝o_t tanh(c_t) (5)

其中：σ为常用的sigmoid激活函数，i，f，o，c分别表示输入门、遗忘门、输出门和记忆细胞，它们与隐层向量h的维度大小相同；双向LSTM状态:

BiLSTM网络两个输出连接到同一个输出节点；输出层可以同时获得历史和未来的信息，因此，与普通的LSTM相比，BiLSTM不需要等到以后的时间节点才能获得未来的信息；

(4)多融合装置：将步骤(3)得到的两类高级特征采用平均池化和注意力机制两种方法进行融合；常用的LSTM网络对情感语音的标签学习方法有Frame-wise、Final-frame和时间上Mean-pool三种方式；Mean-pool相对于前两种方式能更加充分的学习到每一帧包含的情感，Mean-pool是对LSTM的输出o(t)随时间推移执行一个滑动平均，即求所有输出的平均值：

O_average＝∑o(t)/T (7)

BiLSTM使用注意机制的标准方法是选择一个简单的、类似于逻辑回归的加权和作为池层；这个加权和是在BiLSTM、yt的帧向输出和权重u之间的内积，权重u是注意力模型中的参数向量；为了使重量和保持统一，我们对内积应用了softmax函数：

其中，α_t是t次输出y_t的权重，在时间维度上，所有时间的权系数都应用于输出o_t，并在时间维度上作为输出求和；计算公式为：

z＝∑α_to_t (9)

(5)将步骤(4)得到的两类高级特征再进行一次特征融合，经批归一化处理后，使用softmax分类器进行语音情感识别；

(6)重复步骤(2)、(3)、(4)、(5)采集语音的训练集数据，与标签作对比，对模型进行训练，得到训练后的模型；