CN110348482B

CN110348482B - 一种基于深度模型集成架构的语音情感识别系统

Info

Publication number: CN110348482B
Application number: CN201910490599.4A
Authority: CN
Inventors: 王喆; 柴冰; 李冬冬; 孙琳煜; 杜文莉; 杨海
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-06-02
Anticipated expiration: 2039-06-05
Also published as: CN110348482A

Abstract

本发明涉及一种基于深度模型集成架构的语音情感识别系统，包括如下步骤：S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集；S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，并把各个基分类器所得到的输出拼接成新的测试集，再代入到步骤S3所训练好的元分类器中进行识别。本发明不仅能够使各个神经网络结构发挥自身的优势，而且具有更为优异的泛化性能。

Description

一种基于深度模型集成架构的语音情感识别系统

技术领域

本发明涉及语音情感识别技术领域，具体地说，本发明涉及一种基于BLSTM和CNNStacking集成架构对语音信号进行情感分类的语音情感识别系统。

背景技术

情感计算是利用机器学习的方法模仿人类对文本、语音、图像等信息做出情感判断。由于语音不仅能传达文本所表达的意思，而且还包含丰富的情感信息(如特殊的语气词、语调的变化等)，所以语音情感识别受到了越来越多的关注。目前语音情感识别的任务是对信号提取情感相关的低层次特征，并通过分类器模拟人脑建立特征与类别的映射关系。为了更好地实现人机交互，帮助人们在和机器交流的情况下有效准确地完成给定目标的任务，并且随着技术的深入研究，在诸多领域包括心理医疗、犯罪侦查、通讯检测都有着不错的发展前景，所以通过更加鲁棒的算法分析出语音信号中的情绪是非常有必要的。

语音情感计算分为三个步骤：语音信号的采集、语音信号特征提取以及分类器的选择。在信号选择方面，目前国际上比较认可的数据集包括美国加州大学录制的情感语音库IEMOCAP、柏林工业大学录制的德语情感语音库DMO-DB、儿童德语情感语音库FAU AIBO和中国科学院自动化研究所录制的中文情感语音数据库CASIA。在语音信号特征提取方面，众所周知特征提取表示的是原始的音频信号通过预处理由声学特征来代替的过程。目前声学特征分为韵律学特征(包括时长、基频和能量等等)、基于谱的相关特征(包括LPC、LPCC和MFCC等等)、声音质量特征(包括共振峰频率及其带宽、频率微扰和振幅微扰等等)、融合特征(将韵律学特征、基于谱的相关特征和声音质量特征融合)和基于i-vector的特征(利用高斯混合模型将高维特征映射到低维空间的技术)。在分类器选择方面，在过去是通过GMM、HMM、MLP和SVM对语音统计特征建模，传统的算法由于复杂度不够高，并不能很好地建立特征与情感之间的映射关系。随着深度学习兴起，目前语音情感识别主要通过卷积神经网络CNN和长短期记忆网络LSTM对图像数据包括语谱图、filterbank和低维时序特征编码，再对编码后的数据分类。

目前，两大网络都拥有各自的优势，CNN可以通过感受野发现局部特征之间的相关性并且可以通过池化层过滤掉扰动信号，所以CNN在处理语音数据上有着自己独特的诀窍。LSTM可以通过时序网络处理信号之间的时序关系。针对这两种网络各自的特性，若能集两大网络之所长，将会进一步提高情感识别的正确率。

发明内容

本发明所要解决的技术问题是提供一种更加有效的语音情感识别系统，通过该语音情感识别系统，可以进一步提高情感识别的正确率。由于LSTM能够很好地利用语音特征之间的时序性，CNN能够发现特征与特征之间的相关性，所以如何能够更好地结合两大网络自身的特点去完美剖析语音特征是本发明的一个难点。鉴于上述难点，本发明的目的是提出一种基于BLSTM和CNN Stacking集成架构的语音情感识别系统，通过Stacking集成方法，能够更好地保持两大网络各自的优点，提升模型的总体识别性能。

具体而言，一种基于深度模型集成架构的语音情感识别系统，包括如下步骤：

S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；

S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集；

S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；

S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，并把各个基分类器所得到的输出拼接成新的测试集，再代入到步骤S3所训练好的元分类器中进行识别。

优选地，S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP；所述收集到的音频信号样本共包括四类感情，分别为：生气，高兴，中性，伤心；所述收集到的音频信号样本的特征由opensmile工具箱提取，并对所述音频信号样本中长度不等长的句子做分割操作得到子样本，使所得到的每一个子样本空间大小一样。

优选地，S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数，所述的交叉熵损失函数可以被定义为，

其中，

是来自softmax层的每一类的概率分布；/>

是L2正则化项。

当网络训练完毕时，样本的类标可以通过计算softmax输出的概率分布得到，

其中，

是第i句话中第L_i个分片的类标，最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果，所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器。

优选地，所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器，五折交叉验证被用来训练CNN和BLSTM模型，利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布

和/>

来建立新的样本集ODS，所述新的样本集ODS可以被定义为，

然后根据所述五折交叉验证对不同的数据集重复执行五次，通过所述Stacking方法可以获得五个新的数据集OD1，OD2，OD3，OD4，OD5。所述新的数据集OD可以被定义为，

其中，H2，H3，H4，H5分别是数据集OD2，OD3，OD4，OD5中句子的数量。

优选地，所述逻辑回归元分类器的预测函数被定义为，

/>

其中z是线性方程；g_w′(.)是sigmoid函数。最后的极大似然函数可以被定义为，

其中γ为真实类标。损失函数可以定义为，

其中，

是L2正则化项，λ′>0作为正则化参数用来权衡L(w′)和w′^Tw′的重要程度。

优选地，所述新的测试集是由所训练好的基分类器输出拼接而成，将所得到的新的测试集代入到所训练好的逻辑回归元分类器，最后的样本可以被预测为，

本发明有益的效果是：本发明的一种基于深度模型集成架构的语音情感识别系统，利用Stacking集成方法集BLSTM和CNN网络结构之所长，CNN能够通过感受野发现特征与特征之间的关联性，BLSTM能够利用自身的特点发掘特征的时序性，从而更好地利用语音特征的多样性。使用本发明的语音情感识别系统不仅能够利用语音特征的时序性，又能够剖析语音特征的结构信息。因此，相对于单个神经网络方法，本方法有着更好的鲁棒性，提高了情感识别的性能。

附图说明

图1是本发明中的Stacking流程图；

图2是本发明在训练步骤的流程图；

图3是本发明在测试步骤的流程图；

具体实施方式

下面结合附图和具体实施例对本发明进行详细描述：本发明的方法共分为四个部分。

第一部分：训练阶段数据预处理

由于每一句话长短不一，但是放入基分类器中的数据必须是相同大小的，所以为了能够使数据更好地适配基分类器，我们对数据进行了分片处理：假设数据集中有U句话，每一句话只有一种情感，那么第i句话的特征矩阵X_i可以表示为：

其中N_i表示第i句话的帧长，T表示特征矩阵的维度，U代表句子的数量。由于每句话的长度N_i不同，所以必须要把长度为N_i的矩阵切分为相同大小的L份，每一份长度为Y(如果最后一部分矩阵长度小于Y，则把它丢弃)，所以一个由X_i转变而来的新的特征矩阵D_i可以被定义为：

新的数据集ID由D_i,(i＝1,2,...,U)列绑定生成。ID可以被定义为：

完整的数据集ID′由one-hot编码的类标

和ID组成，其可被定义为：

其中K表示的是类别数量。

第二部分：训练阶段Stacking BLSTM和CNN的输出

首先通过五折交叉验证获得最好的BLSTM和CNN的模型结构，BLSTM和CNN可以映射输入特征空间到情感类别的概率分布上，它们的损失函数可以被定义为，

其中，

是来自softmax层的每一类的概率分布；/>

是L2正则化项。

其中，

是第i句话中第L_i个分片的类标，最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果，选择泛化性能最好的CNN结构和LSTM结构作为Stacking的基分类器。

在图1中，我们可以看到五折交叉验证被用来训练ID′。在第一折中，ID2′，ID3′，ID4′，ID5′被视为训练集，ID1′被分割为验证集IDV′1和预测集IDT′1。显而易见地，验证集可以被用来调整超参数和网络权重，而预测集可以被用来产生新的训练元分类器的数据集。其中，预测集包含H1句话，并且每一句话包含L_i个分片。对于输入的预测集IDT′1，训练好的BLSTM和CNN模型可以输出

和/>

去建立新的样本集ODS，其中/>

和/>

为BLSTM和CNN模型softmax层输出的概率分布。新的样本集ODS可以被定义为，

输出的每一句预测句子可以被定义为：

结合每一句预测句子组成的OD1可以被定义为：

然后，根据五折交叉验证对不同的数据集重复执行上述操作五次。最后，通过该Stacking方法可以获得五个新的数据集，OD1，OD2，OD3，OD4，OD5。在图2中，我们可以看到被用来训练元分类器输出的新数据集OD可以被定义为，

其中，H2，H3，H4，H5分别是数据集OD2，OD3，OD4，OD5中句子的数量。最后，数据集OD可以扩展为：

其中，γ为数据集OD的真实类标。

第三部分：训练阶段逻辑回归训练新数据

在本发明中，逻辑回归将被选择作为元分类器。将数据集OD′放入到逻辑回归元分类器中，对于每一个样本ODS，逻辑回归的预测函数将被定义为：

其中γ为真实类标。损失函数可以定义为，

其中，

是L2正则化项，λ′>0作为正则化参数用来权衡L(w′)和w′^Tw′的重要程度，最优参数w′可以由梯度下降法得到。

第四部分：测试阶段

在图3中，我们可以看到将测试样本放入到由五折交叉验证训练的五个CNN和BLSTM模型中，并把五个模型输出结果的平均生成新的测试样本，代入到所训练好的逻辑回归元分类器，最后的样本可以被预测为，

实验设计

实验数据集：

实验使用IEMOCAP语音情感数据集，该数据集包括五个会话，由个人完成录制，每一个会话由一男一女组成。该情感数据集包含10039句话总时长为12小时，平均时长为4.5小时，整个数据集包含十种情感(高兴、生气、伤心、沮丧、中性、吃惊、害怕、厌恶、兴奋和其它)。我们只选出四种情感(生气、高兴、中性和伤心)的句子作为数据集，并且如果某句话被三个标注员标为三种不同的情感，那么这句话将会被抛弃。表1显示了IEMOCAP情感数据集的描述。

表1 IEMOCAP数据集描述

对比算法：

本发明的核心算法为CNN和BLSTM Stacking集成架构，称为BLSTM and CNNStacking Architecture(BCSA)，对比算法我们选择卷积神经网络CNN、BLSTM网络、BLSTMand CNN weighted averaging以及BLSTM and CNN simple averaging。

性能度量方法:

实验统一使用权重精度(WA)和非权重精度(UA)来记录不同方法对语音情感数据集的分类结果。WA是在整个样本集上分对的样本数，UA是每一种类别分类正确率，WA与UA的计算公式为：

实验结果

首先利用BLSTM选取最适合的句长L，由于在IEMOCAP数据库中，最短的句子长度为73帧，所以序列长度的范围定为[5,10,20,30,40,50,60,70]。表2展示了BLSTM在不同序列长度上的结果。

表2不同序列长度下BLSTM的结果

序列长度	WA(％)	UA(％)
			5	57.16	49.64
10	56.54	49.28
			20	57.92	50.38
30	59.68	52.32
			40	59.54	52.71
50	60.22	53.01
			60	60.49	53.45
70	60.60	54.33

根据实验结果，最终在序列长度为70帧时，达到了最好的效果，所以选取的序列长度为70帧，即把每一句长度不等长的样本分割成长度为70的子样本。

接着用长度为70的样本训练不同结构的卷积神经网络，表3展示了多种不同结构的卷积神经网络和测试结果。

表3不同结构的卷积神经网络的结果

根据实验结果，最终得出卷积神经网络结构Conv(10*2*2)Max(2*2)Conv(20*2*2)Max(2*2)FC(128)*2能达到最好的结果，所以选择该架构作为基分类器。

最后，为了证明所述BCSA的有效性，与另外的算法作对比是必要的。表4展示了不同算法在IEMOCAP数据集上的实验结果。

表4所有对比算法在IEMOCAP数据集上结果

模型	WA(％)	UA(％)
			Conv(2022)Max(22)Conv(4022)Max(22)FC(128)	58.17	53.05
BLSTM(256)*2	60.60	54.33
			BLSTM and CNN simple averaging	62.01	56.48
BLSTM and CNN weighted averaging	62.37	56.73
			BCSA	63.14	54.88

实验结果表明，所述BCSA算法与其它算法相比，具有较好的性能。

综上所述，本发明的一种基于深度模型集成架构的语音情感识别系统，利用Stacking集成方法集BLSTM和CNN网络结构之所长，能够更好地利用语音特征的多样性，提升了语音情感识别效果。此外，本发明也为同领域内其他相关问题提供了参考，可以以此为依据进行拓展延伸，具有十分广阔的应用前景。

Claims

1.一种基于深度模型集成架构的语音情感识别系统，其特征在于，包括如下步骤：

S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP；所述收集到的音频信号样本共包括四类感情，分别为：生气，高兴，中性，伤心；所述收集到的音频信号样本的特征由opensmile工具箱提取，并对所述音频信号样本中长度不等长的句子做分割操作得到子样本，使所得到的每一个子样本空间大小一样；

S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集，其中S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数，所述的交叉熵损失函数可以被定义为，

其中，

是来自softmax层的每一类的概率分布；/>

是L2正则化项，

其中，

是第i句话中第L_i个分片的类标，最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到，根据分类的结果，所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器；

S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；所述逻辑回归元分类器的预测函数被定义为，

其中z是线性方程；g_w′(.)是sigmoid函数；最后的极大似然函数可以被定义为，

其中γ为真实类标，损失函数可以定义为，

其中，

是L2正则化项，λ′>0作为正则化参数用来权衡L(w′)和w′^Tw′的重要程度，最优参数w′可以由梯度下降法得到；

S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，新的测试集是由所训练好的基分类器输出拼接而成，将所得到的新的测试集代入到所训练好的逻辑回归元分类器，最后的样本可以被预测为，

2.根据权利要求1所述的一种基于深度模型集成架构的语音情感识别系统，其特征在于：所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器，五折交叉验证被用来训练CNN和BLSTM模型，利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布

和/>

来建立新的样本集ODS，所述新的样本集ODS可以被定义为，

然后根据所述五折交叉验证对不同的数据集重复执行五次，通过所述Stacking方法可以获得五个新的数据集OD1，OD2，OD3，OD4，OD5，所述新的数据集OD可以被定义为，