CN110992988B

CN110992988B - 一种基于领域对抗的语音情感识别方法及装置

Info

Publication number: CN110992988B
Application number: CN201911343276.9A
Authority: CN
Inventors: 郑文明; 郑婉璐; 宗源; 路成
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-03-08
Anticipated expiration: 2039-12-24
Also published as: CN110992988A

Abstract

本发明公开了一种基于领域对抗的语音情感识别方法及装置，方法包括：(1)获取语音情感数据库，划分为源域数据库和目标域数据库；(2)对于每一语音信号，提取IS10特征作为全局特征；(3)将语音信号按照时间分成前后重叠50％的若干短片段，提取每个短片段的IS10特征；(4)将所有短片段的IS10特征输入双向长短时间记忆模型，再输入进注意力机制模型，输出作为局部特征；(5)将全局特征和局部特征串联作为联合特征；(6)建立神经网络，包括领域判别器和情感分类器；(7)对神经网络进行训练，网络总损失为情感分类器损失减去领域判别器损失；(8)获取待识别语音信号的联合特征，输入训练好的神经网络，得到预测的情感类别。本发明识别结果更准确。

Description

一种基于领域对抗的语音情感识别方法及装置

技术领域

本发明涉及语音情感识别技术，尤其涉及一种基于领域对抗的语音情感识别方法及装置。

背景技术

语音情感识别是情感计算领域中的一个热门研究问题，应用前景广阔。由于语音信号具有独特的序列属性，所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号：帧尺度、整句话尺度，很少有方法考虑把上述两种尺度结合起来。语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种基于领域对抗的语音情感识别方法和装置，本发明采用局部和全局特征的联合特征进行分类，可以缩小源域数据库数据以及目标域数据库数据的特征分布差异，使得识别结果更准确。

技术方案：本发明所述的基于领域对抗的语音情感识别方法包括：

(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库，并划分为源域数据库和目标域数据库；

(2)对于源域数据库和目标域数据库中的每个语音信号，提取其IS10特征作为对应语音信号的全局特征；

(3)对于源域数据库和目标域数据库的每个语音信号，将其按照时间顺序分成前后重叠50％的若干短片段，并提取每个短片段的IS10特征；

(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型，随后再输入进注意力机制模型，输出作为对应语音信号的局部特征；

(5)对于源域数据库和目标域数据库中的每个语音信号，将其全局特征和局部特征串联起来，作为对应语音信号的联合特征；

(6)建立神经网络，所述神经网络包括领域判别器和情感分类器，所述领域判别器包括两层全连接层，输出为预测的语音信号所属领域类别，所述情感分类器包括两层全连接层，输出为预测的语音信号的情感类别；

(7)对所述神经网络进行训练，训练时，将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本，输入领域判别器，将源域数据库中每一语音信号的联合特征作为一个样本，输入情感分类器，网络总损失为情感分类器损失减去领域判别器损失，通过反向传播算法更新网络参数，完成网络训练；

(8)获取待识别语音信号的联合特征，输入训练好的神经网络，得到预测的情感类别。

进一步的，步骤(1)中，划分源域数据库和目标域数据库的方法为：将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库，剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。

进一步的，步骤(4)中所述注意力机制模型为：

f(H^l)＝W^TH^l

式中，f()表示线性计分函数，W表示可学习参数，H^l表示双向长短时间记忆模型的的输出，α_i表示注意力权重，

表示H^l第i、j个元素，H^l _att表示注意力机制模型的输出。

进一步的，步骤(7)中所述网络总损失为：

式中，E(θ_f,θ_y,θ_d)表示网络总损失，θ_f,θ_y,θ_d表示待训练参数，λ为正则化乘数，M是源域数据库的语音信号个数，N是目标域数据的语音信号个数，其中：

形如L_d(*,#)表示领域判别器*与#的交叉熵损失函数，形如L_y(*,#)表示情感分类器*与#的交叉熵损失函数，d_m表示源域数据库中第m个语音信号的领域类别标签，y_m表示源域数据库中第m个语音信号的情感类别标签，F_lg,m表示源域数据库中第m个语音信号的联合特征，m＝1,…,M，d_n表示目标域数据库中第n个语音信号的领域类别标签，F_lg,n表示目标域数据库中第n个语音信号的联合特征，n＝1,…,N；G_f()表示特征提取器，G_d()表示领域分类器输出的预测领域类别，G_y()表示情感分类器输出的预测情感类别；

网络训练目的是找到待训练参数θ_f,θ_y,θ_d的鞍点，使得：

本发明所述的基于领域对抗的语音情感识别装置包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法

有益效果：本发明与现有技术相比，其显著优点是：本发明提供了一种联合局部和全局特征的语音情感识别领域对抗方法，该方法结合了多种时间尺度的语音情感特征，领域判别器和情感分类器互相对抗学习，通过反向传播算法更新网络参数最终学习到一种既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征，使得识别准确率更高。领域判别器可以在网络学习过程中动态地调整特征参数，使源域和目标域数据库的特征分布更靠近，当领域判别器不能区分数据是来自于源域数据库还是目标域数据库时，在源域数据库上训练的分类器可以更好地分类目标域数据库。

附图说明

图1是本发明的一个实施例的流程示意图；

图2是本发明的神经网络训练过程示意图。

具体实施方式

本实施例提供了一种基于领域对抗的语音情感识别方法，如图1和图2所示，包括：

(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库，并划分为源域数据库和目标域数据库。

其中，划分源域数据库和目标域数据库的方法为留一个人法(Leave-One-Subject-Out Cross Validation)：将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库，剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。

(2)对于源域数据库和目标域数据库中的每个语音信号，提取其IS10特征作为对应语音信号的全局特征。

其中，IS10特征为“Interspeech 2010paralinguistic challenge.Christian Müller,“The interspeech 2010paralinguistic challenge,”Proc Interspeech,2010.”中的特征，其定义见该文献，不再赘述，该特征提取时采用openSMILE toolkit(一个公开的工具包)进行提取。采用

表示提取的IS10特征，d表示IS10特征的维度1582。

(3)对于源域数据库和目标域数据库的每个语音信号，将其按照时间顺序分成前后重叠50％的若干短片段，并提取每个短片段的IS10特征。

若一个语音信号划分为前后重叠50％的c个短片段，则该语音信号的IS10特征表示为：

x_c表示第c个片段的IS10特征。

(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型，随后再输入进注意力机制模型，输出作为对应语音信号的局部特征。

其中，若双向长短时间记忆模型采用L()表示，其中隐藏节点的个数为h，具体前向和后向隐藏节点数为1582，则双向长短时间记忆模型的输出为：

其中，所述注意力机制模型为：

f(H^l)＝W^TH^l

表示H^l第i、j个元素，H^l _att表示注意力机制模型的输出。

(5)对于源域数据库和目标域数据库中的每个语音信号，将其全局特征和局部特征串联起来，作为对应语音信号的联合特征。

联合特征可以表示为：F_lg＝{X_g,H^l _att}。

(6)建立神经网络，所述神经网络包括领域判别器和情感分类器，所述领域判别器包括两层全连接层，输出为预测的语音信号所属领域类别，所述情感分类器包括两层全连接层，输出为预测的语音信号的情感类别。

(7)对所述神经网络进行训练，训练时，将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本，输入领域判别器，将源域数据库中每一语音信号的联合特征作为一个样本，输入情感分类器，网络总损失为情感分类器损失减去领域判别器损失，通过反向传播算法更新网络参数，完成网络训练。

其中，所述网络总损失为：

网络训练目的是找到待训练参数θ_f,θ_y,θ_d的鞍点，在鞍点，源域情感分类损失最小，领域分类器损失最大，即使得：

参数λ表示为正则化乘数，λ初始值为0，在训练结束之前逐渐增长到1。γ为10，p表示训练进程，范围为0到1。

通过学习和训练，得到既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征。

本发明还提供了一种基于领域对抗的语音情感识别装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法。

下面以IEMOCAP情感数据库中的四种类别(生气、高兴、悲伤、中性)的语音情感数据为例进行验证，验证结果如表1所示：

表1

特征种类	有权重准确率(％)	无权重准确率(％)
			全局特征	54.77	51.25
5段局部特征	59.18	51.77
			8段局部特征	57.19	49.62
10段局部特征	55.75	48.79
			5段局部--全局特征	62.84	54.19
8段局部--全局特征	60.37	53.03
			10段局部--全局特征	57.86	51.48
DNN-ELM	57.90	52.10
			BLSTM-SUA	59.33	49.96

其中5段、8段、10段分别为将整句话语音信号分割的段数。DNN-ELM为基于语音片段尺度与深度神经网络和极限学习机的语音情感识别方法，BLSTM-SUA为结合贪婪策略的双向长短时间记忆模型语音情感识别方法。

实验结果表明，5段局部—全局特征取得了最高的语音情感识别准确率。在IEMOCAP情感数据库四类(生气、高兴、悲伤、中性)的语音情感识别任务中，本发明提出的基于模型相对于其他方法得到了更好的识别结果。相较于其他方法，本发明成功地获取了一种联合全局和局部的特征，同时减少了源域和目标域之间的数据发布差异，提高了语音情感识别准确率。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。