CN112489689A

CN112489689A - 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Info

Publication number: CN112489689A
Application number: CN202011376020.0A
Authority: CN
Inventors: 郑文明; 郑婉璐; 宗源
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-12
Anticipated expiration: 2040-11-30
Also published as: CN112489689B

Abstract

本发明公开了一种基于多尺度差异对抗的跨数据库语音情感识别方法，方法包括：（1）获取多个语音情感数据库；（2）提取每一语音信号的全局IS10特征，提取全局特征；（3）将语音信号分成前后重叠50%的五段短片段并分别提取其IS10特征；（4）输入双向长短时间记忆模型，再输入注意力机制模型，输出作为局部特征；（5）将全局IS10特征和局部特征并联，提取联合特征；（6）建立神经网络，包括对应于上述三种尺度的三个领域判别器，和情感分类器；（7）训练神经网络，网络总损失为情感分类器损失减去三个领域判别器损失；（8）获取待识别语音信号的三种尺度特征，输入训练好的神经网络，得到预测的情感类别。本发明识别结果更准确。

Description

基于多尺度差异对抗的跨数据库语音情感识别方法及装置

技术领域

本发明涉及语音情感识别技术，尤其涉及一种基于多尺度差异对抗的跨数据库语音情感识别方法及装置。

背景技术

语音情感识别是情感计算领域中的一个热门研究问题，应用前景广阔。由于不同数据库之间存在较大的特征分布差异，很大程度上影响了系统的表现。同时语音信号具有独特的序列属性，所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号：帧尺度、整句话尺度。跨数据库语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种基于多尺度差异对抗的跨数据库语音情感识别方法，本发明采用局部，全局和联合尺度上进行领域对抗学习，减小源域数据库数据以及目标域数据库数据的特征分布差异，在此基础之上进行分类，使得识别结果更准确。

技术方案：本发明所述的基于多尺度差异对抗的跨数据库语音情感识别方法包括：

(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库，并划分为源域数据库和目标域数据库；

(2)对于源域数据库和目标域数据库中的每个语音信号，提取IS10 low-level特征，然后利用卷积神经网络做为全局特征提取器提取深度特征，作为全局特征X^g；特征提取器包括三层卷积层；

(3)对于源域数据库和目标域数据库的每个语音信号，将其按照时间顺序分成前后重叠50％的若干短片段，并提取每个短片段的IS10特征；

(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型，随后再输入进注意力机制模型，输出作为对应语音信号的局部特征；

(5)对于源域数据库和目标域数据库中的每个语音信号，将全局IS10特征和局部特征并联，输入另一个卷积神经网络做为联合特征提取器提取深度特征，作为联合特征，特征提取器包括三层卷积层；

(6)建立神经网络，所述神经网络包括对应于上述三种尺度的三个领域判别器，和情感分类器，所述领域判别器包括两层全连接层，输出为预测的语音信号所属领域类别，所述情感分类器包括两层全连接层，输出为预测的语音信号的情感类别；

(7)对所述神经网络进行训练，训练时，将源域数据库和目标域数据库中每一语音信号的局部特征，全局特征和联合特征分别混合起来作为三个样本，输入对应尺度的领域判别器，将源域数据库中每一语音信号的联合特征作为一个样本，输入情感分类器，网络总损失为情感分类器损失减去三个领域判别器损失，通过反向传播算法更新网络参数，完成网络训练；

(8)获取待识别语音信号的三种尺度特征，输入训练好的神经网络，得到预测的情感类别。

进一步的，步骤(1)中，划分源域数据库和目标域数据库的方法为：将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库，另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。

进一步的，步骤(2)中所述全局特征提取器为：

G^g＝F^g(X^g)

式中，F^g表示卷积神经网络，包含三层卷积层，X^g表示全局语音IS10特征，G^g表示得到的全局特征。

进一步的，步骤(4)中所述双向长短时间记忆模型为：

式中L()为双向长短时间记忆模型，H^l表示获得的隐藏层状态；

是局部IS10特征。

步骤(4)中所述注意力机制模型为：

f(H^l)＝W^TH^l

式中，f()表示线性计分函数，W表示可学习参数，H^l表示双向长短时间记忆模型的输出，α_i表示注意力权重，

表示H^l第i、j个元素，

表示注意力机制模型的输出。F^l表示局部特征提取器。

进一步的，步骤(5)中所述联合特征提取器为：

式中，F^h表示卷积神经网络，包含三层卷积层，G^h表示得到的联合特征。

进一步的，步骤(7)中所述网络总损失为：

式中，式中，

表示网络总损失，λ为正则化乘数，其中：

形如

表示领域判别器的交叉熵损失函数，

分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数，

表示情感分类器交叉熵损失函数，d_i表示源域和目标域数据库中的语音信号的领域类别标签，分别是0和1；y_i表示源域数据库中语音信号的情感类别标签，

表示源域、目标域数据库中语音信号的全局特征，

表示源域、目标域数据库中语音信号的局部特征，

表示源域、目标域数据库中语音信号的联合特征；F^g、F^l、F^h表示三种尺度上的特征提取器；D^g、D^l、D^h表示三种尺度上的领域判别器；

网络训练目的是最小化网络总损失函数。

本发明还公开了一种基于多尺度差异对抗的跨数据库语音情感识别装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法。

有益效果：本发明与现有技术相比，其显著优点是：本发明提供了一种多尺度特征的领域对抗的语音情感识别方法，该方法结合了多种时间尺度的语音情感特征，相应地，多种尺度的领域判别器和情感分类器互相对抗学习，通过反向传播算法更新网络参数最终学习到一种既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征，使得识别准确率更高。三个领域判别器可以在网络学习过程中动态地调整特征参数，使源域和目标域数据库的特征分布更接近。当领域判别器不能区分数据是来自于源域数据库还是目标域数据库时，在源域数据库上训练的分类器可以更好地分类目标域数据库。

附图说明

图1是本发明的一个实施例的流程示意图；

图2是本发明的神经网络训练过程示意图。

具体实施方式

本实施例提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法，如图1和图2所示，包括：

(1)获取多个存储有若干语音信号和对应情感类别标签的语音情感数据库，分别做为源域数据库和目标域数据库。步骤(1)中，划分源域数据库和目标域数据库的方法为：将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库，另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。

(2)对于源域数据库和目标域数据库中的每个语音信号，提取其IS10特征，其中，IS10特征为“Interspeech 2010paralinguistic challenge.Christian Müller,“Theinterspeech 2010 paralinguistic challenge,”Proc Interspeech,2010.”中的特征，其定义见该文献，不再赘述，该特征提取时采用openSMILE toolkit(一个公开的工具包)进行提取。采用

表示提取的IS10特征，d表示IS10特征的维度1582。随后输入全局特征提取器提取深度特征，作为全局特征X^g。

所述全局特征提取器为：

G^g＝F^g(X^g)

(3)对于源域数据库和目标域数据库的每个语音信号，将其按照时间顺序分成前后重叠50％的若干短片段，并提取每个短片段的IS10特征。

若一个语音信号划分为前后重叠50％的N(N＝5)个短片段，则该语音信号的IS10特征表示为：

表示第N个片段的IS10特征。

(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型，随后再输入进注意力机制模型，输出作为对应语音信号的局部特征。

其中，若双向长短时间记忆模型采用L()表示，其中隐藏节点的个数为h，具体前向和后向隐藏节点数为1582，则注意力机制模型的输出为：

f(H^l)＝W^TH^l

表示H^l第i、j个元素，

表示注意力机制模型的输出。F^l表示局部特征提取器。

(5)对于源域数据库和目标域数据库中的每个语音信号，将全局IS10特征和局部特征并联，输入另一个卷积神经网络提取深度特征，作为联合特征；

联合特征提取器为：

(6)建立神经网络，所述神经网络包括对应于上述三种尺度的三个领域判别器，和情感分类器，所述领域判别器包括两层全连接层，输出为预测的语音信号所属领域类别，所述情感分类器包括两层全连接层，输出为预测的语音信号的情感类别。

(7)对所述神经网络进行训练，训练时，将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本，输入领域判别器，将源域数据库中每一语音信号的联合特征作为一个样本，输入情感分类器，网络总损失为情感分类器损失减去领域判别器损失，通过反向传播算法更新网络参数，完成网络训练。

步骤(7)中所述网络总损失为：

式中，式中，

表示网络总损失，λ为正则化乘数，其中：

形如

表示领域判别器的交叉熵损失函数，

分别表示局部尺度，全局尺度，联合尺度上的领域判别器的交叉熵损失函数，

表示源域、目标域数据库中语音信号的全局特征，

表示源域、目标域数据库中语音信号的局部特征，

网络训练目的是最小化网络总损失函数。

参数λ表示为正则化乘数，λ初始值为0，在训练结束之前逐渐增长到1。γ为10，p表示训练进程，范围为0到1。

通过学习和训练，得到既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征。

本发明还提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法。

下面以IEMOCAP和MSP-improv情感数据库中的四种类别(生气、高兴、悲伤、中性)的语音情感数据为例进行验证，验证结果如表1所示：

表1

特征种类	有权重准确率(％)	无权重准确率(％)
			全局尺度对抗	33.25	30.03
局部尺度对抗	33.42	33.05
			联合尺度对抗	36.29	31.84
联合局部特征不经过领域判别器	28.16	25.08
			多尺度差异对抗	43.43	34.59

其中“全局尺度对抗”、“局部尺度对抗”、“联合尺度对抗”分别为单独输入以上尺度的特征到对应尺度的领域判别器，“联合局部特征不经过领域判别器”为不经过领域判别过程，直接进行情感分类。“多尺度差异对抗”为三种尺度特征同时输入以上三种尺度的领域判别器。

实验结果表明，多尺度差异对抗的跨数据库语音情感识别方法取得了最高的语音情感识别准确率。在IEMOCAP做源数据库，MSP-improve做目标域数据库的四类(生气、高兴、悲伤、中性)的语音情感识别任务中，本发明提出的基于模型相对于其他方法得到了更好的识别结果。相较于其他方法，本发明成功地在多个特征尺度上同时地减小了数据库之间的特征分布差异，获得了情感相关但是领域无关的语音特征，提高了语音情感识别准确率。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。