CN110390955B

CN110390955B - 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法

Info

Publication number: CN110390955B
Application number: CN201910583878.5A
Authority: CN
Inventors: 郑文明; 刘佳腾; 宗源; 路成
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-07-27
Anticipated expiration: 2039-07-01
Also published as: CN110390955A

Abstract

本发明公开了一种基于深度域适应性卷积神经网络的跨库语音情感识别方法，包括：(1)获取语言不同的训练数据库和测试数据库(2)将训练数据库和测试数据库中的语音信号分别处理得到每段语音信号的频谱图；(3)建立卷积神经网络；(4)将训练数据库和测试数据库的语音信号频谱图分别输入卷积神经网络进行训练，训练时，先计算训练数据库和测试数据库语音信号频谱图分别对应的全连接层输出之间的最大均值差异，之后计算训练数据库softmax层输出以及其情感类别标签之间的交叉熵，最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数，完成网络训练；(5)获取待识别的语音信号频谱图，输入训练好的深度卷积神经网络，输出情感类别。本发明准确率更高。

Description

一种基于深度域适应性卷积神经网络的跨库语音情感识别方法

技术领域

本发明涉及语音数据情感识别，尤其涉及一种基于深度域适应性卷积神经网络的跨库语音情感识别方法。

背景技术

语音情感识别是当前模式识别与人工智能领域的一个研究热点，应用前景广阔。传统的语音情感识别往往在单个语音数据库上进行训练与测试，而在实际生活中，训练集与测试集的语音数据往往有很大的差异，例如来自不同的语言，故在不同语音数据库上进行语音情感识别更贴近于真实的生活场景，这是一种跨库语音情感识别问题。跨库语音情感识别的难点在于提取合适的语音特征并缩小源数据库数据以及目标数据库数据的特征分布差异。传统的语音特征往往只能体现单一的语音特性，而语谱图可以同时体现语音信号在时域与频域上的特性。

深度卷积神经网络是一种有效提取高维数据特征的手段，其具有反馈与学习的功能，在语音情感识别的领域中应用广泛。最大均值差异(Maximum Mean Discrepancy， MMD)是一种衡量不同域之间数据分布差异的有效方法，可以有效表示不同语音数据库之间的特征分布差异。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种基于深度域适应性卷积神经网络的跨库语音情感识别方法，该方法识别准确率更高。

技术方案：本发明所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法包括：

(1)获取两个语言不同的语音数据库，分别作为训练数据库和测试数据库，其中，每个语音数据库中包括有若干语音信号和对应的情感类别标签；

(2)将训练数据库和测试数据库中的语音信号分别进行预处理，得到每段语音信号的频谱图；

(3)建立深度域适应性卷积神经网络，所述深度域适应性卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和softmax层；

(4)将训练数据库和测试数据库的语音信号频谱图分别输入建立的深度域适应性卷积神经网络进行训练，其中，在训练网络时，先计算训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异，之后计算训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵，最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数，完成网络训练；

(5)将待识别的语音信号进行预处理，得到其频谱图，并将频谱图输入训练好的深度卷积神经网络，输出中维数最大的类别即为识别的情感类别。

进一步的，步骤(3)中所述第一卷积层和所述第二卷积层的输入和输出间的关系式为：

Y_C＝φ(conv(W_C,X_C)+b_C)

式中，Y_C表示第一卷积层或第二卷积层的输出，X_C表示第一卷积层或第二卷积层的输入，W_C、b_C分别为权重参数、偏置参数，通过网络训练得到，conv()表示卷积函数，φ为激活函数，且φ(·)＝max(0,·)。

所述第一全连接层和第二全连接层的输入和输出间的关系式为：

Y_d＝φ(W_dX_d+b_d)

式中，Y_d表示第一卷积层或第二卷积层的输出，X_d表示第一卷积层或第二卷积层的输入，W_d、b_d分别为权重参数、偏置参数，通过网络训练得到，φ为激活函数，且φ(·)＝max(0,·)。

进一步的，步骤(4)中所述训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异的计算方法为：

式中，MMD(D_s,D_t)为D_s、D_t的最大均值差异，

为训练数据库语音信号频谱图对应的全连接层输出，元素为M个，

为测试数据库语音信号频谱图对应的全连接层输出，元素为N个，k()表示高斯核函数。

所述训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵的计算方法为：

式中，C_e表示交叉熵值，U为softmax层输出个数，x表示语音信号的标号，p(x)表示训练数据库中存储的语音信号x的语音情感类别，q(x)表示语音信号x输入到深度域适应性卷积神经网络后，其softmax层输出的情感类别，即预测的情感类别。

所述网络损失的计算方法为：

Loss_sum＝C_e+λMMD(D_s,D_t)

式中，Loss_sum表示网络损失，C_e表示交叉熵值，MMD(D_s,D_t)表示最大均值差异，λ表示权衡系数。

有益效果：本发明与现有技术相比，其显著优点是：本发明提供了一种基于深度域适应性卷积神经网络的跨库语音情感识别方法，该方法使用频谱图作为特征输入，采用跨库进行网络训练，神经网络可以有效地提取语谱图所蕴含的情感特征，根据特征分布的最大均值差异的梯度下降及反向传播算法可以有效地缩小训练数据库数据与测试数据库数据的特征差异，使得识别准确率更高。

附图说明

图1是本发明提供的基于深度域适应性卷积神经网络的跨库语音情感识别方法的流程示意图；

图2是两个不同语言的语音信号的频谱图样本；

图3是本发明建立的深度域适应性卷积神经网络的结构示意图；

图4是对本发明建立的深度域适应性卷积神经网络进行训练的流程示意图。

具体实施方式

本实施例提供了一种基于深度域适应性卷积神经网络的跨库语音情感识别方法，如图1所示，包括以下步骤：

(1)获取两个语言不同的语音数据库，分别作为训练数据库和测试数据库，其中，每个语音数据库中包括有若干语音信号和对应的情感类别标签。

(2)将训练数据库和测试数据库中的语音信号分别进行预处理，得到每段语音信号的频谱图。语音信号频谱图如图2所示。

(3)建立深度域适应性卷积神经网络，所述深度域适应性卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和softmax层，具体如图3所示。

其中，第一卷积层的卷积核尺寸为3×3，通道数为3，步长为1，数目为16，第一池化层的尺寸为3×3，步长为2，第二卷积层的卷积核尺寸为3×3,通道数为16，数目为16，步长为1，第二池化层的尺寸为3×3，步长为1，两层全连接层的输出皆为128 维，最终softmax的维数为识别的情感种类数，最大的一维即代表识别的情感类别。

其中，所述第一卷积层和所述第二卷积层的输入和输出间的关系式为：

Y_C＝φ(conv(W_C,X_C)+b_C)

Y_d＝φ(W_dX_d+b_d)

(4)将训练数据库和测试数据库的语音信号频谱图分别输入建立的深度域适应性卷积神经网络进行训练，其中，在训练网络时，如图4所示，先计算训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异，之后计算训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵，最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数，完成网络训练。

其中，所述训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异的计算方法为：

式中，MMD(D_s,D_t)为D_s、D_t的最大均值差异，

σ取[2.0,5.0,10.0,20.0,40.0]。该计算中，全连接层可以是第一全连接层，也可以是第二全连接层。

式中，C_e表示交叉熵值，U为softmax层输出个数，x表示语音信号的标号，p(x)表示训练数据库中存储的语音信号x的语音情感类别，q(x)表示语音信号x输入到深度域适应性卷积神经网络后，其softmax层输出的情感类别，即预测的情感类别，如图4中所示Y_s。

所述网络损失的计算方法为：

Loss_sum＝C_e+λMMD(D_s,D_t)

下面以Berlin情感语音数据库与CASIA情感语音数据库之间的跨库语音情感识别任务为例进行验证，验证结果如表1所示：

表1

训练库

测试库

SVM

DCNN

TKL

TCA

D-FC1

D-FC2

Berlin

CASIA

25.10％

34.50％

28.40％

28.10％

38.10％

34.90％

CASIA

Berlin

36.76％

38.54％

38.24％

37.99％

48.39％

38.02％

其中SVM、TKL以及TCA为基于传统的IS09特征集(含梅尔频率倒谱系数、过零率等)与支持向量机、迁移核学习以及迁移成分学习结合的跨库语音情感识别方法， DCNN为仅使用语谱图及神经网络无领域自适应层的方法，D-FC1及D-FC2为基于卷积神经网络的领域自适应层分别位于第一及第二个全连接层的深度领域自适应性卷积神经网络模型。

实验结果表明，基于所使用的卷积神经网络及其第一个全连接层的深度领域自适应性卷积神经网络模型取得了最高的跨库语音识别率。在Berlin情感语音数据可与CASIA情感语音数据之间的跨库语音情感识别任务中，本发明提出的基于模型相对于其它传统的方法起到了更好的识别结果。相较于其他方法，本发明成功地增加了神经网络模型的鲁棒性，提高了跨库语音情感识别的准确率。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于该方法包括：

2.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(3)中所述第一卷积层的输入和输出间以及所述第二卷积层的输入和输出间的关系式为：

Y_C1＝φ(conv(W_C1,X_C1)+b_C1)

式中，Y_C1表示第一卷积层输出，X_C1表示第一卷积层输入，W_C1、b_C1分别为权重参数、偏置参数，通过网络训练得到，conv()表示卷积函数，φ为激活函数，且φ(·)＝max(0，·)；

Y_C2＝φ(conv(W_C2，X_C2)+b_C2)

式中，Y_C2表示第二卷积层的输出，X_C2表示第二卷积层的输入，W_C2、b_C2分别为权重参数、偏置参数，通过网络训练得到。

3.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(3)中所述第一全连接层的输入和输出间以及第二全连接层的输入和输出间的关系式为：

Y_d1＝φ(W_d1X_d1+b_d1)

式中，Y_d1表示第一全连接层的输出，X_d1表示第一全连接层的输入，W_d1、b_d1分别为权重参数、偏置参数，通过网络训练得到，φ为激活函数，且φ(·)＝max(0,·)；

Y_d2＝φ(W_d2X_d2+b_d2)

式中，Y_d2表示第二全连接层的输出，X_d2表示第二全连接层的输入，W_d2、b_d2分别为权重参数、偏置参数，通过网络训练得到。

4.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(4)中所述训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异的计算方法为：

式中，MMD(D_s，D_t)为D_s、D_t的最大均值差异，

5.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(4)中所述训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵的计算方法为：

6.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(4)中所述网络损失的计算方法为：

Loss_sum＝C_e+λMMD(D_s,D_t)

式中，Loss_sum表示网络损失，C_e表示交叉熵值，MMD(D_s，D_t)表示最大均值差异，λ表示权衡系数。

7.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法，其特征在于：步骤(4)中计算最大均值差异时涉及的全连接层为第一全连接层或第二全连接层。