CN111402929B

CN111402929B - 基于域不变的小样本语音情感识别方法

Info

Publication number: CN111402929B
Application number: CN202010185119.6A
Authority: CN
Inventors: 谢跃; 魏萍慕蓉; 梁瑞宇; 梁镇麟; 包永强; 赵力
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2022-09-20
Anticipated expiration: 2040-03-16
Also published as: CN111402929A

Abstract

本发明公开了一种基于域不变的小样本语音情感识别方法，包括如下步骤：从数据库提取具有时序信息的语音特征；建立LSTM模型，确定待训练的参数及初值；通过多任务学习同时进行情感识别与数据库分类，采用交叉熵结合加权系数，建立损失函数；在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法；在梯度反向传播过程中，按各数据库样本比例对共享层进行梯度加权，得到最终的梯度公式；得到训练好的网络参数值；用预训练好的共享层参数来初始化新的模型，并在未知数据集上重训练，然后用重训练的模型对小样本测试集进行测试验证。本发明利用已知的情感数据集为未知小样本数据提供预训练，提高未知小样本数据库的情感识别性能。

Description

基于域不变的小样本语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，具体涉及一种基于域不变的小样本语音情感识别方法。

背景技术

语音情感识别在人机交互中具有重要的应用价值。为了实现语音情感的自动识别，很多学者在机器学习算法方面做了大量的研究工作，如支持向量机，贝叶斯分类器和K近邻等算法。近年来，随着深度学习的发展，其在自动语音情感识别上应用也越来越多，并取得了远高于传统机器学习算法的性能。但该方法需要对大量的标签数据进行训练学习，很难使用与小样本数据集。为缓解深度学习对大量标签数据的依赖性，很多学者从半监督学习、迁移学习等方面展开了深入研究。

半监督学习的主要思想是在监督学习训练过程中加入无标签样本训练，以缓解情感标签获取困难的问题。Zhu等人早期对半监督学习算法的研究主要是利用图方法构建样本空间的结构，并尝试采用了生成模型和判别模型相结合的方法在语音信号情绪分析领域，Deng等人提出了半监督自编码器，用于情绪标签极度缺乏的情况。而针对不同情绪数据域之间的半监督学习，Zong等人提出对不同数据域，同时学习线性映射和无标签样本的虚拟标签。

迁移学习主要是为减少数据集之间的分布差异，使得在训练新样本数据的时候可以借鉴已知大样本数据训练的结论。Thomas通过迁移共享隐层信息来完成小样本数据的训练。中科院自动化所陶老师则在此基础上小样本语种语音识别的迁移问题。在语音情感识别中，Song采用迁移学习探索了跨库情感识别问题，以达到提高小样本数据库上情感识别的鲁棒性。因此小样本数据的训练一直都是以深度学习框架的语音情感识别中亟待解决的问题。

发明内容

发明目的：针对现有技术中语音情感识别对大样本数据的依赖性、难以在小样本数据上取得较好性能的问题，本发明公开了一种基于域不变的小样本语音情感识别方法，解决了小样本数据训练困难的问题，提高了对未知小样本数据集的识别性能。

技术方案：本发明采用如下技术方案：一种基于域不变的小样本语音情感识别方法，其特征在于，包括如下步骤：

步骤A、从不同数据库的原始语音数据样本中提取具有时序信息的语音特征；

步骤B、建立具有处理时序数据能力的LSTM模型，确定待训练的网络参数并初始化；

步骤c、通过多任务学习同时进行情感识别与数据库分类，采用交叉熵建立各自任务的目标损失函数，在任务优先级的基础上，结合各自任务的加权系数，建立总的目标损失函数；

步骤D、对情感识别与数据库分类任务的损失函数分别进行梯度更新，其中，在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法；

步骤E、在梯度反向传播过程中，针对各数据库样本不匹配问题，按各数据库样本比例对共享层进行梯度加权，得到最终的梯度公式；

步骤F、使用由步骤C至步骤D获得的梯度更新算法，在已知数据集上对网络进行预训练，获得网络收敛后的参数；

步骤G、用所述步骤F中预训练好的共享层参数来初始化新的情感模型，并在未知训练集上进行重新训练，然后再对未知小样本测试集进行测试验证，并用召回率对该情感识别网络模型的识别性能进行综合评测。

优选的，所述步骤A中，通过语音帧之间的序列关系保留原始语音数据中的时序信息，从而提取具有时序信息的语音特征。

优选的，所述步骤A中，具有时序信息的语音特征的维度随原始语音数据的实际长度而变化。

优选的，所述步骤B中，待训练的LSTM模型参数为遗忘门的权重与偏置、输入控制门的权重与偏置、候选细胞状态的权重与偏置以及输出门的权重与偏置。

优选的，所述步骤C中，总的目标损失函数为：

其中，L_e和L_D分别为情感识别和数据库分类的目标损失函数，

和

为加权系数。

优选的，所述步骤D中，针对情感识别任务，梯度更新为：

其中，

表示第j个数据库下的情感识别分类任务网络中所有待训练参数，由上层的私有网络参数θ^j _{e_private}和低层的共享网络参数θ_share组成；

为第j个数据库下的情感识别损失函数；

针对数据库分类任务，梯度更新为：

其中，

表示数据库分类任务网络中所有待训练参数，由上层的私有网络参数θ_{D_private}和低层的共享网络参数θ_share组成；λ_adversial为对抗因子；L_D为数据库分类损失函数。

优选的，所述步骤E中，最终的梯度公式为：

其中，j表示数据库的索引，

是第j个数据库的数据库分类损失函数，

是第j个数据库下的情感识别损失函数，λ^j是按数据库样本数量分配的权重系数，

是第j个数据库情感识别任务中上层的私有网络层中的待训练参数。

优选的，所述步骤G中，召回率的计算方法如下：

其中，TP是预测为正，实际为正的样本数量；TN是预测为负，实际为正的样本数量。

有益效果：本发明具有如下有益效果：

1、本发明利用对抗学习与梯度加权方法，有效利用对已知情感数据集的预训练来获取能表达域不变的共享参数，并将预训练的参数用于未知小样本数据集训练的初始化参数中来改善对未知小样本数据集的训练问题，解决了小样本数据训练困难的问题，加速小样本训练时的收敛速度，并提高对未知小样本数据集的识别性能；

2、本发明时通过梯度加权策略解决了训练过程中各数据库样本数量失衡问题；

3、本发明并不要求各个数据库具有完全一样的情感类别，极大提高了情感识别的鲁棒性。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于域不变的小样本语音情感识别方法，如图1所示，包括如下步骤：

步骤A、从来源于不同数据库的原始语音数据样本中提取具有时序信息的语音特征，其中，提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的，详细语音特征集合如下表1所示：

表1

特征	描述
		voiceProb	浊音占比率
HNR	声门谐噪比
		F0	基频
F0raw	无清音门限的原始基频
		F0env	F0包络
jitterLocal	周期一阶差分均值
		jitterDDP	周期二阶差分均值
shimmerLocal	幅度峰值一阶差分均值
		harmonicERMS	声门谐波能量
noiseERMS	声门噪声能量
		pcm_loudness_sma	响度
pcm_loudness_sma_de	响度的回归系数
		mfcc_sma[0]-[14]	14阶梅尔倒谱系数
mfcc_sma_de[0]-[14]	梅尔倒谱的回归系数
		pcm_Mag[0]-[25]	梅尔谱
logMelFreqBand[0]-[7]	梅尔频宽
		lpcCoeff[0]-[7]	线性预测系数
lspFreq[0]-[7]	线性谱频率
		pcm_zcr	过零率

步骤B、建立具有处理时序数据能力的LSTM模型，LSTM模型主要包括遗忘门，输入控制门和输出门，其中，遗忘门表达了其对历史信息的保留程度，计算方法如下：

f_t＝σ(W_f×[C_t-1，h_t-1，x_t]+b_f) (1)

其中，遗忘门f_t受上一时刻的细胞状态C_t-1和隐层输出h_t-1的影响，而x_t为当前时刻的输入，W_f和b_f分别为LSTM模型内待训练的遗忘门的权重与偏置，σ为sigmod激活函数，取值在0到1之间，此处表达了一种分数加权的概念。

输入控制门i_t决定了当前的有效信息量，计算方法如下：

i_t＝σ(W_i×[C_t-1，h_t-1，x_t]+b_i) (2)

其中，W_i和b_i分别为LSTM模型内待训练的输入控制门的权重与偏置。

输出门输出当前细胞状态C_t与当前隐层输出o_t，计算方法如下：

o_t＝σ(W_o×[C_t，h_t-1，x_t]+b_o) (5)

其中，当前细胞状态C_t的更新公式如式(4)所示，它还受候选细胞状态

的影响；候选细胞状态

的计算公式如式(3)所示，其中W_C和b_C为LSTM模型内待训练的候选细胞状态的权重与偏置；当前隐层输出o_t的计算方法如公式(5)所示，其中W_o和b_o是LSTM模型内待训练的输出门的权重与偏置。

步骤C、通过多任务学习同时识别情感类别与数据来源即数据库，由于包含两个任务，需要分别建立训练学习的目标损失函数，此处采用交叉熵作为目标损失函数，其定义如下：

其中，N为样本数量，i为样本的索引，y_i是样本的标注信息，p_i是模型的预测结果。

这两个任务是以情感识别任务为主体的，数据库的分类是其次的，为了表达这种优先级，可分别为它们进行加权操作：

其中，L_e和L_D分别为情感识别和数据库分类的目标损失函数，而

和

则是它们的加权系数，通过该系数可以调节任务的优先级。

步骤D、对情感识别与数据库分类任务的目标损失函数分别进行梯度更新，针对与数据库相关的分类任务，通过梯度取反的对抗学习方法使得低层的共享网络获取域不变的情感特征，期望上层的私有网络能够辨识出数据来源，期望低层的共享网络能够学习到与数据来源无关的情感信息。因而这两层网络梯度更新的方向是不一致的，需要进行梯度取反，计算方法如下：

其中，

表示数据库分类任务网络中所有待训练参数，它由上层的私有网络参数θ_{D_private}和低层的共享网络参数θ_share组成；共享层梯度前的负号表示梯度取反，表示对抗学习的过程；λ_adversial是对抗因子，用于调节对抗程度的参数。

针对与情感识别相关的分类任务，两层网络梯度更新的方向是一致的，第j个数据库下的计算方法如下：

其中，

表示第j个数据库下的情感识别分类任务网络中所有待训练参数，它由上层的私有网络参数θ^j _{_private}和低层的共享网络参数θ_share组成；

是第j个数据库下的情感识别损失函数。

步骤E、针对各数据库样本不匹配问题，模型训练时在梯度反向传播过程中按各数据库样本比例，为梯度加权。

对于上层网络而言数据库是分开独立识别的，因而梯度不影响上层的私有网络训练，对于低层网络而言，由于样本偏差会导致某个数据库过拟合，因此梯度加权仅对低层的共享网络有效。所以最终的梯度公式为：

其中，j表示数据库的索引，

是第j个数据库的数据库分类损失函数，

是第j个数据库下的情感识别损失函数，λ^j是按数据库样本数量分配的权重系数，以解决各个数据库样本数量不平衡问题，因此该权重系数是针对各个数据库进行添加的；

步骤F、使用由步骤C至步骤D获得的梯度更新算法，在已知数据集上对网络进行预训练，获得网络收敛后的参数。

步骤G、用上述的预训练好的共享层参数来初始化新的情感模型，并在未知数据集上进行重新训练，然后再进行测试验证，并对该情感识别网络模型的识别性能进行综合评测。

预训练的数据集是已经公开的已知情感数据集，这种数据集比较多，但各个数据集中标注的情感类别差异较大；未知数据集是指样本数量较小的情感数据集，往往是研究人员根据各自需求采集的新数据，但因为数据采集和标注代价较大，样本数据往往较少，很难直接进行训练学习。

未知数据集划分为训练集和测试集，且训练集和测试集两者无交叠，训练集是重训练时使用的数据集，测试集是测试用的小样本数据集。

其中，重训练的损失函数参见公式(6)的交叉熵；评价标准召回率recall计算方法如下：

为验证本发明所提方法的有效性，在CASIA、IEMOCAP、eNTERFACE、GEMEP、DES和Berlin情感语料库进行了测试。其中CASIA和IEMOCAP含有的样本数量相对较多，所以这两个数据库在实验过程中始终作为预训练的数据使用；其他四个数据库分别作为小样本数据用来验证所提方法的有效性。当其中一种数据库作为小样本数据时，其他5个数据库全部作为预训练的数据集。实验结果如下表2所示，表中的数据均为无加权的平均召回率。

表2

实验	DES	Berlin	eNTERFACE	GEMEP
					基线	62.9％	80.0％	76.5％	46.0％
模型1	71.4％	86.0％	77.7％	47.5％
					模型2	74.3％	86.0％	78.8％	49.5％
模型3	71.4％	81.0％	77.3％	45.0％
					模型4	75.7％	88.0％	80.4％	53.5％

表中的基线模型表示没有预训练的模型，是在该数据库上直接进行训练后测试的，将这样的结果作为一种参考结果。

模型1是一种传统的迁移学习方法，相比于本发明所提方法没有数据库分类任务，也没有梯度加权和梯度反转。相对比直接训练的基线结果，该方法在四个数据库上都有所提高。

模型2是在模型1的基础上添加了梯度加权算法，相比于模型1的结果，该算法在DES、eNTERFACE和GEMEP数据库上分别提高了2.9％，1.1％和2％，在Berlin数据库上保持了原来的性能，因为当识别性能达到一定瓶颈时，再次提升的难度就会增大。该对比实验说明了梯度加权有效解决了样本数量不平衡问题，对改善情感识别性能是有效的，验证了本发明中步骤D的必要性。

模型3与模型2具有相同的结构，但模型3同时初始化小样本训练模型中的共享层和私有层参数，而模型2只将预训练的参数用来初始化共享层。这两个模型的对比实验验证了私有层是否也需要初始化的问题。通过实验结果可以看出，当私有层也初始化之后，情感识别的性能均下降了。因此私有层不适合用预训练的参数进行初始化，因为该层是与具体任务相关的，预训练中的私有层所完成的任务并不是当前小样本所要求的最佳效果。该对比实验解释了步骤F中只初始化共享层的原因。

模型4是本发明所提出的方法，相比无预训练的基线模型，模型4在DES、Berlin、eNTERFACE和GEMEP数据库上情感的无加权平均召回率分别提高了12.8％、8％、3.9％和7.5％；相比于模型2，模型4多了数据库分类任务和梯度反转的对抗学习，模型4在各个数据库上的性能比前周都有所提高。该对比实验说明模型4通过对抗学习使得共享层获得了域不变的情感特征，即与数据源无关的一般化情感特征，这种域不变的情感特征能够加速小样本训练时的收敛速度，并提高小样本识别性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。