CN113555038A

CN113555038A - 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统

Info

Publication number: CN113555038A
Application number: CN202110758039.XA
Authority: CN
Inventors: 郑文明; 路成; 宗源; 唐传高; 李溯南; 连海伦; 赵力
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-26
Anticipated expiration: 2041-07-05
Also published as: CN113555038B

Abstract

本发明公开了一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统，对情感语音数据进行预处理，获得高质量的情感语音样本，从所述情感语音样本中提取出单通道梅尔频谱作为时频特征，对所述时频特征经过深度卷积神经网络，得到语音情感的局部特征和全局特征，作为分层特征，建立无监督的深度领域对抗神经网络，将有标签的训练数据和无标签的测试数据提取分层特征后作为输入，对深度领域对抗网络进行训练，将待识别的情感语音数据预处理后输入训练好的深度领域对抗网络，得到语音情感识别结果。本发明识别效果更好、识别率更高。

Description

基于无监督领域对抗学习的说话人无关语音情感识别方法及系统

技术领域

本发明涉及语音处理技术领域，尤其是一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统。

背景技术

语音情感识别旨在使机器能够通过语音信号判别人类的情感状态(如高兴、悲伤、惊讶等)，是情感计算和模式识别领域的重要研究方向。目前国内外许多研究机构(如美国MIT媒体实验室、英国帝国理工学院GLAM实验室、中科院自动化所等)均致力于语音情感识别研究，已经取得了一系列阶段性的成果，并开始尝试应用于服务、医疗等领域。

但是现有语音情感识别技术在实用中仍面临重大困境，即目前方法的开发与评测往往都是基于实验室录制的数据集。这些语音数据集与真实场景下的语音数据相比存在较大的差异，使得训练的模型在新数据集上识别性能大大降低。具体来说，真实场景下的语音数据易受到环境噪声、说话人、语种、录制设备等因素差异的影响，使得语音中情感特征的分布存在显著差异从而造成情感信息的表征异常困难，严重制约语音情感识别方法的泛化性能，为鲁棒语音情感识别带来了巨大的挑战。特别是语音信号中与说话人相关的信息，对语音情感的表征影响极大。这种影响主要表现在：(1)不同说话人表达同种情感的差异较大；(2)说话人相关的特征与情感特征容易混淆，例如，不同的人说话时音调有高有低，而不同的情感在表达时也有类似的现象，如高兴、惊讶等高唤醒度的情感在表达时音调较高，悲伤、厌恶等低唤醒度的情感在表达时音调较低。这些影响会导致训练数据和测试数据的语音情感信息特征分布产生鸿沟。因此，如何消除域间特征分布差异对语音情感信息表征的影响，已成为真实场景下鲁棒语音情感识别亟需突破的关键技术难题。

受制于以上限制，当前说话人无关语音情感别识别的研究的性能远低于说话人有关的语音情感识别性能，距离实际应用仍有一段距离。此外，领域自适应方法在跨领域视觉任务上的成功也为消除语音数据中特征分布差异提供了一条有效的途径，但目前相关研究仍处于初级阶段。

发明内容

本发明所要解决的技术问题在于，提供一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统，识别效果更好、识别率更高。

为解决上述技术问题，本发明提供一种基于无监督领域对抗学习的说话人无关语音情感识别方法，包括如下步骤：

(1)获取若干源域和目标域的情感语音样本，去噪后获得干净的语音信号；

(2)对干净的语音信号进行短时离散傅里叶变换获得频谱特征，作为网络的输入；

(3)将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征；

(4)对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作；

(5)对源域的高层特征经过情感判别器进行分类；

(6)对源域的高层特征经过说话人判别器进行分类；

(7)对源域和目标域的高层特征经过领域判别器进行分类；

(8)对深度特征提取器、类别判别器、说话人判别器、领域判别器进行联合训练，得到最优模型参数；

(9)将待识别的情感语音样本输入训练好的深度特征提取器和情感判别器，得到识别出的语音情感。

优选的，步骤(2)中，对干净的语音信号进行短时离散傅里叶变换获得频谱特征，作为网络的输入具体包括如下步骤：

(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作；

(2-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱；

(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数，得到对数梅尔频谱特征作为网络的输入。

优选的，步骤(3)中，将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征具体包括如下步骤：

(3-1)将源域和目标域的特征同时输入深度特征提取网络；

(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块，其中每个卷积模块均包含2D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)、最大平均池化三个操作，每个全连接模块包含一个全连接操作。

优选的，步骤(4)中，对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作具体包括如下步骤：

(4-1)源域和目标域的对数梅尔频谱经过深度特征提取网络分别获得源域的局部特征L_s和全局特征G_s以及目标域的局部特征L_t和全局特征G_t；

(4-2)分别计算源域与目标域的局部特征和全局特征的分布距离D^l＝MK-MMD(L_s,L_t),D^g＝MK-MMD(G_s,G_t)；

(4-3)对计算得到的局部特征分布距离进行弱对齐策略，对全局特征分布进行强对齐策略得到领域分布距离D＝λ_l·D^g+λ_g·D^g。

优选的，步骤(5)中，对源域的高层特征经过情感判别器进行分类具体包括如下步骤：

(5-1)对源域的高层特征G_s经过情感判别器进行情感分类；

(5-2)情感判别器为一个三层的全连接网络，其隐节点维度分别为4096、256、情感类别数c。

优选的，步骤(6)中，对源域的高层特征经过说话人判别器进行分类具体包括如下步骤：

(6-1)对源域的高层特征G_s经过说话人判别器进行说话人分类；

(6-2)说话人判别器为一个三层的全连接网络，其隐节点维度分别为4096、100、源域说话人数p。

优选的，步骤(7)中，对源域和目标域的高层特征经过领域判别器进行分类具体包括如下步骤：

(7-1)对源域和目标域的高层特征G_s和G_t经过领域判别器进行领域分类；

(7-2)领域判别器为一个三层的全连接网络，其隐节点维度分别为4096、100、2。

相应的，一种基于无监督领域对抗学习的说话人无关语音情感识别系统，包括：

样本预处理模块，用于获取若干语音样本，预处理后转换成干净的语音信号；

对数梅尔频谱特征提取模块，用于从预处理后的语音样本中提取对数梅尔频谱特征

分层特征提取模块，用于对梅尔谱特征提取局部特征和全局特征；

分层特征分布对齐模块，用于对源域-目标域的局部特征分布进行强对齐以及对全局特征分布进行弱对齐；

情感判别器模块，用于对源域高层特征进行情感类别分类；

说话人判别器模块，用于对源域高层特征进行说话人类别分类；

领域判别器模块，用于对源域和目标域的高层特征进行领域类别分类；

无监督领域对抗学习网络训练模块，用于建立由分层特征提取网络、分层特征分布对齐网络、情感判别网络、说话人判别网络、领域判别网络合并而成的无监督领域对抗学习网络，将每路对应特征作为输入，对无监督领域对抗学习网络进行训练；

语音情感识别模块，用于将待识别的语音样本输入训练好的无监督领域对抗学习网络，得到识别出的语音情感。

优选的，样本预处理模块具体包括：重采样单元，用于将所述语音样本进行重采样至16k HZ；去噪单元，用于将重采样后的语音信号进行去噪处理得到干净的语音信号；对数梅尔频谱特征提取模块具体包括：分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征；分层特征提取模块具体包括：局部特征提取单元，用于获取所述源域和目标域语音样本的局部特征；全局特征提取单元，用于获取所述源域和目标域语音样本的全局特征；分层特征分布对齐模块具体包括：局部特征对齐单元，用于对所述源域和目标域语音样本的局部特征进行强对齐；全局特征对齐单元，用于对所述源域和目标域语音样本的全局特征进行弱对齐。

优选的，情感判别器模块具体包括：情感特征映射单元，用于对所述源域语音样本的高层特征进行情感特征空间映射；情感特征分类单元，用于对所述源域语音样本的情感特征进行分类预测；说话人判别器模块具体包括：说话人特征映射单元，用于对所述源域语音样本的高层特征进行说话人特征空间映射；说话人特征分类单元，用于对所述源域语音样本的说话人特征进行分类预测；领域判别器模块具体包括：领域特征映射单元，用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射；领域特征分类单元，用于对所述源域-目标域语音样本的领域特征进行分类预测。

本发明的有益效果为：本发明首先通过样本预处理模块和特征提取模块获取的特征鲁棒性更好，然后通过分层特征提取模块和分层特征对齐模块获得具有与人无关但与情感有关的泛化性的特征，最后利用情感判别器模块、说话人判别器模块以及领域判别器模块进一步增强获得特征的情感判别性和与说话人无关的泛化性，本发明识别效果更好、识别率更高。

附图说明

图1为本发明的方法流程示意图。

图2为本发明与其他方法在Emo-DB数据集下的实验结果对比示意图。

图3为本发明与其他方法在eNTERFACE数据集下的实验结果对比示意图。

图4为本发明与其他方法在CASIA数据集下的实验结果对比示意图。

图5为本发明在Emo-DB数据集下的归一化混淆矩阵。

图6为本发明在eNTERFACE数据集下的归一化混淆矩阵。

图7为本发明在CASIA数据集下的归一化混淆矩阵。

具体实施方式

如图1所示，一种基于无监督领域对抗学习的说话人无关语音情感识别方法，包括如下步骤：

(1)获取若干源域和目标域的情感语音样本，去噪后获得干净的语音信号。

(2)对干净的语音信号进行短时离散傅里叶变换获得频谱特征，作为网络的输入。

该步骤具体包括：(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作；(2-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱；(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数，得到对数梅尔频谱特征作为网络的输入。

本实施例中，分帧、加窗、短时离散傅里叶变换以及梅尔滤波器组均采用Librosa开源语音信号处理库，该处理库采用汉明窗，窗长25ms，帧间重叠率50％，fft点数512，梅尔滤波器40个。

(3)将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征。

该步骤具体包括：(3-1)将源域和目标域的特征同时输入深度特征提取网络；(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块，其中每个卷积模块均包含2D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)、最大平均池化三个操作，每个全连接模块包含一个全连接操作。

本实施例中五个卷积的尺寸分别为(3，3，32)、(3，3，64)、(3，3，128)、(3，3，256)、(3，3，512)和(3，3，512)，两个全连接的尺寸为(7*7*512，4096)，(4096，4096)。

(4)对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作。

该步骤具体包括：(4-1)源域和目标域的对数梅尔频谱经过深度特征提取网络分别获得源域的局部特征L_s和全局特征G_s以及目标域的局部特征L_t和全局特征G_t；(4-2)分别计算源域与目标域的局部特征和全局特征的分布距离D^l＝MK-MMD(L_s,L_t),D^g＝MK-MMD(G_s,G_t)；(4-3)对计算得到的局部特征分布距离进行弱对齐策略，对全局特征分布进行强对齐策略得到领域分布距离D＝λ_l·D^g+λ_g·D^g。

本实施例中，源域和目标域语音样本的局部特征L_s维度分别为64、128、256、512、1024、1024；它们的全局特征维度为4096、4096；多核均值差异距离采用的是高斯核函数为

k(X_s,X_t)＝<φ(x_s),φ(x_t)>。

(5)对源域的高层特征经过情感判别器进行分类。

该步骤具体包括：(5-1)对源域的高层特征G_s经过情感判别器进行情感分类；(5-2)情感判别器为一个三层的全连接网络，其隐节点维度分别为4096、256、情感类别数c。

本实施例中，根据具体数据库的不同情感类别c的设置为：Emo-DB的情感类别c为7，eNTERFACE的情感类别c为6，CASIA的情感类别c为6。

(6)对源域的高层特征经过说话人判别器进行分类。

该步骤具体包括：(6-1)对源域的高层特征G_s经过说话人判别器进行说话人分类；(6-2)说话人判别器为一个三层的全连接网络，其隐节点维度分别为4096、100、源域说话人数p。

本实施例中，根据具体数据库中源域数据的不同说话人数量p的设置为：Emo-DB的说话人数量p为10，eNTERFACE的说话人过多进行分组数量p为5，CASIA的说话人数量p为4。

(7)对源域和目标域的高层特征经过领域判别器进行分类。

该步骤具体包括：(7-1)对源域和目标域的高层特征G_s和G_t经过领域判别器进行领域分类；(7-2)领域判别器为一个三层的全连接网络，其隐节点维度分别为4096、100、2。

(8)对深度特征提取器、类别判别器、说话人判别器、领域判别器进行联合训练，得到最优模型参数。

本实施例中，特征提取器和类别判别器采用正向梯度，而说话人判别器和领域判别器采用反向梯度，利用梯度反转层(GRL)来实现。

(6)将待识别的情感语音样本输入训练好的深度特征提取器和情感判别器，得到识别出的语音情感。

其中，在训练好神经网络后进行测试，测试结果如下：

为验证本发明的无监督领域对抗网络的有效性与必要性，在Emo-DB、eNTERFACE和CASIA数据集上进行了实验，选取加权平均召回率(WAR)和不加权平均召回率(UAR)作为评价指标，结果如图2、图3和图4所示，可以观察到本发明的无监督领域对抗网络在三个数据集上均取得了最好的效果，其中分层特征分布对齐模块和判别器模块的加入对结果的提升起到了关键作用。为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题，我们对于无监督领域对抗网络在三个数据集上的结果计算了归一化混淆矩阵，如图5、图6和图7所示。

本实施例还提供了一种基于无监督领域对抗网络的说话人无关语音情感识别系统，包括：

情感判别器模块，用于对源域高层特征进行情感类别分类；

其中，样本预处理模块具体包括：

重采样单元，用于将所述语音样本进行重采样至16k HZ；

去噪单元，用于将重采样后的语音信号进行去噪处理得到干净的语音信号。

其中，对数梅尔频谱特征提取模块具体包括：

分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；

频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；

对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征。

其中，分层特征提取模块具体包括：

局部特征提取单元，用于获取所述源域和目标域语音样本的局部特征；

全局特征提取单元，用于获取所述源域和目标域语音样本的全局特征。

其中，分层特征分布对齐模块具体包括：

局部特征对齐单元，用于对所述源域和目标域语音样本的局部特征进行强对齐；

全局特征对齐单元，用于对所述源域和目标域语音样本的全局特征进行弱对齐。

其中，情感判别器模块具体包括：

情感特征映射单元，用于对所述源域语音样本的高层特征进行情感特征空间映射；

情感特征分类单元，用于对所述源域语音样本的情感特征进行分类预测。

其中，说话人判别器具体包括：

说话人特征映射单元，用于对所述源域语音样本的高层特征进行说话人特征空间映射；

说话人特征分类单元，用于对所述源域语音样本的说话人特征进行分类预测。

其中，领域判别器模块具体包括：

领域特征映射单元，用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射；

领域特征分类单元，用于对所述源域-目标域语音样本的领域特征进行分类预测。

Claims

1.基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，包括如下步骤：

(3)将源域和目标域的频谱特征输入深度特征提取器获得分层的语音情感特征；

(5)对源域的高层特征经过情感判别器进行分类；

(6)对源域的高层特征经过说话人判别器进行分类；

(7)对源域和目标域的高层特征经过领域判别器进行分类；

2.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(2)中，对干净的语音信号进行短时离散傅里叶变换获得频谱特征，作为网络的输入具体包括如下步骤：

(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作；

3.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(3)中，将源域和目标域的频谱特征输入深度特征提取器获得分层的语音情感特征具体包括如下步骤：

(3-1)将源域和目标域的特征同时输入深度特征提取网络；

(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块，其中每个卷积模块均包含2D卷积、批归一化、线性激活函数、最大平均池化三个操作，每个全连接模块包含一个全连接操作。

4.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(4)中，对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作具体包括如下步骤：

5.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(5)中，对源域的高层特征经过情感判别器进行分类具体包括如下步骤：

(5-1)对源域的高层特征G_s经过情感判别器进行情感分类；

6.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(6)中，对源域的高层特征经过说话人判别器进行分类具体包括如下步骤：

7.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法，其特征在于，步骤(7)中，对源域和目标域的高层特征经过领域判别器进行分类具体包括如下步骤：

8.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统，其特征在于，包括：

情感判别器模块，用于对源域高层特征进行情感类别分类；

9.如权利要求8所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统，其特征在于，样本预处理模块具体包括：重采样单元，用于将所述语音样本进行重采样至16k HZ；去噪单元，用于将重采样后的语音信号进行去噪处理得到干净的语音信号；对数梅尔频谱特征提取模块具体包括：分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征；分层特征提取模块具体包括：局部特征提取单元，用于获取所述源域和目标域语音样本的局部特征；全局特征提取单元，用于获取所述源域和目标域语音样本的全局特征；分层特征分布对齐模块具体包括：局部特征对齐单元，用于对所述源域和目标域语音样本的局部特征进行强对齐；全局特征对齐单元，用于对所述源域和目标域语音样本的全局特征进行弱对齐。

10.如权利要求8所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统，其特征在于，情感判别器模块具体包括：情感特征映射单元，用于对所述源域语音样本的高层特征进行情感特征空间映射；情感特征分类单元，用于对所述源域语音样本的情感特征进行分类预测；说话人判别器模块具体包括：说话人特征映射单元，用于对所述源域语音样本的高层特征进行说话人特征空间映射；说话人特征分类单元，用于对所述源域语音样本的说话人特征进行分类预测；领域判别器模块具体包括：领域特征映射单元，用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射；领域特征分类单元，用于对所述源域-目标域语音样本的领域特征进行分类预测。