CN115512721A

CN115512721A - 基于pdan的跨库语音情感识别方法及装置

Info

Publication number: CN115512721A
Application number: CN202211010176.6A
Authority: CN
Inventors: 宗源; 连海伦; 郑文明; 常洪丽; 张佳成; 路成; 唐传高
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-23

Abstract

本发明公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置，方法包括：(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库；(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本，并提样本的语谱图特征；(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型，此模型以卷积神经网络为主干网络，通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练，从而消除不同领域间的分布差异；(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型；(5)提取待识别语音语谱图特征，输入训练好的模型，识别出情感类别。本发明识别准确率更高。

Description

基于PDAN的跨库语音情感识别方法及装置

技术领域

本发明涉及语音情感识别技术，尤其涉及一种基于渐进式分布适配神经网络的跨库语音情感识别方法及装置

背景技术

语音是人类日常生活中的一种主要交流方式，其中包含着丰富的情感信息。想象一下，如果计算机能够从人类的语音信号中理解情绪状态，那么人机交互无疑会更加自然。因此，从语音信号中自动识别情绪状态的研究，例如，语音情感识别(SER)在情感计算、人机交互和语音信号处理领域引起了广泛关注。在过去的几十年中，已经提出了许多性能良好的SER方法，并在广泛使用的公开可用的语音情感数据库上取得了可喜的性能。然而，值得注意的是，他们中的大多数没有考虑训练和测试语音信号可能由不同相同的麦克风或在不同的环境下记录的现实场景。在这种情况下，训练和测试语音样本之间可能存在特征分布不匹配，因此这些原本表现良好的SER方法的性能可能会急剧下降，这就带来了SER中一项有意义且更具挑战性的任务，即跨库SER。与传统的 SER不同，跨库SER中的标记训练和未标记测试样本来自不同的语音数据库库。遵循跨库SER中的命名约定，将在本文件中将训练和测试样本/数据库/特征集称为源集和目标集。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种识别准确度更高的基于渐进式分布适配神经网络的跨库语音情感识别方法。

技术方案：本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别方法包括：

(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库；

(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本，并提取源域样本和目标域样本的语谱图特征；

(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型，此模型以卷积神经网络为主干网络，通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练，从而消除不同领域间的分布差异；

(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型；

(5)对于待识别语音，提取语谱图特征，输入训练好的模型，得到待识别语音的情感类别。

进一步的，步骤(2)具体包括：

(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本；

(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理；

(2-3)对预处理后的样本进行短时离散傅里叶变换，得到语谱图特征。

进一步的，所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括：

卷积神经网络，包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层；

损失计算模块，分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。

进一步的，所述第一损失计算单元连接第三全连接层，具体用于基于下式计算情感辨别损失：

式中，

是情感辨别损失，

是连接源域样本语谱图特征及其相应情感标签的交叉熵损失，N_s表示源域样本数目，g₁、g₂和g₃分别表示第一全连接层、第二全连接层、第三全连接层的参数，

表示第i个源域样本的语谱图特征，f表示卷积神经网络的参数，

表示第i个源域样本的情感标签。

进一步的，所述第二损失计算单元连接所述第一全连接层，用于基于下式计算边缘分布差异损失：

式中，

是边缘分布损失，N_s表示源域样本数目，N_t表示目标域样本数目，g₁表示第一全连接层参数，

表示第i个源域样本的语谱图特征，

表示第i个目标域样本的语谱图特征，f表示卷积神经网络的参数，Φ(·)是核映射算子，

代表再生核希尔伯特空间。

进一步的，所述第三损失计算单元连接所述第三全连接层，用于基于下式计算条件分布适配损失：

式中，

表示条件分布适配损失，

和

分别表示源域和目标域属于第j类情感的第i个样本，C表示情感类别数，

和

分别表示源域和目标域中属于第j类情感样本数，且满足

和

N_s表示源域样本数目，N_t表示目标域样本数目，f表示卷积神经网络的参数，g₁、g₂和g₃分别表示第一全连接层、第二全连接层、第三全连接层的参数，

代表再生核希尔伯特空间。

进一步的，所述第四损失计算单元连接所述第二全连接层，用于基于下式计算情绪类感知条件分布适应正则化项：

式中，C_r是粗糙情感类别数，C_r小于情感类别数C，

和

分别表示源域和目标域属于第j类情感的第i个样本，Φ(·)是核映射算子，

和

分别表示源域和目标域中属于第j类情感样本数，且满足

和

N_s表示源域样本数目，N_t表示目标域样本数目，f表示卷积神经网络的参数，g₁、g₂分别表示第一全连接层、第二全连接层的参数，

代表再生核希尔伯特空间。

进一步的，所述总损失计算单元用于按照下式计算总损失：

式中，

为总损失，λ₁、λ₂、和λ₃是使得

最小的权衡系数。

进一步的，步骤(4)具体包括：

(4-1)对跨库语音情感识别模型的参数进行随机初始化；

(4-2)预测目标域样本的伪情感标签

(4-3)根据

计算总损失

(4-4)根据总损失

使用经典的随机梯度下降优化算法更新跨库语音情感识别模型的参数；

(4-5)判断总损失是否收敛，若不收敛，则根据当前跨库语音情感识别模型的参数，更新伪情感标签

并返回步骤(4-3)，若收敛则网络训练完成。

本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

有益效果：本发明与现有技术相比，其显著优点是：

1、本发明提出了一种新的端到端深度迁移学习模型，称为渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks，PDAN)，以应对跨库SER任务。与现有的大多数方法不同，PDAN可以利用深度神经网络和语音频谱的非线性映射能力，直接从原始语音信号中学习跨库不变和情感判别语音特征。

2、本发明通过向不同的全连接层添加三个不同的MMD损失函数来逐步适配源语音样本和目标语音样本之间的特征分布；

3、本发明准确性更高。

附图说明

图1是本发明提供的基于渐进式分布适配神经网络的跨库语音情感识别方法的一个实施例的流程示意图；

图2是本发明提供的的渐进式分布适配神经网络的结构图。

具体实施方式

本实施例提供了一种基于渐进式分布适配神经网络的跨库语音情感识别方法，如图 1所示，包括：

(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库。

(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本，并提取源域样本和目标域样本的语谱图特征。

该步骤包括：

(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理；

(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型，此模型以卷积神经网络为主干网络，通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练，从而消除不同领域间的分布差异。

本发明建立的基于渐进式分布适配神经网络的跨库语音情感识别模型如图2所示，具体包括：卷积神经网络和损失计算模块，卷积神经网络具体为AlexNet，包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层；损失计算模块分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。

所述第一损失计算单元连接第三全连接层，具体用于基于下式计算情感辨别损失，用于实现使网络具有情感辨别性的目标：

式中，

是情感辨别损失，

表示第i个源域样本的情感标签，对于y_i，如果对应语音样本的标签是第j个情感，则只有第j个条目设为1，其他条目设为0。

所述第二损失计算单元连接所述第一全连接层，用于基于下式计算边缘分布差异损失：

式中，

表示第i个源域样本的语谱图特征，

代表再生核希尔伯特空间(Reproducing Kernel Hilbert Space，RKHS)。

所述第三损失计算单元连接所述第三全连接层，用于基于下式计算条件分布适配损失：

式中，

表示条件分布适配损失，

和

和

分别表示源域和目标域中属于第j类情感样本数，且满足

和

代表再生核希尔伯特空间。

所述第四损失计算单元连接所述第二全连接层，用于基于下式计算情绪类感知条件分布适应正则化项：

式中，C_r是粗糙情感类别数，C_r小于情感类别数C，

和

和

分别表示源域和目标域中属于第j类情感样本数，且满足

和

代表再生核希尔伯特空间。

看起来像是

的升级版本，但是，它们实际上是非常不同的。具体来说，

是根据细粒度情感类别在“效价-唤醒”情绪轮中按照效价维度上的分布将它们分为高效价组与低效价组，然后根据新的分组计算条件MMD。设计

的主要原因是因为细粒度情感在唤醒维度上是不好区分的，因为大多数现有的典型情绪都是高唤醒的，只有少数情绪，例如“伤心”是低唤醒的。换句话说，由于这些情绪中的大多数难以区分，因此在最后一个全连接层中直接对齐源和目标语音特征之间的精细情绪类别感知条件分布差距可能是一项艰巨的任务。然而，有趣的是，沿着效价维度，这些情绪之间的可分离性会显着提高。因为根据分组“愤怒”、“厌恶”、和“恐惧”属于低效价组，而“惊讶” 和“开心”属于高效价组，即使它们在唤醒维度上均属于高唤醒组。出于此原因，将粗粒度情感信息引导的条件分布(即，效价维度的对齐)应用于第二个全连接层中，因此设计

以有利于减小域间差异。根据计算特征分布适配使用的情感类信息的复杂性，可以看出本发明所提模型中的特征分布适应操作呈现出一种渐进的方式，因此将其称之为渐进式分布适配神经网络。

和

主要旨在模型消除域间差异性。这三个损失函数都是基于最大平均差异(Maximum Mean Discrepancy，MMD)计算的。MMD的具体计算公式如下：

其中k(·)是一个核函数，它用计算预定义函数代替了Φ(·)生成的RKHS中向量之间的内积运算。

和

表示X^s,X^t中的第i列。

所述总损失计算单元用于按照下式计算总损失：

式中，

为总损失，λ₁、λ₂、和λ₃是使得

最小的权衡系数。

(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型。

该步骤具体包括：

(4-1)对跨库语音情感识别模型的参数(即，f,g₁,g₂,g₃)进行随机初始化；

(4-2)预测目标域样本的伪情感标签

(4-3)根据

计算总损失

(4-4)根据总损失

使用经典的随机梯度下降优化(Stochastic GradientDescent， SGD)算法更新跨库语音情感识别模型的参数；

并返回步骤(4-3)，若收敛则网络训练完成。

本实施例还提供了一种基于渐进式分布适配神经网络的跨库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

为了评估本发明提出的PDAN模型在跨库语音情感识别任务中的性能，基于 EMO-DB，CASIA，和eNTERFACE三个数据库进行了大量的实验。具体地说，使用上述语音情感数据库中的任意两个作为源和目标样本集，从而获得6个典型的跨库SER 任务，如表1所示，其中B、E、C分别为EmoDB、eNTERFACE、CASIA的缩写，箭头的左右数据库库分别对应源域数据库和目标域数据库。此外，由于这些数据库库具有不同的情感，在每个跨库的SER任务中，提取具有相同情感标签的语音样本，以确保标签的一致性。所选数据库库的详细样本统计如表1所示。此外，对于本方法中的基于高低效价维度信息引导的条件概率分布适配约束项，仍然需要将数据库中离散情感标签根据效价-唤醒度情感轮模型中的情感效价维度重新划分，具体参见表2。在实验中，为了凸显方法设计的通用性。此外选择了多种基于深度学习的领域自适应方法作为对比，包括DAN(Deep Adaptation Networks)、DANN(Domain-Adversarial Neutral Network)、 Deep-CORAL、DSAN(Deep Subdomain AdaptationNetwork)等方法，并以AlexNet作为它们的主干网络。为了同时体现深度神经网络相比于传统方法的优越之处，这里也将 SVM作为基准方法，并选取了一系列优秀且经典的领域自适应方法作为对比，其中包括Transfer Component Analysis(TCA)、Subspace Alignment(SA)、Domain Adaptive Subspace Learning(DoSL)、Geodesic Flow Kernel(GFK)、和Joint Distribution Adaptive Regression(JDAR)。请注意传统方法使用的特征集为INTERSPEECH 2009Emotion Challenge和INTERSPEECH 2010Paralinguistic Challenge。而对于实验结果评价指标，实验中使用加权平均召回率(Unweighted Average Recall,UAR)作为评价标准。所有验证结果如表3所示。

表1

表2

表3

实验结果表明，基于本发明提出的语音情感识别方法，取得了较高的跨语库语音情感识别率。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。