CN114898778A

CN114898778A - 基于注意力时频网络的语音情感识别方法及系统

Info

Publication number: CN114898778A
Application number: CN202210534999.2A
Authority: CN
Inventors: 郑文明; 路成; 宗源; 李溯南; 连海伦; 唐传高; 赵焱
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-12

Abstract

本发明公开了一种基于注意力时频网络的语音情感识别方法及系统，本发明首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好，然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征，最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性，本发明识别效果更好、识别率更高。

Description

基于注意力时频网络的语音情感识别方法及系统

技术领域

本发明涉及语音处理技术领域，尤其是一种基于注意力时频网络的语音情感识别方法及系统。

背景技术

语音情感识别的目的是使机器通过语音信号判别人类所处情感状态(如惊恐、快乐、悲伤等)，已成为情感计算、人机交互等领域的研究热点。国内外许多研究机构(如美国MIT媒体实验室、英国帝国理工学院GLAM实验室、中科院自动化所等)均致力于语音情感识别研究，并开始尝试应用于教育、医疗等领域。

目前语音情感识别技术的难点在于由于语音数据易受到环境噪声、说话人、语种、录制设备等因素差异的影响，使得语音中情感特征的分布存在显著差异从而造成情感信息的表征异常困难，严重制约语音情感识别方法的泛化性能，为鲁棒语音情感识别带来了巨大的挑战。语音信号的时频特性对于语音情感的表征具有重大意义，因此如何挖掘语音的频域和时域信息用于情感特征的提取是鲁棒语音情感识别亟需突破的关键技术难题

发明内容

本发明所要解决的技术问题在于，提供一种基于注意力时频网络的语音情感识别方法及系统，识别效果更好、识别率更高。

为解决上述技术问题，本发明提供一种基于注意力时频网络的语音情感识别方法，包括如下步骤：

(1)获取若干情感语音样本，进行短时离散傅里叶变换获得频谱特征，作为网络的输入；

(2)将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征；

(3)将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征，即时频语音情感特征；

(4)对时频语音情感特征经过情感分类器进行分类；

(5)对基于注意力的频域编码器、基于注意力的时域编码器和情感分类器进行联合训练，得到最优模型参数；

(6)将待识别的情感语音样本输入训练好的基于注意力的频域编码器、基于注意力的时域编码器和情感分类器，得到识别出的语音情感。

优选的，步骤(1)中，对干净的语音信号进行短时离散傅里叶变换获得频谱特征，作为网络的输入具体包括如下步骤：

(1-1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作；

(1-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱；

(1-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数，得到对数梅尔频谱特征作为网络的输入。

优选的，步骤(2)中，将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征具体包括如下步骤：

(2-1)将训练样本的对数梅尔频谱特征输入频域注意力网络得到频域注意力a^f；

(2-2)将频域注意力a^f与频域特征x做广播乘积后与原频域特征按通道加权后求均值得到加权频域特征x′；

(2-3)频域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块，其中卷积模块均包含一个卷积模块操作，乘积模块包含一个广播乘积操作，求和模块包含一个加法操作。

优选的，步骤(3)中，将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征，即时频语音情感特征，具体包括如下步骤：

(3-1)将训练样本的对数梅尔频谱特征输入时域注意力网络得到时域注意力a^t；

(3-2)将时域注意力a^t与时域特征x′做广播乘积后与原时域特征按通道加权后求均值得到加权时域特征，即时频特征x″；

(3-3)时域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块，其中卷积模块均包含一个卷积模块操作，乘积模块包含一个广播乘积操作，求和模块包含一个加法操作。

优选的，步骤(4)中，对时频特征经过情感判别器进行分类具体包括如下步骤：

(4-1)对时频特征x″经过情感判别器进行情感分类；

(4-2)情感判别器为一个二层的全连接网络，其隐节点维度分别为512、情感类别数c。

相应的，一种基于注意力时频网络的语音情感识别系统，包括：

特征提取模块，用于提取语音样本的对数梅尔频谱特征；

频域注意力模块，用于计算梅尔特征的频域注意力；

频域编码器模块，用于对频域注意力加强后的梅尔特征进行频域编码；

时域注意力模块，用于计算梅尔特征的时域注意力；

时域编码器模块，用于对时域注意力加强后的频域特征进行时域编码；

情感分类器模块，用于对时频特征进行情感类别分类；

注意力的时频网络训练模块，用于建立由频域注意力网络、频域编码器网络、时域注意力网络、时域编码器网络、情感分类网络合并而成的时频联合学习网络，将每路对应特征作为输入，对注意力时频网络进行训练；

语音情感识别模块，用于将待识别的语音样本输入训练好的注意力时频网络，得到识别出的语音情感。

优选的，特征提取模块具体包括：分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征。

优选的，频域注意力模块具体包括：频域注意力计算单元，用于获取所述语音样本梅尔特征的频域注意力；频域注意力广播乘积单元，用于获取所述语音样本的频域注意特征。频域编码器模块具体包括：频域特征通道加权平均单元，用于对所述语音样本的频域注意力加权特征；频域编码单元，用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。

优选的，时域注意力模块具体包括：时域注意力计算单元，用于获取所述语音样本梅尔特征的时域注意力；时域注意力广播乘积单元，用于获取所述语音样本的时域注意特征。时域编码器模块具体包括：时域特征通道加权平均单元，用于对所述语音样本的时域注意力加权特征；时域编码单元，用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征，即时频特征。

优选的，情感分类器模块具体包括：情感特征映射单元，用于对所述语音样本的高层特征进行情感特征空间映射；情感特征分类单元，用于对所述语音样本的情感特征进行分类预测。

本发明的有益效果为：本发明首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好，然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征，最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性，本发明识别效果更好、识别率更高。

附图说明

图1为本发明的方法流程示意图。

图2为本发明与其他方法在IEMOCAP数据集下的实验结果对比示意图。

图3为本发明与其他方法在ABC数据集下的实验结果对比示意图。

图4为本发明在IEMOCAP数据集下的归一化混淆矩阵。

图5为本发明在ABC数据集下的归一化混淆矩阵。

具体实施方式

如图1所示，一种基于注意力时频网络的语音情感识别方法，包括如下步骤：

(1)获取情感语音样本，进行短时离散傅里叶变换获得频谱特征，作为网络输入。

该步骤具体包括：(1-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作；(1-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱；(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数，得到对数梅尔频谱特征作为网络的输入。

本实施例中，分帧、加窗、短时离散傅里叶变换以及梅尔滤波器组均采用Librosa开源语音信号处理库，该处理库采用Hamming窗，窗长25ms，帧间重叠率50％，fft点数512，梅尔滤波器80个。

(2)将训练样本的对数梅尔谱特征输入基于基于注意力的频域编码器获得加权频域语音情感特征。

该步骤具体包括：(2-1)将训练样本输入频域注意力网络；(2-2)频域注意力网络包含一个卷积模块和一个广播乘积模块，其中每个卷积模块均包含1D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)三个操作，广播乘积模块包含一个广播乘积操作；(2-3)将频域注意力a^f与频域特征x做广播乘积得到

(2-4)再将x与原特征x按通道相加后平均输入至频域编码器得到增强的频域特征x′；

本实施例中卷积的尺寸分别为(1，5，8)，频域注意力的卷积尺寸(1，5)，通道数为8；频域编码器的卷积个数为2，卷尺尺寸均为(1，5)，通道数为32和8。

(3)加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征，即时频语音情感特征。

该步骤具体包括：(3-1)将训练样本输入时域注意力网络；(3-2)时域注意力网络包含一个卷积模块和一个广播乘积模块，其中每个卷积模块均包含1D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)三个操作，广播乘积模块包含一个广播乘积操作；(3-3)将时域注意力a^t与频域特征x做广播乘积得到

(3-4)再将

与频域特征x′按通道相加后平均输入至时域编码器得到增强的时域特征，即时频特征x″。

本实施例中卷积的尺寸分别为(1，8，8)，时域注意力的卷积尺寸(1，5)，通道数为8；时域域编码器是双向LSTM，隐节点数为512。

(4)对时频特征经过情感分类器进行分类。

该步骤具体包括：(6-1)对源域的高层特征G_s经过情感判别器进行情感分类；(6-2)情感判别器为一个二层的全连接网络，其隐节点维度分别为512、情感类别数c。

本实施例中，根据具体数据库的不同情感类别c的设置为：IEMOCAP的情感类别c为4，ABC的情感类别c为6。

(5)对频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器进行联合训练，得到最优模型参数。

本实施例中，频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器均采用随机梯度下降方法。

(6)将待识别的情感语音样本输入训练好的频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器，得到识别出的语音情感。

其中，在训练好神经网络后进行测试，测试结果如下：

为验证本发明的注意力时频网络的有效性与必要性，在IEMOCAP和ABC数据集上进行了实验，选取加权平均召回率(WAR)和不加权平均召回率(UAR)作为评价指标，结果如图2和图3所示，可以观察到本发明的注意力时频网络在两个数据集上均取得了最好的效果。为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题，我们对于注意力时频网络在两个数据集上的结果计算了归一化混淆矩阵，如图4和图5所示。

本实施例还提供了一种基于注意力时频网络的语音情感识别系统，包括：

特征提取模块，用于提取语音样本的对数梅尔频谱特征；

频域注意力模块，用于计算梅尔特征的频域注意力；

时域注意力模块，用于计算梅尔特征的时域注意力；

情感分类器模块，用于对时频特征进行情感类别分类；

其中，特征提取模块具体包括：

分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；

频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；

对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征。

其中，频域注意力模块具体包括：

频域注意力计算单元，用于获取所述语音样本梅尔特征的频域注意力；

频域注意力广播乘积单元，用于获取所述语音样本的频域注意特征。

其中，频域编码器模块具体包括：

频域特征通道加权平均单元，用于对所述语音样本的频域注意力加权特征；

频域编码单元，用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。

其中，时域注意力模块具体包括：

时域注意力计算单元，用于获取所述语音样本梅尔特征的时域注意力；

时域注意力广播乘积单元，用于获取所述语音样本的时域注意特征。

其中，时域编码器模块具体包括：

时域特征通道加权平均单元，用于对所述语音样本的时域注意力加权特征；

时域编码单元，用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征，即时频特征。

其中，情感分类器模块具体包括：

情感特征映射单元，用于对所述语音样本的高层特征进行情感特征空间映射；

情感特征分类单元，用于对所述语音样本的情感特征进行分类预测。

Claims

1.基于注意力时频网络的语音情感识别方法，其特征在于，包括如下步骤：

(1)获取若干情感语音样本，进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征，作为网络的输入；

(4)对时频语音情感特征经过情感分类器进行分类；

2.如权利要求1所述的基于注意力时频网络的语音情感识别方法，其特征在于，步骤(1)中，对干净的语音信号进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征，作为网络的输入具体包括如下步骤：

3.如权利要求1所述的基于注意力时频网络的语音情感识别方法，其特征在于，步骤(2)中，将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征具体包括如下步骤：

4.如权利要求1所述的基于注意力时频网络的语音情感识别方法，其特征在于，步骤(3)中，将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征，即时频语音情感特征，具体包括如下步骤：

5.如权利要求1所述的基于注意力时频网络的语音情感识别方法，其特征在于，步骤(4)中，对时频特征经过情感判别器进行分类具体包括如下步骤：

(4-1)对时频特征x″经过情感判别器进行情感分类；

6.如权利要求1所述的基于注意力时频网络的语音情感识别方法的识别系统，其特征在于，包括：

特征提取模块，用于提取语音样本的对数梅尔频谱特征；

频域注意力模块，用于计算梅尔特征的频域注意力；

时域注意力模块，用于计算梅尔特征的时域注意力；

情感分类器模块，用于对时频特征进行情感类别分类；

7.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统，其特征在于，特征提取模块具体包括：分帧加窗单元，用于将所述干净的语音信号进行分帧、加窗操作；频谱提取单元，用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱；对数梅尔谱提取单元，用于对提取的频谱进行梅尔尺度滤波和求对数操作，得到对数梅尔频谱特征。

8.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统，其特征在于，频域注意力模块具体包括：频域注意力计算单元，用于获取所述语音样本梅尔特征的频域注意力；频域注意力广播乘积单元，用于获取所述语音样本的频域注意特征。频域编码器模块具体包括：频域特征通道加权平均单元，用于对所述语音样本的频域注意力加权特征；频域编码单元，用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。

9.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统，其特征在于，时域注意力模块具体包括：时域注意力计算单元，用于获取所述语音样本梅尔特征的时域注意力；时域注意力广播乘积单元，用于获取所述语音样本的时域注意特征。时域编码器模块具体包括：时域特征通道加权平均单元，用于对所述语音样本的时域注意力加权特征；时域编码单元，用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征，即时频特征。

10.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统，其特征在于，情感分类器模块具体包括：情感特征映射单元，用于对所述语音样本的高层特征进行情感特征空间映射；情感特征分类单元，用于对所述语音样本的情感特征进行分类预测。