CN110400579B

CN110400579B - 基于方向自注意力机制和双向长短时网络的语音情感识别

Info

Publication number: CN110400579B
Application number: CN201910555688.2A
Authority: CN
Inventors: 李冬冬; 王喆; 孙琳煜; 方仲礼; 杜文莉; 张静
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-01-11
Anticipated expiration: 2039-06-25
Also published as: CN110400579A

Abstract

本发明涉及一种基于方向自注意力机制的双向长短时网络的语音情感识别系统，包括如下步骤：先对原始的音频信号提取声学特征，再输入到正反向长短时记忆网络中，输出正反向特征；然后通过自注意力机制操作得到正反向自注意力加权后的输出；对所得到的正反向自注意力加权后的输出分别做均值池化和拼接，并输入到softmax层，将所得到的softmax层的输出和类标一起输入到交叉熵损失函数中，通过验证集选出最适合的网络，最后将测试集的数据放入到训练好的网络中得到最后的情感类别。本发明把自注意力机制引入到循环神经网络中，能够更加容易发现句子内部信号的相关性，并对自注意力机制加入了方向机制，解决了因为信息的缺乏导致分类性能下降的问题。

Description

基于方向自注意力机制和双向长短时网络的语音情感识别

技术领域

本发明涉及语音情感识别技术领域，具体地说，本发明涉及一种基于方向自注意力机制和双向长短时网络的语音情感识别系统。

背景技术

近年来，人机交互引起了越来越多数据科学家的兴趣。为了让人与机器之间的交流更加自然，其目标主要有两个方面：一是让机器理解人类说话的意思，二是让机器识别出人类说话时的情绪。如今计算机可以理解人类说话的意思，但是让机器识别出语音中的情绪却有较大的挑战。

在早期的时候，研究者们通过提取语音信号特征，再利用机器学习分类器对其进行分类。在21世纪初，研究者们利用高斯混合模型或者隐马尔可夫模型来进行分类，之后由于支持向量机的优秀表现，研究者们将分类器替换成了支持向量机，而目前该算法经常作为语音情感识别领域的基线算法。紧接着，由于神经网络的发展，研究者们发现通过神经网络提取高层次特征，再放入别的分类器中(诸如支持向量机和高斯混合模型等等)能够取得不错的效果。

尽管近年来人们利用深度学习技术来分析语音中的情绪变化并取得了不错的效果，但是一般的方法并不能很好地区分语音中的浊音帧和清音帧。而目前处理这种问题的方法主要分为两大类：第一类是手动去除清音帧，第二类是利用算法自适应地学习出哪些是清音帧，哪些是浊音帧。第一类方法通常是根据 pitch来识别，但是这种方法费时费力，并且会较大程度地破坏语音数据的时序性，所以该方法虽然可用，但是有一定的缺陷。第二类方法是利用某种自适应的方法来对清音帧赋予较低的权重，常用的方法包括注意力机制和CTC loss方法。由于CTC loss方法是分配离散权重，其会将非发声段的权重强制地归为0或者将发声段的权重强制地归为1，但是人类情绪的表达往往是循序渐进的，所以对其分配连续权重才是正确可取的方法，而注意力机制恰恰可以很好地做到这一点。

本发明和传统的注意力机制不同，传统的注意力机制只是对时间维度上的数据作softmax变换，得到时序上的权重，这种方法虽然有一定的效果，但是并不能很好地利用信号数据。而本发明所采用的自注意力机制是通过数据自身和自身之间的相似度做softmax变换得到的，其权重矩阵是通过信号之间的内部信息所得到的，能够更加有效地利用句子内部信息。

发明内容

技术问题：本发明所要解决的技术问题是提供一种能够分析语音信号情绪的算法，通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性，进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响，并且让网络更加关注对分类性能帮助较大的时序帧，进而提高分类器在语音情感数据集上的分类精度。

技术方案：首先，将原始数据分为训练集、验证集和测试集。由于语音数据的时序性，本发明通过双向长短时记忆网络对语音特征训练集数据进行解码，再对解码后两个方向的数据用自注意力机制方法对每一个时序进行加权，最后把加权输出的结果和真实的类标放入到交叉熵损失函数中。通过训练集获得模型权重后，用验证集对模型进行参数选择得到性能最好的模型，然后把测试集放入到所得到的最好的模型中进行测试，获得模型的分类性能。

本发明所采用的技术方案可以进一步细化。所述自注意力机制被定义为自身与自身做相似性度量，并通过该相似性度量得到每一时刻的权重结果。首先将双向长短时记忆网络输出的特征分别放入三个一维卷积中，得到三个不同的特征映射矩阵

并对所得Q，K，V的最后一个维度D进行分割得到三个四维矩阵

然后对所得到的Q′矩阵和K′矩阵做乘法运算并将所得的运算结果做softmax层变换得到权重矩阵W，最后把所得的权重矩阵W和另一个四维矩阵V′做点积，得到自注意力加权后的输出O，用公式定义为：

O＝W*V′

合并所得输出O的第三维得到三维数据O′，正向自注意力加权后的输出定义为

反向自注意力加权后的输出定义为

对所得到的正向自注意力加权后的输出

和反向自注意力加权后的输出

分别做均值池化操作得到

和

并将所得到的

和

进行拼接，输出拼接后的

将所输出的拼接后的

输入到softmax层中得到softmax层的输出，将所得到的 softmax层的输出和类标一起输入到交叉熵损失函数中，通过反向传播算法调整整个网络结构。

有益效果：本发明与现有的技术相比，具有以下优点：

本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统，将自注意力机制引入到双向长短时网络中，通过注意力机制赋予语音时序帧的权重，而不需要手动删除无用的帧。本发明利用自注意力机制能够发现句子内部信号相关性的特点，其更加关注浊音帧，还能减弱对分类不利的清音帧的影响。此外，从不同方向来分析语音数据会进一步增加网络的鲁棒性，所以本发明的语音情感识别系统对自注意力机制加入了方向机制，通过解析LSTM正向和反向的高层次特征，解决了因为信息缺乏而导致的分类性能下降的问题。实验证明本发明的语音情感识别系统有着较为理想的分类性能。

附图说明

图1是本发明应用在语音情感识别领域的整体框架图；

图2是各类算法在IEMOCAP即兴表演数据集的混淆矩阵

具体实施方式

为了更清楚地描述本发明的内容，下面结合附图和具体实施例进行详细说明。本发明的基于方向自注意力机制的双向长短时网络(BLSTM-DSA)的语音情感识别系统，包括如下步骤：

步骤1：对原始的音频信号样本提取声学特征，声学特征包括韵律学特征：过零率和能量，谱相关特征：梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差，用opensmile工具箱来提取这些声学特征，得到提取特征后的语音训练集数据；

步骤2：将所得到的提取特征后的语音训练集数据输入到正向长短时记忆网络和反向长短时记忆网络中，输入的训练语音数据定义为

其中N是训练样本的数量，y_i＝0代表该样本为生气类，y_i＝1代表该样本为高兴类，y_i＝2代表该样本为中性类，y_i＝3代表该样本为伤心类。长短时记忆网络的公式定义如下：

其中σ(·)代表sigmoid函数，它的输出区间是(0,1)。因为sigmoid函数输出区间的特殊性(类似于概率)，所以它常常被看作是最接近正态分布的表现形式。 W_i,W_f,W_c,W_o是输入到状态(Input to State)可学习的权重矩阵，U_i,U_f,U_c,U_o是状态到状态(State toState)可学习矩阵，V_i,V_f,V_o是被称作窥视孔连接(Peephole Connections)的可学习矩阵，

是第l层在时间步长t上的神经元。

是输入门，它表示在当前时刻应该为候选的过去状态保存多少信息；

是遗忘门，它表示在前一时间步的内部状态

中应该遗忘多少信息；

是输出门，它控制当前时刻内部状态

必须输出多少信息到外部状态

为了区别正向和反向输出，将最后一层正向特征输出定义为

反向特征输出定义为

步骤3：将所输出的正向特征

和反向特征

分别做三次一维卷积，得到卷积后的输出

其中正向的三维特征映射矩阵定义为

反向的三维特征映射矩阵定义为

一维卷积操作比较适合分析语音数据，能够较好地利用语音数据的时序性，并且相比于其它算法，一维卷积在速度上占有一定的优势，而做三次卷积操作就是为了方便后续自注意力机制对自身进行分析。然后对Q,K,V的最后一个维度进行分割得到三个四维的特征矩阵，我们将这三个四维矩阵定义为

其中第三维i的大小为

对所得到的Q′，K′，V′做Scaled Dot-Product Attention运算，用公式定义为：

O＝W*V′ (7)

最后合并所得输出O的第三维得到三维数据O′，正向自注意力加权后的输出定义为

反向自注意力加权后的输出定义为

对所得到的正向自注意力加权后的输出

和反向自注意力加权后的输出

分别做均值池化操作得到

和

并将所得到的

和

进行拼接，该操作过程表示为：

将所得的拼接后的结果S输入到softmax层中，然后将softmax层的输出和类标一起输入到交叉熵损失函数中，通过反向传播算法调整整个网络结构。交叉熵损失函数定义为：

其中H为类别数,N为样本个数。

实验设计

实验数据集选取：本文使用了目前最流行的情感数据库(Interactive EmotionalDyadic Motion Capture,IEMOCAP)。IEMOCAP数据库是由美国南加州大学工程学院录制的，总共包括5个会话的视听记录，即音频、视频及动作捕捉数据，其总时长达到了12小时。每一个会话由一名男演员和女演员进行对话表演，并且表演分为剧本表演和即兴表演两种。根据统计，该数据库由10039句不同时长的语句组成，每一句话的平均长度为4.5秒，并由三位注释员对每一句话打入连续标签和离散标签。数据库主要关注五种情绪：愤怒、幸福、悲伤、中立和沮丧，然而，注释员在标注时并不局限于这些情绪。其中，不考虑类标的语音数据占比为38％，没有类标的语音数据占比为7％，无法确定类标的语音数据占比为15％，可确定类标的数据占比为40％。为了和其它研究者的研究成果相比较，我们只选取可确定类标的那部分中的生气、高兴、中性和伤心的语音数据。表1显示了IEMOCAP即兴表演数据集中每一个人在不同情感上分别有多少句话的描述。

表1 IEMOCAP即兴表演数据集

特征提取：在特征提取阶段，原始的信号将被转换为声学特征(包括韵律学特征、谱相关特征、音质特征以及深度学习算法提取特征)。本方法中选取韵律学特征包括过零率和能量，选取的谱相关特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差，使用openSMILE作为语音特征提取工具。首先对16KHz采样频率的语音信号进行分帧加窗，本方法中语音窗用的是25ms汉明窗和10ms的帧移。12维的梅尔频率倒谱系数由对数傅立叶变换和26个滤波器计算得到。频谱滚降点设置为 0.85，这表明低于总体幅度值85％的频率将被考虑在内，频谱流量由当前帧和前一帧最小平方距离得到，频谱中心由计算频率的权重平均得到。频谱熵使用香农熵转变能量分布为概率分布。频谱延展度即频谱二阶中心距，是由计算各个时段频率到频谱中心的标准差得到。过零率是时域波通过时间轴的频率。能量由每一帧的加权平方得到，此外，能量熵是对能量加入了香农熵，来确定能量分布是否均匀。整个手工提取的低维特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、过零率、基音频率、能量、能量熵以及它们的一阶差分。最后每一帧都有68维特征，为了更好地适应神经网络，均值方差归一化会在本方法中使用。

网络训练方法：本方法采用说话人独立的训练策略，在IEMOCAP即兴表演数据集上选用留一组法(Leave One Group Out,LOGO)的训练策略，总共执行五轮，每一轮用其中四个会话中的句子作为训练集，剩下一个会话中，女演员录制的句子将作为测试集，男演员录制的句子将作为验证集。由于IEMOCAP即兴表演数据集中高兴情感的样本占少数，数据情感处于不平衡状态，所以在该数据集上对高兴样本进行了重采样。在网络训练方法上，BLSTM层数设置为2层，输入的线性转换初始化方法为Glorot均匀分布，循环层状态的线性转换初始化方法为正交分布初始化方法，每一层LSTM神经元个数设置为256，随机失活率设置为0.3。在自注意力机制中，一维卷积卷积核用的初始化方法为Glorot均匀分布，卷积核大小为1，个数为128，正则化方法为L2正则化，正则化参数设置为 3*10^-7。注意力机制分割分片的个数8，损失函数选择交叉熵，batch_size设置为256，基学习率设置为0.0001，然后运用Nadam优化器进行参数优化。为了更好地训练网络将选择warm_up和滑动平均策略。warm_up策略即在训练的前 8个epoch按

公式计算学习率。当学习率在前期呈线性增长的状态，就能够让网络更好地适应数据。滑动平均能够使模型在测试集上更加健壮，衰减率(Decay)设置为0.999。为了防止过拟合，在训练时还使用了早停策略，当验证集的loss在10个epoch内不再降低，停止网络训练，最后选择在验证集上loss最低的模型进行测试。为了能够加速收敛，在BLSTM 和Direction Self Attention之间加入了层规范化(Layer Normal)层。

验证指标：本方法选择加权平均召回率(Weighted Accuracy,WA)和未加权平均召回率(Unweighted Accuracy,UA)为模型的评价指标。WA是在整个测试集上分类正确的数量。为了评价数据类别不平衡性对整体模型的影响，UA即每种类别分类正确率的平均结果也被考虑在内。WA和UA可以被定义为：

对比算法：本方法采用的对比算法是CNN，LSTM，BLSTM。CNN的结构为两层卷积层，并且第一层卷积层卷积核的大小为2*2，步长为1，卷积核个数为10，第二层卷积层卷积核的大小为2*2，步长为1，卷积核个数为20，然后每一层卷积层后都会加上一层最大池化层，其大小为2*2，步长为2，最后加上两层神经元个数为128的全连接层，并且在全连接层之间加入了批规范化(Batch Normalization)层。在本实验中LSTM设置为两层，每一层神经元个数为256，随机失活率(dropout)设置为0.3。BLSTM的实验参数设置和LSTM相同，只是在每一层正向LSTM再加一层反向LSTM，所有的模型都统一用Nadam优化器。

实验结果

表2显示了各个算法在IEMOCAP即兴表演数据集上的实验结果。CNN 在IEMOCAP即兴表演数据集上并没有发挥出很好的性能，不论是在WA和UA 上，CNN都是最低的结果。在加入方向机制后，BLSTM要比LSTM展现出更加优秀的泛化能力。融入了自注意力机制和方向机制的BLSTM-DSA在WA和UA 两个结果上达到了最好的结果。

表2 各个算法在IEMOCAP即兴表演数据集上的结果

模型	WA(％)	UA(％)
			CNN	57.75	45.08
LSTM	61.89	50.52
			BSLTM	62.01	52.48
BLSTM-DSA	62.16	55.21

图2展示了各类算法在IEMOCAP即兴表演数据集的混淆矩阵。

由图2中的混淆矩阵图可知，在生气情感识别率上，BLSTM-DSA是最高的，CNN是最低的。在高兴情感识别率上，BLSTM-DSA也是最高的，而LSTM 是最低的。在中性情感识别率上，每种算法都在70％以上，并且每种算法差别不大。和中性情感识别类似的，各类算法的伤心识别率也相差不大。综上所述， BLSTM-DSA在生气识别率、中性识别率和伤心识别率上都有较为理想的结果。进一步地，由于伤心和中性两种情感的样本数量较大，并且这两种情感具有较明显的特点，所以在各类算法中，这两种情感都处于比较高的识别率。

综上所述，本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统，通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性，进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响，并且让网络更加关注对分类性能帮助较大的时序帧，从而提高分类器在语音情感数据集上的分类精度。此外，本发明也为同领域内其他相关问题提供了参考，可以以此为依据进行拓展延伸，具有十分广阔的应用前景。

Claims

1.一种基于方向自注意力机制和双向长短时网络的语音情感识别系统，其特征在于，包括如下步骤：

1)对原始的音频信号样本提取声学特征，得到提取特征后的语音训练集数据；

2)所述提取特征后的语音训练集数据为

其中N表示训练样本的数量，yi表示情感的类别，分别输入到正向长短时记忆网络和反向长短时记忆网络中，得到两个方向的输出特征，分别为输出正向特征

和反向特征

3)将所输出的正向特征

和反向特征

分别做三次一维卷积，得到卷积后的三维特征映射矩阵输出

其中正向的三维特征映射矩阵定义为

反向的三维特征映射矩阵定义为

4)对步骤3)所得到的三维特征映射矩阵做自注意力机制操作，对Q，K，V的最后一个维度进行分割得到三个四维的特征矩阵，将这三个四维矩阵定义为

其中第三维i的大小为

O＝W*V′

反向自注意力加权后的输出定义为

5)对所得到的正向自注意力加权后的输出

和反向自注意力加权后的输出

分别做均值池化操作得到

和

并将所得到的

和

进行拼接，该操作过程表示为：

6)将所得的拼接后的结果S输入到softmax层中，然后将softmax层的输出和类标一起输入到交叉熵损失函数中，通过反向传播算法调整整个网络结构，交叉熵损失函数定义为：

其中H为类别数,N为样本个数。

2.根据权利要求1所述的基于方向自注意力机制和双向长短时网络的语音情感识别系统，其特征在于：1)所述原始的音频信号样本来自国际语音情感数据库IEMOCAP；所述原始的音频信号样本的声学特征由opensmile工具箱提取；所述原始的音频信号样本的声学特征包括韵律学特征：过零率和能量，谱相关特征：梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差。