CN113628639A

CN113628639A - 一种基于多头注意力机制的语音情感识别方法

Info

Publication number: CN113628639A
Application number: CN202110764366.6A
Authority: CN
Inventors: 张锐; 王佳颖
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-09

Abstract

本发明公开了一种基于多头注意力机制的语音情感识别方法，语音情感识别是近年来人机交互领域中极具挑战性的问题。本发明使用短时能量和短时平均过零率的双门限方法对语音信号进行有声断与无声断的检测以减少分类识别模型中运算的数据量，并通过MFCC特征提取方法获取语音信号的人工情感特征；由于传统的情感特征提取方法使用卷积神经网络使得模型复杂度高，并且该方法只能提取人工特征图中的空间特征忽略时间信息，所以本发明使用多头注意力机制捕捉信息间长距离的依赖关系，缩减模型复杂度，获得语音信号的时空情感特征；使用长短时记忆网络进一步刻画情感特征，在时间维度上获得更好的长期依赖关系。最后将获得的具有较高时间相关性的情感特征送入分类器中进行识别，以获得较高的情感分类结果。

Description

一种基于多头注意力机制的语音情感识别方法

技术领域

本发明是基于多头注意力机制(Multi-head attention mechanism)和注意力长短时记忆网络(ALSTM)提出的一种语音情感识别方法。

背景技术

随着人机交互系统的发展，如何让机器能够理解人的意图并做出相应的反应从而达到更好的人机交互效果成为了极大的挑战。一些研究人员通过生活中人的面部表情、行为动作等方面获取情感特征并将这些特征传入传统的机器学习算法中进行识别，从而达到情感识别的目的。但是这些特征难于获取使得识别的准确率偏低，并且在现实的人机交互中存在很大误差，所以寻找最优的情感特征和精确的识别算法已成为语音情感识别的研究重点。

发明内容

语音是人类交流最直接、最干脆的方式之一，语音信号不仅包含着人们丰富的情感表达而且在日常生活中较易获得。此外在人工智能的大背景下，较机器学习而言深度学习算法可以得到较好的识别精度。因此本发明针对以上论述，我们选择对语音信号进行处理来识别情感信息，使用多头注意力机制获取语音信号中的空间情感特征，将获得空间情感特征送入LSTM中获取语音信号的时序关系，最后将提取到的特征送入分类器中进行识别，达到较好的语音情感识别效果。

基于多头注意力机制(Multi-head-attention)的语音情感识别方法，其实现包括以下几个步骤：

步骤一：对音频信号进行预处理

步骤二：提取音频信号的人工情感特征

步骤三：使用多头注意力机制获取浅层情感特征

步骤四：使用LSTM获取语音信号中的时序关系

步骤五：建立分类输出层

对每一步骤进行详细阐述，说明如下：

1.对文件格式为.wav的语音文件进行处理，设置语音信号的采样频率为16KHz，对语音信号进行分帧和加窗操作，计算每一帧语音信号的短时能量和短时过零率。短时能量表征语音信号幅值的大小、短时过零率表征每秒语音信号通过零点的次数。采用短时能量和短时过零率的双门限方法区分语音信号的有声断和无声断，实现对语音信号合理的裁剪，减少运算成本。

2.对处理后的语音信号进行快速傅里叶变换将语音信号从时域转换为频域。将得到的频域信号在Mel尺度下进行倒谱分析最后经过DCT余弦变换获得人工情感特征MFCC。

3.将获得的人工情感特征放入本发明设计好的浅层特征提取模块，使用多头注意力机制选取合适的分割头的数量以捕获语音信号之间的时空关系，对语音信号的人工情感特征在时间和空间维度上进行注意力加权以获得语音信号的情感特征，在将获得情感信息通过卷积层和池化层进行深层的情感特征提取和特征降为。

4.将获得的浅层情感特征放入到LSTM中，为避免RNN网络带来的梯度消失以及梯度爆炸的现象，选用LSTM网络提取时间维度的信息，通过训练更新LSTM网络中的新的细胞状态获取细胞自身状态的关键信息，获得更精确的语音信号的时间信息，提高模型的分类精度。

5.将提取到的与时序相关的情感特征送入到分类输出层进行情感识别。本发明使用softmax分类器作为情绪的分类层，获取语音信号相应于情感标签的概率，得到语音识别的结果。

本发明使用了一个较新颖的情感识别模型，提供的方案可以达到以下效果：1)通过加入的端点检测技术可以较好的区分语音信号的有声段与无声断，为提取适宜的语音情感特征做了充分的准备工作，减少后续处理的运算复杂度。2)使用多头注意力机制可以在很大程度上提取语音信号局部特征，获得浅层情感特征。3)使用LSTM可以在很大程度上获得语音信号的时序相关性，提高模型的识别精度。4)本发明在一定程度上智能化较高，维护成本低。

附图说明

图1为语音频域信号人工情感特征提取流程图。

图2为本发明基于多头注意力机制的语音情感识别方法结构示意图。

具体实施方式

为了更好的凸现本发明申请的优点，下面将结合申请附图对本申请的研究方案进行详细的描述。

图1所示,展示了语音信号在频域信号下提取情感特征的基本过程，主要步骤详细介绍如下：

S1：为了方便对语音信号进行分析，将语音信号分为一个个小段进行处理称为帧，为了保证帧与帧之间能够平滑过渡我们采用汉明窗对语音信号进行加窗处理。汉明窗公式如下：

S2：本申请采用双门限方法进行语音信号的端点检测，双门限方法使用二级判决来实现。首先计算出语音信号的短时平均能量和短时平均过零率其计算方法如下所示：

短时能量：

短时过零率：

Z(n)＝|sgn[x_(m)]-sgn[x_(m-1)]|*W_(n-m)

第一级判决：以短时能量为基准，在短时能量上选取一个相对较高的门限阈值L2和一个较低的门限阈值L1，这两个门限阈值分别与短时能量谱相交于C、D、B、E四点，可知由短时能量判断出的BE段为语音信号的有声段，则语音信号的起止位置为B点的左侧与E点右侧。

第二级判决：以短时平均过零率为基准，在短时平均过零率上选取一个较低的阈值，从短时能量中的B、E、两点出发，向B点左侧和E点右侧查找短时平均过零率低于阈值的两个点A、F，则A点和F点位语音信号的起始点和终止点。

S3：使用快速傅里叶变换将时域信号的语音信号转换为频域信号，去除高于被采样信号的最高频率的点的影响，降低维度。

S4：将获得的频率信号通过一组Mel尺度的三角滤波器，设置滤波器个数为26，赫兹频率与Mel频率之间转换的关系如下：

S5：对滤波器组能量进行DCT变换得到倒谱系数即MFCC参数。

图二所示，本发明所设计的语音情感识别方法的结构主要包含如下几个模块：1、语音信号预处理模块2、MFCC人工情感特征提取模块3、多头注意力机制浅层特征提取模块4、LSTM时序信息提取模块5、情感识别分类模块。接下来对模块进行介绍。语音情感识别的答题流程如下；将经过预处理模块1后得到的适宜使用的语音信号送入MFCC人工特征提取模块2以获得人工情感特征，将该人工情感特征通过浅层特征提取模块3获取浅层情感特征,由于此时提取的特征时间与空间的相关性较少，所以将获取的浅层特征送入到模块4中获取时空相关性得到深层情感特征，最后将获得的深层情感特征传入情感识别分类模块进行识别。

语音预处理模块1：对.wav文件进行波形的读取，并对读取后的语音信号进行加窗、分帧、端点检测工作；

MFCC人工情感特征提取模块2：对处理后的语音信号提取MFCC特征，设置的采样频率为16KHz、预加重参数设置为0.97、语音信号的帧数设置为20ms为一帧帧移为8ms，Mel滤波器组的数量设置为50，DCT余弦参数设置为15，最终得到人工情感特征；

多头注意力机制浅层特征提取模块3：以分三个头为例进行介绍：将设置好的三个权重矩阵Q、K、V与特征图进行加权运算，将Q,K加权矩阵进行切分，并将切分后得到的三个局部特征学习块利用缩放点积的方法获取注意力权重，并将注意力权重映射到加权矩阵V上，获得注意力特征图，缩放点积计算公式如下：

其中dk起到维度调节的作用，使得内积的结果不会很大。得到对应权重矩阵下的注意力机制特征图。该过程中先计算出每个时间步之间的相似关系并利用softMax函数对相似度进行归一化处理最终映射到原始特征图中获取时空关系。通过实验验证分析本发明采用的分头数量为12。在对获得的特征进行卷积和池化操作，降低维度获得较高的空间情感特征。

LSTM时序信息提取模块4：LSTM是一种递归神经网络，其包括输入门、遗忘门、输出门、候选记忆细胞、记忆细胞、隐藏状态等信息，核心是细胞状态其贯穿整个细胞，可以保证信息不变的流过整个网络，在通过门结构对细胞状态进行删除或者添加，最终留下有用的时间信息，从而获得更加高的时间相关度。

情感识别分类模块5：最后需要将获得的情感特征进行识别，本发明采用softMax分类器作为分类层，分类层包含两层全连接层以解决可能存在的非线性问题、一层丢弃层以减弱过拟合，Softmax函数如下所示：

Claims

1.一种基于多头注意力机制的语音情感识别方法，其特征主要在于，实现包括以下几个步骤：

步骤一：对音频信号进行预处理，对语音信号进行分帧加窗等预处理并使用短时能量和短时平均过零率的双门限方法进行端点检测，找出语音信号的有声段与无声段，加窗函数如下式：

步骤二：提取音频信号的人工情感特征，将预处理后的信号在Mel尺度下进行倒谱分析，使用余弦变换获得MFCC人工情感特征参数，赫兹频率与Mel频率之间转换公式如下：

步骤三：使用多头注意力机制获取浅层情感特征，将特征图进行加权运算，将其中两个加权矩阵进行分头处理，并将分头后的特征块利用缩放点积的方法获取注意力权重，并将注意力权重映射到加权矩阵V上，获得注意力特征图，缩放点积计算公式如下：

步骤四：使用LSTM获取语音信号中的时序关系，由于循环神经网络(RNN)在处理较长的时间序列时，序列的后半部分的梯度很难反向传播到前面的序列，这是容易造成梯度膨胀或者梯度消失的现象，使得训练精度下降，所以在本发明中选择长短时记忆网络处理时间序列，与RNN相比较，增加了三个控制门：输入门，输出门，遗忘门，记忆细胞，可以让网络学习如何让信息传入下个存储单元，解决了梯度消失和膨胀的问题；

步骤五：建立分类输出层；使用SoftMax函数对语音特征进行情感识别并分类：

。