CN113053418A

CN113053418A - 一种基于长短时记忆网络快速识别语音情感类别的方法

Info

Publication number: CN113053418A
Application number: CN202110485958.4A
Authority: CN
Inventors: 颜思瑞; 丁凯星; 谢跃; 陈允韬; 王超
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-06-29

Abstract

本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，包括如下步骤：从原始语音数据样本中提取具有时序信息的帧级语音特征；通过软注意力模型创建基于注意力机制的改进型LSTM模型；用已知的原始语音数据样本及其语音情感类别对改进型LSTM模型进行训练得到情感类别识别模型；对情感类别识别模型进行情感识别测试验证；将未知的原始语音数据样本输入情感类别识别模型进行识别，输出对应的语音情感类别；本发明通过注意力机制优化常规型LSTM模型得到改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量，提高语音情感类别识别的性能，具有良好的应用前景。

Description

一种基于长短时记忆网络快速识别语音情感类别的方法

技术领域

本发明涉及语音情感识别技术领域，特别涉及一种基于长短时记忆网络快速识别语音情感类别的方法。

背景技术

语音是人类表达情感的重要方式之一，以其为媒介的情感识别对智能化的人机交互研究具有重要意义。早前语音情感识别的工作主要聚焦于机器学习算法，如支持向量机，贝叶斯分类器和K近邻算法。而当前随着深度学习的提出，语音情感识别得到了进一步的发展。

虽然早期的工作促进了语音情感的研究，但受传统机器学习只能接受固定长度数据作为输入的影响，目前具有固定维度的静态语音情感特征是使用最多的。例如Schuller提出了一系列的INTERSPEECH情感特征集合，这类特征通过静态统计函数计算了语音特征在时间维度的统计特性，最终可获得一个与语音持续时间无关的固定维度的特征向量。虽然这种特征可以满足传统机器学习只能接受确定维度的数据作为输入的要求，但也导致了统计分析处理后的语音特征丧失了原始语音中的时序信息。为解决上诉问题，我们采用了在计算统计函数之前的帧级语音特征，该特征维度是随语音长度而变化的，且通过帧之间的序列关系保留了原始语音的时序信息。

另一方面，虽然传统机器学习算法因记忆能力较差很难学习时间信息，但随着深度学习算法在情感识别领域中的成功应用，尤其是长短时记忆网络(Long Short-termMemory，LSTM)的提出，为处理语音的时序信息以及变长序列提供了可行性。近些年来，为强化LSTM在特定任务中处理数据的能力，提出了很多LSTM的变体结构。例如：Gers提出了窥视连接,将细胞状态也作为了输入信息。Shi使用卷积操作替换了原始LSTM中部分乘法操作，使得网络能更好的挖掘时空信息。Daniel通过振荡频率稀疏化更新以加快LSTM的收敛速度。上述这些算法在优化LSTM记忆能力的同时也增加了其计算复杂度。

注意力机制最早应用于图像处理领域，并取得了非常好的效果。其核心思想是人脑对整幅图的关注并不是均衡的，是存在一定的区分权重的。在了机器翻译领域，Bahdanau提出了软注意力模型。所谓的“软”是指求取编码后每个单词的概率分布，然后进行加权，即当前待翻译的单词对其他单词的依赖程度(即权重)是有区别的。同样，在LSTM中，可以通过注意力机制为历史细胞状态与候选细胞状态进行加权计算，取代原始的遗忘门与输入控制门。

发明内容

发明目的：本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，在常规型LSTM基础上，通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式，提出了基于注意力机制的改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量，提高语音情感识别的性能。

技术方案：本发明采用如下技术方案：一种基于长短时记忆网络快速识别语音情感类别的方法，包括以下步骤：

S1、从原始语音数据样本中提取具有时序信息的帧级语音特征；

S2、通过软注意力模型创建基于注意力机制的改进型LSTM模型；

S3、用已知的原始语音数据样本及其语音情感类别对步骤S2中创建好的改进型LSTM模型进行训练，训练好后得到情感类别识别模型；

S4、对步骤S3得到的情感类别识别模型进行情感识别测试验证；

S5、将未知的原始语音数据样本输入情感类别识别模型进行识别，输出对应的语音情感类别。

优选的，步骤S2中通过软注意力模型创建基于注意力机制的改进型LSTM模型，包括以下步骤：

S21、用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门；

S22、以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系，取代常规型LSTM模型中的输入控制门，得到注意力机制的改进型LSTM模型。

优选的，步骤S21中，用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门，包括如下步骤：

S21.1、对常规型LSTM模型进行分析，利用LSTM引入细胞结构,通过自循环方式，使得常规型LSTM模型能够关联RNN过去的历史序列，其具体计算公式如下：

f_t＝σ(W_f·[h_t-1,x_t,C_t-1]+b_f) (7)

i_t＝σ(W_i·[h_t-1,x_t,C_t-1]+b_i) (8)

o_t＝σ(W_o·[h_t-1,x_t,C_t]+b_o) (11)

h_t＝o_t*tanh(C_t) (12)

其中，σ为sigmoid激活函数，其取值范围在[0,1]之间，代表了遗忘历史细胞状态的概率；tanh为双曲正切激活函数；h_t-1为t-1时刻的隐层输出，f_t、i_t、o_t分别为遗忘门，输入控制门和输出门，W_f和b_f分别是遗忘门的权重和偏置，W_i和b_i分别是输入控制门的权重和偏置，W_C和b_C分别是细胞状态的权重和偏置，W_o和b_o分别是输出门的权重和偏置，它们是常规型LSTM模型的待训练参数，x_t为t时刻的输入，C_t和C_t-1分别为t与t-1时刻的细胞状态，

为t时刻的细胞状态候选值；

S21.2、通过注意力机制优化了常规型LSTM内部的遗忘门计算方式，f_t与i_t取值在0到1之间，它们分别是历史细胞状态与候选细胞状态的加权分数，如公式(4)所示；

步骤S22中，以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系，取代常规型LSTM模型中的输入控制门，得到注意力机制的改进型LSTM模型，包括以下步骤：

S22.1、通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数，替代常规型LSTM模型中的遗忘门与输入控制门，得到新的细胞状态，新的细胞状态更新公式如下：

其中s_h和s_c分别是历史细胞状态和候选细胞状态的加权系数，它们是依据历史细胞状态与当前候选细胞状态进行计算的，与当前输入和历史输出无关，其中W_h与W_c均是注意力公式里的待学习权重参数，exp是以e为底的指数函数。

优选的，步骤S22.1中的公式(8)和(9)与步骤S21.1的公式(1)和(2)中的权重参数相比可得,注意力公式中的权重参数W_h与W_c具有更小的维度,因为它们只与单个细胞状态进行矩阵相乘,而不是组合矩阵[h_t-1,x_t,C_t-1]相乘，此外,从公式(8)与(9)还可以得出如下结论

s_h+s_c＝1 (10)

其中等式右边是一个元素全为1的矩阵，为了进一步减少计算复杂度,s_c可由1-s_h代替,即由减法计算替代了除法计算，最终的细胞状态更新公式如下：

优选的，步骤S4中，用召回率对情感类别识别模型进行测试验证：

其中，recall为召回率；TP是预测为正，实际为正的数量；TN是预测为负，实际为正的数量。

优选的，步骤S1中，提取的语音特征通过语音帧之间的序列关系保留了原始语音数据样本中的时序信息，且语音特征的维度随原始语音数据样本的实际长度而变化。

有益效果：本发明具有如下有益效果：

本发明的一种基于长短时记忆网络快速识别语音情感类别的方法，通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式，通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数，替代常规型LSTM模型中的遗忘门与输入控制门，有效减少了矩阵计算量，提高语音情感识别的性能，通过加权系数间的对偶关系可进一步减少计算复杂度；而在性能方面，改进型LSTM模型具有更稳定的收敛性和更高的识别率；因为注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算，而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数，因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量，所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下，减少其计算的复杂度，具有良好的应用前景。

附图说明

图1是本发明基于长短时记忆网络快速识别语音情感类别的方法的流程图；

图2是eNTERFACE数据库收敛曲线；

图3是GEMEP数据库收敛曲线；

图4是收敛后模型的稳定性；

图5是传统LSTM计算框架图；

图6是优化后的LSTM计算框架图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，包括如下步骤：

步骤A、从原始语音数据中提取具有时序信息的帧级语音特征，其中，该语音特征通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该语音特征的维度是随原始语音数据的实际长度而变化的。详细的语音特征集合如下表1所示：

表1

语音特征	描述
		voiceProb	浊音占比率
HNR	声门谐噪比
		F0	基频
F0raw	无清音门限的原始基频
		F0env	F0包络
jitterLocal	周期一阶差分均值
		jitterDDP	周期二阶差分均值
shimmerLocal	幅度峰值一阶差分均值
		harmonicERMS	声门谐波能量
noiseERMS	声门噪声能量
		pcm_loudness_sma	响度
pcm_loudness_sma_de	响度的回归系数
		mfcc_sma[0]-[14]	14阶梅尔倒谱系数
mfcc_sma_de[0]-[14]	梅尔倒谱的回归系数
		pcm_Mag[0]-[25]	梅尔谱
logMelFreqBand[0]-[7]	梅尔频宽
		lpcCoeff[0]-[7]	线性预测系数
lspFreq[0]-[7]	线性谱频率
		pcm_zcr	过零率

步骤B、对常规型LSTM模型进行分析，LSTM(Long Short-Term Memory)是长短期记忆网络，是RNN的一种变体，在一般的RNN中，当关联步长较大时，往往容易出现梯度消失，因为导数的链式法则导致了连乘使得梯度按指数级消失。LSTM引入细胞结构(Cell),通过自循环方式解决了这个问题，使得RNN能够关联过去的历史序列，具有了更强的长程依赖性，本实验引用了Gers所提出的窥视链接网络，其具体计算公式如下：

f_t＝σ(W_f·[h_t-1,x_t,C_t-1]+b_f) (13)

i_t＝σ(W_i·[h_t-1,x_t,C_t-1]+b_i) (14)

o_t＝σ(W_o·[h_t-1,x_t,C_t]+b_o) (16)

h_t＝o_t*tanh(C_t) (17)

其中，σ为sigmoid激活函数，其取值范围在[0,1]之间，代表了遗忘历史细胞状态的概率；tanh为双曲正切激活函数。h_t-1为t-1时刻的隐层输出，f_t、i_t、o_t分别为遗忘门，输入控制门和输出门，W_f和b_f分别是遗忘门的权重和偏置，W_i和b_i分别是输入控制门的权重和偏置，W_C和b_C分别是细胞状态的权重和偏置，W_o和b_o分别是输出门的权重和偏置，它们是常规型LSTM模型的待训练参数，x_t为t时刻的输入，C_t和C_t-1分别为t与t-1时刻的细胞状态，

为t时刻的细胞状态候选值；由公式(4)可以看出，当初细胞状态C_t由历史细胞状态和当前候选细胞状态决定，f_t与i_t则是它们对应的各自权重，表示了各自有多少的信息量被记忆了。

步骤C、在常规型LSTM模型基础上，通过注意力机制优化了LSTM内部的遗忘门的计算方式，提出了基于注意力机制的改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量；由与sigmod函数的特征，f_t与i_t取值在0到1之间，它们分别是历史细胞状态与候选细胞状态的加权分数，如公式(4)所示；本实验通过注意力机制来计算两者的加权分数，取缔了常规型LSTM模型中原始遗忘门与输入控制门；新的细胞状态更新公式如下：

其中s_h和s_c是依据历史细胞状态与当前候选细胞状态进行计算的，与当前输入和历史输出无关。

其中s_h和s_c分别是历史细胞状态和候选细胞状态的加权系数，它们是依据历史细胞状态与当前候选细胞状态进行计算的，与当前输入和历史输出无关，其中W_h与W_c均是注意力公式里的待学习权重参数；exp是以e为底的指数函数。

步骤D、将步骤C中公式(8)与(9)与公式(1)和(2)中的权重参数相比,注意力公式中的权重参数W_h与W_c具有更小的维度,因为它们只与单个细胞状态进行矩阵相乘,而不是组合矩阵[h_t-1,x_t,C_t-1]相乘；此外,从公式(8)与(9)还可以得出如下结论:

s_h+s_c＝1 (10)

其中等式右边是一个元素全为1的矩阵，为了进一步减少计算复杂度,s_c可由1-s_h代替,即由减法计算替代了除法计算；最终的细胞状态更新公式如下:

因此最终得出结论，改进型LSTM模型的权重矩阵的维度远小于常规型LSTM模型中的权重矩阵，因而减少了计算复杂度。

步骤E、将已知的原始语音数据样本及其语音情感类别对如步骤A至D中所述的情感识别模型；训练情感识别模型，并对训练好的情感识别模型的识别性能进行评测；将未知的原始语音数据样本输入情感类别识别模型中，输出对应的语音情感类别。

为评价模型性能，本发明通过情感识别中常用的召回率(Recall)对比了传统缩放点注意力机制算法，总体评价指标为无加权平均召回率(Unweighted Average Recall,UAR)。

其中，TP是预测为正，实际为正的数量；TN是预测为负，实际为正的数量。

为验证本发明的有效性，在eNTERFACE和GEMEP两个情感数据库上进行了测试,。eNTERFACE是一种音视频情感数据库，由来自14个国家的43人用英语完成录制，包含了以下6中情感：生气，厌恶，害怕，高兴，伤心和惊讶.本文仅使用该数据库中的语音作情感识别研究，获得了1260条有效语音样本，其中260条作为测试集。GEMEP是法语数据库，本文使用了12种情感数据，共1080条样本，其中200条作为测试数据。而模型由2层LSTM构成，相关参数设置如表2所示。为对比计算复杂度，基于注意力机制的改进型LSTM模型(lstm-at)和常规型LSTM模型使用相同的参数。

表2模型参数

为验证注意力门在时间复杂度上的优越性，实验在训练相同的迭代次数下，对比了lstm-at模型与常规型LSTM模型所需要的时间代价。图1和图2分别给出了两个模型在eNTERFACE和GEMEP数据库上的收敛曲线，其中图(a)表明这两个模型具有相同的迭代步数。图(b)可以看出，基于注意力机制的改进型LSTM模型的算法在相同条件下所需要的训练时间要小于常规型LSTM模型，证明了所提算法减少了计算复杂度。因为注意力门中待训练的权重矩阵的维度要小于原始模型中的权重，且通过减法运算直接取缔了原始的输入控制门(如公式(11)所示)，所以降低了计算复杂度。

为了更好的比较模型收敛后的性能，eNTERFACE和GEMEP分别取500步和2000步之后的测试结果作为分析对象，并将结果绘制成图3。其中矩形框的高度反应了收敛曲线的波动性，即收敛后模型的稳定性。框的高度越小模型的波动就越小，性能越稳定。而矩形框框内的水平线表示了稳定的识别率。两侧的虚线代表了模型所获得的极值。由此可见，基于注意力机制的改进型LSTM模型具有较小的矩形框，收敛后的模型更加稳定，在eNTERFACE上获得了75％的稳定识别率比传统LSTM高约8％，并能达到80％的最佳识别率。在GEMEP上，基于注意力机制的改进型LSTM模型算法比常规型LSTM模型提高了约4％，最佳可达50％的识别率。因而改进型LSTM模型比常规型LSTM模型具有更稳定的收敛性与更高的识别率。

相比于常规型LSTM模型，所提出的改进型LSTM模型通过注意力机制直接对历史细胞状态与候选细胞状态进行注意力加权分数的计算，其加权分数与历史输入以及当前输入无关，因而矩阵运算是在低维空间中完成的，具有较少的矩阵运算量。基于注意力机制的改进型LSTM模型合并了常规型LSTM模型的遗忘门与输入控制门的功能，通过加权系数间的对偶关系可进一步减少计算复杂度。而在性能方面，基于注意力机制的改进型LSTM模型具有更稳定的收敛性和更高的识别率。因为注意力机制中的注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算，而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数。因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量。所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下，减少模型计算的复杂度。

Claims

1.一种基于长短时记忆网络快速识别语音情感类别的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于长短时记忆网络快速识别语音情感类别的方法，其特征在于，步骤S2中通过软注意力模型创建基于注意力机制的改进型LSTM模型，包括以下步骤：

3.根据权利要求2所述的一种基于长短时记忆网络快速识别语音情感类别的方法，其特征在于，步骤S21中，用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门，包括如下步骤：

f_t＝σ(W_f·[h_t-1,x_t,C_t-1]+b_f) (1)

i_t＝σ(W_i·[h_t-1,x_t,C_t-1]+b_i) (2)

o_t＝σ(W_o·[h_t-1,x_t,C_t]+b_o) (5)

h_t＝o_t*tanh(C_t) (6)

为t时刻的细胞状态候选值；

4.根据权利要求3所述的一种基于快速长短时记忆网络的语音情感识别方法，其特征在于，步骤S22.1中的公式(8)和(9)与步骤S21.1的公式(1)和(2)中的权重参数相比可得,注意力公式中的权重参数W_h与W_c具有更小的维度,因为它们只与单个细胞状态进行矩阵相乘,而不是组合矩阵[h_t-1,x_t,C_t-1]相乘，此外,从公式(8)与(9)还可以得出如下结论：

s_h+s_c＝1 (10)

5.根据权利要求1所述的一种基于长短时记忆网络快速识别语音情感类别的方法，其特征在于，步骤S4中，用召回率对情感类别识别模型进行测试验证：

6.根据权利要求1所述的一种基于长短时记忆网络快速识别语音情感类别的方法，其特征在于：步骤S1中，提取的语音特征通过语音帧之间的序列关系保留了原始语音数据样本中的时序信息，且语音特征的维度随原始语音数据样本的实际长度而变化。