CN109285562A

CN109285562A - 基于注意力机制的语音情感识别方法

Info

Publication number: CN109285562A
Application number: CN201811135064.7A
Authority: CN
Inventors: 谢跃; 梁瑞宇; 梁镇麟; 郭如雪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-29
Anticipated expiration: 2038-09-28
Also published as: CN109285562B

Abstract

本发明公开了一种基于注意力机制的语音情感识别方法，包括以下步骤，从原始语音数据中提取具有时序信息的语音特征；建立具有处理变长数据能力的LSTM模型；通过注意力机制优化LSTM模型中的遗忘门计算方式；对优化后的LSTM模型输出的同时，进行时间维度和特征维度的注意力加权操作；在LSTM模型上添加全连层与软最大化层，构建形成完整的情感识别网络模型；训练情感识别网络模型，并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法，能够提高语音情感识别的性能，方法巧妙新颖，具有良好的应用前景。

Description

基于注意力机制的语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，具体涉及一种基于注意力机制的语音情感识别方法。

背景技术

语音情感识别在人机交互中具有重要的应用价值。为了实现语音情感的自动识别，很多学者在机器学习算法方面做了大量的研究工作，如支持向量机，贝叶斯分类器和K近邻等算法。近年来，随着深度学习的发展，其在自动语音情感识别上应用也越来越多。Deng(学者)使用自编码器与少量情感标签数据进行了半监督学习，Neumann(学者)将卷积神经网络应用在了语音情感识别中。

虽然上述算法在情感识别中取得了成功应用，但不管是传统机器学习算法还是深度学习中的自编码器和卷积神经网络，都只能接受具有固定维度的数据作为输入。这与实际有效语音不断变化的长度之间存在明显的矛盾。为了解决这一问题，主流的方法是先通过从短时语音帧中提取情感相关特征(在本发明中称为帧级特征)，再将静态统计函数(如均值、方差、最大值、线性回归系数等)作用与帧级特征上，最终将结果串联成一个维度确定的向量来表示一句完整的语音。虽然，这种固定维度的特征满足了模型输入的要求，但是通过统计分析处理后的语音特征会丧失原始语音中的时序信息。目前，解决该矛盾的另一个思路是设计一种可以接受变长特征的模型，如Schmidhuber提出的LSTM(Long Short-TermMemory长短期记忆网络)结构采用对不同长度的数据先进行补齐操作以对齐数据，但在实际运算过程中，只计算实际有效长度的数据，并不处理补齐部分的数据。该方法为处理像语音这样变长时间序列提供了可行性。

近些年来，为强化LSTM在特定任务中处理数据的能力，有学者针对LSTM的内部构造提出了很多优化法案。Gers提出了窥视连接，将细胞状态也作为了输入信息，增强了对历史信息的学习能力；Yao通过引入深度门的概念来连接层间的记忆细胞，以控制记忆细胞之间的数据流。然而，这些改进后的LSTM变体都是以牺牲计算复杂度为代价来换取记忆信息的增强。此外，在众多LSTM的应用中，往往都是选取LSTM的最后一个时刻的输出作为下一个模型的输入(因为其他模型只能接受具有固定维度的输入)。但是，对于语音情感识别任务而言，语音在结束时多为静音段，几乎不含有情感信息，所以，此时LSTM最后一个时刻对应的输出所含情感信息会被削弱。

通过上述的描述，如何有效利用LSTM在所有时刻的输出(而不是单一的最后一个时刻)信息，是提高语音情感识别性能的关键，是当前需要解决的问题。

发明内容

为了克服现有技术中的LSTM在语音情感识别中存在的问题。本发明的基于注意力机制的语音情感识别方法，通过注意力机制优化LSTM的遗忘门，不仅降低了LSTM模型运算复杂度，而且在一定程度上优化了情感识别性能，还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权，以区分不同时间片段和不同特征对情感识别的影响，能够提高语音情感识别的性能，方法巧妙新颖，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于注意力机制的语音情感识别方法，包括以下步骤，

步骤(A)，从原始语音数据中提取具有时序信息的语音特征；

步骤(B)，建立具有处理变长数据能力的LSTM模型；

步骤(C)，通过注意力机制优化LSTM模型中的遗忘门计算方式；

步骤(D)，对优化后的LSTM模型输出的同时，进行时间维度和特征维度的注意力加权操作；

步骤(E)，在LSTM模型上添加全连层与软最大化层，构建形成完整的情感识别网络模型；

步骤(F)，训练情感识别网络模型，并对该情感识别网络模型的识别性能进行评测。

前述的基于注意力机制的语音情感识别方法，步骤(A)，提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的。

前述的基于注意力机制的语音情感识别方法，步骤(B)，建立具有处理变长数据能力的LSTM模型，遵循以下规则，

(B1)，根据LSTM模型具有处理变长语音特征的能力，在不等长的语音数据结尾处补零至相同长度；

(B2)，在LSTM模型训练前，补零后的语音数据实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得；

(B3)，在LSTM模型参数更新训练时，只有实际有效的语音数据参与运算，补零的数据并不参与运算。

前述的基于注意力机制的语音情感识别方法，步骤(C)，通过注意力机制优化LSTM模型中的遗忘门计算方式，是在遗忘门与细胞状态的更新计算过程中增加窥视连接，将细胞状态也作为输入，该遗忘门计算方式，如公式(1)所示，

f_t＝σ(W_f×[C_t-1，h_t-1，x_t]+b_f) (1)

该细胞状态更新，如公式(2)、(3)、(4)所示，

i_t＝σ(W_i×[C_t-1，h_t-1，x_t]+_bi) (2)

其中，f_t为遗忘门参数，C_t为细胞状态更新参数，C_t-1和h_t-1分别为上一时刻的细胞状态和隐层输出，x_t为当前时刻的输入，为细胞状态更新的候选值，i_t为控制候选值的系数，W_f为LSTM模型内待训练的遗忘门外权重参数，b_f为LSTM模型内待训练的遗忘门偏置参数，W_i为LSTM模型内待训练的控制候选值权重参数，b_i为LSTM模型内待训练的控制候选值偏置参数，W_C为LSTM模型内待训练的细胞状态更新权重参数，b_C为LSTM模型内待训练的细胞状态更新偏置参数，σ为sigmod激活函数；

在该LSTM模型中i_t由(1-f_t)获得，即旧细胞遗忘的信息与新细胞加入的信息一同由f_t决定，细胞状态更新公式，如公式(5)所示：

从上式中可以看出，遗忘门参数f_t是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的，针对该加权系数采用自注意力机制来获取，即通过训练自注意力模型中的参数来获取细胞自身状态中的信息，以更新新的细胞状态，因此，遗忘门参数f_t，可通公式(6)得到，

f_t＝σ(V_f×tanh(W_f×C_t-1)) (6)

其中，V_f为遗忘门内注意力机制待训练参数。

前述的基于注意力机制的语音情感识别方法，步骤(D)，对优化后的LSTM模型输出的同时，进行时间维度和特征维度的注意力加权操作，包括以下步骤，

(D1)，时间维度的注意力加权操作

LSTM模型输出的最后一个时刻记为o_{max_time}与整个输出记为o_t作注意力运算的参数，将获取的加权系数作用在o_t的时间维度上，并在时间维度上求和作为输出，如公式(7)、(8)所示，

s_T＝softmax(o_{max_time}×(o_t×w_t)^T) (7)

其中，s_T表示时间维度上的注意力加权系数，w_t是o_t在时间维度的权重系数，·表示Hadamard乘法；output_T为时间维度上求和后的时间加权输出，s_T与o_t中表示时间维度的信息相乘，o_t中表示时间维度是o_t的中间一个维度；

(D2)，特征维度的注意力加权操作

为表达特征的差异性，在LSTM模型的特征维度上进行注意力加权计算，如公式(9)、(10)所示，

s_F＝softmax(v_F×tanh(o_t×w_F)) (9)

其中，s_F为特征维度上的自注意力加权系数，v_F为o_t在特征维度的自注意力参数，w_F为o_t在特征维度权重系数，tanh为双曲函数，output_F为特征维度上求和后的时间加权输出，s_T与o_t中表示特征维度的信息相乘，o_t中表示特征维度是o_t的最后一个维度。

前述的基于注意力机制的语音情感识别方法，步骤(E)，在LSTM模型上添加全连层与软最大化层，构建形成完整的情感识别网络模型，包括以下步骤，

(E1)，将LSTM模型的时间维度上求和后的时间加权输出output_T、特征维度上求和后的时间加权输出output_F共同作为全连层的输入；

(E2)，通过LSTM模型的软最大化层获得最终输出，做为完整的情感识别网络模型的输出。

前述的基于注意力机制的语音情感识别方法，步骤(F)，训练情感识别网络模型，并对该情感识别网络模型的识别性能进行综合评测，评价标准为准确率precision，召回率recall以及分数F1，如公式(11)-(13)所示，

precision＝(TP+TN)/(TP+TN+FN+FP) (11)

其中，TP是预测为正，实际为正的数量；FP是预测为正，实际为负的数量；TN是预测为负，实际为负的数量；FN是预测为负，实际为正的数量。

本发明的有益效果是：本发明的基于注意力机制的语音情感识别方法，通过注意力机制优化LSTM的遗忘门，不仅降低了LSTM模型运算复杂度，而且在一定程度上优化了情感识别性能，还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权，以区分不同时间片段和不同特征对情感识别的影响，能够提高语音情感识别的性能，方法巧妙新颖，具有良好的应用前景。

附图说明

图1是本发明的基于注意力机制的语音情感识别方法的流程图；

图2是CASIA数据库下平均识别率随训练时间变化的训练收敛过程及测试集结果图；

图3是eNTERFACE数据库下平均识别率随训练时间变化的训练收敛过程及测试集结果图；

图4是CASIA数据库下的训练收敛过程及测试集结果图；

图5是eNTFRFACE数据库下的训练收敛过程及测试集结果图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的基于注意力机制的语音情感识别方法，包括以下步骤，

步骤(A)，从原始语音数据中提取具有时序信息的语音特征，其中，提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的，详细语音特征集合如下表1所示，

表1详细语音特征集合表

步骤(B)，建立具有处理变长数据能力的LSTM模型，具体实现过程如下表2的计算方法，

表2建立具有处理变长数据能力的LSTM模型的计算方法表

其中，audio为补零后的语音数据，t是时间步对应语音数据的帧数；sequence_length是计算实际有效长度的函数，遵循以下规则，

(B3)，在LSTM模型参数更新训练时，只有实际有效的语音数据参与运算，补零的数据并不参与运算，

步骤(C)，通过注意力机制优化LSTM模型中的遗忘门计算方式，在LSTM中模型，遗忘门用来决定上一时刻细胞状态中什么样的信息应该丢弃，它会直接参与新细胞状态更新的计算中。在原始的LSTM模型中，遗忘门与细胞状态的更新计算只与上一时刻隐层输出与当前时刻输入有关，在此基础上，增加了窥视连接，将细胞状态也作为输入，将细胞状态也作为输入，该遗忘门计算方式，如公式(1)所示，

f_t＝σ(W_f×[C_t-1，h_t-1，x_t]+b_f) (1)

该细胞状态更新，如公式(2)、(3)、(4)所示，

i_t＝σ(W_i×[C_t-1，h_t-1，x_t]+b_i) (2)

其中，f_t为遗忘门参数，C_t为细胞状态更新参数，C_t-1和h_t-1分别是上一时刻的细胞状态和隐层输出，x_t是当前时刻的输入，是细胞状态更新的候选值，i_t是控制候选值的系数，W_f为LSTM模型内待训练的遗忘门外权重参数，b_f为LSTM模型内待训练的遗忘门偏置参数，W_i为LSTM模型内待训练的控制候选值权重参数，b_i为LSTM模型内待训练的控制候选值偏置参数，W_C为LSTM模型内待训练的细胞状态更新权重参数，b_C为LSTM模型内待训练的细胞状态更新偏置参数，σ为sigmod激活函数；

在该LSTM模型中i_t由(1-f_t)获得，即旧细胞遗忘的信息与新细胞加入的信息一同由f_t决定，细胞状态更新公式，如公式(5)所示，

f_t＝σ(V_f×tanh(W_f×C_t-1)) (6)

其中，V_f为遗忘门内注意力机制待训练参数，这里与原始遗忘门计算公式相比，该等式不含有h_t-1与x_t，因此，权重参数W_f的维度减少2/3(因为C_t-1，h_t-1和x_t具有相同的维度)，所以待训练的参数变少，从而有效减少训练和测试计算量，在LSTM模型中，每个时刻点都需要计算遗忘门，所以单个遗忘门计算量的缩减，可以极大的提高LSTM模型训练的效率；

步骤(D)，对优化后的LSTM模型输出的同时，进行时间维度和特征维度的注意力加权操作，鉴于帧级语音特征中每一帧数据所蕴含的情感程度并不统一，即每帧数据对最终情感识别的贡献是不一样的，所以可以通过时间维度的加权来表达这种贡献程度，包括以下步骤，

(D1)，时间维度的注意力加权操作

s_T＝softmax(o_{max_time}×(o_t×w_t)^T) (7)

其中，s_F为特征维度上的自注意力加权系数，w_t是o_t在时间维度的权重系数，output_F为特征维度上求和后的时间加权输出，s_T与o_t中表示特征维度的信息相乘，O_t中表示特征维度是O_t的最后一个维度；

(D2)，特征维度的注意力加权操作

s_F＝softmax(v_F×tanh(o_t×w_F)) (9)

其中，s_F为特征维度上的自注意力加权系数，v_F为o_t在特征维度的自注意力参数，w_F为o_t在特征维度权重系数，tanh为双曲函数，tanh为双曲函数，output_F为特征维度上求和后的时间加权输出，s_T与o_t中表示特征维度的信息相乘，o_t中表示特征维度是o_t的最后一个维度；

步骤(E)，在LSTM模型上添加全连层与软最大化层，构建形成完整的情感识别网络模型，包括以下步骤，

(E2)，通过LSTM模型的软最大化层获得最终输出，做为完整的情感识别网络模型的输出；

步骤(F)，训练情感识别网络模型，并对该情感识别网络模型的识别性能进行综合评测，评价标准为准确率precision，召回率recall以及分数F1，如公式(11)-(13)所示：

precision＝(TP+TN)/(TP+TN+FN+FP) (11)

其中，TP是预测为正，实际为正的数量；FP是预测为正，实际为负的数量；TN是预测为负，实际为负的数量；FN是预测为负，

实际为正的数量。

模型训练的初始参数如下表7所示，其中CASIA数据库的初始学习率为0.0001，eNTERFACE数据库初始学习了为0.001，由于本发明对LSTM的输出矩阵进行了2种注意力加权操作，并将获得的结果组合在一起[output_T，output_F]作为全连层输入，所以全连层的单元数量会翻倍，表7中全连层的参数[256，128]对应由传统LSTM构建的网络，[512，128]为基于时间维度和特征维度注意力的LSTM网络，实验中其他参数保持不变，以保证不同网络具有可对比性。

表7模型参数

参数	值
		Learning Rate	0.0001/0.001
Batch size	128
		Hidden units(the first LSTM)	512
Hidden units(the second LSTM)	256
		Hidden units(full c。nnecti。n layer)	[512，128]/[256，128]
Hidden units(output)	[128，6]

为评价步骤(C)对LSTM模型遗忘门优化的有效性，本发明在两组测试集上，将基于注意力门的LSTM模型(LSTM-at)与传统LSTM，基于注意力门的LSTM-TF模型(LSTM-TF-at)与LSTM-TF进行了对比实验，如图2和图3分别是CASIA和eNTERFACE数据库上平均识别率随训练时间变化的收敛曲线(图a)及测试结果(图b)，这四个模型在CASIA数据库上进行了1200epoch训练，在eNTERFACE数据库上进行了1000epoch训练，即模型在相同的数据库上进行了相同的迭代步数，但从图中可以看出，每个模型训练相同的步数所需要的训练时间是不同的，基于注意力门的LSTM模型要比修正前的模型所需的时间代价要小。对比两个库上的训练时间，CASIA库训练时间较长，LSTM-at与LSTM，LSTM-TF-at与LSTM-TF的训练时间差明显大于eNTERFACE数据库的时间差。这说明随着训练时间的增加，基于注意力门的LSTM模型在训练时间上具有更突出的优势。此外，通过图2及图3(a)还可以发现基于注意力门的LSTM模型收敛所需时间更少，即收敛速度加快了。因此，这种注意力门比传统的遗忘门在时间层面上具有更优的性能。

为定量分析基于注意力门的LSTM模型在识别性能方面的情况，取每个模型的最佳识别性能作分析，如下3及表4所示，基于注意力门的LSTM虽然减少了模型内部的矩阵运算量，但对于6种情感的整体平均识别性能而言，并没有产生负面影响，甚至比原始模型有了一定程度的改善。与传统LSTM模型的基线相比，LSTM-at模型在CASIA和eNTERFACE两个语料库上分别提升了约1％和6％；与LSTM-TF相比，LSTM-TF-at模型在CASIA和eNTERFACE两个语料库上分别提升了约1％和3％，如表3及表4所示，

表3CASIA库上基于注意力门的LSTM模型识别性能

表4eNTERFACE库上基于注意力门的LSTM模型识别性能

为评价步骤(D)对LSTM输出进行了注意力加权的有效性，本发明对比了普通LSTM，仅时间维度加权的LSTM(LSTM-T)，仅特征维度加权的LSTM(LSTM-F)，时间与特征维度同时加权的LSTM(LSTM-TF)，如图4和图5分别是CASIA与eNTERFACE的训练收敛过程(图a)及测试集结果(图b)，纵轴为平均识别率，为客观表达模型性能，以下分析全部是基于测试集的识别结果展开的。在这两个数据库上，经过时间维度或特征维度注意力加权后的模型比传统LSTM所获得的识别率高。通过图4和图5的测试集结果图(b)可以看出，在CASIA库上，LSTM-T要比LSTM-F略好一些，而在eNTERFACE语料库上，则是一个相反的结果。因为在汉语情感表达中，存在明显的语音声调的变化(即平仄音的变化)，因而其时间维度上信息的差异要高于英语。而原始IS2010特征集合是针对英语而提出的，因而在eNTERFACE数据库上，特征加权后的效果更加明显。但LSTM-TF在两个数据上均获得了最佳性能。此外，经注意力加权后的三种模型比传统LSTM具有更快的收敛速度，因为经过注意力加权后的数据强化了关键信息，突出了有效情感信息，使得模型能够加快收敛。

为定量评估步骤(D)的效果，下表5及6，分别是CASIA和eNTERFACE数据库上识别结果，从表5及6中可以看出，Anger情感在两个数据库上相比于其他情感类别具有较高的识别率。在CASIA上，基于注意力的LSTM模型对Fear和Sad两种情感识别上有了明显提高，但整体的识别性能比LSTM仅提高了2％，可能原因是该数据库识别性能基线较高，提升空间有限。而在eNTERFACE语料库上，LSTM-F模型获得的结果与特征分析基本一致，即sad情感具有最高的情感识别率，而disgust，fear和surprise情感识别率相对较低；但6种情感通过注意力加权后的LSTM模型都具有了明显提高，且整体识别性能提高了约11％，这说明经注意力加权后的深层特征强化了关键情感信息，从而提高了识别性能，尤其是对原本识别率较低的情感类别具有明显的改善。

表5CASIA库上基于输出加权的情感识别结果

表6eNTERFACE库上基于输出加权的情感识别结果

综上所述，本发明的基于注意力机制的语音情感识别方法，通过注意力机制优化LSTM的遗忘门，不仅降低了LSTM模型运算复杂度，而且在一定程度上优化了情感识别性能，还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权，以区分不同时间片段和不同特征对情感识别的影响，能够提高语音情感识别的性能，方法巧妙新颖，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于注意力机制的语音情感识别方法，其特征在于：包括以下步骤，

步骤(A)，从原始语音数据中提取具有时序信息的语音特征；

步骤(B)，建立具有处理变长数据能力的LSTM模型；

步骤(C)，通过注意力机制优化LSTM模型中的遗忘门计算方式；

2.根据权利要求1所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(A)，提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的。

3.根据权利要求1所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(B)，建立具有处理变长数据能力的LSTM模型，遵循以下规则，

4.根据权利要求1所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(C)，通过注意力机制优化LSTM模型中的遗忘门计算方式，是在遗忘门与细胞状态的更新计算过程中增加窥视连接，将细胞状态也作为输入，该遗忘门计算方式，如公式(1)所示，f_t＝σ(W_f×[C_t-1，h_t-1，x_t]+b_f) (1)

该细胞状态更新，如公式(2)、(3)、(4)所示，

i_t＝σ(W_i×[C_t-1，h_t-1，x_t]+b_i) (2)

f_t＝σ(V_f×tanh(W_f×C_t-1)) (6)

其中，V_f为遗忘门内注意力机制待训练参数。

5.根据权利要求1所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(D)，对优化后的LSTM模型输出的同时，进行时间维度和特征维度的注意力加权操作，包括以下步骤，

(D1)，时间维度的注意力加权操作

s_T＝softmax(o_{max_time}×(o_t×w_t)^T) (7)

(D2)，特征维度的注意力加权操作

s_F＝softmax(v_F×tanh(o_t×w_F)) (9)

6.根据权利要求5所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(E)，在LSTM模型上添加全连层与软最大化层，构建形成完整的情感识别网络模型，包括以下步骤，

7.根据权利要求1所述的基于注意力机制的语音情感识别方法，其特征在于：步骤(F)，训练情感识别网络模型，并对该情感识别网络模型的识别性能进行综合评测，评价标准为准确率precision，召回率recall以及分数F1，如公式(11)-(13)所示，

precision＝(TP+TN)/(TP+TN+FN+FP) (11)