CN115881164A

CN115881164A - 一种语音情感识别方法及系统

Info

Publication number: CN115881164A
Application number: CN202211490561.5A
Authority: CN
Inventors: 张鹏; 柏绪恒; 赵靖; 李晔; 汪付强; 刘祥志; 张建强; 吴晓明
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-31

Abstract

本发明公开了一种语音情感识别方法、系统、电子设备及计算机可读存储介质，属于语音信号处理与模式识别技术领域。包括获取语音信号并进行预处理，对预处理后的语音信号进行声学特征提取，对提取到的声学特征数据进行标准化处理；将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类，获取语音情感识别结果；其中，语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。能够避免在输入到神经网络中时丢失时间信息，充分提取和处理时序特征；解决了现有技术中存在“有较好的运用语音的情感声学特征，尤其是时间序列的特征，出现梯度消失和信息损失”的问题。

Description

一种语音情感识别方法及系统

技术领域

本申请涉及语音信号处理与模式识别技术领域，特别是涉及一种语音情感识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

情感是人类日常活动中存在的一个重要方面，能够帮助人们相互理解并帮助人们做出决策，还能够在安全和安保的背景下协助沟通。例如，当与心烦意乱的人分享时，我们可以更加小心和温柔，以避免伤害那个人。

识别人类情感有不同的方式，例如通过语音、文本和面部表情进行识别，而语音显然是研究人类情感的重要渠道和来源。语音情感识别的任务是识别通过人类语言表达的情感，语音情感识别在众多应用中发挥了重要作用，例如人机交互(HCI)，人机界面，智能呼叫中心，智能教学系统等。

此外，添加语音情感识别功能被认为是创建可以像人类一样工作的设备的关键因素。因此，语音情感识别研究仍在积极进行，并且引起了许多研究人员的越来越大的兴趣，以开发性能更好的语音情感识别模型。

现有技术中，大多数的语音情感识别研究都集中在机器学习(ML)架构上，以开发语音情感识别模型。此方法涉及从原始语音数据中提取特征，提取的特征用作输入，以基于输入输出对的样本来训练机器学习算法；训练后，机器学习算法从验证和测试数据中预测情绪。语音中不同类型的特征，如韵律、语音质量、频谱、小波、频谱图图像和深层特征，已在当前的语音情感识别模型中得到广泛应用。然而，迄今为止，还没有一个单一的特征集被确定为识别语音数据中情绪的一站式解决方案。研究人员经常执行测试或组合大量特征以获得一些见解，并且可以使用各种特征选择方法来删除冗余特征；选择用于执行分类任务的ML架构的过程在语音情感识别中也至关重要，其中，语音情感识别模型的分类范例必须能够以尽可能低的计算成本处理高维特征。

深度学习(DL)的出现提高了研究人员开发出性能更好的语音情感识别模型的效率可能性，这些模型的范围从深度神经网络(DNN)、卷积神经网络(CNN)拓展到基于递归神经网络(RNN)的模型。但是目前这些主流模型存在长距离梯度消失以及长时间序列的信息损失问题，没有较好的运用语音的情感声学特征，尤其是时间序列的特征，这是对于正确识别语音情感是非常重要的特征。

发明内容

为了解决现有技术的不足，本申请提供了一种语音情感识别方法、系统、电子设备及计算机可读存储介质，在Transformer神经网络的基础上，利用长短期记忆网络取代编码器中的位置编码，利用双向长短期记忆网络取代解码器。

第一方面，本申请提供了一种语音情感识别方法；

一种语音情感识别方法，包括：

获取语音信号并进行预处理，对预处理后的语音信号进行声学特征提取，对提取到的声学特征数据进行标准化处理；

将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类，获取语音情感识别结果；其中，语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。

进一步的，所述长短期记忆网络用于对输入的声学特征数据进行位置编码，所述编码器用于对位置编码后的声学特征数据进行加权，所述双向长短期记忆网络用于对加权后的声学特征数据进行迭代解码，所述SoftMax分类模块用于对迭代解码后的声学特征数据的情感进行分类。

进一步的，所述双向长短期记忆网络由两个长短期记忆网络组成，双向长短期记忆网络中的长短期记忆网络的激活函数表示如下：

其中，

为激活函数，/>

为结合符号的元素级注意力机制，/>

表示标准整流线性单元。

进一步的，所述编码器的数量为4，4个编码器纵向排列，每个编码器的输入分别与长短期记忆网络连接，每个编码器的输出分别与所述双向长短期记忆网络连接。

进一步的，所述SoftMax分类模块的公式表示如下：

其中，S_i为第i个节点的输出值，c为输出节点的个数。

进一步的，所述对预处理后的语音信号进行声学特征提取的具体步骤包括：

对预处理后的语音信号依次进行预加重操作、分帧操作和加窗操作，对加窗后的语音信号进行短时傅里叶变换，得到频谱图；

将频谱图输入梅尔滤波器，获取对数幅度并对频谱图应用离散余弦变换得到梅尔倒谱系数。

进一步的，所述对提取到的声学特征数据进行标准化处理的具体步骤为：

计算提取的梅尔倒谱系数的算数平均数和标准差，对梅尔倒谱系数进行标准化处理，获取标准化梅尔频率倒谱系数。

第二方面，本申请提供了一种语音情感识别系统；

一种语音情感识别系统，包括：

声学特征提取模块，被配置为：获取语音信号并进行预处理，对预处理后的语音信号进行声学特征提取，对提取到的声学特征数据进行标准化处理；

语音情感识别模块，被配置为：将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类，获取语音情感识别结果；其中，语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。

第三方面，本申请提供了一种电子设备；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述语音情感识别方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质；

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述语音情感识别方法的步骤。

与现有技术相比，本申请的有益效果是：

1、本申请提供的技术方案能够解决单纯使用循环神经网络(RNN)、长短期记忆网络(LSTM)或者注意力神经网络中无法充分提取和处理时序特征的问题，将transformer神经网络与BLSTM结合提高语音情感识别的精度。

2、将transformer神经网络和BLSTM双向长短期记忆网络结合，使用transformer神经网络对BLSTM双向长短期记忆网络在长距离依赖问题上得到提升，使用BLSTM双向长短期记忆网络对transformer神经网络局部信息的获取得到提升。

3、transformer神经网络的位置编码存在不能很好的表征位置信息的问题，在处理语音问题时，它的位置编码会丢失时间位置的顺序信息，需要在每个时间步重新计算上下文窗口中的整个历史记录。因为LSTM长短期记忆网络对于时间位置的顺序信息有很强的记忆能力，可以长时间记住信息，使用LSTM长短期记忆网络代替transformer神经网络的位置编码，使其位置编码能力获得提升，有效利用时序特征，提升语音情感识别的精度。

4、使用BLSTM双向长短期记忆网络代替transformer神经网络的解码器，可以进一步提高解码效率，采用AReLU激活函数代替BLSTM中tanh函数，进一步提高了BLSTM双向长短期记忆网络解码的效率，从而提升语音情感识别的效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例提供的流程示意图；

图2为本申请实施例提供的语音情感识别模型的网络结构示意图；

图3为本申请实施例提供的自注意力机制的网络结构示意图；

图4为本申请实施例提供的双向长短期记忆网络的网络结构示意图；

图5为本申请实施例提供的改进的长短期网络的网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

现有技术中，应用于语音情感识别的语音情感识别模型没有有效运用语音的情感声学特征，存在长距离梯度消失和长时间序列的信息损失问题；因此，本申请提供了一种语音情感识别方法。

接下来，结合图1-5对本实施例公开的一种语音情感识别方法进行详细说明。该语音情感识别方法，包括如下步骤：

S1、获取语音信号并进行预处理；

由于不同的语音数据集具有不同的特征，其中一些可能包含噪声，而另一些则是干净的记录，某些数据还包含录制开始或结束时的消音，并且不同的数据集之间，录制的语音数据持续时间可能会不同。因此，需要对语音信号进行预处理。

示例性的，对原始语音信号中的.wav文件进行预处理：

首先，从Python的librosa库中加载语音样本并将其重新采样至22050kHz以便与语音无关的数据集可以遵循一致的采样率；然后，去除语音样本开头和结尾的静音部分并且将语音的长度统一为5秒，对于大于5秒的语音段进行裁剪，对于小于五秒的语音段进行补零操作。

S2、对预处理后的语音信号进行声学特征提取，具体的，声学特征提取过程是利用Librosa库实现的；

示例性的，提取语音信号的40维梅尔频率倒谱系数MFCC，这是语音处理应用中使用最广泛的音频特征之一，能够模仿人类的听觉系统，并提供有关人类声道形状的信息。具体步骤包括：

S201、对预处理后的语音信号依次进行预加重操作、分帧操作和加窗操作，对加窗后的各帧语音信号进行短时傅里叶变换，得到频谱图；具体的，利用窗口长度为1024，跳跃长度为512的汉明窗对语音信号进行加窗，汉明窗公式如下：

S202、将频谱图分别输入40个梅尔滤波器，获取对数幅度并对频谱图应用离散余弦变换获得40维梅尔频率倒谱系数MFCC。

S3、对提取到的梅尔频率倒谱系数MFCC进行标准化处理，获取标准化梅尔频率倒谱系数MFCC；

因为情感特征是从整个语音文件中继承的，并且不受单个帧中细节的影响，因此，为了避免输入到神经网络中是丢失时间信息，所以这里对提取到40维mfcc进行标准化处理。

示例性的，对于获得的40维梅尔频率倒谱系数MFCC，求其算术平均数和标准差，对其进行标准化处理，得到标准化梅尔频率倒谱系数MFCC。标准化公式如下：

S4、将标准化梅尔频率倒谱系数MFCC输入训练好的语音情感识别模型进行处理并分类，获取语音情感识别结果；语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块，长短期记忆网络用于对输入的标准化梅尔频率倒谱系数MFCC进行位置编码，编码器用于对位置编码后的标准化梅尔频率倒谱系数MFCC进行加权，双向长短期记忆网络用于对加权后的标准化梅尔频率倒谱系数MFCC进行迭代解码，SoftMax分类模块用于对迭代解码后的标准化梅尔频率倒谱系数MFCC的情感进行分类。具体步骤包括：

S401、将标准化梅尔频率倒谱系数MFCC输入长短期记忆网络，对标准化梅尔频率倒谱系数MFCC进行位置编码；具体的，标准化梅尔频率倒谱系数Mfcc输入到长短期记忆网络，进行位置编码，通过LSTM的门控机制，输入向量的隐藏特征得以保留，输出位置编码后的带有隐藏特征的高级情感特征；

S402、将位置编码后带有隐藏特征的高级情感特征输入到编码器的多头注意力中，利用多头注意力对位置编码处理后的带有隐藏特征的高级情感特征进行注意力加权，利用多个自注意力的迭代，得到加权后的输出，即具有长期依赖关系的时间序列特征；

本实施例中，多头注意力由8个自注意力组成，利用这种结构来避免梯度消失和梯度爆炸问题，提高模型学习长期依赖关系的能力。

如图3所示，自注意力(self-attention)机制中，首先，对于输入的标准化梅尔频率倒谱系数MFCC，创建当前时刻的三个向量(Q，K，V)，分别对相应着查询向量、键向量和值向量；然后，计算一个分数，分数是通过查询向量(Q)与我们正在输入的特征的各个时刻的键向量(K_{(1，2，3...n)})点积计算得来，这个分数代表的是当前时刻查询向量(Q)和键向量(K)的相似度；再通过softmax操作传递结果，softmax将分数归一化，因此，它们都是正数并且加起来为1，这个softmax分数决定了每个语音帧在这个位置上的表达量。显然，这个位置的语音帧将具有最高的softmax分数，但有时关注与当前语音帧相关的另一个语音帧很有用；因此，将每个值向量(V)乘以softmax分数，对加权值向量求和，产生结果向量并发送到前馈神经网络。整体公式如下：

Z(多头)＝concat(z₁，z₂，z₃，z₄，z₅，z₆，z₇，z₈),concat为相加。

前馈神经网络为包含两个Relu激活函数的前馈全连接层，前馈全连接层在是transformer模型中具有两层线性层的全连接网络，考虑到注意力机制可能对复杂过程的拟合度不够，通过增加两层网络来增强模型的能力。Transformer层允许并行化，而LSTM不能，该层使模型能够更好的理解长期依赖关系。因此，它适用于进行语音情感识别模型，因为语音中的情感高度依赖于时间信息。

S403、将结果向量输入双向长短期记忆网络，通过BiLSTM不断迭代实行，利用BiLSTM对结果向量进行解码，输出解码结果。

BiLSTM由两个LSTM组成，传统的LSTM中经典的激活函数是双曲正切(tanh)，虽然tanh函数具有固有的优势，但由于密集激活计算，它具有很高的计算复杂性，并且还容易受到梯度消失问题的影响。对LSTM进行改进，采用基于注意力的整流线性单元(AReLU)的可学习参数，如图5所示，利用元素级注意力机制，放大正元素，并利用学习的数据自适应参数抑制负元素。由于AReLU中的注意力模块学习输入激活部分的元素残差，因此网路更能抵抗梯度消失，更好的进行解码。AreLU激活函数的公式如下：

其中，

表示AReLU激活函数，/>

表示结合了基于符号的元素注意机制，/>

表示标准整流线性单元。，

S404、将解码结果经全连接层输入SoftMax分类器，将输出表现在(0,1)区间中，寻找最大概率的维度当做最终的输出结果，即最终的情感。公式如下：

其中，以第i个节点为例，S_i为第i个节点的输出值，c为输出节点的个数，即分类的类别数。

在一些实施例中，对标准化梅尔频率倒谱系数MFCC进行one-hot独热编码处理，将输入的标准化梅尔频率倒谱系数MFCC用one-hot形式编码成序列向量。，可以获得语音帧之间的关系，为下面的位置编码提前做好准备，更好的处理长距离依赖问题。

实施例二

本实施例公开了一种语音情感识别系统，包括：

此处需要说明的是，上述声学特征提取模块、语音情感识别模块对应于实施例一中的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本发明实施例三提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，计算机指令被处理器运行时，完成上述的步骤。

实施例四

本发明实施例四提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音情感识别方法，其特征是，包括：

2.如权利要求1所述的语音情感识别方法，其特征是，所述长短期记忆网络用于对输入的声学特征数据进行位置编码，所述编码器用于对位置编码后的声学特征数据进行加权，所述双向长短期记忆网络用于对加权后的声学特征数据进行迭代解码，所述SoftMax分类模块用于对迭代解码后的声学特征数据的情感进行分类。

3.如权利要求1所述的语音情感识别方法，其特征是，所述双向长短期记忆网络由两个长短期记忆网络组成，双向长短期记忆网络中的长短期记忆网络的激活函数表示如下：

其中，

为激活函数，/>

为结合符号的元素级注意力机制，

表示标准整流线性单元。

4.如权利要求1所述的语音情感识别方法，其特征是，所述编码器的数量为4，4个编码器纵向排列，每个编码器的输入分别与长短期记忆网络连接，每个编码器的输出分别与所述双向长短期记忆网络连接。

5.如权利要求1所述的语音情感识别方法，其特征是，所述SoftMax分类模块的公式表示如下：

其中，S_i为第i个节点的输出值，c为输出节点的个数。

6.如权利要求1所述的语音情感识别方法，其特征是，所述对预处理后的语音信号进行声学特征提取的具体步骤包括：

7.如权利要求6所述的语音情感识别方法，其特征是，所述对提取到的声学特征数据进行标准化处理的具体步骤为：

8.一种语音情感识别系统，其特征是，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的步骤。