CN116226372A

CN116226372A - 基于Bi-LSTM-CNN的多模态语音情感识别方法

Info

Publication number: CN116226372A
Application number: CN202211698958.3A
Authority: CN
Inventors: 张翼英; 张楠; 马彩霞; 马兴毅; 韩龙哲
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-06-06

Abstract

本发明公开了基于Bi‑LSTM‑CNN的多模态语音情感识别方法，包括：获取文本情感信息和音频情感信息；分别对文本情感信息和音频情感信息进行预处理；将预处理后的文本情感信息输入至Bi‑LSTM网络中，输出语义特征；采用opensmile工具从预处理后的音频情感信息中提取声学特征；将语义特征和声学特征进行特征融合处理，获得融合特征；将语义特征和融合特征输入至CNN分类器中，通过softmax层后将其输出作为决策级融合的输入，通过决策融合公式计算得出每种情感对应的得分，取得分最大值对应的情感类别作为最终的情感识别结果。通过该方法能有效解决单模态情感识别中的不足，提高识别的效率和准确率。

Description

基于Bi-LSTM-CNN的多模态语音情感识别方法

技术领域

本发明属于语音情感识别技术领域，特别是基于Bi-LSTM-CNN的多模态语音情感识别方法。

背景技术

语音是人类的语言符号体系的载体，是语言的首要属性，它既包括了话语主体所要传达的内容，也包括了其所要传达的感情信息。情绪与人类态度的内在感受、意向具有协调的一致性，是一种较为复杂但较为稳定的心理状态。语音情感辨识就是通过电脑自动地识别输入的声音的情绪。该系统在心理健康监测、教育辅助、个性化内容推荐、客户服务质量监控等方面有着广泛的应用价值。

在现阶段的研究中，语音识别始终是人机交互技术不可缺少的研究方向，迄今为止，多数语音识别系统还是只有在能够有效处理潜在情感时才能达到与人类相当的表现。对于优秀的语音系统，其目的不应该仅仅局限于语义信息处理，而应该通过检测语音中的情感信息进一步理解说话者的真实含义。

近些年来，随着科技的不断进步及相关行业的逐步发展，语音情感识别技术逐步作为人工智能的热门分支技术而被人熟知并且逐步成为其重要研究方向。通过语音情感识别，人工智能技术可以使机器利用识别情感的方式来提高相关人工智能的识别准确率，进而帮助人们做出正确的决定。随着相关研究的不断深入，研究者们在语音情感识别方面也不断针对相关算法提出一些改进，并取得了一定的进展。

在国外的研究中，一些研究者们开始针对语音情感识别的分类方案和评估方式做出研究，并希望通过较为科学的分类方式为语音情感识别提供更加有效的识别模式；此外，Ghosh等人研究了从语音信号中提取声谱图特征进行情感识别的方法，并用层叠式自动编码器进行谱图编码，利用递归神经网络对4种主要情感进行分类，并通过一种改进的递归神经网络研究说话人和语音不变特征对分类性能的影响，并在IEMOCAP语音情感数据集上取得了一定的性能提升；另外，有研究者开始尝试通过使用卷积神经网络与循环神经网络相结合的方式试图解决情感中部分情感顺序信息的问题，进而提出了解决“上下文感知”情感相关特征的方案；还有研究者针对情感特征提出新的统计特征选择方法，利用此方法减少了特征数量并以此提升准确率。

转看国内，国内的语音情感识别领域内，东南大学赵力教授团队处于领域内研究的前沿，其团队中的张听然等人利用深度学习领域的DBN(Deep BeliefNetwork，深度置信网络)技术，并利用该技术提出特征融合的方案，进而使用特征融合后的特征子集相较传统特征在多个数据集上获得了一定的提升；朱芳枚等人提出了一种改良的自编码技术结构，其使用了较输入特征维数更大的隐藏特征以及稀疏自编码学习特征，通过使用该结构的网络较ANN网络在准确率方面提高了1.64％；另外，太原理工大学的张雪英教授团队在国内的语音情感识别领域内也取得了一定的进展，宋静等人围绕数据集的问题进行相关研究，其通过模糊综合评价和层次分析法等方法相结合，依此搭建情感语音的评价模型，并对一些数据集进行评价、进行语音情感识别实验验证数据有效性，也取得了较好的研究效果；高帆等人基于DBM-LSTM神经网络结构，提出用以增强不同情感特征的融合程度的神经网络。该网络在一定程度上提升了语音情感识别模型的鲁棒性，并通过实验证明该模型较传统识别模型在识别准确率方面有所提升。

但是，传统方法主要采用单模态的语音情感识别，单模态方法抽取到的特征比较单一，容易造成在语音情感识别过程中信息不全面、容易受到噪声干扰等问题，语音情感识别的准确率受到一定影响。此外，传统方法的模型架构一般比较简单，无法捕捉到较长距离的语音语义依赖关系，并且传统方法中的数据融合方式只采用特征融合或决策融合，两种方法各有弊端，无法获取全面的特征信息。

因此，如何有效解决单模态情感识别中的不足，提高识别的效率和准确率，成为当前研究的关键问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的基于Bi-LSTM-CNN的多模态语音情感识别方法，通过该方法能有效解决单模态情感识别中的不足，提高识别的效率和准确率。

本发明实施例提供了基于Bi-LSTM-CNN的多模态语音情感识别方法，包括：

获取文本情感信息和音频情感信息；

分别对所述文本情感信息和音频情感信息进行预处理；

将预处理后的文本情感信息输入至Bi-LSTM网络中，输出语义特征；

采用opensmile工具从预处理后的音频情感信息中提取声学特征；

将所述语义特征和所述声学特征进行特征融合处理，获得融合特征；

将所述语义特征和所述融合特征输入至CNN分类器中，通过softmax层后将其输出作为决策级融合的输入，通过决策融合公式计算得出每种情感对应的得分，取得分最大值对应的情感类别作为最终的情感识别结果。

进一步地，对所述文本情感信息进行预处理，包括：对所述文本情感信息进行词嵌入处理，将所述文本情感信息中的词转换成数字向量。

进一步地，对所述音频情感信息进行预处理，包括：首先对所述音频情感信息中的语音数据执行分帧加窗操作，从而减小信号中非连续部分的幅值，通过傅里叶变换将每帧语音数据的频率谱计算出来，并将傅里叶变换结果求平方得到相应频谱的能量谱，最后把所得到的能量谱按照时间维度拼接形成语谱图。进一步地，对所述音频情感信息中的语音数据执行分帧操作，包括：将所述音频情感信息中的语音数据分成等长的段，每个段被分成一帧，形成语音帧；对每个所述语音帧进行加窗处理，从而减少信号中的断续部分的幅度。

进一步地，所述Bi-LSTM网络包括第一单向LSTM网络和第二单向LSTM网络；

所述第一单向LSTM网络用于计算正向的上下文信息；

所述第二单向LSTM网络用于计算反向的上下文信息。

进一步地，采用opensmile工具从预处理后的音频情感信息中提取声学特征，包括：首先利用该窗函数对语音数据进行加权处理，获得加窗分帧之后的语音信号；然后从所述语音信号中提取声学特征；最后计算每个所述声学特征的均值和方差，并对所有数据进行归一化处理。

进一步地，所述声学特征包括：基频、短时能量、梅尔频率倒谱系数和过零率。

与现有技术相比，本发明记载的基于Bi-LSTM-CNN的多模态语音情感识别方法，具有如下有益效果：

本发明使用多种模态情感信息之间的互补性来提高情感识别的准确度；不仅有效地提高了语音情感识别地准确率，也提高了模型的鲁棒性。

本发明中将两种融合方式相结合，获得更优质的多模态特征，提高了最终情感识别结果的准确度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于Bi-LSTM-CNN的多模态语音情感识别方法流程示意图。

图2为本发明实施例提供的Bi-LSTM网络结构示意图。

图3为本发明实施例提供的对比实验结果示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

首先对本发明涉及到的相关术语进行解释说明。

1、卷积神经网络(CNN)：

卷积神经网络是一类典型的深度神经网络，该网络最早于1984年由日本学者K.Fukushima发现并验证，它具有局部感知、权值共享等特性，该网络在计算机视觉研究领域发挥了重要作用。卷积神经网络是一种前馈神经网络，它由一个输入层、一个输出层以及多个处在输入层、输出层之间的隐藏层组成。网络的隐藏层主要包括卷积层、池化层和全连接层，其中卷积层和池化层相结合，主要起到提取图像特征的作用。在获得图像典型特征图的同时，减少输入层到全连接层中的数据量，全连接层则根据输入的特征图，利用多层感知元模型对特征图进行分类识别。卷积的本质为两个矩阵对应位置上的数据相乘之后再将所有结果相加求和的过程。每一个卷积核与原图像进行卷积后得到相应的卷积结果，即对应的特征图，根据不同的卷积核元素可以获得图像不同方面的特征。

2、双向长短时记忆网络(Bi-LSTM)：

LSTM全称Long Short-Term Memory，是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如本发明中的数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写，它是将正向LSTM和反向LSTM相结合的。这两种方法经常用于自然语言的背景信息的建模。要表达句子，可以根据词语的表现形式，把它们组合在一起，然后再把它们的表达方式加和，或求平均。然而，这种方法最大的问题在于，没有把单词在句子中的前后次序考虑进去。而LSTM模型则能更好地捕获更大范围的依赖性。由于LSTM能够从学习的过程中学习到什么是记忆和忘记什么。然而，LSTM模型的建立却有一个问题，即不能对前后信息进行编码，但是利用BiLSTM却可以更好地捕获语义的双向依赖性。

3、语音情感识别：

语音是语言的首要属性，它既包括了话语主体所要传达的内容，也包括了其所要传达的感情信息。情绪与人类态度的内在感受、意向具有协调的一致性，是一种较为复杂但较为稳定的心理状态。人类可以通过听声音来了解别人的情绪，这是由于人脑具有识别和了解声音的能力，这些信息可以反应出说话者的情绪，比如语气词、语调的改变。但是，语音的情绪变化是一种抽象、动态的过程，很难用静态的信息来描述它的情绪，而随着人工智能的出现，它的出现给了人们更多的机会。语音情绪辨识是电脑模拟人类的情绪认知和认知过程，通过电脑对情绪进行分析，提取出情绪特征，再根据这些特征值进行相应的识别，并将其与情绪进行对应的映射，从而实现情绪的分类。简而言之，就是从声音信号中抽取声音的特性，并分析其与人的情绪之间的映射关系。

接下来对本发明实施例进行说明。

参见图1所示，本发明实施例提供了基于Bi-LSTM-CNN的多模态语音情感识别方法，具体包括如下步骤：

获取文本情感信息和音频情感信息；

分别对所述文本情感信息和音频情感信息进行预处理；

将语义特征和融合特征输入至CNN分类器中，通过softmax层后将其输出作为决策级融合的输入，通过决策融合公式计算得出每种情感对应的得分，取得分最大值对应的情感类别作为最终的情感识别结果。

本发明实施例在利用opensmile提取声学特征和Bi-LSTM网络(双向长短时记忆网络)提取语义特征后进行特征融合，再将融合后的特征输入CNN分类模型中得到最终的情感分类结果。通过该方法能有效解决单模态情感识别中的不足，提高识别的效率和准确率。

下面分别对上述步骤进行详细的说明。

1、对文本情感信息进行预处理：

具体为对文本情感信息进行词嵌入处理，将文本情感信息中的词转换成数字向量。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了词向量，从而便于后续使用标准机器学习算法来对文本情感信息进行分析。

2、对音频情感信息进行预处理：

对音频情感信息进行预处理的主要目的是将语义的时阈信号变成包括时域和频域的语谱图信号。具体为：首先对一段长的语音数据执行分帧操作，将语音信号分成等长的段，每个段被分成一帧，每个语音帧都被加窗，从而减少信号中的断续部分的幅度；然后通过傅里叶变换将每帧语音数据的频率谱计算出来，并将傅里叶变换结果求平方转化得到相应频谱的能量谱，最后把所得到的能量谱按照时间维度拼接形成语谱图。

通过语谱图可以清晰地表示人类情感的变化。比如，人们在高兴时，平均音调较高，语速较快，语气强度比较高，在语谱图中深色部分的面积比较大，相邻的条纹间隔比较小。

3、语义特征提取：

Bi-LSTM网络(双向长短时记忆网络)是由两个单向LSTM组成的，为了便于说明，分别记作第一单向LSTM网络和第二单向LSTM网络；其中，第一单向LSTM网络用于计算正向的上下文信息的LSTM，第二单向LSTM网络用于计算反向的上下文信息的LSTM。通过这种形式可以为每个时刻单词提供了完整的上下文状态信息。Bi-LSTM网络结构如图2所示。

4、声学特征提取：

opensmile是一个语音特征提取的工具，在语音识别(特征提取前端、关键字识别等)，情感计算(情感识别、敏感虚拟代理等)，音乐信息检索(和弦标注、节拍跟踪、起跳检测等)等领域有着较为广泛的应用。本发明利用opensmile工具提取声学特征。

首先利用该窗函数对语音信号进行加权预处理，从而获得加窗分帧之后语音信号p_w(n)，该窗函数的窗长为20ms，窗移为5ms；语音信号p_w(n)通过公式可以表示为：

p_w(n)＝p(n)·w(n)

其中p(n)为初始的语音信号；w(n)为窗移函数；

然后从语音信号中提取声学特征；该声学特征包括：基频、短时能量、梅尔频率倒谱系数和过零率等；最后计算每个所述声学特征的均值和方差，并对所有数据进行归一化处理。

5、数据融合：

(1)特征级融合：

将获取到的声学特征和语义特征进行融合，融合结果作为CNN模型的输入。

(2)决策级融合：

将语义特征与上述得到的融合特征输入至CNN分类器中，在经过softmax层后进行决策级融合从而得到最终的情感识别结果；两种融合方式相辅相成，可以获取到更好的多模态特征。本发明提出的基于语义的Bi-LSTM模型和CNN模型作为独立的模型，将独立的结果最终融合成公共的决策。给不同的模型赋予不同的权值，很好地考虑了不同模态特征间的差异性。给定语句在加权平均融合中输出的得分为：

Score＝w₁*Score(T)+w₂*Score(S,T)

其中，Score(T)表示单独文本特征通过softmax层得出的输出结果；Score(S，T)表示语音-文本相融合后的特征通过softmax层后输出的结果；w₁表示单独文本特征求得的得分对应的权重；w₂表示使用文本语音相结合的方式求得的得分对应的权重，w₁和w₂均使用试错法来确定。

6、案例分析：

为了验证本发明提出的基于Bi-LSTM-CNN的多模态语音情感识别方法的有效性，本发明实施例进行了对比分析。具体为：将本发明实施例中提出的方法分别与基于语音的情感识别方法、基于语义的情感识别方法进行对比。本发明中提出的方法采用opensmile提取语音特征，采用Bi-LSTM提取语义特征，然后采用特征融合的方式进行数据融合。其对比实验分别为基于语音的情感识别方法中采用opensmile提取语音特征，基于语义的情感识别方法中采用Bi-LSTM提取语义特征。三个实验均采用CNN作为分类模型。

实验中使用引导型自建数据集作为实验数据。使用三种对比方法在该自建数据集上进行实验，采用六种主要的情感作为实验数据，分别是：生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral)。自建数据集共包含6000条数据，六种感情各1000条。其实验结果如图3所示。

通过图3可以得出，本发明实施例所提供的方法在自建数据集上的综合识别率为72.1％；基于语音的情感识别方法准确率为66.5％；基于语义的情感识别方法准确率为58.6％。实验证明，本发明实施例所提供的方法准确率高于单模态情感识别方法。

本发明实施例提供了基于Bi-LSTM-CNN的多模态语音情感识别方法，使用多种模态情感信息之间的互补性来提高情感识别的准确度。该方法不仅有效地提高了语音情感识别地准确率，也提高了模型的鲁棒性。且本发明实施例通过特征级融合和决策级融合两种方法相结合的方式，不仅使融合结果能最大限度的给出决策分析所需要的特征信息，也使得两种模态的识别结果共同决定最终的情感识别结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，包括：

获取文本情感信息和音频情感信息；

分别对所述文本情感信息和音频情感信息进行预处理；

2.如权利要求1所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，对所述文本情感信息进行预处理，包括：对所述文本情感信息进行词嵌入处理，将所述文本情感信息中的词转换成数字向量。

3.如权利要求1所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，对所述音频情感信息进行预处理，包括：首先对所述音频情感信息中的语音数据执行分帧加窗操作，从而减小信号中非连续部分的幅值，通过傅里叶变换将每帧语音数据的频率谱计算出来，并将傅里叶变换结果求平方得到相应频谱的能量谱，最后把所得到的能量谱按照时间维度拼接形成语谱图。

4.如权利要求3所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，对所述音频情感信息中的语音数据执行分帧操作，包括：将所述音频情感信息中的语音数据分成等长的段，每个段被分成一帧，形成语音帧；对每个所述语音帧进行加窗处理，从而减少信号中的断续部分的幅度。

5.如权利要求1所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，所述Bi-LSTM网络包括第一单向LSTM网络和第二单向LSTM网络；

所述第一单向LSTM网络用于计算正向的上下文信息；

所述第二单向LSTM网络用于计算反向的上下文信息。

6.如权利要求4所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，采用opensmile工具从预处理后的音频情感信息中提取声学特征，包括：首先利用该窗函数对语音数据进行加权处理，获得加窗分帧之后的语音信号；然后从所述语音信号中提取声学特征；最后计算每个所述声学特征的均值和方差，并对所有数据进行归一化处理。

7.如权利要求6所述的基于Bi-LSTM-CNN的多模态语音情感识别方法，其特征在于，所述声学特征包括：基频、短时能量、梅尔频率倒谱系数和过零率。