CN109614895A

CN109614895A - 一种基于attention特征融合的多模态情感识别的方法

Info

Publication number: CN109614895A
Application number: CN201811441300.8A
Authority: CN
Inventors: 李玉军; 宋绪靖; 马浩洋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-10-29
Filing date: 2018-11-29
Publication date: 2019-04-12
Also published as: CN110751208B; CN110751208A

Abstract

本发明涉及一种基于attention特征融合的多模态情感识别方法，本发明主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取，语音模态采用卷积神经网络进行特征提取，而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后将三个模态的特征采用基于attention特征层融合的方式进行特征融合，改变了传统的特征层融合方式，充分利用了不同模态之间的互补信息，给不同的模态的特征赋予一定的权重，权重是和网络一起训练学习得到，因此更加符合我们的整个数据分布，很好的提高了最后的识别效果。

Description

一种基于attention特征融合的多模态情感识别的方法

技术领域

本发明涉及一种基于attention特征融合的多模态情感识别的方法，属于情感计算的技术领域。

背景技术

20世纪90年代，情感计算的概念出现在计算机的各个领域，情感计算是与人的情感有关，并由人的情感而引发或者能够影响情感的因素的计算，完全开启了对情感识别研究的大门，研究目的在于促进在信息社会实现高度和谐的人机交互体验，使得计算机具有更加全面的人工智能。人们在表达情感时，表现的方式往往不只是一种，而且在某种程度上，不同表现方式在表达情感信息时存在一定的互补作用，结合多种模态的信息进行情感识别，更加符合人类自然的行为表达方式。因此，多模态情感识别也已然成为情感识别领域的热门研究方向。

基于单模态的情感识别研究虽然已取得了一定成果，但是单模态情感识别存在识别率低，鲁棒性差的特点，而多模态情感识别研究可以综合多模态的数据，捕捉模态之间的互补信息，从而可以建立一个鲁棒性强和识别率高的情感识别模型。如何有效的融合多种模态的信息是影响多模态情感识别的重要因素。多模态情感识别的融合方法包含特征层融合以及决策层融合。前者通过一定的方法将多种模态的特征通过一定的线性或非线性变换形成新的特征；后者分别对多种模态的特征进行训练、分类，得出分类结果，并在决策层通过相应的加权模型综合得出最终的结果。

随着深度学习的发展，以卷积神经网络和循环神经网络为代表的深度神经网络在图像识别、计算机视觉、语音识别和自然语言处理领域取得了巨大的成功，基于以上成功的研究成果，许多研究者在多模态情感识别领域也取得了很大的进展。之前的研究成果表明基于特征层融合和决策层融合的方式对于最后的情感识别都有一个很大的提升效果。而基于决策层融合的方式虽然能够做到一定的提升效果，然考虑到了不同模态特征的差异性，体现了不同模态特征对于情感识别重要性的不同，但是却忽略了不同模态特征之间的相关性，并没有做到真正意义上的模态之间的融合。而基于特征层融合的方式，是通过将不同模态之间的特征进行有效的融合，捕捉模态之间的互补信息，从而更有效的提升融合效果。特征层融合执行简单有效，充分利用了不同模态特征的信息，但不足在于大多数特征层融合方法忽略了不同模态特征之间的差异性，无法体现每一个模态对最后结果的影响程度。因此，如何在特征层对不同模态的特征进行有效的融合是多模态情感识别的一个重要问题。

发明内容

针对现有技术的不足，本发明提供一种基于attention特征融合的多模态情感识别的方法。

发明概述：

本发明主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先，我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取，语音模态采用卷积神经网络进行特征提取，而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后，将三个模态的特征采用基于attention特征层融合的方式进行特征融合，最后，将融合之后的联合特征输入到分类器进行情感识别。

本发明详细解释了各个网络的作用，充分利用了不同模态之间的互补信息，实现了信息利用率的最大化；本发明改变了传统的特征层融合方式，在特征融合方面引入attention机制，给不同的模态的特征赋予一定的权重，权重是和网络一起训练学习得到，不仅执行简单有效，而且还能充分体现每一个模态的特征对最后结果的影响程度，综合考虑了现有技术两种融合方式的优点，更加符合整个数据分布，很好地提高了最后的识别效果。

术语解释：

1、LSTM，Long Short-Term Memory，是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

2、人脸68个关键点，；人脸68个关键点是指人脸的整个轮廓和五官轮廓分别用68个点进行标定，通过这68个关键点便可以表征人脸的整个轮廓特征。

本发明的技术方案为：

一种基于attention特征融合的多模态情感识别的方法，包括步骤如下：

(1)对多个模态的数据进行预处理，使其符合多个模态对应的模型的输入要求；

(2)对步骤(1)预处理后的多个模态的数据进行特征提取；

(3)将步骤(2)提取到的多个模态的数据特征进行特征融合：传统的特征层融合也就是分别将三个模态的特征向量进行级联形成一个总的联合特征向量，然后送往分类器进行分类。但由于不同模态的特征对我们最后的识别效果的影响程度是不一样的，为了有效的根据数据集的分布去得到每一个模态特征对最后结果的影响权重。采用attention机制，将步骤(2)提取到的多个模态的数据特征分别赋予一个权重，形成一个初始模态特征权重矩阵，通过训练学习，得到每个模态的数据特征的权重，之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合，得到联合特征向量，送到分类器进行分类；得到的权重能够更好的符合整个数据的分布，从而更好的改善整体的识别效果。由于不同模态的特征对最后的情感识别结果的影响程度是不一样的，直接进行级联不能体现出每一个模态对最后结果的影响程度。采用attention机制的思想，去给每一个模态的特征学习一个权重，然后将特征进行加权级联，这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的，这样也更加符合整个数据的分布，可以有效提升整体的识别结果。

(4)训练模型；将步骤(1)预处理后的多个模态的数据打乱后，分成若干份，设定为N份，每次取N-1份做训练，剩下1份做验证，做N次交叉验证，得到最终实验结果。

根据本发明优选的，所述步骤(1)中，

多个模态的数据包括文本数据、语音数据、视频数据，

对于文本数据，预处理过程包括：通过训练词向量，将文本数据转换成数学数据，即将每一条文本中的词转换成一个词向量的表示，使其符合双向LSTM模型的输入要求；双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层，词向量层用于将文本中每一个词转化成词向量表示，双向LSTM层用于提取文本特征，第一Dropout层用于避免双向LSTM模型产生过拟合，第一全连接层用于最后的分类；

对于语音数据，预处理过程包括：通过wave和wavefile软件包，将每一个语音文件转换成数字化表示；使其符合卷积神经网络模型的输入要求；所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层，二维卷积层用于提取语音特征，第二Dropout层用于避免所述卷积神经网络模型产生过拟合，池化层对输入的特征图进行压缩；简化计算复杂度，提取主要特征；

对于视频数据，预处理过程包括：获取到每一段视频的总帧数，对每一段视频等间隔取若干帧图像，用这若干帧图像作为整个视频的数据表示，使其符合三维卷积神经网络模型的输入要求；三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层，三维卷积层用于提取视频特征，同时在时间和空间上进行卷积操作，第三Dropout层用于避免三维卷积神经网络模型产生过拟合，第二池化层对输入的特征图进行压缩；简化计算复杂度，提取主要特征。

根据本发明优选的，所述步骤(2)中，

对于文本数据，特征提取过程包括：单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字，这种LSTM结构只能捕捉到上文信息，无法捕捉到下文信息；通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；而上下文信息是由整个句子提供的，自然包含比较抽象的语义信息，这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势，使我们最后提取到的文本特征含有丰富的语义特征和时序特征。

对于语音数据，特征提取过程包括：语音特征提取都是基于时谱分析后的语音谱完成的，而语音时频谱是具有结构特点的。一个卷积神经网络提供在时间和空间上的平移不变性卷积，将卷积神经网络的思想应用到语音的声学建模中，则可以利用卷积的不变性来克服语音信号本身的多样性。将预处理后的语音数据送往卷积神经网络模型，经过二维巻积层和池化层的作用，有效提取到每一个语音文件中富含的语音特征；

对于视频数据，特征提取过程包括：将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取；相比于普通的卷积神经网络，三维卷积神经网络更加有效的利用前后帧之间的时序信息，能够有效的对时序信息建模，从而提取到包含丰富的前后时序信息的视频特征。经过三维巻积层和池化层操作，得到有效的视频特征；

与此同时，还对每一帧图像进行了以下辅助处理，包括：将每一帧图像进行人脸68个关键点检测操作，基于人脸68个关键点的坐标算出一个中心点，计算人脸68个关键点中每个关键点到该中心点的距离，得到一个距离特征向量；

将通过三维卷积神经网络得到的视频特征和距离特征向量进行级联，作为视频特征表示。由于视频模态中的每一帧图像中只有人脸对于我们的要提取的情感特征才是最有用的，而其它的背景信息则成为了我们提取情感特征的噪声。因此对视频模态的每一帧图像进行人脸68个关键点检测，然后计算每一个关键点到中心点的距离作为辅助特征，然后与三维卷积网络提取到的特征向量进行级联作为总的视频特征。这样使大量的人脸特征在最后的情感识别中发挥到更大的作用。

根据本发明优选的，所述步骤(2)，通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；包括步骤如下：

A、求取t时刻双向LSTM模型中的输入门的值i_t，如式(Ⅰ)所示：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i) (Ⅰ)

式(Ⅰ)中，σ表示sigmoid激活函数；W_ih是输入门中输入项h_t-1对应的权重矩阵，W_ix是输入门中输入项x_t对应的权重矩阵，h_t-1是上一时刻隐藏层的输出，x_t是当前时刻的输入，b_i是输入门的偏置项；

B、求取t时刻双向LSTM模型中的遗忘门的值f_t，如式(Ⅱ)所示：

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f) (Ⅱ)

式(Ⅱ)中，W_fh是遗忘门中输入项h_t-1对应的权重矩阵，W_fx是遗忘门中输入项x_t对应的权重矩阵，b_f是遗忘门的偏置项；

C、求取t时刻LSTM单元中的输出门的值o_t，如式(Ⅲ)所示：

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o) (Ⅲ)

式(Ⅲ)中，W_oh是输出门中输入项h_t-1对应的权重矩阵，W_ox是输出门中输入项x_t对应的权重矩阵，b_o是输出门的偏置项；

D、求取当前输入的单元状态g_t，如式(Ⅳ)所示：

g_t＝tanh(W_ghh_t-1+W_gxx_t+b_g) (Ⅳ)

式(Ⅳ)中，W_gh是单元状态中输入项h_t-1对应的权重矩阵，W_gx是单元状态中输入项x_t对应的权重矩阵，b_g是单元状态的偏置项，tanh表示双曲正切函数，用作激活函数；

E、求取t时刻的双向LSTM模型的细胞状态c_t，如式(Ⅴ)所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1 (Ⅴ)

式(Ⅴ)中，c_t-1是上一时刻的细胞状态，⊙表示按元素乘；

F、求t时刻双向LSTM模型的隐藏层状态h_t，如式(Ⅵ)所示：

h_t＝o_t⊙tanh(c_t) (Ⅵ)

式(Ⅵ)中，tanh表示双曲正切函数用作激活函数；o_t代表当前时刻的输出，c_t代表当前时刻的细胞状态。

文本数据经过双向LSTM模型之后，在上述输入门、遗忘门、输出门的控制作用下，输出该文本数据的语义特征和时序特征。由于遗忘门的控制，它可以保存很久很久之前的信息，由于输入门的控制，它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后，在各种门结构的控制作用下，输出的特征表示既包含有丰富的语义特征，又含有丰富的时序特征。

根据本发明优选的，所述步骤(3)，将步骤(2)提取的多个模态的数据进行特征融合，包括步骤如下：

G、将步骤(2)提取到的多个模态的数据特征分别初始化赋予一个权重，形成一个初始模态特征权重矩阵；

H、通过模型训练学习，得到每个模态的数据特征的最优权重；

I、将所有模态的数据特征进行加权融合：先将每个模态的权重和其对应的模态的数据特征相乘，再将所有模态得到特征向量进行级联，所有模态得到的特征向量是指上文中经过双向LSTM模型得到的文本特征向量、经过卷积神经网络模型得到的语音特征向量和经过三维卷积神经网络模型得到的视频特征向量形成一个联合特征向量，最后送到分类器进行分类。

根据本发明优选的，所述步骤(4)中，训练模型，采用交叉熵损失函数进行模型训练，如式(Ⅶ)所示：

式(Ⅶ)中，p(x)是样本类别的标准分布，q(x)是样本类别的预测分布。

本发明的有益效果为：

1.本发明采用多模态情感特征进行情感识别，弥补了单个模态上情感特征不充分或者不准确的问题，多模态之间进行相互影响，有助于提取到更加全面有效的情感特征。

2.本发明采用特征层的融合的方式进行多模态之间信息融合，使情感特征做到了真正意义上的融合，能够有效捕捉模态之间的相关作用和影响，有效提升识别结果；

3.本发明所述基于视频模态的特征提取中，引入人脸关键点检测作为辅助特征，使人脸特征更好的发挥了作用，同时减小了噪声对最后识别效果的影响。

4.本发明所述基于特征层融合的过程中，采用attention机制的思想，去给每一个模态的特征学习一个权重，然后将特征进行加权级联，这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的，这样也更加符合我们整个数据的分布，可以有效提升整体的识别结果。

附图说明

图1为本发明基于attention特征融合的多模态情感识别的方法的流程图；

图2为本发明采用attention机制进行特征融合的流程图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

(2)对步骤(1)预处理后的多个模态的数据进行特征提取；

实施例2

根据实施例1所述的一种基于attention特征融合的多模态情感识别的方法，如图1所示，其区别在于，所述步骤(1)中，多个模态的数据包括文本数据、语音数据、视频数据，

步骤(2)中，对于文本数据，特征提取过程包括：单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字，这种LSTM结构只能捕捉到上文信息，无法捕捉到下文信息；通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；而上下文信息是由整个句子提供的，自然包含比较抽象的语义信息，这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势，使我们最后提取到的文本特征含有丰富的语义特征和时序特征。包括步骤如下：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i) (Ⅰ)

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f) (Ⅱ)

C、求取t时刻LSTM单元中的输出门的值o_t，如式(Ⅲ)所示：

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o) (Ⅲ)

D、求取当前输入的单元状态g_t，如式(Ⅳ)所示：

g_t＝tanh(W_ghh_t-1+W_gxx_t+b_g) (Ⅳ)

E、求取t时刻的双向LSTM模型的细胞状态c_t，如式(Ⅴ)所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1 (Ⅴ)

式(Ⅴ)中，c_t-1是上一时刻的细胞状态，⊙表示按元素乘；

F、求t时刻双向LSTM模型的隐藏层状态h_t，如式(Ⅵ)所示：

h_t＝o_t⊙tanh(c_t) (Ⅵ)

所述步骤(3)，将步骤(2)提取的多个模态的数据进行特征融合，如图2所示，包括步骤如下：

所述步骤(4)中，训练模型，采用交叉熵损失函数进行模型训练，如式(Ⅶ)所示：

本发明在multimodal opinion-level sentiment intensity(MOSI)开源数据集上基于单模态、双模态和三模态分别进行了实验，实验结果如下表所示：

表1

A

V

T

A+V

A+T

V+T

A+V+T

A+V+T+Att

Accuracy

64.27％

66.5％

76.00％

66.85％

76.6％

77.5％

78.5％

79.8％

表1中A表示语音模态，V表示视频模态，T表示文本模态，A+V表示语音和视频模态融合，A+T表示语音和文本模态融合，V+T表示视频和文本模态融合，A+V+T表示三种模态融合，A+V+T+Att表示本发明提出的基于attention的三模态融合，Accuracy表示准确率。

由表1中数据显示，多个模态相互融合的结果比单个模态的效果有了很大的提升，由此证明多个模态之间的数据相互作用有最后结果的提升的重要性；同时本发明提出的基于attention的多模态融合的结果比简单进行模态融合又有了较大的提升，表明本发明提出的融合方法的有效性。

Claims

1.一种基于attention特征融合的多模态情感识别的方法，其特征在于，包括步骤如下：

(2)对步骤(1)预处理后的多个模态的数据进行特征提取；

(3)将步骤(2)提取到的多个模态的数据特征进行特征融合：采用attention机制，将步骤(2)提取到的多个模态的数据特征分别赋予一个权重，形成一个初始模态特征权重矩阵，通过训练学习，得到每个模态的数据特征的权重，之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合，得到联合特征向量，送到分类器进行分类；

2.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(1)中，多个模态的数据包括文本数据、语音数据、视频数据，

对于语音数据，预处理过程包括：通过wave和wavefile软件包，将每一个语音文件转换成数字化表示；使其符合卷积神经网络模型的输入要求；所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层，二维卷积层用于提取语音特征，第二Dropout层用于避免所述卷积神经网络模型产生过拟合，池化层对输入的特征图进行压缩；

对于视频数据，预处理过程包括：获取到每一段视频的总帧数，对每一段视频等间隔取若干帧图像，用这若干帧图像作为整个视频的数据表示，使其符合三维卷积神经网络模型的输入要求；三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层，三维卷积层用于提取视频特征，同时在时间和空间上进行卷积操作，第三Dropout层用于避免三维卷积神经网络模型产生过拟合，第二池化层对输入的特征图进行压缩。

3.根据权利要求2所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(2)中，

对于文本数据，特征提取过程包括：通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；

对于语音数据，特征提取过程包括：将预处理后的语音数据送往卷积神经网络模型，经过二维巻积层和池化层的作用，有效提取到每一个语音文件中富含的语音特征；

对于视频数据，特征提取过程包括：将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取；经过三维巻积层和池化层操作，得到有效的视频特征；

将通过三维卷积神经网络得到的视频特征和距离特征向量进行级联，作为视频特征表示。

4.根据权利要求3所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(2)，通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；包括步骤如下：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i) (Ⅰ)

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f) (Ⅱ)

C、求取t时刻LSTM单元中的输出门的值o_t，如式(Ⅲ)所示：

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o) (Ⅲ)

D、求取当前输入的单元状态g_t，如式(Ⅳ)所示：

g_t＝tanh(W_ghh_t-1+W_gxx_t+b_g) (Ⅳ)

E、求取t时刻的双向LSTM模型的细胞状态c_t，如式(Ⅴ)所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1 (Ⅴ)

式(Ⅴ)中，c_t-1是上一时刻的细胞状态，⊙表示按元素乘；

F、求t时刻双向LSTM模型的隐藏层状态h_t，如式(Ⅵ)所示：

h_t＝o_t⊙tanh(c_t) (Ⅵ)

文本数据经过双向LSTM模型之后，在上述输入门、遗忘门、输出门的控制作用下，输出该文本数据的语义特征和时序特征。

5.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(3)，将步骤(2)提取的多个模态的数据进行特征融合，包括步骤如下：

I、将所有模态的数据特征进行加权融合：先将每个模态的权重和其对应的模态的数据特征相乘，再将所有模态得到的特征向量进行级联，所有模态得到的特征向量是指上文中经过双向LSTM模型得到的文本特征向量、经过卷积神经网络模型得到的语音特征向量和经过三维卷积神经网络模型得到的视频特征向量形成一个联合特征向量，最后送到分类器进行分类。

6.根据权利要求1-5任一所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(4)中，训练模型，采用交叉熵损失函数进行模型训练，如式(Ⅶ)所示：