CN112348075B

CN112348075B - 一种基于情景注意力神经网络的多模态情感识别方法

Info

Publication number: CN112348075B
Application number: CN202011206336.5A
Authority: CN
Inventors: 王塔娜; 候亚庆; 张强; 周东生; 王鹏飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2022-09-20
Anticipated expiration: 2040-11-02
Also published as: CN112348075A

Abstract

本发明属于多模态情感计算、深度学习领域，涉及一种基于情景注意力神经网络的多模态情感识别方法。通过本发明方法，针对情感多模态信息进行特征提取和基于注意力机制的特征融合操作，能够有效提取各模态之间的相互作用，然后将得到的特征向量送入神经网络。通过神经网络中嵌入的情景注意力模块来挖掘说话人个人情感依赖特征和全局对话情景特征在空间和通道上的关联性，达到更优的分类效果，更好地针对对话中目标说话人进行情感分析并做出情绪状态判断。

Description

一种基于情景注意力神经网络的多模态情感识别方法

技术领域

本发明属于多模态情感计算、深度学习领域，涉及一种基于情景注意力神经网络的多模态情感识别方法。

背景技术

情感计算最早在1997年由MIT多媒体实验室Picard教授首次提出，旨在通过赋予计算机识别、理解、表达和适应人的情感能力来构建和谐的人机环境，并使计算机具有更加高效全面的智能。作为人工智能的重要分支，情感计算与分析不仅在实现机器智能化方面不可或缺，在舆论舆情监控、临床心理动态检测以及人机交互等领域更是十分重要。此外，随着移动设备的普及和互联网平台的不断发展，语音信号、文本文字、视频图像等多模态信息变得来越来越容易获取和处理。这为提升人机交互体验感提供了更加开阔的思路和更加便捷的技术手段。

近些年，深度学习在语音处理、图像分类和其他机器学习相关领域表现优异，这其中就包括人类的情感识别和认知理解，很多工作都是在卷积神经网络 (CNN)、循环神经网络(RNN)等及其变种模型上进行，取得了一定的进步。最初的研究多是通过表情或文字等单模态来识别目标人物的情感状态，而多模态之间相互的信息补给会对情感分析更有所助益。此外，相关心理学研究表明对话参与者的情感状态会受到情景情感状态的转变和影响，对话中存在情感传染现象，即相互作用的会话者有能力影响彼此的情感状态和行为。因此，有效提取各模态之间的依赖关系和捕捉对话中说话人的情感变化特征对于说话人情感识别至关重要。

由于不同模态是从不同的信道传达信息，因此有效的多模式融合模型在挖掘情感互补信息方面起着关键作用。不同阶段的融合是目前多模式情感特征融合的常规策略，例如决策级融合，特征级融合和模型融合。决策级融合是对每个模态进行试探性推断，然后将它们融合再进行最终预测，这很容易忽略每个模态之间的交互作用；而特征融合方法是将连接的特征直接输入到分类器中，或者使用浅层融合模型，这较难捕捉到模态间的动态关系。模型级融合方法结合了以上两种方法并加以利用，性能较好，但比较复杂。近年来，注意力机制由于其在时间融合模型中良好的性能而被广泛提及，该机制可以动态地关注时间上的相关形态特征。而对于捕捉对话中说话人情感变化特征的问题，目前多用循环神经网络或其变种模型来处理和预测时间序列中情感特征相互作用。

发明内容

基于上述对话中情感动态特征提取的难点，本发明提出了一种基于情景注意力神经网络的多模态情感识别方法。通过本发明方法，首先针对常见的情感多模态信息进行特征提取和基于注意力机制的特征融合操作，能够有效提取各模态之间的相互作用，然后将得到的特征向量送入神经网络。通过神经网络中嵌入的情景注意力模块来挖掘个人情感依赖特征和全局对话情景特征分别在空间和通道中的关联性，从而达到更好的分类效果，针对对话中目标说话人的情感进行分析并做出情绪状态判断。

为了达到上述目的，本发明采用的技术方案如下：

一种基于情景注意力神经网络的多模态情感识别方法，具体步骤如下：

S1：将视频中的对话部分划分为t条的语句U＝[u₁,u₂,…,u_t]，选取对话中所有说话人的多模态数据，多模态数据包括语音、文本和图像数据。

S2：针对步骤S1划分好的每条语句，在多模态数据中的各个单模态上分别进行特征提取，得到每条语句上的各模态的高维特征向量，即语音特征向量、文本特征向量、图像特征向量，具体特征提取方法如下：

语音特征提取：首先，对视频中所含的语音文件进行分割处理，形成.wav 序列文件；为了识别有语音和无语音样本，采用z标准化技术进行语音归一化；使用openSMILE工具箱提取语音特征，包括响度、频率、Mel倒谱系数、过零率等以及其统计量，统计量包括均值、平方根、二次均值等，计算得到第i条语句的语音特征

openSMILE是一个高度封装的语音特征提取工具，不仅可以提取基础的语音特征，而且还可以提取重要的情感特征参数。

文本特征提取：使用CNN进行文本特征提取，将要提取特征的文本输入到神经网络中，全连接层的输出作为第i条语句的文本模态特征

图像特征提取：使用3D-CNN进行视频中图像特征提取，将要提取特征的视频输入到神经网络中，计算得到第i条语句的图像特征

3D-CNN不仅可以学习每一帧的相关特征，还可以学习给定连续帧数之间的变化。

S3：将步骤S2中提取到的三类单模态特征进行融合。由于每一种模态都对于情绪分类都有模态独有的特征，为了选取重要的模态信息进行优先排序，引入基于注意力机制的融合网络，将音频、文本和图像模态作为输入，并为每个模态输出一个注意分数，进而保留各模态中的重要信息。针对各个模态，引入注意力机制，将步骤S2中获得的各模态特征，进行特征融合并得到融合后的特征F。

设X＝[X_a,X_t,X_v]为尺寸为d的维度均衡后的特征集，其中X_a为声学特征，X_t文本特征，X_v为视觉特征，且

注意力权重系数α_fuse和融合之后的多模态特征向量F的计算如下：

P_F＝tanh(W_F·X)

其中，P_F是X的隐藏单元状态，权重矩阵

注意力权重系数

S4：提取说话人的个人情感依赖关系和全局对话情景特征。

S4.1：对于说话人的个人情感依赖关系特征的提取，为每位说话人都设置门控循环单元

其中λ∈{1,2,…,n}，用于捕捉说话人λ对历史情感状态的依赖关系，并将步骤S3中融合后的多模态特征向量F送入门控循环单元，并输出目标说话人λ的待检测目标语句t的多模态特征h_λ,t和个人情感依赖关系特征矩阵H_p。

对于说话人λ的某一语句t的历史情感状态更新公式如下：

r_t＝σ(W_r·[h_λ,t-1,x_t]+b^r)

z_t＝σ(W_z·[h_λ,t-1,x_t]+b^z)

其中，x_t是第t个句子的特征表示，σ表示sigmoid激活函数，W_*为权重矩阵，b^*为偏置量，r_t为重置门状态输出，z_t为更新门状态输出，

是句子t的候选隐藏状态，h_λ,t为目标语句t的隐藏层状态，在此基础上，可以得到个人情感依赖关系特征矩阵H_p＝[h_1,1,h_1,2,…,h_1,t-1,…,h_n,t-1]。

S4.2：对于全局对话全局特征的提取，将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息，得到的全局对话特征H_G，正向隐藏状态

和反向隐藏状态

的具体计算公式如下：

其中，U_t表示第t条语句，经过双向GRU网络得到对话全局特征

S5：在对话中说话人的情感状态不仅受个人情感历史的影响还会受到当前情景环境的影响。在基于情景注意力机制的多模态情感识别模型中，将目标语句的多模态特征h_λ,t、目标说话人的个人情感依赖关系特征H_p一起组成个人特征向量组，与对话全局特征H_G一起送入到情感特征检测网络中进行计算。所述的基于情景注意力机制的多模态情感识别模型如下：

其中，e(·)为分类评分计算公式，α_t为注意力权重系数，h_c为基于情景注意力机制的多模态情感识别模型的隐藏层状态；权重向量

权重矩阵

偏差向量

最终输出隐藏层状态h_c用于情感分类。定义的评分计算公式e(·)根据个人情感依赖关系特征H_p和对话全局特征H_G，迭代遍历对话的隐含状态h_λ,t。利用获得的注意力权重系数α_t，对目标语句的多模态特征h_λ,t进行加权池化，不断地修正目标语句的情感表示h_c。

S6：使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。使用分类交叉熵损失函数作为训练的代价度量，最终结果输出目标语句的情感分类矩阵，从而能够判断每个句子说话人所处的情感状态。

softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下：

y＝softmax(W^o·h_c+b^o)

其中，y是所有真实的情感标签，W^o是权重矩阵，b^o为偏差项，

为预测概率，c为情感类数，N表示样本数量，y_i,j表示第i句话是第j类情感的真实标签，

表示第i句话是第j类情感的预测概率。

本发明的有益效果：本发明提出了一种基于情景注意力神经网络的多模态情感识别方法，该方法中多模态特征融合网络基于注意力机制构建，能够有效地进行对话环境中多模态特征融合并提取到各模态之间的相互作用；分类网络通过神经网络中嵌入的情景注意力模块来挖掘说话人个人情感依赖特征和全局对话情景特征在空间和通道上的关联性，达到更优的分类效果，更好地针对对话中目标说话人进行情感分析并做出情绪状态判断。

附图说明

图1为本发明的框架流程图。

图2为个人与全局情感特征提取与融合网络结构图。

图3为情景注意力机制驱动的情感分类网络结构图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明可用于基于多模态信息的说话人情感识别任务，本发明的流程如图1 所示，所采用网络结构如图2和图3所示。本实施例应用到了视频中说话人所处情感分类任务，下面主要针对视频中说话人情感识别问题对本发明的实施方式进行详细说明，具体包括以下步骤(以两人对话为例，可扩展至多人)：

(1)进行单模态特征提取，即语音特征、文本特征和图像特征。

对于语音数据，预处理过程包括：通过openSMILE软件包，将每一个语音文件转换成数字化表示。在本实施例中，以30Hz帧速率和100ms的滑动窗口来提取音频特征；为了识别语音样本，使用z标准化技术对语音样本进行归一化处理，并对语音强度进行阈值处理。openSMILE提取的特征由若干低阶统计量 (LLD)组成，如响度、频率，Mel倒谱系数，过零率等以及它们的统计量(如均值、平方根、二次均值)等，特别地使用IS13_ComParE特征集，该特征集是2013年ComParE，Computational Paralinguistics ChallengE挑战赛所用特征集，能够为每条语句提供一共6373维特征，130维的LLD。使输入矩阵符合卷积神经网络模型的输入要求；所述卷积神经网络模型依次包括二维卷积层、第二Dropout层、第一池化层以及第二全连接层，二维卷积层用于提取语音特征，第二Dropout 层用于避免所述卷积神经网络模型产生过拟合，池化层对输入的特征图进行压缩；简化计算复杂度，提取主要特征，第二全连接层100维的向量作为语音的特征向量。

对于文本数据，预处理过程包括：通过训练词向量，将文本数据转化为向量，即将每一条文本中的词转换成词向量的表示,将视频i中的每个话语表示为组成单词向量的连接，最后被表示为一个维度为[50,300]的词向量矩阵，将其作为CNN的输入层；其中CNN有2个卷积层，第一个卷积层有2个大小分别为 3、4的卷积核，每个卷积核有50个特征图，第二个卷积层有1个大小为2的卷积核，该卷积核有100个特征图；卷积层之间是窗口大小为2*2的最大池化层；最后是大小为100维的全连接层，并使用非线性整流单元ReLU作为激活函数，将全连接层的激活值作为话语的文本特征表示。

对于视频数据，预处理过程包括：获取到每一段视频的总帧数并采样，用这若干帧图像作为整个视频的数据表示，使其符合3D-CNN的输入要求； 3D-CNN即三维神经网络模型，相比二维卷积神经网络多了一个时间维度，这样提取到的情感特征含有更多的时序信息。在本实施例中，对每段视频平均取十帧，作为整段视频的表示。模型依次包括三维卷积层、第三Dropout层、第二池化层以及第三全连接层，三维卷积层用于提取视频特征，同时在时间和空间上进行卷积操作，首先将整段视频的表示作为3D-CNN的输入层；使用三维卷积滤波器，与2D-CNN类似，该滤波器可以在视频中滑动并生成输出，滤波器大小为5*5*5；对卷积层输出使用窗口大小为3*3*3的最大池化层，最后是大小为300维的全连接层，使用线性整流单元ReLU作为激活函数，将全连接层的激活值作为视频i中每个话语的图像特征表示。

(2)将得到每条语句上的各模态的高维特征向量，即语音特征向量、文本特征向量、图像特征向量，选取重要的模态信息进行优先排序，将语音、文本和图像模态作为输入，送入注意力机制的融合网络，为每个模态输出一个注意力分数，全连接层大小为300维，最终输出融合后的特征向量，该向量将作为后续上下文网络的输入。

(3)将步骤(2)中融合后的特征向量送入GRU网络，提取说话人个人情感依赖关系特征，这种方法的优点是充分利用了GRU处理时间序列数据的优势，使我们最后提取到的说话人情感特征含有丰富的语义特征和时序特征。对于说话人个人情感依赖关系特征的提取，为每位说话人都设置门控循环单元

其中λ∈{1,2}，用于捕捉说话人λ对历史情感状态的依赖关系，并将步骤S3中融合后的特征向量F送入门控循环单元，并输出目标说话人λ的待检测目标语句t的多模态特征h_λ,t和个人情感依赖关系特征矩阵H_p。

对于说话人λ，对某一语句t的历史情感状态更新公式如下：

r_t＝σ(W_r·[h_λ,t-1,x_t]+b^r)

z_t＝σ(W_z·[h_λ,t-1,x_t]+b^z)

是句子t的候选隐藏状态，h_λ,t为话语t的隐藏层状态，在此基础上，可以得到个人情感依赖关系特征矩阵H_p＝[h_1,1,h_1,2,…,h_1,t-1,h_2,1,h_2,2,…,h_2,t-1]。

(4)使用双向GRU网络针对整段对话中的每一帧提取全局对话情景特征，得到的全局对话特征H_G。将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息，其中正向隐藏状态

和反向隐藏状态

的具体计算公式如下：

其中，U_t表示第t条语句，经过双向GRU网络得到全局对话特征

(5)将目标语句的多模态特征h_λ,t、目标说话人的个人情感依赖关系特征 H_p一起组成个人特征向量组，与对话全局特征H_G一起送入到基于情景注意力机制的多模态情感特征检测网络中进行计算，设置分类评分计算公式e(·)，根据个人情感依赖关系特征H_p和对话全局特征H_G，迭代遍历对话的隐含状态h_λ,t。利用获得的注意力权重系数α_t，对目标语句的多模态特征h_λ,t进行加权池化，不断地修正目标语句的情感表示h_c。

具体计算如下：

其中，权重向量

权重矩阵

偏差向量

最终输出隐藏层状态h_c用于情感分类。

(6)使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。使用分类交叉熵损失函数作为训练的代价度量，最终结果输出目标语句的情感分类矩阵，从而能够判断每个句子说话人所处的情感状态。

y＝softmax(W^o·h_c+b^o)

表示第i句话是第j类情感的预测概率。

本发明使用Adam优化器来优化训练网络学习参数，使用Dropout来防止过拟合，初始学习率设置为0.001，使用十折交叉验证方法，即把数据集分成十份，轮流将其中8份作为训练数据，1份作为测试数据，1份作为验证数据。本发明在Interactive Emotional DyadicMotion Capture(IEMOCAP)开源数据集上基于单模态、双模态以及多模态的实验结果如下：

表1本发明所提发方法在各个模态上的实验结果对比

表中A表示语音模态，T表示文本模态，V表示视频模态，T+V表示文本和视频模态融合，A+V表示语音和视频模态融合，T+A表示文本和语音模态融合，A+T+V表示语音、文本、视频三种模态融合。由表1中实验数据显示，相比于单模态，多模态的融合有了很大的提升，表明本发明提出的融合方法的有效性。

表2本发明所提发方法在IEMOCAP数据集上与目前主流模型的实验对比结果

上表中展示了本发明的模型在IEMOCAP数据集上与基础方法(LSTM和RNN)的实验对比，acc表示准确率，F1表示F1分数值。其中，bc-LSTM是一种竞争性的上下文相关模型，用于语句级情绪识别。在bc-LSTM中，目标话语的分类取决于与其相邻的话语，DialogueRNN跟踪每个参与者的情绪状态，并使用全局GRU单元对他们的互动进行建模。由表2中实验数据显示，相比于基础模型，表明本发明提出的基于情景注意力神经网络方法的有效性。