CN110188343A

CN110188343A - 基于融合注意力网络的多模态情感识别方法

Info

Publication number: CN110188343A
Application number: CN201910324053.1A
Authority: CN
Inventors: 宦若虹; 鲍晟霖; 葛罗棋; 谢超杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-08-30
Anticipated expiration: 2039-04-22
Also published as: CN110188343B

Abstract

一种基于融合注意力网络的多模态情感识别方法，提取文本、视觉和音频三个模态的高维特征并按字级对齐和归一化处理，然后输入至双向门控循环单元网络进行训练，提取三个单模态子网络中的双向门控循环单元网络输出的状态信息计算多模态间状态信息的相关度，再计算多个模态每一时刻的注意力分布，即每一时刻状态信息的权重参数，将三个模态子网络的状态信息和对应的权重参数加权平均得到融合特征向量作为全连接网络的输入，将待识别的文本、视觉和音频输入训练后各个模态的双向门控循环单元网络，得到最终的情感强度输出。本发明能克服多模态融合时各模态的权重一致性问题，提高多模态融合下的情感识别准确率。

Description

基于融合注意力网络的多模态情感识别方法

技术领域

本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域，尤其涉及一种多模态情感识别方法。

背景技术

情感识别是自然语言处理领域的一个研究热点，情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。多模态情感识别研究已经在多种任务中取得了巨大进步，成为人工智能的新兴研究领域。利用人类的面部表情、语音语调和身体姿态等信息来识别人类的情感是一个有趣而富有挑战性的问题。在涉及到视频的多模态情感识别研究中，常常将文本、视觉和音频作为主要的多模态信息，多模态融合的目的是将多种模态信息结合起来，利用异构数据的互补性，提供更鲁棒的预测，提高识别的正确率和可靠性。多模态融合的一个重要挑战是如何将融合扩展到多种模态，同时保持合理的模型复杂性。

多模态融合通常是在特征层进行的，将多个高维特征通过运算使之成为一个融合特征，之后将其输入到模型中进行训练。在线性特征融合中，从每一时刻三个模态得到的状态信息特征中提取融合特征向量，不同时刻的融合特征向量相互独立而不再是序列数据，然后输入到线性融合模型中进行学习。典型的线性融合方法包括最后一个时间步长的编码状态信息线性融合、最大状态信息线性融合和平均状态信息线性融合。上述三种线性提取融合特征向量方式的不合理之处在于多模态融合时各模态的权重一致性问题，即从状态信息输出中挑选特殊的状态信息作为编码状态信息，只考虑到任何一个状态信息本身都会对最终的情感强度输出产生一定的影响，没有考虑到每一个状态信息产生的重要程度并不相同。

发明内容

为了克服多模态融合时各模态的权重一致性问题，本发明提出基于融合注意力网络的多模态情感识别方法，该方法能实时地计算多个模态每一时刻的注意力分布，作为对应状态信息的权重参数，使网络模型可以实时地学习多模态上下文信息，提高多模态融合下的情感识别的准确率。

本发明解决其技术问题所采用的技术方案是：

一种基于融合注意力网络的多模态情感识别方法，所述方法包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征；

步骤2，将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐，并对文本、视觉和音频三个模态的高维特征进行归一化处理；

步骤3，将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练；

步骤4，提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出

步骤5，计算多模态间状态信息的相关度s_i，如式(1)所示：

其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_t是与相关的权重参数，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_v是与相关的权重参数，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_a是与相关的权重参数，b₁是与和相关的偏差，tanh是激活函数，V是多模态融合的权重参数，b₂是多模态融合的偏差；

步骤6，根据多模态间状态信息的相关度s_i，计算出多个模态每一时刻的注意力分布，即在i时刻的状态信息的权重参数α_i，权重参数α_i计算如式(2)所示：

其中softmax是归一化指数函数，exp是指数函数，T_l为意见发言视频中的单词数；

步骤7，三个模态双向门控循环单元网络输出的状态信息和对应的权重参数α_i进行加权平均计算得到融合特征向量H^*作为下一层全连接网络的输入特征，融合特征向量H^*计算如式(3)所示：

其中，T_l为意见发言视频中的单词数，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息；

步骤8，将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络，得到最终的情感强度输出。

进一步，所述步骤1的过程为：提取文本特征为其中T_l是意见发言视频中的单词数，l_t表示300维Glove单词嵌入向量特征；使用FACET面部表情分析框架提取FACET视觉特征为其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为使用COVAREP声学分析框架提取COVAREP音频特征为其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为

更进一步，所述步骤2的过程为：文本模态提取的Glove特征的维度是(T_l,300)，视频模态提取的FACET特征的维度是(T_v,p)，音频模态提取的COVAREP特征的维度是(T_a,q)，其中，T_l是意见发言视频中的单词数，T_v是视频的总帧数，p为视觉特征个数，T_a是音频的分段帧数，q为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段T_l个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数T_l，即文本高维特征维度为(T_l,300)，视觉高维特征维度为(T_l,p)，音频高维特征的维度是(T_l,q)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。

本发明的有益效果主要表现在：使用注意力机制来处理多模态每一时刻上下文状态的变化，克服多模态融合时各模态的权重一致性问题，实时地计算多个模态下每一时刻的注意力分布，使网络模型可以实时地学习多模态上下文信息，从而提高多模态融合下的情感识别的准确率。

附图说明

图1为本发明的一种基于融合注意力网络的多模态情感识别方法流程图。

图2为文本特征输入双向门控循环单元网络的网络结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参照图1和图2，一种基于融合注意力网络的多模态情感识别方法，包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征，过程为：

提取文本特征为其中T_l是意见发言视频中的单词数，本实施例中，T_l＝20，l_t表示300维Glove单词嵌入向量特征；使用FACET面部表情分析框架提取FACET视觉特征为其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为本实施例中，p＝46；使用COVAREP声学分析框架提取COVAREP音频特征为其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为本实施例中，q＝74。

步骤2，对三个模态高维特征字级对齐并归一化处理，过程为：

文本模态提取的Glove特征的维度是(20,300)，视频模态提取的FACET特征的维度是(T_v,46)，音频模态提取的COVAREP特征的维度是(T_a,74)，其中，20是意见发言视频中的单词数，T_v是视频的总帧数，46为视觉特征个数，T_a是音频的分段帧数，74为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20，即文本高维特征维度为(20,300)，视觉高维特征维度为(20,46)，音频高维特征的维度是(20,74)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。

步骤3，双向门控循环单元网络(Bi-GRU)学习，过程为：

将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入，以文本模态网络为例，文本特征输入到双向门控循环单元网络中，l_t表示300维Glove单词嵌入向量特征，定义为双向门控循环单元网络前向计算时的计算公式，为双向门控循环单元网络后向计算时的计算公式，可得文本模态网络的计算公式如下所示：

其中和分别作为双向门控循环单元网络在t时刻的前向状态输出和后向状态输出，为t-1时刻的前向状态输出，为t+1时刻的后向状态输出，网络结构图如附图2所示。

步骤4，提取单模态子网络输出的状态信息

提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出

步骤5，计算多模态间状态信息的相关度

计算多模态间状态信息的相关度s_i，如式(1)所示：

其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_t是与相关的权重参数，本实施例中，W_t维度为512*1，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_v是与相关的权重参数，本实施例中，W_v维度为32*1，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_a是与相关的权重参数，本实施例中，W_a维度为32*1，b₁是与和相关的偏差，本实施例中，b₁维度为20*1且每个元素均0，tanh是激活函数，V是多模态融合的权重参数，本实施例中，V的维度是16*20，b₂是多模态融合的偏差，本实施例中，b₂的维度是16*20且每个元素均为0；

步骤6，计算多个模态每一时刻的注意力分布

根据多模态间状态信息的相关度s_i，计算出多个模态每一时刻的注意力分布，即在i时刻的状态信息的权重参数α_i，具体的权重参数α_i计算如式(2)所示：

其中softmax是归一化指数函数，exp是指数函数，T_l为意见发言视频中的单词数，本实施例中，T_l＝20；

步骤7，计算融合特征向量

三个模态双向门控循环单元网络输出的状态信息和对应的权重参数α_i进行加权平均计算得到融合特征向量H^*作为下一层全连接网络的输入特征，融合特征向量H^*计算如式(3)所示：

其中，T_l为意见发言视频中的单词数，本实施例中，T_l＝20，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息；

表1是在CMU-MOSI数据集下基于融合注意力网络的多模态情感识别结果，包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1指标来衡量识别性能，七元情感分类采用准确率来衡量识别性能，情感强度回归采用平均绝对差值MAE和皮尔逊积矩相关系数γ来衡量识别性能。

表1

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于融合注意力网络的多模态情感识别方法，其特征在于：所述方法包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征；

步骤5，计算多模态间状态信息的相关度s_i，如式(1)所示：

2.如权利要求1所述的基于融合注意力网络的多模态情感识别方法，其特征在于：所述步骤1的过程为：提取文本特征为其中T_l是意见发言视频中的单词数，l_t表示300维Glove单词嵌入向量特征；使用FACET面部表情分析框架提取FACET视觉特征为其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为使用COVAREP声学分析框架提取COVAREP音频特征为其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为

3.如权利要求1或2所述的基于融合注意力网络的多模态情感识别方法，其特征在于：所述步骤2的过程为：文本模态提取的Glove特征的维度是(T_l,300)，视频模态提取的FACET特征的维度是(T_v,p)，音频模态提取的COVAREP特征的维度是(T_a,q)，其中，T_l是意见发言视频中的单词数，T_v是视频的总帧数，p为视觉特征个数，T_a是音频的分段帧数，q为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段T_l个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数T_l，即文本高维特征维度为(T_l,300)，视觉高维特征维度为(T_l,p)，音频高维特征的维度是(T_l,q)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。