CN114169408A

CN114169408A - 一种基于多模态注意力机制的情感分类方法

Info

Publication number: CN114169408A
Application number: CN202111368526.1A
Authority: CN
Inventors: 孔万增; 郭继伟; 唐佳佳; 刘栋军; 刘国文; 崔岂铨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-03-11

Abstract

本发明公开一种基于多模态注意力机制的情感分析方法。本发明利用异构图不同节点之间的复杂的关系去构建多个模态之间的交互。在多个模态信息交互的过程中，将不同的模态信息汇聚到一个紧凑的多模态表示中，用于偏移文本模态信息在语义空间中的位置。同时，多模态注意力机制技术能够以一种细粒度的方式对于多模态信息做融合，因此能够很好的解决在多模态学习中存在的固有问题，即行为信息的变化频率通常快于文本信息的变化频率。通过实验发现，该方法在不同任务的情感分析取得很好的表现，说明多模态注意力机制应用在情感分析任务的可行性，是对当前情感识别领域的多模态融合框架提供了新的研究手段。

Description

一种基于多模态注意力机制的情感分类方法

技术领域

本发明属于自然语言处理、视频、音频交叉领域内的多模态情感识别领域，具体涉及一种利用注意力机制，对多模态信息进行融合，将不同的单模态信息集成到一个紧凑的多模态表示中，从而判断被试情感状态的方法。

背景技术

情感分析领域通常包含文本、视频以及音频等数据。在先前的工作中，已经证实这些单模数据通常包含与情绪状态相关的识别信息。同时，经过大量的研究发现，这些存在于单模态数据之间的一致性和互补性可以有效地解释多模态数据内部的关联表征，进一步增强模型的泛化能力和鲁棒性，以及提高情感分析任务的性能。

现有的基于注意力机制的融合模型，能够从不同的单峰数据源中提取的信息集成到一个紧凑的多模态表示中。因此受到了越来越多的研究人员的关注。具体而言，以语言模态为基础，利用注意力机制分别得到另外两个模态信息(视频和音频)与语言模态信息之间的注意力系数，然后按照注意力系数进行融合。但是这只考虑了双模态之间的交互，忽略了多个模态信息的之间的存在的交互关系，极大的影响了模型的性能。此外，因为视频和音频行为的时间频率通常比文本高得多，这就导致了每一个发出的词语都有一系列伴随的视频和音频“子词”单元。然而，现有的多模态融合方法很少考虑到这一事实，也未能实现细粒度的多模态信息进行交互。从而影响最终的任务表现。

发明内容

本发明的一个目的是针对现有的多模态融合技术存在的不足，提出的一种基于多模态注意力机制的情感分类方法。首先，将对齐的多模态序列信息进行划分操作，得到细粒度的多模态信息。然后，将这些经过划分后的多模态序列数据组织成异构的多模态交互图。在这个交互图中，借助异构图节点之间的包含的丰富的交互性来捕获细粒度的多模态信息之间存在的丰富且复杂的交互关系，构成了文本、视频以及音频三个模态之间的交互。紧接着，在这个交互图上利用多模态注意力机制得到的紧凑的多模态表示用于偏移文本中的单词信息在原始的语义空间中的位置。由于对模态进行划分操作会破坏模态内部的连续性，因此以残差的方式，通过缩放因子合理的补偿模态内部的连续性，得到新的多模态表示。最后将这些新的多模态表示送入到一个大的预训练模型当中，从而进行情感识别任务。

本发明一种基于多模态注意力机制的融合方法，包括以下步骤：

一种基于多模态注意力机制的情感分类方法，具体步骤如下：

步骤1、获取不同情感类别下的多模态特征信息。

步骤2、对多模态特征信息进行预处理，抽取音频模态、视频模态和语言模态的初级表征h_v、h_a、h_l。

步骤3、异构的多模态交互图的构建：

3-1.将对齐的多模态数据进行分割操作。用一个三元组(L_k,V_k,A_k)表示第k个单词对应的三个模态特征信息。将语言、视频和音频模态分别划分为

其中，N代表的是划分的节点数。将L_k、V_k、A_k依次连接，形成

其中M＝3N。

3-2.针对每个语言模态节点

分别计算其相对于自身及所有视频和音频模态节点的重要性e_ij如下：

其中，W为权矩阵。a(·)表示节点执行注意力机制操作；j∈{i}∪[N+1,M]；i＝1,2,...,N。

3-3.对所有相邻节点之间的重要性e_ij进行归一化处理，得到对应的相关系数α_ij。

3-4.利用不同节点之间的相关系数更新语言模态节点。第i个语言模态节点

的更新表达式如下：

3-5.将一个单词更新后的所有语言模态节点拼接在一起得到多模态表示h′_k如下：

3-6.通过缩放因子β补充视频和音频模态内部的连续性，得到更新的多模态表示s_i如下：

其中，

表示逐元素相加；β为缩放因子。

3-7.偏移语言模态中单词在语义空间中的位置，获得偏移后的语言模态信息L'_i如下：

L′_k＝L_k+s_k

步骤4、利用语言模态信息L'_i训练分类模型后，使用分类模型对被测者的多模态信息进行识别，获得被测者在采集多模态信息时的情感类别。

作为优选，步骤1中，所述的多模态数据在被试执行特定情感任务下记录得到，包括语言模态、视频模态和音频模态。

作为优选，步骤2中，音频模态、视频模态的初级表征h_v、h_a，通过长短期记忆网络分别处理初始的音频模态、视频模态特征信息的方式获得；语言模态的初级表征h_l，通过对语言模态特征信息进行映射操作的方式获得。

作为优选，步骤3-6中，所述的缩放因子β通过交叉验证机来确定。

作为优选，步骤3-3中使用softmax函数进行归一化。

作为优选，步骤4中，分类模型采用BERT算法；语言模态信息L'_i输入Transformers层。进行训练。

在此基础上，本发明还提供一种电子设备；其包括中央处理器和存储器；所述存储器存储有能够被所述处理器执行的机器可执行指令,所述中央处理器执行所述机器可执行指令以实现前述的情感分类方法。

本发明的有益效果是：

本发明结合注意力机制以及大的预训练语言模型，在将多个模态的信息汇聚到一起的过程中，借助异构图节点之间包含的丰富且复杂的交互用于构建多个模态之间的同时交互。依托注意力机制实现细粒度的多模态信息融合，得到多模态表示信息借此来偏移语言模态中单词在语义空间中的原始位置。这种经过偏移操作后向语言模态信息注入视频以及音频模态信息。同时，将这些得到的新的语言模态信息送入到一个大的预训练语言模型当中，以此捕获文本信息之间的上下文的相关性，这种融合框架是对当前多模态情感识别领域的有效补充，能够进一步提高对多模态数据的情感识别准确度。

附图说明

图1为本发明的流程图；

图2为本发明步骤3中多模态融合的示意图；

图3为本发明步骤3的整体示意图；

图4为本发明的融合框架示意图。

具体实施方式

下面结合附图，对本发明做详细描述。

如图1和4所示，一种基于多模态注意力机制的情感分类方法，具体步骤如下：

步骤1、获取多模态原始的低级特征数据

在被试执行特定情感任务下，记录被试所发出的多模态数据。

多模态数据包括但不局限于：语言模态、视频模态和音频模态；

多模态进行融合的目的之一是将两种或者两种以上的模态信息结合起来进行预测，用于弥补单模态信息表达能力的局限性，从而提升多模态模型的健壮性；

步骤2、多模态信息数据预处理：抽取多模态信息线性变换初级表征

多模态融合是在特征层面进行的，采用长短期记忆网络对序列视频以及音频模态数据进行初级特征抽取，语言模态经过映射后进行初级特征抽取；

h_v＝LSTM(V)

h_a＝LSTM(A)

h_l＝Embedding(L) 公式(1)

其中，

为第m个模态的初级表征，m∈{v,a,l}；v,a,l分别为音频、视频、语言模态；V,A,L分别为三个模态的原始数据；LSTM表示长短期记忆网络；Embedding表示映射操作；T_m为时域维度的尺寸，d_m为每一个时刻的特征向量的长度；

步骤3、如图2和3所示，异构的多模态交互图的构建：

多模态融合的框架中包含的核心处理模块之一为多模态交互图。在多模态信息融合的过程中，存在着若干个这种用于将各种不同的单峰数据汇聚到一个紧凑的多模态表示中的交互图，以此来偏移语言模态中的单词在原始语义空间中的位置。基于视频和音频行为的时间频率通常比文本高得多这一事实，多模态交互图的核心是使用细粒度的多模态信息去构建不同模态之间的交互。

为了得细粒度的多模态信息，首先将对齐的多模态序列数据进行分割操作。用一个三元组(L_k,V_k,A_k)表示第k个单词对应的三个模态特征信息，L表示语言模态特征信息，V表示视频模态特征信息，A表示音频模态特征信息。将语言模态特征信息划分到更小的粒度后表示为

其中，N代表的是划分的节点数。同理，视频和音频模态的划分可以分别表示为

为了方便表示，我们用

来代替上述等式，其中M＝3*N。在本实施例中，N＝2；从1到N表示语言模态特征信息，N+1到2N表示视频模态特征信息，2N+1到M(3N)表示音频模态特征信息。每一个代表语言模态的节点与代表音频和视频的全部节点将会组织成一个多模态交互图。在这个图中，文本和视频以及文本和音频之间可以进行交互，用于下一步的融合操作。多模态交互图，是指将多模态数据引入到图结构上，利用不同节点之间的边来构建多模态之间的交互关系，是以语言模态作为核心节点，构建音频、视频与语言之间交互的图。

为了获得足够的表达能力将输入特征转换为更高层次的特征，至少需要一次可学习的线性变换。为此，首先对每个节点进行一个由权矩阵W∈R^d×d参数化的共享线性变换。然后对节点执行注意力机制操作(a:R^2d→R，一种共享的注意力机制)，用于计算节点到节点之间的注意力系数。假设用e_i,j表示节点j对节点i的重要性，上述的过程可以表示为：

其中，

为被处理的多模态交互图中的语言模态节点；j∈{i}∪[N+1,M]，该公式实现了每个语言模态节点与自身及其它的节点运算。求出代表语言模态节点与视频和音频模态所有的节点的重要性系数后，为了便于比较不同的节点之间的注意力系数大小，对其进行归一化操作：

其中，softmax()表示归一化处理函数。N_i表示为图中所有的与节点i有边相连的节点(包括自身)集合。由于注意力机制α是一个单层的前馈神经网络，以此为基础我们增加了非线性激活函数R(x)：

γ为非线性激活函数的参数，其为介于0到1之间的常数。

α_ij可以表示为：

其中，R(·)是一个非线性激活函数，T代表转置，||代表拼接，α为变换后的重要性系数。然后利用不同节点之间的相关系数去更新代表语言模态的节点。第i个语言模态节点可以表示为：

然后，将第k个单词的语言模态的所有节点拼接在一起得到多模态表示h'_k：

我们通过一个缩放因子β(β<1)在不影响上述操作的基础上合理的补充视频和音频模态内部的连续性，得到更新的多模态表示s_i。

其中，

表示逐元素相加；β是一个超参数，其通过交叉验证机来确定；

多模态表示s_k用于偏移语言模态中单词在语义空间中的位置，获得偏移后的语言模态信息L'_i如式(9)。

L'_k＝L_k+s_k 公式(9)

步骤4、继续预训练：

根据步骤3，针对每一个代表多个模态信息的三元组(L_k,V_k,A_k)，首先进行分割操作，将其变成细粒度的多模态信息，这些细粒度的多模态信息组织成若干个交互图得到的输出拼接在一起，然后对其以残差连接的方式进行补充模态内部连续性的操作，形成一个新的多模态表示。用这个新的多模态表示去偏移语言模态中的单词在语义空间中的位置，得到新的语言模态表示。在这个新的语言模态表示中，添加了视频以及音频模态信息，极大的补充了单一语言模态信息表达能力的局限性。

假设对齐的多模态序列数据中存在着N个表示多模态信息三元组，我们在每一个三元组前面添加一个特殊的标记(CLS)用做多模态情感分类的标签。每一个三元组由上述操作都会得到一个新的语言模态表示，将汇聚了多模态信息的{CLS,L′₁,L′₂,...,L′_N}送入BERT的Transformers层中继续训练，将模型输出的情感分类标签与原始标注的情感分类标签进行对比，用于更新模型的参数，得到最终的分类结果，完成情感分类任务。

使用本发明与多种现有的多模态融合方法同时在两个公开的多模态情感数据库CMU-MOSI、CMU-MOSEI上进行情感状态判别任务，结果如表1、2所示；表中结果为平均绝对误差MAE、相关系数Corr、情感二分类任务对应的精确度Acc-2、F1分数F1-Score以及情感七分类任务对应的精度Acc-7。可以看出，与表现出优异水平的现有多模态融合框架相比，本发明的五个评价指标均优于现有融合模型，证明了本发明所提出方法的有效性。

表1.CMU-MOSI结果对比表

表2.CMU-MOSEI结果对比表