CN115293170A

CN115293170A - 一种基于协同注意力融合的方面级多模态情感分析方法

Info

Publication number: CN115293170A
Application number: CN202210965059.9A
Authority: CN
Inventors: 蔡国永; 王顺杰
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-04

Abstract

本发明提出了一种基于协同注意力的全局‑局部特征融合网络的方面级多模态情感分析方法，包括如下步骤：1）获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示；2）生成方面引导的全局文本特征表示和方面引导的全局图像特征表示；3）构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示；4）构建门控的多模态融合机制；5）得到情感极性预测结果。该方法在方面级多模态情感分析任务中性能得到提升，能够有效地捕获模态内的全局语义关联和模态间的局部语义对齐。

Description

一种基于协同注意力融合的方面级多模态情感分析方法

技术领域

本发明涉及多模态内容理解和数据分析技术领域，尤其是一种基于协同注意力融合的方面级多模态情感分析方法。

背景技术

方面层次(即实体依赖)的社交媒体帖子情感分析最近日益受到关注，给定一个句子和对应的图像以及一个目标实体，其目的是预测用户帖子中提到的目标实体上的情感倾向，方面级的情感分析能更精确地表达细粒度的情感。大多数现有的任务主要是针对句子或图像的整体来分析情感，而方面级情感分析不仅考虑句子或图像中隐含的情感信息还要考虑情感所依附的目标，因为不同的实体对应不同。因此，在一个统一的模型中如何构建观点目标和文本/视觉内容之间的对齐，去建模模态内的动态，发现模态之间的对齐融合，此问题仍然是一个挑战。

在现有的方面级多模态情感分析中，大都从全局特征的角度实现多模态特征融合，并没有考虑不同模态中局部细粒度特征的潜在关联。方面指向的不同模态的关键内容可能局限于局部，因此，文本中的每个词与图像中的每个局部区域之间细粒度的语义关联需要建模。由于注意力机制在各个领域上都有所应用，在本发明的多模态特征融合中，采用门控的协同注意力机制去学习文本引导图像上下文的局部语义对齐和图像引导文本上下文的局部语义对齐。此外，层次化地融合不同层次的多模态信息，从而实现全局-局部特征的多层深度融合用于方面级多模态情感分析。

发明内容

本发明针对方面级多模态情感分析存在的问题，提出了一种基于协同注意力融合的方面级多模态情感分析方法。这种方法可以更好地捕捉模态内部和模态之间的动态，以达到更好的方面级多模态情感分析效果。

实现本发明的的技术方案是：

一种基于协同注意力融合的方面级多模态情感分析方法，包括如下步骤：

1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示：采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列，再使用长短时记忆网络来学习文本嵌入序列的上下文依赖，以此来得到左文本上下文表示、右文本上下文表示以及方面表示，并对方面表示进行平均池化得到方面聚合表示；对于图像，采用ResNet网络得到图像的特征表示，并将其转换成图像局部表示；

2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示：利用方面聚合表示引导的注意力机制来分别引导步骤1)得到的左文本上下文表示、右文本上下文表示，然后使用低秩线性池化来将方面聚合表示分别和方面聚合表示引导的左、右文本上下文表示进行交互，并将交互后的结果拼接来得到方面引导的全局文本特征表示；利用方面聚合表示引导的注意力机制来引导步骤1)得到的图像局部表示来得到方面引导的全局图像特征表示；

3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示：通过多头自注意力来分别学习步骤1)得到的文本嵌入序列和图像局部表示，然后得到文本序列上下文特征和图像局部上下文特征，并使用文本引导的视觉上下文注意力机制得到文本引导的视觉上下文特征，然后通过门控机制将其和文本序列上下文特征融合来生成融入视觉的局部文本特征表示；同时，使用视觉引导的文本上下文注意力机制得到视觉引导的文本上下文特征，通过门控机制将其和图像局部上下文特征融合来生成融入文本的局部视觉特征表示；

4)构建门控的多模态融合机制：采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征表示，得到全局多模态融合表示；同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行融合，得到局部多模态融合表示；

5)得到情感极性预测结果：对步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到情感分类的极性。

所述步骤1)中的获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示包括如下步骤：

1.1)首先，采用预训练BERT模型或者者Glove词嵌入得到文本嵌入序列，再使用长短时记忆网络来学习文本嵌入序列的上下文依赖，以此来得到左文本上下文表示、右文本上下文表示以及方面表示，并对方面表示进行平均池化得到方面聚合表示；

1.2)对于图像，采用ResNet模型抽取图像特征得到图像的特征表示，并把图像分为不同的区域，得到图像局部表示以便于方面进行细粒度的引导图像局部特征。

所述步骤2)中的生成方面引导的全局文本特征表示和方面引导的全局图像特征表示包括如下步骤：

2.1)对于生成方面引导的全局文本特征表示：

①利用步骤1)中得到的左文本上下文表示与方面聚合表示的双线性交互关系，计算左文本上下文中每个隐状态的注意力权重，然后加权求和得到方面聚合表示引导的左文本上下文表示，采用同样的方法得到方面聚合表示引导的右文本上下文表示；

②采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文表示的交互，并将得到的特征拼接，得到方面引导的全局文本特征表示，低秩双线性池化能够关注特征的两两交互，能够实现方面和左右上下文的有效关注；

2.2)对于方面引导的全局图像特征表示，利用步骤1)中得到的图像局部表示与方面聚合表示的双线性交互关系，计算图像的每个区域的注意力权重，然后加权求和得到方面引导的全局图像特征表示。

所述步骤3)中的构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示包括如下步骤：

3.1)通过多头自注意力来分别学习步骤1)中得到的文本嵌入序列和图像局部表示；

3.2)设计文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐：

①融入视觉的局部文本特征表示；

首先将经过多头自注意力学习后的文本序列上下文特征中第j个词的向量和经过多头自注意力学习后的图像局部上下文特征中第i个区域向量，投影到c维公共空间，然后融合两者的特征，随后，将融合后的向量进行线性变换，依次计算文本序列上下文特征中的第j个词和其他图像局部上下文特征的注意力分数，通过softmax操作获得归一化的注意力分数，然后将注意力分数加权到每个图像局部特征区域并求和，从而得到第j个词引导的视觉上下文特征，由于不同的模态对情感贡献的程度不一样，因此，使用一个门控融合方式来聚合该词和该词引导的视觉上下文特征，以此来获得所有词引导的视觉上下文特征，将这些特征平均池化得到融入视觉的局部文本特征表示；

②融入文本的局部视觉特征表示：

首先将经过多头自注意力学习后的图像局部上下文特征中第i个区域向量和经过多头自注意力学习后的文本序列上下文特征中第j个词的向量，投影到c维公共空间，然后融合两者的特征，随后，将融合后的向量进行线性变换，依次计算图像局部上下文特征中的第i个视觉块和其他文本序列的注意力分数，通过softmax操作获得归一化的注意力分数，然后将注意力分数加权到每个文本序列并求和，从而得到第i个视觉块引导的文本上下文特征，由于不同的模态对情感贡献的程度不一样，因此，使用一个门控融合方式来聚合该视觉块和该视觉块引导的文本上下文特征，以此来获得所有视觉块引导的文本上下文特征，将这些特征平均池化得到融入文本的局部视觉特征表示。

所述步骤4)中的构建门控的多模态融合机制包括如下步骤：

4.1)采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征；

4.2)采用双线性池化操作来捕捉全局文本特征表示和过滤后的方面引导的全局图像特征之间的交互来得到全局多模态融合表示；

4.3)同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行非线性融合，得到局部多模态融合表示；

所述步骤5)中的得到方面词的情感极性预测结果：层次化地将步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到方面词对应的情感极性预测结果。

与现有技术相比，本技术方案的有益效果是：

1.本技术方案设计了两种文本编码方式，来得到文本的特征表示，并把文本以方面词为割点分成左右文本，分别与方面词进行交互，使得模型能充分捕获方面感知的文本语义信息；

2.本技术方案以不同的模态为中心设计了文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐，这样能增强不同模态的粒度响应，而且能学习到多模态的细粒度一致性语义信息；

3.本技术方案不仅从全局角度来挖掘方面与多模态的交互以及模态内部的语义依赖，还从局部的角度来挖掘更细粒度的多模态交互对齐，增强了特征表达，有助于提升模型在方面级多模态情感分析任务中的性能。

这种方法可以更好地捕捉模态内部和模态之间的动态，以达到更好的方面级多模态情感分析效果。

附图说明

图1为实施例的流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的描述，但不是对本发明的限定。

实施例：

参照图1，基于协同注意力融合的方面级多模态情感分析方法，包括如下步骤：

1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示：

给定一组图文多模态数据集D，假定每一个样本d∈D都包含一个文本句子T＝(t₁,t₂,...,t_n)和一个关联图像O，同时存在一个方面序列

其中A为T的子序列，假设T中的所有方面A(即单词或短语)都已提供，任务输入使用(T,O)对及其方面A，目标是预测方面词A上的情感极性，然后，使用GLove+LSTM或者BERT作为句子编码器来提取的上下文隐状态表示，对于LSTM编码器，首先从查询矩阵E∈R^e×|v|中获得句子T的嵌入序列，其中|v|是词嵌入矩阵的大小，e代表词嵌入的维度，然后，将句子中的嵌入序列输入到LSTM,产生隐状态向量，对于BERT编码器，本例将给定的文本和方面词转换为“[CLS]+句子+[SEP]”和“[CLS]+方面词+[SEP]”，每一个词都会被一个向量表示且向量的维度是768，然后将这些向量输入到后续的模块；

为了更好地提取图像O的高层语义特征，采用预训练的152-layer ResNet的卷积层来作为图像特征表示，其大小表示为s×m×m的张量，然后，图像特征表示被划分成m×m个大小相等的视觉区域块，且每个视觉区域块的特征维度大小为s，则图像局部表示R＝{r_w|r_w∈R^s,w＝1,2....,m×m}，其中，r_w是每个视觉块的表征；

为了更好地将方面词和文本进行交互，本例将输入句子T分成三部分，即

和

分别表示左文本、右文本和方面主体，L、R、C分别是左文本、右文本、方面主体的输入长度，由于方面词的位置可以直观地反映上下文词相对于方面的重要性，为了标识方面词的位置，在方面词之前和之后添加两个指示符标记(即<a>和</a>)，例如，以“NBA”作为查询，文本输入是”Cavaliers reach<a>NBA</a>EasternConference Finals with 100-99victory,sweeping Hawks.”本例使用标准的LSTM网络学习每个方面词的隐状态向量

其中

Θ表示LSTM中的所有参数，在得到所有方面词的隐状态

之后，使用这些隐状态的平均值作为方面聚合表示

同时利用两个独立的LSTM网络来得到左文本上下文表示和右文本上下文表示：

和

2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示：

2.1)方面引导的全局文本特征表示：

基于步骤1)中的隐状态特征表示，进一步采用注意力机制学习方面聚合表示引导下的左、右上下文表示的语义，一般给定不同的方面词作为查询，每个上下文词的重要性应该是不同的，因此，在方面聚合表示H^a作为输入的情况下，根据每个左文本上下文表示与H^a的双线性交互关系，计算左上下文中每个隐状态的注意力权重：

其中，

和b^l∈R表示可训练的参数，方面聚合表示引导的左文本上下文表示H^l如下：

同样，可推导出方面聚合表示引导的右文本上下文表示H^r；

虽然大多数的方法使用特征拼接来整合方面词信息和文本信息，但是简单的特征拼接会不可避免地忽略它们之间的高阶相互作用，因此，本例采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文的交互，本例方法关注特征的两两交互，能够实现方面和左右上下文的有效关注，方面聚合表示H^a分别与方面聚合表示引导的左文本上下文表示H^l、方面聚合表示引导的右文本上下文表示H^r的交互如下:

其中，W_l1，W_l2，W_r1，W_r2∈R^d×d，U_l，U_r∈R^d×d和b_l，b_r∈R^d表示可训练的参数，σ是非线性变换函数tanh，

是逐元素乘法，为了避免文本信息丢失，将H^lt、H^rt与H^l、H^r结合起来作为方面引导的全局文本特征表示：

2.2)方面引导的全局图像特征表示：

多模态社交媒体帖子中的文本内容较短，有时甚至不完整，仅仅学习方面引导的全局文本特征可能仍不足以做出正确的情感预测，因此，进一步学习方面引导的全局图像特征表示以辅助方面引导的全局文本特征表示以提高模型的鲁棒性，通常，给定的方面只与图像的某些区域相关，因此，本例将视觉注意力机制应用于图像特征上来增强与方面词有关的视觉特征响应，并抑制无关干扰；

在方面聚合表示H^a作为输入的情况下，方面聚合表示引导的每个视觉区域的注意力权重计算如下:

其中，

p∈R^d和b^v∈R^d为可学习参数，基于这些视觉注意力权重，可以得到方面引导的全局图像特征表示：

其中，r^gv为s维的图像特征表示，为了与文本表示的维度一致，使用tanh函数将r^gv变换成d维向量：

G^v＝tanh(W^vr^gv+b^v)，

其中，W^v∈R^d×s和b^v∈R^d为可训练参数；

3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示：

参照例图1，设计了跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示，文本中的不同词以及图像中的不同区域在各自模态中的上下文依赖程度是不一样的，为了更好地建模不同模态的上下文语义依赖关系以及强调各自模态中不同局部区域的上下文依赖程度，本例使用多头自注意力机制分别学习文本嵌入序列和图像局部表示内部的语义依赖关系，传统注意力被定义为：

其中，Q表示查询，K表示键，V代表值，

被用来限制点积的值，多头注意力(Multi-Head Attention，简称MHA)旨在并行地执行多个注意力的功能，是对传统注意力机制的改进，采用的多头自注意力(MHSA)可以看作是一种特殊的MHA，在MHSA中，三个输入是一样的，即Q＝K＝V，因此，MHSA＝MultiHead(X,X,X)，其中，X代表MHSA网络的输入，通过使用MHSA机制，文本表示T可转换为文本序列上下文特征

其中H^t的计算如下：

H^t＝MHSA(T)＝MultiHead(T,T,T)；

同理，将图像局部表示R通过多头自注意力之后的特征表示为图像局部上下文特征

其中H^I的计算如下：

H^I＝MHSA(R)＝MultiHead(R,R,R)；

3.1)融入视觉的局部文本特征表示：

为了从每个词汇中学习最相关的视觉区域，首先将经过多头自注意力学习后的图像局部上下文特征H^I和文本序列上下文特征H^t进行交互，依次来计算注意力分数，受到VQA上跨模态关联学习的启发，使用两个低秩投影矩阵将两个特征向量(即文本中第j个词的向量

和图像中第i个区域向量

分别来自H^t和H^I)投影到一个c维公共空间，然后融合两者的特征：

其中，W_r∈R^d×c和W_t∈R^e×c表示参数矩阵，随后，将融合后的向量x_ij进行线性变换，通过softmax操作获得归一化的注意力分数：

其中，W∈R^c和b∈R¹分别表示权重参数和偏置参数，注意力分数可以用来关注对于词

不同视觉区域的注意强度，然后，单词

引导的视觉上下文特征I^j如下：

相比视觉区域

经过文本引导的视觉上下文的注意力机制，特征I^j更能反映与单词

相关的图像区域，由于不同的模态对情感贡献的程度不一样，因此，提出一个门控融合方式来聚合该词的表示

和该词引导的视觉上下文特征I^j：

其中，W_f和b_f表示权重矩阵和偏置参数，z_j表示词

与该词引导的视觉上下文特征I^j的相关性程度，以此来获得所有词引导的视觉上下文特征

后，使用这些特征的均值作为融入视觉的局部文本特征表示H^LT，如下所示：

3.2)融入文本的局部视觉特征表示：

以文本中不同词为中心来引导视觉上下文的注意力机制被设计用于学习文本中每个词最相关的视觉上下文信息并进行门控的关联对齐，同样地，进一步以图像中的不同视觉块为中心，设计视觉引导的文本上下文注意力机制，进一步学习以图像区域为中心的不同词的关联对齐，即学习每个视觉块引导的文本上下文特征，并利用门控机制将视觉块特征和该视觉块引导的不同关联程度的文本上下文特征进行融合，视觉引导的文本上下文注意力机制的转化过程与步骤3.1)类似，公式如下所示：

然后使用门控融合方式来聚合该视觉块的表示和该视觉块引导的文本上下文特征：

以此来获得所有视觉块引导的文本上下文特征

后，使用这些特征的均值作为融入文本的局部视觉特征表示H^LV，如下所示：

4)构建门控的多模态融合机制：

尽管在步骤2)中学习到方面引导的全局文本特征表示和方面引导的全局图像特征表示，但全局图像特征可能与全局文本特征不太相关甚至是无关，此时，直接融合方面引导的图像特征和方面引导的文本特征往往会引入一些噪声，因此，为了更好地学习图像和文本之间的语义关联以及动态消除融入图像带来的噪声，本例提出门控的多模态融合模块，具体以方面引导的全局文本特征H^GT为主导来过滤融合方面引导的全局图像特征r^gv，如下所示：

c＝σ(W_HH^GT+W_Rr^gv+b^z)，

其中，W_H∈R^d×4d，W_R∈R^d×s，和b∈R^d为可学习参数，σ为sigmoid激活函数，根据门控的输出c，可以生成过滤后的方面引导的全局图像特征H^visual，如下所示：

将方面引导的全局文本特征和过滤后的方面引导的全局图像特征采用双线性池化操作来捕捉多模态全局特征之间的交互，得到全局多模态融合表示H^GM，如下所示：

其中，W_T∈R^4d×d，W_V∈R^d×d，P_g∈R^d×d，b_g∈R^d为可学习参数，σ为非线性变换函数tanh；

另外，由于步骤3)的输出均为细粒度的多模态融合表示，文本和图像均以各自模态为主来关联对应的模态，则为了更加丰富细粒度的语义内容，进一步融合融入视觉的局部文本特征表示H^LT和融入文本的局部视觉特征表示H^LV得到局部多模态融合表示H^LM，如下所示：

H^LM＝tanh(W^c[H^LT；H^LV]+b^c)，

其中W^c∈R^2d和b^c∈R^d为可训练参数；

5)得到情感极性预测结果：

为了从全局-局部的多层次角度融合多模态特征，进一步融合方面引导的全局文本特征表示H^GT和方面引导的全局图像特征表示H^visual、全局多模态融合表示H^GM和局部多模态融合表示H^LM，生成层次化融合的多模态情感语义表征，如下所示：

随后，将多模态表征H输入到的softmax函数中用于情感极性的分类，如下所示：

p(y|H)＝softmax(W^TH+b)，

其中，W∈R^7d×3和b∈R³是可训练的参数；

为了优化模型的所有参数，以最小化标准交叉熵函数作为目标函数，如下所示：

为了更好地对本例加以理解，本实施例选用两个公开的多模态数据集，情感极性分为积极，消极和中性，这两个数据集的情感极性分布如表1所示：

表1.多模态Twitter数据集的统计信息

，为了验证本实施例方法的有效性，选择一下基线模型作为对比模型，在对比模型中，只有TomBERT使用BERT预训练模型来得到文本向量表示，其他都是使用Glove预训练词嵌入矩阵。并将准确率(Acc)和Macro-F1值作为实验的评价指标用于对比分析，对比结果如表2所示：

表2.GLFFCA和基线模型的性能

本例方法以及对比方法的实验结果如表2所示。由表2可知，对于使用Glove预训练词嵌入矩阵来得到向量表示的模型而言，本例提出的GLFFCA模型取得最好的性能，不仅能够捕获方面引导的全局多模态信息还能充分挖掘局部细粒度的多模态对齐和交互信息。另外，从表2中可发现Res-Aspect的性能相当有限，获得大约60％的准确率，这表明文本内容对于方面级情感分类是非常重要的，不应该忽略。其次，从表2中可以看出，Res-RAM、Res-MGAN优于仅使用文本数据的RAM、MGAN，并且优于表中使用文本数据的MemNet模型，这意味着关联图像确实能够对文本提供互补信息。此外，Res-RAM、Res-MGAN和Res-RAM-TFN、Res-MGAN-TFN这四个模型的区别是TFN融合模块，然而使用TFN融合方法的性能却出现下降，这说明基于TFN的融合并不适合细粒度的方面级多模态情感分类。另外，MINI总体上优于大多数基线方法，这表明将方面引导的文本和方面引导视觉的进行交互是有效的，但是由于MINI模型主要基于一个相对较弱的MemNet模型，所以它的性能仍然略差于Res-ESTR。ESAFN模型优于其他的对比方法，但仍次于本例提出的GLFFCA模型，这更加说明本例提出的GLFFCA网络对方面级多模态情感分类是有用的且合理的。

对于使用BERT预训练模型来得到向量表示而言，GLFFCA+BERT模型的性能要好于TomBert模型，其中，TomBert模型通过堆叠的BERT架构来对方面和图像进行对齐和捕捉模态内的动态和模态间的交互。然而TomBert仅从局部来考虑多模态的交互对齐，而GLFFCA+BERT不仅从局部的细粒度上来将多模态内容进行交互，还从全局的角度考虑了多模态的交互，这也说明了GLFFCA+BERT从全局和局部学习多模态交互的优势。另外，如表2所示，基于BERT的预训练的GLFFCA+BERT要比基于GLove的GLFFCA好，这更加说明了基于大规模预训练的模型获得词的表示更具优势。总的来说，本例提出的方法对方面级多模态情感分类是有用的且合理的。

为了评估提出方法中不同模块的有效性，本例分别从多模态全局关联，多模态局部关联以及特征融合的角度来对模型做消融研究。在Twitter-2015和Twitter-2017这两个数据集上做消融实验，且保证所有的训练参数都一样，并选择准确率和Macro-F1作为评价指标，消融实验的实验结果如表3所示。

对比方法如下所示：

①GFF：删除GLFFCA中的跨模态特征交互机制，仅保留方面引导的全局文本特征和方面引导的全局图像特征提取的特征用于情感分析。

②GLFF-tgvca：在GLFFCA中的跨模态特征交互机制中，保留融入视觉的局部文本特征表示，舍弃融入文本的局部视觉特征表示。

③GLFF-vgtca：在GLFFCA中的跨模态特征交互机制中，保留融入文本的局部视觉特征表示，舍弃融入视觉的局部文本特征表示。

④GLFFCA-no-sg：在GLFFCA 中的跨模态特征交互机制中，不使用门机制融合细粒度的多模态特征，而是在特征序列上直接融合。

⑤GLFFCA-no-fg：在GLFFCA中的门控的多模态融合机制中，不进行门控融合直接将各个层次的多模态信息进行拼接后用于情感分类。

表3.在Twitter-2015和Twitter-2017上的消融实验

，表3展示了提出的模型消融实验的结果。首先为了证明跨模态特征交互机制的有效性，本例去掉GLFFCA中的跨模态特征交互机制。如表3所示，GFF在两个Twitter数据集上的准确率分别达到72.03％和66.29％，而提出的GLFFCA方法准确率达到74.07％和68.14％，这表明在全局特征学习的基础上增加局部语义对齐特征能辅助全局特征的学习，从而提高多模态情感分析的准确率。另外，为了证明在跨模态特征交互机制中不同注意力机制的有效性，本例依次地分析这些注意力机制的贡献度。具体而言，当在跨模态特征交互机制中仅采用文本引导的视觉上下文注意力时，GLFF-tgvca在两个Twitter数据集上的识别准确率分别下降了1.17％和1.28％。而当仅采用视觉引导的文本上下文注意力时，GLFF-vgtca在两个Twitter数据集上的分类准确率分别下降了0.3％和1.28％。这表明文本引导的视觉上下文注意力机制和视觉引导的文本上下文注意力机制在跨模态对齐中的设计都是合理且有效的，且文本和图像的多重交互对齐能挖掘更丰富的跨模态的局部细节信息。更重要的是，文本引导的视觉上下文注意力机制比视觉引导的文本上下文注意力机制更有效，这表明在社交媒体数据集中，文本的语义相比图像的信息更丰富，且图像数据中的噪音相比文本数据更大。此外，在跨模态特征交互机制中，本例还设计了门机制用于跨模态对齐后的局部特征融合，由表3可发现GLFFCA-no-sg的性能在两个Twitter数据集上相比GLFFCA在分类准确率上分别下降了2.04％和1.86％，这说明跨模态对齐融合中的门机制是有效性，这是由于通常不同模态的数据对情感语义的贡献程度是不一样的。最后，本例还设计了门控的多模态融合机制，如表3所示，不使用门机制的GLFFCA-no-fg在Twitter-2017数据集上的分类效果相比GLFFCA下降了1.53％，而在Twitter-2015数据集上的分类效果相比GLFFCA下降了0.78％，这说明在某些情况下，图像中的一些特征可能与文本语境不太相关，直接地特征融合可能会引入噪声。综上所述，本例提出的GLFFCA方面级多模态情感分析的方法GLFFCA，基于方面主体同时挖掘文本和对应图像的全局关联，并构建跨模态特征交互机制来挖掘文本和对应图像的局部语义关联，以弥补全局文本特征和全局图像特征中细粒度信息的缺失，并实现文本和图像之间更细粒度的多重交互对齐。然后，根据不同层次的多模态特征的特点，设计门控融合方式以实现不同层次的多模态特征的深度融合。最后，通过在Twitter-2015和Twitter-2017数据集上与其他方法的对比实验表明本例方法的有效性，提高了方面级多模态情感分析的效果。

Claims

1.一种基于协同注意力融合的方面级多模态情感分析方法，其特征在于，包括如下步骤：

1）获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示：采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列，再使用长短时记忆网络来学习文本嵌入序列的上下文依赖，以此来得到左文本上下文表示、右文本上下文表示以及方面表示，并对方面表示进行平均池化得到方面聚合表示；对于图像，采用ResNet网络得到图像的特征表示，并将其转换成图像局部表示；

2）生成方面引导的全局文本特征表示和方面引导的全局图像特征表示：利用方面聚合表示引导的注意力机制来分别引导步骤1）得到的左文本上下文表示、右文本上下文表示，然后使用低秩线性池化来将方面聚合表示分别和方面聚合表示引导的左、右文本上下文表示进行交互，并将交互后的结果拼接来得到方面引导的全局文本特征表示；利用方面聚合表示引导的注意力机制来引导步骤1）得到的图像局部表示来得到方面引导的全局图像特征表示；

3）构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示：通过多头自注意力来分别学习步骤1）得到的文本嵌入序列和图像局部表示，然后得到文本序列上下文特征和图像局部上下文特征，并使用文本引导的视觉上下文注意力机制得到文本引导的视觉上下文特征，然后通过门控机制将其和文本序列上下文特征融合来生成融入视觉的局部文本特征表示；同时，使用视觉引导的文本上下文注意力机制得到视觉引导的文本上下文特征，通过门控机制将其和图像局部上下文特征融合来生成融入文本的局部视觉特征表示；

4）构建门控的多模态融合机制：采用门控机制将步骤2）得到的方面引导的全局文本特征表示来过滤融合步骤2）得到的方面引导的全局图像特征表示，得到全局多模态融合表示；同时又将步骤3）得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行融合，得到局部多模态融合表示；

5）得到情感极性预测结果：对步骤2）得到的全局文本特征表示、全局图像特征表示和步骤4）得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到情感分类的极性。

2.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法，其特征在于，所述步骤1）中的获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示包括如下步骤：

1.1）首先，采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列，再使用长短时记忆网络来学习文本嵌入序列的上下文依赖，以此来得到左文本上下文表示、右文本上下文表示以及方面表示，并对方面表示进行平均池化得到方面聚合表示；

1.2）对于图像，采用ResNet模型抽取图像特征得到图像的特征表示，并把图像分为不同的区域，得到图像局部表示以便于方面进行细粒度的引导图像局部特征。

3.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法，其特征在于，所述步骤2）中的生成方面引导的全局文本特征表示和方面引导的全局图像特征表示包括如下步骤：

2.1）对于生成方面引导的全局文本特征表示：

①利用步骤1）中得到的左文本上下文表示与方面聚合表示的双线性交互关系，计算左文本上下文中每个隐状态的注意力权重，然后加权求和得到方面聚合表示引导的左文本上下文表示，采用同样的方法得到方面聚合表示引导的右文本上下文表示；

② 采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文表示的交互，并将得到的特征拼接，得到方面引导的全局文本特征表示，低秩双线性池化能够关注特征的两两交互，能够实现方面和左右上下文的有效关注；

2.2）对于方面引导的全局图像特征表示，利用步骤1）中得到的图像局部表示与方面聚合表示的双线性交互关系，计算图像的每个区域的注意力权重，然后加权求和得到方面引导的全局图像特征表示。

4.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法，其特征在于，所述步骤3）中的构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示包括如下步骤：

3.1）通过多头自注意力来分别学习步骤1）中得到的文本嵌入序列和图像局部表示；

3.2）设计文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐：

①融入视觉的局部文本特征表示；

②融入文本的局部视觉特征表示：

5.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法，其特征在于，所述步骤4）中的构建门控的多模态融合机制包括如下步骤：

4.1）采用门控机制将步骤2）得到的方面引导的全局文本特征表示来过滤融合步骤2）得到的方面引导的全局图像特征；

4.2）采用双线性池化操作来捕捉全局文本特征表示和过滤后的方面引导的全局图像特征之间的交互来得到全局多模态融合表示；

4.3）同时又将步骤3）得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行非线性融合，得到局部多模态融合表示。

6.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法，其特征在于，所述步骤5）中的得到方面词的情感极性预测结果：层次化地将步骤2）得到的全局文本特征表示、全局图像特征表示和步骤4）得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到方面词对应的情感极性预测结果。