CN117171303A

CN117171303A - 一种基于自适应注意力融合的联合多模态方面级情感分析方法

Info

Publication number: CN117171303A
Application number: CN202311201459.3A
Authority: CN
Inventors: 郭军军; 王子悦; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-05

Abstract

本发明公开基于自适应注意力融合的联合多模态方面级情感分析方法，由于文本和视觉模态之间内在的语义差距，将基于文本的生成式预训练模型转移到图文多模态情感分析任务中面临着挑战。为此本发明对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量；利用目标检测模型从图像文本对数据每张输入图片中提取视觉特征；自适应图像到文本融合模块，将视觉特征融合到文本表示中；利用选择性融合模块基于文本表示筛选相关的区域特征；利用跨模态Mixup模块实现文本和图像之间的交互；利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码；本发明基于图像和文本的选择性融合机制，自适应地弥合文本和图像表示之间的语义差距。

Description

一种基于自适应注意力融合的联合多模态方面级情感分析方法

技术领域

本发明公开一种基于自适应注意力融合的联合多模态方面级情感分析方法，涉及自然语言处理技术领域。

背景技术

在自然语言处理中，情感分析是重要且经典的问题之一，如今随着互联网的不断发展，微博，推特等平台累积了大量带有图片的多模态数据，传统的纯文本情感分析逐渐不再能满足情感分析的要求，多模态情感分析应运而生。联合多模态方面级情感分析旨从给定的带有图片的推文中同时提取出推文中隐含的方面词及所提取方面词对应的情感极性。

多模态方面词抽取和多模态方面级情感分析是多模态情感分析中的两个重要子任务。预训练生成模型(例如BART、T5等)已经引起了在基于方面的情感分析(Aspect-BasedSentiment Analysis，简称ABSA)领域的越来越多关注。然而，文本和图像模态之间的语义差距使得将基于文本的生成式预训练模型转移到图像-文本多模态情感分析任务变得困难；

当前研究表明，在基于方面的情感分析(ABSA)中，预训练生成模型如BART和T5的有效性。然而，由于文本和视觉模态之间内在的语义差距，将基于文本的生成式预训练模型转移到图文多模态情感分析任务中面临着挑战。为了应对这个问题，本发明提出了一种基于自适应注意力融合的联合多模态方面级情感分析方法，用于联合多模态基于方面的情感分析(JMABSA)。

发明内容

本发明解决的技术问题是：本发明提供一种基于自适应注意力融合的联合多模态方面级情感分析方法，基于图像和文本的选择性融合机制，旨在自适应地弥合文本和图像表示之间的语义差距，并将基于文本的预训练模型自适应地转移到联合多模态方面级情感分析任务中。

本发明的技术方案是：一种基于自适应注意力融合的联合多模态方面级情感分析方法，包括如下步骤：

S1、使用预训练语言模型的嵌入层对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量；

S2、利用目标检测模型从图像文本对数据每张输入图片中提取出视觉特征；

S3、自适应图像到文本融合模块，将视觉特征融合到文本表示中，通过多模态交互提高特征融合效果；

S4、利用选择性融合模块基于文本表示筛选相关的区域特征，以提高情感分析性能；

S5、利用跨模态Mixup模块实现文本和图像之间的交互，增强特征之间的语义联系；

S6、利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码。

进一步地，所述S1的具体实现包括：

使用序列到序列模型BART获取词嵌入，使用<s>和</s>来表示句子的开始和结束，样本的原始文本特征被表示为E，E∈R^T×d，其中T表示文本长度，d表示BART的维度。

进一步地，所述S2的具体实现包括：

通过目标检测模型Faster R-CNN从给定的图像V中提取所有物体提议；然后保留具有最高置信度的36个物体提议，表示为R1＝Faster R1-CNN(V)；其中，R1∈R^36×2048，之后将R1的维度与BART的文本嵌入维度对齐，最终视觉特征表示为R∈R^36×d，d表示BART的维度。

进一步地，所述S3的具体实现包括：

通过使用多头自注意力层，通过对文本进行自注意力操作以捕捉文本的模内交互，该操作通过对附近单词的信息进行收集，表达为以下公式：E′＝Norm(E+ATT_self(E))；

其中，ATT_self表示多头自注意力，文本特征被设置为查询/键/值矩阵，Norm表示归一化；

同时采用跨模态Transformer层，获得文本和视觉模态之间的跨模态交互，其中使用原始文本特征E作为query矩阵，将视觉特征R作为key/value矩阵，表示为以下公式：E_X→V＝ATT_cross(E,R)；

其中，ATT_cross表示跨模态注意力层；随后，将E_X→V馈送至前馈网络FFN，然后跟随一个归一化层，以进一步增强文本表示，使用从E′添加的额外残余连接得到最终融合了视觉信息的文本表示，即增强的文本表示为：E″＝Norm(E′+FFN(E_X→V))。

进一步地，所述S4的具体实现包括：

通过交互式跨模态操作获得的增强文本表示，进一步旨在为文本过滤不相关的区域特征；本质上，选择性融合接收两个输入，一个是增强的文本表示E”，另一个是纯粹的视觉特征R；

其中，首先，将R和E”连接成一个双模态因子[R；E”]，并使用它们生成区域特征和文本特征之间相似性权重g的公式如下：

g＝sigmoid(Linear([R；E″]))

其中，sigmoid表示Sigmoid非线性激活函数；随后，使用相似性权重来通过选择性滤波器获得与文本相关的区域特征计算方式为：/>

进一步地，所述S5的具体实现包括：

通过线性插值一对训练样本，使训练数据呈线性行为，从而创建新的样本；合成样本生成方式如下：

其中，λ是用于平衡文本特征和视觉特征的标量，从Beta(α,β)分布中采样得到：λ～Be(α,β)；

其中，Be表示Beta分布，α和β是用于控制λ分布的超参数，将R′输出为包含多模态信息的视觉表示。

进一步地，所述S6的具体实现包括：

在多模态BART编码器中，在跨模态Mixup模块输出的视觉特征前插入特殊标记<img>和</img>用于标识视觉特征的起始和结束位置，并将原始文本特征E与包含多模态信息的视觉表示R′作为多模态输出D'的输入：

其中表示拼接操作；之后将D′馈送到位置嵌入层以获取最终的多模态表示D″，表示为：D″＝Dropout(Norm(PE(D′)+D′)；

其中D″∈R^(T+36)×d，PE表示位置嵌入层；最后，将D″作为最终的多模态输入送入BART编码器；

BART编码器输出表示为H_m，预测分布由Softmax和MLP计算得出：P(θ)＝Softmax(MLP(H_m))，其中MLP为多层感知机。

本发明有益效果：

1、本发明通过利用图像作为枢纽信息，成功地消除了联合多模态方面级情感分析中出现的误差传播问题，减少了多模态方面词抽取和多模态方面级情感分析之间的任务差异，实现了对多模态方面词抽取和多模态方面级情感分析性能的动态增强，通过动态提取视觉细节，提高了其性能；

2、本发明能自适应地弥合文本和图像表达之间的语义差距，并将基于文本的预训练模型自适应地转移到JMABSA任务；

3、本发明能够自适应地将任务特定的视觉信息整合到预训练的BART编码器中，促使网络学习多模态表示，从而增强了模型的表现；

4、本发明在Twitter15和Twitter17数据集上的实验结果表明，我们提出的方法显著提高了多模态方面词抽取和多模态方面级情感分析的性能，并在两个测试集上提高了F1分数，在性能上明显优于多个基线模型。

附图说明

图1为本发明实施例提供的一种基于主动特征选择的多标签文本分类数据增强方法整体框架图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例提供的一种自适应注意力融合的联合多模态方面级情感分析方法整体框架图，一种基于自适应注意力融合的联合多模态方面级情感分析方法，包括如下步骤：

包括如下步骤：

S1、使用预训练语言模型的嵌入层对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量；在一些可行的实施方式中，所述S1的具体实现包括：

在一些可行的实施方式中，所述S2的具体实现包括：

通过目标检测模型Faster R-CNN从给定的图像V中提取所有物体提议；然后保留具有最高置信度的36个物体提议，表示为R1＝FasterR1-CNN(V)；其中，R1∈R^36×2048，之后将R1的维度与BART的文本嵌入维度对齐，最终视觉特征表示为R∈R^36×d，d表示BART的维度。

在一些可行的实施方式中，所述S3的具体实现包括：

S4、利用选择性融合模块基于文本表示筛选相关的区域特征，以提高情感分析性能；在一些可行的实施方式中，所述S4的具体实现包括：

g＝sigmoid(Linear([R；E″]))

S5、利用跨模态Mixup模块实现文本和图像之间的交互，增强特征之间的语义联系；在一些可行的实施方式中，所述S5的具体实现包括：

S6、利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码。在一些可行的实施方式中，所述S6的具体实现包括：

其中表示拼接操作；之后将D^′馈送到位置嵌入层以获取最终的多模态表示D″，表示为：D″＝Dropout(Norm(PE(D′)+D′)；

为了说明本发明的效果，本发明和已有的方法进行比较，使用来自TWITTER-15和TWITTER-17两个多模态数据集进行验证。评价指标与对比方法一致，采用F1作为评价分类结果的指标。所用数据集的实验结果如表1所示：

表1实验结果

由表1可知，实验组评测指标相较于所有的基线模型均有明显提高。以往的Pipeline方法由于两个子任务分开执行会造成误差传播问题。我们提出的模型在TWITTER-17数据集上通过F1分数评估达到了最高性能。在TWITTER-15数据集上的F1分数仅比高度预训练的VLP-MABSA低0.2％。这表明我们提出的模型在所有先进方法中具有竞争力，证明了模型的有效性。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S1的具体实现包括：

3.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S2的具体实现包括：

4.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S3的具体实现包括：

5.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S4的具体实现包括：

g＝sigmoid(Linear([R；E"]))

6.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S5的具体实现包括：

7.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法，其特征在于，所述S6的具体实现包括：

其中D″∈R^(T+3)×d，PE表示位置嵌入层；最后，将D″作为最终的多模态输入送入BART编码器；