CN117171303A - 一种基于自适应注意力融合的联合多模态方面级情感分析方法 - Google Patents

一种基于自适应注意力融合的联合多模态方面级情感分析方法 Download PDF

Info

Publication number
CN117171303A
CN117171303A CN202311201459.3A CN202311201459A CN117171303A CN 117171303 A CN117171303 A CN 117171303A CN 202311201459 A CN202311201459 A CN 202311201459A CN 117171303 A CN117171303 A CN 117171303A
Authority
CN
China
Prior art keywords
text
visual
features
mode
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311201459.3A
Other languages
English (en)
Inventor
郭军军
王子悦
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311201459.3A priority Critical patent/CN117171303A/zh
Publication of CN117171303A publication Critical patent/CN117171303A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于自适应注意力融合的联合多模态方面级情感分析方法,由于文本和视觉模态之间内在的语义差距,将基于文本的生成式预训练模型转移到图文多模态情感分析任务中面临着挑战。为此本发明对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量;利用目标检测模型从图像文本对数据每张输入图片中提取视觉特征;自适应图像到文本融合模块,将视觉特征融合到文本表示中;利用选择性融合模块基于文本表示筛选相关的区域特征;利用跨模态Mixup模块实现文本和图像之间的交互;利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码;本发明基于图像和文本的选择性融合机制,自适应地弥合文本和图像表示之间的语义差距。

Description

一种基于自适应注意力融合的联合多模态方面级情感分析 方法
技术领域
本发明公开一种基于自适应注意力融合的联合多模态方面级情感分析方法,涉及自然语言处理技术领域。
背景技术
在自然语言处理中,情感分析是重要且经典的问题之一,如今随着互联网的不断发展,微博,推特等平台累积了大量带有图片的多模态数据,传统的纯文本情感分析逐渐不再能满足情感分析的要求,多模态情感分析应运而生。联合多模态方面级情感分析旨从给定的带有图片的推文中同时提取出推文中隐含的方面词及所提取方面词对应的情感极性。
多模态方面词抽取和多模态方面级情感分析是多模态情感分析中的两个重要子任务。预训练生成模型(例如BART、T5等)已经引起了在基于方面的情感分析(Aspect-BasedSentiment Analysis,简称ABSA)领域的越来越多关注。然而,文本和图像模态之间的语义差距使得将基于文本的生成式预训练模型转移到图像-文本多模态情感分析任务变得困难;
当前研究表明,在基于方面的情感分析(ABSA)中,预训练生成模型如BART和T5的有效性。然而,由于文本和视觉模态之间内在的语义差距,将基于文本的生成式预训练模型转移到图文多模态情感分析任务中面临着挑战。为了应对这个问题,本发明提出了一种基于自适应注意力融合的联合多模态方面级情感分析方法,用于联合多模态基于方面的情感分析(JMABSA)。
发明内容
本发明解决的技术问题是:本发明提供一种基于自适应注意力融合的联合多模态方面级情感分析方法,基于图像和文本的选择性融合机制,旨在自适应地弥合文本和图像表示之间的语义差距,并将基于文本的预训练模型自适应地转移到联合多模态方面级情感分析任务中。
本发明的技术方案是:一种基于自适应注意力融合的联合多模态方面级情感分析方法,包括如下步骤:
S1、使用预训练语言模型的嵌入层对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量;
S2、利用目标检测模型从图像文本对数据每张输入图片中提取出视觉特征;
S3、自适应图像到文本融合模块,将视觉特征融合到文本表示中,通过多模态交互提高特征融合效果;
S4、利用选择性融合模块基于文本表示筛选相关的区域特征,以提高情感分析性能;
S5、利用跨模态Mixup模块实现文本和图像之间的交互,增强特征之间的语义联系;
S6、利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码。
进一步地,所述S1的具体实现包括:
使用序列到序列模型BART获取词嵌入,使用<s>和</s>来表示句子的开始和结束,样本的原始文本特征被表示为E,E∈RT×d,其中T表示文本长度,d表示BART的维度。
进一步地,所述S2的具体实现包括:
通过目标检测模型Faster R-CNN从给定的图像V中提取所有物体提议;然后保留具有最高置信度的36个物体提议,表示为R1=Faster R1-CNN(V);其中,R1∈R36×2048,之后将R1的维度与BART的文本嵌入维度对齐,最终视觉特征表示为R∈R36×d,d表示BART的维度。
进一步地,所述S3的具体实现包括:
通过使用多头自注意力层,通过对文本进行自注意力操作以捕捉文本的模内交互,该操作通过对附近单词的信息进行收集,表达为以下公式:E′=Norm(E+ATTself(E));
其中,ATTself表示多头自注意力,文本特征被设置为查询/键/值矩阵,Norm表示归一化;
同时采用跨模态Transformer层,获得文本和视觉模态之间的跨模态交互,其中使用原始文本特征E作为query矩阵,将视觉特征R作为key/value矩阵,表示为以下公式:EX→V=ATTcross(E,R);
其中,ATTcross表示跨模态注意力层;随后,将EX→V馈送至前馈网络FFN,然后跟随一个归一化层,以进一步增强文本表示,使用从E′添加的额外残余连接得到最终融合了视觉信息的文本表示,即增强的文本表示为:E″=Norm(E′+FFN(EX→V))。
进一步地,所述S4的具体实现包括:
通过交互式跨模态操作获得的增强文本表示,进一步旨在为文本过滤不相关的区域特征;本质上,选择性融合接收两个输入,一个是增强的文本表示E”,另一个是纯粹的视觉特征R;
其中,首先,将R和E”连接成一个双模态因子[R;E”],并使用它们生成区域特征和文本特征之间相似性权重g的公式如下:
g=sigmoid(Linear([R;E″]))
其中,sigmoid表示Sigmoid非线性激活函数;随后,使用相似性权重来通过选择性滤波器获得与文本相关的区域特征计算方式为:/>
进一步地,所述S5的具体实现包括:
通过线性插值一对训练样本,使训练数据呈线性行为,从而创建新的样本;合成样本生成方式如下:
其中,λ是用于平衡文本特征和视觉特征的标量,从Beta(α,β)分布中采样得到:λ~Be(α,β);
其中,Be表示Beta分布,α和β是用于控制λ分布的超参数,将R′输出为包含多模态信息的视觉表示。
进一步地,所述S6的具体实现包括:
在多模态BART编码器中,在跨模态Mixup模块输出的视觉特征前插入特殊标记<img>和</img>用于标识视觉特征的起始和结束位置,并将原始文本特征E与包含多模态信息的视觉表示R′作为多模态输出D'的输入:
其中表示拼接操作;之后将D′馈送到位置嵌入层以获取最终的多模态表示D″,表示为:D″=Dropout(Norm(PE(D′)+D′);
其中D″∈R(T+36)×d,PE表示位置嵌入层;最后,将D″作为最终的多模态输入送入BART编码器;
BART编码器输出表示为Hm,预测分布由Softmax和MLP计算得出:P(θ)=Softmax(MLP(Hm)),其中MLP为多层感知机。
本发明有益效果:
1、本发明通过利用图像作为枢纽信息,成功地消除了联合多模态方面级情感分析中出现的误差传播问题,减少了多模态方面词抽取和多模态方面级情感分析之间的任务差异,实现了对多模态方面词抽取和多模态方面级情感分析性能的动态增强,通过动态提取视觉细节,提高了其性能;
2、本发明能自适应地弥合文本和图像表达之间的语义差距,并将基于文本的预训练模型自适应地转移到JMABSA任务;
3、本发明能够自适应地将任务特定的视觉信息整合到预训练的BART编码器中,促使网络学习多模态表示,从而增强了模型的表现;
4、本发明在Twitter15和Twitter17数据集上的实验结果表明,我们提出的方法显著提高了多模态方面词抽取和多模态方面级情感分析的性能,并在两个测试集上提高了F1分数,在性能上明显优于多个基线模型。
附图说明
图1为本发明实施例提供的一种基于主动特征选择的多标签文本分类数据增强方法整体框架图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是本发明实施例提供的一种自适应注意力融合的联合多模态方面级情感分析方法整体框架图,一种基于自适应注意力融合的联合多模态方面级情感分析方法,包括如下步骤:
包括如下步骤:
S1、使用预训练语言模型的嵌入层对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量;在一些可行的实施方式中,所述S1的具体实现包括:
使用序列到序列模型BART获取词嵌入,使用<s>和</s>来表示句子的开始和结束,样本的原始文本特征被表示为E,E∈RT×d,其中T表示文本长度,d表示BART的维度。
S2、利用目标检测模型从图像文本对数据每张输入图片中提取出视觉特征;
在一些可行的实施方式中,所述S2的具体实现包括:
通过目标检测模型Faster R-CNN从给定的图像V中提取所有物体提议;然后保留具有最高置信度的36个物体提议,表示为R1=FasterR1-CNN(V);其中,R1∈R36×2048,之后将R1的维度与BART的文本嵌入维度对齐,最终视觉特征表示为R∈R36×d,d表示BART的维度。
S3、自适应图像到文本融合模块,将视觉特征融合到文本表示中,通过多模态交互提高特征融合效果;
在一些可行的实施方式中,所述S3的具体实现包括:
通过使用多头自注意力层,通过对文本进行自注意力操作以捕捉文本的模内交互,该操作通过对附近单词的信息进行收集,表达为以下公式:E′=Norm(E+ATTself(E));
其中,ATTself表示多头自注意力,文本特征被设置为查询/键/值矩阵,Norm表示归一化;
同时采用跨模态Transformer层,获得文本和视觉模态之间的跨模态交互,其中使用原始文本特征E作为query矩阵,将视觉特征R作为key/value矩阵,表示为以下公式:EX→V=ATTcross(E,R);
其中,ATTcross表示跨模态注意力层;随后,将EX→V馈送至前馈网络FFN,然后跟随一个归一化层,以进一步增强文本表示,使用从E′添加的额外残余连接得到最终融合了视觉信息的文本表示,即增强的文本表示为:E″=Norm(E′+FFN(EX→V))。
S4、利用选择性融合模块基于文本表示筛选相关的区域特征,以提高情感分析性能;在一些可行的实施方式中,所述S4的具体实现包括:
通过交互式跨模态操作获得的增强文本表示,进一步旨在为文本过滤不相关的区域特征;本质上,选择性融合接收两个输入,一个是增强的文本表示E”,另一个是纯粹的视觉特征R;
其中,首先,将R和E”连接成一个双模态因子[R;E”],并使用它们生成区域特征和文本特征之间相似性权重g的公式如下:
g=sigmoid(Linear([R;E″]))
其中,sigmoid表示Sigmoid非线性激活函数;随后,使用相似性权重来通过选择性滤波器获得与文本相关的区域特征计算方式为:/>
S5、利用跨模态Mixup模块实现文本和图像之间的交互,增强特征之间的语义联系;在一些可行的实施方式中,所述S5的具体实现包括:
通过线性插值一对训练样本,使训练数据呈线性行为,从而创建新的样本;合成样本生成方式如下:
其中,λ是用于平衡文本特征和视觉特征的标量,从Beta(α,β)分布中采样得到:λ~Be(α,β);
其中,Be表示Beta分布,α和β是用于控制λ分布的超参数,将R′输出为包含多模态信息的视觉表示。
S6、利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码。在一些可行的实施方式中,所述S6的具体实现包括:
在多模态BART编码器中,在跨模态Mixup模块输出的视觉特征前插入特殊标记<img>和</img>用于标识视觉特征的起始和结束位置,并将原始文本特征E与包含多模态信息的视觉表示R′作为多模态输出D'的输入:
其中表示拼接操作;之后将D馈送到位置嵌入层以获取最终的多模态表示D″,表示为:D″=Dropout(Norm(PE(D′)+D′);
其中D″∈R(T+36)×d,PE表示位置嵌入层;最后,将D″作为最终的多模态输入送入BART编码器;
BART编码器输出表示为Hm,预测分布由Softmax和MLP计算得出:P(θ)=Softmax(MLP(Hm)),其中MLP为多层感知机。
为了说明本发明的效果,本发明和已有的方法进行比较,使用来自TWITTER-15和TWITTER-17两个多模态数据集进行验证。评价指标与对比方法一致,采用F1作为评价分类结果的指标。所用数据集的实验结果如表1所示:
表1实验结果
由表1可知,实验组评测指标相较于所有的基线模型均有明显提高。以往的Pipeline方法由于两个子任务分开执行会造成误差传播问题。我们提出的模型在TWITTER-17数据集上通过F1分数评估达到了最高性能。在TWITTER-15数据集上的F1分数仅比高度预训练的VLP-MABSA低0.2%。这表明我们提出的模型在所有先进方法中具有竞争力,证明了模型的有效性。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (7)

1.一种基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,包括如下步骤:
S1、使用预训练语言模型的嵌入层对图像文本对数据中分词后的文本进行嵌入得到词嵌入向量;
S2、利用目标检测模型从图像文本对数据每张输入图片中提取出视觉特征;
S3、自适应图像到文本融合模块,将视觉特征融合到文本表示中,通过多模态交互提高特征融合效果;
S4、利用选择性融合模块基于文本表示筛选相关的区域特征,以提高情感分析性能;
S5、利用跨模态Mixup模块实现文本和图像之间的交互,增强特征之间的语义联系;
S6、利用视觉增强的BART模块在序列到序列模型中增强多模态信息的编码。
2.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S1的具体实现包括:
使用序列到序列模型BART获取词嵌入,使用<s>和</s>来表示句子的开始和结束,样本的原始文本特征被表示为E,E∈RT×d,其中T表示文本长度,d表示BART的维度。
3.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S2的具体实现包括:
通过目标检测模型Faster R-CNN从给定的图像V中提取所有物体提议;然后保留具有最高置信度的36个物体提议,表示为R1=FasterR1-CNN(V);其中,R1∈R36×2048,之后将R1的维度与BART的文本嵌入维度对齐,最终视觉特征表示为R∈R36×d,d表示BART的维度。
4.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S3的具体实现包括:
通过使用多头自注意力层,通过对文本进行自注意力操作以捕捉文本的模内交互,该操作通过对附近单词的信息进行收集,表达为以下公式:E′=Norm(E+ATTself(E));
其中,ATTself表示多头自注意力,文本特征被设置为查询/键/值矩阵,Norm表示归一化;
同时采用跨模态Transformer层,获得文本和视觉模态之间的跨模态交互,其中使用原始文本特征E作为query矩阵,将视觉特征R作为key/value矩阵,表示为以下公式:EX→V=ATTcross(E,R);
其中,ATTcross表示跨模态注意力层;随后,将EX→V馈送至前馈网络FFN,然后跟随一个归一化层,以进一步增强文本表示,使用从E′添加的额外残余连接得到最终融合了视觉信息的文本表示,即增强的文本表示为:E″=Norm(E′+FFN(EX→V))。
5.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S4的具体实现包括:
通过交互式跨模态操作获得的增强文本表示,进一步旨在为文本过滤不相关的区域特征;本质上,选择性融合接收两个输入,一个是增强的文本表示E”,另一个是纯粹的视觉特征R;
其中,首先,将R和E”连接成一个双模态因子[R;E”],并使用它们生成区域特征和文本特征之间相似性权重g的公式如下:
g=sigmoid(Linear([R;E"]))
其中,sigmoid表示Sigmoid非线性激活函数;随后,使用相似性权重来通过选择性滤波器获得与文本相关的区域特征计算方式为:/>
6.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S5的具体实现包括:
通过线性插值一对训练样本,使训练数据呈线性行为,从而创建新的样本;合成样本生成方式如下:
其中,λ是用于平衡文本特征和视觉特征的标量,从Beta(α,β)分布中采样得到:λ~Be(α,β);
其中,Be表示Beta分布,α和β是用于控制λ分布的超参数,将R′输出为包含多模态信息的视觉表示。
7.根据权利要求1所述的基于自适应注意力融合的联合多模态方面级情感分析方法,其特征在于,所述S6的具体实现包括:
在多模态BART编码器中,在跨模态Mixup模块输出的视觉特征前插入特殊标记<img>和</img>用于标识视觉特征的起始和结束位置,并将原始文本特征E与包含多模态信息的视觉表示R′作为多模态输出D'的输入:
其中表示拼接操作;之后将D′馈送到位置嵌入层以获取最终的多模态表示D″,表示为:D″=Dropout(Norm(PE(D′)+D′);
其中D″∈R(T+3)×d,PE表示位置嵌入层;最后,将D″作为最终的多模态输入送入BART编码器;
BART编码器输出表示为Hm,预测分布由Softmax和MLP计算得出:P(θ)=Softmax(MLP(Hm)),其中MLP为多层感知机。
CN202311201459.3A 2023-09-18 2023-09-18 一种基于自适应注意力融合的联合多模态方面级情感分析方法 Pending CN117171303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311201459.3A CN117171303A (zh) 2023-09-18 2023-09-18 一种基于自适应注意力融合的联合多模态方面级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311201459.3A CN117171303A (zh) 2023-09-18 2023-09-18 一种基于自适应注意力融合的联合多模态方面级情感分析方法

Publications (1)

Publication Number Publication Date
CN117171303A true CN117171303A (zh) 2023-12-05

Family

ID=88929662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311201459.3A Pending CN117171303A (zh) 2023-09-18 2023-09-18 一种基于自适应注意力融合的联合多模态方面级情感分析方法

Country Status (1)

Country Link
CN (1) CN117171303A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809150A (zh) * 2024-02-27 2024-04-02 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809150A (zh) * 2024-02-27 2024-04-02 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统
CN117809150B (zh) * 2024-02-27 2024-04-30 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN111026861A (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN109376775A (zh) 在线新闻多模态情感分析方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN117171303A (zh) 一种基于自适应注意力融合的联合多模态方面级情感分析方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN112163091A (zh) 基于cnn的方面级跨领域情感分析方法
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN114756681A (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
CN115099234A (zh) 一种基于图神经网络的中文多模态细粒度情感分析方法
Sharma et al. Memebusters at SemEval-2020 task 8: Feature fusion model for sentiment analysis on memes using transfer learning
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN117671460A (zh) 一种基于混合融合的跨模态图文情感分析方法
CN117370736A (zh) 一种细粒度情感识别方法、电子设备及存储介质
CN116975292A (zh) 信息识别方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination