CN115293170A - 一种基于协同注意力融合的方面级多模态情感分析方法 - Google Patents

一种基于协同注意力融合的方面级多模态情感分析方法 Download PDF

Info

Publication number
CN115293170A
CN115293170A CN202210965059.9A CN202210965059A CN115293170A CN 115293170 A CN115293170 A CN 115293170A CN 202210965059 A CN202210965059 A CN 202210965059A CN 115293170 A CN115293170 A CN 115293170A
Authority
CN
China
Prior art keywords
representation
text
local
context
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210965059.9A
Other languages
English (en)
Inventor
蔡国永
王顺杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210965059.9A priority Critical patent/CN115293170A/zh
Publication of CN115293170A publication Critical patent/CN115293170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于协同注意力的全局‑局部特征融合网络的方面级多模态情感分析方法,包括如下步骤:1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示;2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示;3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示;4)构建门控的多模态融合机制;5)得到情感极性预测结果。该方法在方面级多模态情感分析任务中性能得到提升,能够有效地捕获模态内的全局语义关联和模态间的局部语义对齐。

Description

一种基于协同注意力融合的方面级多模态情感分析方法
技术领域
本发明涉及多模态内容理解和数据分析技术领域,尤其是一种基于协同注意力融合的方面级多模态情感分析方法。
背景技术
方面层次(即实体依赖)的社交媒体帖子情感分析最近日益受到关注,给定一个句子和对应的图像以及一个目标实体,其目的是预测用户帖子中提到的目标实体上的情感倾向,方面级的情感分析能更精确地表达细粒度的情感。大多数现有的任务主要是针对句子或图像的整体来分析情感,而方面级情感分析不仅考虑句子或图像中隐含的情感信息还要考虑情感所依附的目标,因为不同的实体对应不同。因此,在一个统一的模型中如何构建观点目标和文本/视觉内容之间的对齐,去建模模态内的动态,发现模态之间的对齐融合,此问题仍然是一个挑战。
在现有的方面级多模态情感分析中,大都从全局特征的角度实现多模态特征融合,并没有考虑不同模态中局部细粒度特征的潜在关联。方面指向的不同模态的关键内容可能局限于局部,因此,文本中的每个词与图像中的每个局部区域之间细粒度的语义关联需要建模。由于注意力机制在各个领域上都有所应用,在本发明的多模态特征融合中,采用门控的协同注意力机制去学习文本引导图像上下文的局部语义对齐和图像引导文本上下文的局部语义对齐。此外,层次化地融合不同层次的多模态信息,从而实现全局-局部特征的多层深度融合用于方面级多模态情感分析。
发明内容
本发明针对方面级多模态情感分析存在的问题,提出了一种基于协同注意力融合的方面级多模态情感分析方法。这种方法可以更好地捕捉模态内部和模态之间的动态,以达到更好的方面级多模态情感分析效果。
实现本发明的的技术方案是:
一种基于协同注意力融合的方面级多模态情感分析方法,包括如下步骤:
1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示:采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列,再使用长短时记忆网络来学习文本嵌入序列的上下文依赖,以此来得到左文本上下文表示、右文本上下文表示以及方面表示,并对方面表示进行平均池化得到方面聚合表示;对于图像,采用ResNet网络得到图像的特征表示,并将其转换成图像局部表示;
2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示:利用方面聚合表示引导的注意力机制来分别引导步骤1)得到的左文本上下文表示、右文本上下文表示,然后使用低秩线性池化来将方面聚合表示分别和方面聚合表示引导的左、右文本上下文表示进行交互,并将交互后的结果拼接来得到方面引导的全局文本特征表示;利用方面聚合表示引导的注意力机制来引导步骤1)得到的图像局部表示来得到方面引导的全局图像特征表示;
3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示:通过多头自注意力来分别学习步骤1)得到的文本嵌入序列和图像局部表示,然后得到文本序列上下文特征和图像局部上下文特征,并使用文本引导的视觉上下文注意力机制得到文本引导的视觉上下文特征,然后通过门控机制将其和文本序列上下文特征融合来生成融入视觉的局部文本特征表示;同时,使用视觉引导的文本上下文注意力机制得到视觉引导的文本上下文特征,通过门控机制将其和图像局部上下文特征融合来生成融入文本的局部视觉特征表示;
4)构建门控的多模态融合机制:采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征表示,得到全局多模态融合表示;同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行融合,得到局部多模态融合表示;
5)得到情感极性预测结果:对步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到情感分类的极性。
所述步骤1)中的获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示包括如下步骤:
1.1)首先,采用预训练BERT模型或者者Glove词嵌入得到文本嵌入序列,再使用长短时记忆网络来学习文本嵌入序列的上下文依赖,以此来得到左文本上下文表示、右文本上下文表示以及方面表示,并对方面表示进行平均池化得到方面聚合表示;
1.2)对于图像,采用ResNet模型抽取图像特征得到图像的特征表示,并把图像分为不同的区域,得到图像局部表示以便于方面进行细粒度的引导图像局部特征。
所述步骤2)中的生成方面引导的全局文本特征表示和方面引导的全局图像特征表示包括如下步骤:
2.1)对于生成方面引导的全局文本特征表示:
①利用步骤1)中得到的左文本上下文表示与方面聚合表示的双线性交互关系,计算左文本上下文中每个隐状态的注意力权重,然后加权求和得到方面聚合表示引导的左文本上下文表示,采用同样的方法得到方面聚合表示引导的右文本上下文表示;
②采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文表示的交互,并将得到的特征拼接,得到方面引导的全局文本特征表示,低秩双线性池化能够关注特征的两两交互,能够实现方面和左右上下文的有效关注;
2.2)对于方面引导的全局图像特征表示,利用步骤1)中得到的图像局部表示与方面聚合表示的双线性交互关系,计算图像的每个区域的注意力权重,然后加权求和得到方面引导的全局图像特征表示。
所述步骤3)中的构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示包括如下步骤:
3.1)通过多头自注意力来分别学习步骤1)中得到的文本嵌入序列和图像局部表示;
3.2)设计文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐:
①融入视觉的局部文本特征表示;
首先将经过多头自注意力学习后的文本序列上下文特征中第j个词的向量和经过多头自注意力学习后的图像局部上下文特征中第i个区域向量,投影到c维公共空间,然后融合两者的特征,随后,将融合后的向量进行线性变换,依次计算文本序列上下文特征中的第j个词和其他图像局部上下文特征的注意力分数,通过softmax操作获得归一化的注意力分数,然后将注意力分数加权到每个图像局部特征区域并求和,从而得到第j个词引导的视觉上下文特征,由于不同的模态对情感贡献的程度不一样,因此,使用一个门控融合方式来聚合该词和该词引导的视觉上下文特征,以此来获得所有词引导的视觉上下文特征,将这些特征平均池化得到融入视觉的局部文本特征表示;
②融入文本的局部视觉特征表示:
首先将经过多头自注意力学习后的图像局部上下文特征中第i个区域向量和经过多头自注意力学习后的文本序列上下文特征中第j个词的向量,投影到c维公共空间,然后融合两者的特征,随后,将融合后的向量进行线性变换,依次计算图像局部上下文特征中的第i个视觉块和其他文本序列的注意力分数,通过softmax操作获得归一化的注意力分数,然后将注意力分数加权到每个文本序列并求和,从而得到第i个视觉块引导的文本上下文特征,由于不同的模态对情感贡献的程度不一样,因此,使用一个门控融合方式来聚合该视觉块和该视觉块引导的文本上下文特征,以此来获得所有视觉块引导的文本上下文特征,将这些特征平均池化得到融入文本的局部视觉特征表示。
所述步骤4)中的构建门控的多模态融合机制包括如下步骤:
4.1)采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征;
4.2)采用双线性池化操作来捕捉全局文本特征表示和过滤后的方面引导的全局图像特征之间的交互来得到全局多模态融合表示;
4.3)同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行非线性融合,得到局部多模态融合表示;
所述步骤5)中的得到方面词的情感极性预测结果:层次化地将步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到方面词对应的情感极性预测结果。
与现有技术相比,本技术方案的有益效果是:
1.本技术方案设计了两种文本编码方式,来得到文本的特征表示,并把文本以方面词为割点分成左右文本,分别与方面词进行交互,使得模型能充分捕获方面感知的文本语义信息;
2.本技术方案以不同的模态为中心设计了文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐,这样能增强不同模态的粒度响应,而且能学习到多模态的细粒度一致性语义信息;
3.本技术方案不仅从全局角度来挖掘方面与多模态的交互以及模态内部的语义依赖,还从局部的角度来挖掘更细粒度的多模态交互对齐,增强了特征表达,有助于提升模型在方面级多模态情感分析任务中的性能。
这种方法可以更好地捕捉模态内部和模态之间的动态,以达到更好的方面级多模态情感分析效果。
附图说明
图1为实施例的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的描述,但不是对本发明的限定。
实施例:
参照图1,基于协同注意力融合的方面级多模态情感分析方法,包括如下步骤:
1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示:
给定一组图文多模态数据集D,假定每一个样本d∈D都包含一个文本句子T=(t1,t2,...,tn)和一个关联图像O,同时存在一个方面序列
Figure BDA0003794539460000041
其中A为T的子序列,假设T中的所有方面A(即单词或短语)都已提供,任务输入使用(T,O)对及其方面A,目标是预测方面词A上的情感极性,然后,使用GLove+LSTM或者BERT作为句子编码器来提取的上下文隐状态表示,对于LSTM编码器,首先从查询矩阵E∈Re×|v|中获得句子T的嵌入序列,其中|v|是词嵌入矩阵的大小,e代表词嵌入的维度,然后,将句子中的嵌入序列输入到LSTM,产生隐状态向量,对于BERT编码器,本例将给定的文本和方面词转换为“[CLS]+句子+[SEP]”和“[CLS]+方面词+[SEP]”,每一个词都会被一个向量表示且向量的维度是768,然后将这些向量输入到后续的模块;
为了更好地提取图像O的高层语义特征,采用预训练的152-layer ResNet的卷积层来作为图像特征表示,其大小表示为s×m×m的张量,然后,图像特征表示被划分成m×m个大小相等的视觉区域块,且每个视觉区域块的特征维度大小为s,则图像局部表示R={rw|rw∈Rs,w=1,2....,m×m},其中,rw是每个视觉块的表征;
为了更好地将方面词和文本进行交互,本例将输入句子T分成三部分,即
Figure BDA0003794539460000051
Figure BDA0003794539460000052
Figure BDA0003794539460000053
分别表示左文本、右文本和方面主体,L、R、C分别是左文本、右文本、方面主体的输入长度,由于方面词的位置可以直观地反映上下文词相对于方面的重要性,为了标识方面词的位置,在方面词之前和之后添加两个指示符标记(即<a>和</a>),例如,以“NBA”作为查询,文本输入是”Cavaliers reach<a>NBA</a>EasternConference Finals with 100-99victory,sweeping Hawks.”本例使用标准的LSTM网络学习每个方面词的隐状态向量
Figure BDA0003794539460000054
Figure BDA0003794539460000055
其中
Figure BDA0003794539460000056
Θ表示LSTM中的所有参数,在得到所有方面词的隐状态
Figure BDA0003794539460000057
之后,使用这些隐状态的平均值作为方面聚合表示
Figure BDA0003794539460000058
同时利用两个独立的LSTM网络来得到左文本上下文表示和右文本上下文表示:
Figure BDA0003794539460000059
Figure BDA00037945394600000510
2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示:
2.1)方面引导的全局文本特征表示:
基于步骤1)中的隐状态特征表示,进一步采用注意力机制学习方面聚合表示引导下的左、右上下文表示的语义,一般给定不同的方面词作为查询,每个上下文词的重要性应该是不同的,因此,在方面聚合表示Ha作为输入的情况下,根据每个左文本上下文表示与Ha的双线性交互关系,计算左上下文中每个隐状态的注意力权重:
Figure BDA00037945394600000511
Figure BDA00037945394600000512
其中,
Figure BDA00037945394600000513
和bl∈R表示可训练的参数,方面聚合表示引导的左文本上下文表示Hl如下:
Figure BDA0003794539460000061
同样,可推导出方面聚合表示引导的右文本上下文表示Hr
虽然大多数的方法使用特征拼接来整合方面词信息和文本信息,但是简单的特征拼接会不可避免地忽略它们之间的高阶相互作用,因此,本例采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文的交互,本例方法关注特征的两两交互,能够实现方面和左右上下文的有效关注,方面聚合表示Ha分别与方面聚合表示引导的左文本上下文表示Hl、方面聚合表示引导的右文本上下文表示Hr的交互如下:
Figure BDA0003794539460000062
Figure BDA0003794539460000063
其中,Wl1,Wl2,Wr1,Wr2∈Rd×d,Ul,Ur∈Rd×d和bl,br∈Rd表示可训练的参数,σ是非线性变换函数tanh,
Figure BDA0003794539460000069
是逐元素乘法,为了避免文本信息丢失,将Hlt、Hrt与Hl、Hr结合起来作为方面引导的全局文本特征表示:
Figure BDA0003794539460000064
2.2)方面引导的全局图像特征表示:
多模态社交媒体帖子中的文本内容较短,有时甚至不完整,仅仅学习方面引导的全局文本特征可能仍不足以做出正确的情感预测,因此,进一步学习方面引导的全局图像特征表示以辅助方面引导的全局文本特征表示以提高模型的鲁棒性,通常,给定的方面只与图像的某些区域相关,因此,本例将视觉注意力机制应用于图像特征上来增强与方面词有关的视觉特征响应,并抑制无关干扰;
在方面聚合表示Ha作为输入的情况下,方面聚合表示引导的每个视觉区域的注意力权重计算如下:
Figure BDA0003794539460000065
Figure BDA0003794539460000066
其中,
Figure BDA0003794539460000067
p∈Rd和bv∈Rd为可学习参数,基于这些视觉注意力权重,可以得到方面引导的全局图像特征表示:
Figure BDA0003794539460000068
其中,rgv为s维的图像特征表示,为了与文本表示的维度一致,使用tanh函数将rgv变换成d维向量:
Gv=tanh(Wvrgv+bv),
其中,Wv∈Rd×s和bv∈Rd为可训练参数;
3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示:
参照例图1,设计了跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示,文本中的不同词以及图像中的不同区域在各自模态中的上下文依赖程度是不一样的,为了更好地建模不同模态的上下文语义依赖关系以及强调各自模态中不同局部区域的上下文依赖程度,本例使用多头自注意力机制分别学习文本嵌入序列和图像局部表示内部的语义依赖关系,传统注意力被定义为:
Figure BDA0003794539460000071
其中,Q表示查询,K表示键,V代表值,
Figure BDA0003794539460000072
被用来限制点积的值,多头注意力(Multi-Head Attention,简称MHA)旨在并行地执行多个注意力的功能,是对传统注意力机制的改进,采用的多头自注意力(MHSA)可以看作是一种特殊的MHA,在MHSA中,三个输入是一样的,即Q=K=V,因此,MHSA=MultiHead(X,X,X),其中,X代表MHSA网络的输入,通过使用MHSA机制,文本表示T可转换为文本序列上下文特征
Figure BDA0003794539460000073
其中Ht的计算如下:
Ht=MHSA(T)=MultiHead(T,T,T);
同理,将图像局部表示R通过多头自注意力之后的特征表示为图像局部上下文特征
Figure BDA0003794539460000074
其中HI的计算如下:
HI=MHSA(R)=MultiHead(R,R,R);
3.1)融入视觉的局部文本特征表示:
为了从每个词汇中学习最相关的视觉区域,首先将经过多头自注意力学习后的图像局部上下文特征HI和文本序列上下文特征Ht进行交互,依次来计算注意力分数,受到VQA上跨模态关联学习的启发,使用两个低秩投影矩阵将两个特征向量(即文本中第j个词的向量
Figure BDA0003794539460000075
和图像中第i个区域向量
Figure BDA0003794539460000076
分别来自Ht和HI)投影到一个c维公共空间,然后融合两者的特征:
Figure BDA0003794539460000077
其中,Wr∈Rd×c和Wt∈Re×c表示参数矩阵,随后,将融合后的向量xij进行线性变换,通过softmax操作获得归一化的注意力分数:
Figure BDA0003794539460000081
其中,W∈Rc和b∈R1分别表示权重参数和偏置参数,注意力分数可以用来关注对于词
Figure BDA0003794539460000082
不同视觉区域的注意强度,然后,单词
Figure BDA0003794539460000083
引导的视觉上下文特征Ij如下:
Figure BDA0003794539460000084
相比视觉区域
Figure BDA0003794539460000085
经过文本引导的视觉上下文的注意力机制,特征Ij更能反映与单词
Figure BDA0003794539460000086
相关的图像区域,由于不同的模态对情感贡献的程度不一样,因此,提出一个门控融合方式来聚合该词的表示
Figure BDA0003794539460000087
和该词引导的视觉上下文特征Ij
Figure BDA0003794539460000088
Figure BDA0003794539460000089
其中,Wf和bf表示权重矩阵和偏置参数,zj表示词
Figure BDA00037945394600000810
与该词引导的视觉上下文特征Ij的相关性程度,以此来获得所有词引导的视觉上下文特征
Figure BDA00037945394600000811
后,使用这些特征的均值作为融入视觉的局部文本特征表示HLT,如下所示:
Figure BDA00037945394600000812
3.2)融入文本的局部视觉特征表示:
以文本中不同词为中心来引导视觉上下文的注意力机制被设计用于学习文本中每个词最相关的视觉上下文信息并进行门控的关联对齐,同样地,进一步以图像中的不同视觉块为中心,设计视觉引导的文本上下文注意力机制,进一步学习以图像区域为中心的不同词的关联对齐,即学习每个视觉块引导的文本上下文特征,并利用门控机制将视觉块特征和该视觉块引导的不同关联程度的文本上下文特征进行融合,视觉引导的文本上下文注意力机制的转化过程与步骤3.1)类似,公式如下所示:
Figure BDA00037945394600000813
Figure BDA00037945394600000814
Figure BDA00037945394600000815
然后使用门控融合方式来聚合该视觉块的表示和该视觉块引导的文本上下文特征:
Figure BDA00037945394600000816
Figure BDA0003794539460000091
以此来获得所有视觉块引导的文本上下文特征
Figure BDA0003794539460000092
后,使用这些特征的均值作为融入文本的局部视觉特征表示HLV,如下所示:
Figure BDA0003794539460000093
4)构建门控的多模态融合机制:
尽管在步骤2)中学习到方面引导的全局文本特征表示和方面引导的全局图像特征表示,但全局图像特征可能与全局文本特征不太相关甚至是无关,此时,直接融合方面引导的图像特征和方面引导的文本特征往往会引入一些噪声,因此,为了更好地学习图像和文本之间的语义关联以及动态消除融入图像带来的噪声,本例提出门控的多模态融合模块,具体以方面引导的全局文本特征HGT为主导来过滤融合方面引导的全局图像特征rgv,如下所示:
c=σ(WHHGT+WRrgv+bz),
其中,WH∈Rd×4d,WR∈Rd×s,和b∈Rd为可学习参数,σ为sigmoid激活函数,根据门控的输出c,可以生成过滤后的方面引导的全局图像特征Hvisual,如下所示:
Figure BDA0003794539460000096
将方面引导的全局文本特征和过滤后的方面引导的全局图像特征采用双线性池化操作来捕捉多模态全局特征之间的交互,得到全局多模态融合表示HGM,如下所示:
Figure BDA0003794539460000094
其中,WT∈R4d×d,WV∈Rd×d,Pg∈Rd×d,bg∈Rd为可学习参数,σ为非线性变换函数tanh;
另外,由于步骤3)的输出均为细粒度的多模态融合表示,文本和图像均以各自模态为主来关联对应的模态,则为了更加丰富细粒度的语义内容,进一步融合融入视觉的局部文本特征表示HLT和融入文本的局部视觉特征表示HLV得到局部多模态融合表示HLM,如下所示:
HLM=tanh(Wc[HLT;HLV]+bc),
其中Wc∈R2d和bc∈Rd为可训练参数;
5)得到情感极性预测结果:
为了从全局-局部的多层次角度融合多模态特征,进一步融合方面引导的全局文本特征表示HGT和方面引导的全局图像特征表示Hvisual、全局多模态融合表示HGM和局部多模态融合表示HLM,生成层次化融合的多模态情感语义表征,如下所示:
Figure BDA0003794539460000095
随后,将多模态表征H输入到的softmax函数中用于情感极性的分类,如下所示:
p(y|H)=softmax(WTH+b),
其中,W∈R7d×3和b∈R3是可训练的参数;
为了优化模型的所有参数,以最小化标准交叉熵函数作为目标函数,如下所示:
Figure BDA0003794539460000101
为了更好地对本例加以理解,本实施例选用两个公开的多模态数据集,情感极性分为积极,消极和中性,这两个数据集的情感极性分布如表1所示:
表1.多模态Twitter数据集的统计信息
Figure BDA0003794539460000102
,为了验证本实施例方法的有效性,选择一下基线模型作为对比模型,在对比模型中,只有TomBERT使用BERT预训练模型来得到文本向量表示,其他都是使用Glove预训练词嵌入矩阵。并将准确率(Acc)和Macro-F1值作为实验的评价指标用于对比分析,对比结果如表2所示:
表2.GLFFCA和基线模型的性能
Figure BDA0003794539460000103
Figure BDA0003794539460000111
本例方法以及对比方法的实验结果如表2所示。由表2可知,对于使用Glove预训练词嵌入矩阵来得到向量表示的模型而言,本例提出的GLFFCA模型取得最好的性能,不仅能够捕获方面引导的全局多模态信息还能充分挖掘局部细粒度的多模态对齐和交互信息。另外,从表2中可发现Res-Aspect的性能相当有限,获得大约60%的准确率,这表明文本内容对于方面级情感分类是非常重要的,不应该忽略。其次,从表2中可以看出,Res-RAM、Res-MGAN优于仅使用文本数据的RAM、MGAN,并且优于表中使用文本数据的MemNet模型,这意味着关联图像确实能够对文本提供互补信息。此外,Res-RAM、Res-MGAN和Res-RAM-TFN、Res-MGAN-TFN这四个模型的区别是TFN融合模块,然而使用TFN融合方法的性能却出现下降,这说明基于TFN的融合并不适合细粒度的方面级多模态情感分类。另外,MINI总体上优于大多数基线方法,这表明将方面引导的文本和方面引导视觉的进行交互是有效的,但是由于MINI模型主要基于一个相对较弱的MemNet模型,所以它的性能仍然略差于Res-ESTR。ESAFN模型优于其他的对比方法,但仍次于本例提出的GLFFCA模型,这更加说明本例提出的GLFFCA网络对方面级多模态情感分类是有用的且合理的。
对于使用BERT预训练模型来得到向量表示而言,GLFFCA+BERT模型的性能要好于TomBert模型,其中,TomBert模型通过堆叠的BERT架构来对方面和图像进行对齐和捕捉模态内的动态和模态间的交互。然而TomBert仅从局部来考虑多模态的交互对齐,而GLFFCA+BERT不仅从局部的细粒度上来将多模态内容进行交互,还从全局的角度考虑了多模态的交互,这也说明了GLFFCA+BERT从全局和局部学习多模态交互的优势。另外,如表2所示,基于BERT的预训练的GLFFCA+BERT要比基于GLove的GLFFCA好,这更加说明了基于大规模预训练的模型获得词的表示更具优势。总的来说,本例提出的方法对方面级多模态情感分类是有用的且合理的。
为了评估提出方法中不同模块的有效性,本例分别从多模态全局关联,多模态局部关联以及特征融合的角度来对模型做消融研究。在Twitter-2015和Twitter-2017这两个数据集上做消融实验,且保证所有的训练参数都一样,并选择准确率和Macro-F1作为评价指标,消融实验的实验结果如表3所示。
对比方法如下所示:
①GFF:删除GLFFCA中的跨模态特征交互机制,仅保留方面引导的全局文本特征和方面引导的全局图像特征提取的特征用于情感分析。
②GLFF-tgvca:在GLFFCA中的跨模态特征交互机制中,保留融入视觉的局部文本特征表示,舍弃融入文本的局部视觉特征表示。
③GLFF-vgtca:在GLFFCA中的跨模态特征交互机制中,保留融入文本的局部视觉特征表示,舍弃融入视觉的局部文本特征表示。
④GLFFCA-no-sg:在GLFFCA 中的跨模态特征交互机制中,不使用门机制融合细粒度的多模态特征,而是在特征序列上直接融合。
⑤GLFFCA-no-fg:在GLFFCA中的门控的多模态融合机制中,不进行门控融合直接将各个层次的多模态信息进行拼接后用于情感分类。
表3.在Twitter-2015和Twitter-2017上的消融实验
Figure BDA0003794539460000121
,表3展示了提出的模型消融实验的结果。首先为了证明跨模态特征交互机制的有效性,本例去掉GLFFCA中的跨模态特征交互机制。如表3所示,GFF在两个Twitter数据集上的准确率分别达到72.03%和66.29%,而提出的GLFFCA方法准确率达到74.07%和68.14%,这表明在全局特征学习的基础上增加局部语义对齐特征能辅助全局特征的学习,从而提高多模态情感分析的准确率。另外,为了证明在跨模态特征交互机制中不同注意力机制的有效性,本例依次地分析这些注意力机制的贡献度。具体而言,当在跨模态特征交互机制中仅采用文本引导的视觉上下文注意力时,GLFF-tgvca在两个Twitter数据集上的识别准确率分别下降了1.17%和1.28%。而当仅采用视觉引导的文本上下文注意力时,GLFF-vgtca在两个Twitter数据集上的分类准确率分别下降了0.3%和1.28%。这表明文本引导的视觉上下文注意力机制和视觉引导的文本上下文注意力机制在跨模态对齐中的设计都是合理且有效的,且文本和图像的多重交互对齐能挖掘更丰富的跨模态的局部细节信息。更重要的是,文本引导的视觉上下文注意力机制比视觉引导的文本上下文注意力机制更有效,这表明在社交媒体数据集中,文本的语义相比图像的信息更丰富,且图像数据中的噪音相比文本数据更大。此外,在跨模态特征交互机制中,本例还设计了门机制用于跨模态对齐后的局部特征融合,由表3可发现GLFFCA-no-sg的性能在两个Twitter数据集上相比GLFFCA在分类准确率上分别下降了2.04%和1.86%,这说明跨模态对齐融合中的门机制是有效性,这是由于通常不同模态的数据对情感语义的贡献程度是不一样的。最后,本例还设计了门控的多模态融合机制,如表3所示,不使用门机制的GLFFCA-no-fg在Twitter-2017数据集上的分类效果相比GLFFCA下降了1.53%,而在Twitter-2015数据集上的分类效果相比GLFFCA下降了0.78%,这说明在某些情况下,图像中的一些特征可能与文本语境不太相关,直接地特征融合可能会引入噪声。综上所述,本例提出的GLFFCA方面级多模态情感分析的方法GLFFCA,基于方面主体同时挖掘文本和对应图像的全局关联,并构建跨模态特征交互机制来挖掘文本和对应图像的局部语义关联,以弥补全局文本特征和全局图像特征中细粒度信息的缺失,并实现文本和图像之间更细粒度的多重交互对齐。然后,根据不同层次的多模态特征的特点,设计门控融合方式以实现不同层次的多模态特征的深度融合。最后,通过在Twitter-2015和Twitter-2017数据集上与其他方法的对比实验表明本例方法的有效性,提高了方面级多模态情感分析的效果。

Claims (6)

1.一种基于协同注意力融合的方面级多模态情感分析方法,其特征在于,包括如下步骤:
1)获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示:采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列,再使用长短时记忆网络来学习文本嵌入序列的上下文依赖,以此来得到左文本上下文表示、右文本上下文表示以及方面表示,并对方面表示进行平均池化得到方面聚合表示;对于图像,采用ResNet网络得到图像的特征表示,并将其转换成图像局部表示;
2)生成方面引导的全局文本特征表示和方面引导的全局图像特征表示:利用方面聚合表示引导的注意力机制来分别引导步骤1)得到的左文本上下文表示、右文本上下文表示,然后使用低秩线性池化来将方面聚合表示分别和方面聚合表示引导的左、右文本上下文表示进行交互,并将交互后的结果拼接来得到方面引导的全局文本特征表示;利用方面聚合表示引导的注意力机制来引导步骤1)得到的图像局部表示来得到方面引导的全局图像特征表示;
3)构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示:通过多头自注意力来分别学习步骤1)得到的文本嵌入序列和图像局部表示,然后得到文本序列上下文特征和图像局部上下文特征,并使用文本引导的视觉上下文注意力机制得到文本引导的视觉上下文特征,然后通过门控机制将其和文本序列上下文特征融合来生成融入视觉的局部文本特征表示;同时,使用视觉引导的文本上下文注意力机制得到视觉引导的文本上下文特征,通过门控机制将其和图像局部上下文特征融合来生成融入文本的局部视觉特征表示;
4)构建门控的多模态融合机制:采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征表示,得到全局多模态融合表示;同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行融合,得到局部多模态融合表示;
5)得到情感极性预测结果:对步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到情感分类的极性。
2.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法,其特征在于,所述步骤1)中的获得左文本上下文表示、右文本上下文表示、方面聚合表示以及图像局部表示包括如下步骤:
1.1)首先,采用预训练BERT模型或者Glove词嵌入得到文本嵌入序列,再使用长短时记忆网络来学习文本嵌入序列的上下文依赖,以此来得到左文本上下文表示、右文本上下文表示以及方面表示,并对方面表示进行平均池化得到方面聚合表示;
1.2)对于图像,采用ResNet模型抽取图像特征得到图像的特征表示,并把图像分为不同的区域,得到图像局部表示以便于方面进行细粒度的引导图像局部特征。
3.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法,其特征在于,所述步骤2)中的生成方面引导的全局文本特征表示和方面引导的全局图像特征表示包括如下步骤:
2.1)对于生成方面引导的全局文本特征表示:
①利用步骤1)中得到的左文本上下文表示与方面聚合表示的双线性交互关系,计算左文本上下文中每个隐状态的注意力权重,然后加权求和得到方面聚合表示引导的左文本上下文表示,采用同样的方法得到方面聚合表示引导的右文本上下文表示;
② 采用低秩双线性池化来分别学习方面聚合表示与方面聚合表示引导的左、右文本上下文表示的交互,并将得到的特征拼接,得到方面引导的全局文本特征表示,低秩双线性池化能够关注特征的两两交互,能够实现方面和左右上下文的有效关注;
2.2)对于方面引导的全局图像特征表示,利用步骤1)中得到的图像局部表示与方面聚合表示的双线性交互关系,计算图像的每个区域的注意力权重,然后加权求和得到方面引导的全局图像特征表示。
4.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法,其特征在于,所述步骤3)中的构建跨模态特征交互机制来同时生成融入视觉的局部文本特征表示和融入文本的局部视觉特征表示包括如下步骤:
3.1)通过多头自注意力来分别学习步骤1)中得到的文本嵌入序列和图像局部表示;
3.2)设计文本引导的视觉上下文注意力和视觉引导的文本上下文注意力来各自建模跨模态的语义关联对齐:
①融入视觉的局部文本特征表示;
首先将经过多头自注意力学习后的文本序列上下文特征中第j个词的向量和经过多头自注意力学习后的图像局部上下文特征中第i个区域向量,投影到c维公共空间,然后融合两者的特征,随后,将融合后的向量进行线性变换,依次计算文本序列上下文特征中的第j个词和其他图像局部上下文特征的注意力分数,通过softmax操作获得归一化的注意力分数,然后将注意力分数加权到每个图像局部特征区域并求和,从而得到第j个词引导的视觉上下文特征,由于不同的模态对情感贡献的程度不一样,因此,使用一个门控融合方式来聚合该词和该词引导的视觉上下文特征,以此来获得所有词引导的视觉上下文特征,将这些特征平均池化得到融入视觉的局部文本特征表示;
②融入文本的局部视觉特征表示:
首先将经过多头自注意力学习后的图像局部上下文特征中第i个区域向量和经过多头自注意力学习后的文本序列上下文特征中第j个词的向量,投影到c维公共空间,然后融合两者的特征,随后,将融合后的向量进行线性变换,依次计算图像局部上下文特征中的第i个视觉块和其他文本序列的注意力分数,通过softmax操作获得归一化的注意力分数,然后将注意力分数加权到每个文本序列并求和,从而得到第i个视觉块引导的文本上下文特征,由于不同的模态对情感贡献的程度不一样,因此,使用一个门控融合方式来聚合该视觉块和该视觉块引导的文本上下文特征,以此来获得所有视觉块引导的文本上下文特征,将这些特征平均池化得到融入文本的局部视觉特征表示。
5.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法,其特征在于,所述步骤4)中的构建门控的多模态融合机制包括如下步骤:
4.1)采用门控机制将步骤2)得到的方面引导的全局文本特征表示来过滤融合步骤2)得到的方面引导的全局图像特征;
4.2)采用双线性池化操作来捕捉全局文本特征表示和过滤后的方面引导的全局图像特征之间的交互来得到全局多模态融合表示;
4.3)同时又将步骤3)得到的融入视觉的局部文本特征表示和融入文本的局部视觉特征表示进行非线性融合,得到局部多模态融合表示。
6.根据权利要求1所述的基于协同注意力融合的方面级多模态情感分析方法,其特征在于,所述步骤5)中的得到方面词的情感极性预测结果:层次化地将步骤2)得到的全局文本特征表示、全局图像特征表示和步骤4)得到的全局多模态融合表示以及局部多模态融合表示拼接后输入到softmax函数得到方面词对应的情感极性预测结果。
CN202210965059.9A 2022-08-12 2022-08-12 一种基于协同注意力融合的方面级多模态情感分析方法 Pending CN115293170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210965059.9A CN115293170A (zh) 2022-08-12 2022-08-12 一种基于协同注意力融合的方面级多模态情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210965059.9A CN115293170A (zh) 2022-08-12 2022-08-12 一种基于协同注意力融合的方面级多模态情感分析方法

Publications (1)

Publication Number Publication Date
CN115293170A true CN115293170A (zh) 2022-11-04

Family

ID=83827458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210965059.9A Pending CN115293170A (zh) 2022-08-12 2022-08-12 一种基于协同注意力融合的方面级多模态情感分析方法

Country Status (1)

Country Link
CN (1) CN115293170A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089619A (zh) * 2023-04-06 2023-05-09 华南师范大学 情感分类方法、装置、设备以及存储介质
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116258652A (zh) * 2023-05-11 2023-06-13 四川大学 基于结构注意和文本感知的文本图像修复模型及方法
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统
CN118155037A (zh) * 2024-05-09 2024-06-07 汕头大学医学院 一种基于注意力机制的多模态特征融合方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089619A (zh) * 2023-04-06 2023-05-09 华南师范大学 情感分类方法、装置、设备以及存储介质
CN116089619B (zh) * 2023-04-06 2023-06-06 华南师范大学 情感分类方法、装置、设备以及存储介质
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116108186B (zh) * 2023-04-13 2023-06-20 南开大学 一种多模态方面级情感分析方法
CN116258652A (zh) * 2023-05-11 2023-06-13 四川大学 基于结构注意和文本感知的文本图像修复模型及方法
CN116258652B (zh) * 2023-05-11 2023-07-21 四川大学 基于结构注意和文本感知的文本图像修复模型及方法
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN116561592B (zh) * 2023-07-11 2023-09-29 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统
CN117388893B (zh) * 2023-12-11 2024-03-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统
CN118155037A (zh) * 2024-05-09 2024-06-07 汕头大学医学院 一种基于注意力机制的多模态特征融合方法及系统
CN118155037B (zh) * 2024-05-09 2024-07-30 汕头大学医学院 一种基于注意力机制的多模态特征融合方法及系统

Similar Documents

Publication Publication Date Title
CN115293170A (zh) 一种基于协同注意力融合的方面级多模态情感分析方法
Yang et al. Video captioning by adversarial LSTM
Zhang et al. Multimodal intelligence: Representation learning, information fusion, and applications
Zhu et al. Multimodal sentiment analysis based on fusion methods: A survey
Liu et al. Learning a recurrent residual fusion network for multimodal matching
Arevalo et al. Gated multimodal networks
Tang et al. Graph-based multimodal sequential embedding for sign language translation
Beinborn et al. Multimodal grounding for language processing
CN113486669B (zh) 应急救援输入语音的语义识别方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN115577161A (zh) 融合情感资源的多模态情感分析模型
Phan et al. Consensus-based sequence training for video captioning
CN115455970A (zh) 一种多模态语义协同交互的图文联合命名实体识别方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
Guo et al. Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling
CN118296150B (zh) 一种基于多对抗网络改进的评论情感识别方法
CN114330334A (zh) 一种基于知识图谱和跨模态注意力的多模态反讽检测方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
Chaudhary et al. Signnet ii: A transformer-based two-way sign language translation model
CN117762499A (zh) 任务指令构建方法和任务处理方法
Gouthaman et al. Linguistically-aware attention for reducing the semantic gap in vision-language tasks
Jiang et al. LiVLR: A lightweight visual-linguistic reasoning framework for video question answering
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN117633674A (zh) 一种基于因果门控注意力机制的多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination