CN113158875B - 基于多模态交互融合网络的图文情感分析方法及系统 - Google Patents
基于多模态交互融合网络的图文情感分析方法及系统 Download PDFInfo
- Publication number
- CN113158875B CN113158875B CN202110412323.1A CN202110412323A CN113158875B CN 113158875 B CN113158875 B CN 113158875B CN 202110412323 A CN202110412323 A CN 202110412323A CN 113158875 B CN113158875 B CN 113158875B
- Authority
- CN
- China
- Prior art keywords
- features
- text
- visual
- representing
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多模态交互融合网络的图文情感分析方法及系统,属于人工智能领域,包括对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
Description
技术领域
本发明属于人工智能领域,涉及一种基于多模态交互融合网络的图文情感分析方法及系统。
背景技术
随着互联网技术的快速发展,互联网中的信息逐渐从单模态向多模态转变,包含图像、文本和语言的多模态信息比例不断增加,导致现有的情感分析方法面临着新的挑战和机遇。事实上,在多模态信息中,不同模态之间存在相关性,对这些相关性的挖掘,有助于提高情感判别能力。虽然目前多模态情感分析取得了不错的进展,但是与单模态情感分析相比,还是有不小差距。
图文情感分析是指通过对图像、文本两种模态数据分析、融合并推理出情感倾向的过程,与文本情感分析、图像情感分析以及多模态特征融合等技术息息相关。目前,已有大量国内外研究人员提出了一系列图文情感分析方法,可大致分为基于前期融合的方法、基于中期融合的方法和基于后期融合的方法。基于前期融合的方法将不同模态信息集成到一个表示中,以判别情感倾向;基于中期融合的方法采用深度学习模型融合不同模态特征;基于后期融合的方法则通过不同模态数据的情感决策计算情感倾向。虽然以上方法通过深度学习技术和不同的特征融合策略取得了不错的情感分析性能,但对不同模态特征之间的相关性研究仍显得不够充分。
此外,由于自然语言的复杂性和多义性、情感的长期依赖性以及不同模态数据之间的异构性,使得准确地判别情感变得极其复杂。因此,现存的图文情感分析模型仍面临着许多困难和挑战,主要体现在对不同模态之间特征的一致性、互补性和差异性的建模问题。现有图文情感分析技术仍存在诸多不足,对不同模态特征,未充分探讨不同模态之间的互补性、一致性和差异性,使得特征出现噪音、信息冗余或信息缺失,从而影响情感分析性能。
随着计算机设备的不断优化和深度学习的持续发展,大量相关技术(如词嵌入和注意力机制等)和神经网络模型(如卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)等)已被研究学者成功应用到情感分析任务中。不同于传统情感分析方法,基于深度学习的情感分析方法解决了基于手工特征的方法对专家知识的限制问题,以及基于浅层学习的方法对复杂函数的表达能力和对复杂任务的处理能力有限的问题,并能提高文本处理效率,降低分析成本。因此,基于深度学习的情感分析技术受到人们广泛关注。
发明内容
有鉴于此,本发明的目的在于提供一种具有高效率、高精度情感分析能力的图文情感分析模型。
为达到上述目的,本发明提供如下技术方案:
一方面,本发明提供一种基于多模态交互融合网络的图文情感分析方法,包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
进一步,步骤一中所述的对图文进行预处理,具体包括以下步骤:
对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示;输入的长度限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本,每个文本表示如下:
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数;将所有图像转换为大小为224×224,通道为RGB的图像。
进一步,步骤二中所述的文本特征提取模块,是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构,以提取不同尺度的高层文本特征和原始文本特征,并使用多头注意力机制突出全局特征中的情感相关特征;所述的视觉特征提取模块,是使用 101层的残差网络,即ResNet101模型提取视觉特征,并采用全局池化策略和全连接层映射得到视觉特征。
进一步,步骤二中构建所述文本特征提取模块具体包括以下步骤:
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息,计算公式如下:
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,表示如下:
接着将所有特征融合:
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数;
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
进一步,步骤二中构建所述视觉特征提取模块具体包括以下步骤:
对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式;
接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
进一步,步骤三中所述的设计面向图文的多模态交互融合网络,具体包括以下步骤:
对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X,
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重,[,]代表串联操作。
进一步,所述步骤四中,通过多模态交互融合网络获得交互后的图文特征后,使用带有一个隐含层的多层感知机计算情感倾向概率分布,具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
其中,n代表类别数。
另一方面,本发明提供一种基于多模态交互融合网络的图文情感分析系统,包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块;
所述数据预处理模块通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息,再使用 Top-K池化策略对特征进行筛选;
所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
本发明的有益效果在于:本发明能够提取信息表征丰富的文本特征,通过预训练的深度卷积神经网络提取视觉特征,增强了特征表达,使用多个多模态交互融合网络建模多粒度相关性,从而更准确地分析图文所表达的情感。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于多模态交互融合网络的图文情感分析方法流程图;
图2为本发明所述基于多模态交互融合网络的图文情感分析系统模型图;
图3为多模态交互融合模块结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于多模态交互融合网络的图文情感分析方法,包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示。具体来说,为了使不同的文本适合模型输入,输入的长度被限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本。因此,每个文本都可以表示如下:
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数。
对于输入的图文对,将输入图像预处理为大小为224×224,通道为RGB的图像。
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息。计算公式如下:
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,可表示如下:
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数。
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
在图文对中,图像与情感也息息相关。通过提取视觉特征,并建立视觉特征与文本特征之间的联系,可以更有效地判别图文对的情感倾向。对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式,例如图像宽度、高度和通道数。接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;
为建模视觉特征和文本特征之间的相关性,有效地挖掘两种模态特征之间的内在联系,设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合,并提取文本特征和视觉特征之间的互补性、一致性和差异性,以丰富图文特征表达,提高模型的情感分析性能。
对于文本特征T和视觉特征P,通过多模态交互融合模块获取交互后的图文特征X。具体来说,首先通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置
通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程,接着将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
然后可以得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
然后,将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
然后,将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息。
AT=softmax(e'T)
AP=softmax(e'P)
其次,根据以上信息可以建模特征之间的互补性和一致性,并得到有效特征和互补特征。那么,输出空间中交互后的特征可以表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征。
最后,通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置。
根据输出门和输出空间中的特征,可以得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征。
最后,融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重。
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
在上述部分,通过多模态交互融合模块获得了交互后的图文特征,然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
其中,n代表类别数。
图2为本发明的系统模型图,下面结合附图进行说明,包括以下几个模块:
模块一:通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
模块二:使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
模块三:利用全局注意力模块突出全局特征中的重要信息,最后使用Top-K池化策略对特征进行筛选;
模块四:通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
可选的,模块一具体包括:
数据预处理模块。将输入图像预处理为大小为224×224,通道为RGB的图像。对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示。具体来说,为了使不同的文本适合模型输入,输入的长度被限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本。因此,每个文本都可以表示如下:
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数。
可选的,模块二具体包括:
文本特征提取模块和视觉特征提取模块。对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM 中学习上下文信息。计算公式如下:
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,可表示如下:
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数。
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
在图文对中,图像与情感也息息相关。通过提取视觉特征,并建立视觉特征与文本特征之间的联系,可以更有效地判别图文对的情感倾向。对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式,例如图像宽度、高度和通道数。接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
可选的,模块三具体包括:
多模态交互融合模块。如图3所示,为建模视觉特征和文本特征之间的相关性,有效地挖掘两种模态特征之间的内在联系,设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合,并提取文本特征和视觉特征之间的互补性、一致性和差异性,以丰富图文特征表达,提高模型的情感分析性能。
对于文本特征T和视觉特征P,通过多模态交互融合模块获取交互后的图文特征X。具体来说,首先通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置。
通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程,接着将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
然后可以得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
然后,将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
然后,将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息。
AT=softmax(e'T)
AP=softmax(e'P)
其次,根据以上信息可以建模特征之间的互补性和一致性,并得到有效特征和互补特征。那么,输出空间中交互后的特征可以表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征。
最后,通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置。
根据输出门和输出空间中的特征,可以得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征。
最后,融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重。
可选的,模块四具体包括:
情感分析模块。通过多模态交互融合模块获得了交互后的图文特征,然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
其中,n代表类别数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于多模态交互融合网络的图文情感分析方法,其特征在于:包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;所述设计面向图文的多模态交互融合网络,具体包括以下步骤:
对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X;
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征;
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性;
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重,[,]代表串联操作;
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
3.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中所述的文本特征提取模块,是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构,以提取不同尺度的高层文本特征和原始文本特征,并使用多头注意力机制突出全局特征中的情感相关特征;所述的视觉特征提取模块,是使用101层的残差网络,即ResNet101模型提取视觉特征,并采用全局池化策略和全连接层映射得到视觉特征。
4.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述文本特征提取模块具体包括以下步骤:
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息,计算公式如下:
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,表示如下:
接着将所有特征融合:
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数;
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
5.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述视觉特征提取模块具体包括以下步骤:
对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式;
接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数,GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
6.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:所述步骤四中,通过多模态交互融合网络获得交互后的图文特征后,使用带有一个隐含层的多层感知机计算情感倾向概率分布,具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
8.一种基于多模态交互融合网络的图文情感分析系统,其特征在于:包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块;
所述数据预处理模块通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息,再使用Top-K池化策略对特征进行筛选,具体包括:
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征;
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性;
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重,[,]代表串联操作;
所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412323.1A CN113158875B (zh) | 2021-04-16 | 2021-04-16 | 基于多模态交互融合网络的图文情感分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412323.1A CN113158875B (zh) | 2021-04-16 | 2021-04-16 | 基于多模态交互融合网络的图文情感分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158875A CN113158875A (zh) | 2021-07-23 |
CN113158875B true CN113158875B (zh) | 2022-07-01 |
Family
ID=76868462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110412323.1A Active CN113158875B (zh) | 2021-04-16 | 2021-04-16 | 基于多模态交互融合网络的图文情感分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158875B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326703B (zh) * | 2021-08-03 | 2021-11-16 | 国网电子商务有限公司 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
CN113627550A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种基于多模态融合的图文情感分析方法 |
CN113822340A (zh) * | 2021-08-27 | 2021-12-21 | 北京工业大学 | 一种基于注意力机制的图文情感识别方法 |
CN113806564B (zh) * | 2021-09-22 | 2024-05-10 | 齐鲁工业大学 | 多模态信息性推文检测方法及系统 |
CN114283127B (zh) * | 2021-12-14 | 2024-04-23 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN113961710B (zh) * | 2021-12-21 | 2022-03-08 | 北京邮电大学 | 基于多模态分层融合网络的细粒度化论文分类方法及装置 |
CN114445442B (zh) * | 2022-01-28 | 2022-12-02 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114638994B (zh) * | 2022-05-18 | 2022-08-19 | 山东建筑大学 | 基于注意力的多交互网络的多模态图像分类系统及方法 |
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115797655B (zh) * | 2022-12-13 | 2023-11-07 | 南京恩博科技有限公司 | 一种人物交互检测模型、方法、系统及装置 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390017A (zh) * | 2019-07-25 | 2019-10-29 | 中国民航大学 | 基于注意力门控卷积网络的目标情感分析方法及系统 |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
WO2021036715A1 (zh) * | 2019-08-23 | 2021-03-04 | 华为技术有限公司 | 一种图文融合方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012167568A1 (zh) * | 2011-11-23 | 2012-12-13 | 华为技术有限公司 | 视频广告播放方法、设备和系统 |
-
2021
- 2021-04-16 CN CN202110412323.1A patent/CN113158875B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390017A (zh) * | 2019-07-25 | 2019-10-29 | 中国民航大学 | 基于注意力门控卷积网络的目标情感分析方法及系统 |
WO2021036715A1 (zh) * | 2019-08-23 | 2021-03-04 | 华为技术有限公司 | 一种图文融合方法、装置及电子设备 |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
Non-Patent Citations (2)
Title |
---|
A Face Emotion Recognition Method Using Convolutional Neural Network and Image Edge Computing;Hongli Zhang;《IEEEXPlore》;20191028;全文 * |
基于卷积注意力机制的情感分类方法;顾军华等;《计算机工程与设计》;20200116(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158875A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158875B (zh) | 基于多模态交互融合网络的图文情感分析方法及系统 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN109597891B (zh) | 基于双向长短时记忆神经网络的文本情感分析方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN107679491A (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
CN111444960A (zh) | 基于多模态数据输入的皮肤病图像分类系统 | |
CN112613303A (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN111753704B (zh) | 一种基于视频人物唇读识别的时序集中预测方法 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN113535904B (zh) | 一种基于图神经网络的方面级情感分析方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN110490189A (zh) | 一种基于双向消息链路卷积网络的显著性物体的检测方法 | |
CN114386515A (zh) | 基于Transformer算法的单模态标签生成和多模态情感判别方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115731596A (zh) | 基于渐进式标签分布和深度网络的自发表情识别方法 | |
CN114169408A (zh) | 一种基于多模态注意力机制的情感分类方法 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN112883167A (zh) | 基于层次化自制力机制胶囊网络的文本情感分类模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |