CN113158875A - 基于多模态交互融合网络的图文情感分析方法及系统 - Google Patents

基于多模态交互融合网络的图文情感分析方法及系统 Download PDF

Info

Publication number
CN113158875A
CN113158875A CN202110412323.1A CN202110412323A CN113158875A CN 113158875 A CN113158875 A CN 113158875A CN 202110412323 A CN202110412323 A CN 202110412323A CN 113158875 A CN113158875 A CN 113158875A
Authority
CN
China
Prior art keywords
features
text
visual
representing
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110412323.1A
Other languages
English (en)
Other versions
CN113158875B (zh
Inventor
甘臣权
冯庆东
付祥
张祖凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110412323.1A priority Critical patent/CN113158875B/zh
Publication of CN113158875A publication Critical patent/CN113158875A/zh
Application granted granted Critical
Publication of CN113158875B publication Critical patent/CN113158875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态交互融合网络的图文情感分析方法及系统,属于人工智能领域,包括对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。

Description

基于多模态交互融合网络的图文情感分析方法及系统
技术领域
本发明属于人工智能领域,涉及一种基于多模态交互融合网络的图文情感分析方法及系统。
背景技术
随着互联网技术的快速发展,互联网中的信息逐渐从单模态向多模态转变,包含图像、文本和语言的多模态信息比例不断增加,导致现有的情感分析方法面临着新的挑战和机遇。事实上,在多模态信息中,不同模态之间存在相关性,对这些相关性的挖掘,有助于提高情感判别能力。虽然目前多模态情感分析取得了不错的进展,但是与单模态情感分析相比,还是有不小差距。
图文情感分析是指通过对图像、文本两种模态数据分析、融合并推理出情感倾向的过程,与文本情感分析、图像情感分析以及多模态特征融合等技术息息相关。目前,已有大量国内外研究人员提出了一系列图文情感分析方法,可大致分为基于前期融合的方法、基于中期融合的方法和基于后期融合的方法。基于前期融合的方法将不同模态信息集成到一个表示中,以判别情感倾向;基于中期融合的方法采用深度学习模型融合不同模态特征;基于后期融合的方法则通过不同模态数据的情感决策计算情感倾向。虽然以上方法通过深度学习技术和不同的特征融合策略取得了不错的情感分析性能,但对不同模态特征之间的相关性研究仍显得不够充分。
此外,由于自然语言的复杂性和多义性、情感的长期依赖性以及不同模态数据之间的异构性,使得准确地判别情感变得极其复杂。因此,现存的图文情感分析模型仍面临着许多困难和挑战,主要体现在对不同模态之间特征的一致性、互补性和差异性的建模问题。现有图文情感分析技术仍存在诸多不足,对不同模态特征,未充分探讨不同模态之间的互补性、一致性和差异性,使得特征出现噪音、信息冗余或信息缺失,从而影响情感分析性能。
随着计算机设备的不断优化和深度学习的持续发展,大量相关技术(如词嵌入和注意力机制等)和神经网络模型(如卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)等)已被研究学者成功应用到情感分析任务中。不同于传统情感分析方法,基于深度学习的情感分析方法解决了基于手工特征的方法对专家知识的限制问题,以及基于浅层学习的方法对复杂函数的表达能力和对复杂任务的处理能力有限的问题,并能提高文本处理效率,降低分析成本。因此,基于深度学习的情感分析技术受到人们广泛关注。
发明内容
有鉴于此,本发明的目的在于提供一种具有高效率、高精度情感分析能力的图文情感分析模型。
为达到上述目的,本发明提供如下技术方案:
一方面,本发明提供一种基于多模态交互融合网络的图文情感分析方法,包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
进一步,步骤一中所述的对图文进行预处理,具体包括以下步骤:
对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示;输入的长度限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本,每个文本表示如下:
Figure RE-GDA0003094568480000021
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数;将所有图像转换为大小为224×224,通道为RGB的图像。
进一步,步骤二中所述的文本特征提取模块,是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构,以提取不同尺度的高层文本特征和原始文本特征,并使用多头注意力机制突出全局特征中的情感相关特征;所述的视觉特征提取模块,是使用 101层的残差网络,即ResNet101模型提取视觉特征,并采用全局池化策略和全连接层映射得到视觉特征。
进一步,步骤二中构建所述文本特征提取模块具体包括以下步骤:
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息,计算公式如下:
Figure RE-GDA0003094568480000031
Figure RE-GDA0003094568480000032
式中,i∈[1,n+1],
Figure RE-GDA0003094568480000033
Figure RE-GDA0003094568480000034
分别代表空洞卷积的输出和可训练参数,
Figure RE-GDA0003094568480000035
Figure RE-GDA0003094568480000036
分别代表BiLSTM的输出和可训练参数;
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,表示如下:
Figure RE-GDA0003094568480000037
式中,
Figure RE-GDA0003094568480000038
Figure RE-GDA0003094568480000039
分别代表注意力机制的输出和可训练参数;
接着将所有特征融合:
Figure RE-GDA00030945684800000310
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数;
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
进一步,步骤二中构建所述视觉特征提取模块具体包括以下步骤:
对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式;
接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
进一步,步骤三中所述的设计面向图文的多模态交互融合网络,具体包括以下步骤:
对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X,
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
Figure RE-GDA0003094568480000041
Figure RE-GDA0003094568480000042
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
Figure RE-GDA0003094568480000043
Figure RE-GDA0003094568480000044
式中,
Figure RE-GDA0003094568480000045
Figure RE-GDA0003094568480000046
表示输出空间中的备选文本特征和备选视觉特征,
Figure RE-GDA0003094568480000047
Figure RE-GDA0003094568480000048
表示可训练权重,
Figure RE-GDA0003094568480000049
Figure RE-GDA00030945684800000410
表示可训练偏置;
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
Figure RE-GDA00030945684800000411
Figure RE-GDA00030945684800000412
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
Figure RE-GDA0003094568480000051
Figure RE-GDA0003094568480000052
Figure RE-GDA0003094568480000053
式中,Wr代表可训练权重,[,]代表串联操作。
进一步,所述步骤四中,通过多模态交互融合网络获得交互后的图文特征后,使用带有一个隐含层的多层感知机计算情感倾向概率分布,具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
进一步,步骤五中,使用反向传播算法训练模型,通过最小化损失函数优化模型,交叉熵作为基础损失函数,对于第i类情感真实极性分布yi与预测结果
Figure RE-GDA0003094568480000054
损失函数表示为:
Figure RE-GDA0003094568480000055
其中,n代表类别数。
另一方面,本发明提供一种基于多模态交互融合网络的图文情感分析系统,包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块;
所述数据预处理模块通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息,再使用 Top-K池化策略对特征进行筛选;
所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
本发明的有益效果在于:本发明能够提取信息表征丰富的文本特征,通过预训练的深度卷积神经网络提取视觉特征,增强了特征表达,使用多个多模态交互融合网络建模多粒度相关性,从而更准确地分析图文所表达的情感。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于多模态交互融合网络的图文情感分析方法流程图;
图2为本发明所述基于多模态交互融合网络的图文情感分析系统模型图;
图3为多模态交互融合模块结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于多模态交互融合网络的图文情感分析方法,包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示。具体来说,为了使不同的文本适合模型输入,输入的长度被限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本。因此,每个文本都可以表示如下:
Figure RE-GDA0003094568480000071
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数。
对于输入的图文对,将输入图像预处理为大小为224×224,通道为RGB的图像。
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息。计算公式如下:
Figure RE-GDA0003094568480000072
Figure RE-GDA0003094568480000073
式中,i∈[1,n+1],
Figure RE-GDA0003094568480000074
Figure RE-GDA0003094568480000075
分别代表空洞卷积的输出和可训练参数,同样地,
Figure RE-GDA0003094568480000076
Figure RE-GDA0003094568480000077
分别代表BiLSTM的输出和可训练参数。
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,可表示如下:
Figure RE-GDA0003094568480000078
式中,
Figure RE-GDA0003094568480000081
Figure RE-GDA0003094568480000082
分别代表注意力机制的输出和可训练参数。接着将所有特征融合:
Figure RE-GDA0003094568480000083
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数。
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
在图文对中,图像与情感也息息相关。通过提取视觉特征,并建立视觉特征与文本特征之间的联系,可以更有效地判别图文对的情感倾向。对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式,例如图像宽度、高度和通道数。接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;
为建模视觉特征和文本特征之间的相关性,有效地挖掘两种模态特征之间的内在联系,设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合,并提取文本特征和视觉特征之间的互补性、一致性和差异性,以丰富图文特征表达,提高模型的情感分析性能。
对于文本特征T和视觉特征P,通过多模态交互融合模块获取交互后的图文特征X。具体来说,首先通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置
通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程,接着将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
然后可以得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
然后,将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
Figure RE-GDA0003094568480000091
Figure RE-GDA0003094568480000092
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
然后,将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
Figure RE-GDA0003094568480000093
Figure RE-GDA0003094568480000094
式中,
Figure RE-GDA0003094568480000095
Figure RE-GDA0003094568480000096
表示输出空间中的备选文本特征和备选视觉特征,
Figure RE-GDA0003094568480000097
Figure RE-GDA0003094568480000098
表示可训练权重,
Figure RE-GDA0003094568480000099
Figure RE-GDA00030945684800000910
表示可训练偏置。
根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息。
AT=softmax(e'T)
AP=softmax(e'P)
其次,根据以上信息可以建模特征之间的互补性和一致性,并得到有效特征和互补特征。那么,输出空间中交互后的特征可以表示为:
Figure RE-GDA00030945684800000911
Figure RE-GDA00030945684800000912
式中,CT和CP代表输出空间中交互后的文本和视觉特征。
最后,通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置。
根据输出门和输出空间中的特征,可以得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征。
最后,融合h个交互融合模块的输出并生成图文特征:
Figure RE-GDA0003094568480000101
Figure RE-GDA0003094568480000102
Figure RE-GDA0003094568480000103
式中,Wr代表可训练权重。
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
在上述部分,通过多模态交互融合模块获得了交互后的图文特征,然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
使用反向传播算法训练模型,通过最小化损失函数优化模型,交叉熵作为基础损失函数,对于第i类情感真实极性分布yi与预测结果
Figure RE-GDA0003094568480000104
损失函数表示为:
Figure RE-GDA0003094568480000105
其中,n代表类别数。
图2为本发明的系统模型图,下面结合附图进行说明,包括以下几个模块:
模块一:通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
模块二:使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
模块三:利用全局注意力模块突出全局特征中的重要信息,最后使用Top-K池化策略对特征进行筛选;
模块四:通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
可选的,模块一具体包括:
数据预处理模块。将输入图像预处理为大小为224×224,通道为RGB的图像。对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示。具体来说,为了使不同的文本适合模型输入,输入的长度被限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本。因此,每个文本都可以表示如下:
Figure RE-GDA0003094568480000111
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数。
可选的,模块二具体包括:
文本特征提取模块和视觉特征提取模块。对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM 中学习上下文信息。计算公式如下:
Figure RE-GDA0003094568480000112
Figure RE-GDA0003094568480000113
式中,i∈[1,n+1],
Figure RE-GDA0003094568480000114
Figure RE-GDA0003094568480000115
分别代表空洞卷积的输出和可训练参数,同样地,
Figure RE-GDA0003094568480000116
Figure RE-GDA0003094568480000117
分别代表BiLSTM的输出和可训练参数。
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,可表示如下:
Figure RE-GDA0003094568480000118
式中,
Figure RE-GDA0003094568480000119
Figure RE-GDA00030945684800001110
分别代表注意力机制的输出和可训练参数。接着将所有特征融合:
Figure RE-GDA00030945684800001111
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数。
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
在图文对中,图像与情感也息息相关。通过提取视觉特征,并建立视觉特征与文本特征之间的联系,可以更有效地判别图文对的情感倾向。对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式,例如图像宽度、高度和通道数。接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数, GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
可选的,模块三具体包括:
多模态交互融合模块。如图3所示,为建模视觉特征和文本特征之间的相关性,有效地挖掘两种模态特征之间的内在联系,设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合,并提取文本特征和视觉特征之间的互补性、一致性和差异性,以丰富图文特征表达,提高模型的情感分析性能。
对于文本特征T和视觉特征P,通过多模态交互融合模块获取交互后的图文特征X。具体来说,首先通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置。
通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程,接着将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
然后可以得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征。
然后,将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
Figure RE-GDA0003094568480000131
Figure RE-GDA0003094568480000132
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
然后,将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
Figure RE-GDA0003094568480000133
Figure RE-GDA0003094568480000134
式中,
Figure RE-GDA0003094568480000135
Figure RE-GDA0003094568480000136
表示输出空间中的备选文本特征和备选视觉特征,
Figure RE-GDA00030945684800001311
Figure RE-GDA00030945684800001312
表示可训练权重,
Figure RE-GDA0003094568480000137
Figure RE-GDA0003094568480000138
表示可训练偏置。
根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息。
AT=softmax(e'T)
AP=softmax(e'P)
其次,根据以上信息可以建模特征之间的互补性和一致性,并得到有效特征和互补特征。那么,输出空间中交互后的特征可以表示为:
Figure RE-GDA0003094568480000139
Figure RE-GDA00030945684800001310
式中,CT和CP代表输出空间中交互后的文本和视觉特征。
最后,通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置。
根据输出门和输出空间中的特征,可以得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征。
最后,融合h个交互融合模块的输出并生成图文特征:
Figure RE-GDA0003094568480000141
Figure RE-GDA0003094568480000142
Figure RE-GDA0003094568480000143
式中,Wr代表可训练权重。
可选的,模块四具体包括:
情感分析模块。通过多模态交互融合模块获得了交互后的图文特征,然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
使用反向传播算法训练模型,通过最小化损失函数优化模型。采用交叉熵作为基础损失函数。对于第i类情感真实极性分布yi与预测结果
Figure RE-GDA0003094568480000144
损失函数可表示为:
Figure RE-GDA0003094568480000145
其中,n代表类别数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多模态交互融合网络的图文情感分析方法,其特征在于:包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
2.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤一中所述的对图文进行预处理,具体包括以下步骤:
对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示;输入的长度限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本,每个文本表示如下:
Figure RE-FDA0003094568470000011
式中,Tin∈Rk×d代表模型的输入且d表示词向量的维数;将所有图像转换为大小为224×224,通道为RGB的图像。
3.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中所述的文本特征提取模块,是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构,以提取不同尺度的高层文本特征和原始文本特征,并使用多头注意力机制突出全局特征中的情感相关特征;所述的视觉特征提取模块,是使用101层的残差网络,即ResNet101模型提取视觉特征,并采用全局池化策略和全连接层映射得到视觉特征。
4.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述文本特征提取模块具体包括以下步骤:
对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息,计算公式如下:
Figure RE-FDA0003094568470000012
Figure RE-FDA0003094568470000013
式中,i∈[1,n+1],
Figure RE-FDA0003094568470000014
Figure RE-FDA0003094568470000015
分别代表空洞卷积的输出和可训练参数,
Figure RE-FDA0003094568470000016
Figure RE-FDA0003094568470000021
分别代表BiLSTM的输出和可训练参数;
在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,表示如下:
Figure RE-FDA0003094568470000022
式中,
Figure RE-FDA0003094568470000023
Figure RE-FDA0003094568470000024
分别代表注意力机制的输出和可训练参数;
接着将所有特征融合:
Figure RE-FDA0003094568470000025
最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:
Tm=MultiHead(Τa;θm)Wm
式中,Wm和θm代表多头注意力机制的可训练参数;
接着使用全连接层获取文本特征:
T=TmWT+BT
式中,WT和BT分别代表全连接层的可训练参数和偏置参数。
5.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述视觉特征提取模块具体包括以下步骤:
对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式;
接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:
Pc=deepCNNs(Pin;θd)
Pa=GAP(Pc)
P=PaWp+bp
式中,Pin代表图文对中预处理后的图像输入,θd代表深度卷积神经网络中的可训练参数,GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。
6.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤三中所述的设计面向图文的多模态交互融合网络,具体包括以下步骤:
对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X,
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e′T=eT*iT
e′P=eP*iP
式中,e′T和e′P分别代表有效文本交互特征和有效视觉交互特征。
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
Figure RE-FDA0003094568470000031
Figure RE-FDA0003094568470000032
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
Figure RE-FDA0003094568470000033
Figure RE-FDA0003094568470000034
式中,
Figure RE-FDA0003094568470000035
Figure RE-FDA0003094568470000036
表示输出空间中的备选文本特征和备选视觉特征,
Figure RE-FDA0003094568470000037
Figure RE-FDA0003094568470000038
表示可训练权重,
Figure RE-FDA0003094568470000039
Figure RE-FDA00030945684700000310
表示可训练偏置;
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
Figure RE-FDA00030945684700000311
Figure RE-FDA00030945684700000312
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
Figure RE-FDA0003094568470000041
Figure RE-FDA0003094568470000042
Figure RE-FDA0003094568470000043
式中,Wr代表可训练权重,[,]代表串联操作。
7.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:所述步骤四中,通过多模态交互融合网络获得交互后的图文特征后,使用带有一个隐含层的多层感知机计算情感倾向概率分布,具体公式如下:
H=tanh(XWH+bH)
P=softmax(HWP+bP)
式中,Wr和br代表多层感知机的可训练权重和偏置。
8.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤五中,使用反向传播算法训练模型,通过最小化损失函数优化模型,交叉熵作为基础损失函数,对于第i类情感真实极性分布yi与预测结果
Figure RE-FDA0003094568470000044
损失函数表示为:
Figure RE-FDA0003094568470000045
其中,n代表类别数。
9.一种基于多模态交互融合网络的图文情感分析系统,其特征在于:包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块;
所述数据预处理模块通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;
所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息,再使用Top-K池化策略对特征进行筛选;
所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
CN202110412323.1A 2021-04-16 2021-04-16 基于多模态交互融合网络的图文情感分析方法及系统 Active CN113158875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110412323.1A CN113158875B (zh) 2021-04-16 2021-04-16 基于多模态交互融合网络的图文情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110412323.1A CN113158875B (zh) 2021-04-16 2021-04-16 基于多模态交互融合网络的图文情感分析方法及系统

Publications (2)

Publication Number Publication Date
CN113158875A true CN113158875A (zh) 2021-07-23
CN113158875B CN113158875B (zh) 2022-07-01

Family

ID=76868462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110412323.1A Active CN113158875B (zh) 2021-04-16 2021-04-16 基于多模态交互融合网络的图文情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN113158875B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326703A (zh) * 2021-08-03 2021-08-31 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113627550A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种基于多模态融合的图文情感分析方法
CN113806564A (zh) * 2021-09-22 2021-12-17 齐鲁工业大学 多模态信息性推文检测方法及系统
CN113822340A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种基于注意力机制的图文情感识别方法
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN114283127A (zh) * 2021-12-14 2022-04-05 山东大学 一种多模态信息指导的医学图像分割系统及图像处理方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114638994A (zh) * 2022-05-18 2022-06-17 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN115797655A (zh) * 2022-12-13 2023-03-14 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257995A1 (en) * 2011-11-23 2014-09-11 Huawei Technologies Co., Ltd. Method, device, and system for playing video advertisement
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
WO2021036715A1 (zh) * 2019-08-23 2021-03-04 华为技术有限公司 一种图文融合方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257995A1 (en) * 2011-11-23 2014-09-11 Huawei Technologies Co., Ltd. Method, device, and system for playing video advertisement
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统
WO2021036715A1 (zh) * 2019-08-23 2021-03-04 华为技术有限公司 一种图文融合方法、装置及电子设备
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGLI ZHANG: "A Face Emotion Recognition Method Using Convolutional Neural Network and Image Edge Computing", 《IEEEXPLORE》 *
顾军华等: "基于卷积注意力机制的情感分类方法", 《计算机工程与设计》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326703A (zh) * 2021-08-03 2021-08-31 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113627550A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种基于多模态融合的图文情感分析方法
CN113822340A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种基于注意力机制的图文情感识别方法
CN113806564A (zh) * 2021-09-22 2021-12-17 齐鲁工业大学 多模态信息性推文检测方法及系统
CN113806564B (zh) * 2021-09-22 2024-05-10 齐鲁工业大学 多模态信息性推文检测方法及系统
CN114283127A (zh) * 2021-12-14 2022-04-05 山东大学 一种多模态信息指导的医学图像分割系统及图像处理方法
CN114283127B (zh) * 2021-12-14 2024-04-23 山东大学 一种多模态信息指导的医学图像分割系统及图像处理方法
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN113961710B (zh) * 2021-12-21 2022-03-08 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114638994A (zh) * 2022-05-18 2022-06-17 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN114638994B (zh) * 2022-05-18 2022-08-19 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN115797655A (zh) * 2022-12-13 2023-03-14 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法

Also Published As

Publication number Publication date
CN113158875B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN113158875B (zh) 基于多模态交互融合网络的图文情感分析方法及系统
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111444960A (zh) 基于多模态数据输入的皮肤病图像分类系统
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN112613303A (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN101187990A (zh) 一种会话机器人系统
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112036276A (zh) 一种人工智能视频问答方法
CN113535904A (zh) 一种基于图神经网络的方面级情感分析方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN110490189A (zh) 一种基于双向消息链路卷积网络的显著性物体的检测方法
CN114386515A (zh) 基于Transformer算法的单模态标签生成和多模态情感判别方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN115731596A (zh) 基于渐进式标签分布和深度网络的自发表情识别方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN112883167A (zh) 基于层次化自制力机制胶囊网络的文本情感分类模型
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant