CN115146057A - 基于交互注意力的供应链生态区图文融合情感识别方法 - Google Patents

基于交互注意力的供应链生态区图文融合情感识别方法 Download PDF

Info

Publication number
CN115146057A
CN115146057A CN202210593665.2A CN202210593665A CN115146057A CN 115146057 A CN115146057 A CN 115146057A CN 202210593665 A CN202210593665 A CN 202210593665A CN 115146057 A CN115146057 A CN 115146057A
Authority
CN
China
Prior art keywords
text
image
fusion
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210593665.2A
Other languages
English (en)
Other versions
CN115146057B (zh
Inventor
廖伟智
马伟林
阎德劲
张川东
王伟
阴艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210593665.2A priority Critical patent/CN115146057B/zh
Priority claimed from CN202210593665.2A external-priority patent/CN115146057B/zh
Publication of CN115146057A publication Critical patent/CN115146057A/zh
Application granted granted Critical
Publication of CN115146057B publication Critical patent/CN115146057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。通过本发明,可以实现充分而且有效的融合不同模态之间的信息,提升情感分类的准确率。

Description

基于交互注意力的供应链生态区图文融合情感识别方法
技术领域
本发明涉及自然语言处理领域,具体是基于交互注意力的供应链生态区图文融合情感识别方法。
背景技术
情感分析是自然语言处理的重要研究方向之一,是指利用数据分析人们的情感倾向。近年来,随着信息技术和互联网技术的迅猛发展,用户接收和发送的信息已经不在是单一的文本形式,而是变为文本和图片等多种模态的形式。本文主要依靠以“社交”模式搭建的研发与服务的开放性供应链生态社区中存在的多模态交互和评价数据,旨在挖掘用户所发图文等多模态数据,更准确、全面、细致的得到生态圈开发者、软件用户、服务和资源提供者等多主体的情感。以往的单模态文本情感分析主要是依赖传统的机器学习或深度学习方法,例如: K近邻,支持向量机(SVM),随机森林(RF),全连接神经网络(FC),循环神经网络(RNN) 等。这类方法首先是在对人工标注的数据集上提取特征,其次根据上述方法建立模型进行对特分析,对情感进行预测。对于单一模态的图像情感分析,主要使用传统的深度学习方法,比如CNN或者是基于改进的CNN模型提取特征,然后进行情感分析。上述的方法中,提取的特征的质量决定了情感分析的效果,所以特征工程在上述算法中占据主要的地位。在文本特征提取的方法是基于一个词在整个语料库中的共现上下文信息聚合至该词的向量表示中,因此训练得到的词向量是”静态”的词向量,而在自然语言中同一个词在不同的语境或者上下文会呈现不同的语义;在图像特征提取中,基于CNN的特征提取方法,其池化层会丢失大量的具有价值的信息,而且会忽略图像整体与局部之间的关系,这些就影响了后续情感分析的准确率。
不同模态的数据包含不同的信息,多模态情感分析的首要任务是充分挖掘单个模态的信息,而不同模态的数据之间是相互关联,互为补充的,因此多模态情感分析的关键任务是如何利用不同模态的数据之间的关联性,以弥补传统情感分析的不足。现有的多模态的融合方法有简单的拼接或加权融合的方法,这类方法无法使得各个参数之间建立联系;有基于张量融合网络的不同模态之间的融合方法,然而张量融合网络只考虑了不同模态之间的相似性,并没有考虑不同模态之间的差异性,无法充分利用模态之间互补的特性。
发明内容
本发明的目的在于克服现有技术的不足,提供基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
进一步的,所述的对供应链生态社区的图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
进一步的,所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
进一步的,所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
Figure BDA0003666763590000031
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
进一步的,所述的情感分类包括积极情感分类和消极情感分类。
本发明的有益效果是:使用预训练模型BERT提取动态语义信息,完成词向量从“静态”到“动态”转化;使用基于Transformer的图像特征提取模型,不仅能抑制基于CNN模型的池化的信息丢失,而且更加注重图片的全局信息。从而更好的挖掘不同模态包含的信息;同时充分而且有效的融合不同模态之间的信息,提升了情感分类的准确率。
附图说明
图1为基于交互注意力的供应链生态区图文融合情感识别方法的流程示意图;
图2为基于transformer的图像特征模型的结构示意图;
图3为特征融合模块的结构示意图;
图4为特征融合层示意图;
图5为基于改进注意力机制的多模态情感分析模型示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
所述的对供应链生态社区图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
Figure BDA0003666763590000041
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
所述的情感分类包括积极情感分类和消极情感分类。
具体的,基于交互注意力的供应链生态区图文融合情感识别方法,包括以下步骤:
S1:对供应链生态社区的图文评论数据集进行预处理;
S2:建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型;
S3:将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合;
S4:建立基于文本和图像的多模态情感分析模型,利用基于图文的数据进行情感分析。
对需要进行情感分析的图文数据集进行预处理
使用NLTK工具集去除图文数据集中文本数据的停用词,即剔除语料库中对语言的含义并不重要的词语,比如”a”,”of”等,同时对语料进行分词;
建立基于预训练的文本特征提取模型和基于Transformer的图像特征提取模型
(1)基于transformer的图像特征提取
transformer模型,如图2所示,该模型的提出是针对自然语言处理领域,其基本原理是使用自注意力机制(Self-Attention)取代了原本的如RNN的顺序结构,这使得模型可以并行化训练,并且可以拥有全局信息。利用这一特点,将transformer应用于图像的特征提取,也取得了优秀的效果的效果。
①Embedding层:
对于标准transformer模型,要求输入的是二维的向量[num_token,token_dim],而图像数据是三维[H,W,C],因此Embedding层的作用就是将三维的向量转化成标准transformer模型的二维形式的输入。在得到的二维向量中插入一个专门用于分类的[class]token,这个[class]token 是一个可训练的参数,数据格式和其他token一样都是一个向量,然后加上位置编码(Position Embedding),这里位置编码和Transformer中的位置编码一致,采用的是一个可训练的参数,是直接叠加在tokens上的(add)。
②Encoding层:
Transformer的编码(Encoder)就是将编码块重复的堆叠一定的次数,整个编码(Encoding) 层由三个部分组成:
1)层归一化(Layer Norm):
层归一化是对一个中间层的所有神经元进行归一化。对于一个深度神经网络,另第L层神经元的净输入为Z(l),其均值和方差为:
Figure BDA0003666763590000051
Figure BDA0003666763590000052
其中Ml为第l层的神经元数量。则层归一化为:
Figure BDA0003666763590000061
其中γ和β分别代表缩放和平移的参数向量。
2)多头注意力机制(Multi-Head Attention)
多头注意力机制会在下面进行详细的叙述,这里在不赘述。
3)丢弃层(Droup层):
Transformer的编码(Encoder)是将编码块重复的堆叠一定的次数,使得神经网络拥有很强的拟合能力,从而出现过拟合,而丢弃法能够有效的抑制过拟合的发生。丢弃法利用集成学习的思想,通过随机丢弃一部分神经元来避免过拟合。对于一个神经层y=f(Wx+b),引入一个掩蔽函数mask()使得y=f(Wmask(x)+b),其中,掩蔽函数的定义为:
Figure RE-GDA0003794362880000071
公式中,m∈{0,1}D是丢弃掩码(Droupout Mask),通过以概率p的伯努利分布随机生成。
丢弃法一般是针对神经元进行丢弃,但是也可以扩展到对神经元之间的连接进行随机的丢弃:
基于预训练模型的文本特征提取
BERT(Bidirectional Encoder Representation from Transformers)是由Devlin等人提出的预训练语言模型,其充分的挖掘大量无标注文本的语义信息。
BERT的基本模型由transformer的Encoder部分组成,包含两个预训练任务:掩码语言模型(Masked Language Model,MLM)和下一个句子预测(Next Sentence Prediction,NSP)
1)掩码语言模型
将输入序列中的部分词进行掩码,并且按照模型的要求进行还原,称之为掩码语言模型。在BERT中,会将输入文本中的15%进行掩码,其中以80%的概率替换为[MASK]标记,以 10%的概率替换为词表中的任意一个随机词,以10%的概率保持原词不变,即不替换。
掩码语言语言模型的建模方法如下:
①输入层:假设原始输入文本为x1x2...xn,通过上述的方法掩码后输入的文本为x′1x′2...x′n, xi表示输入文本的第i个词,x′i表示经过处理的第i个词。对掩码后的文本进行如下处理,得到BERT的输入表示v:
X=[CLS]x′1x′2...x′n[SEP]
v=Inputrepsention(X)
其中,[CLS]表示文本序列开始的特殊标记,[SEP]表示文本序列之间的分隔符。
②编码层:通过自注意力机制充分学习文本数据中的语义信息,得到
h=Transformer(v)
其中,h表示最后一层Transformer层的输出。
③输出层:在BERT中,输入表示维度e和隐含层维度d相同,直接利用词向量矩阵
Figure BDA0003666763590000071
将掩码表示映射到词向量空间。对于掩码表示中的第i个分量
Figure BDA0003666763590000072
通过下面的公式计算该掩码位置对应的概率分布pi
Figure BDA0003666763590000073
其中,b0表示全连接层的偏置。在得到pi之后,与标签yi计算交叉损失,得到模型参数。
2)下一个句子预测
预测任务的输入层和BERT编码层与掩码任务的处理方式相同,唯一不同的是在输出层,预测任务只需要判断输入文本x(2)是否是x(1)的下一个句子。
S3:将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合,特征融合模块如图3所示;
在模态融合模块,其核心在于使用交叉多头注意力机制,利用辅助模态信息帮助主要特征调整主要特征的权重。
模型各层详细介绍:
(1)特征融合层包括:
1)注意力计算层:
文本特征和图像特征的注意力计算方式相同,则以文本特征的注意力计算方式为例。假设文本的特征向量为
Figure BDA0003666763590000074
对于每个输入xi,将其映射到二个不同的向量空间,得到查询向量
Figure BDA0003666763590000075
和键向量
Figure BDA0003666763590000076
对于整个输入序列X,其线性映射过程为:
Figure BDA0003666763590000077
Figure BDA0003666763590000081
其中,
Figure BDA0003666763590000082
Figure BDA0003666763590000083
分别为线性映射的参数矩阵。
然后由
Figure BDA0003666763590000084
Figure BDA0003666763590000085
得到文本模态的每个注意力头的注意力矩阵
Figure BDA0003666763590000086
同理可得图像模态的每个注意力头的注意力矩阵
Figure BDA0003666763590000087
2)注意力融合层:
上述步骤得到图像和文本模态的各个注意力头的注意力矩阵,以文本特征为主要特征的融合方式和以图像特征为要特征的融合方式相同,下面则以文本模态为主要模态进行叙述。如图4所示的融合过程,通过文本模态和图像模态之间的注意力交互从而调整文本特征的权重,不同模态对应的注意力头以线性求和的方式进行交互,得到各个注意力头的权重矩阵:
Figure BDA0003666763590000088
其中,
Figure BDA0003666763590000089
Figure BDA00036667635900000810
分别表示各自模态的权重,b表示偏差。
然后将各个头的注意力矩阵进行拼接,然后通过一个全连接层进行特征筛选,计算方式如下:
Figure BDA00036667635900000811
其中,FC表示全连接神经网络,
Figure BDA00036667635900000812
表示向量拼接。
最后使用缩放点积作为注意力打分函数,得到最终的注意力矩阵:
Figure BDA00036667635900000813
其中,softmax(·)为按列进行归一化的函数。
3)输出层
本层的作用是输出融合的文本特征向量,使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本的输出特征向量:
Figure BDA00036667635900000814
其中Vm表示BERT提取的文本特征。
由于文本模态和图像模态的注意力融合方式基本相同,只是将文本模态为主要模态转换为以图像模态为主要模态,这里便不再赘述。以同样的方式可以得以图像特征为主要模态的输出向量
Figure BDA00036667635900000815
(2)特征拼接
将融合得到的图像特征向量和文本特征向量进行拼接,得到最终的图像和文本的融合特征向量
Figure BDA0003666763590000091
其中
Figure BDA0003666763590000092
表示拼接。
S4:建立基于文本和图像的多模态情感分析模型,利用基于图文的数据进行情感分析。
如图5所示,建立基于改进注意力机制的多模态情感分析模型如下:
(1)模型各层详细介绍:
1)特征提取层:
使用BERT模型提取文本特征
Figure BDA0003666763590000093
和使用基于Transformer的模型提取图像特征
Figure BDA0003666763590000094
步骤二中有详细的计算方式,这里不在赘述。
2)交互融合层:
本层作用域步骤三中的交互融合层一直,得到最终的融合向量X=x1,x2,x3...xn
3)输出层:
本层是一个全连接层,以融合向量x1,x2,x3...xn作为输入,得到输出c:
c=WX
其中X是全连接层的权值矩阵。
然后对于全连接层的输出c,通过softmax计算得到不同情感的概率分布yt
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数。
(2)训练基于改进注意力机制的多模态情感分析模型的参数:
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
Figure BDA0003666763590000095
采用小批量梯度下降法(Mini-Batch Gradient Descent)训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
2.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的对供应链生态社区的图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
3.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
4.根据权利要求3所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
Figure FDA0003666763580000021
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
5.根据权利要求4所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的情感分类包括积极情感分类和消极情感分类。
CN202210593665.2A 2022-05-27 基于交互注意力的供应链生态区图文融合情感识别方法 Active CN115146057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593665.2A CN115146057B (zh) 2022-05-27 基于交互注意力的供应链生态区图文融合情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593665.2A CN115146057B (zh) 2022-05-27 基于交互注意力的供应链生态区图文融合情感识别方法

Publications (2)

Publication Number Publication Date
CN115146057A true CN115146057A (zh) 2022-10-04
CN115146057B CN115146057B (zh) 2024-06-28

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
US11025892B1 (en) * 2018-04-04 2021-06-01 James Andrew Aman System and method for simultaneously providing public and private images
CN113627163A (zh) * 2021-06-29 2021-11-09 华为技术有限公司 一种注意力模型、特征提取方法及相关装置
US11240278B1 (en) * 2018-01-17 2022-02-01 Sure Market, LLC Distributed messaging communication system integrated with a cross-entity collaboration platform
CN114020871A (zh) * 2021-11-09 2022-02-08 丁健宇 基于特征融合的多模态社交媒体情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
US11240278B1 (en) * 2018-01-17 2022-02-01 Sure Market, LLC Distributed messaging communication system integrated with a cross-entity collaboration platform
US11025892B1 (en) * 2018-04-04 2021-06-01 James Andrew Aman System and method for simultaneously providing public and private images
CN113627163A (zh) * 2021-06-29 2021-11-09 华为技术有限公司 一种注意力模型、特征提取方法及相关装置
CN114020871A (zh) * 2021-11-09 2022-02-08 丁健宇 基于特征融合的多模态社交媒体情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD RAHEEL RAZA等: "sentimentanalysis using deep learning in cloud", 2021 9TH INTERNATIONAL SYMPOSIUM ON DIGITAL FORENSICS AND SECURITY, 29 June 2021 (2021-06-29), pages 1 - 10 *
靳晓琳;: "基于AISAS消费者行为分析模型探讨短视频传播", 北方传媒研究, no. 06, 20 December 2019 (2019-12-20), pages 44 - 47 *
马伟林: "面向云ERP生态社区的多模态情感分析方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 4, 15 April 2024 (2024-04-15), pages 138 - 1710 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116049397B (zh) * 2022-12-29 2024-01-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117036788B (zh) * 2023-07-21 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置

Similar Documents

Publication Publication Date Title
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN113128214A (zh) 一种基于bert预训练模型的文本摘要生成方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN114548099B (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
Huang et al. C-Rnn: a fine-grained language model for image captioning
Al Faraby et al. Image to Bengali caption generation using deep CNN and bidirectional gated recurrent unit
CN111581964A (zh) 一种汉语古籍的主题分析方法
Paul et al. A modern approach for sign language interpretation using convolutional neural network
He et al. Deep learning in natural language generation from images
Yang et al. CLIP-KD: An Empirical Study of Distilling CLIP Models
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
Patil et al. Performance analysis of image caption generation using deep learning techniques
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法
CN115774782A (zh) 多语种文本分类方法、装置、设备及介质
CN115146057A (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
Shah et al. A study of various word embeddings in deep learning
CN115146057B (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
Guo et al. Double-layer affective visual question answering network
CN113792541A (zh) 一种引入互信息正则化器的方面级情感分析方法
Alabduljabbar et al. Image Captioning based on Feature Refinement and Reflective Decoding
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination