CN116719930A - 基于视觉方面注意的多模态情感分析方法 - Google Patents
基于视觉方面注意的多模态情感分析方法 Download PDFInfo
- Publication number
- CN116719930A CN116719930A CN202310487113.8A CN202310487113A CN116719930A CN 116719930 A CN116719930 A CN 116719930A CN 202310487113 A CN202310487113 A CN 202310487113A CN 116719930 A CN116719930 A CN 116719930A
- Authority
- CN
- China
- Prior art keywords
- text
- attention
- formula
- features
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 66
- 230000008451 emotion Effects 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 230000004913 activation Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 17
- 238000001994 activation Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000012821 model calculation Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开的基于视觉方面注意的多模态情感分析方法,首先对输入文本信息进行预处理;然后分别使用SACR文本特征提取与VGG16进行视觉特征提取;通过将文本特征与视觉特征投影到注意空间并进行非线性激活;最后通过多模态融合特征进行softmax分类,进行整体评论的情感分析。本发明将视觉方面注意思想引入到评论的情感分析中,通过SACR模型转化文本特征,再使用VistaNet方法融合文本特征与视觉特征得到多模态融合特征,最后进行多模态情感分类,形成基于视觉方面注意的多模态情感分析,提高了评论内容情感评判的准确度。
Description
技术领域
本发明属于自然语言处理方法技术领域,具体涉及一种基于视觉方面注意的多模态情感分析方法。
背景技术
随着电子商务的发展,很多电商评论能反映出用户对产品的体验评价,对电商评论进行情感分析与挖掘对电商商户具有很大的意义,但是智能设备(智能手机和平板电脑)的更新换代让评论内容从单一的文本模态逐渐转向多模态。多模态可以包含文本、视觉、音频或视频,而大多数的电商评论目前仅包含文本和视觉,相较于单一的文本可以更好地表达评论者的情感。
人类获取的信息70%-80%来自于视觉,视觉信息是大脑感知外界信息的一个重要组成部分。因此借鉴人脑视觉感知机理,利用视觉信息来提高学习文本特征的质量,在文本学习过程中加入图像视觉特征,获得文本和视觉多模态特征,解决现有的由于特征单一情感分析方法准确率低的问题。
发明内容
本发明的目的在于提供一种基于视觉方面注意的多模态情感分析方法,解决了现有情感分析方法准确率低的问题。
本发明所采用的技术方案是:基于视觉方面注意的多模态情感分析方法,包括以下步骤:
步骤1、通过SACR提取评论内容的文本特征;
步骤2、通过VGG16提取评论内容的视觉特征;
步骤3、将步骤1所得文本特征与步骤2所得视觉特征通过VistaNet方法进行多模态特征融合,得到多模态融合特征;
步骤4、将步骤3所得多模态融合特征进行softmax分类,得到评论内容的真实标签。
本发明的特点还在于,
步骤1具体为:假设评论内容R={T,M},其中T表示文本内容,M表示图像内容,T={ti|i∈[1,n]},ti表示文本评论的第i个段落,n表示段落数,ti={wi,j|j∈[1,m]},wi,j表示段落ti的第j个词;提取评论内容的文本特征过程包括:首先将T进行文本嵌入,选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入,其次通过多层Transformer提取上下文全局特征,最后选用SACR提取不同长度语义特征并作为文本模态的文本特征。
提取评论内容的文本特征过程具体包括以下步骤:
步骤1.1、先将T中所包含的词w进行词频统计并排序得到Xw2n,如公式(1)所示:
Xw2n=Count(T) (1)
式(1)中,Xw2n={(wi,ci)|i∈[1,n]},其中wi表示词,ci为词编号,n为T中不重复词的个数;
再将GloVe的词嵌入按词频从高到低进行嵌入查找得到Xw2e,如公式(2)所示:
Xw2e=Glove(Xw2n)(2)
最后将T中的w与Xw2e进行匹配得到T对应的词嵌入E,如公式(3)所示:
E=match(T,Xw2e) (3)
步骤1.2、将嵌入输出经过了多层Transformer编码器,每层Transformer编码器都包含多头注意力和前馈神经网络层,最后进行线性归一化;具体为:将嵌入层的输出E={ei|i∈[1,m]},其中ei为注意力头的输入,m为注意力头的个数;多头注意力使每个输入ei先得到初始化的Qi矩阵、Ki矩阵和Vi,再进行注意力权重的学习;多头注意力的输出O={Oi|i∈[1,m]},其中Oi如公式(4)所示:
式(4)中,Ai,j如公式(5)所示,表示第i个输入i经过多头注意力之后学习到的权重输出,m为注意力头的个数,Τ表示矩阵的转置,λ为注意力头的大小,softmax函数将每个数值映射到[0,1]区间;前馈神经网络的计算如公式(6)所示:
式(6)中,O为多头注意力层的输出,W1和b1分别为O的初始化的权重矩阵偏置项,gelu函数的输入小于零会被归为0;线性归一化的计算定义如公式(7)所示:
h=layernorm(g×W2+b2) (7)
式(7)中,h为该层的输出结果,g为多头注意力层的输出,W2和b2分别为g初始化的权重矩阵和偏置项,layernorm函数将输入数值服从标准正态分布;
步骤1.3、通过SACR对Transformer编码的输出的h进行卷积和最大池化,对h的卷积过程定义如公式(8)所示:
式(8)中,Cl x,1,y表示尺度l卷积后(x,1,y)位置的张量值,W3l和b3l分别为卷积核l的初始化矩阵和偏置,t、v表示卷积开始的位置,t=x·s,v=y·s,s为卷积步长,l、k分别为卷积核的维度,卷积过程中的参数规整选用线性整流函数relu;
卷积后的张量矩阵Cl={Cl 1,1,1,Cl 1,1,2,...,Cl l,1,d},对Cl进行最大池化的定义如公式(9)所示:
Ml x,1,y=max(Cl t+0,v+0,...,Cl t+0,v+m,...,Cl t+n,v+0,...,Cl t+n,v+m) (9)
式(9)中,Ml x,1,y表示尺度l池化后(x,1,y)位置的张量值,t、v表示池化开始的位置,t=x·s,v=y·s,s为池化的步长,n、m为池化窗口的大小,max函数表示取最大值;
对多尺度CNN的结果进行融合得到η,即η={M1,M2,...,Mδ},其中η为CNN尺度数,对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示:
其中τ为上下文推理的结果,μ、φ为η的特征矩阵,σ为η的长度,Τ表示矩阵的转置,softmax函数表示线性归一化,μ和φΤ的相乘可以学习不同长度文本特征的上下文关联关系,Wμ和Wφ分别为μ、φ的初始化权重矩阵,bμ和bφ分别为μ、φ的偏置,上下文关系权重的自适应学习定义如公式(13)及(14)所示:
其中δ为上下文推理的输出,ξ为η的特征矩阵,Wξ和bξ分别为ξ的初始化权重矩阵和偏置项。
步骤2具体为:假设评论内容R={T,M},其中T表示文本内容,M表示图像内容,M={mj|j∈[1,s]},mj表示评论中的第j张图像,s表示评论内容中共包含s张图像;采用VGG16对图像mj编码为4096维向量,获得视觉特征aj,计算式如公式(15)所示:
aj=VGG16(mj) (15)。
步骤3具体为:将文本特征和视觉特征投影到注意空间并进行非线性激活,对评论文本T的每个文本特征表示δi进行投影和非线性激活的过程如公式(16)所示,对于每个图像表示mj的投影和非线性激活过程如公式(17)所示,激活函数都选用tanh将两者投影到相同的范围,得到的文本投影和图像投影分别为pi和qj:
为了学习文本特征与视觉特征的注意力权重,将文本投影pi和图像投影qj进行相乘、求和及非线性激活,如公式(18)所示:
式(18)中,VΤ表示初始化的全局上下文矩阵V的转置,将vi,j使用softmax进行归一化,得到注意融合特征Ⅰαj,i,如公式(19)所示:
将含有图像的视觉注意融合特征Ⅰαi,j与评论文本T的每个文本特征δi进行聚合,可以得到图像mj对于评论文本T的文档表示dj,将dj作为视觉注意融合特征Ⅱ,计算如公式(20)所示:
由于每个图像特定的文档表示dj对最终的文档表示d有不同的贡献,因此引入融合特征Ⅱβj,如公式(21)所示,其中kj的计算如公式(22)所示:
式(22)中,tanh表示非线性激活函数,文档表示dj通过tanh投射到注意空间,式(21)中,重要性kj是通过乘以初始化的全局上下文注意向量K得到;将文档表示dj进行融合得到最终的文档表示d,并作为分类的输入中,如公式(23)所示,d为最终的多模态融合特征:
步骤4具体为:获得步骤3所得多模态融合特征d后,进行softmax分类,在ρ上产生概率分布,如公式(24)所示:
再使用交叉熵作为损失函数,如公式(25)所示,其中ρ为评论内容R的真实标签:
loss=-Σdlogρd,l (25)。
本发明的有益效果是:本发明的基于视觉方面注意的多模态情感分析方法,将考虑图像特征的思想引入到文本情感分析中,通过VGG16处理图像得到图像特征,再使用VistaNet方法进行特征融合,形成文本特征和视觉特征的双通道多模态情感分析,提高了评论内容的情感倾向判断的准确率。
附图说明
图1是本发明的基于视觉方面注意的多模态情感分析方法的流程示意图;
图2是本发明的基于视觉方面注意的多模态情感分析方法中SACR-VistaNet的结构示意图;
图3是本发明的基于视觉方面注意的多模态情感分析方法中关于特征融合部分的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于视觉方面注意的多模态情感分析方法,首先对输入文本信息进行预处理;然后分别使用SACR文本特征提取与VGG16进行视觉特征提取;通过将文本特征与视觉特征投影到注意空间并进行非线性激活;最后通过多模态融合特征进行softmax分类,进行整体评论的情感分析。本发明将视觉方面注意思想引入到评论的情感分析中,通过SACR模型转化文本特征,再使用VistaNet方法融合文本特征与视觉特征得到多模态融合特征,最后进行多模态情感分类,形成基于视觉方面注意的多模态情感分析,提高了评论内容情感评判的准确度。如图1和图2所示,具体按照以下步骤实施:
步骤1、通过SACR提取文本特征,具体按照以下步骤实施:
对输入文本信息进行处理,具体包括文本嵌入、Transformer编码部分和SACR过程,其中:
文本嵌入:
假设输入的评论内容R={T,M},其中T表示文本内容,M表示图像内容。文本内容T={ti|i∈[1,n]},ti表示文本评论的第i个段落,n表示段落数。T中的ti={wi,j|j∈[1,m]},其中wi,j表示段落ti的第j个词。而图像内容M={mj|j∈[1,s]},其中mj表示评论中的第j张图像,s表示评论内容中共包含s张图像。将T进行文本嵌入,选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入,其次通过多层Transformer提取上下文全局特征,最后选用SACR提取不同长度语义特征,该特征基于全局上下文,因此包含全局上下文和不同长度语义特征,将该特征作为到文本模态的文本特征。
其中,T的嵌入选用GloVe,为了减少重复词的查询次数,先将T中所包含的词w进行词频统计并排序得到Xw2n,再将GloVe的词嵌入按词频从高到低进行嵌入查找得到Xw2e,最后将T中的w与Xw2e进行匹配得到T对应的词嵌入E。该过程定义如公式(1)至公式(3)所示:
Xw2n=Count(T) (1)
Xw2e=Glove(Xw2n) (2)
E=match(T,Xw2e) (3)
其中Xw2n={(wi,ci)|i∈[1,n]},其中wi表示词,ci为词编号(词频越高编号越小),n为T中不重复词的个数。
Transformer编码部分:
为了更好地学习全局上下文特征,将嵌入输出经过了多层Transformer编码器,每层Transformer编码器都包含多头注意力和前馈神经网络层,最后进行线性归一化。将嵌入层的输出E={ei|i∈[1,m]},其中ei为注意力头的输入,m为注意力头的个数。多头注意力使每个输入ei先得到初始化的Qi矩阵、Ki矩阵和Vi,再进行注意力权重的学习。多头注意力的输出O={Oi|i∈[1,m]},其中Oi的定义如公式(4)所示:
其中Ai,j表示第i个输入i经过多头注意力之后学习到的权重输出,m为注意力头的个数,Τ表示矩阵的转置,λ为注意力头的大小,softmax函数将每个数值映射到[0,1]区间。前馈神经网络的计算如公式(6)所示:
其中O为多头注意力层的输出,W1和b1分别为O的初始化的权重矩阵偏置项,gelu函数的输入小于零会被归为0。线性归一化的计算定义如公式(7)所示:
h=layernorm(g×W2+b2) (7)
其中h为该层的输出结果,g为多头注意力层的输出,W2和b2分别为g初始化的权重矩阵和偏置项,layernorm函数将输入数值服从标准正态分布。
自适应上下文推理机制(Self-Adaptive Context Reasoning Mechanism,以下简称为SACR)过程:
通过SACR对Transformer编码的输出的h进行卷积和最大池化。对h的卷积过程定义如下:
其中Cl x,1,y表示尺度l卷积后(x,1,y)位置的张量值,W3l和b3l分别为卷积核l的初始化矩阵和偏置,t、v表示卷积开始的位置,t=x·s,v=y·s,s为卷积步长,l、k分别为卷积核的维度,卷积过程中的参数规整选用线性整流函数relu。
卷积后的张量矩阵Cl={Cl 1,1,1,Cl 1,1,2,...,Cl l,1,d}。对Cl进行最大池化的定义如下:
Ml x,1,y=max(Cl t+0,v+0,...,Cl t+0,v+m,...,Cl t+n,v+0,...,Cl t+n,v+m) (9)
其中Ml x,1,y表示尺度l池化后(x,1,y)位置的张量值,t、v表示池化开始的位置,t=x·s,v=y·s,s为池化的步长,n、m为池化窗口的大小,max函数表示取最大值。
对多尺度CNN的结果进行融合得到η,即η={M1,M2,...,Mδ},其中η为CNN尺度数。对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示:
其中τ为上下文推理的结果,μ、φ为η的特征矩阵,σ为η的长度,Τ表示矩阵的转置,softmax函数表示线性归一化,μ和φΤ的相乘可以学习不同长度文本特征的上下文关联关系,Wμ和Wφ分别为μ、φ的初始化权重矩阵,bμ和bφ分别为μ、φ的偏置。上下文关系权重的自适应学习定义如公式(13)及(14)所示:
其中δ为上下文推理的输出,ξ为η的特征矩阵,Wξ和bξ分别为ξ的初始化权重矩阵和偏置项。
步骤2、通过VGG16进行视觉特征提取,具体按照以下步骤实施:
图像特征提取主要对输入的图像mj进行特征提取。本发明选用VGG16通过模型输入,获取VGG16全连接分类前的最后一个全连接层的输出,得到其特征表示aj。图像视觉特征aj是一个由图像mj编码的4096维向量:
aj=VGG16(mj) (15)。
步骤3、通过VistaNet方法进行多模态特征融合,如图3所示,具体按照以下步骤实施:
先将文本特征和视觉特征投影到注意空间并进行非线性激活。对于评论文本T的每个文本特征表示δi,对其进行投影和非线性激活的过程如公式(16)所示,对于每个图像表示mj的投影和非线性激活过程如公式(17)所示,激活函数都选用tanh将两者投影到相同的范围,得到的文本投影和图像投影分别为pi和qj。
为了学习文本特征与视觉特征的注意力权重,将文本投影pi和图像投影qj进行相乘、求和及非线性激活,如公式(18)所示,
其中VΤ表示初始化的全局上下文矩阵V的转置。将vi,j使用softmax进行归一化,得到注意融合特征1αj,i。vi,j的计算方式可以使文本和视觉之间存在有意义的交互。在这两种模态特征之间进行交互时如果没有元素级乘法,而只有求和,则在计算注意融合特征1αj,i时,视觉特征会通过归一化大幅度减弱。若只有元素的乘法,会导致文本特征的影响显著减弱,因为视觉特征的具有一定的稀疏性。
将含有图像的视觉注意融合特征1αi,j与文本T的每个文本特征δi进行聚合,可以得到图像mj对于文本T的文档表示dj,将dj作为视觉注意融合特征2,计算如公式(20)所示。
由于每个图像特定的文档表示dj对最终的文档表示d有不同的贡献,因此引入融合特征2βj,如公式(21)所示,其中kj的计算如公式(22)所示:
其中tanh表示非线性激活函数,文档表示dj通过tanh投射到注意空间,重要性kj是通过乘以初始化的全局上下文注意向量K得到。将文档表示dj进行融合得到最终的文档表示d,并作为分类的输入中,如公式(23)所示,d为最终的多模态融合特征。
步骤4、进行softmax分类得出评论内容的真实标签,具体按照以下步骤实施:
获得最终的多模态融合特征d后,进行softmax分类,在ρ上产生概率分布,如公式(24)所示。
本文所提出的多模态情感分析模型使用交叉熵作为损失函数,如公式(25),其中ρ为评论内容R的真实标签。
loss=-∑dlogρd,l (25)。
实施例
采用的数据集源于Yelp.com平台的多模态公开数据集,提供的一种基于视觉方面注意的多模态情感分析方法,具体按照以下步骤实施:
步骤1、通过SACR提取文本特征,具体为:
对输入文本信息进行处理,具体包括文本嵌入、Transformer编码部分和SACR过程,其中:
文本嵌入:
假设输入的评论内容R={T,M},其中T表示文本内容,M表示图像内容。文本内容T={ti|i∈[1,n]},ti表示文本评论的第i个段落,n表示段落数。T中的ti={wi,j|j∈[1,m]},其中wi,j表示段落ti的第j个词。而图像内容M={mj|j∈[1,s]},其中mj表示评论中的第j张图像,s表示评论内容中共包含s张图像。将T进行文本嵌入,选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入,其中嵌入维度为128,其次通过多层Transformer提取上下文全局特征,最后选用SACR提取不同长度语义特征,该特征基于全局上下文,因此包含全局上下文和不同长度语义特征,将该特征作为到文本模态的文本特征。
其中,T的嵌入选用GloVe,预训练的初始化维数为200的单词嵌入作为嵌入词表。为了减少重复词的查询次数,先将T中所包含的词w进行词频统计并排序得到Xw2n,再将GloVe的词嵌入按词频从高到低进行嵌入查找得到Xw2e,最后将T中的w与Xw2e进行匹配得到T对应的词嵌入E。该过程定义如公式(1)至公式(3)所示:
Xw2n=Count(T) (1)
Xw2e=Glove(Xw2n) (2)
E=match(T,Xw2e) (3)
其中Xw2n={(wi,ci)|i∈[1,n]},其中wi表示词,ci为词编号(词频越高编号越小),n为T中不重复词的个数。
Transformer编码部分:
为了更好地学习全局上下文特征,将嵌入输出经过了多层Transformer编码器,层数为6,每层Transformer编码器都包含多头注意力和前馈神经网络层,全连接层的大小为200,最后进行线性归一化。将嵌入层的输出E={ei|i∈[1,m]},其中ei为注意力头的输入,m为注意力头的个数,其中多头注意力的注意力头个数为10,每个注意力头的大小为20,多头注意力使每个输入ei先得到初始化的Qi矩阵、Ki矩阵和Vi,再进行注意力权重的学习,训练参数中batchsize为10,epoch为10,学习率为0.001。多头注意力的输出O={Oi|i∈[1,m]},其中Oi的定义如公式(4)所示:
其中Ai,j表示第i个输入i经过多头注意力之后学习到的权重输出,m为注意力头的个数,Τ表示矩阵的转置,λ为注意力头的大小,softmax函数将每个数值映射到[0,1]区间。前馈神经网络的计算如公式(6)所示:
其中O为多头注意力层的输出,W1和b1分别为O的初始化的权重矩阵偏置项,gelu函数的输入小于零会被归为0。线性归一化的计算定义如公式(7)所示:
h=layernorm(g×W2+b2) (7)
其中h为该层的输出结果,g为多头注意力层的输出,W2和b2分别为g初始化的权重矩阵和偏置项,layernorm函数将输入数值服从标准正态分布。
自适应上下文推理机制(Self-Adaptive Context Reasoning Mechanism,以下简称为SACR)过程:
SACR对Transformer编码的输出的h进行卷积和最大池化。对h的卷积过程定义如下:
其中Cl x,1,y表示尺度l卷积后(x,1,y)位置的张量值,W3l和b3l分别为卷积核l的初始化矩阵和偏置,t、v表示卷积开始的位置,t=x·s,v=y·s,s为卷积步长,l、k分别为卷积核的维度,卷积过程中的参数规整选用线性整流函数relu。
卷积后的张量矩阵Cl={Cl 1,1,1,Cl 1,1,2,...,Cl l,1,d}。对Cl进行最大池化的定义如下:
Ml x,1,y=max(Cl t+0,v+0,...,Cl t+0,v+m,...,Cl t+n,v+0,...,Cl t+n,v+m) (9)
其中Ml x,1,y表示尺度l池化后(x,1,y)位置的张量值,t、v表示池化开始的位置,t=x·s,v=y·s,s为池化的步长,n、m为池化窗口的大小,max函数表示取最大值。
对多尺度CNN的结果进行融合得到η,即η={M1,M2,...,Mδ},其中η为CNN尺度数,设置尺度数为3,卷积核大小为[2,3,4]。对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示:
其中τ为上下文推理的结果,μ、φ为η的特征矩阵,σ为η的长度,Τ表示矩阵的转置,softmax函数表示线性归一化,μ和φΤ的相乘可以学习不同长度文本特征的上下文关联关系,Wμ和Wφ分别为μ、φ的初始化权重矩阵,bμ和bφ分别为μ、φ的偏置。上下文关系权重的自适应学习定义如公式(13)及(14)所示:
其中δ为上下文推理的输出,ξ为η的特征矩阵,Wξ和bξ分别为ξ的初始化权重矩阵和偏置项。
步骤2、通过VGG16进行视觉特征提取,具体为:
图像特征提取主要对输入的图像mj进行特征提取。本发明选用VGG16通过模型输入,获取VGG16全连接分类前的最后一个全连接层的输出,得到其特征表示aj。图像视觉特征aj是一个由图像mj编码的4096维向量,注意权重V和K的初始化维度为100。
aj=VGG16(mj) (15)
步骤3、通过VistaNet方法进行多模态特征融合,具体为:
先将文本特征和视觉特征投影到注意空间并进行非线性激活。对于评论文本T的每个文本特征表示δi,对其进行投影和非线性激活的过程如公式(16)所示,对于每个图像表示mj的投影和非线性激活过程如公式(17)所示,激活函数都选用tanh将两者投影到相同的范围,得到的文本投影和图像投影分别为pi和qj。
为了学习文本的视觉特定注意权重,将文本投影pi和图像投影qj进行相乘、求和及非线性激活,如公式(18)所示,
其中VΤ表示初始化的全局上下文矩阵V的转置。将vi,j使用softmax进行归一化,得到注意融合特征1αj,i。vi,j的计算方式可以使文本和视觉之间存在有意义的交互。在这两种模态特征之间进行交互时如果没有元素级乘法,而只有求和,则在计算注意融合特征1αj,i时,视觉特征会通过归一化大幅度减弱。若只有元素的乘法,会导致文本特征的影响显著减弱,因为视觉特征的具有一定的稀疏性。
将含有图像的视觉注意融合特征1αi,j与文本T的每个文本特征δi进行聚合,可以得到图像mj对于文本T的文档表示dj,将dj作为视觉注意融合特征2,计算如公式(20)所示。
由于每个图像特定的文档表示dj对最终的文档表示d有不同的贡献,因此引入融合特征2βj,如公式(21)所示,其中kj的计算如公式(22)所示:
其中tanh表示非线性激活函数,文档表示dj通过tanh投射到注意空间,重要性kj是通过乘以初始化的全局上下文注意向量K得到。将文档表示dj进行融合得到最终的文档表示d,并作为分类的输入中,如公式(23)所示,d为最终的多模态融合特征。
步骤4、进行softmax分类得出评论内容的真实标签,具体为:
获得最终的多模态融合特征d后,进行softmax分类,在ρ上产生概率分布,如公式(24)所示。
本文所提出的多模态情感分析模型使用交叉熵作为损失函数,如公式(25),其中为评论内容R的真实标签。
loss=-∑dlogρd,l (25)。
表1本发明与现有方法对比结果
在该实施例中,将本发明与其余方法在五个城市的数据集上进行对比,其余方法包括:TFN-VGG,BiGRU-VGG,BiGRU-VistaNet,HAN-VGG,HAN-VistaNet,RNN-VistaNet,结果如表1所示。从表1中可以看出本发明的效果最优,且在五个城市的数据对比结果中都有明显的提升。说明本发明具有较好的评价内容判断准确率,SACR-VistaNet优于BiGRU-VistaNet、HAN-VistaNet和RNN-VistaNet。相较于TFN-VGG、BiGRU-VGG、和HAN-VGG,本发明提出的SACR-VistaNet明显效果要好,说明了视觉方面注意可以更好地进行多模态情感分析,因此本发明提出的SACR-VistaNet是有效的。
Claims (6)
1.基于视觉方面注意的多模态情感分析方法,其特征在于,包括以下步骤:
步骤1、通过SACR提取评论内容的文本特征;
步骤2、通过VGG16提取评论内容的视觉特征;
步骤3、将步骤1所得文本特征与步骤2所得视觉特征通过VistaNet方法进行多模态特征融合,得到多模态融合特征;
步骤4、将步骤3所得多模态融合特征进行softmax分类,得到评论内容的真实标签。
2.如权利要求1所述的基于视觉方面注意的多模态情感分析方法,其特征在于,所述步骤1具体为:假设评论内容R={T,M},其中T表示文本内容,M表示图像内容,T={ti|i∈[1,n]},ti表示文本评论的第i个段落,n表示段落数,ti={wi,j|j∈[1,m]},wi,j表示段落ti的第j个词;提取评论内容的文本特征过程包括:首先将T进行文本嵌入,选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入,其次通过多层Transformer提取上下文全局特征,最后选用SACR提取不同长度语义特征并作为文本模态的文本特征。
3.如权利要求2所述的基于视觉方面注意的多模态情感分析方法,其特征在于,所述提取评论内容的文本特征过程具体包括以下步骤:
步骤1.1、先将T中所包含的词w进行词频统计并排序得到Xw2n,如公式(1)所示:
Xw2n=Count(T) (1)
式(1)中,Xw2n={(wi,ci)|i∈[1,n]},其中wi表示词,ci为词编号,n为T中不重复词的个数;
再将GloVe的词嵌入按词频从高到低进行嵌入查找得到Xw2e,如公式(2)所示:
Xw2e=Glove(Xw2n) (2)
最后将T中的w与Xw2e进行匹配得到T对应的词嵌入E,如公式(3)所示:
E=match(T,Xw2e) (3)
步骤1.2、将嵌入输出经过了多层Transformer编码器,每层Transformer编码器都包含多头注意力和前馈神经网络层,最后进行线性归一化;具体为:将嵌入层的输出E={ei|i∈[1,m]},其中ei为注意力头的输入,m为注意力头的个数;多头注意力使每个输入ei先得到初始化的Qi矩阵、Ki矩阵和Vi,再进行注意力权重的学习;多头注意力的输出O={Oi|i∈[1,m]},其中Oi如公式(4)所示:
式(4)中,Ai,j如公式(5)所示,表示第i个输入i经过多头注意力之后学习到的权重输出,m为注意力头的个数,Τ表示矩阵的转置,λ为注意力头的大小,softmax函数将每个数值映射到[0,1]区间;前馈神经网络的计算如公式(6)所示:
式(6)中,O为多头注意力层的输出,W1和b1分别为O的初始化的权重矩阵偏置项,gelu函数的输入小于零会被归为0;线性归一化的计算定义如公式(7)所示:
h=layernorm(g×W2+b2) (7)
式(7)中,h为该层的输出结果,g为多头注意力层的输出,W2和b2分别为g初始化的权重矩阵和偏置项,layernorm函数将输入数值服从标准正态分布;
步骤1.3、通过SACR对Transformer编码的输出的h进行卷积和最大池化,对h的卷积过程定义如公式(8)所示:
式(8)中,Cl x,1,y表示尺度l卷积后(x,1,y)位置的张量值,W3l和b3l分别为卷积核l的初始化矩阵和偏置,t、v表示卷积开始的位置,t=x·s,v=y·s,s为卷积步长,l、k分别为卷积核的维度,卷积过程中的参数规整选用线性整流函数relu;
卷积后的张量矩阵对Cl进行最大池化的定义如公式(9)所示:
式(9)中,Ml x,1,y表示尺度l池化后(x,1,y)位置的张量值,t、v表示池化开始的位置,t=x·s,v=y·s,s为池化的步长,n、m为池化窗口的大小,max函数表示取最大值;
对多尺度CNN的结果进行融合得到η,即η={M1,M2,...,Mδ},其中η为CNN尺度数,对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示:
其中τ为上下文推理的结果,μ、φ为η的特征矩阵,σ为η的长度,Τ表示矩阵的转置,softmax函数表示线性归一化,μ和φΤ的相乘可以学习不同长度文本特征的上下文关联关系,Wμ和Wφ分别为μ、φ的初始化权重矩阵,bμ和bφ分别为μ、φ的偏置,上下文关系权重的自适应学习定义如公式(13)及(14)所示:
其中δ为上下文推理的输出,ξ为η的特征矩阵,Wξ和bξ分别为ξ的初始化权重矩阵和偏置项。
4.如权利要求1所述的基于视觉方面注意的多模态情感分析方法,其特征在于,所述步骤2具体为:假设评论内容R={T,M},其中T表示文本内容,M表示图像内容,M={mj|j∈[1,s]},mj表示评论中的第j张图像,s表示评论内容中共包含s张图像;采用VGG16对图像mj编码为4096维向量,获得视觉特征aj,计算式如公式(15)所示:
aj=VGG16(mj) (15)。
5.如权利要求1所述的基于视觉方面注意的多模态情感分析方法,其特征在于,所述步骤3具体为:将文本特征和视觉特征投影到注意空间并进行非线性激活,对评论文本T的每个文本特征表示δi进行投影和非线性激活的过程如公式(16)所示,对于每个图像表示mj的投影和非线性激活过程如公式(17)所示,激活函数都选用tanh将两者投影到相同的范围,得到的文本投影和图像投影分别为pi和qj:
为了学习文本特征与视觉特征的注意力权重,将文本投影pi和图像投影qj进行相乘、求和及非线性激活,如公式(18)所示:
式(18)中,VΤ表示初始化的全局上下文矩阵V的转置,将vi,j使用softmax进行归一化,得到注意融合特征Ⅰαj,i,如公式(19)所示:
将含有图像的视觉注意融合特征Ⅰαi,j与评论文本T的每个文本特征δi进行聚合,可以得到图像mj对于评论文本T的文档表示dj,将dj作为视觉注意融合特征Ⅱ,计算如公式(20)所示:
由于每个图像特定的文档表示dj对最终的文档表示d有不同的贡献,因此引入融合特征Ⅱβj,如公式(21)所示,其中kj的计算如公式(22)所示:
式(22)中,tanh表示非线性激活函数,文档表示dj通过tanh投射到注意空间,式(21)中,重要性kj是通过乘以初始化的全局上下文注意向量K得到;将文档表示dj进行融合得到最终的文档表示d,并作为分类的输入中,如公式(23)所示,d为最终的多模态融合特征:
6.如权利要求1所述的基于视觉方面注意的多模态情感分析方法,其特征在于,所述步骤4具体为:获得步骤3所得多模态融合特征d后,进行softmax分类,在ρ上产生概率分布,如公式(24)所示:
再使用交叉熵作为损失函数,如公式(25)所示,其中ρ为评论内容R的真实标签:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487113.8A CN116719930A (zh) | 2023-04-28 | 2023-04-28 | 基于视觉方面注意的多模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487113.8A CN116719930A (zh) | 2023-04-28 | 2023-04-28 | 基于视觉方面注意的多模态情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116719930A true CN116719930A (zh) | 2023-09-08 |
Family
ID=87865032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310487113.8A Pending CN116719930A (zh) | 2023-04-28 | 2023-04-28 | 基于视觉方面注意的多模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719930A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077085A (zh) * | 2023-10-17 | 2023-11-17 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119688A (zh) * | 2019-04-18 | 2019-08-13 | 南开大学 | 一种利用视觉注意力协同网络的图像情感分类方法 |
CN110347831A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 基于自注意力机制的情感分类方法 |
CN112801219A (zh) * | 2021-03-22 | 2021-05-14 | 华南师范大学 | 一种多模态情感分类方法、装置及设备 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
WO2021147084A1 (en) * | 2020-01-23 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition in user-generated video(ugv) |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
CN114818691A (zh) * | 2021-01-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 文章内容的评价方法、装置、设备及介质 |
CN114936623A (zh) * | 2022-04-20 | 2022-08-23 | 西北工业大学 | 一种融合多模态数据的方面级情感分析方法 |
CN114969338A (zh) * | 2022-05-25 | 2022-08-30 | 北京理工大学 | 一种基于异质融合和对称翻译的图文情感分类方法及系统 |
CN115146057A (zh) * | 2022-05-27 | 2022-10-04 | 电子科技大学 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
CN115563989A (zh) * | 2022-08-31 | 2023-01-03 | 西安工程大学 | 基于自适应上下文推理机制的内容倾向性评判及预测方法 |
CN115577161A (zh) * | 2022-10-14 | 2023-01-06 | 徐州达希能源技术有限公司 | 融合情感资源的多模态情感分析模型 |
US11551042B1 (en) * | 2018-08-27 | 2023-01-10 | Snap Inc. | Multimodal sentiment classification |
CN115982652A (zh) * | 2022-12-16 | 2023-04-18 | 南京邮电大学 | 一种基于注意力网络的跨模态情感分析方法 |
-
2023
- 2023-04-28 CN CN202310487113.8A patent/CN116719930A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551042B1 (en) * | 2018-08-27 | 2023-01-10 | Snap Inc. | Multimodal sentiment classification |
CN110119688A (zh) * | 2019-04-18 | 2019-08-13 | 南开大学 | 一种利用视觉注意力协同网络的图像情感分类方法 |
CN110347831A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 基于自注意力机制的情感分类方法 |
WO2021147084A1 (en) * | 2020-01-23 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition in user-generated video(ugv) |
WO2022161470A1 (zh) * | 2021-01-29 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 内容的评价方法、装置、设备及介质 |
CN114818691A (zh) * | 2021-01-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 文章内容的评价方法、装置、设备及介质 |
CN112801219A (zh) * | 2021-03-22 | 2021-05-14 | 华南师范大学 | 一种多模态情感分类方法、装置及设备 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
CN114936623A (zh) * | 2022-04-20 | 2022-08-23 | 西北工业大学 | 一种融合多模态数据的方面级情感分析方法 |
CN114969338A (zh) * | 2022-05-25 | 2022-08-30 | 北京理工大学 | 一种基于异质融合和对称翻译的图文情感分类方法及系统 |
CN115146057A (zh) * | 2022-05-27 | 2022-10-04 | 电子科技大学 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
CN115563989A (zh) * | 2022-08-31 | 2023-01-03 | 西安工程大学 | 基于自适应上下文推理机制的内容倾向性评判及预测方法 |
CN115577161A (zh) * | 2022-10-14 | 2023-01-06 | 徐州达希能源技术有限公司 | 融合情感资源的多模态情感分析模型 |
CN115982652A (zh) * | 2022-12-16 | 2023-04-18 | 南京邮电大学 | 一种基于注意力网络的跨模态情感分析方法 |
Non-Patent Citations (4)
Title |
---|
HADY W. LAUW: "VistaNet: visual aspect attention network for multimodal sentiment analysis", 《PROCEEDINGS OF THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE AND THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE AND NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE》, pages 305 - 312 * |
QUOC-TUAN TRUONG: "VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis", 《PROCEEDINGS OF THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE AND THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE AND NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE》, 8 December 2022 (2022-12-08), pages 305 - 312 * |
SHUNING HOU: "Self-adaptive Context Reasoning Mechanism for Text Sentiment Analysis", 《INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS AND APPLICATIONS》, pages 194 - 205 * |
王开心: "基于Pre-LN Transformer的情感分析研究", 《中国硕士学位论文全文数据库信息科技》, pages 138 - 3262 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077085A (zh) * | 2023-10-17 | 2023-11-17 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
CN117077085B (zh) * | 2023-10-17 | 2024-02-09 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN112579778B (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN112766172B (zh) | 一种基于时序注意力机制的人脸连续表情识别方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111737578B (zh) | 一种推荐方法及系统 | |
CN111538761A (zh) | 基于注意力机制的点击率预测方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN113987187B (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN110457480A (zh) | 基于交互式注意力机制的细粒度情感分类模型的构建方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN110543566B (zh) | 一种基于自注意力近邻关系编码的意图分类方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN115761314A (zh) | 一种基于提示学习的电商图文分类方法及系统 | |
CN116719930A (zh) | 基于视觉方面注意的多模态情感分析方法 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113806747B (zh) | 一种木马图片检测方法、系统及计算机可读存储介质 | |
CN117556027A (zh) | 基于数字人技术的智能交互系统及方法 | |
CN117473561A (zh) | 基于人工智能的隐私信息识别系统、方法、设备及介质 | |
CN117150320A (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN112528168A (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN111339734A (zh) | 一种基于文本生成图像的方法 | |
CN115017900B (zh) | 一种基于多模态多去偏见的对话情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |