CN114936623A - 一种融合多模态数据的方面级情感分析方法 - Google Patents

一种融合多模态数据的方面级情感分析方法 Download PDF

Info

Publication number
CN114936623A
CN114936623A CN202210415940.1A CN202210415940A CN114936623A CN 114936623 A CN114936623 A CN 114936623A CN 202210415940 A CN202210415940 A CN 202210415940A CN 114936623 A CN114936623 A CN 114936623A
Authority
CN
China
Prior art keywords
text
word
vector
image
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210415940.1A
Other languages
English (en)
Other versions
CN114936623B (zh
Inventor
王柱
张哲�
李晓娜
郭斌
於志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210415940.1A priority Critical patent/CN114936623B/zh
Publication of CN114936623A publication Critical patent/CN114936623A/zh
Application granted granted Critical
Publication of CN114936623B publication Critical patent/CN114936623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多模态数据的方面级情感分析方法,首先进行数据预处理,文本和图像格式调整到适应神经网络的输入要求;其次特征提取,词嵌入之后使用Bi‑LSTM提取文本特征,Resnet50网络提取图像特征;接下来多模态方面提取和对齐,使用序列标注方法从文本中提取方面术语,使用加入注意力和Point‑wise卷积运算的记忆网络进行图像区域和方面词的隐式对齐;然后基于位置注意力的文本特征,高斯建模上下文显式位置,记忆网络提取方面词敏感的文本表示;接着进行多模态数据融合,融合判别矩阵融合多模态数据;最终进行情感分类,利用融合后的特征信息进行情感分类。本发明使用多模态数据进行方面级情感分析,提取多模态互补信息,提高了情感分析任务的准确率。

Description

一种融合多模态数据的方面级情感分析方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种方面级情感分析方法。
背景技术
近年来,随着信息技术的飞速发展以及个人电脑、手机的全面普及使得互联网上用户生成的数据量爆炸性增长。海量用户活跃在各类应用平台上,对社会热点新闻发表己见,对所消费的产品或者服务发表评价,将自己的个人观点和体验以文本、图片和视频的方式分享给其他人,给后续用户提供参考意见。这些带有丰富数据的观点和评价蕴含着用户所表达的情感信息且十分具有影响力,人们希望通过对从网络中获取的数据进行分析和处理,从而得到有价值的信息。
以往文档级别和句子级别的情感分析只能分析出整个文档或者整个句子表达的一种情感,但是在真实的场景中,一个热点事件或者一件商品会存在多个评价维度,而一个文档或句子中也可能同时包含多个方面并且用户对这些方面的情感不一致。方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)就是分析用户对于每个实体或者实体属性的情感极性,更加全面的考虑了影响句子情感的因素。例如,句子“显示器很清晰,但是键盘敲起来让人很不舒服”描述了“显示器”和“键盘”两个方面,对于这两个方面的情感极性分别是积极和消极。现有ABSA方法主要依赖于文本内容,而当今文本不仅仅包含文本,还包含许多其他的数据源。使用智能手机和平板可以随时随地拍照和录像,互联网上用户生成更多的多模态内容。Flickr和Instagram这类以图片分享为主、文字为辅的新型社交平台的兴起也表明人们越来越倾向于使用图片来表达自己的情感态度。数据里的图像信息和文本信息通常具有协同作用,关联的图像可以和文本可以互相补充,增强对方面的情感分析。
目前方面级情感分析方法主要依赖文本,忽略了多模态数据,这样容易丢失很多有价值的信息。因此需要一种新的方面级情感分类方法来克服现有技术忽略的问题。
发明内容
为了克服现有技术的不足,本发明提供了一种融合多模态数据的方面级情感分析方法,首先进行数据预处理,文本和图像格式调整到适应神经网络的输入要求;其次特征提取,词嵌入之后使用Bi-LSTM提取文本特征,Resnet50网络提取图像特征;接下来多模态方面提取和对齐,使用序列标注方法从文本中提取方面术语,使用加入注意力和Point-wise卷积运算的记忆网络进行图像区域和方面词的隐式对齐;然后基于位置注意力的文本特征,高斯建模上下文显式位置,记忆网络提取方面词敏感的文本表示;接着进行多模态数据融合,融合判别矩阵融合多模态数据;最终进行情感分类,利用融合后的特征信息进行情感分类。本发明使用多模态数据进行方面级情感分析,提取多模态互补信息,提高了情感分析任务的准确率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力。
优选地,所述词向量为GloVe词向量或者BERT预训练词向量。
优选地,所述步骤2具体为:
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
Figure BDA0003604640880000031
Figure BDA0003604640880000032
其中,
Figure BDA0003604640880000033
表示文本的词嵌入向量,
Figure BDA0003604640880000034
表示方面词的词嵌入向量,i和j分别表示进行到第 i或者第j个单词,n表示文本长度,m表示方面词长度,
Figure BDA0003604640880000035
表示文本单词向量的反向LSTM,
Figure BDA0003604640880000036
表示方面词单词向量的反向LSTM,得到文本特征向量和方面词特征向量
Figure BDA0003604640880000037
Figure BDA0003604640880000038
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50 网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk},Wv是可学习参数。
优选地,所述步骤3具体为:
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列
Figure BDA0003604640880000039
该序列共包含n个单词,提取到一个或多个方面词序列
Figure BDA00036046408800000310
一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;首先将方面词特征作为输入进行转换,在第一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,pw代表是转换后的特征信息,(1)表示第一层,ha为方面词词向量平均值,σ表示可学习参数,conv(.)表示代表卷积核为1的卷积运算;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
Figure BDA0003604640880000041
Figure BDA0003604640880000042
Figure BDA0003604640880000043
其中,
Figure BDA0003604640880000044
表示偏置向量,
Figure BDA0003604640880000045
表示可训练权重矩阵,得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征。
优选地,所述步骤4基于位置注意力的文本特征表示如下:
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
Figure BDA0003604640880000046
Figure BDA0003604640880000047
其中,l表示上下文单词与方面词之间的距离,pos(.)表示文本中单词的位置,a表示文本中方面词的位置,
Figure BDA0003604640880000048
表示文本单词,p(.)表示影响概率,σ表示传播范围,为可调参数;将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
Figure BDA0003604640880000049
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数,t表示head的数量;
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示。
优选地,所述步骤5中多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
Figure BDA0003604640880000051
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
Figure BDA0003604640880000052
使用
Figure BDA0003604640880000053
在一行中获得最大相似度;
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv
Figure BDA0003604640880000054
Figure BDA0003604640880000055
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
优选地,所述步骤6情感分类具体如下:
步骤6-1:利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵;
步骤6-2:使用加入了标签平滑正则化LSR的损失函数进行模型训练;
Figure BDA0003604640880000056
Figure BDA0003604640880000057
其中qi为真实的标签表示,pi是输出层给出的标签概率,λ是L2正则化的系数;
步骤6-3:实现融合多模态数据的方面级情感分析。
本发明的有益效果如下:
本发明基于文本和图像两种模态的数据进行方面级情感分析,相对于使用单模态数据的网络能更好地捕捉方面词的描述信息,提高了分类的准确率。并且,本发明提供的方法在网络舆情分析、个性化商品推荐和精准市场营销等领域具有广阔的应用场景。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明旨在提供一种针对文本和图像数据的方面级情感分析模型,证明了方面级情感分析中多模态数据之间互补性的存在,解决传统方面级情感分析方法忽略了多模态数据的问题。
为解决上述问题,本发明提供了一种融合多模态数据的方面级情感分析方法,结合图像和文本两种典型数据模态开展研究,采取的技术方案分为三个部分。
第一个部分,是多模态数据的对齐。为了获得相对于特定方面词敏感的图像部分,即发现与文本方面词语义相关的图像区域,设计了一种层次化多模态数据的关联计算模型,刻画方面词和图像区域之间的交互,在不同计算层使用点卷积和Attention机制量化方面特征和图像区域的对齐程度,获得方面词和图像区域的相关性,捕获并持续更新二者之间的交互影响;这一部分主要包括文本和图像预处理、文本和图像特征提取、多模态方面提取和对齐。
1)对于文本信息,采用多种词嵌入方式或者方式,将单词映射到向量空间。对于图像信息,首先进行预处理以消除图像中的无关信息,将图片缩放保持长宽比不变,然后进行填充分割,并将划分后的每一块大小调整到适应神经网络的输入要求。
2)使用BIO标注体系标记文本,用序列标注方法提取文本中的方面术语。从预处理后的数据将语料划分为训练集、验证集和测试集。提取文本特征,使用Bi-LSTM 提取文本和方面词特征信息,使用预训练Resnet50模型提取图片特征,并将图像特征投影到文本特征空间。
3)采用隐式对齐的方式,使用具有多个计算层的记忆网络提取图像和方面术语之间的交互信息,每一层采用注意力机制进行监督。
第二个部分,本发明针对现有基于分析方法对方面词信息利用不足的问题,构建融合方面词位置信息的多计算层记忆网络模型。自适应地关注方面词和上下文词之间的交互,获得方面词敏感的上下文信息。
1)在采用Bi-LSTM从左到右和从右到左获取文本特征的基础上,利用位置Attention机制指导带有方面信息的文本向量生成,使用高斯分布给距离方面词更近的上下文词赋予更高的权重,并将权重系数与上下文的单词向量相乘。
2)在每个计算层加入MHA多头注意力,将参与计算的向量映射到不同的子表征空间。
第三个部分,设计了融合判别矩阵以度量不同模态之间的相似性。
1)将图像敏感的视觉特征和文本特征的每一个元素使用点积计算得到相似度矩阵,矩阵的任一元素表示一个上下文词和一个图片区域的相似性。
2)将三个部分得到的特征拼接起来,通过softmax层对情感进行分类,进而得到情感结果。
一种融合多模态数据的方面级情感分析方法,包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用GloVe词向量或者BERT预训练词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe 词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
Figure BDA0003604640880000071
Figure BDA0003604640880000072
得到文本特征向量和方面词特征向量
Figure BDA0003604640880000073
Figure BDA0003604640880000074
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50 网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk};
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列
Figure BDA0003604640880000081
该序列共包含n个单词,提取到一个或多个方面词序列
Figure BDA0003604640880000082
一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;在每一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,qw代表Point-wise卷积运算,将上一特征图在深度方向上进行加权组合,生成新特征图,ha为方面词词向量平均值;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
Figure BDA0003604640880000083
Figure BDA0003604640880000084
Figure BDA0003604640880000085
其中,得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
Figure BDA0003604640880000091
Figure BDA0003604640880000092
其中,l表示上下文单词与方面词之间的距离,p(.)表示影响概率,σ表示传播范围,为可调参数;将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
Figure BDA0003604640880000093
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
Figure BDA0003604640880000094
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
Figure BDA0003604640880000095
使用
Figure BDA0003604640880000096
在一行中获得最大相似度;
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv
Figure BDA0003604640880000101
Figure BDA0003604640880000102
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力;
步骤6-1:利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵;
步骤6-2:使用加入了标签平滑正则化LSR的损失函数进行模型训练;
Figure BDA0003604640880000103
Figure BDA0003604640880000104
其中qi为真实的标签表示,pi是输出层给出的标签概率,λ是L2正则化的系数;
步骤6-3:实现融合多模态数据的方面级情感分析。
具体实施例:
对于建立融合多模态数据的方面级情感分析模型,具体地,如图2所示,方面级情感分析模型分为多个模块,包括词嵌入模块对应为(Input Embedding Layer)、特征提取模块对应为Feature Extraction Layer、方面词敏感的记忆网络对应为Aspect- sensitiveMemory Network、方面词敏感的图像网络对应为Aspect-sensitive Visual Network、融合判别矩阵对应为Fusion Discriminant Matrix Layer、输出层对应为Output Layer。从Input Embedding Layer输入文本和图像,其中文本包括方面词及其上下文,经过FeatureExtraction Layer得到文本和图像的对应编码,而后方面词和上下文的对应编码进入Aspect-sensitive Memory Network,方面词和图像的对应编码进入Aspect- sensitiveVisual Network,进一步提取特定于方面词的文本特征和图像特征;通过FusionDiscriminant Matrix Layer对两种模态的特征进行融合。
结合图1~图2,一种融合多模态数据的方面级情感分析方法的具体实施步骤如下:
S1,文本和图像预处理。
S11,进行单词的大小写转换,简单的拼写检查和缩略词修正之后,进行去停用词,规范输入文本的格式。
S12,图像大小需要适应神经网络的输入要求,随机地将图片等比缩放到[256,480] 范围内,然后将缩放得到的图片填充到一个正方形中,并将其分成K个大小相等的区域,对于划分后的每一块区域,将其调整为224*224*3矩阵。最后,对所有图像进行归一化处理。
S2,文本和图像特征提取。
S21,给定文本序列和提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络(Bidirectional LongShort-Term Memory Network,简称Bi-LSTM)提取文本特征。
Figure BDA0003604640880000111
Figure BDA0003604640880000112
得到文本特征向量和方面词特征向量
Figure BDA0003604640880000113
Figure BDA0003604640880000114
S22,对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk}。
S3,多模态方面提取和对齐。
S31,方面提取,提取情感分析对象即方面术语,例如用户文本“这家的菜很一般,但是服务员态度很好”中包含两个方面术语“菜”和“服务员”。首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词。给定文本序列
Figure BDA0003604640880000115
Figure BDA0003604640880000116
该序列共包含n个单词,提取到一个或多个方面词序列
Figure BDA0003604640880000117
Figure BDA0003604640880000118
该一个序列包含一个或多个单词。
S32,针对不同的方面词可能对应图片的不同区域,对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系。在每一层,执行以下操作。
pw(1)=conv(σ(conv(ha,I),I))
pw代表Point-wise卷积运算,将上一特征图在深度方向上进行加权组合,生成新特征图,ha为方面词词向量平均值。
S33,使用注意力机制监督其与图像特征的交互。
在每一层,使用如下步骤监督方面词与图像的交互:
Figure BDA0003604640880000121
Figure BDA0003604640880000122
Figure BDA0003604640880000123
得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征。
S4,基于位置注意力的文本特征。
S41,使用高斯分布来建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下。
Figure BDA0003604640880000124
Figure BDA0003604640880000125
其中,l表示上下文单词与方面词之间的距离,p表示影响概率,σ表示传播范围,为可调参数,将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
Figure BDA0003604640880000126
S42,上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,基于多头注意力(Multi-head Attention,MHA)的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成。
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数。
S43,将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入。最后一个计算层的输出向量ms即为方面词敏感的文本表示。
S5,多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度。
S51,融合判别矩阵计算如下。
Figure BDA0003604640880000131
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积。
S52,对D的每一行进行最大池化。
Figure BDA0003604640880000132
使用
Figure BDA0003604640880000133
在一行中获得最大相似度。
S53,使用Softmax进行归一化计算得到权重向量βsv(即上下文词相对图片区域的最终注意力值),进而获得上下文词关注向量msv
Figure BDA0003604640880000134
Figure BDA0003604640880000135
基于相同的方法,利用相似度矩阵可以进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs
S54,将前六个步骤得到的方面词敏感的图像特征mv、方面敏感的文本特征ms与本步骤得到的文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
S6,情感分类。
S61,利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数可表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵。
S62,使用加入了标签平滑正则化(Label Smoothing Regularization,LSR)的损失函数进行模型训练。
Figure BDA0003604640880000136
其中qi为真实的标签表示,pi是输出层给出的标签概率,λ是L2正则化的系数。
至此,即可实现融合多模态数据的方面级情感分析,利用本发明设计的方法,用户给定多模态评论文本,方面级情感分析框架针对提取到的不同方面词给出了具有参考意义的情感分类。
本发明基于两个公开的多模态数据集TWITTER-15和TWITTER-17,分别包括2014-2015年和2016-2017年的推文。在两个数据集上分别取得了79.03%和73.36%的分类准确率,均取得了基于当前数据集实验的最优性能。

Claims (7)

1.一种融合多模态数据的方面级情感分析方法,其特征在于,包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力。
2.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述词向量为GloVe词向量或者BERT预训练词向量。
3.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤2具体为:
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
Figure FDA0003604640870000021
Figure FDA0003604640870000022
其中,
Figure FDA0003604640870000023
表示文本的词嵌入向量,
Figure FDA0003604640870000024
表示方面词的词嵌入向量,i和j分别表示进行到第i或者第j个单词,n表示文本长度,m表示方面词长度,
Figure FDA0003604640870000025
表示文本单词向量的反向LSTM,
Figure FDA0003604640870000026
表示方面词单词向量的反向LSTM,得到文本特征向量和方面词特征向量
Figure FDA0003604640870000027
Figure FDA0003604640870000028
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk},Wv是可学习参数。
4.根据权利要求3所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤3具体为:
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列
Figure FDA0003604640870000029
该序列共包含n个单词,提取到一个或多个方面词序列
Figure FDA00036046408700000210
一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;首先将方面词特征作为输入进行转换,在第一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,pw代表是转换后的特征信息,(1)表示第一层,ha为方面词词向量平均值,σ表示可学习参数,conv(.)表示代表卷积核为1的卷积运算;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
Figure FDA00036046408700000211
Figure FDA00036046408700000212
Figure FDA0003604640870000031
其中,
Figure FDA0003604640870000032
表示偏置向量,
Figure FDA0003604640870000033
表示可训练权重矩阵,得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征。
5.根据权利要求4所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤4基于位置注意力的文本特征表示如下:
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
Figure FDA0003604640870000034
Figure FDA0003604640870000035
其中,l表示上下文单词与方面词之间的距离,pos(.)表示文本中单词的位置,a表示文本中方面词的位置,
Figure FDA0003604640870000036
表示文本单词,p(.)表示影响概率, σ表示传播范围,为可调参数;将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
Figure FDA0003604640870000037
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数,t表示head的数量;
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示。
6.根据权利要求5所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤5中多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
Figure FDA0003604640870000038
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
Figure FDA0003604640870000041
使用
Figure FDA0003604640870000042
在一行中获得最大相似度;
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv
Figure FDA0003604640870000043
Figure FDA0003604640870000044
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
7.根据权利要求6所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤6情感分类具体如下:
步骤6-1:利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵;
步骤6-2:使用加入了标签平滑正则化LSR的损失函数进行模型训练;
Figure FDA0003604640870000045
Figure FDA0003604640870000046
其中qi为真实的标签表示,pi是输出层给出的标签概率,λ是L2正则化的系数;
步骤6-3:实现融合多模态数据的方面级情感分析。
CN202210415940.1A 2022-04-20 2022-04-20 一种融合多模态数据的方面级情感分析方法 Active CN114936623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210415940.1A CN114936623B (zh) 2022-04-20 2022-04-20 一种融合多模态数据的方面级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210415940.1A CN114936623B (zh) 2022-04-20 2022-04-20 一种融合多模态数据的方面级情感分析方法

Publications (2)

Publication Number Publication Date
CN114936623A true CN114936623A (zh) 2022-08-23
CN114936623B CN114936623B (zh) 2024-02-27

Family

ID=82862273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210415940.1A Active CN114936623B (zh) 2022-04-20 2022-04-20 一种融合多模态数据的方面级情感分析方法

Country Status (1)

Country Link
CN (1) CN114936623B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法
CN116975776A (zh) * 2023-07-14 2023-10-31 湖北楚天高速数字科技有限公司 一种基于张量和互信息的多模态数据融合方法和设备
CN117009925A (zh) * 2023-10-07 2023-11-07 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN113361617A (zh) * 2021-06-15 2021-09-07 西南交通大学 基于多元注意力修正的方面级情感分析建模方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113361617A (zh) * 2021-06-15 2021-09-07 西南交通大学 基于多元注意力修正的方面级情感分析建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨玉亭;冯林;代磊超;苏菡;: "面向上下文注意力联合学习网络的方面级情感分类模型", 模式识别与人工智能, no. 08, 15 August 2020 (2020-08-15) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116049397B (zh) * 2022-12-29 2024-01-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116108186B (zh) * 2023-04-13 2023-06-20 南开大学 一种多模态方面级情感分析方法
CN116719930A (zh) * 2023-04-28 2023-09-08 西安工程大学 基于视觉方面注意的多模态情感分析方法
CN116975776A (zh) * 2023-07-14 2023-10-31 湖北楚天高速数字科技有限公司 一种基于张量和互信息的多模态数据融合方法和设备
CN117009925A (zh) * 2023-10-07 2023-11-07 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法
CN117009925B (zh) * 2023-10-07 2023-12-15 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法

Also Published As

Publication number Publication date
CN114936623B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
US20190188564A1 (en) Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN111125406B (zh) 一种基于自适应聚类学习的视觉关系检测方法
Zhang et al. Multi-layer attention based CNN for target-dependent sentiment classification
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
Gao et al. Self-attention driven adversarial similarity learning network
Ji et al. Survey of visual sentiment prediction for social media analysis
Das et al. Automated Indian sign language recognition system by fusing deep and handcrafted feature
Sultan et al. Sign language identification and recognition: A comparative study
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
Pande et al. Development and deployment of a generative model-based framework for text to photorealistic image generation
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
Shi et al. Unpaired referring expression grounding via bidirectional cross-modal matching
Cao et al. Visual question answering research on multi-layer attention mechanism based on image target features
Liu et al. A multimodal approach for multiple-relation extraction in videos
Pallavi et al. Retrieval of facial sketches using linguistic descriptors: an approach based on hierarchical classification of facial attributes
Yang et al. Visual Skeleton and Reparative Attention for Part-of-Speech image captioning system
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Liang et al. Visual concept conjunction learning with recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant