CN115239937B - 一种跨模态情感预测方法 - Google Patents

一种跨模态情感预测方法 Download PDF

Info

Publication number
CN115239937B
CN115239937B CN202211161450.XA CN202211161450A CN115239937B CN 115239937 B CN115239937 B CN 115239937B CN 202211161450 A CN202211161450 A CN 202211161450A CN 115239937 B CN115239937 B CN 115239937B
Authority
CN
China
Prior art keywords
cross
modal
text
image
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211161450.XA
Other languages
English (en)
Other versions
CN115239937A (zh
Inventor
杨燕
王杰
谢朱洋
张凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202211161450.XA priority Critical patent/CN115239937B/zh
Publication of CN115239937A publication Critical patent/CN115239937A/zh
Application granted granted Critical
Publication of CN115239937B publication Critical patent/CN115239937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态情感预测方法,涉及自然语言信息处理技术领域。其主要步骤如下:(1)对跨模态图片文本数据进行预处理;(2)构建神经网络跨模态情感预测模型,包括构建图像‑文本编码模块,跨模态对齐模块,跨模态融合模块,跨模态关联性学习模块和情感分类模块;(3)在训练集上训练神经网络跨模态情感预测模型;(4)分别在验证集、测试集上对神经网络跨模态情感预测模型进行验证和测试。

Description

一种跨模态情感预测方法
技术领域
本发明涉及自然语言信息处理技术领域,尤其涉及一种跨模态情感预测方法。
背景技术
随着社交媒体和互联网技术的飞速发展,Twitter、微博等社交网络平台已成为用户发布内容的重要方式。人们倾向于将图像和文本一起发布以表达他们的情感或意见,因此越来越多的推文同时具有文本和视觉内容。传统情感分析只考虑了文本内容而忽略了视觉模态的作用,这给社交媒体分析和情感预测带来新的挑战。基于此,跨模态情感预测近年来受到了广泛关注,它旨在从文本和图像等跨模态数据中确定人们对主题或商品的情感极性。
迄今为止,国内外研究人员提出了一系列跨模态情感预测的方法,大致都遵循“先抽取再融合”的范式。即,先分别抽取文本和视觉内容的单模态特征,再使用不同的融合策略聚合这些特征用以情感预测。通过对现有的专利及相关技术的检索发现,现有的与跨模态情感预测有关的方法有:
(1)耿玉水,张康,赵晶,刘建鑫,李文骁. 一种基于张量融合网络的社交媒体情感分析方法及系统[P].提出了一种基于张量融合网络的社交媒体情感分析方法。该方法首先分别提取多模态信息的文本特征和图像特征,然后使用张量融合方法将文本特征和图像特征进行融合得到多模态特征。最后将多模态特征输入全连接层完成情感分类。
(2)丁健宇,祁云嵩,马崟桓,赵呈祥. 基于特征融合的多模态社交媒体情感分析方法[P].提出了一种基于特征融合的多模态社交媒体情感分析方法。该方法采用多头注意力机制提取文本情感特征,采用深度残差网络提取图像情感特征,最后将两种特征拼接起来进行情感分类计算。
(3)甘臣权,冯庆东,付祥,张祖凡. 基于多模态交互融合网络的图文情感分析方法及系统[P].提出了一种基于多模态交互融合网络的图文情感分析方法及系统。该系统采用空洞卷积神经网络、LSTM和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块,并采用多个具有不同神经元的多模态交互网络建模不同粒度的图文特征。最后通过多层感知机获取图文情感倾向。
可以看出现有的跨模态情感分析方法虽然取得了不错的效果,但依然存在着以下不足:(1)大多数方法忽略了模态之间的关联性,即单模态蕴含的情感可能彼此不一致,这会导致多模态情感预测效果不佳。(2)大部分方法只聚焦于不同模态的融合,而忽略了不同模态之间的对齐。(3)大多数方法仅使用简单的相加、拼接对不同模态特征进行融合,难以建模跨模态之间的复杂语义交互。
鉴于以上陈述的已有方案的不足,本发明旨在提供更简单的、更完善的方案,并使之克服现有技术的以上缺点。
发明内容
本发明的目的是提供一种跨模态情感预测方法,它能有效地解决多模态情感预测更加准确的技术问题。
本发明的目的是通过以下技术方案来实现的:
1. 一种跨模态情感预测方法,包括以下步骤:
步骤一、对待分析的跨模态情感的图片、文本数据进行预处理:
(1)将每张输入图片转换为大小为224×224像素的图像,记为
Figure 170308DEST_PATH_IMAGE001
(2)将文本数据的每个输入句子通过插入两个特殊标记进行预处理,即将[CLS]添加到句子开头,[SEP]附加到句子末尾,记为
Figure 310302DEST_PATH_IMAGE002
(3)将预处理后的图像文本数据按照8:1:1的比例划分为训练集、验证集和测试集;
步骤二、构建神经网络跨模态情感预测模型:
(1)构建图像-文本编码模块:
使用预训练模型ResNet作为视觉编码器,对步骤一中预处理后的图像
Figure 14953DEST_PATH_IMAGE001
,进行编码获得图像特征
Figure 556792DEST_PATH_IMAGE003
使用预训练模型BERT作为文本编码器,对步骤一中预处理后的文本
Figure 790328DEST_PATH_IMAGE002
,进行编码获得文本特征
Figure 417618DEST_PATH_IMAGE004
(2)构建跨模态对齐模块:
根据图像特征
Figure 660381DEST_PATH_IMAGE003
和文本特征
Figure 322306DEST_PATH_IMAGE004
构建正负样本,具体地,首先将预处理后的图像、文本数据分为两个以上的批次,对同一批次内的图文输入对
Figure 992322DEST_PATH_IMAGE005
进行样本分类,将来自相同输入对的图文特征记为正样本
Figure 841329DEST_PATH_IMAGE006
,来自不同输入对的图文特征记为负样本
Figure 622203DEST_PATH_IMAGE007
将每个输入对
Figure 138635DEST_PATH_IMAGE005
导入并经过两个不同的全连接层,得到对齐后的图文特征向量
Figure 979552DEST_PATH_IMAGE008
,并以此计算对比损失函数
Figure 581435DEST_PATH_IMAGE009
(3)构建跨模态融合模块:
利用多头注意力机制融合图文特征向量
Figure 166000DEST_PATH_IMAGE008
,得到融合后的跨模态特征
Figure 536939DEST_PATH_IMAGE010
,即:
Figure 548757DEST_PATH_IMAGE011
。其中,
Figure 375286DEST_PATH_IMAGE012
表示多头注意力机制,包括层归一化和残差连接;
(4)构建跨模态关联性学习模块:
对于对齐后的图像特征向量
Figure 497963DEST_PATH_IMAGE013
和文本特征向量
Figure 723408DEST_PATH_IMAGE014
,分别构建两个变分自编码器
Figure 906128DEST_PATH_IMAGE015
Figure 482602DEST_PATH_IMAGE016
,即:
Figure 408970DEST_PATH_IMAGE017
Figure 488922DEST_PATH_IMAGE018
其中,
Figure 108122DEST_PATH_IMAGE019
表示训练集大小,
Figure 906313DEST_PATH_IMAGE020
表示第
Figure 370793DEST_PATH_IMAGE020
个样本;
定义跨模态关联分数
Figure 570830DEST_PATH_IMAGE021
Figure 360932DEST_PATH_IMAGE022
Figure 380840DEST_PATH_IMAGE023
的语义距离,即:
Figure 649010DEST_PATH_IMAGE024
Figure 969133DEST_PATH_IMAGE025
Figure 664557DEST_PATH_IMAGE026
其中,
Figure 171762DEST_PATH_IMAGE027
表示KL散度,
Figure 246552DEST_PATH_IMAGE028
表示文本到图像的关联分数,
Figure 155603DEST_PATH_IMAGE029
表示图像到文本的关联分数。
(5)构建情感分类模块:
将文本特征向量
Figure 287507DEST_PATH_IMAGE014
与跨模态特征
Figure 282008DEST_PATH_IMAGE010
按照关联分数
Figure 891980DEST_PATH_IMAGE021
进行拼接,得到最终的情感特征
Figure 921116DEST_PATH_IMAGE030
,即:
Figure 958342DEST_PATH_IMAGE031
。将情感特征
Figure 705719DEST_PATH_IMAGE030
传入到带有一个隐含层的多层感知机,获得情感倾向的概率分布,并计算分类损失函数
Figure 119382DEST_PATH_IMAGE032
步骤三、训练神经网络跨模态情感预测模型:
神经网络跨模态情感预测模型的训练数据是采用步骤一所述的训练集中的数据,训练目标是最小化整体损失函数
Figure 3025DEST_PATH_IMAGE033
,并使用Adam优化器优化网络参数;神经网络跨模态情感预测模型的整体损失函数
Figure 945573DEST_PATH_IMAGE033
,由分类损失函数
Figure 914666DEST_PATH_IMAGE032
和对比损失函数
Figure 132021DEST_PATH_IMAGE009
加权求和而成,即:
Figure 870170DEST_PATH_IMAGE034
。其中,
Figure 514778DEST_PATH_IMAGE035
为超参数;
步骤四、验证和测试神经网络跨模态情感预测模型:
采用步骤一中预处理后的验证集,对神经网络跨模态情感预测模型进行验证,选取超参数对神经网络跨模态情感预测模型进行优化;再将步骤一所述的测试集中的图像文本数据,输入到经过训练和验证后的神经网络跨模态情感预测模型中,即可进行跨模态情感预测并获得情感倾向。
与现有技术相比,本发明的优点和效果是:
(1)该发明提出了一个基于对比学习的跨模态对齐模块,能够缩小不同模态之间的语义鸿沟。(2)该发明提出的跨模态关联性学习模块,充分利用了不同模态之间语义信息的差异性,提高了模型预测的精度。(3)该发明提出的框架能够扩展到其他相关的多模态问题,具有一定的普适性。
附图说明
图1为本发明的流程示意图,
图2为本发明的整体框架示意图。
具体实施方式
以下结合附图实施对本发明作进一步详细描述。
如图1所示,本发明提出了一种跨模态情感预测方法,由以下步骤组成:
步骤一、对待分析的跨模态图片、文本数据进行预处理:
(1)将每张输入图片转换为大小为224×224像素的图像,记为
Figure 971167DEST_PATH_IMAGE001
(2)将文本数据的每个输入句子通过插入两个特殊标记进行预处理,即将[CLS]添加到句子开头,[SEP]附加到句子末尾,记为
Figure 461054DEST_PATH_IMAGE002
(3)将预处理后的图像文本数据按照8:1:1的比例划分为训练集、验证集和测试集;
步骤二、构建神经网络跨模态情感预测模型:
(1)构建图像-文本编码模块:
使用预训练模型ResNet作为视觉编码器,对步骤一中预处理后的图像
Figure 310499DEST_PATH_IMAGE001
,进行编码获得图像特征
Figure 126009DEST_PATH_IMAGE003
使用预训练模型BERT作为文本编码器,对步骤一中预处理后的文本
Figure 804115DEST_PATH_IMAGE002
,进行编码获得文本特征
Figure 363272DEST_PATH_IMAGE004
(2)构建跨模态对齐模块:
根据图像特征
Figure 810434DEST_PATH_IMAGE003
和文本特征
Figure 796844DEST_PATH_IMAGE004
构建正负样本,具体地,首先将预处理后的图像、文本数据分为两个以上的批次,对同一批次内的图文输入对
Figure 227826DEST_PATH_IMAGE005
进行样本分类,将来自相同输入对的图像文本特征记为正样本
Figure 325095DEST_PATH_IMAGE006
,来自不同输入对的图像文本特征记为负样本
Figure 892342DEST_PATH_IMAGE007
如图2所示,将每个输入对
Figure 49654DEST_PATH_IMAGE005
经过两个不同的全连接层(MLP),得到对齐后的图文特征向量
Figure 436773DEST_PATH_IMAGE008
,并计算对比损失函数
Figure 337733DEST_PATH_IMAGE009
损失函数
Figure 25066DEST_PATH_IMAGE009
的详细推导如下:
首先,计算批次中第
Figure 353279DEST_PATH_IMAGE036
个正样本对的图像到文本对比损失函数,即
Figure 493274DEST_PATH_IMAGE037
其中,
Figure 197925DEST_PATH_IMAGE038
表示
Figure 739764DEST_PATH_IMAGE039
Figure 507388DEST_PATH_IMAGE040
之间的余弦相似度,
Figure 134678DEST_PATH_IMAGE041
表示温度系数,
Figure 377441DEST_PATH_IMAGE042
表示第
Figure 39366DEST_PATH_IMAGE042
个样本对;
然后,计算批次中第
Figure 709382DEST_PATH_IMAGE036
个正样本对的文本到图像对比损失函数,即
Figure 558389DEST_PATH_IMAGE043
最后,将以上两个函数相加得到对比损失函数
Figure 604843DEST_PATH_IMAGE009
,即:
Figure 855695DEST_PATH_IMAGE044
其中,
Figure 696612DEST_PATH_IMAGE045
为超参数。
(3)构建跨模态融合模块:
利用多头注意力机制融合图文特征向量
Figure 32916DEST_PATH_IMAGE008
,得到融合后的跨模态表示
Figure 617481DEST_PATH_IMAGE010
,即:
Figure 722840DEST_PATH_IMAGE011
。其中,
Figure 734659DEST_PATH_IMAGE012
表示多头注意力机制,包括层归一化和残差连接;
(4)构建跨模态关联性学习模块:
对于对齐后的图像特征向量
Figure 823837DEST_PATH_IMAGE013
和文本特征向量
Figure 946514DEST_PATH_IMAGE014
,分别构建两个变分自编码器(VAE),即:
Figure 437538DEST_PATH_IMAGE046
Figure 623188DEST_PATH_IMAGE047
定义跨模态关联分数
Figure 934083DEST_PATH_IMAGE021
Figure 126030DEST_PATH_IMAGE022
Figure 471561DEST_PATH_IMAGE023
的语义距离,即:
Figure 559603DEST_PATH_IMAGE024
Figure 623374DEST_PATH_IMAGE025
Figure 353432DEST_PATH_IMAGE026
其中,
Figure 287890DEST_PATH_IMAGE027
表示KL散度,
Figure 812412DEST_PATH_IMAGE028
表示文本到图像的关联分数,
Figure 97900DEST_PATH_IMAGE029
表示图像到文本的关联分数。
(5)构建情感分类模块:
将文本特征向量
Figure 631650DEST_PATH_IMAGE014
与跨模态表示
Figure 686193DEST_PATH_IMAGE010
按照关联分数
Figure 116038DEST_PATH_IMAGE021
进行拼接,得到最终的情感特征
Figure 888822DEST_PATH_IMAGE030
,即:
Figure 960683DEST_PATH_IMAGE031
。将情感特征
Figure 869733DEST_PATH_IMAGE030
传入到带有一个隐含层的多层感知机,获得情感倾向的概率分布,并计算分类损失函数
Figure 535725DEST_PATH_IMAGE032
步骤三、训练神经网络跨模态情感预测模型:
神经网络跨模态情感预测模型的训练数据是采用步骤一所述的训练集中的数据,训练目标是最小化整体损失函数
Figure 795805DEST_PATH_IMAGE033
,并使用Adam优化器优化网络参数;神经网络跨模态情感预测模型的整体损失函数
Figure 671357DEST_PATH_IMAGE033
,由分类损失函数
Figure 169335DEST_PATH_IMAGE032
和对比损失函数
Figure 472140DEST_PATH_IMAGE009
加权求和而成,
即:
Figure 953937DEST_PATH_IMAGE034
其中,
Figure 367601DEST_PATH_IMAGE048
为超参数;
步骤四、验证和测试神经网络跨模态情感预测模型:
采用步骤一中预处理后的验证集,对神经网络跨模态情感预测模型进行验证,选取超参数对神经网络跨模态情感预测模型进行优化;再将步骤一所述的测试集中的图像文本数据,输入到经过训练和验证后的神经网络跨模态情感预测模型中,即可进行跨模态情感预测并获得情感倾向。
对本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。

Claims (1)

1.一种跨模态情感预测方法,其特征在于:所述跨模态情感预测方法包括以下步骤:
步骤一、对待分析的跨模态情感的图片、文本数据进行预处理:
(1)将每张输入图片转换为大小为224×224像素的图像,记为
Figure 484476DEST_PATH_IMAGE001
(2)将文本数据的每个输入句子通过插入两个特殊标记进行预处理,即将[CLS]添加到句子开头,[SEP]附加到句子末尾,记为
Figure 425887DEST_PATH_IMAGE002
(3)将预处理后的图像文本数据按照8:1:1的比例划分为训练集、验证集和测试集;
步骤二、构建神经网络跨模态情感预测模型:
(1)构建图像-文本编码模块:
使用预训练模型ResNet作为视觉编码器,对步骤一中预处理后的图像
Figure 8178DEST_PATH_IMAGE001
,进行编码获得图像特征
Figure 198988DEST_PATH_IMAGE003
使用预训练模型BERT作为文本编码器,对步骤一中预处理后的文本
Figure 390673DEST_PATH_IMAGE002
,进行编码获得文本特征
Figure 655432DEST_PATH_IMAGE004
(2)构建跨模态对齐模块:
根据图像特征
Figure 408624DEST_PATH_IMAGE003
和文本特征
Figure 86730DEST_PATH_IMAGE004
构建正负样本,具体地,首先将预处理后的图像、文本数据分为两个以上的批次,对同一批次内的图文输入对
Figure 583571DEST_PATH_IMAGE005
进行样本分类,将来自相同输入对的图文特征记为正样本
Figure 968416DEST_PATH_IMAGE006
,来自不同输入对的图文特征记为负样本
Figure 626930DEST_PATH_IMAGE007
将每个输入对
Figure 995595DEST_PATH_IMAGE005
导入并经过两个不同的全连接层,得到对齐后的图文特征向量
Figure 827284DEST_PATH_IMAGE008
,并以此计算对比损失函数
Figure 597794DEST_PATH_IMAGE009
(3)构建跨模态融合模块:
利用多头注意力机制融合图文特征向量
Figure 916956DEST_PATH_IMAGE008
,得到融合后的跨模态特征
Figure 507337DEST_PATH_IMAGE010
,即:
Figure 345980DEST_PATH_IMAGE011
;其中,
Figure 502155DEST_PATH_IMAGE012
表示多头注意力机制,包括层归一化和残差连接;
(4)构建跨模态关联性学习模块:
对于对齐后的图像特征向量
Figure 768052DEST_PATH_IMAGE013
和文本特征向量
Figure 580150DEST_PATH_IMAGE014
,分别构建两个变分自编码器
Figure 222484DEST_PATH_IMAGE015
Figure 702007DEST_PATH_IMAGE016
,即:
Figure DEST_PATH_IMAGE017
Figure 404383DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
表示训练集大小,
Figure 671154DEST_PATH_IMAGE020
表示训练集中图像的隐含变量,
Figure 851600DEST_PATH_IMAGE021
表示训练集中文本的隐含变量,
Figure 982367DEST_PATH_IMAGE022
表示第
Figure 590066DEST_PATH_IMAGE023
个样本中图像的后验分布,
Figure 376756DEST_PATH_IMAGE024
表示第
Figure 95314DEST_PATH_IMAGE023
个样本中文本的后验分布;
定义第
Figure 346166DEST_PATH_IMAGE023
个样本中图像特征和文本特征之间的跨模态关联分数
Figure 124766DEST_PATH_IMAGE025
,即:
Figure 664332DEST_PATH_IMAGE026
Figure 422466DEST_PATH_IMAGE027
Figure 731088DEST_PATH_IMAGE028
其中,
Figure 477327DEST_PATH_IMAGE029
表示KL散度,
Figure 238609DEST_PATH_IMAGE030
表示第
Figure 298969DEST_PATH_IMAGE023
个样本中文本特征到图像特征的关联分数,
Figure 462097DEST_PATH_IMAGE031
表示第
Figure 379238DEST_PATH_IMAGE023
个样本中图像特征到文本特征的关联分数;
(5)构建情感分类模块:
将文本特征向量
Figure 893396DEST_PATH_IMAGE014
与跨模态特征
Figure 757447DEST_PATH_IMAGE010
按照关联分数
Figure 509502DEST_PATH_IMAGE032
进行拼接,得到最终的情感特征
Figure 564920DEST_PATH_IMAGE033
,即:
Figure 97533DEST_PATH_IMAGE034
;将情感特征
Figure 765275DEST_PATH_IMAGE033
传入到带有一个隐含层的多层感知机,获得情感倾向的概率分布,并计算分类损失函数
Figure 637416DEST_PATH_IMAGE035
步骤三、训练神经网络跨模态情感预测模型:
神经网络跨模态情感预测模型的训练数据是采用步骤一所述的训练集中的数据,训练目标是最小化整体损失函数
Figure 365200DEST_PATH_IMAGE036
,并使用Adam优化器优化网络参数;神经网络跨模态情感预测模型的整体损失函数
Figure 322792DEST_PATH_IMAGE036
,由分类损失函数
Figure 528645DEST_PATH_IMAGE035
和对比损失函数
Figure 317610DEST_PATH_IMAGE009
加权求和而成,
即:
Figure 216296DEST_PATH_IMAGE037
其中,
Figure 661183DEST_PATH_IMAGE038
为超参数;
步骤四、验证和测试神经网络跨模态情感预测模型:
采用步骤一中预处理后的验证集,对神经网络跨模态情感预测模型进行验证,选取超参数对神经网络跨模态情感预测模型进行优化;再将步骤一所述的测试集中的图像文本数据,输入到经过训练和验证后的神经网络跨模态情感预测模型中,即可进行跨模态情感预测并获得情感倾向。
CN202211161450.XA 2022-09-23 2022-09-23 一种跨模态情感预测方法 Active CN115239937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211161450.XA CN115239937B (zh) 2022-09-23 2022-09-23 一种跨模态情感预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211161450.XA CN115239937B (zh) 2022-09-23 2022-09-23 一种跨模态情感预测方法

Publications (2)

Publication Number Publication Date
CN115239937A CN115239937A (zh) 2022-10-25
CN115239937B true CN115239937B (zh) 2022-12-20

Family

ID=83667216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211161450.XA Active CN115239937B (zh) 2022-09-23 2022-09-23 一种跨模态情感预测方法

Country Status (1)

Country Link
CN (1) CN115239937B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809438B (zh) * 2023-01-18 2023-06-16 中国科学技术大学 多模态情感分析方法、系统、设备及存储介质
CN116842141B (zh) * 2023-08-28 2023-11-07 北京中安科技发展有限公司 一种基于警烟联动数字化情报研判方法
CN117151223B (zh) * 2023-10-31 2024-01-23 北京新广视通科技集团有限责任公司 一种基于可学习提示的多模态实体识别和关系抽取方法
CN117195903B (zh) * 2023-11-07 2024-01-23 北京新广视通科技集团有限责任公司 基于噪声感知的生成式、多模态实体关系抽取方法及系统
CN117290461B (zh) * 2023-11-24 2024-02-06 湖南君安科技有限公司 融合aspp模块与跨模态交互的多模态对话生成方法
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法
CN117975342B (zh) * 2024-03-28 2024-06-11 江西尚通科技发展有限公司 半监督多模态情感分析方法、系统、存储介质及计算机

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110321918A (zh) * 2019-04-28 2019-10-11 厦门大学 基于微博的舆论机器人系统情感分析和图像标注的方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质
CN113361396A (zh) * 2021-06-04 2021-09-07 思必驰科技股份有限公司 多模态的知识蒸馏方法及系统
CN114330334A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 一种基于知识图谱和跨模态注意力的多模态反讽检测方法
CN114547261A (zh) * 2022-01-13 2022-05-27 北京理工大学 针对请求和情感标签生成的带有指定情感的机器回复方法
CN114757183A (zh) * 2022-04-11 2022-07-15 北京理工大学 一种基于对比对齐网络的跨领域情感分类方法
CN114841335A (zh) * 2022-01-19 2022-08-02 苏州大学 基于变分蒸馏的多模态联合表示学习方法及系统
CN114973044A (zh) * 2021-02-22 2022-08-30 上海大学 一种基于双模态信息增强多头注意力的视频情感分析方法
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878196B2 (en) * 2018-10-02 2020-12-29 At&T Intellectual Property I, L.P. Sentiment analysis tuning
CN113158875B (zh) * 2021-04-16 2022-07-01 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统
CN114936623B (zh) * 2022-04-20 2024-02-27 西北工业大学 一种融合多模态数据的方面级情感分析方法
CN115034227B (zh) * 2022-06-28 2024-04-19 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110321918A (zh) * 2019-04-28 2019-10-11 厦门大学 基于微博的舆论机器人系统情感分析和图像标注的方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质
CN114973044A (zh) * 2021-02-22 2022-08-30 上海大学 一种基于双模态信息增强多头注意力的视频情感分析方法
CN113361396A (zh) * 2021-06-04 2021-09-07 思必驰科技股份有限公司 多模态的知识蒸馏方法及系统
CN114330334A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 一种基于知识图谱和跨模态注意力的多模态反讽检测方法
CN114547261A (zh) * 2022-01-13 2022-05-27 北京理工大学 针对请求和情感标签生成的带有指定情感的机器回复方法
CN114841335A (zh) * 2022-01-19 2022-08-02 苏州大学 基于变分蒸馏的多模态联合表示学习方法及系统
CN114757183A (zh) * 2022-04-11 2022-07-15 北京理工大学 一种基于对比对齐网络的跨领域情感分类方法
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
ABAFN:面向多模态的方面级情感分析模型;刘路路等;《计算机工程与应用》;20220524;第58卷(第10期);193-199 *
Cross-modal context-gated convolution for multi-modal sentiment analysis;Huanglu Wen等;《Pattern Recognition Letters》;20210327;第146卷;252-259 *
Multi-Attention Fusion Modeling for Sentiment Analysis of Educational Big Data;Guanlin Zhai等;《BIG DATA MINING AND ANALYTICS》;20201231;第3卷(第4期);311-319 *
Multimodal Representations Learning Based on Mutual Information Maximization and Minimization and Identity Embedding for Multimodal Sentiment Analysis;Jiahao Zheng等;《arXiv》;20220704;1-10 *
Multimodal Sentiment Analysis Based on Cross-Modal Attention and Gated Cyclic Hierarchical Fusion Networks;Zhibang Quan等;《Computational Intelligence and Neuroscience》;20220809;第2022卷;1-12 *
基于多层跨模态注意力融合的图文情感分析;陈巧红等;《浙江理工大学学报》;20211011;第47卷(第1期);85-94 *
基于话语间时序多模态数据的情绪分析方法;冯广等;《计算机系统应用》;20220411;第31卷(第5期);195-202 *
基于跨模态融合的图文情感分析方法研究;安迅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210615(第06期);I138-504 *
融合全模态自编码器和生成对抗机制的跨模态检索;赵鹏等;《计算机辅助设计与图形学学报》;20211031;第33卷(第10期);1486-1494 *

Also Published As

Publication number Publication date
CN115239937A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN115239937B (zh) 一种跨模态情感预测方法
Gao et al. An attention-based unsupervised adversarial model for movie review spam detection
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN115017358B (zh) 一种多模态交互的跨模态检索方法及系统
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN114117041B (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
Zhu et al. Self-supervised learning for sentiment analysis via image-text matching
CN112182227A (zh) 基于transD知识图嵌入的文本情感分类系统及方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116702753A (zh) 基于图注意力网络的文本情感分析方法
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
Xu et al. Research on depression tendency detection based on image and text fusion
CN114298011B (zh) 神经网络、训练方法、方面级情感分析方法、装置及存储介质
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant