CN116758558A - 基于跨模态生成对抗网络的图文情感分类方法及系统 - Google Patents
基于跨模态生成对抗网络的图文情感分类方法及系统 Download PDFInfo
- Publication number
- CN116758558A CN116758558A CN202310785820.5A CN202310785820A CN116758558A CN 116758558 A CN116758558 A CN 116758558A CN 202310785820 A CN202310785820 A CN 202310785820A CN 116758558 A CN116758558 A CN 116758558A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- model
- feature
- gansa
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 37
- 230000014509 gene expression Effects 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 239000013589 supplement Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 18
- 230000008485 antagonism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000007958 sleep Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000012743 protein tagging Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于跨模态生成对抗网络的图文情感分类方法及系统,进行数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;设置GANSA模型,在GANSA模型中首先进行图文模态特征提取,文本特征提取及OCR特征提取,再进行图文特征生成;模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到图文对情感分析结果。本发明支持多种社交媒体平台的图文情感分类任务,优化图文模态的特征提取和特征融合,情感预测更准确。
Description
技术领域
本发明属于自然语言处理和视觉交叉领域的图文情感识别领域,更具体地,涉及一种基于跨模态生成对抗网络的图文情感分类方案,具体是生成对抗网络用于优化多模态特征生成,门控融合模块用于图文特征融合,从而判断图文情感状态的技术方案。
背景技术
随着社交媒体与社交方式的不断创新,相较于传统的文字社交表达,用户也趋于在社交媒体上通过文本和图像的形式来发布自己对事件、产品、生活的观点和评论,这些信息富含情感色彩和倾向性。对于社交媒体而言,单一模态所表达的情感是不完整的且存在局限性,而多模态往往能传达更准确和丰富的情感信息,展现文本可能隐藏的信息。这些单模态数据之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征,并且能够进一步增强模型表达能力及稳定性,提升情感任务分析性能。相比于文本或图像情感分析,多模态情感分析往往涉及多模态特征学习、多模态对齐和多模态融合技术。模态的特征学习一般通过预训练模型或者深度神经网络提取。对齐方面可以引入多模态转换器(MuIT)以端到端方式解决模态未对齐问题。主流的融合方式有特征融合、决策融合和一致性回归融合。
在社交媒体中,用户会倾向于用表情包而不是真实照片来表达情感,因为表情包可以传达更生动直接的情感,也会补充或者加强相应文本表达的情感。由于用户发表的博客缺乏上下文,社交媒体中的情感分析具有挑战性。基于表情包的多模态情感分析任务在三个方面具有挑战性:表情包固有的多模态,表情包之间的显著差异以及复杂的多模态情感融合。首先,表情包是固有的多模态,因为他们嵌入了文本,且相同的表情包配上不同表情包文本可能会在情感上有很大的差异。其次,表情包在风格上多变,会导致模型很难根据不同的分布学习表情包的鲁棒表示,而传统图像主要由人像、风景或者食物等组成,风格变化不大。最后,文本和表情包的情感融合是复杂的。以往方法认为文本起着主导作用,忽略了图像本身为多模态的情况,或者通过分别应用深度神经网络获得图像和文本特征,利用多层感知机(MLP)将模态信息结合,用于推断用户的潜在情感状态,这样的处理过于简单,不够灵活。为优化图文特征表示,可以通过生成对抗网络在辅助模态的补充下得到目标模态的生成特征,且通过门控融合充分挖掘图文模态间的互补性,对于图文整体情感分析是有意义的。
迄今为止,国内外研究人员提出了一系列跨模态情感预测的方法,大致都遵循“先抽取再融合”的范式。即,先分别抽取文本和视觉内容的单模态特征,再使用不同的融合策略聚合这些特征用以情感预测。通过对现有的专利及相关技术的检索发现,现有的与跨模态情感预测有关的方法有:
[1]陈锻生,吴琼,吴扬扬,雷庆,张洪博.一种基于紧凑双线性融合的图文跨模态情感分类方法[P].CN107066583A公开的方法首先分别提取多模态信息的文本特征和图像特征,然后使用双线性融合方法将文本特征和图像特征进行融合得到多模态特征。最后将多模态特征输入全连接层完成情感分类。
[2]耿玉水,张康,赵晶,刘建鑫,李文骁.一种基于多模态特征融合的社交媒体情感分析方法及系统[P].CN112508077A公开的该方式采用降噪自编码器提取文本特征,采用变分自动编码器提取图像特征,最后将文本特征和图像特征进行跨模态融合进行情感分类。
可以看出现有的跨模态情感分析方法虽然取得了不错的效果,但依然存在着以下不足:(1)大部分方法未能考虑图像本身为多模态的情况,忽略了图像中文字蕴含的情感信息。
(2)大多数方法忽略了模态之间的关联性,单一模态可能会存在语义歧义性,这会导致多模态情感预测效果不佳。
(3)大多数方法仅使用简单的相加、拼接对不同模态特征进行融合,难以建模跨模态之间的复杂语义交互。
发明内容
现有的图文情感分类方法未能充分考虑图像本身为多模态的问题。为了解决上述现有技术中存在的不足,本发明提供了一种能够优化图文特征表示和图文模态融合用于情感分类的方法。
为了实现上述目的,本发明提出一种基于跨模态生成对抗网络的图文情感分类方法,包括以下步骤:
步骤1,数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;
步骤2,数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;
步骤3,设置GANSA模型,所述GANSA模型为图文情感分类模型,
在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征,
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
步骤4,模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
而且,将用户发表的文字拼接后转成单词序列X=[x1,x2,...,xN],其中xi是单词和位置嵌入的总和,N是序列的最大长度,将单词序列X输入到RoBERTa模型中进行编码,把编码器最后一层的输出作为文本字编码Vz;然后将文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征VT;OCR特征提取与文本特征提取方式一致,OCR特征记为VO。
而且,将图像I统一调整为预设尺寸并进行归一化,然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征VI。
而且,图文特征生成及进行图文特征融合和情感预测的实现如下:
1)构建辅助融合模块,用来保留来自各个辅助模态的信息。对于给定辅助模态的特征V1和V2,首先将它们拼接起来得到输入向量Vin,然后将线性变换作用于输入向量得到辅助融合向量VF,并减少辅助融合向量的维数。
2)将图像特征和表情包中文字特征通过辅助融合模块得到表情包辅助特征VIO;然后将文本特征作为目标模态输入特征通过生成器,并添加一定的噪声,得到文本模态的生成特征VTG,判别器将识别输入特征的来源;最后,采用对抗的方式训练网络,将表情包辅助特征VIO标记为真实样本,生成特征VTG标记为生成样本,并计算损失函数LT;
3)与2)同理,利用生成对抗网络的生成器在辅助模态的补充下得到图像模态的生成特征VIG;
4)将2)的文本生成特征和3)的图像生成特征通过Sigmoid激活函数获得图文模态的门控权重矩阵g;然后,使用门控权重矩阵得到图文模态的融合特征VM;
然后将图文的融合特征向量输入到全连接层和Softmax函数中,得到最终的情感预测值。
而且,根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练;
交叉熵损失函数公式为:
其中,Loss为损失函数值。
另一方面,本发明提供一种基于跨模态生成对抗网络的图文情感分类系统,用于实现如上所述的一种基于跨模态生成对抗网络的图文情感分类方法。
而且,包括以下模块,
第一模块,用于数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;
第二模块,用于数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;
第三模块,用于设置GANSA模型,所述GANSA模型为图文情感分类模型,在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征,
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
第四模块,用于模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。
本发明适用于对用户在社交媒体中发表的图文进行情感预测,引入生成对抗网络在辅助模态的补充下增强图文模态的特征表示,且使用门控融合进一步挖掘图文模态间的互补性,使图文情感分类更准确。
相对于现有技术,本专利主要优化的是两个点:
第一个是图像本身固有的多模态,即图像为表情包时,充分提取图像特征和图像中的文本特征
第二个是减弱语义歧义性带来的噪声。利用辅助融合模块帮助生成对抗网络生成文本特征和图像特征。
最后引入门控融合机制衡量模态间信息的互补关系,将图文模态特征信息进行有效融合。
本发明方案实施简单方便,实用性强,解决了相关技术存在的实用性低及实际应用不便的问题,能够提高用户体验,具有重要的市场价值。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的GANSA模型中AF模块框架图;
图3为本发明实施例的GANSA模型中GAN模块框架图。
图4为本发明实施例的具体应用示例图。
图5为本发明实施例的数据集和标注工具样例图。
具体实施方式
以下结合附图和实施例具体说明本发明的技术方案。
本发明公开了一种基于跨模态生成对抗网络的图文情感分类,解决主流模型无法直接处理或处理图像本身为多模态时效果不佳的问题;进行社交媒体图文情感数据集采集;搭建标注工具,构建图文情感数据集;模型训练,包括使用数据集对GANSA模型进行训练;在特征提取时,使用双向门控循环单元得到具有上下文的文本特征和OCR特征,使用区域检测网络得到图像视觉特征;使用GAN模块获在辅助模态的补充下优化目标模态的特征表示;在特征融合时,使用门控融合模块充分挖掘图文模态间的互补性,学习到潜在的情感表示用于图文整体情感预测。本发明支持多种社交媒体平台的图文情感分类任务,在常见图文情感分类处理图像本身为多模态的情况下,优化图文模态的特征提取和特征融合,情感预测更准确。
首先就本发明的技术术语进行解释和说明:
AF:AF是Auxiliary Fusion的缩写,意外辅助融合;
GAN:GAN是Generative Adversarial Network的缩写,意为生成对抗网络;
GF:GF是Gated Fusion的缩写,意外门控融合
RoBERTa:RoBERTa的全称为A Robustly Optimized BERT PretrainingApproach,是一个预训练的语言表征模型。建立在BERT的语言掩蔽策略的基础上,修改BERT中的关键超参数,采用动态改变训练数据的masked language model(MLM),以致能生成深度的双向语言表征。
Fast R-CNN:Fast R-CNN的全称为Fast Region-based Convolutional Network,是一个预训练模型的视觉表征模型。作为目标检测器,通过提取每张图像中概率最高的多个检测目标,将其作为视觉特征。
Softmax:Softmax函数,是使用范围最广的一类激活函数,将模型的预测结果转化到指数函数上,再将转换后的结果进行归一化处理。
参见图1,本发明实施例提供一种基于双注意力的图文情感分类方法,包括以下步骤:
步骤1.首先数据集采集与预处理,构建图文情感数据集,实施例优选采用的实现方式具体包括如下子步骤:
步骤1.1:在社交媒体平台以“打工人”为主题获取用户发表的图文,再去除文本中非法字符、网页连接和广告等无效信息;
实施例中,使用爬虫技术以关键字采集微博上用户发表的图文数据,并结构化HTML数据,抽取出文本、图像。
步骤1.2:进行数据预处理,去除文本中非法字符和网页连接和等无效字符;
步骤2.然后,搭建标注平台并对整理好的数据进行标注。
参见图5,实施例优选采用的实现方式如下:
步骤2.1:优选建议使用VUE前端框架搭建可视化标注平台,具体实施时可以本地预先上传文本和图像。
步骤2.2:数据标注,按照事先制定好的标注规范,将图文是否有效、图文整体的情感标签、表情符号转化的表情文本、具有特定情感倾向的线索文本依次标出作为一个完整的图文情感对。具体实施时,标准可以预先进行,将准备好的图文情感对输入。
步骤2.3:图像文字识别,使用开源OCR对图像中的文字进行识别并经检验存入数据集。
具体实施时,图文整体情感从3个方面进行标注,首先,若文本与图像情感倾向一致,则整体情感与文本情感倾向相同;其次,若文本与图像情感倾向不一致,则整体情感倾向根据实际情况考虑;最后,若文本中出现情感转折,根据图像情感判断整体情感。具体实施时,可参见图5所示数据集和标注工具样例。
步骤3.设置GANSA模型,所述GANSA模型为图文情感分类模型,
1)在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征。
训练模型时可使用整理好的数据集进行图文模态特征提取。优选建议方案为:
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
在本实施例中,图文情感数据集使用预训练好的模型进行特征提取,包含以下步骤:
步骤3.1:文本特征提取,将文本转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征;
步骤3.2:OCR特征提取,图像中的文字转成单词序列并输入到RoBERTa模型得到字编码;再将字编码经过双向门控循环单元得到具有上下文信息的OCR特征;
步骤3.3:图像特征提取,将图像归一化并输入到Fast R-CNN模型得到图像特征;
优选建议的具体特征提取方式如下:
将用户发表的文字拼接后转成单词序列X=[x1,x2,...,xN],其中xi是单词和位置嵌入的总和,i为序列标号,N是序列的最大长度,将单词序列X输入到RoBERTa模型中进行编码,把编码器最后一层的输出作为文本字编码Vz;然后将所得文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征VT;OCR特征提取与文本特征提取方式一致,所得OCR特征记为VO,所述RoBERTa模型为现有技术,本发明不予赘述;
所述文本特征VT的提取公式为:
VZ=RoBERTa(X)=[v1,v2,…,vn] (1)
VT=BiGRU(VZ)=[h1,h2,…,hn] (5)
其中,RoBERTa()表示RoBERTa预训练模型,[v1,v2,…,vn]表示文本自编码,vi表示第i个单词的字编码,表示正向GRU,/>表示反向GRU,/>表示正向GRU中的隐藏层输出,/>表示反向GRU中隐藏层的输出,hi表示双向GRU隐藏层的输出,BiGRU()表示双向GRU。
将图像I统一调整为224*224尺寸并进行归一化,然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征VI;所述Fast R-CNN为现有技术,本发明不予赘述;
所诉图像特征的提取公式为:
VI=Fast R-CNN(I) (6)
其中,Fast R-CNN()表示Fast R-CNN预训练模型。
2)再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
实施例使用GAN模块进行图文特征生成,步骤如下:
1)将两种辅助模态通过辅助融合模块分别得到图像辅助特征和文本辅助特征。
2)将图像辅助特征和文本特征输入到生成对抗网络中;对文本特征生成器和判别器进行训练,获得带有图像辅助特征交互的文本生成特征;
3)将文本辅助特征和图像特征输入到生成对抗网络中;对图像特征生成器和判别器进行训练,获得带有文本辅助特征交互的图像生成特征。
参见图2和图3,优选建议的具体图文特征生成方式如下:
构建辅助融合模块,用来保留来自各个辅助模态的信息。对于给定辅助模态的特征V1和V2,首先将它们拼接起来得到输入向量Vin,然后将线性变换作用于输入向量得到辅助融合向量VF,并减少辅助融合向量的维数。
VF=Linear(Vin) (8)其中,表示特征拼接,Linear()表示线性层。
将图像特征和表情包中文字特征通过辅助融合模块得到表情包辅助特征VIO;然后将文本特征作为目标模态输入特征通过生成器,并添加一定的噪声,得到文本模态的生成特征VTG,判别器将识别输入特征的来源。最后,采用对抗的方式训练网络,将表情包辅助特征VIO标记为真实样本,生成特征VTG标记为生成样本,并计算损失函数LT
VIO=AF(VI,VO) (9)
VTG=G(VT) (10)
其中,AF()为辅助融合模块,G()为生成对抗网络中的生成器,D()为生成对抗网络中的判别器,和/>分别表示辅助模态和生成模态的概率。
同理,利用生成对抗网络的生成器在辅助模态的补充下得到图像模态的生成特征VIG
VTO=AF(VT,VO) (12)
VIG=G(VI) (13)
其中,AF()为辅助融合模块,文本辅助特征VTO标记为真实样本,生成特征VIG标记为生成样本。
实施例使用GF模块进行图文特征融合和情感预测,步骤如下:
1)将生成的文本特征和图像特征通过Sigmoid激活函数获得图文模态的门控权重矩阵。
2)使用门控权重矩阵得到图文模态的融合特征。
3)将图文的融合特征向量输入到全连接层和Softmax函数中进行图文情感预测。
优选建议的GF模块处理过程如下:
将2)的文本生成特征和3)的图像生成特征通过Sigmoid激活函数获得图文模态的门控权重矩阵g;然后,使用门控权重矩阵得到图文模态的融合特征VM
g=Sigmoid(WIVIG+ WTVTG) (14)
VM=g⊙VTG+(1-g)⊙VIG (15)
其中,WI,WT均为可训练权重矩阵,Sigmoid()为激活函数,⊙表示矩阵相乘。
然后将图文的融合特征向量输入到全连接层和Softmax函数中,得到最终的情感预测值;
F=Linear(WfVM) (16)
p=softmax(WpF) (17)
其中,Wf、Wp均为可训练权重矩阵。
步骤4.模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
优选建议的交叉熵损失函数如下:
根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练;
交叉熵损失函数公式为:
其中,Loss为损失函数值。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。例如,可以提供相应系统,分模块实现图文情感数据采集和筛选、模型训练。
图文情感数据采集和筛选采用半人工标注的方式,首先使用机器对图文数据进行采集、结构化、筛选。再使用人工标注的方式,为数据进行信息补充,清洗数据后得到图文情感数据集。
模型训练使用图文情感数据集,本实施例的应用实例参照附图4,首先,图像中的文字通过OCR识别为“只是沙子进眼睛了”,然后和文本“[晕]我这睡眠真是为打工人量身定做,也就睡了4个多小时,多晚睡都能7点多醒,夜晚真的是一想点儿事儿就没困意了”分别经过RoBERTa预训练模型得到字编码,然后将字编码表示输入到双向门控循环单元获得具有上下文语义信息的文本特征表示和OCR特征表示;对于图像预处理后输入到Fast R-CNN预训练模型,得到图像表示;
其次,对于特征优化模块,从两个角度学习增强的特征表示,第一个是从文本出发,通过生成对抗网络在图像辅助特征的补充下获得文本生成特征;第二个是从视觉出发,通过生成对抗网络在文本辅助特征的补充下获得图像生成特征。在特征融合模块,通过门控融合学习文本生成特征和图像生成特征的互补关系,获得图文融合特征;最后将融合特征经过全连接层和Softmax激活函数预测情感结果。
在一些可能的实施例中,提供一种基于跨模态生成对抗网络的图文情感分类系统,包括以下模块,
第一模块,用于数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;
第二模块,用于数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;
第三模块,用于设置GANSA模型,所述GANSA模型为图文情感分类模型,在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征,
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
第四模块,用于模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
在一些可能的实施例中,提供一种基于跨模态生成对抗网络的图文情感分类系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于跨模态生成对抗网络的图文情感分类方法。
在一些可能的实施例中,提供一种基于跨模态生成对抗网络的图文情感分类系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种基于跨模态生成对抗网络的图文情感分类方法,其特征在于,包括以下步骤:
步骤1,数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;
步骤2,数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;
步骤3,设置GANSA模型,所述GANSA模型为图文情感分类模型,
在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征,
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
步骤4,模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
2.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法,其特征在于:将用户发表的文字拼接后转成单词序列X=[x1,x2,…,xN],其中xi是单词和位置嵌入的总和,N是序列的最大长度,将单词序列X输入到RoBERTa模型中进行编码,把编码器最后一层的输出作为文本字编码Vz;然后将文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征VT;OCR特征提取与文本特征提取方式一致,OCR特征记为VO。
3.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法,其特征在于:将图像I统一调整为预设尺寸并进行归一化,然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征VI。
4.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法,其特征在于:图文特征生成及进行图文特征融合和情感预测的实现如下:
1)构建辅助融合模块,用来保留来自各个辅助模态的信息。对于给定辅助模态的特征V1和V2,首先将它们拼接起来得到输入向量Vin,然后将线性变换作用于输入向量得到辅助融合向量VF,并减少辅助融合向量的维数。
2)将图像特征和表情包中文字特征通过辅助融合模块得到表情包辅助特征VIO;然后将文本特征作为目标模态输入特征通过生成器,并添加一定的噪声,得到文本模态的生成特征VTG,判别器将识别输入特征的来源;最后,采用对抗的方式训练网络,将表情包辅助特征VIO标记为真实样本,生成特征VTG标记为生成样本,并计算损失函数LT;
3)与2)同理,利用生成对抗网络的生成器在辅助模态的补充下得到图像模态的生成特征VIG;
4)将2)的文本生成特征和3)的图像生成特征通过Sigmoid激活函数获得图文模态的门控权重矩阵g;然后,使用门控权重矩阵得到图文模态的融合特征VM;
然后将图文的融合特征向量输入到全连接层和Softmax函数中,得到最终的情感预测值。
5.根据权利要求1或2或3或4所述基于跨模态生成对抗网络的图文情感分类方法,其特征在于:根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练;
交叉熵损失函数公式为:
其中,Loss为损失函数值。
6.一种基于跨模态生成对抗网络的图文情感分类系统,其特征在于:用于实现如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。
7.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统,其特征在于:包括以下模块,
第一模块,用于数据集采集与预处理,包括在社交媒体平台以基于输入主题获取用户发表的图文,再去除文本中无效信息;
第二模块,用于数据标注,包括预先进行标签标注,再对图像中的文字进行识别并经检验后存入数据集;
第三模块,用于设置GANSA模型,所述GANSA模型为图文情感分类模型,在GANSA模型中首先进行图文模态特征提取,所述图文模态特征包括文本特征、OCR特征及图像特征,
文本特征提取及OCR特征提取,包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码;再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征;所述RoBERTa模型为文本预训练模型;
图像特征提取,包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征;所述Fast R-CNN模型为图像预训练模型;
再进行图文特征生成,包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示;然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中,得到最终的情感预测值;所述GAN模块为生成对抗网络模块;所述GF模块为门控融合模块;
第四模块,用于模型训练及图文情感分类,包括以端到端的方式对GANSA模型进行训练,采用交叉熵损失函数,然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。
8.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。
9.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310785820.5A CN116758558A (zh) | 2023-06-28 | 2023-06-28 | 基于跨模态生成对抗网络的图文情感分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310785820.5A CN116758558A (zh) | 2023-06-28 | 2023-06-28 | 基于跨模态生成对抗网络的图文情感分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758558A true CN116758558A (zh) | 2023-09-15 |
Family
ID=87951200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310785820.5A Pending CN116758558A (zh) | 2023-06-28 | 2023-06-28 | 基于跨模态生成对抗网络的图文情感分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758558A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131426A (zh) * | 2023-10-26 | 2023-11-28 | 一网互通(北京)科技有限公司 | 基于预训练的品牌识别方法、装置及电子设备 |
-
2023
- 2023-06-28 CN CN202310785820.5A patent/CN116758558A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131426A (zh) * | 2023-10-26 | 2023-11-28 | 一网互通(北京)科技有限公司 | 基于预训练的品牌识别方法、装置及电子设备 |
CN117131426B (zh) * | 2023-10-26 | 2024-01-19 | 一网互通(北京)科技有限公司 | 基于预训练的品牌识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110162636A (zh) | 基于d-lstm的文本情绪原因识别方法 | |
CN110598191B (zh) | 一种基于神经网络的复杂pdf结构解析方法及装置 | |
CN113177124A (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN116758558A (zh) | 基于跨模态生成对抗网络的图文情感分类方法及系统 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
Yong et al. | A new emotion analysis fusion and complementary model based on online food reviews | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN117033804A (zh) | 一种主客观视角引导下的点击诱导检测方法 | |
CN116578671A (zh) | 一种情感-原因对提取方法及装置 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN116737897A (zh) | 一种基于多模态的智慧楼宇知识抽取模型和方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |