CN116758558A

CN116758558A - 基于跨模态生成对抗网络的图文情感分类方法及系统

Info

Publication number: CN116758558A
Application number: CN202310785820.5A
Authority: CN
Inventors: 胡慧君; 李书星; 刘茂福
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-15

Abstract

本发明提供一种基于跨模态生成对抗网络的图文情感分类方法及系统，进行数据集采集与预处理，包括在社交媒体平台以基于输入主题获取用户发表的图文，再去除文本中无效信息；数据标注，包括预先进行标签标注，再对图像中的文字进行识别并经检验后存入数据集；设置GANSA模型，在GANSA模型中首先进行图文模态特征提取，文本特征提取及OCR特征提取，再进行图文特征生成；模型训练及图文情感分类，包括以端到端的方式对GANSA模型进行训练，采用交叉熵损失函数，然后将待分析图文对输入训练好的GANSA模型得到图文对情感分析结果。本发明支持多种社交媒体平台的图文情感分类任务，优化图文模态的特征提取和特征融合，情感预测更准确。

Description

基于跨模态生成对抗网络的图文情感分类方法及系统

技术领域

本发明属于自然语言处理和视觉交叉领域的图文情感识别领域，更具体地，涉及一种基于跨模态生成对抗网络的图文情感分类方案，具体是生成对抗网络用于优化多模态特征生成，门控融合模块用于图文特征融合，从而判断图文情感状态的技术方案。

背景技术

随着社交媒体与社交方式的不断创新，相较于传统的文字社交表达，用户也趋于在社交媒体上通过文本和图像的形式来发布自己对事件、产品、生活的观点和评论，这些信息富含情感色彩和倾向性。对于社交媒体而言，单一模态所表达的情感是不完整的且存在局限性，而多模态往往能传达更准确和丰富的情感信息，展现文本可能隐藏的信息。这些单模态数据之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征，并且能够进一步增强模型表达能力及稳定性，提升情感任务分析性能。相比于文本或图像情感分析，多模态情感分析往往涉及多模态特征学习、多模态对齐和多模态融合技术。模态的特征学习一般通过预训练模型或者深度神经网络提取。对齐方面可以引入多模态转换器(MuIT)以端到端方式解决模态未对齐问题。主流的融合方式有特征融合、决策融合和一致性回归融合。

在社交媒体中，用户会倾向于用表情包而不是真实照片来表达情感，因为表情包可以传达更生动直接的情感，也会补充或者加强相应文本表达的情感。由于用户发表的博客缺乏上下文，社交媒体中的情感分析具有挑战性。基于表情包的多模态情感分析任务在三个方面具有挑战性：表情包固有的多模态，表情包之间的显著差异以及复杂的多模态情感融合。首先，表情包是固有的多模态，因为他们嵌入了文本，且相同的表情包配上不同表情包文本可能会在情感上有很大的差异。其次，表情包在风格上多变，会导致模型很难根据不同的分布学习表情包的鲁棒表示，而传统图像主要由人像、风景或者食物等组成，风格变化不大。最后，文本和表情包的情感融合是复杂的。以往方法认为文本起着主导作用，忽略了图像本身为多模态的情况，或者通过分别应用深度神经网络获得图像和文本特征，利用多层感知机(MLP)将模态信息结合，用于推断用户的潜在情感状态，这样的处理过于简单，不够灵活。为优化图文特征表示，可以通过生成对抗网络在辅助模态的补充下得到目标模态的生成特征，且通过门控融合充分挖掘图文模态间的互补性，对于图文整体情感分析是有意义的。

迄今为止，国内外研究人员提出了一系列跨模态情感预测的方法，大致都遵循“先抽取再融合”的范式。即，先分别抽取文本和视觉内容的单模态特征，再使用不同的融合策略聚合这些特征用以情感预测。通过对现有的专利及相关技术的检索发现，现有的与跨模态情感预测有关的方法有：

[1]陈锻生,吴琼,吴扬扬,雷庆,张洪博.一种基于紧凑双线性融合的图文跨模态情感分类方法[P].CN107066583A公开的方法首先分别提取多模态信息的文本特征和图像特征，然后使用双线性融合方法将文本特征和图像特征进行融合得到多模态特征。最后将多模态特征输入全连接层完成情感分类。

[2]耿玉水,张康,赵晶,刘建鑫,李文骁.一种基于多模态特征融合的社交媒体情感分析方法及系统[P].CN112508077A公开的该方式采用降噪自编码器提取文本特征，采用变分自动编码器提取图像特征，最后将文本特征和图像特征进行跨模态融合进行情感分类。

可以看出现有的跨模态情感分析方法虽然取得了不错的效果，但依然存在着以下不足：(1)大部分方法未能考虑图像本身为多模态的情况，忽略了图像中文字蕴含的情感信息。

(2)大多数方法忽略了模态之间的关联性，单一模态可能会存在语义歧义性，这会导致多模态情感预测效果不佳。

(3)大多数方法仅使用简单的相加、拼接对不同模态特征进行融合，难以建模跨模态之间的复杂语义交互。

发明内容

现有的图文情感分类方法未能充分考虑图像本身为多模态的问题。为了解决上述现有技术中存在的不足，本发明提供了一种能够优化图文特征表示和图文模态融合用于情感分类的方法。

为了实现上述目的，本发明提出一种基于跨模态生成对抗网络的图文情感分类方法，包括以下步骤：

步骤1，数据集采集与预处理，包括在社交媒体平台以基于输入主题获取用户发表的图文，再去除文本中无效信息；

步骤2，数据标注，包括预先进行标签标注，再对图像中的文字进行识别并经检验后存入数据集；

步骤3，设置GANSA模型，所述GANSA模型为图文情感分类模型，

在GANSA模型中首先进行图文模态特征提取，所述图文模态特征包括文本特征、OCR特征及图像特征，

文本特征提取及OCR特征提取，包括将预处理好的数据集中的文本和OCR转成单词序列并输入到RoBERTa模型得到文本字编码；再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征和OCR特征；所述RoBERTa模型为文本预训练模型；

图像特征提取，包括将预处理好的数据集中的图像归一化并输入到Fast R-CNN模型得到图像特征；所述Fast R-CNN模型为图像预训练模型；

再进行图文特征生成，包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示；然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中，得到最终的情感预测值；所述GAN模块为生成对抗网络模块；所述GF模块为门控融合模块；

步骤4，模型训练及图文情感分类，包括以端到端的方式对GANSA模型进行训练，采用交叉熵损失函数，然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。

而且，将用户发表的文字拼接后转成单词序列X＝[x₁，x₂，...，x_N]，其中x_i是单词和位置嵌入的总和，N是序列的最大长度，将单词序列X输入到RoBERTa模型中进行编码，把编码器最后一层的输出作为文本字编码V_z；然后将文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征V_T；OCR特征提取与文本特征提取方式一致，OCR特征记为V_O。

而且，将图像I统一调整为预设尺寸并进行归一化，然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征V_I。

而且，图文特征生成及进行图文特征融合和情感预测的实现如下：

1)构建辅助融合模块，用来保留来自各个辅助模态的信息。对于给定辅助模态的特征V₁和V₂，首先将它们拼接起来得到输入向量V_in，然后将线性变换作用于输入向量得到辅助融合向量V_F，并减少辅助融合向量的维数。

2)将图像特征和表情包中文字特征通过辅助融合模块得到表情包辅助特征V_IO；然后将文本特征作为目标模态输入特征通过生成器，并添加一定的噪声，得到文本模态的生成特征V_TG，判别器将识别输入特征的来源；最后，采用对抗的方式训练网络，将表情包辅助特征V_IO标记为真实样本，生成特征V_TG标记为生成样本，并计算损失函数L_T；

3)与2)同理，利用生成对抗网络的生成器在辅助模态的补充下得到图像模态的生成特征V_IG；

4)将2)的文本生成特征和3)的图像生成特征通过Sigmoid激活函数获得图文模态的门控权重矩阵g；然后，使用门控权重矩阵得到图文模态的融合特征V_M；

然后将图文的融合特征向量输入到全连接层和Softmax函数中，得到最终的情感预测值。

而且，根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练；

交叉熵损失函数公式为：

其中，Loss为损失函数值。

另一方面，本发明提供一种基于跨模态生成对抗网络的图文情感分类系统，用于实现如上所述的一种基于跨模态生成对抗网络的图文情感分类方法。

而且，包括以下模块，

第一模块，用于数据集采集与预处理，包括在社交媒体平台以基于输入主题获取用户发表的图文，再去除文本中无效信息；

第二模块，用于数据标注，包括预先进行标签标注，再对图像中的文字进行识别并经检验后存入数据集；

第三模块，用于设置GANSA模型，所述GANSA模型为图文情感分类模型，在GANSA模型中首先进行图文模态特征提取，所述图文模态特征包括文本特征、OCR特征及图像特征，

第四模块，用于模型训练及图文情感分类，包括以端到端的方式对GANSA模型进行训练，采用交叉熵损失函数，然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。

或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。

本发明适用于对用户在社交媒体中发表的图文进行情感预测，引入生成对抗网络在辅助模态的补充下增强图文模态的特征表示，且使用门控融合进一步挖掘图文模态间的互补性，使图文情感分类更准确。

相对于现有技术，本专利主要优化的是两个点：

第一个是图像本身固有的多模态，即图像为表情包时，充分提取图像特征和图像中的文本特征

第二个是减弱语义歧义性带来的噪声。利用辅助融合模块帮助生成对抗网络生成文本特征和图像特征。

最后引入门控融合机制衡量模态间信息的互补关系，将图文模态特征信息进行有效融合。

本发明方案实施简单方便，实用性强，解决了相关技术存在的实用性低及实际应用不便的问题，能够提高用户体验，具有重要的市场价值。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的GANSA模型中AF模块框架图；

图3为本发明实施例的GANSA模型中GAN模块框架图。

图4为本发明实施例的具体应用示例图。

图5为本发明实施例的数据集和标注工具样例图。

具体实施方式

以下结合附图和实施例具体说明本发明的技术方案。

本发明公开了一种基于跨模态生成对抗网络的图文情感分类，解决主流模型无法直接处理或处理图像本身为多模态时效果不佳的问题；进行社交媒体图文情感数据集采集；搭建标注工具，构建图文情感数据集；模型训练，包括使用数据集对GANSA模型进行训练；在特征提取时，使用双向门控循环单元得到具有上下文的文本特征和OCR特征，使用区域检测网络得到图像视觉特征；使用GAN模块获在辅助模态的补充下优化目标模态的特征表示；在特征融合时，使用门控融合模块充分挖掘图文模态间的互补性，学习到潜在的情感表示用于图文整体情感预测。本发明支持多种社交媒体平台的图文情感分类任务，在常见图文情感分类处理图像本身为多模态的情况下，优化图文模态的特征提取和特征融合，情感预测更准确。

首先就本发明的技术术语进行解释和说明：

AF:AF是Auxiliary Fusion的缩写，意外辅助融合；

GAN:GAN是Generative Adversarial Network的缩写，意为生成对抗网络；

GF:GF是Gated Fusion的缩写，意外门控融合

RoBERTa:RoBERTa的全称为A Robustly Optimized BERT PretrainingApproach，是一个预训练的语言表征模型。建立在BERT的语言掩蔽策略的基础上，修改BERT中的关键超参数，采用动态改变训练数据的masked language model(MLM)，以致能生成深度的双向语言表征。

Fast R-CNN:Fast R-CNN的全称为Fast Region-based Convolutional Network，是一个预训练模型的视觉表征模型。作为目标检测器，通过提取每张图像中概率最高的多个检测目标，将其作为视觉特征。

Softmax:Softmax函数，是使用范围最广的一类激活函数，将模型的预测结果转化到指数函数上，再将转换后的结果进行归一化处理。

参见图1，本发明实施例提供一种基于双注意力的图文情感分类方法，包括以下步骤：

步骤1.首先数据集采集与预处理，构建图文情感数据集，实施例优选采用的实现方式具体包括如下子步骤：

步骤1.1：在社交媒体平台以“打工人”为主题获取用户发表的图文，再去除文本中非法字符、网页连接和广告等无效信息；

实施例中，使用爬虫技术以关键字采集微博上用户发表的图文数据，并结构化HTML数据，抽取出文本、图像。

步骤1.2：进行数据预处理，去除文本中非法字符和网页连接和等无效字符；

步骤2.然后，搭建标注平台并对整理好的数据进行标注。

参见图5，实施例优选采用的实现方式如下：

步骤2.1：优选建议使用VUE前端框架搭建可视化标注平台，具体实施时可以本地预先上传文本和图像。

步骤2.2：数据标注，按照事先制定好的标注规范，将图文是否有效、图文整体的情感标签、表情符号转化的表情文本、具有特定情感倾向的线索文本依次标出作为一个完整的图文情感对。具体实施时，标准可以预先进行，将准备好的图文情感对输入。

步骤2.3：图像文字识别，使用开源OCR对图像中的文字进行识别并经检验存入数据集。

具体实施时，图文整体情感从3个方面进行标注，首先，若文本与图像情感倾向一致，则整体情感与文本情感倾向相同；其次，若文本与图像情感倾向不一致，则整体情感倾向根据实际情况考虑；最后，若文本中出现情感转折，根据图像情感判断整体情感。具体实施时，可参见图5所示数据集和标注工具样例。

步骤3.设置GANSA模型，所述GANSA模型为图文情感分类模型，

1)在GANSA模型中首先进行图文模态特征提取，所述图文模态特征包括文本特征、OCR特征及图像特征。

训练模型时可使用整理好的数据集进行图文模态特征提取。优选建议方案为：

在本实施例中，图文情感数据集使用预训练好的模型进行特征提取，包含以下步骤：

步骤3.1：文本特征提取，将文本转成单词序列并输入到RoBERTa模型得到文本字编码；再将文本字编码经过双向门控循环单元得到具有上下文信息的文本特征；

步骤3.2：OCR特征提取，图像中的文字转成单词序列并输入到RoBERTa模型得到字编码；再将字编码经过双向门控循环单元得到具有上下文信息的OCR特征；

步骤3.3：图像特征提取，将图像归一化并输入到Fast R-CNN模型得到图像特征；

优选建议的具体特征提取方式如下：

将用户发表的文字拼接后转成单词序列X＝[x₁，x₂，...，x_N]，其中x_i是单词和位置嵌入的总和，i为序列标号，N是序列的最大长度，将单词序列X输入到RoBERTa模型中进行编码，把编码器最后一层的输出作为文本字编码V_z；然后将所得文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征V_T；OCR特征提取与文本特征提取方式一致，所得OCR特征记为V_O，所述RoBERTa模型为现有技术，本发明不予赘述；

所述文本特征V_T的提取公式为：

V_Z＝RoBERTa(X)＝[v₁,v₂,…,v_n] (1)

V_T＝BiGRU(V_Z)＝[h₁,h₂,…,h_n] (5)

其中，RoBERTa()表示RoBERTa预训练模型，[v₁,v₂,…,v_n]表示文本自编码，v_i表示第i个单词的字编码，表示正向GRU，/>表示反向GRU，/>表示正向GRU中的隐藏层输出，/>表示反向GRU中隐藏层的输出，h_i表示双向GRU隐藏层的输出，BiGRU()表示双向GRU。

将图像I统一调整为224*224尺寸并进行归一化，然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征V_I；所述Fast R-CNN为现有技术，本发明不予赘述；

所诉图像特征的提取公式为：

V_I＝Fast R-CNN(I) (6)

其中，Fast R-CNN()表示Fast R-CNN预训练模型。

2)再进行图文特征生成，包括将文本特征和图像特征输入到GANSA模型中的GAN模块增强图文模态的特征表示；然后通过GANSA模型中的GF模块融合图文特征并输入到全连接层和Softmax函数中，得到最终的情感预测值；所述GAN模块为生成对抗网络模块；所述GF模块为门控融合模块；

实施例使用GAN模块进行图文特征生成，步骤如下：

1)将两种辅助模态通过辅助融合模块分别得到图像辅助特征和文本辅助特征。

2)将图像辅助特征和文本特征输入到生成对抗网络中；对文本特征生成器和判别器进行训练，获得带有图像辅助特征交互的文本生成特征；

3)将文本辅助特征和图像特征输入到生成对抗网络中；对图像特征生成器和判别器进行训练，获得带有文本辅助特征交互的图像生成特征。

参见图2和图3，优选建议的具体图文特征生成方式如下：

构建辅助融合模块，用来保留来自各个辅助模态的信息。对于给定辅助模态的特征V₁和V₂，首先将它们拼接起来得到输入向量V_in，然后将线性变换作用于输入向量得到辅助融合向量V_F，并减少辅助融合向量的维数。

V_F＝Linear(V_in) (8)其中，表示特征拼接，Linear()表示线性层。

将图像特征和表情包中文字特征通过辅助融合模块得到表情包辅助特征V_IO；然后将文本特征作为目标模态输入特征通过生成器，并添加一定的噪声，得到文本模态的生成特征V_TG，判别器将识别输入特征的来源。最后，采用对抗的方式训练网络，将表情包辅助特征V_IO标记为真实样本，生成特征V_TG标记为生成样本，并计算损失函数L_T

V_IO＝AF(V_I,V_O) (9)

V_TG＝G(V_T) (10)

其中，AF()为辅助融合模块，G()为生成对抗网络中的生成器，D()为生成对抗网络中的判别器，和/>分别表示辅助模态和生成模态的概率。

同理，利用生成对抗网络的生成器在辅助模态的补充下得到图像模态的生成特征V_IG

V_TO＝AF(V_T,V_O) (12)

V_IG＝G(V_I) (13)

其中，AF()为辅助融合模块，文本辅助特征V_TO标记为真实样本，生成特征V_IG标记为生成样本。

实施例使用GF模块进行图文特征融合和情感预测，步骤如下：

1)将生成的文本特征和图像特征通过Sigmoid激活函数获得图文模态的门控权重矩阵。

2)使用门控权重矩阵得到图文模态的融合特征。

3)将图文的融合特征向量输入到全连接层和Softmax函数中进行图文情感预测。

优选建议的GF模块处理过程如下：

将2)的文本生成特征和3)的图像生成特征通过Sigmoid激活函数获得图文模态的门控权重矩阵g；然后，使用门控权重矩阵得到图文模态的融合特征V_M

g＝Sigmoid(W_IV_IG+ W_TV_TG) (14)

V_M＝g⊙V_TG+(1-g)⊙V_IG (15)

其中，W_I，W_T均为可训练权重矩阵，Sigmoid()为激活函数，⊙表示矩阵相乘。

然后将图文的融合特征向量输入到全连接层和Softmax函数中，得到最终的情感预测值；

F＝Linear(W_fV_M) (16)

p＝softmax(W_pF) (17)

其中，W_f、W_p均为可训练权重矩阵。

步骤4.模型训练及图文情感分类，包括以端到端的方式对GANSA模型进行训练，采用交叉熵损失函数，然后将待分析图文对输入训练好的GANSA模型得到该图文对的情感分析结果。

优选建议的交叉熵损失函数如下：

根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练；

交叉熵损失函数公式为：

其中，Loss为损失函数值。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。例如，可以提供相应系统，分模块实现图文情感数据采集和筛选、模型训练。

图文情感数据采集和筛选采用半人工标注的方式，首先使用机器对图文数据进行采集、结构化、筛选。再使用人工标注的方式，为数据进行信息补充，清洗数据后得到图文情感数据集。

模型训练使用图文情感数据集，本实施例的应用实例参照附图4，首先，图像中的文字通过OCR识别为“只是沙子进眼睛了”，然后和文本“[晕]我这睡眠真是为打工人量身定做，也就睡了4个多小时，多晚睡都能7点多醒，夜晚真的是一想点儿事儿就没困意了”分别经过RoBERTa预训练模型得到字编码，然后将字编码表示输入到双向门控循环单元获得具有上下文语义信息的文本特征表示和OCR特征表示；对于图像预处理后输入到Fast R-CNN预训练模型，得到图像表示；

其次，对于特征优化模块，从两个角度学习增强的特征表示，第一个是从文本出发，通过生成对抗网络在图像辅助特征的补充下获得文本生成特征；第二个是从视觉出发，通过生成对抗网络在文本辅助特征的补充下获得图像生成特征。在特征融合模块，通过门控融合学习文本生成特征和图像生成特征的互补关系，获得图文融合特征；最后将融合特征经过全连接层和Softmax激活函数预测情感结果。

在一些可能的实施例中，提供一种基于跨模态生成对抗网络的图文情感分类系统，包括以下模块，

在一些可能的实施例中，提供一种基于跨模态生成对抗网络的图文情感分类系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于跨模态生成对抗网络的图文情感分类方法。

在一些可能的实施例中，提供一种基于跨模态生成对抗网络的图文情感分类系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于跨模态生成对抗网络的图文情感分类方法，其特征在于，包括以下步骤：

步骤3，设置GANSA模型，所述GANSA模型为图文情感分类模型，

2.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法，其特征在于：将用户发表的文字拼接后转成单词序列X＝[x₁,x₂,…,x_N]，其中x_i是单词和位置嵌入的总和，N是序列的最大长度，将单词序列X输入到RoBERTa模型中进行编码，把编码器最后一层的输出作为文本字编码V_z；然后将文本字编码输入到双向门控循环单元得到具有上下文信息的文本特征V_T；OCR特征提取与文本特征提取方式一致，OCR特征记为V_O。

3.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法，其特征在于：将图像I统一调整为预设尺寸并进行归一化，然后使用在Visual Genoome数据集上预训练的Fast R-CNN模型提取每幅图像视觉特征V_I。

4.根据权利要求1所述基于跨模态生成对抗网络的图文情感分类方法，其特征在于：图文特征生成及进行图文特征融合和情感预测的实现如下：

5.根据权利要求1或2或3或4所述基于跨模态生成对抗网络的图文情感分类方法，其特征在于：根据情感预测值和真实标签y通过交叉熵损失函数进行GANSA模型训练；

交叉熵损失函数公式为：

其中，Loss为损失函数值。

6.一种基于跨模态生成对抗网络的图文情感分类系统，其特征在于：用于实现如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。

7.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统，其特征在于：包括以下模块，

8.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。

9.根据权利要求6所述基于跨模态生成对抗网络的图文情感分类系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-5任一项所述的一种基于跨模态生成对抗网络的图文情感分类方法。