CN112084788B

CN112084788B - 一种影像字幕隐式情感倾向自动标注方法及系统

Info

Publication number: CN112084788B
Application number: CN202010839733.XA
Authority: CN
Inventors: 樊硕
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2024-05-14
Anticipated expiration: 2040-08-19
Also published as: CN112084788A

Abstract

本申请提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统，在本申请提供的方法中，先在预设语料库中选取文本数据构建数据集；再对数据集中的文本数据进行预处理，得到训练数据集；然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立文本数据之间的关联文本对；最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并添加情感标签。基于本申请提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统，通过借助显式文本的丰富语义信息建立影像字幕隐式文本与显式文本间的关联关系，解决对影像字幕隐式文本语义信息判断不全面、标注准确率低的缺点，提高自动标注的效率。

Description

一种影像字幕隐式情感倾向自动标注方法及系统

技术领域

本申请涉及数据处理领域，特别是涉及一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统。

背景技术

随着互联网的快速发展，智能影像已经与人们的生活息息相关，人们可以通过互联网等方式收看或者利用不同类型的影像信息。随着影像数目的不断增多，随之增长的是影像字幕的数目，而对于影像数据来说，影像字幕中通常能够包含许多影像的核心信息，如何充分利用这些字幕文本数据挖掘其中包含的重要数据信息成为研究热点。而字幕文本数据中的文本情感倾向是指一段文本信息中所包含的主观性情感色彩，对于影像字幕来说，其包含的情感色彩也是值得研究的热点问题。

目前，对影像字幕的情感分析方法一般都是针对显式文本的情感分析，而影像字幕中一般包含的情感表述都是较为含蓄的，也就是其中包括的隐式情感较多，一般通过其语义信息很难判断隐式情感倾向，因此若采取传统的生成模型或判别模型为文本打标签会使得语义信息判断不全面，标注准确率较低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法，包括：

在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据，构建数据集；

对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集；其中，所述训练数据集中的显式文本数据具有识别标签；

将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对；

通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容，并为所述影像字幕隐式文本数据添加情感标签。

可选地，所述对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集，包括：

对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作；

基于经过分词和/或去停用词操作后的所述影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。

可选地，所述将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：

将所述训练数据集中的文本数据输入预设的Word2vec模型，通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换，得到隐式文本向量和显式文本向量；

基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。

可选地，所述基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：

对于各所述隐式文本向量，利用余弦相似度计算与该隐式文本向量最相近的显式文本向量，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。

可选地，所述通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容，并为所述影像字幕隐式文本数据添加情感标签，包括：

将所述关联文本对输入生成对抗网络模型，采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容；

对所述预测文本内容进行文本分类，并将分类结果作为所述隐式文本数据的情感标签进行标注。

根据本申请的另一个方面，提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统，包括：

数据集构建模块，其配置成在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据，构建数据集；

预处理模块，其配置成对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集；其中，所述训练数据集中的显式文本数据具有识别标签；

文本对关联模块，其配置成将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对；

情感标签添加模块，其配置成通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容，并为所述影像字幕隐式文本数据添加情感标签。

可选地，所述预处理模块，还配置成：

可选地，所述文本对关联模块，还配置成：

可选地，所述情感标签添加模块，还配置成：

本申请提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统，在本申请提供的方法中，先在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据构建数据集；再对数据集中的文本数据进行预处理，得到训练数据集；然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对；最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并添加情感标签。

基于本申请提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统，通过借助显式文本的丰富语义信息建立影像字幕隐式文本与显式文本间的关联关系，解决对影像字幕隐式文本语义信息判断不全面、标注准确率低的缺点，提高自动标注的效率，建立影像字幕文本隐式情感语料库。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法流程示意图；

图2是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注系统结构示意图；

图3是根据本申请实施例的计算设备示意图；

图4是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

对于文本情感倾向识别来说，一般可以将文本情感分为两类，即文本显式情感和文本隐式情感。文本显式情感是指文本中的情感倾向表达是显式出现的，例如“这个手机的外观真漂亮”这句文本，出现了显式的褒义特征词“漂亮”，目前在文本情感倾向识别领域对于这种显式的文本情感研究较多，技术也较为成熟。但是当人们在对事物进行评价时，往往会采取一种较为含蓄的说法，这就出现了文本隐式情感，例如对手机的评论“这个手机又该拿去修了”，这句话中并没有出现明显的情感词，但通过“又”、“拿去修”这两个词可以发现这其中包含了贬义的情感色彩。

相对与文本显式情感来说，隐式情感中没有明确的指代情感倾向的情感词，在表达方式上也更为委婉和含蓄，从语义角度也很难判断其情感倾向。目前在文本情感倾向识别领域，可以通过基于情感词典的方法、基于机器学习的方法和基于深度学习的方法判断文本情感倾向，但通过上述说明可知，对于文本隐式情感来说，不能通过情感词典的方式识别情感类别，只能使用基于机器学习的方法或者基于深度学习的方法，这两种方法的共同点是只有通过大量带标签的训练文本才能得到准确度较高的情感分析模型。但目前大多数的公开文本语料库都是基于文本显式情感建立的，在这种类型的语料库中关于文本隐式情感的句子较少，如果采用这种类型的语料库训练情感分析模型可能会由于语义信息的不匹配从而产生较低的分析准确率。因此需要一个数据量较大的文本隐式情感语料库以此来实现对文本隐式情感倾向的识别，传统的方式是采用人工标注的方法为语料库打情感标签，但这种方法存在耗时耗力的缺点，当面对的数据量逐渐增大时，采用人工标注的方式显然是不明智的；另一种方式是利用自动标注的方式，目前常用的自动标注模型有两种类型，分别是生成模型和判别模型。生成模型是指利用文本的自身语义信息，计算语义信息和类标签间的联合概率，从而确定文本的最终标签。判别模型是将文本标注作为一个分类问题，通过对文本的分类结果确定其标签内容。

图1是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法流程示意图。参见图1所知，本申请实施例提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法可以包括：

步骤S101：在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据，构建数据集；

步骤S102：对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集；

步骤S103：将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对；

步骤S104：通过生成对抗网络基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并为影像字幕隐式文本数据添加情感标签。

本申请实施例提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法，在本申请提供的方法中，先在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据构建数据集；再对数据集中的文本数据进行预处理，得到训练数据集；然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对；最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并添加情感标签。本申请实施例通过建立影像字幕隐式文本与显式文本间的关联关系，利用了显式文本的语义信息，并通过生成对抗网络GAN将影像字幕隐式文本的自动标注问题转换为文本分类问题，提高了自动标注的准确性和效率，并建立了影像字幕文本隐式情感语料库。

在进行的影像字幕隐式情感倾向自动标注前，首先执行步骤S101，进行数据准备工作，在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据，构建数据集。

对于影像字幕显式文本数据，本申请实施例采用谭松波收集整理的大规模的酒店评论语语料库中的ChnSentiCorp-Htl-ba-2000子语料集，其中共有2000条数据，正向评论1000条，负向评论1000条。而对于影像字幕隐式文本数据，由于目前没有公开的文本隐式情感数据集，因此采用爬虫的方式爬取影像字幕文本，并人工选取2000条影像字幕隐式情感文本。

选取了数据集之后，接下来执行步骤S102，对数据集中的数据进行预处理，并得到训练数据集；其中，训练数据集中的显式文本数据具有识别标签。

具体来讲，对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作，其中采用的停用词表为哈尔滨工业大学的中文停用词表；再基于经过分词和/或去停用词操作后的影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集，同时将影像字幕显式文本数据的标签信息加入训练数据中，以便于为影像字幕隐式文本数据添加情感标签提供依据。

参见上述步骤S103，建立训练数据集后，将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。

Word2vec模型，是用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在Word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，Word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。也就是说，Word2vec模型的数据转换，就是将文本数据转换为向量数据。

在本申请一可选实施例中，将训练数据集中的文本数据输入预设的Word2vec模型，通过Word2vec模型将训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换，得到隐式文本向量和显式文本向量；再基于隐式文本向量和显式文本向量建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。

采用Word2vec模型将数据装换为向量表示时，设置向量维度为300维，显式文本经过Word2vec模型映射后的向量矩阵为V_D，影像字幕隐式文本经过Word2vec模型映射后的向量矩阵为V_I。针对影像字幕隐式文本中的每一个句子，通过余弦相似度计算与它最相近的显式文本向量，构成隐式-显式文本对I_D。

进一步地，对于各隐式文本向量，利用余弦相似度计算与该隐式文本向量最相近的显式文本向量，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对I_D。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交。

余弦相似度最常见的应用就是计算文本相似度。将两个文本根据他们词建立两个向量，计算这两个向量的余弦值，就可以知道两个文本在统计学方法中他们的相似度情况。在本申请实施例中，通过计算V_D与V_I之间每一个向量间的余弦值，找出与隐式文本向量最相近的显式文本向量，构成关联文本对I_D。

最后执行步骤S104，基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并为影像字幕隐式文本数据添加情感标签。

在本申请一可选实施例中，将关联文本对输入生成对抗网络模型，采用生成对抗网络模型生成影像字幕隐式文本数据的预测文本内容；再对预测文本内容进行文本分类，并将分类结果作为隐式文本数据的情感标签进行标注。

生成对抗网络(Generative adversarial netWork,简称GAN)模型，是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用。

GAN主要由两个部分组成，分别是生成器和鉴别器。生成器G接收随机噪声z，通过噪声生成预测文本G(z)。在本申请实施例中，生成器的输入为隐式-显式文本对I_D中的影像字幕隐式文本部分，采用长短时记忆网络作为生成器的编码器部分，通过卷积池化等操作提取数据特征，再通过解码器生成文本预测内容W。鉴别器D对生成器生成的文本预测内容进行判别，判断其是否为“真实”，采取的鉴别器也为长短时记忆网络，并将文本预测内容W作为鉴别器的输入。在整个过程中，采取的“真实”标签为隐式-显式文本对I_D中的显式文本部分。其中生成器G、鉴别器D是一种博弈的过程，生成器G的目标是尽可能生成真实的文本去迷惑鉴别器D，而D的目标是尽可能判别文本的真假。

长短时记忆网络(Long Short Term Memory NetWork，简称LSTM)是一种特殊的递归神经网络，所谓递归神经网络就是网络能够解决时间序列问题的预测。LSTM作为效果比较好的递归神经网络，拥有对长时时间序列问题具有很好的解决能力。

卷积是用输出图像中更亮的像素表示原始图像中存在的边缘，卷积有助于我们找到特定的局部图像特征(如边缘)；而池化一般通过简单的最大值、最小值或平均值操作完成通过减小输入的大小降低输出值的数量。

通过上述步骤找到的影像字幕隐式文本的预测文本内容W，显式文本内容的语义信息是非常贴近的，因此再采用判别模型，将自动标注的问题转换为分类问题，将隐式文本的预测文本内容W送入判别模型LSTM进行文本分类，把预测出来的文本分类结果作为影像字幕隐式情感标签，自动标注完成。

基于同一发明构思，如图2所示，本申请实施例还提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统，包括：

数据集构建模块210，其配置成在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据，构建数据集；

预处理模块220，其配置成对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集；其中，训练数据集中的显式文本数据具有识别标签；

文本对关联模块230，其配置成将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对；

情感标签添加模块240，其配置成通过生成对抗网络基于关联文本对生成影像字幕隐式文本数据的预测文本内容，并为影像字幕隐式文本数据添加情感标签。

在本申请一可选实施例中，预处理模块220，其还配置成：

对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作；

基于经过分词和/或去停用词操作后的影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。

在本申请一可选实施例中，文本对关联模块230，其还配置成：

将训练数据集中的文本数据输入预设的Word2vec模型，通过Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换，得到隐式文本向量和显式文本向量；

基于隐式文本向量和显式文本向量建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。

对于各隐式文本向量，利用余弦相似度计算与该隐式文本向量最相近的显式文本向量，建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。

在本申请一可选实施例中，情感标签添加模块240，其还配置成：

将关联文本对输入生成对抗网络模型，采用生成对抗网络模型生成影像字幕隐式文本数据的预测文本内容；

对预测文本内容进行文本分类，并将分类结果作为隐式文本数据的情感标签进行标注。

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器320、处理器310和存储在所述存储器320内并能由所述处理器310运行的计算机程序，该计算机程序存储于存储器320中的用于程序代码的空间330，该计算机程序在由处理器310执行时实现用于执行任一项根据本发明的方法步骤331。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序331′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法，包括：

将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：将所述训练数据集中的文本数据输入预设的Word2vec模型，通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换，得到隐式文本向量和显式文本向量；基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：对于各所述隐式文本向量，利用余弦相似度计算与该隐式文本向量最相近的显式文本向量，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对；

通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容，并为所述影像字幕隐式文本数据添加情感标签，包括：将所述关联文本对输入生成对抗网络模型，采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容；对所述预测文本内容进行文本分类，并将分类结果作为所述隐式文本数据的情感标签进行标注。

2.根据权利要求1所述的方法，其特征在于，所述对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理，得到训练数据集，包括：

3.一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统，包括：

文本对关联模块，其配置成将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：将所述训练数据集中的文本数据输入预设的Word2vec模型，通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换，得到隐式文本向量和显式文本向量；基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对，包括：对于各所述隐式文本向量，利用余弦相似度计算与该隐式文本向量最相近的显式文本向量，建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对；

情感标签添加模块，其配置成基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容，并为所述影像字幕隐式文本数据添加情感标签，包括：将所述关联文本对输入生成对抗网络模型，采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容；对所述预测文本内容进行文本分类，并将分类结果作为所述隐式文本数据的情感标签进行标注。

4.根据权利要求3所述的系统，其特征在于，所述预处理模块，还配置成：