CN112084788B - 一种影像字幕隐式情感倾向自动标注方法及系统 - Google Patents
一种影像字幕隐式情感倾向自动标注方法及系统 Download PDFInfo
- Publication number
- CN112084788B CN112084788B CN202010839733.XA CN202010839733A CN112084788B CN 112084788 B CN112084788 B CN 112084788B CN 202010839733 A CN202010839733 A CN 202010839733A CN 112084788 B CN112084788 B CN 112084788B
- Authority
- CN
- China
- Prior art keywords
- text
- text data
- data
- image
- implicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 88
- 238000002372 labelling Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 62
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000009849 deactivation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,在本申请提供的方法中,先在预设语料库中选取文本数据构建数据集;再对数据集中的文本数据进行预处理,得到训练数据集;然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立文本数据之间的关联文本对;最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并添加情感标签。基于本申请提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,通过借助显式文本的丰富语义信息建立影像字幕隐式文本与显式文本间的关联关系,解决对影像字幕隐式文本语义信息判断不全面、标注准确率低的缺点,提高自动标注的效率。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统。
背景技术
随着互联网的快速发展,智能影像已经与人们的生活息息相关,人们可以通过互联网等方式收看或者利用不同类型的影像信息。随着影像数目的不断增多,随之增长的是影像字幕的数目,而对于影像数据来说,影像字幕中通常能够包含许多影像的核心信息,如何充分利用这些字幕文本数据挖掘其中包含的重要数据信息成为研究热点。而字幕文本数据中的文本情感倾向是指一段文本信息中所包含的主观性情感色彩,对于影像字幕来说,其包含的情感色彩也是值得研究的热点问题。
目前,对影像字幕的情感分析方法一般都是针对显式文本的情感分析,而影像字幕中一般包含的情感表述都是较为含蓄的,也就是其中包括的隐式情感较多,一般通过其语义信息很难判断隐式情感倾向,因此若采取传统的生成模型或判别模型为文本打标签会使得语义信息判断不全面,标注准确率较低。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法,包括:
在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;其中,所述训练数据集中的显式文本数据具有识别标签;
将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对;
通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容,并为所述影像字幕隐式文本数据添加情感标签。
可选地,所述对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集,包括:
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作;
基于经过分词和/或去停用词操作后的所述影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。
可选地,所述将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:
将所述训练数据集中的文本数据输入预设的Word2vec模型,通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;
基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。
可选地,所述基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:
对于各所述隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。
可选地,所述通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容,并为所述影像字幕隐式文本数据添加情感标签,包括:
将所述关联文本对输入生成对抗网络模型,采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容;
对所述预测文本内容进行文本分类,并将分类结果作为所述隐式文本数据的情感标签进行标注。
根据本申请的另一个方面,提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统,包括:
数据集构建模块,其配置成在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
预处理模块,其配置成对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;其中,所述训练数据集中的显式文本数据具有识别标签;
文本对关联模块,其配置成将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对;
情感标签添加模块,其配置成通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容,并为所述影像字幕隐式文本数据添加情感标签。
可选地,所述预处理模块,还配置成:
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作;
基于经过分词和/或去停用词操作后的所述影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。
可选地,所述文本对关联模块,还配置成:
将所述训练数据集中的文本数据输入预设的Word2vec模型,通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;
基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。
可选地,所述文本对关联模块,还配置成:
对于各所述隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对。
可选地,所述情感标签添加模块,还配置成:
将所述关联文本对输入生成对抗网络模型,采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容;
对所述预测文本内容进行文本分类,并将分类结果作为所述隐式文本数据的情感标签进行标注。
本申请提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,在本申请提供的方法中,先在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据构建数据集;再对数据集中的文本数据进行预处理,得到训练数据集;然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对;最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并添加情感标签。
基于本申请提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,通过借助显式文本的丰富语义信息建立影像字幕隐式文本与显式文本间的关联关系,解决对影像字幕隐式文本语义信息判断不全面、标注准确率低的缺点,提高自动标注的效率,建立影像字幕文本隐式情感语料库。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法流程示意图;
图2是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注系统结构示意图;
图3是根据本申请实施例的计算设备示意图;
图4是根据本申请实施例的计算机可读存储介质示意图。
具体实施方式
对于文本情感倾向识别来说,一般可以将文本情感分为两类,即文本显式情感和文本隐式情感。文本显式情感是指文本中的情感倾向表达是显式出现的,例如“这个手机的外观真漂亮”这句文本,出现了显式的褒义特征词“漂亮”,目前在文本情感倾向识别领域对于这种显式的文本情感研究较多,技术也较为成熟。但是当人们在对事物进行评价时,往往会采取一种较为含蓄的说法,这就出现了文本隐式情感,例如对手机的评论“这个手机又该拿去修了”,这句话中并没有出现明显的情感词,但通过“又”、“拿去修”这两个词可以发现这其中包含了贬义的情感色彩。
相对与文本显式情感来说,隐式情感中没有明确的指代情感倾向的情感词,在表达方式上也更为委婉和含蓄,从语义角度也很难判断其情感倾向。目前在文本情感倾向识别领域,可以通过基于情感词典的方法、基于机器学习的方法和基于深度学习的方法判断文本情感倾向,但通过上述说明可知,对于文本隐式情感来说,不能通过情感词典的方式识别情感类别,只能使用基于机器学习的方法或者基于深度学习的方法,这两种方法的共同点是只有通过大量带标签的训练文本才能得到准确度较高的情感分析模型。但目前大多数的公开文本语料库都是基于文本显式情感建立的,在这种类型的语料库中关于文本隐式情感的句子较少,如果采用这种类型的语料库训练情感分析模型可能会由于语义信息的不匹配从而产生较低的分析准确率。因此需要一个数据量较大的文本隐式情感语料库以此来实现对文本隐式情感倾向的识别,传统的方式是采用人工标注的方法为语料库打情感标签,但这种方法存在耗时耗力的缺点,当面对的数据量逐渐增大时,采用人工标注的方式显然是不明智的;另一种方式是利用自动标注的方式,目前常用的自动标注模型有两种类型,分别是生成模型和判别模型。生成模型是指利用文本的自身语义信息,计算语义信息和类标签间的联合概率,从而确定文本的最终标签。判别模型是将文本标注作为一个分类问题,通过对文本的分类结果确定其标签内容。
图1是根据本申请实施例的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法流程示意图。参见图1所知,本申请实施例提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法可以包括:
步骤S101:在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
步骤S102:对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;
步骤S103:将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对;
步骤S104:通过生成对抗网络基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并为影像字幕隐式文本数据添加情感标签。
本申请实施例提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法,在本申请提供的方法中,先在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据构建数据集;再对数据集中的文本数据进行预处理,得到训练数据集;然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对;最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并添加情感标签。本申请实施例通过建立影像字幕隐式文本与显式文本间的关联关系,利用了显式文本的语义信息,并通过生成对抗网络GAN将影像字幕隐式文本的自动标注问题转换为文本分类问题,提高了自动标注的准确性和效率,并建立了影像字幕文本隐式情感语料库。
在进行的影像字幕隐式情感倾向自动标注前,首先执行步骤S101,进行数据准备工作,在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集。
对于影像字幕显式文本数据,本申请实施例采用谭松波收集整理的大规模的酒店评论语语料库中的ChnSentiCorp-Htl-ba-2000子语料集,其中共有2000条数据,正向评论1000条,负向评论1000条。而对于影像字幕隐式文本数据,由于目前没有公开的文本隐式情感数据集,因此采用爬虫的方式爬取影像字幕文本,并人工选取2000条影像字幕隐式情感文本。
选取了数据集之后,接下来执行步骤S102,对数据集中的数据进行预处理,并得到训练数据集;其中,训练数据集中的显式文本数据具有识别标签。
具体来讲,对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作,其中采用的停用词表为哈尔滨工业大学的中文停用词表;再基于经过分词和/或去停用词操作后的影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集,同时将影像字幕显式文本数据的标签信息加入训练数据中,以便于为影像字幕隐式文本数据添加情感标签提供依据。
参见上述步骤S103,建立训练数据集后,将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。
Word2vec模型,是用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。也就是说,Word2vec模型的数据转换,就是将文本数据转换为向量数据。
在本申请一可选实施例中,将训练数据集中的文本数据输入预设的Word2vec模型,通过Word2vec模型将训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;再基于隐式文本向量和显式文本向量建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。
采用Word2vec模型将数据装换为向量表示时,设置向量维度为300维,显式文本经过Word2vec模型映射后的向量矩阵为V_D,影像字幕隐式文本经过Word2vec模型映射后的向量矩阵为V_I。针对影像字幕隐式文本中的每一个句子,通过余弦相似度计算与它最相近的显式文本向量,构成隐式-显式文本对I_D。
进一步地,对于各隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对I_D。
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交。
余弦相似度最常见的应用就是计算文本相似度。将两个文本根据他们词建立两个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况。在本申请实施例中,通过计算V_D与V_I之间每一个向量间的余弦值,找出与隐式文本向量最相近的显式文本向量,构成关联文本对I_D。
最后执行步骤S104,基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并为影像字幕隐式文本数据添加情感标签。
在本申请一可选实施例中,将关联文本对输入生成对抗网络模型,采用生成对抗网络模型生成影像字幕隐式文本数据的预测文本内容;再对预测文本内容进行文本分类,并将分类结果作为隐式文本数据的情感标签进行标注。
生成对抗网络(Generative adversarial netWork,简称GAN)模型,是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用。
GAN主要由两个部分组成,分别是生成器和鉴别器。生成器G接收随机噪声z,通过噪声生成预测文本G(z)。在本申请实施例中,生成器的输入为隐式-显式文本对I_D中的影像字幕隐式文本部分,采用长短时记忆网络作为生成器的编码器部分,通过卷积池化等操作提取数据特征,再通过解码器生成文本预测内容W。鉴别器D对生成器生成的文本预测内容进行判别,判断其是否为“真实”,采取的鉴别器也为长短时记忆网络,并将文本预测内容W作为鉴别器的输入。在整个过程中,采取的“真实”标签为隐式-显式文本对I_D中的显式文本部分。其中生成器G、鉴别器D是一种博弈的过程,生成器G的目标是尽可能生成真实的文本去迷惑鉴别器D,而D的目标是尽可能判别文本的真假。
长短时记忆网络(Long Short Term Memory NetWork,简称LSTM)是一种特殊的递归神经网络,所谓递归神经网络就是网络能够解决时间序列问题的预测。LSTM作为效果比较好的递归神经网络,拥有对长时时间序列问题具有很好的解决能力。
卷积是用输出图像中更亮的像素表示原始图像中存在的边缘,卷积有助于我们找到特定的局部图像特征(如边缘);而池化一般通过简单的最大值、最小值或平均值操作完成通过减小输入的大小降低输出值的数量。
通过上述步骤找到的影像字幕隐式文本的预测文本内容W,显式文本内容的语义信息是非常贴近的,因此再采用判别模型,将自动标注的问题转换为分类问题,将隐式文本的预测文本内容W送入判别模型LSTM进行文本分类,把预测出来的文本分类结果作为影像字幕隐式情感标签,自动标注完成。
基于同一发明构思,如图2所示,本申请实施例还提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统,包括:
数据集构建模块210,其配置成在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
预处理模块220,其配置成对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;其中,训练数据集中的显式文本数据具有识别标签;
文本对关联模块230,其配置成将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对;
情感标签添加模块240,其配置成通过生成对抗网络基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并为影像字幕隐式文本数据添加情感标签。
在本申请一可选实施例中,预处理模块220,其还配置成:
对数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作;
基于经过分词和/或去停用词操作后的影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。
在本申请一可选实施例中,文本对关联模块230,其还配置成:
将训练数据集中的文本数据输入预设的Word2vec模型,通过Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;
基于隐式文本向量和显式文本向量建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。
在本申请一可选实施例中,文本对关联模块230,其还配置成:
对于各隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对。
在本申请一可选实施例中,情感标签添加模块240,其还配置成:
将关联文本对输入生成对抗网络模型,采用生成对抗网络模型生成影像字幕隐式文本数据的预测文本内容;
对预测文本内容进行文本分类,并将分类结果作为隐式文本数据的情感标签进行标注。
本申请提供了一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,在本申请提供的方法中,先在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据构建数据集;再对数据集中的文本数据进行预处理,得到训练数据集;然后将训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立影像字幕显式文本数据和影像字幕隐式文本数据之间的关联文本对;最后基于关联文本对生成影像字幕隐式文本数据的预测文本内容,并添加情感标签。
基于本申请提供的基于生成对抗网络的影像字幕隐式情感倾向自动标注方法及系统,通过借助显式文本的丰富语义信息建立影像字幕隐式文本与显式文本间的关联关系,解决对影像字幕隐式文本语义信息判断不全面、标注准确率低的缺点,提高自动标注的效率,建立影像字幕文本隐式情感语料库。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器320、处理器310和存储在所述存储器320内并能由所述处理器310运行的计算机程序,该计算机程序存储于存储器320中的用于程序代码的空间330,该计算机程序在由处理器310执行时实现用于执行任一项根据本发明的方法步骤331。
本申请实施例还提供了一种计算机可读存储介质。参照图4,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序331′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于生成对抗网络的影像字幕隐式情感倾向自动标注方法,包括:
在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;其中,所述训练数据集中的显式文本数据具有识别标签;
将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:将所述训练数据集中的文本数据输入预设的Word2vec模型,通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:对于各所述隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对;
通过生成对抗网络基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容,并为所述影像字幕隐式文本数据添加情感标签,包括:将所述关联文本对输入生成对抗网络模型,采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容;对所述预测文本内容进行文本分类,并将分类结果作为所述隐式文本数据的情感标签进行标注。
2.根据权利要求1所述的方法,其特征在于,所述对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集,包括:
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作;
基于经过分词和/或去停用词操作后的所述影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。
3.一种基于生成对抗网络的影像字幕隐式情感倾向自动标注系统,包括:
数据集构建模块,其配置成在预设语料库中选取影像字幕隐式文本数据和影像字幕显式文本数据,构建数据集;
预处理模块,其配置成对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行预处理,得到训练数据集;其中,所述训练数据集中的显式文本数据具有识别标签;
文本对关联模块,其配置成将所述训练数据集中的文本数据输入预设的Word2vec模型进行数据转换,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:将所述训练数据集中的文本数据输入预设的Word2vec模型,通过所述Word2vec模型将所述训练数据集中的影像字幕隐式文本数据和影像字幕显式文本数据分别进行数据转换,得到隐式文本向量和显式文本向量;基于所述隐式文本向量和显式文本向量建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对,包括:对于各所述隐式文本向量,利用余弦相似度计算与该隐式文本向量最相近的显式文本向量,建立所述影像字幕显式文本数据和所述影像字幕隐式文本数据之间的关联文本对;
情感标签添加模块,其配置成基于所述关联文本对生成所述影像字幕隐式文本数据的预测文本内容,并为所述影像字幕隐式文本数据添加情感标签,包括:将所述关联文本对输入生成对抗网络模型,采用所述生成对抗网络模型生成所述影像字幕隐式文本数据的预测文本内容;对所述预测文本内容进行文本分类,并将分类结果作为所述隐式文本数据的情感标签进行标注。
4.根据权利要求3所述的系统,其特征在于,所述预处理模块,还配置成:
对所述数据集中的影像字幕隐式文本数据和影像字幕显式文本数据进行分词和/或去停用词操作;
基于经过分词和/或去停用词操作后的所述影像字幕隐式文本数据和影像字幕显式文本数据建立训练数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839733.XA CN112084788B (zh) | 2020-08-19 | 2020-08-19 | 一种影像字幕隐式情感倾向自动标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839733.XA CN112084788B (zh) | 2020-08-19 | 2020-08-19 | 一种影像字幕隐式情感倾向自动标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084788A CN112084788A (zh) | 2020-12-15 |
CN112084788B true CN112084788B (zh) | 2024-05-14 |
Family
ID=73729395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010839733.XA Active CN112084788B (zh) | 2020-08-19 | 2020-08-19 | 一种影像字幕隐式情感倾向自动标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084788B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114222193B (zh) * | 2021-12-03 | 2024-01-05 | 北京影谱科技股份有限公司 | 一种视频字幕时间对齐模型训练方法及系统 |
CN114942991B (zh) * | 2022-03-10 | 2023-04-21 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110008338A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 一种融合gan和迁移学习的电商评价情感分析方法 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
-
2020
- 2020-08-19 CN CN202010839733.XA patent/CN112084788B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
CN110008338A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 一种融合gan和迁移学习的电商评价情感分析方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
Non-Patent Citations (8)
Title |
---|
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness;Siddique Latif et al;arXiv;1-7 * |
Data Augmentation using GANs for Speech Emotion Recognition;Aggelina Chatziagapi et al;INTERSPEECH;171-175 * |
Detecting implicit expressions of affect in text using EmotiNet and its extensions;Alexandra Balahur et al;Data & Knowledge Engineering;第88卷;113-125 * |
Identification of fact-implied implicit sentiment based on multi-level semantic fused representation;Jian Liao et al;Knowledge-Based Systems;第165卷;197-207 * |
基于生成对抗网络的文本生成的研究;胡懋晗;中国优秀硕士学位论文全文数据库信息科技辑(第7期);I138-1600 * |
神经网络模型在显式与隐式特征下的情感分类应用研究;张乐江 等;智能计算机与应用;第10卷(第5期);125-131+135 * |
面向短文本情感分析的方法及应用研究;李扬;中国博士学位论文全文数据库信息科技辑(第2期);I138-128 * |
面向细分领域的舆情情感分析关键技术研究;杜昌顺;中国博士学位论文全文数据库信息科技辑(第1期);I138-173 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084788A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN107256221B (zh) | 基于多特征融合的视频描述方法 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN112201228A (zh) | 一种基于人工智能的多模态语义识别服务接入方法 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN111311364B (zh) | 基于多模态商品评论分析的商品推荐方法及系统 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN111858875A (zh) | 智能交互方法、装置、设备及存储介质 | |
CN110889287A (zh) | 一种用于命名实体识别的方法与装置 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN117011875A (zh) | 多媒体页面的生成方法、装置、设备、介质和程序产品 | |
CN114722774B (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Vijayaraju | Image retrieval using image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |