CN109829499B - 基于同一特征空间的图文数据融合情感分类方法和装置 - Google Patents

基于同一特征空间的图文数据融合情感分类方法和装置 Download PDF

Info

Publication number
CN109829499B
CN109829499B CN201910097903.9A CN201910097903A CN109829499B CN 109829499 B CN109829499 B CN 109829499B CN 201910097903 A CN201910097903 A CN 201910097903A CN 109829499 B CN109829499 B CN 109829499B
Authority
CN
China
Prior art keywords
text
features
image
picture
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910097903.9A
Other languages
English (en)
Other versions
CN109829499A (zh
Inventor
林政�
耿悦
付鹏
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910097903.9A priority Critical patent/CN109829499B/zh
Publication of CN109829499A publication Critical patent/CN109829499A/zh
Application granted granted Critical
Publication of CN109829499B publication Critical patent/CN109829499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于同一特征空间的图文数据融合情感分类方法和装置。该方法的步骤包括:1)使用自动编码机提取多模态数据中图片的压缩特征表达;2)使用CNN‑DCNN网络提取多模态数据中文字的压缩特征表达;3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;4)通过分类器对步骤3)得到的图文整体特征进行分类,得到情感分类结果。本发明将图、文特征映射到同一个空间下,再对整体信息进行情感分类,可以同时捕捉到微博等多模态数据的图、文数据之间语义相关性和情感相关性。

Description

基于同一特征空间的图文数据融合情感分类方法和装置
技术领域
本发明属于信息技术领域,具体涉及一种基于同一特征空间的图文数据融合情感分类方法和装置。
背景技术
多模态是指通过文本、声音、图片、视频等资源或模型来组成消息的一种通信方式。用户发布的包含图片的图文微博、包含视频的文字与视频微博等等都属于多模态的数据。常见的多模态的形式有:图片+文本,声音+视频,文本+音频等形式,除此之外还有Emoji表情、链接等模态的混合形式。有学者(Pérez-RosasV,MihalceaR,&Morency P.L,.(2013).Utterance-level multimodal sentiment analysis[C]//.Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).1:973-982.Association for Computational Linguistics.)使用一份包含音频、视频以及文字模态的数据,分别提取出三个模态的特征,然后将三个模态的特征合起来放进SVM中来进行融合。还有学者(FengF,WangX,&LiR.(2014).Cross-modal retrievalwith correspondence autoencoder.Proceedings of the 22nd ACM internationalconference on Multimedia.7-16.ACM.)提出了一种多模态检索的自动编码机,在视觉和文字自动编码机间共享一个编码层来学习参数。
仅仅针对文本或者Emoji表情或者图片或者音频等进行情感分类研究,这样的情感分类方法不能够很好的捕获到整体的情感极性。将三个模态的特征合起来放进SVM中来进行融合,使得不同的特征在同一个空间尽可能靠近,但是难以提取足够的跨模态特征。多模态检索的自动编码机可以获取部分的关联特征,但是会损失单模态上的独特信息。
发明内容
本发明针对以上问题,提供一种基于同一特征空间的图文数据融合情感分类方法和装置,可以同时捕捉到微博图、文数据之间语义相关性和情感相关性。
本发明采用的技术方案如下:
一种基于同一特征空间的图文数据融合情感分类方法,包括以下步骤:
1)使用自动编码机提取多模态数据中图片的压缩特征表达;
2)使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;
3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;
4)通过分类器对步骤3)得到的图文整体特征进行分类,得到情感分类结果。
进一步地,步骤1)所述自动编码机通过输入层将输入图片展开成向量x,通过一个隐藏层h,然后通过输出层x^提取有用的特征,输入层、隐藏层、输出层均是全连接网络,其中输入层和输出层维度一致,隐藏层的神经元数目小于输入层和输出层,自动编码机的网络的目标是最小化输入与输出的差距。
进一步地,步骤2)使用基于CNN-DCNN网络的编码-解码模型提取输入文本的特征表达,用CNN网络编码文本特征,再用DCNN网络解码,以获取文本的全局信息。
进一步地,步骤3)通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间,并将图片特征与文本特征进行组合,形成成对的图文特征。
进一步地,步骤3)包括:
a)设计两个损失函数,一个针对成对的图文特征是否相近,另一个针对预测结果和标签是否一致;
b)将两个损失函数统一成一个损失函数,在同一空间下进行约束;
c)训练网络,使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近。
进一步地,步骤4)所述分类器为随机森林分类器。
进一步地,所述自动编码机使用ILSVRC-2012数据集进行预训练,所述CNN-DCNN网络在其他的中文文本上,使用预训练Word2Vec的语料进行训练,以提高特征提取的质量。
与上面方法对应地,本发明还提供一种基于同一特征空间的图文数据融合情感分类装置,其包括:
图片特征提取模块,负责使用自动编码机提取多模态数据中图片的压缩特征表达;
文字特征提取模块,负责使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;
图文特征联合模块,负责将提取的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;
分类模块,负责通过分类器对图文整体特征进行分类,得到情感分类结果。
本发明的有益效果如下:
1)本发明将图、文特征映射到同一个空间下,再对整体信息进行情感分类,可以同时捕捉到微博等多模态数据的图、文数据之间语义相关性和情感相关性。其中,语义相关性是指图片和文本表达的内容是有联系的,情感相关性是指图片和文本均表达出情感倾向性。
2)在二分类问题中,用CNN-CNN网络提取图片特征的同时使用CNN-DCNN提取文本特征取得了84.32%的准确率。三分类问题中,本发明的效果达到了76.21%,效果好于基于深度布尔兹曼机的深层自编码机74.82%的分类效果。
附图说明
图1是本发明方法的总体流程示意图。其中:1-图片;2-文本;3-图片编码层;4-图片互信息层;5-图片解码层;6-文本编码层;7-文本互信息层;8-文本解码层;9-特征向量连接。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明直接获取多模态数据中每个单模态的关联特征。该方法的总体流程如图1所示,使用自动编码机(AutoEncoder)来提取图片的压缩特征表达,然后使用CNN-DCNN框架(CNN是指Convolutional Neural Networks,即卷积神经网络;DCNN是指深度卷积神经网络)来获取文字的压缩特征表达,之后通过统一的损失函数将图片、文本的特征映射到同一个特征空间之下,让整体的特征尽可能的拟合整体的图文内容。本方法通过图、文特征联合起来获得图文整体的特征,是一种基于语义平滑的多模态融合情感分类方法,可以同时捕捉到文本、图片之间的特征关联性。然后再通过分类器对整体的图文特征进行分类。整个模型的训练同样使用了大量的数据进行预训练,然后再使用实验数据集进行领域迁移学习。
本发明的技术关键点在于:
1)使用自动编码机来获取图片的压缩形式的特征表达,所有的状态不依赖于上一个状态,能够更加有效的捕获到文本的表达信息。本发明采用的自动编码机AutoEncoder即为背景技术中提到的自动编码机,包括输入层、隐藏层、输出层。
2)预训练好自动编码机网络之后,将来自于同一条文本(如微博)的图片特征与文本特征进行组合,形成成对图文特征,以使文本和图片的特征在空间中,成对的图文特征尽可能靠近。通过最小化图文特征的距离可以使其特征尽可能靠近。
3)图文联合特征使用图文特征映射后的均值,分类器使用随机森林作为最终的分类器。
下面提供一个采用本发明方法的具体实例:
1)用jieba分词器对文本进行分词处理,利用预先训练好的word2vec构建词向量矩阵,用规则去掉了微博数据中的广告。
2)使用基于CNN-DCNN的Encoder-Decoder(编码-解码)模型提取输入文本的特征表达,用CNN编码文本特征,再用另一个DCNN解码,以便获取文本的全局信息,通过这个模型可以获取压缩的文本特征表示。如图1所示,CNN-DCNN包括文本编码层6、文本互信息层7和文本解码层8。
3)通过AutoEncoder来提取到输入图片的特征。输入层将输入图片展开成向量x,通过一个隐藏层h,然后通过输出层x^提取有用的特征,输入层、隐藏层、输出层均是全连接网络,其中输入层和输出层维度一致,隐藏层的神经元数目小于输入层和输出层。网络的目标是最小化输入与输出的差距。上述输入层、隐藏层、输出层分别对应图1中的图片编码层3、图片互信息层4和图片解码层5。
4)然后将图文的特征映射到同一个特征向量空间下,将映射后得到的图文特征向量作为输入整体的特征进行情感分类,即提取图文整体特征进行分类。
所述将图文的特征映射到同一个特征向量空间下,是通过统一的损失函数将图片、文本的特征映射到同一个特征空间之下,具体包括以下步骤:
4.1)设计两个损失函数:
一个针对成对的图文特征是否相近:
Figure BDA0001964910130000041
另一个针对预测结果和标签是否一致:
Figure BDA0001964910130000042
4.2)将两个损失函数统一成一个损失函数,在同一空间下进行约束:
Figure BDA0001964910130000043
其中,D(p||q)是p和q的KL散度之和,Δ1和Δ2是归一化参数,用来将两个损失函数归一化,这里使用的是0均值标准化,即经过处理的数据符合标准正态分布,均值为0,标准差为1。
Figure BDA0001964910130000044
表示抽取到第i个图片的图片特征,
Figure BDA0001964910130000045
表示抽取到第i个文本的文本特征。M(·)是图、文特征的合并过程,C(·)是情感分类过程。θ是控制模型中关注特征相似程度与关注整体分类程度的超参数。本部分中,图文联合特征使用图文特征映射后的均值。
4.3)训练网络,使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近。
5)使用随机森林进行情感分类。图片的AutoEncoder隐藏层使用192维,同理CNN-DCNN网络的中隐藏层也是192维,随机森林中,决策树个数设置为600棵,每棵决策树使用0.2倍的特征。
6)将分类器输出的结果和标签比对,与标签一致的结果数和总结果数的比值即为分类准确率。
利用本发明提供的分类网络,具有如下优点:
图片AutoEncoder网络使用ILSVRC-2012数据集进行预训练,因为训练AutoEncoder网络的过程是一个无监督过程,所以使用用了大规模的(约100万)微博图片进行训练。
CNN-DCNN网络类似,其首先在其他的中文文本上进行训练,这里使用了预训练Word2Vec的语料进行训练,极大提高了特征提取的质量。在二分类问题中,用AutoEncoder网络提取图片特征的同时使用CNN-DCNN提取文本特征取得了84.32%的准确率。三分类问题中,本发明的效果达到了76.21%,效果好于基于深度布尔兹曼机的深层自编码机74.82%的分类效果。
本发明中,AutoEncoder的输入层可以是CNN,RNN,LSTM,GRU等网络结构,输出层可以是CNN,RNN,LSTM,GRU等网络结构。
本发明的另一实施例提供一种基于同一特征空间的图文数据融合情感分类装置,其包括:
图片特征提取模块,负责使用自动编码机提取多模态数据中图片的压缩特征表达;
文字特征提取模块,负责使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;
图文特征联合模块,负责将提取的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;
分类模块,负责通过分类器对图文整体特征进行分类,得到情感分类结果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种基于同一特征空间的图文数据融合情感分类方法,其特征在于,包括以下步骤:
1)使用自动编码机提取多模态数据中图片的压缩特征表达;
2)使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;
3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;
4)通过分类器对步骤3)得到的图文整体特征进行分类,得到情感分类结果;
其中,步骤3)通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间,并将图片特征与文本特征进行组合,形成成对的图文特征;步骤3)包括:
a)设计两个损失函数,一个针对成对的图文特征是否相近,另一个针对预测结果和标签是否一致;
b)将两个损失函数统一成一个损失函数,在同一空间下进行约束;
c)训练网络,使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近;
所述两个损失函数为:
针对成对的图文特征是否相近的损失函数:
Figure FDA0002635847250000011
针对预测结果和标签是否一致的损失函数:
Figure FDA0002635847250000012
将所述两个损失函数统一成一个损失函数,为:
Figure FDA0002635847250000013
其中,D(p||q)是p和q的KL散度之和,Δ1和Δ2是归一化参数,用来将两个损失函数归一化;
Figure FDA0002635847250000014
表示抽取到第i个图片的图片特征,
Figure FDA0002635847250000015
表示抽取到第i个文本的文本特征;
M(·)是图、文特征的合并过程,C(·)是情感分类过程;θ是控制模型中关注特征相似程度与关注整体分类程度的超参数。
2.根据权利要求1所述的方法,其特征在于,步骤1)所述自动编码机通过输入层将输入图片展开成向量x,通过一个隐藏层h,然后通过输出层x^提取有用的特征,输入层、隐藏层、输出层均是全连接网络,其中输入层和输出层维度一致,隐藏层的神经元数目小于输入层和输出层,自动编码机的网络的目标是最小化输入与输出的差距。
3.根据权利要求1所述的方法,其特征在于,步骤2)使用基于CNN-DCNN网络的编码-解码模型提取输入文本的特征表达,用CNN网络编码文本特征,再用DCNN网络解码,以获取文本的全局信息。
4.根据权利要求1所述的方法,其特征在于,步骤4)所述分类器为随机森林分类器。
5.根据权利要求1所述的方法,其特征在于,所述自动编码机使用ILSVRC-2012数据集进行预训练,所述CNN-DCNN网络在其他的中文文本上,使用预训练Word2Vec的语料进行训练,以提高特征提取的质量。
6.一种采用权利要求1~5中任一权利要求所述方法的基于同一特征空间的图文数据融合情感分类装置,其特征在于,包括:
图片特征提取模块,负责使用自动编码机提取多模态数据中图片的压缩特征表达;
文字特征提取模块,负责使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;
图文特征联合模块,负责将提取的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;
分类模块,负责通过分类器对图文整体特征进行分类,得到情感分类结果。
7.根据权利要求6所述的装置,其特征在于,所述图文特征联合模块通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间,并将图片特征与文本特征进行组合,形成成对的图文特征;所述分类模块采用的分类器为随机森林分类器。
CN201910097903.9A 2019-01-31 2019-01-31 基于同一特征空间的图文数据融合情感分类方法和装置 Active CN109829499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910097903.9A CN109829499B (zh) 2019-01-31 2019-01-31 基于同一特征空间的图文数据融合情感分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910097903.9A CN109829499B (zh) 2019-01-31 2019-01-31 基于同一特征空间的图文数据融合情感分类方法和装置

Publications (2)

Publication Number Publication Date
CN109829499A CN109829499A (zh) 2019-05-31
CN109829499B true CN109829499B (zh) 2020-10-27

Family

ID=66863154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910097903.9A Active CN109829499B (zh) 2019-01-31 2019-01-31 基于同一特征空间的图文数据融合情感分类方法和装置

Country Status (1)

Country Link
CN (1) CN109829499B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110569338B (zh) * 2019-07-22 2022-05-03 中国科学院信息工程研究所 一种生成式对话系统解码器训练方法及解码方法
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111581470B (zh) * 2020-05-15 2023-04-28 上海乐言科技股份有限公司 用于对话系统情景匹配的多模态融合学习分析方法和系统
CN112035670B (zh) * 2020-09-09 2021-05-14 中国科学技术大学 基于图像情感倾向的多模态谣言检测方法
CN112818861B (zh) * 2021-02-02 2022-07-26 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及系统
CN117831575A (zh) * 2023-12-18 2024-04-05 上海奥赛垒互联网科技有限公司 基于大数据的智能业务分析方法、系统和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN108108849A (zh) * 2017-12-31 2018-06-01 厦门大学 一种基于弱监督多模态深度学习的微博情感预测方法
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN108108849A (zh) * 2017-12-31 2018-06-01 厦门大学 一种基于弱监督多模态深度学习的微博情感预测方法
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Cross-modality Consistent Regression for Joint Visual-Textual Sentiment Analysis of Social Multimedia";Quanzeng You,Jiebo Luo et al.;《ACM》;20161231;第1-10页 *
"EmotionX-AR: CNN-DCNN autoencoder based Emotion Classifier";Sopan Khosla;《Proceedings of the Sixth International Workshop on Natural Language Processing for Social Media》;20180720;第37-44页 *
"基于卷积神经网络的图文融合媒体情感预测";蔡国永,夏彬彬;《计算机应用》;20160210;第428-431页 *
"文本情绪分析综述";李然,林政,王伟平等;《计算机研究与发展》;20181231;第55卷(第1期);第30-52页 *

Also Published As

Publication number Publication date
CN109829499A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829499B (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
CN112131347A (zh) 一种基于多模态融合的假新闻检测方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
Al-Azani et al. Enhanced video analytics for sentiment analysis based on fusing textual, auditory and visual information
Zhao et al. Multi-level fusion of wav2vec 2.0 and bert for multimodal emotion recognition
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
Zhao et al. Videowhisper: Toward discriminative unsupervised video feature learning with attention-based recurrent neural networks
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN111221964B (zh) 一种不同分面观点演化趋势引导的文本生成方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN114201605A (zh) 一种基于联合属性建模的图像情感分析方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN110889505B (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN111930981A (zh) 一种草图检索的数据处理方法
CN113553445B (zh) 一种生成视频描述的方法
CN113722536B (zh) 基于双线性自适应特征交互与目标感知的视频描述方法
Fersini et al. Misogynous meme recognition: A preliminary study
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN117708642A (zh) 一种多级融合图像和文本的多模态方面级情感分析方法
CN112052869A (zh) 一种用户心理状态识别方法及系统
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法
CN113283535B (zh) 一种融合多模态特征的虚假消息检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant