CN109829499B

CN109829499B - 基于同一特征空间的图文数据融合情感分类方法和装置

Info

Publication number: CN109829499B
Application number: CN201910097903.9A
Authority: CN
Inventors: 林政�; 耿悦; 付鹏; 王伟平
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-10-27
Anticipated expiration: 2039-01-31
Also published as: CN109829499A

Abstract

本发明涉及一种基于同一特征空间的图文数据融合情感分类方法和装置。该方法的步骤包括：1)使用自动编码机提取多模态数据中图片的压缩特征表达；2)使用CNN‑DCNN网络提取多模态数据中文字的压缩特征表达；3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间，得到图文整体特征；4)通过分类器对步骤3)得到的图文整体特征进行分类，得到情感分类结果。本发明将图、文特征映射到同一个空间下，再对整体信息进行情感分类，可以同时捕捉到微博等多模态数据的图、文数据之间语义相关性和情感相关性。

Description

基于同一特征空间的图文数据融合情感分类方法和装置

技术领域

本发明属于信息技术领域，具体涉及一种基于同一特征空间的图文数据融合情感分类方法和装置。

背景技术

多模态是指通过文本、声音、图片、视频等资源或模型来组成消息的一种通信方式。用户发布的包含图片的图文微博、包含视频的文字与视频微博等等都属于多模态的数据。常见的多模态的形式有：图片+文本，声音+视频，文本+音频等形式，除此之外还有Emoji表情、链接等模态的混合形式。有学者(Pérez-RosasV,MihalceaR,&Morency P.L,.(2013).Utterance-level multimodal sentiment analysis[C]//.Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).1:973-982.Association for Computational Linguistics.)使用一份包含音频、视频以及文字模态的数据，分别提取出三个模态的特征，然后将三个模态的特征合起来放进SVM中来进行融合。还有学者(FengF,WangX,&LiR.(2014).Cross-modal retrievalwith correspondence autoencoder.Proceedings of the 22nd ACM internationalconference on Multimedia.7-16.ACM.)提出了一种多模态检索的自动编码机，在视觉和文字自动编码机间共享一个编码层来学习参数。

仅仅针对文本或者Emoji表情或者图片或者音频等进行情感分类研究，这样的情感分类方法不能够很好的捕获到整体的情感极性。将三个模态的特征合起来放进SVM中来进行融合，使得不同的特征在同一个空间尽可能靠近，但是难以提取足够的跨模态特征。多模态检索的自动编码机可以获取部分的关联特征，但是会损失单模态上的独特信息。

发明内容

本发明针对以上问题，提供一种基于同一特征空间的图文数据融合情感分类方法和装置，可以同时捕捉到微博图、文数据之间语义相关性和情感相关性。

本发明采用的技术方案如下：

一种基于同一特征空间的图文数据融合情感分类方法，包括以下步骤：

1)使用自动编码机提取多模态数据中图片的压缩特征表达；

2)使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达；

3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间，得到图文整体特征；

4)通过分类器对步骤3)得到的图文整体特征进行分类，得到情感分类结果。

进一步地，步骤1)所述自动编码机通过输入层将输入图片展开成向量x，通过一个隐藏层h，然后通过输出层x^提取有用的特征，输入层、隐藏层、输出层均是全连接网络，其中输入层和输出层维度一致，隐藏层的神经元数目小于输入层和输出层，自动编码机的网络的目标是最小化输入与输出的差距。

进一步地，步骤2)使用基于CNN-DCNN网络的编码-解码模型提取输入文本的特征表达，用CNN网络编码文本特征，再用DCNN网络解码，以获取文本的全局信息。

进一步地，步骤3)通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间，并将图片特征与文本特征进行组合，形成成对的图文特征。

进一步地，步骤3)包括：

a)设计两个损失函数，一个针对成对的图文特征是否相近，另一个针对预测结果和标签是否一致；

b)将两个损失函数统一成一个损失函数，在同一空间下进行约束；

c)训练网络，使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近。

进一步地，步骤4)所述分类器为随机森林分类器。

进一步地，所述自动编码机使用ILSVRC-2012数据集进行预训练，所述CNN-DCNN网络在其他的中文文本上，使用预训练Word2Vec的语料进行训练，以提高特征提取的质量。

与上面方法对应地，本发明还提供一种基于同一特征空间的图文数据融合情感分类装置，其包括：

图片特征提取模块，负责使用自动编码机提取多模态数据中图片的压缩特征表达；

文字特征提取模块，负责使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达；

图文特征联合模块，负责将提取的图片特征和文本特征映射到同一个特征向量空间，得到图文整体特征；

分类模块，负责通过分类器对图文整体特征进行分类，得到情感分类结果。

本发明的有益效果如下：

1)本发明将图、文特征映射到同一个空间下，再对整体信息进行情感分类，可以同时捕捉到微博等多模态数据的图、文数据之间语义相关性和情感相关性。其中，语义相关性是指图片和文本表达的内容是有联系的，情感相关性是指图片和文本均表达出情感倾向性。

2)在二分类问题中，用CNN-CNN网络提取图片特征的同时使用CNN-DCNN提取文本特征取得了84.32％的准确率。三分类问题中，本发明的效果达到了76.21％，效果好于基于深度布尔兹曼机的深层自编码机74.82％的分类效果。

附图说明

图1是本发明方法的总体流程示意图。其中：1-图片；2-文本；3-图片编码层；4-图片互信息层；5-图片解码层；6-文本编码层；7-文本互信息层；8-文本解码层；9-特征向量连接。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明直接获取多模态数据中每个单模态的关联特征。该方法的总体流程如图1所示，使用自动编码机(AutoEncoder)来提取图片的压缩特征表达，然后使用CNN-DCNN框架(CNN是指Convolutional Neural Networks，即卷积神经网络；DCNN是指深度卷积神经网络)来获取文字的压缩特征表达，之后通过统一的损失函数将图片、文本的特征映射到同一个特征空间之下，让整体的特征尽可能的拟合整体的图文内容。本方法通过图、文特征联合起来获得图文整体的特征，是一种基于语义平滑的多模态融合情感分类方法，可以同时捕捉到文本、图片之间的特征关联性。然后再通过分类器对整体的图文特征进行分类。整个模型的训练同样使用了大量的数据进行预训练，然后再使用实验数据集进行领域迁移学习。

本发明的技术关键点在于：

1)使用自动编码机来获取图片的压缩形式的特征表达，所有的状态不依赖于上一个状态，能够更加有效的捕获到文本的表达信息。本发明采用的自动编码机AutoEncoder即为背景技术中提到的自动编码机，包括输入层、隐藏层、输出层。

2)预训练好自动编码机网络之后，将来自于同一条文本(如微博)的图片特征与文本特征进行组合，形成成对图文特征，以使文本和图片的特征在空间中，成对的图文特征尽可能靠近。通过最小化图文特征的距离可以使其特征尽可能靠近。

3)图文联合特征使用图文特征映射后的均值，分类器使用随机森林作为最终的分类器。

下面提供一个采用本发明方法的具体实例：

1)用jieba分词器对文本进行分词处理，利用预先训练好的word2vec构建词向量矩阵，用规则去掉了微博数据中的广告。

2)使用基于CNN-DCNN的Encoder-Decoder(编码-解码)模型提取输入文本的特征表达，用CNN编码文本特征，再用另一个DCNN解码，以便获取文本的全局信息，通过这个模型可以获取压缩的文本特征表示。如图1所示，CNN-DCNN包括文本编码层6、文本互信息层7和文本解码层8。

3)通过AutoEncoder来提取到输入图片的特征。输入层将输入图片展开成向量x，通过一个隐藏层h，然后通过输出层x^提取有用的特征，输入层、隐藏层、输出层均是全连接网络，其中输入层和输出层维度一致，隐藏层的神经元数目小于输入层和输出层。网络的目标是最小化输入与输出的差距。上述输入层、隐藏层、输出层分别对应图1中的图片编码层3、图片互信息层4和图片解码层5。

4)然后将图文的特征映射到同一个特征向量空间下，将映射后得到的图文特征向量作为输入整体的特征进行情感分类，即提取图文整体特征进行分类。

所述将图文的特征映射到同一个特征向量空间下，是通过统一的损失函数将图片、文本的特征映射到同一个特征空间之下，具体包括以下步骤：

4.1)设计两个损失函数：

一个针对成对的图文特征是否相近：

另一个针对预测结果和标签是否一致：

4.2)将两个损失函数统一成一个损失函数，在同一空间下进行约束：

其中，D(p||q)是p和q的KL散度之和，Δ₁和Δ₂是归一化参数，用来将两个损失函数归一化，这里使用的是0均值标准化，即经过处理的数据符合标准正态分布，均值为0，标准差为1。

表示抽取到第i个图片的图片特征，

表示抽取到第i个文本的文本特征。M(·)是图、文特征的合并过程，C(·)是情感分类过程。θ是控制模型中关注特征相似程度与关注整体分类程度的超参数。本部分中，图文联合特征使用图文特征映射后的均值。

4.3)训练网络，使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近。

5)使用随机森林进行情感分类。图片的AutoEncoder隐藏层使用192维，同理CNN-DCNN网络的中隐藏层也是192维，随机森林中，决策树个数设置为600棵，每棵决策树使用0.2倍的特征。

6)将分类器输出的结果和标签比对，与标签一致的结果数和总结果数的比值即为分类准确率。

利用本发明提供的分类网络，具有如下优点：

图片AutoEncoder网络使用ILSVRC-2012数据集进行预训练，因为训练AutoEncoder网络的过程是一个无监督过程，所以使用用了大规模的(约100万)微博图片进行训练。

CNN-DCNN网络类似，其首先在其他的中文文本上进行训练，这里使用了预训练Word2Vec的语料进行训练，极大提高了特征提取的质量。在二分类问题中，用AutoEncoder网络提取图片特征的同时使用CNN-DCNN提取文本特征取得了84.32％的准确率。三分类问题中，本发明的效果达到了76.21％，效果好于基于深度布尔兹曼机的深层自编码机74.82％的分类效果。

本发明中，AutoEncoder的输入层可以是CNN，RNN，LSTM，GRU等网络结构，输出层可以是CNN，RNN，LSTM，GRU等网络结构。

本发明的另一实施例提供一种基于同一特征空间的图文数据融合情感分类装置，其包括：

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于同一特征空间的图文数据融合情感分类方法，其特征在于，包括以下步骤：

1)使用自动编码机提取多模态数据中图片的压缩特征表达；

2)使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达；

4)通过分类器对步骤3)得到的图文整体特征进行分类，得到情感分类结果；

其中，步骤3)通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间，并将图片特征与文本特征进行组合，形成成对的图文特征；步骤3)包括：

c)训练网络，使得成对图文特征在空间内尽可能相近并且使得具有相同标签的特征在空间内尽可能相近；

所述两个损失函数为：

针对成对的图文特征是否相近的损失函数：

针对预测结果和标签是否一致的损失函数：

将所述两个损失函数统一成一个损失函数，为：

其中，D(p||q)是p和q的KL散度之和，Δ₁和Δ₂是归一化参数，用来将两个损失函数归一化；

表示抽取到第i个图片的图片特征，

表示抽取到第i个文本的文本特征；

M(·)是图、文特征的合并过程，C(·)是情感分类过程；θ是控制模型中关注特征相似程度与关注整体分类程度的超参数。

2.根据权利要求1所述的方法，其特征在于，步骤1)所述自动编码机通过输入层将输入图片展开成向量x，通过一个隐藏层h，然后通过输出层x^提取有用的特征，输入层、隐藏层、输出层均是全连接网络，其中输入层和输出层维度一致，隐藏层的神经元数目小于输入层和输出层，自动编码机的网络的目标是最小化输入与输出的差距。

3.根据权利要求1所述的方法，其特征在于，步骤2)使用基于CNN-DCNN网络的编码-解码模型提取输入文本的特征表达，用CNN网络编码文本特征，再用DCNN网络解码，以获取文本的全局信息。

4.根据权利要求1所述的方法，其特征在于，步骤4)所述分类器为随机森林分类器。

5.根据权利要求1所述的方法，其特征在于，所述自动编码机使用ILSVRC-2012数据集进行预训练，所述CNN-DCNN网络在其他的中文文本上，使用预训练Word2Vec的语料进行训练，以提高特征提取的质量。

6.一种采用权利要求1～5中任一权利要求所述方法的基于同一特征空间的图文数据融合情感分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述图文特征联合模块通过统一的损失函数将图片、文本的特征映射到同一个特征向量空间，并将图片特征与文本特征进行组合，形成成对的图文特征；所述分类模块采用的分类器为随机森林分类器。