CN107679580B

CN107679580B - 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法

Info

Publication number: CN107679580B
Application number: CN201710989485.5A
Authority: CN
Inventors: 蔡国永; 吕光瑞
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-10-21
Filing date: 2017-10-21
Publication date: 2020-12-01
Anticipated expiration: 2037-10-21
Also published as: CN107679580A

Abstract

本发明提出了一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法，包括如下步骤：1）构建初始情感图像数据集；将情感词汇对应的情感极性作为图像情感极性标签；2）清除初始情感图像数据集中的噪声数据；利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声；3）构建基于多模态深度潜在关联的异构迁移模型；然后训练源领域文本和目标领域图像；4）构建多模态嵌入空间；将源领域文本的语义信息嵌入到目标领域图像中；5）训练图像情感极性分类器以进行图像情感极性分析。本方法可获得的数据规模大、人工成本低、数据噪声小、预测精度高、模型可解释性强及分类能力强，可以达到更好的图像情感极性分析效果。

Description

一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法

技术领域

本发明涉及图像内容理解和数据分析技术领域，尤其是一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法。

背景技术

随着社交媒体的流行，社交网络在人们的日常生活中有着不可替代的地位。越来越多的社交媒体用户更加倾向于借助视觉内容来表达他们的观点和分享他们的经历，大量的用户生成图像也因此而生成，面对庞大的用户生成图像，如何挖掘用户生成图像数据中的学术价值和商业价值就成了学术界和工业界急需解决的问题，尤其是挖掘、分析数据中的用户意见、情感，因此，利用用户生成图像数据进行意见挖掘和情感分析开始成为研究热点。

据我们所知，关注视觉内容的情感分析研究相对较少，由于视觉情感分析是一个极具挑战的任务，在人类认知过程中，图像情感涉及较高层次的抽象和认知过程的主观性；在传统的图像情感分析方法中，研究者构造像素级颜色直方图和SIFT视觉词袋特征等低层视觉特征用于训练情感极性分类器，然而对于图像理解而言，那些低层视觉特征和高层人类情感概念之间仍存在情感鸿沟，最近，有研究者利用视觉实体或属性(例如，形容词名词对)作为特征用以视觉的情感分析，此外为了提高图像特征的表示能力，学者利用深度网络已经做了大量的相关研究，并且证明由多层非线性转换组成的神经网络比传统的浅层模型可以学到更高层次的表示，则有学者研究利用卷积神经网络提取深度视觉特征进行图像情感分析方法，相比于利用低层特征或中层特征的方法，达到了更好的性能，但是，这些图像情感分析的研究关注于构造视觉情感特征，是一元的，在训练分类器的时候往往忽略了其他可用的模态数据(例如，共现的标签、文本描述)，而在社交网络中，用户数据是多元的，不但包含图像，视频，还包含文字等。

此外，在现实应用中的，获得大量带情感标签的图像数据是昂贵的和耗费人工的，为了处理缺乏标签问题，研究者们尝试从其他辅助的源信息中迁移知识到图像分类任务中，尽管有标签的源数据有益于图像分类，但是在图像这样的源领域中获得标签数据的代价是很高的，与之相比，共现数据在社交网络上是较容易获取的，例如，图像以及相对应的标注或描述可作为共现数据进行文本到图像的迁移；研究者已经证明图像特征源于像素信息，其与类别标签没有语义相关性，与之相反，词特征和类别标签有语义可解释性，此外，一些研究已经证明在训练图像中协同使用文本特征可以提高图像内容识别能力。

最近，有研究者开始研究结合视觉内容和文本信息进行多模态社交媒体情感分析问题，尽管这些方法相比仅考虑视觉特征方法达到了更好的效果，然而其忽视了视觉模态和文本模态之间的结构关联性，利用与图像相关的视觉和文本特征之间的关联性已经改善了一些跨模态检索和图像标注任务的效果，但是在图像情感分析上的有效性没有被充分地证明。

人们在识别图像情感时，一般不仅仅只使用图像的低层特征(例如：颜色、纹理和形状等)，还需要预先在大脑中存储的大致和图像情感相关的概念(例如：实体对象、应用场景等)，图像的情感概念就是图像的高层语义，就是人们对图像内容的抽象理解，不能直接从图像的低层视觉特征中获得，而是需要有一定的概念知识进行判断，这就促使从源领域的文本空间迁移有判别性的知识到目标领域的视觉空间，由于文本和图像有不同的特征空间，故文本到图像的迁移学习是一种异构迁移学习；异构迁移学习作为一个新的机器学习范例正在日益受到关注，当目标领域的训练数据不能有效地学习预测模型时，迁移学习利用与之相关领域的源数据进行辅助学习，以学习性能更好的模型，异构迁移学习中的关键的问题是源领域和目标领域中的数据处在不同的特征表示空间中，这也正是异构迁移学习最为挑战以及与其他学习模式不同的地方，在异构特征空间进行迁移学习，通常必须依赖特征空间之间的关联关系，如何建立异构特征空间之间的关联关系，直观做法是，将源领域特征空间中的样本直接转换到目标领域特征空间中去，然而，对于文本与图像间的异构迁移学习，很难进行直接转换，则可以在有多个特征空间表示的数据基础上，来构建不同特征空间之间沟通的桥梁；共现数据包含图像领域和文本领域同样的组合实例，相对应的图像-文本对应该共享同一个潜在的语义空间，以此来判别分类，故为了更好的理解图像情感，用包含文本语义内容的潜在关联空间重新表示图像是很值得的。

发明内容

本发明针对图像情感极性分析存在的问题，提出了一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法，本方法可获得的数据规模大、人工成本低、数据噪声小、预测精度高、模型可解释性强及分类能力强，可以达到更好的图像情感极性分析效果。

基于多模态深度潜在关联的异构迁移图像情感极性分析方法，包括如下步骤：

1)构建初始情感图像数据集，利用情感词汇作为关键词从图像分享的社交网站上获取对应图像，然后将情感词汇对应的情感极性作为图像情感极性标签；

2)清除初始情感图像数据集中的噪声数据，利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声；

3)构建基于多模态深度潜在关联的异构迁移模型，利用此模型训练源领域文本和目标领域图像，经过优化直到文本和图像在潜在空间中的映射特征是高度关联为止；

4)构建多模态嵌入空间，在潜在空间中将源领域文本的语义信息迁移到目标领域图像，即将源领域文本的语义信息嵌入到目标领域图像中；

5)训练图像情感极性分类器以进行图像情感极性分析，利用多模态嵌入空间中生成的语义增强视觉特征表示来训练图像情感极性分类器，或通过多层全连接神经网络学习后再训练图像情感极性分类器，最后用图像情感极性分类器分析图像情感极性。

步骤1)中所述的构建初始情感图像数据集包括如下步骤：

(1)先验知识准备

准备带有情感极性分数的情感词汇库作为先验知识；利用VSO即视觉情感本体库提供3244个ANP即形容词名词对及ANP相对应的主要情感分数；视觉情感本体库由269个形容词及其相应的名词构成，并且每一个形容词名词对都进行了量化情感赋值；每个单词的情感值为[-1,1]，因此一个形容词名词对的情感取值范围为[-2,2]，小于0的为负面情感，大于0的为正面情感；

(2)利用关键词进行检索，获得初始情感图像数据集；

①利用视觉情感本体库中的形容词名词对作为关键词进行图像检索；

②从视觉情感本体库中取出一个形容词名词对，在图像分享社交网站中进行检索得到网页结果；

③从网页结果中提取图像及对应的图像描述信息；

④将用于检索的关键词对应情感极性值作为提取得到的图像的情感标签，大于0的为积极，反之为消极；

⑤检索视觉情感本体库中的所有形容词名词对，最后得到一个初始情感图像数据集。

步骤2)中所述的清除初始情感图像数据集中的噪声数据包括如下步骤：

(1)利用情感词典(SentiWordNet)的词汇及其情感分数构建一个与情感关联的词汇表，SentiWordNet是由著名的英语词汇字典(WordNet)同义词集赋予三种类型的情感分数(积极，消极，客观)构建而成；

(2)定义一个情感阈值，然后根据与情感关联的词汇表选择图像对应的文本中情感正面或负面的分数大于预定义阈值的所有词；

(3)计算选取的所有词的情感分数和，获得情感分数综合值，情感分数综合值大于0，则情感极性综合值为积极，反之为消极；

(4)分析情感极性综合值和形容词名词对的情感极性一致性，情感极性综合值和形容词名词对的情感极性发生冲突，即一个为积极，另一个为消极，对应的图像数据为噪声数据，删除该数据；情感极性综合值和形容词名词对的情感极性一致，即两者同为积极或同为消极，则保留该数据，筛选初始情感图像数据集中所有图像数据，获得初步清洗的情感图像数据集；

(5)根据预定义情感阈值以及与情感关联的词汇表从初步清洗的情感图像数据集中与图像对应的文本中提取所有词，再结合图像对应的形容词名词对组合为对应图像的多标签词语；

(6)提取300维预训练的Glove词向量来表示图像对应的多标签词语；

(7)设计一个多模态深度卷积神经网络的概率采样模型共同处理图像和相对应的多标签词语，该多模态深度卷积神经网络的概率采样模型由多模态深度卷积神经网络结构和采样部分构成；

其中多模态深度卷积神经网络结构由图像卷积神经网络分支，文本卷积神经网络分支以及两者一起输入的全连接神经网络和分类预测组成；

将初步清洗的情感图像数据集中的所有图像和对应的多标签词语分为训练集和测试集；首先以训练集中图像和对应的多标签词语的Glove词向量作为多模态卷积神经网络结构的输入，以形容词名词对的极性标签作为情感标签来训练多模态深度卷积神经网络结构；

让测试集中图像和对应的多标签词语的Glove词向量同时输入多模态卷积神经网络结构中进行情感分类预测；

(8)采样部分利用概率采样的算法选择新的训练子集继续微调多模态深度卷积神经网络结构中的网络参数，得到逐步训练的多模态深度卷积神经网络结构，以进一步减少初步清洗的情感图像数据集中的噪声数据；

经过多次迭代后，图像和对应的文本形成最终的情感图像数据集；

最后进行多模态深度潜在关联的异构迁移模型的训练。

步骤3)中所述的构建基于多模态深度潜在关联的异构迁移模型包括如下步骤：

基于多模态深度卷积神经网络(Convolutional Neural Network,CNN)的典型相关分析(Canonical Correlation Analysis，CCA)用于源领域文本到目标领域图像的异构迁移学习(Heterogeneous Transfer Learning)的模型，也称之为多模态深度潜在关联的异构迁移模型，简称CTCCA；

(1)设计CTCCA网络结构：

构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示，利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间，即线性CCA子空间；

(2)利用CTCCA寻找源领域文本和目标领域图像之间的潜在关联：

①在多模态深度学习情景中，首先要输入共现数据中成对的图像-文本对

到多模态深度卷积神经网络中，上标s和t分别表示源领域和目标领域，N表示图像-文本对数据的总数，视觉特征向量

表示第i个图像-文本对中的图像，则

表示相对应图像

中的第i个图像-文本对中的文本；

②利用文本模态卷积神经网络f和视觉模态卷积神经网络g共同提取d_s-维源领域文本的非线性特征即文本模态卷积神经网络的顶层输出和d_t-维目标领域图像的非线性特征即视觉模态卷积神经网络的顶层输出；

学习L≤min(d_s,d_t)对线性映射向量

和

共同映射多模态深度卷积神经网络中源领域文本的和目标领域图像的顶层输出，以至于每个领域中的映射和另一个领域中相对应的是最大关联的，使表示中的维度其相互之间是不相关的；

源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数表示为：

s.t.1,

s.t.2,

s.t.3,

其中，N表示数据的总数，tr()表示求矩阵迹的范数，θ_s和θ_t分别表示文本模态卷积神经网络和视觉模态卷积神经网络中相对应的学习参数

和

s.t.1、s.t.2、s.t.3分别表示约束条件1、2、3，r_s是约束条件1中的正则化参数，r_sI是约束条件1中的正则项，r_t是约束条件2中的正则化参数，r_tI是约束条件2中的正则项，I是单位矩阵，

表示N个源领域文本的顶层输出表示，同时

表示N个目标领域图像的顶层输出表示，f(X^s)^T和g(X^t)^T分别表示N个源领域文本的和目标领域图像的顶层输出表示的转置，

和

分别表示成对的线性映射向量U_s和U_t的转置，

表示L个线性映射向量U_s中的任何一个，

表示L个线性映射向量U_t中的任何一个，

是指在约束条件3中，表示不同对的源领域文本和目标领域图像的映射，此时不同对的映射之间是不相关的；

(3)利用CTCCA随机优化源领域文本和目标领域图像之间关联目标：

①通过预处理操作处理源领域文本顶层输出特征表示f(X^s)和目标领域图像的顶层输出特征表示g(X^t)，使f(X^s)和g(X^t)成为中心数据；

②计算源领域文本和目标领域图像中特征映射数据的交叉协方差矩阵即跨领域方差矩阵Σ_st，源领域文本正则化自协方差矩阵即源领域内方差矩阵Σ_ss，以及目标领域图像正则化自协方差矩阵即目标领域内方差矩阵Σ_tt：

③构建矩阵T，其中同时令

是它的前L个奇异值分解(SVD)，Λ包含在对角线上的奇异值δ₁≥···≥δ_L≥0，则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的优化通过

来实现，其优化的目标值也就是

④设置L＝d_s＝d_t，L表示线性映射向量的个数，d_s表示多模态卷积神经网络中源领域文本的顶层输出表示的维度，d_t表示目标领域图像的顶层输出表示的维度，源领域文本和目标领域图像之间的多模态深度潜在关联的总体关联目标函数等于T的矩阵迹范数：

corr(f(X^s),g(X^t))＝||T||_tr＝tr((T^TT)^1/2)

其中，corr()表示关联，具体指源领域文本和目标领域图像的顶层输出表示之间的关联，在设置L＝d_s＝d_t时，将f(X^s)和g(X^t)之间的关联转化成求解T的矩阵迹范数||T||_tr，通过计算矩阵T的转置T^T和矩阵T的乘积的1/2次方的迹tr()来实现；

⑤在多模态深度学习框架中优化源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数，可以通过优化一个矩阵迹的范数来找到总体关联的最大化；首先计算关于源领域文本和目标领域图像两个模态的特征的迹的范数的梯度，即计算总体关联对于不同的特征矩阵f(X^s)和g(X^t)的梯度；然后在深度神经网络中允许向下传播梯度，即对于不同的θ_s和θ_t通过标准的反向传播计算梯度，实现端到端的学习；

⑥运行随机梯度下降SGD的方法直到总体的关联在预留的验证集上不再改进，此时源领域文本和目标领域图像之间的总体关联是最大的。

步骤4)中所述的构建多模态嵌入空间包括如下步骤：

(1)利用两个映射矩阵U_s和U_t分别针对源领域文本顶层输出表示f(X^s)和目标领域图像的顶层输出表示g(X^t)，最大化线性关联系数：

其中，cov()表示协方差函数，var()表示自方差函数，()^T指一个向量或一个矩阵的转置；将源领域文本的和目标领域图像的顶层输出表示的关联性转化成求源领域文本的映射特征

和目标领域图像的映射特征

之间的协方差

与标准差

的比值，即源领域文本的映射特征

和目标领域图像的映射特征

之间协方差分布；利用两个映射矩阵U_s和U_t共同映射源领域文本顶层输出表示f(X^s)和目标领域图像的顶层输出表示g(X^t)到一个公共的空间，源领域文本的映射特征

和目标领域图像的映射特征

是最大关联的，即源领域文本和目标领域图像的映射特征分布变得相似；

(2)源领域文本的映射特征为语义特征表示，目标领域图像的映射特征为视觉特征表示，当源领域文本和目标领域图像的映射特征分布变得相似时，源领域文本的语义特征和目标领域图像的视觉特征变得更加的接近，

s.t.1,

s.t.2,

s.t.3,

其中，|| ||_F是Frobenius范数，用来表示距离，当源领域文本和目标领域图像的映射特征最大关联时，通过用最小化来变换最大化同时添加1/2次的限制以最小化源领域文本映射特征

和目标领域图像映射特征

之间的平方差，即将特征分布相似的源领域文本的语义特征表示和目标领域图像的视觉特征表示转化成一种在距离空间上的接近；

(3)当源领域文本的语义特征表示和目标领域图像的视觉特征表示在距离空间上变得接近的时候，在潜在空间中将源领域文本的语义知识迁移到目标领域图像中，即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中，形成语义增强视觉特征表示，此时，潜在空间也可称为多模态嵌入空间，

共同表示SIV是任意一个图像-文本对在多模态嵌入空间中针对目标领域图像的语义增强视觉特征表示，其可以丰富目标领域图像的特征。

步骤5)中所述的图像情感极性分析包括如下步骤：

在图像-文本对的共现数据学习中，利用多模态深度潜在关联的异构迁移模型将最终的情感图像数据集中所有数据形成的语义增强视觉特征表示划分成训练集和测试集；

(1)直接训练图像情感极性分类器；

①将训练集和对应的情感标签输入到四种分类器即逻辑回归(LogisticRegression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)分别训练四种图像情感极性分类器；

②利用图像情感极性分类器，在测试集上进行图像情感极性预测分析；

(2)通过多层全连接神经网络学习后再训练图像情感极性分类器；

①将训练集和对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后，再输入到四种分类器即逻辑回归(Logistic Regression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来分别训练四种图像情感极性分类器；

②利用图像情感极性分类器，在测试集上进行图像情感极性预测分析。

与现有方法相比，本发明具有的有益的效果是：

1.可获得的数据规模大

采用直接从社交网络中获取数据的方式，与原始的手工数据集相比较，可获得的数据规模大；

2.人工成本低

图像数据获取和数据清洗工作自动完成，需要的人工成本低；

3.数据噪声小

在数据获取阶段，引入两次数据清洗过程，可以清除大部分图像和标签不一致的噪音，与传统直接获取网络数据集相比，数据噪音更小；

4.预测精度高

在使用同样数据集进行训练时，基于潜在关联的异构迁移模型比传统的仅适用视觉模态卷积神经网络模型提升了分类准确率；

5.模型可解释性强

通过找到文本和图像之间的结构化最大关联，形成一个潜在空间，将与图像最相关的文本语义信息通过潜在空间中的异构迁移嵌入到图像领域中，丰富图像领域的特征表示，更好地进行图像情感分析；

6.分类能力强

分类模型只关注积极、消极问题，但本方法可以扩展到积极、中性、消极等多分类情感分析中。

附图说明

图1为多模态深度关联嵌入的异构迁移图像情感极性分析框架图；

图2为基于多模态卷积神经网络的概率采样框架图；

图3为基于多模态卷积神经网络的潜在关联分析框架图；

图4为图像情感极性分类框架1图；

图5为图像情感极性分类框架2图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，基于多模态深度潜在关联的异构迁移图像情感极性分析方法，包括如下步骤：

步骤1)中所述的构建初始情感图像数据集包括如下步骤：

(1)先验知识准备

准备带有情感极性分数的情感词汇库作为先验知识；利用VSO即视觉情感本体库，该VSO由Borth在2013年的文章“Large-scale visual sentiment ontology anddetectors using adjective noun pairs”中提出，其提供3244个ANP即形容词名词对以及ANP相对应的主要情感分数；该视觉情感本体库由269个形容词及其相应的名词构成，并且每一个形容词名词对都被进行了量化情感赋值；每个单词的情感值为[-1,1]，因此一个形容词名词对的情感值取值范围为[-2,2]，小于0的为负面情感，大于0的为正面情感，强度越接近2代表该词语的情感极性越积极，反之如果情感极性越接近-2；

(2)利用关键词进行检索，获得初始情感图像数据集；

③从网页结果中提取图像及对应的图像描述信息；

(1)A.Esuli在文章“SentiWord Net:A publicly available lexical resourcefor opinion mining”中提出情感词典(SentiWordNet)，它是基于著名的英语词汇字典(WordNet)，而且已经被用于基于文本的观点挖掘任务；利用情感词典(SentiWordNet)的词汇及其情感分数构建一个与情感关联的词汇表，SentiWordNet是由著名的英语词汇字典(WordNet)同义词集赋予三种类型的情感分数(积极，消极，客观)构建而成；

(7)参照图2，设计一个多模态深度卷积神经网络的概率采样模型共同处理图像和相对应的多标签词语，该多模态深度卷积神经网络的概率采样模型由多模态深度卷积神经网络结构和采样部分构成，其中多模态深度卷积神经网络结构由图像卷积神经网络分支，文本卷积神经网络分支以及两者一起输入的全连接神经网络和分类预测组成，多模态深度卷积神经网络结构的构造如下：

①图像卷积神经网络的分支结构为：每一张图像被调整为256*256的大小，调整过的图像经过两个卷积层处理，第一个卷积层有32个卷积核，大小为11*11*3，步长为4个像素；第二个卷积层有64个卷积核，大小为5*5，步长为2个像素，每个卷积层后都有最大池化层；此外，池化层后还用了三个全连接层分别为512，512，256；

②文本卷积神经网络的分支结构为：它由一个卷积层和两个全连接层组成。预训练的词向量用于输入，其中卷积层采用的过滤区域大小为3，且有20个过滤器，在句子矩阵上滤波器执行卷积并生成特征映射，在每一个映射上执行滑动的长度为2的最大池化操作；然后从映射中生成一个单变量的特征向量，并将这些特征连接起来形成一个特征向量输入到两层全连接层，即256，128中；

③图像卷积神经网络的顶层输出和文本卷积神经网络的顶层输出同时输入四层全连接神经网络分别为512，512，24，2，限制倒数第二个连接层有24个神经元，根据Plutchik的情绪轮即心理轮盘模型可知，总共的24种情绪又可归结为两类即积极情绪和消极情绪，则希望倒数第二层的24个节点可以帮助网络从一个给定的数据中学习24种情绪，然后根据这24种情绪的反应将每种数据划分成正的类或负的类；

④将初步清洗的情感图像数据集中的所有图像和对应的多标签词语分为训练集和测试集；首先以训练集中图像和对应的多标签词语的Glove词向量作为多模态卷积神经网络结构的输入，以形容词名词对的极性标签作为情感标签来训练多模态深度卷积神经网络结构；让测试集中图像和对应的多标签词语的Glove词向量同时输入多模态卷积神经网络结构中进行情感分类预测；整个过程从图像和相对应的多标签词语的Glove向量输入到最后的分类预测是一个端到端的学习过程；

(8)采样部分利用概率采样的算法进行如下操作：

①根据多模态深度卷积神经网络结构对数据集中每个训练实例的预测结果，以概率P删除所有类别相似的情感分数的实例，其中训练实例是指图像和相对应的多标签词语，概率P的计算公式如下所示：

P＝max(0,2-exp(|P_neg-P_pos|))

其中，max()为求0与2-exp(|P_neg-P_pos|)两者之间最大值，P_neg和P_pos为训练实例被判定为消极和积极的概率，即多模态深度卷积神经网络结构对训练实例的预测结果，|P_neg-P_pos|为两个概率的差的绝对值，当利用该多模态深度卷积神经网络结构预测训练实例的极性时，每个训练实例会得到两个概率值或者称为情感分数值，即积极P_pos和消极P_neg，当一个训练实例被预测的积极的和消极的情感分数之间的差异越大时，这个训练实例将会被保留到训练集中，反之预测的积极的和消极的情感分数之间的差异越小，这个实例被从训练集中删除的概率就越大；

②选择新的训练子集继续微调多模态卷积神经网络结构的网络参数，得到逐步训练的多模态卷积神经网络结构，以进一步减少初步清洗的情感图像数据集中的噪声数据，其中新的训练子集是指删除数据后剩余的图像和对应的多标签词语；

③经过多次迭代后，图像和对应的文本形成最终的情感图像数据集；

最后进行多模态深度潜在关联的异构迁移模型的训练。

(1)设计CTCCA网络结构：

构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示，且利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间，即线性CCA子空间；

多模态深度卷积神经网络的整体构造如下所示：

①文本模态的卷积神经网络的总体结构是由一个卷积层和三个全连接层组成；预训练的词向量用于输入，它们在特定的任务中进行微调时，被认为是一种非静态的；其中卷积层采用三种不同的过滤区域大小(3、4、5)用以提取不同语义层次的特征，且每一个过滤区域都有20个过滤器，在句子矩阵上滤波器执行卷积并生成可变长度的特征映射，在每一个映射上执行滑动长度为2的最大池化操作；因此，从所有的映射中生成一个单变量的特征向量，并将这些特征连接起来形成一个特征向量，然后全连接层接收该特征向量作为输入而且用它来学习高层次的语义表示；

②视觉模态的卷积神经网络的总体结构是由四个卷积层和四个全连接层组成；第一个卷积层输入的图像被调整为相同的大小，表示为三维矩阵，通过四个卷积层来处理调整大小的图像，前两个卷积层分别有16个卷积核，卷积核大小为3*3，步长为2，后两个卷积层分别有32个卷积核，卷积核大小为3*3，步长为2，每个卷积层后伴随有最大池化层；此外，池化层后还利用了四个全连接层来进一步处理；

到多模态深度卷积神经网络中，上标s和t分别表示源领域和目标领域，N表示图像-文本对数据的总数，其中视觉特征向量

表示第i个图像-文本对中的图像，则

表示相对应图像

中的第i个图像-文本对中的文本；

②利用文本模态卷积神经网络f和视觉模态卷积神经网络g共同提取d_s-维源领域文本的非线性特征即文本模态卷积神经网络的顶层输出和d_t-维目标领域图像的非线性特征即视觉模态卷积神经网络的顶层输出，例如，对于一个图像-文本对

通过多模态卷积神经网络分别提取文本的非线性特征

和图像的非线性特征

学习L≤min(d_s,d_t)对线性映射向量

和

由于整个过程中没有用到类别信息则它是无监督的，尽管深度神经网络已经成功地应用于监督分类任务，但是该方法以一种非监督的方式来学习两种特征到一个空间的非线性转化，在这个空间中数据是高度关联的；

CTCCA模型由两个卷积神经网络组成且最大化两个卷积神经网络输出的典型关联，则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数可以表示为：

s.t.1,

s.t.2,

s.t.3,

和

s.t.1、s.t.2、s.t.3分别表示约束条件1、2、3，r_s是约束条件1中的正则化参数，r_sI是约束条件1中的正则项，其为了确保该约束条件有积极的确定性，r_t是约束条件2中的正则化参数，r_tI是约束条件2中的正则项，其同样为了确保该约束条件有积极的确定性，I是单位矩阵，

表示N个源领域文本的顶层输出表示，同时

和

分别表示成对的线性映射向量U_s和U_t的转置，

表示L个线性映射向量U_s中的任何一个，

表示L个线性映射向量U_t中的任何一个，

③构建矩阵T，其中

同时令

是它的前L个奇异值分解(SVD)，

和

分别是T的前L个左和右奇异向量矩阵，Λ包含在对角线上的奇异值δ₁≥···≥δ_L≥0，则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的优化通过

来实现，其优化的目标值也就是

④设置L＝d_s＝d_t，L表示线性映射向量的个数，d_s表示多模态卷积神经网络中源领域文本的顶层输出表示的维度，d_t表示目标领域图像图像的顶层输出表示的维度，源领域文本和目标领域图像之间的多模态深度潜在关联的总体关联目标函数等于T的矩阵迹范数：

corr(f(X^s),g(X^t))＝||T||_tr＝tr((T^TT)^1/2)

(a)对于特征矩阵f(X^s)总体关联的梯度计算如下所示：

其中

(b)对于g(X^t)的总体关联的梯度计算如下所示：

其中

(c)参照图3，对于不同的θ_s和θ_t通过标准的反向传播计算梯度，以T的矩阵迹范数为优化函数，先计算TNO层(图3中的Trace norm obj.)的梯度，然后沿着网络的两个分支向下传播；

(d)给出在小批量上评估的相对应的权重参数为θ＝[θ_s；θ_t]的源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的权重梯度

的情况下，则权重更新如下：

θ^t＝θ^t-1+Δθ^t，其中η∈[0,1)和ε^t分别是在t时的动量参数和学习率；

步骤4)中所述的构建多模态嵌入空间包括如下步骤：

和目标领域图像的映射特征

之间的协方差

与标准差

的比值，即源领域文本的映射特征

和目标领域图像的映射特征

和目标领域图像的映射特征

s.t.1,

s.t.2,

s.t.3,

和目标领域图像映射特征

(3)当源领域文本的语义特征表示和目标领域图像的视觉特征表示在距离空间上变得接近的时候，在潜在空间中就构建起一座桥让源领域文本的语义知识迁移到目标领域图像中，即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中，形成语义增强视觉特征表示，此时，潜在空间也可称为多模态嵌入空间，

步骤5)中所述的图像情感极性分析包括如下步骤：

在图像-文本对的共现数据学习中，利用非线性特征映射学习源领域文本和目标领域图像的顶层输出表示f(·)和g(·)，且在潜在空间中确定映射矩阵

和

源领域文本和目标领域图像中成对的映射向量一旦跨越

则获得潜在关联子空间χ^c，此时，源领域和目标领域数据的映射特征即共同表示如下所示：

共同表示SIV是为了重新表示图像的语义增强视觉特征表示；基于共现数据中目标领域图像的语义增强的视觉特征表示SIV和相对应的图像情感标签，训练和测试不同的图像情感极性分类器，分别如图4、5所示：

利用多模态深度潜在关联的异构迁移模型将最终的情感图像数据集中所有数据形成的语义增强视觉特征表示划分成训练集和测试集；

(1)参照图4，直接训练图像情感极性分类器；

①将训练集和相对应的情感标签输入到四种分类器即逻辑回归(LogisticRegression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来训练四种图像情感极性分类器；

(2)参照图5，通过多层全连接神经网络学习后再训练图像情感极性分类器；

①将训练集和相对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后，再输入到四种分类器即逻辑回归(Logistic Regression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来分别训练四种图像情感极性分类器；

本实施例中选择Getty和Flickr这样的图像社交网站来收集数据；

(1)数据获取

为了测试本方法，在机器弱标签和人工标签的数据集上进行实验，总共收集了四个数据集，分别来自视觉中国的Getty专区，Flickr和Twitter：

①首先从视觉中国Getty专区收集两个数据集VCGⅠ数据集(利用VSO中3244个ANP作为关键词，从Getty专区获取图像数据)，VCGⅡ数据集(随机从VSO中挑选300个ANP作为关键词，从Getty专区获取图像数据)；

②然后利用VSO中的ANP从Flickr社交网站上获取MVSO数据集；

③此外，利用Borth等人发表的《Large-scale visual sentiment ontology anddetectors using adjective noun pairs》，You等人发表的《Robust image sentimentanalysis using progressively trained and domain transferred deep networks》和Cai等人发表的《Convolutional neural networks for multimedia sentimentanalysis》三篇论文中使用的少量的人工标注的Twitter数据集构造Twitter数据集；

(2)数据清洗，利用情感一致性判别方法和基于多模态深度学习的概率采样模型清除初始情感图像数据集中的噪声数据，经过处理过后最终的数据集的统计情况如下表1所示：

表1：数据集的统计信息

(3)实验设置

①本实施例中，词向量通过skip-gram模型初始化词向量，它已经在先前的工作中展示出强有力的表现；

②为了处理不同长度的文本，本实施例选取所用训练集中的最长的文本长度为最大长度，不足最大长度的文本用零向量填充，上下文窗口大小设为10，词向量维度设为300；

③模型参数采用随机梯度下降算法SGD更新，该方法将未登录词即不在word2vec中的词语、标点符号和表情符号等用随机向量初始化后作为模型的参数，随着SGD过程的迭代而更新；

④模型中每个卷积池化层和全连接层的输出均连接到ReLU激活函数，且采用dropout以防止过拟合，无监督多模态卷积神经网络的顶层表示的维度我们设置为相同的大小，如下的具体实验中设置为128；

(4)对比实验

①CNN：用卷积神经网络的图像情感分析，如视觉模态卷积神经网络所示；

②CTKL：Yang等于2015年提出“Robust and non-negative collective matrixfactorization for text-to-image transfer learning”，这是较早的利用非负的联合矩阵分解研究文本到图像的迁移学习的文章，受到Yang的研究的启发，利用来自于视觉模态卷积神经网络和文本模态卷积神经网络的深度表示和非负的联合矩阵分解模型解决跨领域图像情感分析问题，在共现数据中利于异构的迁移学习模型，在图像特征空间中可以确定基础的因子，则可在深层视觉特征空间到高层视觉语义特征空间之间构建一个映射，则任何图像都可以在高层视觉语义特征空间中重新表示；针对目标领域的图像情感极性分类问题，图像在基空间的新的表示可以用于输入分类器进而获得图像情感分类的效果；

③CTCCA：语义增强的视觉特征表示直接用于学习图像情感极性分类器；

④CTCCA+MLP：利用多层全连接神经网络进一步捕获语义增强的视觉特征表示的更深层次的内部关联后再用于学习图像情感极性分类器；

(5)实验性能

在实验一和实验二中，分别对VCG Ⅰ数据集和VCG Ⅱ数据集随机选取80％用于训练20％用于测试，实验一和实验二是为了说明提出的方法在相同领域不同数据背景情况下是有一定适应性的；实验一和二的结果(准确率accuracy)如下表2和3所示：

表2：在VCG Ⅰ数据集上不同方法的表现(/％)

Algorithm	SVM(linear)	SVM(RBF)	Logistic Regression	Random Forest
					CNN	54.94	55.02	55.11	55.14
CTCMF	56.32	56.98	59.52	63.23
					CTCCA	58.92	64.96	60.15	71.85
CTCCA+MLP	71.88	71.98	72.48	72.91

表3：在VCG Ⅱ数据集上不同方法的表现(/％)

Algorithm	SVM(linear)	SVM(RBF)	Logistic Regression	Random Forest
					CNN	54.01	54.03	54.21	54.21
CTCMF	59.52	60.34	62.56	66.49
					CTCCA	65.54	71.94	66.12	77.17
CTCCA+MLP	77.48	77.56	78.15	79.12

在实验三中，我们用MVSO数据集当训练集，用Twitter数据集当测试集，首先随机的划分MVSO数据集为相等大小的两部分，用第一部分来训练模型，第二部分来微调模型。实验三是为了说明提出的方法在不同领域上具有适应能力，实验三的结果(准确率accuracy)如下表4所示：

表4：在Twitter数据集上不同方法的表现(/％)

Algorithm	SVM(linear)	SVM(RBF)	Logistic Regression	Random Forest
					CNN	60.53	61.82	63.24	63.85
CTCMF	62.31	62.58	65.16	67.12
					CTCCA	63.43	67.52	65.93	73.35
CTCCA+MLP	73.84	74.52	75.97	76.21

由上述具体实施的实验结果表明，本实施例提出的模型CTCCA和CTCCA+MLP相比于仅利用视觉模态CNN有显著地提升且优于其他文本到图像的迁移学习方法，且CTCCA+MLP的方法要优于CTCCA的方法。

Claims

1.一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法，其特征在于，包括如下步骤：

1)构建初始情感图像数据集；利用情感词汇作为关键词从图像分享的社交网站上获取对应图像，然后将情感词汇对应的情感极性作为图像情感极性标签；

2)清除初始情感图像数据集中的噪声数据；利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声；

清除初始情感图像数据集中的噪声数据包括如下步骤：

(1)利用情感词典的词汇及情感分数构建一个与情感关联的词汇表；

(4)分析情感极性综合值和形容词名词对的情感极性一致性，情感极性综合值和形容词名词对的情感极性发生冲突，则删除该噪声数据；情感极性综合值和形容词名词对的情感极性一致，则保留该数据，筛选初始情感图像数据集中所有图像数据，获得初步清洗的情感图像数据集；

(8)采样部分利用概率采样的算法选择新的训练子集继续微调多模态深度卷积神经网络结构中的网络参数，得到逐步训练的多模态深度卷积神经网络结构，以减少初步清洗的情感图像数据集中的噪声数据；

最后进行多模态深度潜在关联的异构迁移模型的训练；

3)构建基于多模态深度潜在关联的异构迁移模型；利用此模型训练源领域文本和目标领域图像，经过优化直到文本和图像在潜在空间中的映射特征是高度关联为止；

构建基于多模态深度潜在关联的异构迁移模型包括如下步骤：

基于多模态深度卷积神经网络的典型相关分析用于源领域文本到目标领域图像的异构迁移学习的模型，也称之为多模态深度潜在关联的异构迁移模型；

(1)设计多模态深度潜在关联的异构迁移模型网络结构：

构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示，且利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间；

(2)利用多模态深度潜在关联的异构迁移模型寻找源领域文本和目标领域图像之间的潜在关联：

①输入共现数据中成对的图像-文本对

表示第i个图像-文本对中的图像，

表示相对应图像

中的第i个图像-文本对中的文本；

学习L≤min(d_s,d_t)对线性映射向量

和

共同映射多模态深度卷积神经网络中源领域文本的和目标领域图像的顶层输出；

和

表示N个源领域文本的顶层输出表示，同时

和

分别表示成对的线性映射向量U_s和U_t的转置，

表示L个线性映射向量U_s中的任何一个，

表示L个线性映射向量U_t中的任何一个，

是指在约束条件3中，表示不同对的源领域文本和目标领域图像的映射；

(3)利用多模态深度潜在关联的异构迁移模型随机优化源领域文本和目标领域图像之间关联目标：

②计算源领域文本和目标领域图像中特征映射数据的交叉协方差矩阵即跨领域方差矩阵∑_st，源领域文本正则化自协方差矩阵即源领域内方差矩阵∑_ss，以及目标领域图像正则化自协方差矩阵即目标领域内方差矩阵∑_tt：

③构建矩阵T，其中

同时令

是它的前L个奇异值分解，Λ包含在对角线上的奇异值δ₁≥…≥δ_L≥0，则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的优化通过

来实现，其优化的目标值也就是

corr(f(X^s),g(X^t))＝||T||_tr＝tr((T^TT)^1/2)

⑤在多模态深度学习框架中优化源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数，首先计算总体关联对于不同的特征矩阵f(X^s)和g(X^t)的梯度，然后对于不同的θ_s和θ_t通过标准的反向传播计算梯度；

⑥运行随机梯度下降SGD的方法直到总体的关联在预留的验证集上不再改进；

4)构建多模态嵌入空间；在潜在空间中将源领域文本的语义信息迁移到目标领域图像，即将源领域文本的语义信息嵌入到目标领域图像中；

5)训练图像情感极性分类器以进行图像情感极性分析；利用多模态嵌入空间中生成的语义增强视觉特征表示来训练图像情感极性分类器，或通过多层全连接神经网络学习后再训练图像情感极性分类器，最后用图像情感极性分类器分析图像情感极性。

2.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法，其特征在于，步骤1)中所述的构建初始情感图像数据集包括如下步骤：

(1)先验知识准备

准备带有情感极性分数的情感词汇库；利用视觉情感本体库提供的3244个形容词名词对及形容词名词对对应的主要情感分数作为先验知识；

(2)利用关键词进行检索，获得初始情感图像数据集；

③从网页结果中提取图像及对应的图像描述信息；

3.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法，其特征在于，步骤4)中所述的构建多模态嵌入空间包括如下步骤：

和目标领域图像的映射特征

之间的协方差

与标准差

的比值，即源领域文本的映射特征

和目标领域图像的映射特征

之间协方差分布；

(2)源领域文本的映射特征为语义特征表示，目标领域图像的映射特征为视觉特征表示，

其中，||||_F是Frobenius范数，表示距离，当源领域文本和目标领域图像的映射特征最大关联时，通过最小化来变换最大化同时添加1/2次的限制以最小化源领域文本映射特征

和目标领域图像映射特征

(3)在潜在空间中将源领域文本的语义知识迁移到目标领域图像中，即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中，形成语义增强视觉特征表示，此时，潜在空间也可称为多模态嵌入空间，

共同表示SIV是任意一个图像-文本对在多模态嵌入空间中针对目标领域图像的语义增强视觉特征表示。

4.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法，其特征在于，步骤5)中所述的图像情感极性分析包括如下步骤：

(1)直接训练图像情感极性分类器

①将训练集和对应的情感标签输入到四种分类器即逻辑回归、线性核支持向量机、高斯核支持向量机和随机森林分别训练四种图像情感极性分类器；

(2)通过多层全连接神经网络学习后再训练图像情感极性分类器

①将训练集和对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后，再输入到四种分类器即逻辑回归、线性核支持向量机、高斯核支持向量机和随机森林来分别训练四种图像情感极性分类器；