CN107679580B - 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 - Google Patents
一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 Download PDFInfo
- Publication number
- CN107679580B CN107679580B CN201710989485.5A CN201710989485A CN107679580B CN 107679580 B CN107679580 B CN 107679580B CN 201710989485 A CN201710989485 A CN 201710989485A CN 107679580 B CN107679580 B CN 107679580B
- Authority
- CN
- China
- Prior art keywords
- image
- emotion
- text
- domain
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法,包括如下步骤:1)构建初始情感图像数据集;将情感词汇对应的情感极性作为图像情感极性标签;2)清除初始情感图像数据集中的噪声数据;利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声;3)构建基于多模态深度潜在关联的异构迁移模型;然后训练源领域文本和目标领域图像;4)构建多模态嵌入空间;将源领域文本的语义信息嵌入到目标领域图像中;5)训练图像情感极性分类器以进行图像情感极性分析。本方法可获得的数据规模大、人工成本低、数据噪声小、预测精度高、模型可解释性强及分类能力强,可以达到更好的图像情感极性分析效果。
Description
技术领域
本发明涉及图像内容理解和数据分析技术领域,尤其是一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法。
背景技术
随着社交媒体的流行,社交网络在人们的日常生活中有着不可替代的地位。越来越多的社交媒体用户更加倾向于借助视觉内容来表达他们的观点和分享他们的经历,大量的用户生成图像也因此而生成,面对庞大的用户生成图像,如何挖掘用户生成图像数据中的学术价值和商业价值就成了学术界和工业界急需解决的问题,尤其是挖掘、分析数据中的用户意见、情感,因此,利用用户生成图像数据进行意见挖掘和情感分析开始成为研究热点。
据我们所知,关注视觉内容的情感分析研究相对较少,由于视觉情感分析是一个极具挑战的任务,在人类认知过程中,图像情感涉及较高层次的抽象和认知过程的主观性;在传统的图像情感分析方法中,研究者构造像素级颜色直方图和SIFT视觉词袋特征等低层视觉特征用于训练情感极性分类器,然而对于图像理解而言,那些低层视觉特征和高层人类情感概念之间仍存在情感鸿沟,最近,有研究者利用视觉实体或属性(例如,形容词名词对)作为特征用以视觉的情感分析,此外为了提高图像特征的表示能力,学者利用深度网络已经做了大量的相关研究,并且证明由多层非线性转换组成的神经网络比传统的浅层模型可以学到更高层次的表示,则有学者研究利用卷积神经网络提取深度视觉特征进行图像情感分析方法,相比于利用低层特征或中层特征的方法,达到了更好的性能,但是,这些图像情感分析的研究关注于构造视觉情感特征,是一元的,在训练分类器的时候往往忽略了其他可用的模态数据(例如,共现的标签、文本描述),而在社交网络中,用户数据是多元的,不但包含图像,视频,还包含文字等。
此外,在现实应用中的,获得大量带情感标签的图像数据是昂贵的和耗费人工的,为了处理缺乏标签问题,研究者们尝试从其他辅助的源信息中迁移知识到图像分类任务中,尽管有标签的源数据有益于图像分类,但是在图像这样的源领域中获得标签数据的代价是很高的,与之相比,共现数据在社交网络上是较容易获取的,例如,图像以及相对应的标注或描述可作为共现数据进行文本到图像的迁移;研究者已经证明图像特征源于像素信息,其与类别标签没有语义相关性,与之相反,词特征和类别标签有语义可解释性,此外,一些研究已经证明在训练图像中协同使用文本特征可以提高图像内容识别能力。
最近,有研究者开始研究结合视觉内容和文本信息进行多模态社交媒体情感分析问题,尽管这些方法相比仅考虑视觉特征方法达到了更好的效果,然而其忽视了视觉模态和文本模态之间的结构关联性,利用与图像相关的视觉和文本特征之间的关联性已经改善了一些跨模态检索和图像标注任务的效果,但是在图像情感分析上的有效性没有被充分地证明。
人们在识别图像情感时,一般不仅仅只使用图像的低层特征(例如:颜色、纹理和形状等),还需要预先在大脑中存储的大致和图像情感相关的概念(例如:实体对象、应用场景等),图像的情感概念就是图像的高层语义,就是人们对图像内容的抽象理解,不能直接从图像的低层视觉特征中获得,而是需要有一定的概念知识进行判断,这就促使从源领域的文本空间迁移有判别性的知识到目标领域的视觉空间,由于文本和图像有不同的特征空间,故文本到图像的迁移学习是一种异构迁移学习;异构迁移学习作为一个新的机器学习范例正在日益受到关注,当目标领域的训练数据不能有效地学习预测模型时,迁移学习利用与之相关领域的源数据进行辅助学习,以学习性能更好的模型,异构迁移学习中的关键的问题是源领域和目标领域中的数据处在不同的特征表示空间中,这也正是异构迁移学习最为挑战以及与其他学习模式不同的地方,在异构特征空间进行迁移学习,通常必须依赖特征空间之间的关联关系,如何建立异构特征空间之间的关联关系,直观做法是,将源领域特征空间中的样本直接转换到目标领域特征空间中去,然而,对于文本与图像间的异构迁移学习,很难进行直接转换,则可以在有多个特征空间表示的数据基础上,来构建不同特征空间之间沟通的桥梁;共现数据包含图像领域和文本领域同样的组合实例,相对应的图像-文本对应该共享同一个潜在的语义空间,以此来判别分类,故为了更好的理解图像情感,用包含文本语义内容的潜在关联空间重新表示图像是很值得的。
发明内容
本发明针对图像情感极性分析存在的问题,提出了一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法,本方法可获得的数据规模大、人工成本低、数据噪声小、预测精度高、模型可解释性强及分类能力强,可以达到更好的图像情感极性分析效果。
基于多模态深度潜在关联的异构迁移图像情感极性分析方法,包括如下步骤:
1)构建初始情感图像数据集,利用情感词汇作为关键词从图像分享的社交网站上获取对应图像,然后将情感词汇对应的情感极性作为图像情感极性标签;
2)清除初始情感图像数据集中的噪声数据,利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声;
3)构建基于多模态深度潜在关联的异构迁移模型,利用此模型训练源领域文本和目标领域图像,经过优化直到文本和图像在潜在空间中的映射特征是高度关联为止;
4)构建多模态嵌入空间,在潜在空间中将源领域文本的语义信息迁移到目标领域图像,即将源领域文本的语义信息嵌入到目标领域图像中;
5)训练图像情感极性分类器以进行图像情感极性分析,利用多模态嵌入空间中生成的语义增强视觉特征表示来训练图像情感极性分类器,或通过多层全连接神经网络学习后再训练图像情感极性分类器,最后用图像情感极性分类器分析图像情感极性。
步骤1)中所述的构建初始情感图像数据集包括如下步骤:
(1)先验知识准备
准备带有情感极性分数的情感词汇库作为先验知识;利用VSO即视觉情感本体库提供3244个ANP即形容词名词对及ANP相对应的主要情感分数;视觉情感本体库由269个形容词及其相应的名词构成,并且每一个形容词名词对都进行了量化情感赋值;每个单词的情感值为[-1,1],因此一个形容词名词对的情感取值范围为[-2,2],小于0的为负面情感,大于0的为正面情感;
(2)利用关键词进行检索,获得初始情感图像数据集;
①利用视觉情感本体库中的形容词名词对作为关键词进行图像检索;
②从视觉情感本体库中取出一个形容词名词对,在图像分享社交网站中进行检索得到网页结果;
③从网页结果中提取图像及对应的图像描述信息;
④将用于检索的关键词对应情感极性值作为提取得到的图像的情感标签,大于0的为积极,反之为消极;
⑤检索视觉情感本体库中的所有形容词名词对,最后得到一个初始情感图像数据集。
步骤2)中所述的清除初始情感图像数据集中的噪声数据包括如下步骤:
(1)利用情感词典(SentiWordNet)的词汇及其情感分数构建一个与情感关联的词汇表,SentiWordNet是由著名的英语词汇字典(WordNet)同义词集赋予三种类型的情感分数(积极,消极,客观)构建而成;
(2)定义一个情感阈值,然后根据与情感关联的词汇表选择图像对应的文本中情感正面或负面的分数大于预定义阈值的所有词;
(3)计算选取的所有词的情感分数和,获得情感分数综合值,情感分数综合值大于0,则情感极性综合值为积极,反之为消极;
(4)分析情感极性综合值和形容词名词对的情感极性一致性,情感极性综合值和形容词名词对的情感极性发生冲突,即一个为积极,另一个为消极,对应的图像数据为噪声数据,删除该数据;情感极性综合值和形容词名词对的情感极性一致,即两者同为积极或同为消极,则保留该数据,筛选初始情感图像数据集中所有图像数据,获得初步清洗的情感图像数据集;
(5)根据预定义情感阈值以及与情感关联的词汇表从初步清洗的情感图像数据集中与图像对应的文本中提取所有词,再结合图像对应的形容词名词对组合为对应图像的多标签词语;
(6)提取300维预训练的Glove词向量来表示图像对应的多标签词语;
(7)设计一个多模态深度卷积神经网络的概率采样模型共同处理图像和相对应的多标签词语,该多模态深度卷积神经网络的概率采样模型由多模态深度卷积神经网络结构和采样部分构成;
其中多模态深度卷积神经网络结构由图像卷积神经网络分支,文本卷积神经网络分支以及两者一起输入的全连接神经网络和分类预测组成;
将初步清洗的情感图像数据集中的所有图像和对应的多标签词语分为训练集和测试集;首先以训练集中图像和对应的多标签词语的Glove词向量作为多模态卷积神经网络结构的输入,以形容词名词对的极性标签作为情感标签来训练多模态深度卷积神经网络结构;
让测试集中图像和对应的多标签词语的Glove词向量同时输入多模态卷积神经网络结构中进行情感分类预测;
(8)采样部分利用概率采样的算法选择新的训练子集继续微调多模态深度卷积神经网络结构中的网络参数,得到逐步训练的多模态深度卷积神经网络结构,以进一步减少初步清洗的情感图像数据集中的噪声数据;
经过多次迭代后,图像和对应的文本形成最终的情感图像数据集;
最后进行多模态深度潜在关联的异构迁移模型的训练。
步骤3)中所述的构建基于多模态深度潜在关联的异构迁移模型包括如下步骤:
基于多模态深度卷积神经网络(Convolutional Neural Network,CNN)的典型相关分析(Canonical Correlation Analysis,CCA)用于源领域文本到目标领域图像的异构迁移学习(Heterogeneous Transfer Learning)的模型,也称之为多模态深度潜在关联的异构迁移模型,简称CTCCA;
(1)设计CTCCA网络结构:
构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示,利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间,即线性CCA子空间;
(2)利用CTCCA寻找源领域文本和目标领域图像之间的潜在关联:
①在多模态深度学习情景中,首先要输入共现数据中成对的图像-文本对到多模态深度卷积神经网络中,上标s和t分别表示源领域和目标领域,N表示图像-文本对数据的总数,视觉特征向量表示第i个图像-文本对中的图像,则表示相对应图像中的第i个图像-文本对中的文本;
②利用文本模态卷积神经网络f和视觉模态卷积神经网络g共同提取ds-维源领域文本的非线性特征即文本模态卷积神经网络的顶层输出和dt-维目标领域图像的非线性特征即视觉模态卷积神经网络的顶层输出;
学习L≤min(ds,dt)对线性映射向量和共同映射多模态深度卷积神经网络中源领域文本的和目标领域图像的顶层输出,以至于每个领域中的映射和另一个领域中相对应的是最大关联的,使表示中的维度其相互之间是不相关的;
源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数表示为:
其中,N表示数据的总数,tr()表示求矩阵迹的范数,θs和θt分别表示文本模态卷积神经网络和视觉模态卷积神经网络中相对应的学习参数和s.t.1、s.t.2、s.t.3分别表示约束条件1、2、3,rs是约束条件1中的正则化参数,rsI是约束条件1中的正则项,rt是约束条件2中的正则化参数,rtI是约束条件2中的正则项,I是单位矩阵,表示N个源领域文本的顶层输出表示,同时表示N个目标领域图像的顶层输出表示,f(Xs)T和g(Xt)T分别表示N个源领域文本的和目标领域图像的顶层输出表示的转置,和分别表示成对的线性映射向量Us和Ut的转置,表示L个线性映射向量Us中的任何一个,表示L个线性映射向量Ut中的任何一个,是指在约束条件3中,表示不同对的源领域文本和目标领域图像的映射,此时不同对的映射之间是不相关的;
(3)利用CTCCA随机优化源领域文本和目标领域图像之间关联目标:
①通过预处理操作处理源领域文本顶层输出特征表示f(Xs)和目标领域图像的顶层输出特征表示g(Xt),使f(Xs)和g(Xt)成为中心数据;
②计算源领域文本和目标领域图像中特征映射数据的交叉协方差矩阵即跨领域方差矩阵Σst,源领域文本正则化自协方差矩阵即源领域内方差矩阵Σss,以及目标领域图像正则化自协方差矩阵即目标领域内方差矩阵Σtt:
③构建矩阵T,其中同时令是它的前L个奇异值分解(SVD),Λ包含在对角线上的奇异值δ1≥···≥δL≥0,则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的优化通过来实现,其优化的目标值也就是
④设置L=ds=dt,L表示线性映射向量的个数,ds表示多模态卷积神经网络中源领域文本的顶层输出表示的维度,dt表示目标领域图像的顶层输出表示的维度,源领域文本和目标领域图像之间的多模态深度潜在关联的总体关联目标函数等于T的矩阵迹范数:
corr(f(Xs),g(Xt))=||T||tr=tr((TTT)1/2)
其中,corr()表示关联,具体指源领域文本和目标领域图像的顶层输出表示之间的关联,在设置L=ds=dt时,将f(Xs)和g(Xt)之间的关联转化成求解T的矩阵迹范数||T||tr,通过计算矩阵T的转置TT和矩阵T的乘积的1/2次方的迹tr()来实现;
⑤在多模态深度学习框架中优化源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数,可以通过优化一个矩阵迹的范数来找到总体关联的最大化;首先计算关于源领域文本和目标领域图像两个模态的特征的迹的范数的梯度,即计算总体关联对于不同的特征矩阵f(Xs)和g(Xt)的梯度;然后在深度神经网络中允许向下传播梯度,即对于不同的θs和θt通过标准的反向传播计算梯度,实现端到端的学习;
⑥运行随机梯度下降SGD的方法直到总体的关联在预留的验证集上不再改进,此时源领域文本和目标领域图像之间的总体关联是最大的。
步骤4)中所述的构建多模态嵌入空间包括如下步骤:
(1)利用两个映射矩阵Us和Ut分别针对源领域文本顶层输出表示f(Xs)和目标领域图像的顶层输出表示g(Xt),最大化线性关联系数:
其中,cov()表示协方差函数,var()表示自方差函数,()T指一个向量或一个矩阵的转置;将源领域文本的和目标领域图像的顶层输出表示的关联性转化成求源领域文本的映射特征和目标领域图像的映射特征之间的协方差与标准差的比值,即源领域文本的映射特征和目标领域图像的映射特征之间协方差分布;利用两个映射矩阵Us和Ut共同映射源领域文本顶层输出表示f(Xs)和目标领域图像的顶层输出表示g(Xt)到一个公共的空间,源领域文本的映射特征和目标领域图像的映射特征是最大关联的,即源领域文本和目标领域图像的映射特征分布变得相似;
(2)源领域文本的映射特征为语义特征表示,目标领域图像的映射特征为视觉特征表示,当源领域文本和目标领域图像的映射特征分布变得相似时,源领域文本的语义特征和目标领域图像的视觉特征变得更加的接近,
其中,|| ||F是Frobenius范数,用来表示距离,当源领域文本和目标领域图像的映射特征最大关联时,通过用最小化来变换最大化同时添加1/2次的限制以最小化源领域文本映射特征和目标领域图像映射特征之间的平方差,即将特征分布相似的源领域文本的语义特征表示和目标领域图像的视觉特征表示转化成一种在距离空间上的接近;
(3)当源领域文本的语义特征表示和目标领域图像的视觉特征表示在距离空间上变得接近的时候,在潜在空间中将源领域文本的语义知识迁移到目标领域图像中,即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中,形成语义增强视觉特征表示,此时,潜在空间也可称为多模态嵌入空间,
共同表示SIV是任意一个图像-文本对在多模态嵌入空间中针对目标领域图像的语义增强视觉特征表示,其可以丰富目标领域图像的特征。
步骤5)中所述的图像情感极性分析包括如下步骤:
在图像-文本对的共现数据学习中,利用多模态深度潜在关联的异构迁移模型将最终的情感图像数据集中所有数据形成的语义增强视觉特征表示划分成训练集和测试集;
(1)直接训练图像情感极性分类器;
①将训练集和对应的情感标签输入到四种分类器即逻辑回归(LogisticRegression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)分别训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析;
(2)通过多层全连接神经网络学习后再训练图像情感极性分类器;
①将训练集和对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后,再输入到四种分类器即逻辑回归(Logistic Regression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来分别训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析。
与现有方法相比,本发明具有的有益的效果是:
1.可获得的数据规模大
采用直接从社交网络中获取数据的方式,与原始的手工数据集相比较,可获得的数据规模大;
2.人工成本低
图像数据获取和数据清洗工作自动完成,需要的人工成本低;
3.数据噪声小
在数据获取阶段,引入两次数据清洗过程,可以清除大部分图像和标签不一致的噪音,与传统直接获取网络数据集相比,数据噪音更小;
4.预测精度高
在使用同样数据集进行训练时,基于潜在关联的异构迁移模型比传统的仅适用视觉模态卷积神经网络模型提升了分类准确率;
5.模型可解释性强
通过找到文本和图像之间的结构化最大关联,形成一个潜在空间,将与图像最相关的文本语义信息通过潜在空间中的异构迁移嵌入到图像领域中,丰富图像领域的特征表示,更好地进行图像情感分析;
6.分类能力强
分类模型只关注积极、消极问题,但本方法可以扩展到积极、中性、消极等多分类情感分析中。
附图说明
图1为多模态深度关联嵌入的异构迁移图像情感极性分析框架图;
图2为基于多模态卷积神经网络的概率采样框架图;
图3为基于多模态卷积神经网络的潜在关联分析框架图;
图4为图像情感极性分类框架1图;
图5为图像情感极性分类框架2图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,基于多模态深度潜在关联的异构迁移图像情感极性分析方法,包括如下步骤:
1)构建初始情感图像数据集,利用情感词汇作为关键词从图像分享的社交网站上获取对应图像,然后将情感词汇对应的情感极性作为图像情感极性标签;
2)清除初始情感图像数据集中的噪声数据,利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声;
3)构建基于多模态深度潜在关联的异构迁移模型,利用此模型训练源领域文本和目标领域图像,经过优化直到文本和图像在潜在空间中的映射特征是高度关联为止;
4)构建多模态嵌入空间,在潜在空间中将源领域文本的语义信息迁移到目标领域图像,即将源领域文本的语义信息嵌入到目标领域图像中;
5)训练图像情感极性分类器以进行图像情感极性分析,利用多模态嵌入空间中生成的语义增强视觉特征表示来训练图像情感极性分类器,或通过多层全连接神经网络学习后再训练图像情感极性分类器,最后用图像情感极性分类器分析图像情感极性。
步骤1)中所述的构建初始情感图像数据集包括如下步骤:
(1)先验知识准备
准备带有情感极性分数的情感词汇库作为先验知识;利用VSO即视觉情感本体库,该VSO由Borth在2013年的文章“Large-scale visual sentiment ontology anddetectors using adjective noun pairs”中提出,其提供3244个ANP即形容词名词对以及ANP相对应的主要情感分数;该视觉情感本体库由269个形容词及其相应的名词构成,并且每一个形容词名词对都被进行了量化情感赋值;每个单词的情感值为[-1,1],因此一个形容词名词对的情感值取值范围为[-2,2],小于0的为负面情感,大于0的为正面情感,强度越接近2代表该词语的情感极性越积极,反之如果情感极性越接近-2;
(2)利用关键词进行检索,获得初始情感图像数据集;
①利用视觉情感本体库中的形容词名词对作为关键词进行图像检索;
②从视觉情感本体库中取出一个形容词名词对,在图像分享社交网站中进行检索得到网页结果;
③从网页结果中提取图像及对应的图像描述信息;
④将用于检索的关键词对应情感极性值作为提取得到的图像的情感标签,大于0的为积极,反之为消极;
⑤检索视觉情感本体库中的所有形容词名词对,最后得到一个初始情感图像数据集。
步骤2)中所述的清除初始情感图像数据集中的噪声数据包括如下步骤:
(1)A.Esuli在文章“SentiWord Net:A publicly available lexical resourcefor opinion mining”中提出情感词典(SentiWordNet),它是基于著名的英语词汇字典(WordNet),而且已经被用于基于文本的观点挖掘任务;利用情感词典(SentiWordNet)的词汇及其情感分数构建一个与情感关联的词汇表,SentiWordNet是由著名的英语词汇字典(WordNet)同义词集赋予三种类型的情感分数(积极,消极,客观)构建而成;
(2)定义一个情感阈值,然后根据与情感关联的词汇表选择图像对应的文本中情感正面或负面的分数大于预定义阈值的所有词;
(3)计算选取的所有词的情感分数和,获得情感分数综合值,情感分数综合值大于0,则情感极性综合值为积极,反之为消极;
(4)分析情感极性综合值和形容词名词对的情感极性一致性,情感极性综合值和形容词名词对的情感极性发生冲突,即一个为积极,另一个为消极,对应的图像数据为噪声数据,删除该数据;情感极性综合值和形容词名词对的情感极性一致,即两者同为积极或同为消极,则保留该数据,筛选初始情感图像数据集中所有图像数据,获得初步清洗的情感图像数据集;
(5)根据预定义情感阈值以及与情感关联的词汇表从初步清洗的情感图像数据集中与图像对应的文本中提取所有词,再结合图像对应的形容词名词对组合为对应图像的多标签词语;
(6)提取300维预训练的Glove词向量来表示图像对应的多标签词语;
(7)参照图2,设计一个多模态深度卷积神经网络的概率采样模型共同处理图像和相对应的多标签词语,该多模态深度卷积神经网络的概率采样模型由多模态深度卷积神经网络结构和采样部分构成,其中多模态深度卷积神经网络结构由图像卷积神经网络分支,文本卷积神经网络分支以及两者一起输入的全连接神经网络和分类预测组成,多模态深度卷积神经网络结构的构造如下:
①图像卷积神经网络的分支结构为:每一张图像被调整为256*256的大小,调整过的图像经过两个卷积层处理,第一个卷积层有32个卷积核,大小为11*11*3,步长为4个像素;第二个卷积层有64个卷积核,大小为5*5,步长为2个像素,每个卷积层后都有最大池化层;此外,池化层后还用了三个全连接层分别为512,512,256;
②文本卷积神经网络的分支结构为:它由一个卷积层和两个全连接层组成。预训练的词向量用于输入,其中卷积层采用的过滤区域大小为3,且有20个过滤器,在句子矩阵上滤波器执行卷积并生成特征映射,在每一个映射上执行滑动的长度为2的最大池化操作;然后从映射中生成一个单变量的特征向量,并将这些特征连接起来形成一个特征向量输入到两层全连接层,即256,128中;
③图像卷积神经网络的顶层输出和文本卷积神经网络的顶层输出同时输入四层全连接神经网络分别为512,512,24,2,限制倒数第二个连接层有24个神经元,根据Plutchik的情绪轮即心理轮盘模型可知,总共的24种情绪又可归结为两类即积极情绪和消极情绪,则希望倒数第二层的24个节点可以帮助网络从一个给定的数据中学习24种情绪,然后根据这24种情绪的反应将每种数据划分成正的类或负的类;
④将初步清洗的情感图像数据集中的所有图像和对应的多标签词语分为训练集和测试集;首先以训练集中图像和对应的多标签词语的Glove词向量作为多模态卷积神经网络结构的输入,以形容词名词对的极性标签作为情感标签来训练多模态深度卷积神经网络结构;让测试集中图像和对应的多标签词语的Glove词向量同时输入多模态卷积神经网络结构中进行情感分类预测;整个过程从图像和相对应的多标签词语的Glove向量输入到最后的分类预测是一个端到端的学习过程;
(8)采样部分利用概率采样的算法进行如下操作:
①根据多模态深度卷积神经网络结构对数据集中每个训练实例的预测结果,以概率P删除所有类别相似的情感分数的实例,其中训练实例是指图像和相对应的多标签词语,概率P的计算公式如下所示:
P=max(0,2-exp(|Pneg-Ppos|))
其中,max()为求0与2-exp(|Pneg-Ppos|)两者之间最大值,Pneg和Ppos为训练实例被判定为消极和积极的概率,即多模态深度卷积神经网络结构对训练实例的预测结果,|Pneg-Ppos|为两个概率的差的绝对值,当利用该多模态深度卷积神经网络结构预测训练实例的极性时,每个训练实例会得到两个概率值或者称为情感分数值,即积极Ppos和消极Pneg,当一个训练实例被预测的积极的和消极的情感分数之间的差异越大时,这个训练实例将会被保留到训练集中,反之预测的积极的和消极的情感分数之间的差异越小,这个实例被从训练集中删除的概率就越大;
②选择新的训练子集继续微调多模态卷积神经网络结构的网络参数,得到逐步训练的多模态卷积神经网络结构,以进一步减少初步清洗的情感图像数据集中的噪声数据,其中新的训练子集是指删除数据后剩余的图像和对应的多标签词语;
③经过多次迭代后,图像和对应的文本形成最终的情感图像数据集;
最后进行多模态深度潜在关联的异构迁移模型的训练。
步骤3)中所述的构建基于多模态深度潜在关联的异构迁移模型包括如下步骤:
基于多模态深度卷积神经网络(Convolutional Neural Network,CNN)的典型相关分析(Canonical Correlation Analysis,CCA)用于源领域文本到目标领域图像的异构迁移学习(Heterogeneous Transfer Learning)的模型,也称之为多模态深度潜在关联的异构迁移模型,简称CTCCA;
(1)设计CTCCA网络结构:
构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示,且利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间,即线性CCA子空间;
多模态深度卷积神经网络的整体构造如下所示:
①文本模态的卷积神经网络的总体结构是由一个卷积层和三个全连接层组成;预训练的词向量用于输入,它们在特定的任务中进行微调时,被认为是一种非静态的;其中卷积层采用三种不同的过滤区域大小(3、4、5)用以提取不同语义层次的特征,且每一个过滤区域都有20个过滤器,在句子矩阵上滤波器执行卷积并生成可变长度的特征映射,在每一个映射上执行滑动长度为2的最大池化操作;因此,从所有的映射中生成一个单变量的特征向量,并将这些特征连接起来形成一个特征向量,然后全连接层接收该特征向量作为输入而且用它来学习高层次的语义表示;
②视觉模态的卷积神经网络的总体结构是由四个卷积层和四个全连接层组成;第一个卷积层输入的图像被调整为相同的大小,表示为三维矩阵,通过四个卷积层来处理调整大小的图像,前两个卷积层分别有16个卷积核,卷积核大小为3*3,步长为2,后两个卷积层分别有32个卷积核,卷积核大小为3*3,步长为2,每个卷积层后伴随有最大池化层;此外,池化层后还利用了四个全连接层来进一步处理;
(2)利用CTCCA寻找源领域文本和目标领域图像之间的潜在关联:
①在多模态深度学习情景中,首先要输入共现数据中成对的图像-文本对到多模态深度卷积神经网络中,上标s和t分别表示源领域和目标领域,N表示图像-文本对数据的总数,其中视觉特征向量表示第i个图像-文本对中的图像,则表示相对应图像中的第i个图像-文本对中的文本;
②利用文本模态卷积神经网络f和视觉模态卷积神经网络g共同提取ds-维源领域文本的非线性特征即文本模态卷积神经网络的顶层输出和dt-维目标领域图像的非线性特征即视觉模态卷积神经网络的顶层输出,例如,对于一个图像-文本对通过多模态卷积神经网络分别提取文本的非线性特征和图像的非线性特征
学习L≤min(ds,dt)对线性映射向量和共同映射多模态深度卷积神经网络中源领域文本的和目标领域图像的顶层输出,以至于每个领域中的映射和另一个领域中相对应的是最大关联的,使表示中的维度其相互之间是不相关的;
由于整个过程中没有用到类别信息则它是无监督的,尽管深度神经网络已经成功地应用于监督分类任务,但是该方法以一种非监督的方式来学习两种特征到一个空间的非线性转化,在这个空间中数据是高度关联的;
CTCCA模型由两个卷积神经网络组成且最大化两个卷积神经网络输出的典型关联,则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数可以表示为:
其中,N表示数据的总数,tr()表示求矩阵迹的范数,θs和θt分别表示文本模态卷积神经网络和视觉模态卷积神经网络中相对应的学习参数和s.t.1、s.t.2、s.t.3分别表示约束条件1、2、3,rs是约束条件1中的正则化参数,rsI是约束条件1中的正则项,其为了确保该约束条件有积极的确定性,rt是约束条件2中的正则化参数,rtI是约束条件2中的正则项,其同样为了确保该约束条件有积极的确定性,I是单位矩阵,表示N个源领域文本的顶层输出表示,同时表示N个目标领域图像的顶层输出表示,f(Xs)T和g(Xt)T分别表示N个源领域文本的和目标领域图像的顶层输出表示的转置,和分别表示成对的线性映射向量Us和Ut的转置,表示L个线性映射向量Us中的任何一个,表示L个线性映射向量Ut中的任何一个,是指在约束条件3中,表示不同对的源领域文本和目标领域图像的映射,此时不同对的映射之间是不相关的;
(3)利用CTCCA随机优化源领域文本和目标领域图像之间关联目标:
①通过预处理操作处理源领域文本顶层输出特征表示f(Xs)和目标领域图像的顶层输出特征表示g(Xt),使f(Xs)和g(Xt)成为中心数据;
②计算源领域文本和目标领域图像中特征映射数据的交叉协方差矩阵即跨领域方差矩阵Σst,源领域文本正则化自协方差矩阵即源领域内方差矩阵Σss,以及目标领域图像正则化自协方差矩阵即目标领域内方差矩阵Σtt:
③构建矩阵T,其中同时令是它的前L个奇异值分解(SVD),和分别是T的前L个左和右奇异向量矩阵,Λ包含在对角线上的奇异值δ1≥···≥δL≥0,则源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的优化通过来实现,其优化的目标值也就是
④设置L=ds=dt,L表示线性映射向量的个数,ds表示多模态卷积神经网络中源领域文本的顶层输出表示的维度,dt表示目标领域图像图像的顶层输出表示的维度,源领域文本和目标领域图像之间的多模态深度潜在关联的总体关联目标函数等于T的矩阵迹范数:
corr(f(Xs),g(Xt))=||T||tr=tr((TTT)1/2)
其中,corr()表示关联,具体指源领域文本和目标领域图像的顶层输出表示之间的关联,在设置L=ds=dt时,将f(Xs)和g(Xt)之间的关联转化成求解T的矩阵迹范数||T||tr,通过计算矩阵T的转置TT和矩阵T的乘积的1/2次方的迹tr()来实现;
⑤在多模态深度学习框架中优化源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数,可以通过优化一个矩阵迹的范数来找到总体关联的最大化;首先计算关于源领域文本和目标领域图像两个模态的特征的迹的范数的梯度,即计算总体关联对于不同的特征矩阵f(Xs)和g(Xt)的梯度;然后在深度神经网络中允许向下传播梯度,即对于不同的θs和θt通过标准的反向传播计算梯度,实现端到端的学习;
(a)对于特征矩阵f(Xs)总体关联的梯度计算如下所示:
(b)对于g(Xt)的总体关联的梯度计算如下所示:
(c)参照图3,对于不同的θs和θt通过标准的反向传播计算梯度,以T的矩阵迹范数为优化函数,先计算TNO层(图3中的Trace norm obj.)的梯度,然后沿着网络的两个分支向下传播;
(d)给出在小批量上评估的相对应的权重参数为θ=[θs;θt]的源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数的权重梯度的情况下,则权重更新如下:θt=θt-1+Δθt,其中η∈[0,1)和εt分别是在t时的动量参数和学习率;
⑥运行随机梯度下降SGD的方法直到总体的关联在预留的验证集上不再改进,此时源领域文本和目标领域图像之间的总体关联是最大的。
步骤4)中所述的构建多模态嵌入空间包括如下步骤:
(1)利用两个映射矩阵Us和Ut分别针对源领域文本顶层输出表示f(Xs)和目标领域图像的顶层输出表示g(Xt),最大化线性关联系数:
其中,cov()表示协方差函数,var()表示自方差函数,()T指一个向量或一个矩阵的转置;将源领域文本的和目标领域图像的顶层输出表示的关联性转化成求源领域文本的映射特征和目标领域图像的映射特征之间的协方差与标准差的比值,即源领域文本的映射特征和目标领域图像的映射特征之间协方差分布;利用两个映射矩阵Us和Ut共同映射源领域文本顶层输出表示f(Xs)和目标领域图像的顶层输出表示g(Xt)到一个公共的空间,源领域文本的映射特征和目标领域图像的映射特征是最大关联的,即源领域文本和目标领域图像的映射特征分布变得相似;
(2)源领域文本的映射特征为语义特征表示,目标领域图像的映射特征为视觉特征表示,当源领域文本和目标领域图像的映射特征分布变得相似时,源领域文本的语义特征和目标领域图像的视觉特征变得更加的接近,
其中,|| ||F是Frobenius范数,用来表示距离,当源领域文本和目标领域图像的映射特征最大关联时,通过用最小化来变换最大化同时添加1/2次的限制以最小化源领域文本映射特征和目标领域图像映射特征之间的平方差,即将特征分布相似的源领域文本的语义特征表示和目标领域图像的视觉特征表示转化成一种在距离空间上的接近;
(3)当源领域文本的语义特征表示和目标领域图像的视觉特征表示在距离空间上变得接近的时候,在潜在空间中就构建起一座桥让源领域文本的语义知识迁移到目标领域图像中,即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中,形成语义增强视觉特征表示,此时,潜在空间也可称为多模态嵌入空间,
共同表示SIV是任意一个图像-文本对在多模态嵌入空间中针对目标领域图像的语义增强视觉特征表示,其可以丰富目标领域图像的特征。
步骤5)中所述的图像情感极性分析包括如下步骤:
在图像-文本对的共现数据学习中,利用非线性特征映射学习源领域文本和目标领域图像的顶层输出表示f(·)和g(·),且在潜在空间中确定映射矩阵和源领域文本和目标领域图像中成对的映射向量一旦跨越则获得潜在关联子空间χc,此时,源领域和目标领域数据的映射特征即共同表示如下所示:
共同表示SIV是为了重新表示图像的语义增强视觉特征表示;基于共现数据中目标领域图像的语义增强的视觉特征表示SIV和相对应的图像情感标签,训练和测试不同的图像情感极性分类器,分别如图4、5所示:
利用多模态深度潜在关联的异构迁移模型将最终的情感图像数据集中所有数据形成的语义增强视觉特征表示划分成训练集和测试集;
(1)参照图4,直接训练图像情感极性分类器;
①将训练集和相对应的情感标签输入到四种分类器即逻辑回归(LogisticRegression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析。
(2)参照图5,通过多层全连接神经网络学习后再训练图像情感极性分类器;
①将训练集和相对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后,再输入到四种分类器即逻辑回归(Logistic Regression)、线性核支持向量机(linear SVM)、高斯核支持向量机(RBF SVM)和随机森林(Random Forest)来分别训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析。
本实施例中选择Getty和Flickr这样的图像社交网站来收集数据;
(1)数据获取
为了测试本方法,在机器弱标签和人工标签的数据集上进行实验,总共收集了四个数据集,分别来自视觉中国的Getty专区,Flickr和Twitter:
①首先从视觉中国Getty专区收集两个数据集VCGⅠ数据集(利用VSO中3244个ANP作为关键词,从Getty专区获取图像数据),VCGⅡ数据集(随机从VSO中挑选300个ANP作为关键词,从Getty专区获取图像数据);
②然后利用VSO中的ANP从Flickr社交网站上获取MVSO数据集;
③此外,利用Borth等人发表的《Large-scale visual sentiment ontology anddetectors using adjective noun pairs》,You等人发表的《Robust image sentimentanalysis using progressively trained and domain transferred deep networks》和Cai等人发表的《Convolutional neural networks for multimedia sentimentanalysis》三篇论文中使用的少量的人工标注的Twitter数据集构造Twitter数据集;
(2)数据清洗,利用情感一致性判别方法和基于多模态深度学习的概率采样模型清除初始情感图像数据集中的噪声数据,经过处理过后最终的数据集的统计情况如下表1所示:
表1:数据集的统计信息
(3)实验设置
①本实施例中,词向量通过skip-gram模型初始化词向量,它已经在先前的工作中展示出强有力的表现;
②为了处理不同长度的文本,本实施例选取所用训练集中的最长的文本长度为最大长度,不足最大长度的文本用零向量填充,上下文窗口大小设为10,词向量维度设为300;
③模型参数采用随机梯度下降算法SGD更新,该方法将未登录词即不在word2vec中的词语、标点符号和表情符号等用随机向量初始化后作为模型的参数,随着SGD过程的迭代而更新;
④模型中每个卷积池化层和全连接层的输出均连接到ReLU激活函数,且采用dropout以防止过拟合,无监督多模态卷积神经网络的顶层表示的维度我们设置为相同的大小,如下的具体实验中设置为128;
(4)对比实验
①CNN:用卷积神经网络的图像情感分析,如视觉模态卷积神经网络所示;
②CTKL:Yang等于2015年提出“Robust and non-negative collective matrixfactorization for text-to-image transfer learning”,这是较早的利用非负的联合矩阵分解研究文本到图像的迁移学习的文章,受到Yang的研究的启发,利用来自于视觉模态卷积神经网络和文本模态卷积神经网络的深度表示和非负的联合矩阵分解模型解决跨领域图像情感分析问题,在共现数据中利于异构的迁移学习模型,在图像特征空间中可以确定基础的因子,则可在深层视觉特征空间到高层视觉语义特征空间之间构建一个映射,则任何图像都可以在高层视觉语义特征空间中重新表示;针对目标领域的图像情感极性分类问题,图像在基空间的新的表示可以用于输入分类器进而获得图像情感分类的效果;
③CTCCA:语义增强的视觉特征表示直接用于学习图像情感极性分类器;
④CTCCA+MLP:利用多层全连接神经网络进一步捕获语义增强的视觉特征表示的更深层次的内部关联后再用于学习图像情感极性分类器;
(5)实验性能
在实验一和实验二中,分别对VCG Ⅰ数据集和VCG Ⅱ数据集随机选取80%用于训练20%用于测试,实验一和实验二是为了说明提出的方法在相同领域不同数据背景情况下是有一定适应性的;实验一和二的结果(准确率accuracy)如下表2和3所示:
表2:在VCG Ⅰ数据集上不同方法的表现(/%)
Algorithm | SVM(linear) | SVM(RBF) | Logistic Regression | Random Forest |
CNN | 54.94 | 55.02 | 55.11 | 55.14 |
CTCMF | 56.32 | 56.98 | 59.52 | 63.23 |
CTCCA | 58.92 | 64.96 | 60.15 | 71.85 |
CTCCA+MLP | 71.88 | 71.98 | 72.48 | 72.91 |
表3:在VCG Ⅱ数据集上不同方法的表现(/%)
Algorithm | SVM(linear) | SVM(RBF) | Logistic Regression | Random Forest |
CNN | 54.01 | 54.03 | 54.21 | 54.21 |
CTCMF | 59.52 | 60.34 | 62.56 | 66.49 |
CTCCA | 65.54 | 71.94 | 66.12 | 77.17 |
CTCCA+MLP | 77.48 | 77.56 | 78.15 | 79.12 |
在实验三中,我们用MVSO数据集当训练集,用Twitter数据集当测试集,首先随机的划分MVSO数据集为相等大小的两部分,用第一部分来训练模型,第二部分来微调模型。实验三是为了说明提出的方法在不同领域上具有适应能力,实验三的结果(准确率accuracy)如下表4所示:
表4:在Twitter数据集上不同方法的表现(/%)
Algorithm | SVM(linear) | SVM(RBF) | Logistic Regression | Random Forest |
CNN | 60.53 | 61.82 | 63.24 | 63.85 |
CTCMF | 62.31 | 62.58 | 65.16 | 67.12 |
CTCCA | 63.43 | 67.52 | 65.93 | 73.35 |
CTCCA+MLP | 73.84 | 74.52 | 75.97 | 76.21 |
由上述具体实施的实验结果表明,本实施例提出的模型CTCCA和CTCCA+MLP相比于仅利用视觉模态CNN有显著地提升且优于其他文本到图像的迁移学习方法,且CTCCA+MLP的方法要优于CTCCA的方法。
Claims (4)
1.一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法,其特征在于,包括如下步骤:
1)构建初始情感图像数据集;利用情感词汇作为关键词从图像分享的社交网站上获取对应图像,然后将情感词汇对应的情感极性作为图像情感极性标签;
2)清除初始情感图像数据集中的噪声数据;利用情感一致性判别方法和基于多模态深度卷积神经网络的概率采样模型去除噪声;
清除初始情感图像数据集中的噪声数据包括如下步骤:
(1)利用情感词典的词汇及情感分数构建一个与情感关联的词汇表;
(2)定义一个情感阈值,然后根据与情感关联的词汇表选择图像对应的文本中情感正面或负面的分数大于预定义阈值的所有词;
(3)计算选取的所有词的情感分数和,获得情感分数综合值,情感分数综合值大于0,则情感极性综合值为积极,反之为消极;
(4)分析情感极性综合值和形容词名词对的情感极性一致性,情感极性综合值和形容词名词对的情感极性发生冲突,则删除该噪声数据;情感极性综合值和形容词名词对的情感极性一致,则保留该数据,筛选初始情感图像数据集中所有图像数据,获得初步清洗的情感图像数据集;
(5)根据预定义情感阈值以及与情感关联的词汇表从初步清洗的情感图像数据集中与图像对应的文本中提取所有词,再结合图像对应的形容词名词对组合为对应图像的多标签词语;
(6)提取300维预训练的Glove词向量来表示图像对应的多标签词语;
(7)设计一个多模态深度卷积神经网络的概率采样模型共同处理图像和相对应的多标签词语,该多模态深度卷积神经网络的概率采样模型由多模态深度卷积神经网络结构和采样部分构成;
其中多模态深度卷积神经网络结构由图像卷积神经网络分支,文本卷积神经网络分支以及两者一起输入的全连接神经网络和分类预测组成;
将初步清洗的情感图像数据集中的所有图像和对应的多标签词语分为训练集和测试集;首先以训练集中图像和对应的多标签词语的Glove词向量作为多模态卷积神经网络结构的输入,以形容词名词对的极性标签作为情感标签来训练多模态深度卷积神经网络结构;
让测试集中图像和对应的多标签词语的Glove词向量同时输入多模态卷积神经网络结构中进行情感分类预测;
(8)采样部分利用概率采样的算法选择新的训练子集继续微调多模态深度卷积神经网络结构中的网络参数,得到逐步训练的多模态深度卷积神经网络结构,以减少初步清洗的情感图像数据集中的噪声数据;
经过多次迭代后,图像和对应的文本形成最终的情感图像数据集;
最后进行多模态深度潜在关联的异构迁移模型的训练;
3)构建基于多模态深度潜在关联的异构迁移模型;利用此模型训练源领域文本和目标领域图像,经过优化直到文本和图像在潜在空间中的映射特征是高度关联为止;
构建基于多模态深度潜在关联的异构迁移模型包括如下步骤:
基于多模态深度卷积神经网络的典型相关分析用于源领域文本到目标领域图像的异构迁移学习的模型,也称之为多模态深度潜在关联的异构迁移模型;
(1)设计多模态深度潜在关联的异构迁移模型网络结构:
构建一个多模态深度卷积神经网络共同学习源领域文本和目标领域图像的顶层输出特征表示,且利用两个映射矩阵转移源领域文本和目标领域图像的顶层输出特征表示到潜在空间;
(2)利用多模态深度潜在关联的异构迁移模型寻找源领域文本和目标领域图像之间的潜在关联:
①输入共现数据中成对的图像-文本对到多模态深度卷积神经网络中,上标s和t分别表示源领域和目标领域,N表示图像-文本对数据的总数,视觉特征向量表示第i个图像-文本对中的图像,表示相对应图像中的第i个图像-文本对中的文本;
②利用文本模态卷积神经网络f和视觉模态卷积神经网络g共同提取ds-维源领域文本的非线性特征即文本模态卷积神经网络的顶层输出和dt-维目标领域图像的非线性特征即视觉模态卷积神经网络的顶层输出;
源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数表示为:
其中,N表示数据的总数,tr()表示求矩阵迹的范数,θs和θt分别表示文本模态卷积神经网络和视觉模态卷积神经网络中相对应的学习参数和s.t.1、s.t.2、s.t.3分别表示约束条件1、2、3,rs是约束条件1中的正则化参数,rsI是约束条件1中的正则项,rt是约束条件2中的正则化参数,rtI是约束条件2中的正则项,I是单位矩阵,表示N个源领域文本的顶层输出表示,同时表示N个目标领域图像的顶层输出表示,f(Xs)T和g(Xt)T分别表示N个源领域文本的和目标领域图像的顶层输出表示的转置,和分别表示成对的线性映射向量Us和Ut的转置,表示L个线性映射向量Us中的任何一个,表示L个线性映射向量Ut中的任何一个,是指在约束条件3中,表示不同对的源领域文本和目标领域图像的映射;
(3)利用多模态深度潜在关联的异构迁移模型随机优化源领域文本和目标领域图像之间关联目标:
①通过预处理操作处理源领域文本顶层输出特征表示f(Xs)和目标领域图像的顶层输出特征表示g(Xt),使f(Xs)和g(Xt)成为中心数据;
②计算源领域文本和目标领域图像中特征映射数据的交叉协方差矩阵即跨领域方差矩阵∑st,源领域文本正则化自协方差矩阵即源领域内方差矩阵∑ss,以及目标领域图像正则化自协方差矩阵即目标领域内方差矩阵∑tt:
④设置L=ds=dt,L表示线性映射向量的个数,ds表示多模态卷积神经网络中源领域文本的顶层输出表示的维度,dt表示目标领域图像的顶层输出表示的维度,源领域文本和目标领域图像之间的多模态深度潜在关联的总体关联目标函数等于T的矩阵迹范数:
corr(f(Xs),g(Xt))=||T||tr=tr((TTT)1/2)
其中,corr()表示关联,具体指源领域文本和目标领域图像的顶层输出表示之间的关联,在设置L=ds=dt时,将f(Xs)和g(Xt)之间的关联转化成求解T的矩阵迹范数||T||tr,通过计算矩阵T的转置TT和矩阵T的乘积的1/2次方的迹tr()来实现;
⑤在多模态深度学习框架中优化源领域文本和目标领域图像之间的多模态深度潜在关联的目标函数,首先计算总体关联对于不同的特征矩阵f(Xs)和g(Xt)的梯度,然后对于不同的θs和θt通过标准的反向传播计算梯度;
⑥运行随机梯度下降SGD的方法直到总体的关联在预留的验证集上不再改进;
4)构建多模态嵌入空间;在潜在空间中将源领域文本的语义信息迁移到目标领域图像,即将源领域文本的语义信息嵌入到目标领域图像中;
5)训练图像情感极性分类器以进行图像情感极性分析;利用多模态嵌入空间中生成的语义增强视觉特征表示来训练图像情感极性分类器,或通过多层全连接神经网络学习后再训练图像情感极性分类器,最后用图像情感极性分类器分析图像情感极性。
2.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法,其特征在于,步骤1)中所述的构建初始情感图像数据集包括如下步骤:
(1)先验知识准备
准备带有情感极性分数的情感词汇库;利用视觉情感本体库提供的3244个形容词名词对及形容词名词对对应的主要情感分数作为先验知识;
(2)利用关键词进行检索,获得初始情感图像数据集;
①利用视觉情感本体库中的形容词名词对作为关键词进行图像检索;
②从视觉情感本体库中取出一个形容词名词对,在图像分享社交网站中进行检索得到网页结果;
③从网页结果中提取图像及对应的图像描述信息;
④将用于检索的关键词对应情感极性值作为提取得到的图像的情感标签,大于0的为积极,反之为消极;
⑤检索视觉情感本体库中的所有形容词名词对,最后得到一个初始情感图像数据集。
3.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法,其特征在于,步骤4)中所述的构建多模态嵌入空间包括如下步骤:
(1)利用两个映射矩阵Us和Ut分别针对源领域文本顶层输出表示f(Xs)和目标领域图像的顶层输出表示g(Xt),最大化线性关联系数:
其中,cov()表示协方差函数,var()表示自方差函数,()T指一个向量或一个矩阵的转置;将源领域文本的和目标领域图像的顶层输出表示的关联性转化成求源领域文本的映射特征和目标领域图像的映射特征之间的协方差与标准差的比值,即源领域文本的映射特征和目标领域图像的映射特征之间协方差分布;
(2)源领域文本的映射特征为语义特征表示,目标领域图像的映射特征为视觉特征表示,
其中,||||F是Frobenius范数,表示距离,当源领域文本和目标领域图像的映射特征最大关联时,通过最小化来变换最大化同时添加1/2次的限制以最小化源领域文本映射特征和目标领域图像映射特征之间的平方差,即将特征分布相似的源领域文本的语义特征表示和目标领域图像的视觉特征表示转化成一种在距离空间上的接近;
(3)在潜在空间中将源领域文本的语义知识迁移到目标领域图像中,即在潜在空间中将源领域文本的语义信息嵌入到目标领域图像中,形成语义增强视觉特征表示,此时,潜在空间也可称为多模态嵌入空间,
共同表示SIV是任意一个图像-文本对在多模态嵌入空间中针对目标领域图像的语义增强视觉特征表示。
4.根据权利要求1所述的基于多模态深度潜在关联的异构迁移图像情感极性分析方法,其特征在于,步骤5)中所述的图像情感极性分析包括如下步骤:
在图像-文本对的共现数据学习中,利用多模态深度潜在关联的异构迁移模型将最终的情感图像数据集中所有数据形成的语义增强视觉特征表示划分成训练集和测试集;
(1)直接训练图像情感极性分类器
①将训练集和对应的情感标签输入到四种分类器即逻辑回归、线性核支持向量机、高斯核支持向量机和随机森林分别训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析;
(2)通过多层全连接神经网络学习后再训练图像情感极性分类器
①将训练集和对应的情感标签输入多层全连接神经网络进一步捕获目标领域图像中语义增强视觉特征表示的更深层次内部关联后,再输入到四种分类器即逻辑回归、线性核支持向量机、高斯核支持向量机和随机森林来分别训练四种图像情感极性分类器;
②利用图像情感极性分类器,在测试集上进行图像情感极性预测分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710989485.5A CN107679580B (zh) | 2017-10-21 | 2017-10-21 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710989485.5A CN107679580B (zh) | 2017-10-21 | 2017-10-21 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679580A CN107679580A (zh) | 2018-02-09 |
CN107679580B true CN107679580B (zh) | 2020-12-01 |
Family
ID=61141932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710989485.5A Active CN107679580B (zh) | 2017-10-21 | 2017-10-21 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679580B (zh) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288667B (zh) * | 2018-03-19 | 2021-03-02 | 北京大学 | 一种基于结构引导的图像纹理迁移方法 |
CN108614548B (zh) * | 2018-04-03 | 2020-08-18 | 北京理工大学 | 一种基于多模态融合深度学习的智能故障诊断方法 |
CN110533054B (zh) * | 2018-05-25 | 2024-02-06 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN108875821A (zh) | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN110580489B (zh) * | 2018-06-11 | 2023-08-04 | 阿里巴巴集团控股有限公司 | 一种数据对象的分类系统、方法以及设备 |
CN108877801B (zh) * | 2018-06-14 | 2020-10-02 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN109034207B (zh) * | 2018-06-29 | 2021-01-05 | 华南理工大学 | 数据分类方法、装置和计算机设备 |
CN110852060B (zh) * | 2018-07-24 | 2021-05-18 | 中国科学院声学研究所 | 一种基于外部知识的情感迁移方法 |
CN109086742A (zh) * | 2018-08-27 | 2018-12-25 | Oppo广东移动通信有限公司 | 场景识别方法、场景识别装置及移动终端 |
CN110162644B (zh) * | 2018-10-10 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种图像集建立方法、装置和存储介质 |
CN109657079A (zh) * | 2018-11-13 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种图像描述方法及终端设备 |
CN109783749A (zh) * | 2018-12-10 | 2019-05-21 | 深圳变设龙信息科技有限公司 | 一种设计素材智能推荐方法、装置及终端设备 |
CN110457982B (zh) * | 2018-12-28 | 2023-04-11 | 中国科学院合肥物质科学研究院 | 一种基于特征迁移学习的作物病害图像识别方法 |
CN109785227A (zh) * | 2018-12-29 | 2019-05-21 | 天津大学 | 基于卷积神经网络的人脸情感颜色迁移方法 |
CN109902155B (zh) * | 2018-12-29 | 2021-07-06 | 清华大学 | 多模态对话状态处理方法、装置、介质及计算设备 |
CN109871124B (zh) * | 2019-01-25 | 2020-10-27 | 华南理工大学 | 基于深度学习的情感虚拟现实场景评估方法 |
CN111506697A (zh) * | 2019-01-30 | 2020-08-07 | 北京入思技术有限公司 | 一种跨模态情感知识图谱构建方法及装置 |
CN109934260A (zh) * | 2019-01-31 | 2019-06-25 | 中国科学院信息工程研究所 | 基于随机森林的图文数据融合情感分类方法和装置 |
CN109829499B (zh) * | 2019-01-31 | 2020-10-27 | 中国科学院信息工程研究所 | 基于同一特征空间的图文数据融合情感分类方法和装置 |
CN111600734B (zh) * | 2019-02-21 | 2021-11-02 | 烽火通信科技股份有限公司 | 一种网络故障处理模型的构建方法、故障处理方法及系统 |
CN110705591A (zh) * | 2019-03-09 | 2020-01-17 | 华南理工大学 | 一种基于最优子空间学习的异构迁移学习方法 |
CN110083726B (zh) * | 2019-03-11 | 2021-10-22 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN110188791B (zh) * | 2019-04-18 | 2023-07-07 | 南开大学 | 基于自动估计的视觉情感标签分布预测方法 |
CN110263321B (zh) * | 2019-05-06 | 2023-06-09 | 成都数联铭品科技有限公司 | 一种情感词典构建方法及系统 |
CN111985243B (zh) * | 2019-05-23 | 2023-09-08 | 中移(苏州)软件技术有限公司 | 情感模型的训练方法、情感分析方法、装置及存储介质 |
CN110263822B (zh) * | 2019-05-29 | 2022-11-15 | 广东工业大学 | 一种基于多任务学习方式的图像情感分析方法 |
CN110263236B (zh) * | 2019-06-06 | 2022-11-08 | 太原理工大学 | 基于动态多视图学习模型的社交网络用户多标签分类方法 |
CN110569742A (zh) * | 2019-08-19 | 2019-12-13 | 昆山琪奥智能科技有限公司 | 一种微表情分析研判系统 |
CN110750663B (zh) * | 2019-10-08 | 2021-11-23 | 浙江工业大学 | 一种面向生活记录的跨模态图像检索方法 |
CN110852368B (zh) * | 2019-11-05 | 2022-08-26 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
KR20210066366A (ko) | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 영상 복원 방법 및 장치 |
CN111062427B (zh) * | 2019-12-11 | 2023-04-18 | 山东大学 | 基于多准则决策多模态情景信息不确定性处理方法及系统 |
CN111414478B (zh) * | 2020-03-13 | 2023-11-17 | 北京科技大学 | 基于深度循环神经网络的社交网络情感建模方法 |
CN111402012B (zh) * | 2020-06-03 | 2020-08-25 | 江苏省质量和标准化研究院 | 一种基于迁移学习的电商缺陷产品识别方法 |
CN111832573B (zh) * | 2020-06-12 | 2022-04-15 | 桂林电子科技大学 | 一种基于类激活映射和视觉显著性的图像情感分类方法 |
CN112069717A (zh) * | 2020-08-19 | 2020-12-11 | 五邑大学 | 基于多模态表征学习的磁暴预测方法、装置及存储介质 |
CN112417206B (zh) * | 2020-11-24 | 2021-09-24 | 杭州一知智能科技有限公司 | 基于两分支提议网络的弱监督视频时段检索方法及系统 |
CN112732956A (zh) * | 2020-12-24 | 2021-04-30 | 江苏智水智能科技有限责任公司 | 基于感知多模态大数据的高效查询方法 |
CN112667817B (zh) * | 2020-12-31 | 2022-05-31 | 杭州电子科技大学 | 一种基于轮盘赌属性选择的文本情感分类集成系统 |
CN112712127A (zh) * | 2021-01-07 | 2021-04-27 | 北京工业大学 | 一种结合图卷积神经网络的图像情感极性分类方法 |
CN112954632B (zh) * | 2021-01-26 | 2022-01-28 | 电子科技大学 | 一种基于异构迁移学习的室内定位方法 |
CN113010780B (zh) * | 2021-03-11 | 2022-07-15 | 北京三快在线科技有限公司 | 一种模型训练以及点击率预估方法及装置 |
CN113326695B (zh) * | 2021-04-26 | 2024-04-26 | 东南大学 | 一种基于迁移学习的情感极性分析方法 |
CN113255889B (zh) * | 2021-05-26 | 2024-06-14 | 安徽理工大学 | 一种基于深度学习的职业性尘肺病多模态分析方法 |
CN114201605A (zh) * | 2021-11-23 | 2022-03-18 | 上海大学 | 一种基于联合属性建模的图像情感分析方法 |
CN115424724B (zh) * | 2022-11-04 | 2023-01-24 | 之江实验室 | 一种多模态图森林的肺癌淋巴结转移辅助诊断系统 |
CN115620072A (zh) * | 2022-11-08 | 2023-01-17 | 哈尔滨工业大学 | 一种基于融合特征和混合神经网络的贴片元件分类方法 |
CN116452895B (zh) * | 2023-06-13 | 2023-10-20 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN117556067B (zh) * | 2024-01-11 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
-
2017
- 2017-10-21 CN CN201710989485.5A patent/CN107679580B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
Non-Patent Citations (1)
Title |
---|
"Image sentiment analysis using latent correlations among visual,textual,and sentiment views";Marie Katsurai;《2016 IEEE International Conference on Acoustics,Speech and Signal Processing》;20160519;论文第3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107679580A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679580B (zh) | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
Hashemi | Web page classification: a survey of perspectives, gaps, and future directions | |
Vadicamo et al. | Cross-media learning for image sentiment analysis in the wild | |
KR102130162B1 (ko) | 인공 신경망들에 대한 관련성 스코어 할당 | |
Dekhtyar et al. | Re data challenge: Requirements identification with word2vec and tensorflow | |
Yadav et al. | A deep learning architecture of RA-DLNet for visual sentiment analysis | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
Peng et al. | Research on image feature extraction and retrieval algorithms based on convolutional neural network | |
CN110889282B (zh) | 一种基于深度学习的文本情感分析方法 | |
Li et al. | Image sentiment prediction based on textual descriptions with adjective noun pairs | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
Karthikeyan et al. | Probability based document clustering and image clustering using content-based image retrieval | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
WO2013049529A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
Sharma et al. | Deep eigen space based ASL recognition system | |
Xia et al. | A regularized optimization framework for tag completion and image retrieval | |
Sur | Survey of deep learning and architectures for visual captioning—transitioning between media and natural languages | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
Yao | [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning | |
Dehghani et al. | Sentiment analysis of Persian political tweets using ParsBERT embedding model with convolutional neural network | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
Usha Kingsly Devi et al. | Deep Convolutional Neural Networks with Transfer Learning for Visual Sentiment Analysis | |
Surekha et al. | Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20180209 Assignee: Guangxi wisdom Valley Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2022450000202 Denomination of invention: An emotional polarity analysis method for heterogeneous migration images based on multi-mode depth potential correlation Granted publication date: 20201201 License type: Common License Record date: 20221125 |