CN106095829B

CN106095829B - 基于深度学习与一致性表达空间学习的跨媒体检索方法

Info

Publication number: CN106095829B
Application number: CN201610381864.1A
Authority: CN
Inventors: 杜吉祥; 邹辉; 翟传敏; 范文涛; 王靖; 刘海建
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2019-08-06
Anticipated expiration: 2036-06-01
Also published as: CN106095829A

Abstract

本发明涉及基于深度学习与一致性表达空间学习的跨媒体检索方法，针对图像与文本两种模态的跨媒体信息，从特征的选择及高度异构的两个特征空间的相似性估算这两个方法上入手，提出一个能教大幅度提高多媒体检索准确率的跨媒体检索方法。本发明所述的方法是一种针对图像与文本两种模态的多媒体信息相互检索方法，实现跨媒体检索准确率的较大幅度提高。本发明提出的模型中，采用经调整过的向量内积作为相似度度量算法，不仅考虑了两种不同模态特征向量的方向，而且在中心化后消除了指标量纲的影响，将向量中的每个元素减去元素的平均值，再计算去均值后的两个向量的相关性；能计算得到更为准确的相似度。

Description

基于深度学习与一致性表达空间学习的跨媒体检索方法

技术领域

本发明涉及跨媒体检索技术，更具体地说，涉及一种基于深度学习与一致性表达空间学习的跨媒体检索方法。

背景技术

跨媒体检索研究的对象是：如何利用计算机进行跨媒体信息检索，即：搜索与输入图片相关联的文本信息或者搜索与输入文本相关联的图片。

跨媒体检索系统的应用领域包括信息检索、识图、图像标记等。在互联网高速发展的今天，新闻网站、微博、社交网络、图像视频分享网站等在内的各类网络平台，正日益改变着人们对知识获取和社会关系的认知方式，多媒体数据也不断地高速增长，而各种类型跨媒体信息结合在一起来表达事物的综合性知识。研究多媒体信息之间的联系，成为急需解决的一个问题。

在实际应用中，目前的跨媒体检索方法还没有达到令人满意的效果。这是因为在现实生活中，图像具有很大的多样性，文本的隐含内容挖掘较难，图像与文本间存在着“语义鸿沟”。因此，研究检索准确率高的跨媒体检索算法使一个挑战性的任务。

为了让文本信息与图像信息关联起来，图像标注研究从70年代的人工标注发展到了计算机自动图像标注。

文献[Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001]中将条件随机场模型(conditional random fields，CRF)运用于图像标注或者视频标注的设计中。但该方法中，先验知识仅通过马尔科夫随机场来影响模型，对先验知识的利用受到了限制；此外，该方法没有学习得到比较有效的图像特征，也没能很好的利用图像的上下文与图像间的潜在关联，标注结果也不尽人意。

多种不同模态信息的特征空间之间往往是高度异构的关系，近年来，更多的学者专注于研究多媒体信息间的关联关系，寻找他们之间的一致性表达方法。

文献[Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach tocross-modal multimedia retrieval[C]//Proceedings of the internationalconference on Multimedia.ACM,2010:251-260]提出将典型关联分析(canonicalcorrelation analysis，CCA)用于分析文本特征空间与图像特征空间的相关关系，最大化两种模态间的相关性，并在此基础上，结合语义分析，提出了语义关联匹配算法(semanticcorrelation matching，SCM)。该论文中所采用的SIFT局部特征可以有效的用于物体检索，但无法很好的表达图像丰富的全局内容，所使用的标准皮尔逊相关性算法由于没有考虑特征向量的方向性与不同特征自身的指标量纲的不同，没能更加准确的衡量两种模态特征的相似度。

深度学习的概念在文献[Hinton G E,Osindero S,Teh Y W.A fast learningalgorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554]中提出。卷积神经网络(convolutional neural networks，CNNs)在2012年之后被更加广泛的用于图像识别、声音识别、物体检测和行为检测等领域并且取得了很多突破性的成果。潜在狄利克雷分布(latent Dirichlet allocation，LDA)是在文献[Blei D M,Ng A Y,JordanM I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,3:993-1022]中提出的主题模型，被广泛用于文档分类中。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能教大幅度提高多媒体检索准确率的基于深度学习与一致性表达空间学习的跨媒体检索方法。

本发明的技术方案如下：

一种基于深度学习与一致性表达空间学习的跨媒体检索方法，步骤如下：

1)获取图像数据和文本数据后，分别提取图像特征I和文本特征T，得到图像特征空间及文本特征空间

2)将图像特征空间映射到一个新的图像特征空间U^I，将文本特征空间映射到一个新的文本特征空间U^T，新的图像特征空间U^I与新的文本特征空间U^T是同构的；

3)在新的图像特征空间U^I与文本特征空间U^T中寻找一致性表达空间U；

4)在图像搜索文本模式中：估算查询图像与每个文本特征在一致性表达空间U中的关联度，按照关联度从大到小返回结果；

在文本搜索图像模式中：估算查询文本与每个图像特征在一致性表达空间U中的关联度，按照关联度从大到小返回给用户。

作为优选，采用卷积神经网络模型学习图像的深度特征，提取图像特征具体为：

以预设大小的图像作为模型的输入，使用8层卷积神经网络模型进行训练，分别提取第六层fc6阶段和第七层fc7阶段的数据来表示图像特征。

作为优选，采用dropout机制，在训练时以预设的概率将隐含节点清零。

作为优选，通过概率模型将图像特征空间及文本特征空间非线性映射到一致性表达空间U；其中，C表示语义概念，而且C＝{c₁,c₂,…,c_k}，r表示k类中的第r类，X表示和是一个归一化常数；

通过概率公式完成以下映射：

表示将每个图像特征映射到后验概率向量P_C|I(r|I)，得到图像语义空间，即新的图像特征空间U^I；

表示将每个文本特征映射到后验概率向量P_C|T(r|T)，得到文本语义空间，即新的文本特征空间U^T；

其中，r∈{1,2,3,…,k}；图像语义空间与文本语义空间分别是图像特征空间及文本特征空间更高层次的抽象，并且是同构的，均表示语义概念的概率空间。

作为优选，U^I＝U^T＝U。

作为优选，步骤4)中，采用中心相关性算法计算不同模态信息在一致性表达空间U中的距离，进而估算图像与文本的关联度，具体如下：

采用的距离度量方法是经修正调整后的中心相关性：

其中，m＝n，m和n分别是向量x_i与y_j的长度；用相关性的负数表示向量x_i与y_j的距离，相关性越大，距离d_ij越小。

本发明的有益效果如下：

本发明所述的基于深度学习与一致性表达空间学习的跨媒体检索方法，针对图像与文本两种模态的跨媒体信息，从特征的选择及高度异构的两个特征空间的相似性估算这两个方法上入手，提出一个能教大幅度提高多媒体检索准确率的跨媒体检索方法。本发明所述的方法是一种针对图像与文本两种模态的多媒体信息相互检索方法，实现跨媒体检索准确率的较大幅度提高。

本发明提出一种新的跨媒体检索模型，模型中图像的特征用深度学习的方法学习获取，相比于人工选择的SIFT特征，8层CNN网络学习得到的深度特征可以更有效的表达图像的抽象概念、描述图像的深层语义，让机器自动学习良好的特征，也免去人工选取特征的过程。文本特征用应用比较广泛的LDA主题模型获取。

此外，本发明提出的模型中，采用经调整过的向量内积作为相似度度量算法。与其他相似度度量方法不同的是，该度量方法在计算相似度的时候不仅考虑了两种不同模态特征向量的方向，而且在中心化后消除了指标量纲的影响，将向量中的每个元素减去元素的平均值，再计算去均值后的两个向量的相关性。不论是CNN网络第六层的特征还是第七层的特征，本发明都能计算得到更为准确的相似度。

附图说明

图1是本发明的方法流程图；

图2是8层卷积神经网络结构图。

具体实施方式

以下结合附图及实施例对本发明进行进一步的详细说明。

本发明为了解决现有技术存在的不足，提供一种基于深度学习与一致性表达空间学习的跨媒体检索方法，所述的方法针对图像与文本两种模态的多媒体信息相互检索，实现跨媒体检索准确率的较大幅度提高。

本发明所述的方法，主要步骤如下：

本发明所述的方法具体如图1所示，针对图像与文本两种模态，分别采用卷积神经网络模型和潜在狄利克雷分布算法来学习图像的深度特征和文档的主题概率分布，进一步通过一个概率模型将两个高度异构的向量空间非线性映射到一个一致性表达空间，最后采用中心相关性算法来计算不同模态信息在此空间的距离。

本实施例中，以公开的文本－图像数据集Wikipedia dataset为实验数据。

Wikipedia dataset包含2866个文本图像对的文档集，每个文本图像对都标有相应的语义类别标签，10个语义类别包括：Art&architecture、Biology、Geography&places、History、Literature&theatre、Media、Music、Royalty&nobility、Sport&recreation和Warfare。将数据集划分成2173个训练样本，693个测试样本。

提取图像特征：将输入图像大小设置为256×256像素，256×256像素大小的图像作为模型的输入，将输入的图像裁剪成227×227像素大小；使用如图2所示的8层CNN网络模型进行训练。模型参数参照文献[Krizhevsky A,Sutskever I,Hinton G E.Imagenetclassification with deep convolutional neural networks[C]//Advances in neuralinformation processing systems.2012:1097-1105]。为防止由于样本数量比较少引起的过拟合，本发明采用dropout机制，在池化层中使用max pooling对卷积的结果进行处理，使之具有平移、旋转及伸缩不变性，并且还起到降维的作用。本实施例中，将dropout参数值设置为0.5，在训练样本的时候以百分之五十的概率将隐含节点清零，防止过拟合。分别提取第六层(fc6阶段)和第七层(fc7阶段)的数据来表示图像特征进行试验，特征维数为4096，记作

传统的检索问题一般寻找一个线性映射：使得P是可逆的。

在跨媒体检索中，由于文本与图像的表示形式往往是不一样的，在图像特征空间与文本特征空间之间不存在某种自然的对应，简单的映射或者求最近邻值是无法挖掘两个异构空间之间内在的语义关联的。采用一个机制将两个高度异构的将图像特征空间文本特征空间分别映射到一个新的图像特征空间U^I、新的文本特征空间U^T：

使得P_I和P_T都是可逆的非线性映射，U^I和U^T两个新的特征空间并且是同构的，并且有U^I＝U^T＝U。

通过以上两个映射，将图像特征空间与文本特征空间两个特征空间映射到了一个共享的语义空间U，称此共享空间为一致性表达空间U。

本发明中，用一个概率模型将两个特征空间映射到同一个一致性表达空间U。引入一个语义概念词汇表(vocabulary of semantic concepts)C＝{c₁,c₂,…,c_k}，表示文档的k类语义概念。用线性分类器分别训练图像与文本的训练集，学习得到相应的权值矩阵W_I与W_T，用多类逻辑回归来预测图像与文本的测试数据中每一个样本属于类别r的概率：

其中，C表示语义概念(也就是类别标签)，r表示k类中的第r类，X表示和是一个归一化常数。通过上述概率公式完成以下映射：

因此可以把两个语义空间看成是同一个向量空间(U^I＝U^T＝U)，U即为一致性表达空间，跨媒体检索实验中两个模态的相似性比较将在此一致性表达空间度量。

步骤4)中，在一致性表达空间U中匹配图像与文本的关联度：在一致性表达空间U(媒介空间)中使用中心相关性度量方法来计算图像与文本的关联度。实验衡量的是两个不同模态特征向量的相似度，而向量的相似度与向量的方向也有关系，本发明采用的距离度量方法是经修正调整后的中心相关性：

其中，m＝n。

中心相关性度量方法主要考虑向量x_i与y_j的线性相关性，在计算相似度的时候做了一个减去向量平均值的操作，再计算两个向量的内积，m和n分别是两个向量的长度。用相关性的负数表示两个向量的距离，相关性越大，距离d_ij就越小。

在图像搜索文本模式下：按相似度从大到小返回U^T中与搜索图像相关的文本；在文本搜图模式中同理。

MAP(mean average precision)是反映系统在搜索图片的全部相关文本(或搜索文本的全部相关图片)上性能的评价指标，该指标可以解决准确率、召回率的单点值局限性，其大小与检索效果的排名情况有关，系统检索出来的相关文档越靠前(rank越高)，MAP就应该越高。假设q为一个输入的搜索图片(或文本)，返回为文本特征T(或图像特征I)，MAP的核心是利用q对应的相关文本特征T(或图像特征I)出现的排名情况来评估算法的准确性。如搜索图像q1的相关返回文本特征T的排名为：1，3，4，7(假设q1有4个相关的文本特征T)，则q1的ap(average precision)计算就是ap1＝(1/1+2/3+3/4+4/7)/4；q2的排序结果中与之相关的文本特征T的排名为：1，2，5(假设q2有5个相关的文本特征T)，则q2的ap计算就是ap2＝(1/1+2/2+3/5+0+0)/5，该排序算法的MAP就是(ap1+ap2)/2。

实验采用MAP来作为跨媒体检索算法的评价指标。

算法实现的具体步骤：

A)分别提取Wikipedia Dataset中图像的CNN特征和文本的主题概率分布。

B)用数据库中图像的训练集训练图像分类器，用数据库中文本的训练集训练文本分类器。

C)分别预测每个图像测试集中每个样本属于每个类别的概率和每个文本测试集中每个样本属于每个类别的概率(共10个主题类别)，得到图像特征空间U^I与新的文本特征空间U^T。

D)在图像搜索文本模式下：按相似度从大到小返回文本特征空间U^T中与搜索图像相关的文本；文本搜图模式同理。

E)用MAP(平均准确率)评估实验结果。

示例实验结果的MAP：

本发明在公开的维基百科数据集(Wikipedia Dataset)上的测试结果证明了有效性。跟文献[Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach tocross-modal multimedia retrieval[C]//Proceedings of the internationalconference on Multimedia.ACM,2010:251-260]中提出的方法相对比(如表1)，距离度量方法都使用标准的皮尔逊相关性来度量(NC，normalized correlation)，对比结果表明实验所使用的CNN与SM相结合模型的检索平均准确率(MAP)比Nikhil Rasiwasia使用的三种模型的检索平均准确率要高出许多，验证了所提出模型的有效性。

表1

可以看出，相比于人工选择的SIFT特征，本发明所采用CNN网络学习得到的深度特征可以更有效的表达图像的抽象概念、描述图像的深层语义，对于实验所采用的多样性较高的Wikipedia dataset，CNN特征的优势表现的更加明显。

此外，本发明提出的模型中，采用经调整过的向量内积作为相似度度量算法。与其他相似度度量方法不同的是，该度量方法在计算相似度的时候不仅考虑了两种不同模态特征向量的方向，而且在中心化后消除了指标量纲的影响，将向量中的每个元素减去元素的平均值，再计算去均值后的两个向量的相关性。称该度量算法为中心相关性(CC，centredcorrelation)算法。表2所示的实验结果对比表明，不论是CNN网络第六层的特征还是第七层的特征，CC算法都能计算得到更为准确的相似度。

表2

为了进一步证明所提出模型的优势，表3将提出的跨媒体检索方法与其他跨媒体检索模型进行对比。其中，Random为随机排序的MAP值；SCM是文献[Rasiwasia N,CostaPereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]//Proceedings of the international conference on Multimedia.ACM,2010:251-260]中提出的模型，将SIFT特征用于相关性语义匹配模型中；MSAE是文献[Wang W,Ooi BC,Yang X,et al.Effective multi-modal retrieval based on stacked auto-encoders[J].Proceedings of the VLDB Endowment,2014,7(8):649-660]使用的模型，模型中用了栈自动编码器来学习图像与文本的深度特征；CML2R是文献[Wu F,Jiang X,Li X,etal.Cross-Modal Learning to Rank via Latent Joint Representation[J].ImageProcessing,IEEE Transactions on,2015,24(5):1497-1509]提出的模型，该模型将图像与文本特征联合编码为一个共享的特征向量来作为两种模态的连接点；TSRtext和SRimg是文献[Ling L,Zhai X,Peng Y.Tri-space and ranking based heterogeneoussimilarity measure for cross-media retrieval[C]//Pattern Recognition(ICPR),2012 21st International Conference on.IEEE,2012:230-233]提出的多模态检索方法。

表3

表3的实验结果对比，证明了无论是图像搜索相关文本还是文本搜索相关图像，本发明提出的跨媒体检索方法比其他跨媒体检索方法表现出更好的检索结果，充分验证了所设计系统的有效性。

上述实施例仅是用来说明本发明，而并非用作对本发明的限定。只要是依据本发明的技术实质，对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims

1.一种基于深度学习与一致性表达空间学习的跨媒体检索方法，其特征在于，步骤如下：

在文本搜索图像模式中：估算查询文本与每个图像特征在一致性表达空间U中的关联度，按照关联度从大到小返回给用户；

步骤4)中，采用中心相关性算法计算不同模态信息在一致性表达空间U中的距离，进而估算图像与文本的关联度，具体如下：

采用的距离度量方法是经修正调整后的中心相关性：

2.根据权利要求1所述的基于深度学习与一致性表达空间学习的跨媒体检索方法，其特征在于，采用卷积神经网络模型学习图像的深度特征，提取图像特征具体为：

3.根据权利要求2所述的基于深度学习与一致性表达空间学习的跨媒体检索方法，其特征在于，采用dropout机制，在训练时以预设的概率将隐含节点清零。

5.根据权利要求1所述的基于深度学习与一致性表达空间学习的跨媒体检索方法，其特征在于，通过概率模型将图像特征空间及文本特征空间非线性映射到一致性表达空间U；其中，C表示语义概念，而且C＝{c₁,c₂,…,c_k}，r表示k类中的第r类，X表示和是一个归一化常数；

通过概率公式完成以下映射：

6.根据权利要求5所述的基于深度学习与一致性表达空间学习的跨媒体检索方法，其特征在于，U^I＝U^T＝U。