CN106095829B - 基于深度学习与一致性表达空间学习的跨媒体检索方法 - Google Patents

基于深度学习与一致性表达空间学习的跨媒体检索方法 Download PDF

Info

Publication number
CN106095829B
CN106095829B CN201610381864.1A CN201610381864A CN106095829B CN 106095829 B CN106095829 B CN 106095829B CN 201610381864 A CN201610381864 A CN 201610381864A CN 106095829 B CN106095829 B CN 106095829B
Authority
CN
China
Prior art keywords
space
image
text
cross
feature space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610381864.1A
Other languages
English (en)
Other versions
CN106095829A (zh
Inventor
杜吉祥
邹辉
翟传敏
范文涛
王靖
刘海建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201610381864.1A priority Critical patent/CN106095829B/zh
Publication of CN106095829A publication Critical patent/CN106095829A/zh
Application granted granted Critical
Publication of CN106095829B publication Critical patent/CN106095829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Abstract

本发明涉及基于深度学习与一致性表达空间学习的跨媒体检索方法,针对图像与文本两种模态的跨媒体信息,从特征的选择及高度异构的两个特征空间的相似性估算这两个方法上入手,提出一个能教大幅度提高多媒体检索准确率的跨媒体检索方法。本发明所述的方法是一种针对图像与文本两种模态的多媒体信息相互检索方法,实现跨媒体检索准确率的较大幅度提高。本发明提出的模型中,采用经调整过的向量内积作为相似度度量算法,不仅考虑了两种不同模态特征向量的方向,而且在中心化后消除了指标量纲的影响,将向量中的每个元素减去元素的平均值,再计算去均值后的两个向量的相关性;能计算得到更为准确的相似度。

Description

基于深度学习与一致性表达空间学习的跨媒体检索方法
技术领域
本发明涉及跨媒体检索技术,更具体地说,涉及一种基于深度学习与一致性表达空间学习的跨媒体检索方法。
背景技术
跨媒体检索研究的对象是:如何利用计算机进行跨媒体信息检索,即:搜索与输入图片相关联的文本信息或者搜索与输入文本相关联的图片。
跨媒体检索系统的应用领域包括信息检索、识图、图像标记等。在互联网高速发展的今天,新闻网站、微博、社交网络、图像视频分享网站等在内的各类网络平台,正日益改变着人们对知识获取和社会关系的认知方式,多媒体数据也不断地高速增长,而各种类型跨媒体信息结合在一起来表达事物的综合性知识。研究多媒体信息之间的联系,成为急需解决的一个问题。
在实际应用中,目前的跨媒体检索方法还没有达到令人满意的效果。这是因为在现实生活中,图像具有很大的多样性,文本的隐含内容挖掘较难,图像与文本间存在着“语义鸿沟”。因此,研究检索准确率高的跨媒体检索算法使一个挑战性的任务。
为了让文本信息与图像信息关联起来,图像标注研究从70年代的人工标注发展到了计算机自动图像标注。
文献[Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001]中将条件随机场模型(conditional random fields,CRF)运用于图像标注或者视频标注的设计中。但该方法中,先验知识仅通过马尔科夫随机场来影响模型,对先验知识的利用受到了限制;此外,该方法没有学习得到比较有效的图像特征,也没能很好的利用图像的上下文与图像间的潜在关联,标注结果也不尽人意。
多种不同模态信息的特征空间之间往往是高度异构的关系,近年来,更多的学者专注于研究多媒体信息间的关联关系,寻找他们之间的一致性表达方法。
文献[Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach tocross-modal multimedia retrieval[C]//Proceedings of the internationalconference on Multimedia.ACM,2010:251-260]提出将典型关联分析(canonicalcorrelation analysis,CCA)用于分析文本特征空间与图像特征空间的相关关系,最大化两种模态间的相关性,并在此基础上,结合语义分析,提出了语义关联匹配算法(semanticcorrelation matching,SCM)。该论文中所采用的SIFT局部特征可以有效的用于物体检索,但无法很好的表达图像丰富的全局内容,所使用的标准皮尔逊相关性算法由于没有考虑特征向量的方向性与不同特征自身的指标量纲的不同,没能更加准确的衡量两种模态特征的相似度。
深度学习的概念在文献[Hinton G E,Osindero S,Teh Y W.A fast learningalgorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554]中提出。卷积神经网络(convolutional neural networks,CNNs)在2012年之后被更加广泛的用于图像识别、声音识别、物体检测和行为检测等领域并且取得了很多突破性的成果。潜在狄利克雷分布(latent Dirichlet allocation,LDA)是在文献[Blei D M,Ng A Y,JordanM I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,3:993-1022]中提出的主题模型,被广泛用于文档分类中。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能教大幅度提高多媒体检索准确率的基于深度学习与一致性表达空间学习的跨媒体检索方法。
本发明的技术方案如下:
一种基于深度学习与一致性表达空间学习的跨媒体检索方法,步骤如下:
1)获取图像数据和文本数据后,分别提取图像特征I和文本特征T,得到图像特征空间及文本特征空间
2)将图像特征空间映射到一个新的图像特征空间UI,将文本特征空间映射到一个新的文本特征空间UT,新的图像特征空间UI与新的文本特征空间UT是同构的;
3)在新的图像特征空间UI与文本特征空间UT中寻找一致性表达空间U;
4)在图像搜索文本模式中:估算查询图像与每个文本特征在一致性表达空间U中的关联度,按照关联度从大到小返回结果;
在文本搜索图像模式中:估算查询文本与每个图像特征在一致性表达空间U中的关联度,按照关联度从大到小返回给用户。
作为优选,采用卷积神经网络模型学习图像的深度特征,提取图像特征具体为:
以预设大小的图像作为模型的输入,使用8层卷积神经网络模型进行训练,分别提取第六层fc6阶段和第七层fc7阶段的数据来表示图像特征。
作为优选,采用dropout机制,在训练时以预设的概率将隐含节点清零。
作为优选,利用p(w|d)=p(w|t)*p(t|d)得出文本的主题分布概率作为文本特征T;其中,p(w|d)为文档中出现单词w的概率,p(t|d)为文档d对应的主题t的概率,p(w|t)为主题t生成单词w的概率。
作为优选,通过概率模型将图像特征空间及文本特征空间非线性映射到一致性表达空间U;其中,C表示语义概念,而且C={c1,c2,…,ck},r表示k类中的第r类,X表示 是一个归一化常数;
通过概率公式完成以下映射:
表示将每个图像特征映射到后验概率向量PC|I(r|I),得到图像语义空间,即新的图像特征空间UI
表示将每个文本特征映射到后验概率向量PC|T(r|T),得到文本语义空间,即新的文本特征空间UT
其中,r∈{1,2,3,…,k};图像语义空间与文本语义空间分别是图像特征空间及文本特征空间更高层次的抽象,并且是同构的,均表示语义概念的概率空间。
作为优选,UI=UT=U。
作为优选,步骤4)中,采用中心相关性算法计算不同模态信息在一致性表达空间U中的距离,进而估算图像与文本的关联度,具体如下:
采用的距离度量方法是经修正调整后的中心相关性:
其中,m=n,m和n分别是向量xi与yj的长度;用相关性的负数表示向量xi与yj的距离,相关性越大,距离dij越小。
本发明的有益效果如下:
本发明所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,针对图像与文本两种模态的跨媒体信息,从特征的选择及高度异构的两个特征空间的相似性估算这两个方法上入手,提出一个能教大幅度提高多媒体检索准确率的跨媒体检索方法。本发明所述的方法是一种针对图像与文本两种模态的多媒体信息相互检索方法,实现跨媒体检索准确率的较大幅度提高。
本发明提出一种新的跨媒体检索模型,模型中图像的特征用深度学习的方法学习获取,相比于人工选择的SIFT特征,8层CNN网络学习得到的深度特征可以更有效的表达图像的抽象概念、描述图像的深层语义,让机器自动学习良好的特征,也免去人工选取特征的过程。文本特征用应用比较广泛的LDA主题模型获取。
此外,本发明提出的模型中,采用经调整过的向量内积作为相似度度量算法。与其他相似度度量方法不同的是,该度量方法在计算相似度的时候不仅考虑了两种不同模态特征向量的方向,而且在中心化后消除了指标量纲的影响,将向量中的每个元素减去元素的平均值,再计算去均值后的两个向量的相关性。不论是CNN网络第六层的特征还是第七层的特征,本发明都能计算得到更为准确的相似度。
附图说明
图1是本发明的方法流程图;
图2是8层卷积神经网络结构图。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明为了解决现有技术存在的不足,提供一种基于深度学习与一致性表达空间学习的跨媒体检索方法,所述的方法针对图像与文本两种模态的多媒体信息相互检索,实现跨媒体检索准确率的较大幅度提高。
本发明所述的方法,主要步骤如下:
1)获取图像数据和文本数据后,分别提取图像特征I和文本特征T,得到图像特征空间及文本特征空间
2)将图像特征空间映射到一个新的图像特征空间UI,将文本特征空间映射到一个新的文本特征空间UT,新的图像特征空间UI与新的文本特征空间UT是同构的;
3)在新的图像特征空间UI与文本特征空间UT中寻找一致性表达空间U;
4)在图像搜索文本模式中:估算查询图像与每个文本特征在一致性表达空间U中的关联度,按照关联度从大到小返回结果;
在文本搜索图像模式中:估算查询文本与每个图像特征在一致性表达空间U中的关联度,按照关联度从大到小返回给用户。
本发明所述的方法具体如图1所示,针对图像与文本两种模态,分别采用卷积神经网络模型和潜在狄利克雷分布算法来学习图像的深度特征和文档的主题概率分布,进一步通过一个概率模型将两个高度异构的向量空间非线性映射到一个一致性表达空间,最后采用中心相关性算法来计算不同模态信息在此空间的距离。
本实施例中,以公开的文本-图像数据集Wikipedia dataset为实验数据。
Wikipedia dataset包含2866个文本图像对的文档集,每个文本图像对都标有相应的语义类别标签,10个语义类别包括:Art&architecture、Biology、Geography&places、History、Literature&theatre、Media、Music、Royalty&nobility、Sport&recreation和Warfare。将数据集划分成2173个训练样本,693个测试样本。
提取图像特征:将输入图像大小设置为256×256像素,256×256像素大小的图像作为模型的输入,将输入的图像裁剪成227×227像素大小;使用如图2所示的8层CNN网络模型进行训练。模型参数参照文献[Krizhevsky A,Sutskever I,Hinton G E.Imagenetclassification with deep convolutional neural networks[C]//Advances in neuralinformation processing systems.2012:1097-1105]。为防止由于样本数量比较少引起的过拟合,本发明采用dropout机制,在池化层中使用max pooling对卷积的结果进行处理,使之具有平移、旋转及伸缩不变性,并且还起到降维的作用。本实施例中,将dropout参数值设置为0.5,在训练样本的时候以百分之五十的概率将隐含节点清零,防止过拟合。分别提取第六层(fc6阶段)和第七层(fc7阶段)的数据来表示图像特征进行试验,特征维数为4096,记作
提取文本特征:文本特征T使用LDA主题模型获取,利用p(w|d)=p(w|t)*p(t|d)得出文本的文档主题概率分布,作为文本特征,特征空间记为其中,p(w|d)为文档中出现单词w的概率,p(t|d)为文档d对应的主题t的概率,p(w|t)为主题t生成单词w的概率。计算每个文档中一个单词在某一个文档中的概率p(w|d),然后根据结果来修改该单词应该属于哪个主题。如果该单词所属的主题改变了,就会反过来影响p(t|d)的值。
传统的检索问题一般寻找一个线性映射:使得P是可逆的。
在跨媒体检索中,由于文本与图像的表示形式往往是不一样的,在图像特征空间与文本特征空间之间不存在某种自然的对应,简单的映射或者求最近邻值是无法挖掘两个异构空间之间内在的语义关联的。采用一个机制将两个高度异构的将图像特征空间文本特征空间分别映射到一个新的图像特征空间UI、新的文本特征空间UT
使得PI和PT都是可逆的非线性映射,UI和UT两个新的特征空间并且是同构的,并且有UI=UT=U。
通过以上两个映射,将图像特征空间与文本特征空间两个特征空间映射到了一个共享的语义空间U,称此共享空间为一致性表达空间U。
本发明中,用一个概率模型将两个特征空间映射到同一个一致性表达空间U。引入一个语义概念词汇表(vocabulary of semantic concepts)C={c1,c2,…,ck},表示文档的k类语义概念。用线性分类器分别训练图像与文本的训练集,学习得到相应的权值矩阵WI与WT,用多类逻辑回归来预测图像与文本的测试数据中每一个样本属于类别r的概率:
其中,C表示语义概念(也就是类别标签),r表示k类中的第r类,X表示 是一个归一化常数。通过上述概率公式完成以下映射:
表示将每个图像特征映射到后验概率向量PC|I(r|I),得到图像语义空间,即新的图像特征空间UI
表示将每个文本特征映射到后验概率向量PC|T(r|T),得到文本语义空间,即新的文本特征空间UT
其中,r∈{1,2,3,…,k};图像语义空间与文本语义空间分别是图像特征空间及文本特征空间更高层次的抽象,并且是同构的,均表示语义概念的概率空间。
因此可以把两个语义空间看成是同一个向量空间(UI=UT=U),U即为一致性表达空间,跨媒体检索实验中两个模态的相似性比较将在此一致性表达空间度量。
步骤4)中,在一致性表达空间U中匹配图像与文本的关联度:在一致性表达空间U(媒介空间)中使用中心相关性度量方法来计算图像与文本的关联度。实验衡量的是两个不同模态特征向量的相似度,而向量的相似度与向量的方向也有关系,本发明采用的距离度量方法是经修正调整后的中心相关性:
其中,m=n。
中心相关性度量方法主要考虑向量xi与yj的线性相关性,在计算相似度的时候做了一个减去向量平均值的操作,再计算两个向量的内积,m和n分别是两个向量的长度。用相关性的负数表示两个向量的距离,相关性越大,距离dij就越小。
在图像搜索文本模式下:按相似度从大到小返回UT中与搜索图像相关的文本;在文本搜图模式中同理。
MAP(mean average precision)是反映系统在搜索图片的全部相关文本(或搜索文本的全部相关图片)上性能的评价指标,该指标可以解决准确率、召回率的单点值局限性,其大小与检索效果的排名情况有关,系统检索出来的相关文档越靠前(rank越高),MAP就应该越高。假设q为一个输入的搜索图片(或文本),返回为文本特征T(或图像特征I),MAP的核心是利用q对应的相关文本特征T(或图像特征I)出现的排名情况来评估算法的准确性。如搜索图像q1的相关返回文本特征T的排名为:1,3,4,7(假设q1有4个相关的文本特征T),则q1的ap(average precision)计算就是ap1=(1/1+2/3+3/4+4/7)/4;q2的排序结果中与之相关的文本特征T的排名为:1,2,5(假设q2有5个相关的文本特征T),则q2的ap计算就是ap2=(1/1+2/2+3/5+0+0)/5,该排序算法的MAP就是(ap1+ap2)/2。
实验采用MAP来作为跨媒体检索算法的评价指标。
算法实现的具体步骤:
A)分别提取Wikipedia Dataset中图像的CNN特征和文本的主题概率分布。
B)用数据库中图像的训练集训练图像分类器,用数据库中文本的训练集训练文本分类器。
C)分别预测每个图像测试集中每个样本属于每个类别的概率和每个文本测试集中每个样本属于每个类别的概率(共10个主题类别),得到图像特征空间UI与新的文本特征空间UT
D)在图像搜索文本模式下:按相似度从大到小返回文本特征空间UT中与搜索图像相关的文本;文本搜图模式同理。
E)用MAP(平均准确率)评估实验结果。
示例实验结果的MAP:
本发明在公开的维基百科数据集(Wikipedia Dataset)上的测试结果证明了有效性。跟文献[Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach tocross-modal multimedia retrieval[C]//Proceedings of the internationalconference on Multimedia.ACM,2010:251-260]中提出的方法相对比(如表1),距离度量方法都使用标准的皮尔逊相关性来度量(NC,normalized correlation),对比结果表明实验所使用的CNN与SM相结合模型的检索平均准确率(MAP)比Nikhil Rasiwasia使用的三种模型的检索平均准确率要高出许多,验证了所提出模型的有效性。
表1
可以看出,相比于人工选择的SIFT特征,本发明所采用CNN网络学习得到的深度特征可以更有效的表达图像的抽象概念、描述图像的深层语义,对于实验所采用的多样性较高的Wikipedia dataset,CNN特征的优势表现的更加明显。
此外,本发明提出的模型中,采用经调整过的向量内积作为相似度度量算法。与其他相似度度量方法不同的是,该度量方法在计算相似度的时候不仅考虑了两种不同模态特征向量的方向,而且在中心化后消除了指标量纲的影响,将向量中的每个元素减去元素的平均值,再计算去均值后的两个向量的相关性。称该度量算法为中心相关性(CC,centredcorrelation)算法。表2所示的实验结果对比表明,不论是CNN网络第六层的特征还是第七层的特征,CC算法都能计算得到更为准确的相似度。
表2
为了进一步证明所提出模型的优势,表3将提出的跨媒体检索方法与其他跨媒体检索模型进行对比。其中,Random为随机排序的MAP值;SCM是文献[Rasiwasia N,CostaPereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]//Proceedings of the international conference on Multimedia.ACM,2010:251-260]中提出的模型,将SIFT特征用于相关性语义匹配模型中;MSAE是文献[Wang W,Ooi BC,Yang X,et al.Effective multi-modal retrieval based on stacked auto-encoders[J].Proceedings of the VLDB Endowment,2014,7(8):649-660]使用的模型,模型中用了栈自动编码器来学习图像与文本的深度特征;CML2R是文献[Wu F,Jiang X,Li X,etal.Cross-Modal Learning to Rank via Latent Joint Representation[J].ImageProcessing,IEEE Transactions on,2015,24(5):1497-1509]提出的模型,该模型将图像与文本特征联合编码为一个共享的特征向量来作为两种模态的连接点;TSRtext和SRimg是文献[Ling L,Zhai X,Peng Y.Tri-space and ranking based heterogeneoussimilarity measure for cross-media retrieval[C]//Pattern Recognition(ICPR),2012 21st International Conference on.IEEE,2012:230-233]提出的多模态检索方法。
表3
表3的实验结果对比,证明了无论是图像搜索相关文本还是文本搜索相关图像,本发明提出的跨媒体检索方法比其他跨媒体检索方法表现出更好的检索结果,充分验证了所设计系统的有效性。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (6)

1.一种基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,步骤如下:
1)获取图像数据和文本数据后,分别提取图像特征I和文本特征T,得到图像特征空间及文本特征空间
2)将图像特征空间映射到一个新的图像特征空间UI,将文本特征空间映射到一个新的文本特征空间UT,新的图像特征空间UI与新的文本特征空间UT是同构的;
3)在新的图像特征空间UI与文本特征空间UT中寻找一致性表达空间U;
4)在图像搜索文本模式中:估算查询图像与每个文本特征在一致性表达空间U中的关联度,按照关联度从大到小返回结果;
在文本搜索图像模式中:估算查询文本与每个图像特征在一致性表达空间U中的关联度,按照关联度从大到小返回给用户;
步骤4)中,采用中心相关性算法计算不同模态信息在一致性表达空间U中的距离,进而估算图像与文本的关联度,具体如下:
采用的距离度量方法是经修正调整后的中心相关性:
其中,m=n,m和n分别是向量xi与yj的长度;用相关性的负数表示向量xi与yj的距离,相关性越大,距离dij越小。
2.根据权利要求1所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,采用卷积神经网络模型学习图像的深度特征,提取图像特征具体为:
以预设大小的图像作为模型的输入,使用8层卷积神经网络模型进行训练,分别提取第六层fc6阶段和第七层fc7阶段的数据来表示图像特征。
3.根据权利要求2所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,采用dropout机制,在训练时以预设的概率将隐含节点清零。
4.根据权利要求1所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,利用p(w|d)=p(w|t)*p(t|d)得出文本的主题分布概率作为文本特征T;其中,p(w|d)为文档中出现单词w的概率,p(t|d)为文档d对应的主题t的概率,p(w|t)为主题t生成单词w的概率。
5.根据权利要求1所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,通过概率模型将图像特征空间及文本特征空间非线性映射到一致性表达空间U;其中,C表示语义概念,而且C={c1,c2,…,ck},r表示k类中的第r类,X表示 是一个归一化常数;
通过概率公式完成以下映射:
表示将每个图像特征映射到后验概率向量PC|I(r|I),得到图像语义空间,即新的图像特征空间UI
表示将每个文本特征映射到后验概率向量PC|T(r|T),得到文本语义空间,即新的文本特征空间UT
其中,r∈{1,2,3,…,k};图像语义空间与文本语义空间分别是图像特征空间及文本特征空间更高层次的抽象,并且是同构的,均表示语义概念的概率空间。
6.根据权利要求5所述的基于深度学习与一致性表达空间学习的跨媒体检索方法,其特征在于,UI=UT=U。
CN201610381864.1A 2016-06-01 2016-06-01 基于深度学习与一致性表达空间学习的跨媒体检索方法 Active CN106095829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610381864.1A CN106095829B (zh) 2016-06-01 2016-06-01 基于深度学习与一致性表达空间学习的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610381864.1A CN106095829B (zh) 2016-06-01 2016-06-01 基于深度学习与一致性表达空间学习的跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN106095829A CN106095829A (zh) 2016-11-09
CN106095829B true CN106095829B (zh) 2019-08-06

Family

ID=57446902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610381864.1A Active CN106095829B (zh) 2016-06-01 2016-06-01 基于深度学习与一致性表达空间学习的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN106095829B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777402B (zh) * 2017-03-10 2018-09-11 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN107273502B (zh) * 2017-06-19 2020-05-12 重庆邮电大学 一种基于空间认知学习的图像地理标注方法
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110020078B (zh) * 2017-12-01 2021-08-20 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN110019675B (zh) * 2017-12-01 2021-10-15 北京搜狗科技发展有限公司 一种关键词提取的方法及装置
CN108268600B (zh) * 2017-12-20 2020-09-08 北京邮电大学 基于ai的非结构化数据管理方法及装置
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN110879863B (zh) * 2018-08-31 2023-04-18 阿里巴巴集团控股有限公司 跨领域搜索方法和跨领域搜索装置
CN110059217B (zh) * 2019-04-29 2022-11-04 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN111291558B (zh) * 2020-01-17 2023-05-02 合肥工业大学 一种基于非成对学习的图像描述自动评价方法
CN111680173B (zh) * 2020-05-31 2024-02-23 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN113111161B (zh) * 2021-04-09 2023-09-08 北京语言大学 一种跨媒体关联分析方法
CN113656582B (zh) * 2021-08-17 2022-11-18 北京百度网讯科技有限公司 神经网络模型的训练方法、图像检索方法、设备和介质
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《A New Approach to Cross-Modal Multimedia Retrieval》;Nikhil Rasiwasia 等;《Proceedings of the International Conference on Multimedia.Firenze:ACM》;20101231;全文

Also Published As

Publication number Publication date
CN106095829A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106095829B (zh) 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN107256262B (zh) 一种基于物体检测的图像检索方法
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Ma et al. Bridging the semantic gap between image contents and tags
Zhou et al. A hybrid probabilistic model for unified collaborative and content-based image tagging
Ulges et al. Learning visual contexts for image annotation from flickr groups
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
Lee et al. Tag refinement in an image folksonomy using visual similarity and tag co-occurrence statistics
Kelm et al. A hierarchical, multi-modal approach for placing videos on the map using millions of flickr photographs
Xie et al. A semantic model for cross-modal and multi-modal retrieval
Fu et al. Fast semantic image retrieval based on random forest
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
Tang et al. An efficient concept detection system via sparse ensemble learning
CN107423294A (zh) 一种社群图像检索方法及系统
Yang et al. Tag-based social image search: Toward relevant and diverse results
Barnard et al. Recognition as translating images into text
Sun et al. Visual concept detection of web images based on group sparse ensemble learning
Li et al. Optimized learning instance-based image retrieval
Situ et al. Cross-modal event retrieval: a dataset and a baseline using deep semantic learning
Pham et al. Towards a large-scale person search by vietnamese natural language: dataset and methods
Ksibi et al. Flickr-based semantic context to refine automatic photo annotation
Tang et al. Ensemble learning with LDA topic models for visual concept detection
Suzuki et al. Towards automatic cataloging of image and textual collections with Wikipedia
Zhang et al. Cross indexing with grouplets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant