CN108595546B - 基于半监督的跨媒体特征学习检索方法 - Google Patents

基于半监督的跨媒体特征学习检索方法 Download PDF

Info

Publication number
CN108595546B
CN108595546B CN201810311299.0A CN201810311299A CN108595546B CN 108595546 B CN108595546 B CN 108595546B CN 201810311299 A CN201810311299 A CN 201810311299A CN 108595546 B CN108595546 B CN 108595546B
Authority
CN
China
Prior art keywords
media
data
matrix
similarity
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810311299.0A
Other languages
English (en)
Other versions
CN108595546A (zh
Inventor
张鸿
齐婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201810311299.0A priority Critical patent/CN108595546B/zh
Publication of CN108595546A publication Critical patent/CN108595546A/zh
Application granted granted Critical
Publication of CN108595546B publication Critical patent/CN108595546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于半监督的跨媒体特征学习检索方法,包括如下步骤:步骤一:建立多媒体数据库,步骤二:求取不同媒体类型的投影矩阵;(2.1)定义目标函数:(2.2)目标函数的优化:(2.3)将多媒体数据的原始特征投影到公共空间,步骤三:进行跨媒体检索;(3.1)提取用户提交的媒体数据的特征:根据用户提交的数据的媒体类型使用提前训练的模型来提取出该数据的特征,(3.2)将该媒体数据的特征向量,投影到共同空间中(3.3)计算投影后的特征向量与共同空间中的其他向量之间的相似度,(3.4)返回相似度最大的前k个媒体数据。本发明的方法降低计算复杂度,实现对噪声的鲁棒性,提高检索的准确性。

Description

基于半监督的跨媒体特征学习检索方法
技术领域
本发明涉及一种基于半监督的跨媒体特征学习检索方法,属于检索领域。
背景技术
随着现代计算机科学技术的发展,互联网上的图像,文本,视频等多媒体数据迅速增长。基于内容的多媒体检索已经变得越来越重要,对此已经做了大量的研究。传统的基于内容的检索方法通常集中在单一模式检索,如图像检索,文本检索。在这种情况下,查询和检索结果是相同的媒体类型。但是,单一模式检索不能充分利用不同的媒体数据。为了解决这个问题,跨媒体检索已经被提出并且变得越来越重要。它旨在将一种类型的数据作为查询来检索另一种类型的相关数据对象。例如,用户可以使用老虎的图片来检索各种相关的文本描述,或者提交老虎的关键字来检索相关的图像。
在跨媒体检索研究中,针对不同媒体类型的特征学习是一个关键的挑战,其中关联分析是一个关键问题。相关性分析是跨媒体特征学习的一个关键问题。成对关联可以在不同媒体类型的对象之间提供准确的关系。在基于图的策略中,图正则化项保护了多媒体数据之间的关联关系,其中边权重起着关键的作用,它表现了数据间的密切关系。然而,大多数现有的工作考虑边权重通常设置其为常量,或者是由原始数据间的相似性导出的。实际上,根据原始数据或投影数据之间的距离来计算边权重可以更准确地表示多媒体数据的相关性。但是,原始特征的维度通常很大,这会影响算法的计算复杂度。
发明内容
本发明的目的在于提供一种基于半监督的跨媒体特征学习检索方法,以解决上述问题。
本发明采用了如下技术方案:
一种基于半监督的跨媒体特征学习检索方法,包括如下步骤:
步骤一:建立多媒体数据库,
步骤二:求取不同媒体类型的投影矩阵;
(2.1)定义目标函数:
Figure BDA0001622423040000021
投影矩阵
Figure BDA0001622423040000022
Xap和Xaq表示来自第p个媒体和第q个媒体的具有相同标签的两组媒体对象,
Xp表示来自第p个媒体的媒体对象,
Hp和Hq表示Xp和Xq的投影矩阵,
Yp表示Xp对应的标签信息,
F表示Frobenius范数,
(2.2)目标函数的优化:
Figure BDA0001622423040000023
表示式(5)中的目标函数,对
Figure BDA0001622423040000024
进行微分,并设置其值为零,可以得到如下的等式:
Figure BDA0001622423040000031
其中,Rp=Diag(rp)中的rp表示l2,1范数的一个辅助向量,它的第i个成员定义为
Figure BDA0001622423040000032
式(6)可以重写为:
Figure BDA0001622423040000033
通过求解上述线性系统问题,得到一种最小化目标函数(5)的优化方法,这个方法的过程是先初始化Hp为单位矩阵,然后在每一次迭代中,在
Figure BDA0001622423040000034
已给定的条件下计算
Figure BDA0001622423040000035
在优化的过程中,迭代一直持续直到收敛,
(2.3)将多媒体数据的原始特征投影到公共空间。
步骤三:进行跨媒体检索;
(3.1)提取用户提交的媒体数据的特征:根据用户提交的数据的媒体类型使用提前训练的模型来提取出该数据的特征,
(3.2)将该媒体数据的特征向量
Figure BDA0001622423040000036
投影到共同空间中,且投影后的特征向量为
Figure BDA0001622423040000037
(3.3)计算投影后的特征向量与共同空间中的其他向量之间的相似度:跨媒体相似度被定义为边际概率,定义如下:
Figure BDA0001622423040000038
其中,yi(yj)代表
Figure BDA0001622423040000039
的标签,p(yi=l|fi p)代表fi p属于类别l的概率,p(yi=l|fi p)定义如下:
Figure BDA0001622423040000041
其中,Nk(fi p)代表在训练集中fi p的K近邻,y代表f的标签,σ(z)=(1+exp(-z))-1是Sigmoid函数,
投影后的特征向量与共同空间中的其他向量之间的相似度计算完成后,用排序函数按相似度值降序排序,并对该结果进行保存,
(3.4)返回相似度最大的前k个媒体数据。
进一步,本发明的基于半监督的跨媒体特征学习检索方法,还具有这样的特征:
步骤一中包括:
步骤1.1收集多媒体原始数据,
步骤1.2提取多媒体数据的特征。
进一步,本发明的基于半监督的跨媒体特征学习检索方法,还具有这样的特征:
得到目标函数的过程如下:
定义图的权重矩阵:
Figure BDA0001622423040000042
其中,fi p,p=1,2,...,S表示在公共空间内
Figure BDA0001622423040000043
的投影对象,
Figure BDA0001622423040000044
是fi p
Figure BDA0001622423040000045
的欧几里德距离,
Figure BDA0001622423040000046
Nk(fi p)表示fi p的k个最近邻的集合,
为了表示投影特征向量f的平滑度,使用平滑函数Ω(H1,...,HS),平滑函数惩罚两个对象间的投影函数的大的变化,基于多模态图,定义平滑函数为:
Figure BDA0001622423040000051
其中,
Figure BDA0001622423040000052
是所有模态的总样本的数目,
Figure BDA0001622423040000053
代表公共空间中所有模态的投影数据,L=D-W是拉普拉斯矩阵,基于上述定义,方程(3)可以转化为:
Figure BDA0001622423040000054
综上,得到目标函数如下:
Figure BDA0001622423040000055
进一步,本发明的基于半监督的跨媒体特征学习检索方法,还具有这样的特征:
步骤(2.2)中,优化方法的步骤如下:
输入:
含有标签和无标签数据的矩阵
Figure BDA0001622423040000056
含有标签数据的矩阵
Figure BDA0001622423040000057
标签矩阵Y∈RN×c
输出:
投影矩阵
Figure BDA0001622423040000058
过程:
初始化
Figure BDA0001622423040000061
为单位矩阵,并设置t=0;
重复:
1.根据
Figure BDA0001622423040000062
计算图拉普拉斯矩阵Lt
2.计算与
Figure BDA0001622423040000063
相一致的对角矩阵
Figure BDA0001622423040000064
3.通过解决式(7)中的线性系统问题,根据下面的等式更新
Figure BDA0001622423040000065
Figure BDA0001622423040000066
进一步,本发明的基于半监督的跨媒体特征学习检索方法,还具有这样的特征:
步骤3.4中:根据已求得的按降序排序的相似度结果,通过原始数据和投影数据的关系,返回前k个原始数据的值给用户。
发明的有益效果
(1)本发明与现有技术相比,提出一种新的联合学习方法,该框架根据投影数据之间的距离计算边权重。一方面,根据数据之间的距离计算边权重,可以准确地保护多媒体数据的相关性;另一方面,边权重是从投影数据之间的相似性导出的,这减少了原始特征的维数,因此可以有效地降低计算复杂度。
(2)本发明与现有技术相比,探讨了不同媒体类型的稀疏和半监督正则化,并将其集成到一个统一的优化问题中。一方面,它同时学习了不同媒体的稀疏投影矩阵,不同的媒体可以相互联合,从而实现对噪声的鲁棒性;另一方面,它探索了不同媒体类型的有标签数据和无标签数据,不同媒体类型的无标签样例增加了训练数据的多样性,并且提高了联合表示学习的性能。
(3)本发明与现有技术相比,探究了以原始数据的高层次抽象为重点的语义信息,联合多媒体数据的相关性和语义信息可以进一步提高检索的准确性。
附图说明
图1是基于半监督的跨媒体特征学习方法流程图,
图2是用图像检索文本在维基百科数据集上跨媒体检索的PR曲线,
图3是用文本检索图像在维基百科数据集上跨媒体检索的PR曲线。
具体实施方式
以下结合附图来说明本发明的具体实施方式。
如图1所示为本发明一种基于半监督的跨媒体特征学习方法流程图,下面结合图1对本发明做进一步说明,本发明方法具体实现步骤如下:
(1)建立多媒体数据库;
所述步骤(1)包括如下步骤:
(1.1)收集多媒体原始数据:可以自己收集,也可以使用公开的数据集,在这里,为了数据的准确性,使用了公开的数据集,维基百科数据集;
(1.2)提取多媒体数据的特征:采用适当的方法分别提取每种媒体类型数据的特征;
(2)求取不同媒体类型的投影矩阵;
所述步骤(2)包括如下步骤:
(2.1)定义目标函数:
在现有的跨媒体检索方法中,不同类型的媒体之间的相关关系被广泛使用,即如果不同的媒体对象存在于同一个文档中或者被共同用来表示一个给定的主题,那么它们应该有相同的语义;并且注重原始数据高层次抽象的语义信息符合人类的认知,因此,定义跨媒体正则化的损失函数如下:
Figure BDA0001622423040000081
其中,||A||F表示矩阵A的Frobenius范数,Xap和Xaq表示来自第p个媒体和第q个媒体的具有相同标签的两组媒体对象,Xp表示来自第p个媒体的媒体对象,Hp和Hq表示Xp和Xq的投影矩阵,Yp表示Xp对应的标签信息。
接下来,根据多模态数据之间的关联关系,利用有标签数据和无标签数据构建多模态图。如果不同模态的数据与相同的内容或主题相关,那么它们应该共享相同的语义,这可以被定义为模态间相似性关系。而在每种单一模态下,具有邻域关系的数据对象在公共空间中应该彼此靠近,这可以被定义为模态内相似性关系。希望在探究公共空间时保护模态间和模态内的相似性关系。
图正则化被广泛用于保护多媒体数据之间的相似性,图中的边权重表示多媒体数据间的密切关系。定义图的权重矩阵如下:
Figure BDA0001622423040000091
其中,fi p,p=1,2,...,S表示在公共空间内
Figure BDA0001622423040000092
的投影对象,
Figure BDA0001622423040000093
是fi p
Figure BDA0001622423040000094
的欧几里德距离,
Figure BDA0001622423040000095
Nk(fi p)表示fi p的k个最近邻的集合。
为了表示投影特征向量f的平滑度,使用平滑函数Ω(H1,...,HS)。平滑函数惩罚两个对象间的投影函数的大的变化。基于多模态图,定义平滑函数为:
Figure BDA0001622423040000096
其中,
Figure BDA0001622423040000097
是所有模态的总样本的数目,
Figure BDA0001622423040000098
代表公共空间中所有模态的投影数据,L=D-W是拉普拉斯矩阵,基于上述定义,方程(3)可以转化为:
Figure BDA0001622423040000099
综上,得到目标函数如下:
Figure BDA00016224230400000910
(2.2)目标函数的优化:让
Figure BDA00016224230400000911
表示式(5)中的目标函数,对
Figure BDA00016224230400000912
进行微分,并设置其值为零,可以得到如下的等式:
Figure BDA00016224230400000913
其中,Rp=Diag(rp)中的rp表示l2,1范数的一个辅助向量,它的第i个成员定义为
Figure BDA0001622423040000101
式(6)可以重写为:
Figure BDA0001622423040000102
通过求解上述线性系统问题,提出了一种最小化目标函数(5)的优化方法。这个方法的一般过程是先初始化Hp为单位矩阵,然后在每一次迭代中,在
Figure BDA0001622423040000103
已给定的条件下计算
Figure BDA0001622423040000104
在优化的过程中,迭代一直持续直到收敛。接下来将详细的说明该优化算法的步骤。
输入:
含有标签和无标签数据的矩阵
Figure BDA0001622423040000105
含有标签数据的矩阵
Figure BDA0001622423040000106
标签矩阵Y∈RN×c
输出:
投影矩阵
Figure BDA0001622423040000107
过程:
初始化
Figure BDA0001622423040000108
为单位矩阵,并设置t=0;
重复:
4.根据
Figure BDA0001622423040000109
计算图拉普拉斯矩阵Lt
5.计算与
Figure BDA00016224230400001010
相一致的对角矩阵
Figure BDA00016224230400001011
6.通过解决式(7)中的线性系统问题,根据下面的等式更新
Figure BDA00016224230400001012
Figure BDA0001622423040000111
(2.3)将多媒体数据的原始特征投影到公共空间:已经学习了多媒体类型的原始数据特征的投影矩阵Hp,使用它可以将所有的数据点
Figure BDA0001622423040000112
投影到公共空间中,且投影后的特征向量为
Figure BDA0001622423040000113
(3)进行跨媒体检索
所述步骤(3)包括如下步骤:
(3.1)提取用户提交的媒体数据的特征:用户提交了某种媒体的数据后,根据该数据的媒体类型使用提前训练的模型来提取出该数据的特征。
(3.2)将提取出的数据特征投影到共同空间中:将该媒体数据的特征向量
Figure BDA0001622423040000114
投影到共同空间中,且投影后的特征向量为
Figure BDA0001622423040000115
(3.3)计算投影后的特征向量与共同空间中的其他向量之间的相似度:跨媒体相似度被定义为边际概率。这个概率显示了两个媒体对象的语义相似度,而不管它们是什么媒体类型。边际概率定义如下:
Figure BDA0001622423040000116
其中,yi(yj)代表
Figure BDA0001622423040000117
的标签,p(yi=l|fi p)代表fi p属于类别l的概率。p(yi=l|fi p)定义如下:
Figure BDA0001622423040000118
其中,Nk(fi p)代表在训练集中fi p的K近邻,y代表f的标签,σ(z)=(1+exp(-z))-1是Sigmoid函数。
投影后的特征向量与共同空间中的其他向量之间的相似度计算完成后,用排序函数按相似度值降序排序,并对该结果进行保存。
(3.4)返回相似度最大的前k个媒体数据:根据已求得的按降序排序的相似度结果,通过原始数据和投影数据的关系,返回前k个原始数据的值给用户。
下面通过具体实例来进一步说明。
(1)建立多媒体数据库;
使用公开的维基百科数据集,它包含文本和图像数据,该数据集是从2700篇专题文章中选出的,并是自2009年以来由维基百科的编辑选择和审阅。每篇文章都附有维基共享资源的一个或多个图像。文字和图像都被维基百科分配了一个类别标签,共有29个类别,由于某些类别非常稀缺,因此在该数据集中保留了十个最常见的类别。每篇文章根据章节标题分成几个部分,根据图像在文章中的位置,将伴随的图像分别分配给各部分。最终的数据集共包含2866个文档,这些文档是文本图像对,用10个语义类别的词汇标注。数据集被随机分成2173个文档的训练集和693个文档的测试集。
在这里,对于维基百科数据集,提取的每个图像特征是一个4096维CNN(卷积神经网络)特征向量,每个文本特征是一个3000维的Bag of Words(词袋)特征向量。
(2)求取不同媒体类型的投影矩阵;
将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,初始化
Figure BDA0001622423040000131
为单位矩阵,并设置t=0。然后根据公式(8)来进行迭代,每次迭代后t自增1。当两次迭代的改变率低于0.001时迭代终止,此时的Hp(i=1,2,...,S)则是目标函数的最优解,即为最优的投影矩阵。
利用已经求得的投影矩阵Hp,将所有的训练集中的数据点
Figure BDA0001622423040000132
投影到公共空间中
Figure BDA0001622423040000133
(3)进行跨媒体检索
当用户提交一个类别的文本,如“音乐”进行跨媒体检索时,首先提取该文本的特征,然后将该文本的特征向量投影到共同空间中,进而根据公式(9)计算投影后的特征向量与共同空间中的其他向量之间的相似度,返回与其相似度最大的前k个特征向量所对应媒体数据给用户。
在实验中,采用平均精度(MAP)和精度-召回(PR)曲线来评估算法的性能。一组查询的MAP是每个查询的平均精度(AP)的平均值。MAP越大,表示算法的性能越好。AP的计算公式如下
Figure BDA0001622423040000134
其中L是检索集合中相关项的数量;N是查询返回的结果总数;P(r)表示前r个检索文档的准确度;如果返回的结果是相关的,则δ(r)=1,否则δ(r)=0。
将提出的算法命名为SSFL,并与现有的四种方法进行比较:
1)JGRHML:它探索了不同媒体类型之间内容相似度的异构度量。
2)CMCP:它能够传播不同模态之间的相关性,并且在不同模态的媒体对象之间同时处理正相关和负相关。
3)HSNN:它可以计算不同媒体类型的媒体对象之间的相似度。
4)JFSSL:它可以共同处理联合学习方法中的相关性度量和耦合特征选择。
表1.在维基百科数据集上不同方法的MAP比较
Figure BDA0001622423040000141
表1显示了基于维基百科数据集的跨媒体检索任务的MAP分数的不同方法的性能。与其他四种方法相比,提出的SSFL方法将平均MAP从0.461提高到0.497。
图2和图3分别是使用文字检索图片和使用图片检索文字的维基百科数据,集中绘制了各种方法相应的精度-召回(PR)曲线。可以看到,本发明的SSFL方法在大多数召回水平上具有更高的精度,优于比较方法。
随着多媒体数据的快速增长,跨媒体检索变得越来越重要,因为用户可以通过提交任何媒体类型的查询来检索各种类型媒体的结果。本发明提供的方法能够解决传统的基于图的跨媒体特征学习方法中边权重的设置忽略了相关性保护及忽视了算法计算复杂度的问题,一方面,本方法根据数据之间的距离计算边权重,可以准确保护多媒体数据的相关性;另一方面,本方法的边权重是根据投影数据之间的相似性导出的,降低了原始特征的维数,从而能有效地降低计算复杂度。

Claims (5)

1.一种基于半监督的跨媒体特征学习检索方法,包括如下步骤:
步骤一:建立多媒体数据库,
步骤二:求取不同媒体类型的投影矩阵;
(2.1)定义目标函数:
Figure FDA0001622423030000011
投影矩阵
Figure FDA0001622423030000012
Xap和Xaq表示来自第p个媒体和第q个媒体的具有相同标签的两组媒体对象,
Xp表示来自第p个媒体的媒体对象,
Hp和Hq表示Xp和Xq的投影矩阵,
Yp表示Xp对应的标签信息,
F表示Frobenius范数,
(2.2)目标函数的优化:
Figure FDA0001622423030000013
表示式(5)中的目标函数,对
Figure FDA0001622423030000014
进行微分,并设置其值为零,可以得到如下的等式:
Figure FDA0001622423030000015
其中,Rp=Diag(rp)中的rp表示l2,1范数的一个辅助向量,它的第i个成员定义为
Figure FDA0001622423030000021
式(6)可以重写为:
Figure FDA0001622423030000022
通过求解上述线性系统问题,得到一种最小化目标函数(5)的优化方法,这个方法的过程是先初始化Hp为单位矩阵,然后在每一次迭代中,在
Figure FDA0001622423030000023
已给定的条件下计算
Figure FDA0001622423030000024
在优化的过程中,迭代一直持续直到收敛,
(2.3)将多媒体数据的原始特征投影到公共空间,
步骤三:进行跨媒体检索;
(3.1)提取用户提交的媒体数据的特征:根据用户提交的数据的媒体类型使用提前训练的模型来提取出该数据的特征,
(3.2)将该媒体数据的特征向量
Figure FDA0001622423030000025
投影到共同空间中,且投影后的特征向量为
Figure FDA0001622423030000026
(3.3)计算投影后的特征向量与共同空间中的其他向量之间的相似度:跨媒体相似度被定义为边际概率,定义如下:
Figure FDA0001622423030000027
其中,yi(yj)代表
Figure FDA0001622423030000028
的标签,p(yi=l|fi p)代表fi p属于类别l的概率,p(yi=l|fi p)定义如下:
Figure FDA0001622423030000029
其中,Nk(fi p)代表在训练集中fi p的K近邻,y代表f的标签,σ(z)=(1+exp(-z))-1是Sigmoid函数,
投影后的特征向量与共同空间中的其他向量之间的相似度计算完成后,用排序函数按相似度值降序排序,并对该结果进行保存,
(3.4)返回相似度最大的前k个媒体数据。
2.如权利要求1所述的基于半监督的跨媒体特征学习检索方法,其特征在于:
步骤一中包括:
步骤1.1收集多媒体原始数据,
步骤1.2提取多媒体数据的特征。
3.如权利要求1所述的基于半监督的跨媒体特征学习检索方法,其特征在于:
得到目标函数的过程如下:
定义图的权重矩阵:
Figure FDA0001622423030000031
其中,fi p,p=1,2,...,S表示在公共空间内
Figure FDA0001622423030000032
的投影对象,
Figure FDA0001622423030000033
是fi p
Figure FDA0001622423030000034
的欧几里德距离,
Figure FDA0001622423030000035
Nk(fi p)表示fi p的k个最近邻的集合,
为了表示投影特征向量f的平滑度,使用平滑函数Ω(H1,...,HS),平滑函数惩罚两个对象间的投影函数的大的变化,基于多模态图,定义平滑函数为:
Figure FDA0001622423030000041
其中,
Figure FDA0001622423030000042
是所有模态的总样本的数目,
Figure FDA0001622423030000043
代表公共空间中所有模态的投影数据,L=D-W是拉普拉斯矩阵,基于上述定义,方程(3)可以转化为:
Figure FDA0001622423030000044
综上,得到目标函数(5)如下:
Figure FDA0001622423030000045
4.如权利要求1所述的基于半监督的跨媒体特征学习检索方法,其特征在于:
步骤(2.2)中,优化方法的步骤如下:
输入:
含有标签和无标签数据的矩阵
Figure FDA0001622423030000046
含有标签数据的矩阵
Figure FDA0001622423030000047
标签矩阵Y∈RN×c
输出:
投影矩阵
Figure FDA0001622423030000048
过程:
初始化
Figure FDA0001622423030000051
为单位矩阵,并设置t=0;
重复:
1.根据
Figure FDA0001622423030000052
计算图拉普拉斯矩阵Lt
2.计算与
Figure FDA0001622423030000053
相一致的对角矩阵
Figure FDA0001622423030000054
3.通过解决式(7)中的线性系统问题,我们根据下面的等式更新
Figure FDA0001622423030000055
5.如权利要求1所述的基于半监督的跨媒体特征学习检索方法,其特征在于:
步骤3.4中:根据已求得的按降序排序的相似度结果,通过原始数据和投影数据的关系,返回前k个原始数据的值给用户。
CN201810311299.0A 2018-04-09 2018-04-09 基于半监督的跨媒体特征学习检索方法 Active CN108595546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810311299.0A CN108595546B (zh) 2018-04-09 2018-04-09 基于半监督的跨媒体特征学习检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810311299.0A CN108595546B (zh) 2018-04-09 2018-04-09 基于半监督的跨媒体特征学习检索方法

Publications (2)

Publication Number Publication Date
CN108595546A CN108595546A (zh) 2018-09-28
CN108595546B true CN108595546B (zh) 2022-02-15

Family

ID=63621222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810311299.0A Active CN108595546B (zh) 2018-04-09 2018-04-09 基于半监督的跨媒体特征学习检索方法

Country Status (1)

Country Link
CN (1) CN108595546B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299153B (zh) * 2018-10-17 2021-12-03 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的主动认定方法和机器人系统
CN109784405B (zh) * 2019-01-16 2020-09-08 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN110188210B (zh) * 2019-05-10 2021-09-24 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN111708745B (zh) * 2020-06-18 2023-04-21 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111813967B (zh) * 2020-07-14 2024-01-30 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018847A2 (en) * 2010-08-02 2012-02-09 Cognika Corporation Cross media knowledge storage, management and information discovery and retrieval
CN103336968A (zh) * 2013-05-28 2013-10-02 中国矿业大学 基于张量距离补丁校准的高光谱数据降维方法
CN103678483A (zh) * 2013-10-24 2014-03-26 江苏大学 基于自适应概率超图和半监督学习的视频语义分析方法
CN104077408A (zh) * 2014-07-11 2014-10-01 浙江大学 大规模跨媒体数据分布式半监督内容识别分类方法及装置
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018847A2 (en) * 2010-08-02 2012-02-09 Cognika Corporation Cross media knowledge storage, management and information discovery and retrieval
CN103336968A (zh) * 2013-05-28 2013-10-02 中国矿业大学 基于张量距离补丁校准的高光谱数据降维方法
CN103678483A (zh) * 2013-10-24 2014-03-26 江苏大学 基于自适应概率超图和半监督学习的视频语义分析方法
CN104077408A (zh) * 2014-07-11 2014-10-01 浙江大学 大规模跨媒体数据分布式半监督内容识别分类方法及装置
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization;Xiaohua Zhai et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20140603;第24卷(第6期);965-978 *
Semi-Supervised Cross-Media Feature Learning With Unified Patch Graph Regularization;Yuxin Peng et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20150209;第26卷(第3期);583-596 *
一种基于内容相关性的跨媒体检索方法;张鸿 等;《计算机学报》;20080531;第31卷(第5期);820-826 *

Also Published As

Publication number Publication date
CN108595546A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
Mudgal et al. Deep learning for entity matching: A design space exploration
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Jain et al. Online metric learning and fast similarity search
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN113661487A (zh) 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器
Wang et al. Facilitating image search with a scalable and compact semantic mapping
CN102782678A (zh) 用于项关联的联合嵌入
CN109376261B (zh) 基于中级文本语义增强空间的模态独立检索方法和系统
CN108388639B (zh) 一种基于子空间学习与半监督正则化的跨媒体检索方法
Wu et al. Switchable novel object captioner
CN111460201A (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN105138977A (zh) 一种大数据环境下的人脸识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Li et al. Modeling continuous visual features for semantic image annotation and retrieval
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN112613451B (zh) 一种跨模态文本图片检索模型的建模方法
Hu et al. Cross-modal discriminant adversarial network
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Tian et al. Automatic image annotation with real-world community contributed data set
Tian et al. Multimedia integrated annotation based on common space learning
CN105677830A (zh) 一种基于实体映射的异构媒体相似性计算方法及检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant