CN106095893A - 一种跨媒体检索方法 - Google Patents
一种跨媒体检索方法 Download PDFInfo
- Publication number
- CN106095893A CN106095893A CN201610398342.2A CN201610398342A CN106095893A CN 106095893 A CN106095893 A CN 106095893A CN 201610398342 A CN201610398342 A CN 201610398342A CN 106095893 A CN106095893 A CN 106095893A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- media
- retrieval
- retrieved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013507 mapping Methods 0.000 claims abstract description 54
- 238000005065 mining Methods 0.000 claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 230000008878 coupling Effects 0.000 claims abstract description 19
- 238000010168 coupling process Methods 0.000 claims abstract description 19
- 238000005859 coupling reaction Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000001788 irregular Effects 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 101100072002 Arabidopsis thaliana ICME gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Multimedia (AREA)
Abstract
本发明公布了一种跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索,包括:建立多媒体数据集、对样本集中的所有样本进行耦合特征映射、进行同种媒体类型内的关联挖掘、进行异种媒体类型间的关联挖掘、通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权,分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵、将相似度降序排列进行检索。本发明提供的技术方案整体性能较好、适用性较广,可以用在多种跨媒体检索场景中。
Description
技术领域
本发明涉及模式识别和多媒体检索技术领域,具体涉及一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法。
背景技术
自20世纪90年代以来,人类迈入信息社会,随着Web 2.0技术的兴起以及互联网的广泛使用,丰富的多媒体数据,如文本、图像、音频、视频等呈现爆炸性地增长。传统的基于内容的单一媒体的检索不能适应越来越多样化的用户需求,比如在电子商务的应用场景中,用户通过提交一幅“裙子”的照片,希望能找到相关的文字描述或评价;或通过提交一些查询语句来找到最匹配的“裙子”照片。因此跨媒体检索技术应运而生,并迅速成为多媒体研究领域的前沿热点。具体而言,就是通过仅提供多媒体中的某一类型的媒体,就可以得到其他媒体类型的相关检索结果,实现不同类型媒体数据之间的灵活跨越和综合检索。针对图像和文本两类媒体数据的跨媒体检索包括两类任务:1)对于一个图像查询请求,检索出与其语义相近的文本结果(简称Img2Text);2)对于一个文本查询请求,检索出与其语义相近的图像结果(简称Text2Img)。
现有的跨媒体检索方法主要分为以下几类:第一,基于子空间映射的方法。将不同模态的多媒体数据映射到同一子空间,然后在这个学习到的子空间里进行相似性度量。文献“A new approach to cross-modal multimedia retrieval”中利用典型相关性分析(简称CCA)学习图像和文本的最大关联同构子空间。第二,基于语义映射的方法。有学者提出将文本和图像进行高层抽象的假设,数据间的关联信息首先通过CCA进行学习,然后使用多类的逻辑回归分类器计算后验概率分布,从而将异构特征表示为相同维度的同构语义向量。第三,基于关联图的方法。有学者将包含多种模态数据的多媒体文档(MultimediaDocument,简称MMD)定义成形式为<DocumentID、URL、KeywordLis、ElementSet、LinkSet>的五元组,采用无向图G=(V,E)描述对象之间的语义相关性,由链接分析算法计算其权值。第四,非线性流行学习的方法。通过双层流形学习结构对多媒体文档中不同模态的对象进行降维处理。可以对每种模态的媒体构造拉普拉斯空间,学习多媒体文档的语义关联从而构造数据邻接图。第五,稀疏特征分析方法。Zhai等人提出了一种基于统一稀疏表示的跨媒体检索方法。首先提取不同媒体类型的特征向量,然后对统一稀疏表示的特征矩阵进行映射,通过计算两个数据属于同一类别的概率来衡量跨媒体相似度水平。第六,构建跨媒体排序模型。Yang等人提出一种对参数不敏感的基于局部回归和全局校正的(简称LGRA)的学习算法,可以学习出拉普拉斯矩阵用于排序。Lu等人提出LSCMR的跨媒体排序方法。LSCMR基于最大化排序间隔的思想来学习得到两个不同的线性映射函数,通过两个映射函数将两种模态的数据分别映射到同一个低维隐特征空间,从而能够对最终的排序结果进行优化来提高排序性能。第七,利用深度学习进行跨媒体的检索。目前,利用深度学习解决人工智能的复杂问题成为一种新的研究趋势,一些代表性的模型,如深度自动编码器(Deep Autoencoder)、深信度网络(Deep Belief Network)、深度波尔兹曼机(Deep Boltzmann Machine)以及相应的学习算法被提出。近两年,有学者将这些技术扩展用于多模态数据的建模,并实现了较优的结果。
由于不同媒体特征之间的异构性和不可比性,跨媒体检索难以解决的第一个问题是如何学习一个针对不同媒体数据的同构的、统一的表示空间。由于特征表示和人类理解之间存在较大的语义鸿沟,跨媒体检索难以解决的第二个问题是如何衡量不同模态特征之间的语义相似性。
发明内容
为了克服上述现有技术的不足,本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;本发明的适用性较广,可以用在多种跨媒体检索场景中。
本发明提供的技术方案是:
一种跨媒体检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;包括如下步骤:
1)建立包含图像和文本两种媒体的样本集,分为训练样本和测试样本。
图像和文本两种媒体的样本集,两种分别都有训练样本和测试样本。
2)对样本集中的所有样本进行耦合特征映射,目的是将异构的图像和文本特征映射到同构的空间中,在映射的过程中应保留语义类别等语义信息。
3)耦合特征映射采用岭回归的方法得到两个映射矩阵,原始图像特征和文本特征分别通过所对应的特征映射矩阵进行映射。
4)对于经过特征映射后的待检索图像(或文本),在训练图像(或文本)样本中找到与其相近的前k个图像(文本),根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作同种媒体类型内的关联挖掘。
5)对于经过特征映射后的待检索图像(文本),在训练文本(图像)样本中找到与其相近的前k个文本(图像),根据k个文本(图像)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作异种媒体类型间的关联挖掘。
6)通过对4、5中的两种关联挖掘方法加权,最后分别得到图像检索文本和文本检索图像的类别相似度矩阵,将相似度降序排列,进行检索并计算平均准确度(Mean AveragePrecision,MAP)值。
当输入为一个图像时,根据本发明方法,针对所有文本,每一文本都得到一个类别相似度,根据类别相似度的降序排列,将最相似的文本排最前,返回了与输入图像语义相关的文本检索结果;当输入多幅图像时,每个图像对每个文本都相应得到一个类别相似度,所有类别相似度形成类别相似度矩阵,作为与输入的多幅图像语义相关的文本检索结果。
与现有技术相比,本发明的有益效果是:
本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;本发明的适用性较广,可以用在多种跨媒体检索场景中。本发明整体性能较好,本发明在图像检索文本(Img2Text)和文本检索图像(Text2Img)的准确度上都有较大提升。本发明实施例采用两个不同的数据集进行检索的结果说明,本发明的适用性较广,可以用在多种跨媒体检索场景中。
附图说明
图1是本发明提供方法的流程框图。
图2是本发明提供方法的总体框架和工作原理示意图;
其中,图左上部分椭圆区域内表示图像空间,右上部分爆炸型区域内表示文本空间,空心圆形和空心三角形分别表示训练图像特征和文本特征,实心圆形和实心三角形分别表示测试图像特征和文本特征,两个箭头指向的是耦合特征映射的过程,通过利用岭回归学习得到的映射矩阵UI、UT将训练和测试的异构特征映射到同构的类别空间中,长方形区域内部表示的即为同构的类别空间,在该空间中进一步完成关联挖掘的过程。
图3是本发明方法中同构特征关联和异构特征关联的效果说明图;
其中,图中黑色实心圆圈和黑色实心三角分别代表图像查询请求和文本查询请求。黑色竖线、黑色网格、黑色密点表示三个类别。图(a)表示找到同种媒体类型的最近的5个样本,这5个样本分别属于三个语义类别。图(b)表示找到不同媒体类型的最近的5个样本。对于图像查询请求的类别相似度矩阵可表示为:SI=t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]Τ+t2·[0.4,0.2,0.4]·[0.2,0.4,0.4]Τ。对于文本查询请求的类别相似度矩阵可表示为:ST=t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]Τ+t2·[0.2,0.4,0.4]·[0.4,0.2,0.4]Τ。
图4是本发明实施例中针对Wikipedia数据集上图像检索文本的准确率-召回率(P-R)曲线。
图5是本发明实施例中针对Wikipedia数据集上文本检索图像的准确率-召回率(P-R)曲线。
图6是本发明实施例中针对Pascal Voc数据集上图像检索文本的准确率-召回率(P-R)曲线。
图7是本发明实施例中针对Pascal Voc数据集上文本检索图像的准确率-召回率(P-R)曲线。
图8是本发明实施例中针对Wikipedia数据集上图像检索文本的t1性能曲线。
图9是本发明实施例中针对Wikipedia数据集上文本检索图像的t1性能曲线。
图10是本发明实施例中针对文本检索图像的两个实例;
其中,(a)、(b)分别为在Wikipedia数据集下针对文本检索图像的实例;
其中,图(a)、(b)中的第一列表示一个文本查询请求,第二列表示与该文本查询请求对应的正确的图像结果,第三到七列表示采用本发明方法检索得到的前五个检索结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
一种跨媒体检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;包括如下步骤:
1)建立包含图像和文本两种媒体的样本集,分为训练样本和测试样本。
图像和文本两种媒体的样本集,两种分别都有训练样本和测试样本。
2)对样本集中的所有样本进行耦合特征映射,目的是将异构的图像和文本特征映射到同构的空间中,在映射的过程中应保留类别等语义信息。
3)耦合特征映射采用岭回归的方法得到两个映射矩阵,原始图像特征和文本特征分别通过所对应的特征映射矩阵进行映射。
4)对于经过特征映射后的待检索图像(文本),在训练图像(文本)样本中找到与其相近的前k个图像(文本),根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作同种媒体类型内的关联挖掘。
5)对于经过特征映射后的待检索图像(文本),在训练文本(图像)样本中找到与其相近的前k个文本(图像),根据k个文本(图像)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作异种媒体类型间的关联挖掘。
6)通过对4、5中的两种关联挖掘方法加权,最后分别得到图像检索文本和文本检索图像的类别相似度矩阵,将相似度降序排列,进行检索并计算准确度MAP值。
图1是本发明提供方法的流程框图,本发明方法包括耦合特征映射以及同种媒体数据内和异种媒体数据间的关联挖掘。首先进行耦合特征映射,目的是将不同模态的异构特征映射到同构的语义类别空间中,如图2上半部分的耦合特征映射过程所示;然后进行同种媒体数据内和异种媒体数据间的关联挖掘,如图2下半部分所示。耦合特征映射具体包括如下步骤21-24;关联挖掘具体包括如下步骤41-46。
21)将多媒体数据集定义为D={D1,D2,...,Dn},其中表示图像和文本这两种模态的原始特征,n表示样本的个数。对于图像对于文本dI表示图像原始特征的维度,dT表示文本原始特征的维度。是类别标签矩阵,c为类别的数目。
22)采用岭回归的方法,通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵即解式1的最小化问题。
其中,λ为正则项参数,通过交叉验证选取;表示二范数;
23)式(1)中UI和UT的解如式2所示。
其中,I表示单位矩阵;
24)用UI和UT将图像和文本的原始特征映射到类别空间(category space)中,如式3所示。
I=XIUI T=XTUT (式3)
其中,分别表示映射后的图像和文本的同构的特征矩阵。
进行同种媒体数据内和异种媒体数据间的关联挖掘,如图2下半部分所示,具体包括如下步骤41-46:
41)同种媒体数据内的关联挖掘目的是在每种类型的媒体内部挖掘语义类别信息。从上述耦合特征映射步骤中得到的待测样本特征点设为(或),用KNN(KNearest Neighbors)的方法在同种媒体类型的训练样本中找到k个最近邻。
42)待测图像查询Ii属于类别c的概率定义为式4:
其中,Ik∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的图像Ik。Lk=c表示图像Ik的类别标签等于c。σ(z)=(1+exp(-z))-1是sigmoid函数。sim(Ii,Ik)表示两个数据点间的度量方法。
43)由于不同媒体数据间的异构特征已经在耦合特征映射步骤中映射到同一类别空间,因此我们可以直接衡量跨媒体类型数据间的相似性。对于同样的待测图像查询Ii,式4可变为式5:
式5中,Tk∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的文本Tk。Lk=c表示文本Tk的类别标签等于c。
44)对于m个待测图像查询,将式(4)(5)写成类别概率矩阵的形式:
相似地,对于m个待测文本查询,可以给出及的定义。
45)同种媒体数据内的关联和不同媒体数据间的关联都很重要,他们的融合能相互补充,共同提升检索水平。对于图像检索文本(Img2Text)和文本检索图像(Text2Img),类别相似度矩阵可分别计算如下:
其中t1,t2是根据实验结果得出的经验权重。
46)同种媒体数据内和不同媒体数据间关联挖掘过程可以形象地用图2表示。将 按照降序排序;利用SI,ST的降序排列计算得到检索结果,其中SI(i,j)的值越大,表示第i个图像和第j个文本的相似度越大。
最后,计算MAP值(Mean Average Precision),用于对检索结果进行衡量。
在上述步骤中,式4、式5中KNN中的K值根据经验设为80,权重t1、t2由不同数据集的性能曲线决定,如图8、图9给出了Wikipedia数据集的t1性能曲线,选择合适的t1使得MAP值达到最优。上述式2中参数λ的选取过程为:令λ=[10,1,0.1,0.01,0.001...]等不同取值进行交叉验证,最终对Wikipedia数据集选择λ=0.1,对Pascal Voc数据集选择λ=1。
下面的实验结果表明,与现有的文献相比,本方法在图像检索文本(Img2Text)和文本检索图像(Text2Img)两个任务中,都取得了较优的结果。用于对比的方法分别是以下参考文献记载的方法,包括:
CCA[1]:Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach tocross-modal multimedia retrieval[C]//International Conference onMultimedia.ACM,2010:251-260.
LCFS[2]:Wang K,He R,Wang W,et al.Learning Coupled Feature Spaces forCross-Modal Matching[C]//IEEE International Conference on ComputerVision.2013:2088-2095.
CDLFA[3]:Xu X,Shimada A,Rin-ichiro Taniguchi,et al.Coupled dictionarylearning and feature mapping for cross-modal retrieval[C]//ICME.2015:1-6.
HSNN[4]:Xiaohua Zhai,Yuxin Peng,Jianguo Xiao.Effective HeterogeneousSimilarity Measure with Nearest Neighbors for Cross-Media Retrieval[C]//International Conference on Advances in Multimedia Modeling.Springer-Verlag,2012:312-322.
本发明实施例中使用的第一个数据集是Wikipedia数据集,共包括2866对图像及其文本,训练数据个数为2173,测试数据个数为693,文本特征为10维的LDA(LatentDirichlet Allocation)特征,图像特征为128维的SIFT特征。式4、式5中的相似性度量方法包括Chi-square distance(Chi),Normalized Correlation(NC),Centered Correlation(CC)以及Histogram Intersection(HI)。表1表示了在Wikipedia数据集上的MAP值。
表1 Wikipedia数据集的MAP值
Proposed(Coupled)表示本发明除去第二部分关联挖掘的结果。从表1可以看出,当采用HI度量方法时,本发明的检索结果达到最佳,对图像检索文本的MAP值为0.3249,对文本检索图像的MAP值为0.2374。图3、图4分别表示Wikipedia数据集上图像检索文本和文本检索图像的Precision-Recall曲线。从图3可以看出,对于图像检索文本,在不同的召回率下,本发明几乎都能达到最高的准确度;从图4可以看出,对于文本检索图像,在召回率较低的情况下的准确度不如[3],但其他情况都更优。图7、图8分别给出了图像检索文本和文本检索图像的t1性能曲线,t1=1意味着只存在同种类型媒体内的关联,t1=0意味着只存在不同种类型媒体间的关联。当t1=0.99时,图像检索文本的MAP值达到最大;对于文本检索图像,随着t1的增大,MAP值先增大,然后在一个相对较大的区间内保持最优结果,最后降低。这说明衡量不同类型媒体间的关联有助于提升文本检索图像的效果,而文本检索图像效果的提升在跨媒体检索领域是一个较难解决问题,可见本发明的有效性。图10给出了在Wikipedia数据集下文本检索图像的两个例子。图中第一列表示一个文本查询请求,第二列表示与之对应的正确的图像结果,第三到七列表示本发明检索出的前五个结果。
本发明使用的第二个数据集是Pascal Voc数据集。该数据集是以“图像-标签”的形式表示,包括5011个训练样本对和4952个测试样本对,被分为20个不同的类别。图像特征是512维的Gist特征,文本标签是399维的词频特征。由于一些图片具有多个类别,我们选择每幅图片只含有一个物体(object)的图像标签对进行训练和测试。筛选后的训练样本对有2808,测试样本对有2841。与Wikipedia数据集相比,Pascal Voc数据集有更高维的特征,并且它的文本特征较为稀疏,因此对不同方法所呈现的结果则完全不同。表2表示了在PascalVoc数据集上的MAP值。
表2 Pascal Voc数据集的MAP值
从表2看出,Proposed(CC)在图像检索文本任务中取得最优的MAP值,为0.4266;Proposed(HI)在文本检索图像任务中取得最好结果,其MAP值为0.3302。图5、图6分别表示在Pascal Voc数据集上图像检索文本和文本检索图像的Precision-Recall曲线,可以看出,与其他方法相比,本发明整体性能较好。两个不同的数据集的结果说明,本发明的适用性较广,可以用在多种跨媒体检索场景中。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索,包括如下步骤:
1)建立多媒体数据集,多媒体数据集包括两种媒体的样本集,分别为包含图像的样本集和包含文本的样本集;所述两种媒体样本集均分为训练样本和测试样本,由此得到图像训练样本、图像测试样本、文本训练样本和文本测试样本;
2)对样本集中的所有样本进行耦合特征映射,使得异构的原始图像特征和原始文本特征映射到同构的空间中,在映射的过程中保留语义类别信息;
3)通过耦合特征映射得到两个特征映射矩阵,原始图像特征和原始文本特征分别通过所对应的特征映射矩阵进行映射,得到待检索图像样本特征点或待检索文本样本特征点;
4)进行同种媒体类型内的关联挖掘:对于经过耦合特征映射后得到的待检索图像或待检索文本,在图像训练样本或文本训练样本中找到与所述待检索图像或待检索文本相近的前k个图像或文本,根据k个图像或文本的类别得到待检索图像或待检索文本的类别概率矩阵;
5)进行异种媒体类型间的关联挖掘:对于经过耦合特征映射后得到的待检索图像或待检索文本,在文本训练样本或图像训练样本中找到与所述待检索图像或待检索文本相近的前k个文本或图像,根据k个文本或图像的类别得到待检索图像或待检索文本的类别概率矩阵;
6)通过对步骤4)和步骤5)中通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权,分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵;将相似度降序排列进行检索。
2.如权利要求1所述跨媒体数据检索方法,其特征是,通过计算获得平均准确度的取值来衡量检索的准确度。
3.如权利要求1所述跨媒体数据检索方法,其特征是,所述进行耦合特征映射包括如下步骤:
21)将多媒体数据集定义为D={D1,D2,...,Dn},其中表示图像和文本这两种模态的原始特征,n表示样本的个数;对于图像其中dI表示图像原始特征的维度;对于文本其中dT表示文本原始特征的维度;是类别标签矩阵,其中c为类别的数目;
22)采用岭回归的方法,通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵和即解式1的最小化问题:
其中,参数λ为正则项参数,通过交叉验证选取;表示二范数;
23)将式1中UI和UT的解表示为式2:
式2中,I表示单位矩阵;
24)用UI和UT将图像和文本的原始特征映射到类别空间中,表示为式3:
I=XIUI T=XTUT (式3)
其中,分别表示映射后的图像和文本的同构的特征矩阵。
4.如权利要求3所述跨媒体数据检索方法,其特征是,所述正则项参数λ通过交叉验证选取过程为:令λ=[10,1,0.1,0.01,0.001...]进行交叉验证得到。
5.如权利要求3所述跨媒体数据检索方法,其特征是,所述正则项参数λ的取值具体是:针对Wikipedia数据集,λ=0.1;针对Pascal Voc数据集,λ=1。
6.如权利要求1所述跨媒体数据检索方法,其特征是,所述进行同种媒体数据内和异种媒体数据间的关联挖掘,具体包括如下步骤:
41)将同种媒体数据内的关联挖掘通过耦合特征映射得到的待测样本特征点设为或用KNN方法在同种媒体类型的训练样本中找到k个最近邻,实现在每种类型的媒体内部挖掘语义类别信息;
42)将待测图像查询Ii属于类别c的概率定义为式4:
式4中,Ik∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的图像Ik;Lk=c表示图像Ik的类别标签等于c;σ(z)=(1+exp(-z))-1是sigmoid函数;sim(Ii,Ik)表示两个数据点间的度量方法;
43)所述耦合特征映射将不同媒体数据间的异构特征映射到同一类别空间,通过以下方法衡量跨媒体类型数据间的相似性:对于同样的待测图像查询Ii,将式4变为式5:
式5中,Tk∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的文本Tk;Lk=c表示文本Tk的类别标签等于c;
44)对于m个待测图像查询,将式4和式5写成式6类别概率矩阵的形式:
其中,
相似地,对于m个待测文本查询,给出及的定义;
45)对于跨媒体的图像检索文本(Img2Text)和文本检索图像(Text2Img),各自的类别相似度矩阵可分别通过式7进行计算:
其中,t1、t2是根据实验结果得出的经验权重;
46)将按照降序排序;利用SI,ST的降序排列计算得到检索结果,其中SI(i,j)的值越大,表示第i个图像和第j个文本的相似度越大。
7.如权利要求6所述跨媒体数据检索方法,其特征是,所述式4和式5中采用KNN方法找到k个最近邻,所述k取值为80。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610398342.2A CN106095893B (zh) | 2016-06-06 | 2016-06-06 | 一种跨媒体检索方法 |
PCT/CN2016/089624 WO2017210949A1 (zh) | 2016-06-06 | 2016-07-11 | 一种跨媒体检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610398342.2A CN106095893B (zh) | 2016-06-06 | 2016-06-06 | 一种跨媒体检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095893A true CN106095893A (zh) | 2016-11-09 |
CN106095893B CN106095893B (zh) | 2018-11-20 |
Family
ID=57227344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610398342.2A Expired - Fee Related CN106095893B (zh) | 2016-06-06 | 2016-06-06 | 一种跨媒体检索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106095893B (zh) |
WO (1) | WO2017210949A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657008A (zh) * | 2017-09-25 | 2018-02-02 | 中国科学院计算技术研究所 | 基于深度判别排序学习的跨媒体训练及检索方法 |
CN107688653A (zh) * | 2017-09-01 | 2018-02-13 | 武汉倚天剑科技有限公司 | 基于网络浅层数据的用户行为数据挖掘系统及其方法 |
CN108399414A (zh) * | 2017-02-08 | 2018-08-14 | 南京航空航天大学 | 样本选择方法及装置 |
CN109344266A (zh) * | 2018-06-29 | 2019-02-15 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
WO2020042597A1 (zh) * | 2018-08-31 | 2020-03-05 | 深圳大学 | 一种跨模态检索方法及系统 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN111651660A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种跨媒体检索困难样本的方法 |
CN111680173A (zh) * | 2020-05-31 | 2020-09-18 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 统一检索跨媒体信息的cmr模型 |
CN111782921A (zh) * | 2020-03-25 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 检索目标的方法和装置 |
CN112861944A (zh) * | 2021-01-28 | 2021-05-28 | 中山大学 | 一种基于混合模态输入的图像检索方法及装置 |
CN113239237A (zh) * | 2021-07-13 | 2021-08-10 | 北京邮电大学 | 跨媒体大数据搜索方法及装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
CN109783655B (zh) * | 2018-12-07 | 2022-12-30 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
CN109871454B (zh) * | 2019-01-31 | 2023-08-29 | 鲁东大学 | 一种鲁棒离散监督跨媒体哈希检索方法 |
CN110399528B (zh) * | 2019-08-05 | 2023-11-07 | 北京深醒科技有限公司 | 一种自动跨特征推理式目标检索方法 |
CN110597878B (zh) * | 2019-09-16 | 2023-09-15 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110929733A (zh) * | 2019-12-09 | 2020-03-27 | 上海眼控科技股份有限公司 | 除噪方法、装置、计算机设备、存储介质及模型训练方法 |
CN111324752B (zh) * | 2020-02-20 | 2023-06-16 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111651577B (zh) * | 2020-06-01 | 2023-04-21 | 全球能源互联网研究院有限公司 | 跨媒体数据关联分析模型训练、数据关联分析方法及系统 |
CN111833175A (zh) * | 2020-06-03 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 基于knn算法的互联网金融平台申请欺诈行为检测方法 |
CN111708745B (zh) * | 2020-06-18 | 2023-04-21 | 全球能源互联网研究院有限公司 | 一种跨媒体数据共享表示方法及用户行为分析方法、系统 |
CN111738186B (zh) * | 2020-06-28 | 2024-02-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN111930992B (zh) * | 2020-08-14 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN111914156B (zh) * | 2020-08-14 | 2023-01-20 | 中国科学院自动化研究所 | 自适应标签感知的图卷积网络跨模态检索方法、系统 |
CN112182273B (zh) * | 2020-09-25 | 2024-03-01 | 贵州师范大学 | 基于语义约束矩阵分解哈希的跨模态检索方法及其系统 |
CN112200239A (zh) * | 2020-09-30 | 2021-01-08 | 上海海事大学 | 一种基于希尔伯特-施密特独立性和度量学习的零样本学习方法 |
CN112732889A (zh) * | 2020-12-07 | 2021-04-30 | 东南大学 | 一种基于合作网络的学者检索方法和装置 |
CN113672783B (zh) * | 2021-08-11 | 2023-07-11 | 北京达佳互联信息技术有限公司 | 特征处理方法、模型训练方法及媒体资源处理方法 |
CN114297424A (zh) * | 2021-11-16 | 2022-04-08 | 天云融创数据科技(北京)有限公司 | 图像检索方法、装置、电子设备、介质和程序产品 |
CN114186084B (zh) * | 2021-12-14 | 2022-08-26 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
WO2023240583A1 (zh) * | 2022-06-17 | 2023-12-21 | 之江实验室 | 一种跨媒体对应知识的生成方法和装置 |
CN114781642B (zh) * | 2022-06-17 | 2022-09-23 | 之江实验室 | 一种跨媒体对应知识的生成方法和装置 |
CN114780690B (zh) * | 2022-06-20 | 2022-09-09 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
CN115392365B (zh) * | 2022-08-18 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 多模态特征的获取方法、装置及电子设备 |
CN116431788B (zh) * | 2023-04-14 | 2024-03-29 | 中电科大数据研究院有限公司 | 面向跨模态数据的语义检索方法 |
CN117556276B (zh) * | 2024-01-11 | 2024-05-10 | 支付宝(杭州)信息技术有限公司 | 用于确定文本和视频之间的相似度的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101060A1 (en) * | 2004-11-08 | 2006-05-11 | Kai Li | Similarity search system with compact data structures |
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN104317838A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2653932C (en) * | 2006-06-02 | 2013-03-19 | Telcordia Technologies, Inc. | Concept based cross media indexing and retrieval of speech documents |
CN103049526B (zh) * | 2012-12-20 | 2015-08-05 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN103995903B (zh) * | 2014-06-12 | 2017-04-12 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
-
2016
- 2016-06-06 CN CN201610398342.2A patent/CN106095893B/zh not_active Expired - Fee Related
- 2016-07-11 WO PCT/CN2016/089624 patent/WO2017210949A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101060A1 (en) * | 2004-11-08 | 2006-05-11 | Kai Li | Similarity search system with compact data structures |
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN104317838A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 |
Non-Patent Citations (2)
Title |
---|
KAIYE WANG ET AL.: "Learning Coupled Feature Spaces for Cross-modal Matching", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
XIAOHUA ZHAI ET AL.: "Cross-media retrieval by intra-media and inter-media correlation mining", 《MULTIMEDIA SYSTEMS》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399414A (zh) * | 2017-02-08 | 2018-08-14 | 南京航空航天大学 | 样本选择方法及装置 |
WO2018145604A1 (zh) * | 2017-02-08 | 2018-08-16 | 南京航空航天大学 | 样本选择方法、装置及服务器 |
CN108399414B (zh) * | 2017-02-08 | 2021-06-01 | 南京航空航天大学 | 应用于跨模态数据检索领域的样本选择方法及装置 |
US10885390B2 (en) | 2017-02-08 | 2021-01-05 | Nanjing University Of Aeronautics And Astronautics | Sample selection method and apparatus and server |
CN107688653A (zh) * | 2017-09-01 | 2018-02-13 | 武汉倚天剑科技有限公司 | 基于网络浅层数据的用户行为数据挖掘系统及其方法 |
CN107657008B (zh) * | 2017-09-25 | 2020-11-03 | 中国科学院计算技术研究所 | 基于深度判别排序学习的跨媒体训练及检索方法 |
CN107657008A (zh) * | 2017-09-25 | 2018-02-02 | 中国科学院计算技术研究所 | 基于深度判别排序学习的跨媒体训练及检索方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN109344266B (zh) * | 2018-06-29 | 2021-08-06 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
CN109344266A (zh) * | 2018-06-29 | 2019-02-15 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
WO2020042597A1 (zh) * | 2018-08-31 | 2020-03-05 | 深圳大学 | 一种跨模态检索方法及系统 |
CN111782921A (zh) * | 2020-03-25 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 检索目标的方法和装置 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
US11341366B2 (en) | 2020-03-30 | 2022-05-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Cross-modality processing method and apparatus, and computer storage medium |
CN111651660A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种跨媒体检索困难样本的方法 |
CN111680173A (zh) * | 2020-05-31 | 2020-09-18 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 统一检索跨媒体信息的cmr模型 |
CN111680173B (zh) * | 2020-05-31 | 2024-02-23 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 统一检索跨媒体信息的cmr模型 |
CN112861944A (zh) * | 2021-01-28 | 2021-05-28 | 中山大学 | 一种基于混合模态输入的图像检索方法及装置 |
CN112861944B (zh) * | 2021-01-28 | 2022-09-23 | 中山大学 | 一种基于混合模态输入的图像检索方法及装置 |
CN113239237A (zh) * | 2021-07-13 | 2021-08-10 | 北京邮电大学 | 跨媒体大数据搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106095893B (zh) | 2018-11-20 |
WO2017210949A1 (zh) | 2017-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095893B (zh) | 一种跨媒体检索方法 | |
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN109614979B (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN113239214B (zh) | 基于有监督对比的跨模态检索方法、系统及设备 | |
CN104899253B (zh) | 面向社会图像的跨模态图像-标签相关度学习方法 | |
Liu et al. | Robust and scalable graph-based semisupervised learning | |
Jiao et al. | SAR images retrieval based on semantic classification and region-based similarity measure for earth observation | |
CN101877007B (zh) | 融合空间方位关系语义的遥感图像检索方法 | |
CN110766042B (zh) | 一种基于最大相关最小冗余的多标记特征选择方法及装置 | |
JP5121917B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN107273505B (zh) | 基于非参数贝叶斯模型的监督跨模态哈希检索方法 | |
CN105205135B (zh) | 一种基于主题模型的3d模型检索方法及其检索装置 | |
Barz et al. | Enhancing flood impact analysis using interactive retrieval of social media images | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Mishra et al. | Image mining in the context of content based image retrieval: a perspective | |
Lu et al. | Contextual kernel and spectral methods for learning the semantics of images | |
Traina et al. | Querying on large and complex databases by content: Challenges on variety and veracity regarding real applications | |
CN103473308A (zh) | 基于最大间隔张量学习的高维多媒体数据分类方法 | |
CN113553326A (zh) | 电子表格数据处理方法、装置、计算机设备和存储介质 | |
CN113887698A (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN117312594A (zh) | 一种融合双尺度特征的草图化机械零件库检索方法 | |
Mithun et al. | Construction of diverse image datasets from web collections with limited labeling | |
Lan et al. | Label guided discrete hashing for cross-modal retrieval | |
Tian et al. | Automatic image annotation with real-world community contributed data set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181120 |
|
CF01 | Termination of patent right due to non-payment of annual fee |