CN100422999C - 基于内容相关性的跨媒体检索方法 - Google Patents

基于内容相关性的跨媒体检索方法 Download PDF

Info

Publication number
CN100422999C
CN100422999C CNB2006100533904A CN200610053390A CN100422999C CN 100422999 C CN100422999 C CN 100422999C CN B2006100533904 A CNB2006100533904 A CN B2006100533904A CN 200610053390 A CN200610053390 A CN 200610053390A CN 100422999 C CN100422999 C CN 100422999C
Authority
CN
China
Prior art keywords
subspace
vector
image
dimension
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100533904A
Other languages
English (en)
Other versions
CN101021849A (zh
Inventor
潘云鹤
庄越挺
吴飞
张鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2006100533904A priority Critical patent/CN100422999C/zh
Publication of CN101021849A publication Critical patent/CN101021849A/zh
Application granted granted Critical
Publication of CN100422999C publication Critical patent/CN100422999C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于内容相关性的跨媒体检索方法。采用典型相关性分析,同时分析不同模态媒体数据的内容特征;并通过子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中;根据通用距离函数,度量不同模态媒体数据间的相关性大小;此外,结合相关反馈中的先验知识,修正多模态数据集在子空间中的拓扑结构,有效提高了系统的跨媒体检索效率。本发明突破了基于内容的多媒体检索技术对单模态的限制,解决了不同模态媒体数据在底层特征上的异构性问题,实现了相同模态之间和不同模态之间媒体对象的距离统一度量,并且能够借助用户交互过程,更准确、有效地进行跨媒体检索。

Description

基于内容相关性的跨媒体检索方法
技术领域
本发明涉及多媒体检索,尤其涉及一种基于内容相关性的跨媒体检索方法。
背景技术
基于内容的多媒体检索是计算机视觉和信息检索领域的研究热点,根据视觉、听觉或者几何等底层特征进行相似度匹配而实现检索。早在1976年,麦格克就已经揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息,以形成整体性的理解。近期认知神经心理学方面的研究也进一步验证了人脑认知过程呈现出跨媒体的特性,来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生认知结果。因此,目前迫切需要研究一种支持不同模态的跨媒体检索方法,突破传统基于内容的多媒体检索只作用于单模态数据的限制。
基于内容的跨媒体检索技术是指通过对多媒体对象的底层特征进行分析,实现在检索过程中从一种模态到另一种模态的跨越,即用户提交一种模态的查询例子,系统返回与之相似的其他不同模态的多媒体对象,突破了单模态的图像检索、音频检索、三维图形检索等对单模态的限制。跨媒体检索是基于内容的多媒体分析与检索中一个新的研究领域,目前国际上还没有比较成熟的跨媒体检索算法和技术。
90年代初期人们提出了基于内容的图像检索技术,从图像中提取底层的视觉特征,比如颜色、纹理、形状等底层视觉特征作为图像的索引。这种技术后来也被运用到视频检索和音频检索,其中针对不同媒体内容所采用的底层特征也不同,视频检索可能用到运动矢量特征,而音频检索会用到时域、频域、压缩域特征等。基于内容的多媒体检索方法早期有以QBIC、VideoQ等为代表的原型系统,但是由于缺少高层语义的支持,在准确率和效率上不能满足用户的要求;之后例子学习、融合分析和流形学习等方法被用来实现多媒体语义理解,以填补底层特征和高层语义之间的鸿沟;接着为了克服训练样本的不足,相关反馈机制常被使用,以结合用户的感知先验知识,例如:利用反馈信息修改查询向量使其向相关检索对象的分布中心移动、调整距离度量公式中各分量的权值等,近来一些机器学习方法也与相关反馈方法相结合。这些方法的使用,一定程度上缩小了语义鸿沟,提高了单模态检索的性能。
然而,现有的多媒体检索系统都只能检索包含单一模态的多媒体数据库,或虽能处理多模态的媒体数据,却不支持跨媒体的检索,即根据一种模态的多媒体对象检索到其他模态的多媒体对象。由于图像的视觉特征与音频的听觉特征之间不但特征维数不同,而且表达不同的属性,无法直接度量相似性,这种异构性和不可比性同样存在于其他模态的多媒体数据之间。因此,上述单模态检索方法都不能直接用于跨媒体检索,因为与单模态检索不同,跨媒体检索的研究对象是不同模态、彼此异构的底层特征空间。
一些研究者先后提出了类似跨媒体思想的研究,例如通过挖掘多模态特征进行视频数据库的索引和检索,对视频新闻所包含的转录文本和互联网页面所包含的文本进行分析,实现视频对象和互联网页面在文本特征上的相似匹配。但是,这些研究是针对特定模态媒体对象中不同的底层特征,例如:视频片断中包含的转录文本、颜色、纹理等,不能实现不同模态媒体数据间的灵活跨越。
典型相关性分析(Canonical Correlation Analysis)是一种统计分析方法,最早应用于经济、医学、气象等方面的数据分析。但是在多媒体数据分析与检索方面,典型相关性分析却很少被使用到,因为这种统计分析方法是分析两种不同变量场之间存在的相关性信息,而传统的单模态检索技术研究的是一种模态的单一特征空间。
发明内容
本发明为克服上述现有方法在检索模态上的限制,提供了一种基于内容相关性的跨媒体检索方法。
基于内容相关性的跨媒体检索方法包括以下步骤:
(1)从多媒体数据库采集不同模态的对象:图像和音频数据;
(2)提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性;
(3)采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达;
(4)采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索;
(5)基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构;
(6)根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中。
所述的提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性:图像的底层视觉特征构成p维的图像特征矢量,音频的底层听觉特征构成q维音频特征矢量,采用典型相关性分析同时学习图像的视觉特征X(n×p)和音频的听觉特征Y(n×q),异构的特征矩阵X(n×p)和Y(n×q)之间相关系数计算如下:
ρ = r ( L , M ) = A T C xy B A T C xx AB T C yy B , ( C xy = C xx C xy C yx C yy = C ) - - - 1
X ( n × p ) → A ( p × m ) L ( n × m ) ; - - - 2
Figure C20061005339000074
其中A和B为线性变换,按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关,A和B的数值分布确定X与Y的空间相关分布形式,A和B的数值大小确定所对应变量的重要程度。
采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达:同构子空间映射算法在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量X(n×p)和Y(n×q)之间相关性,算法步骤如下:
输入:图像特征矩阵X(n×p),音频特征矩阵Y(n×q)
输出:所有图像数据和音频数据在低维子空间中的向量表示L(n×m)和M(n×m)
步骤1:通过半监督学习的方式,用K平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别;
步骤2:在公式3的约束下,使相关系数ρ=r(L,M)最优化,
v(L)=LTL=ATXTXA=1;v(M)=MTM=BTYTYB=1                    3
采用拉格朗日乘子法得到形式为Ax=λBx的方程CxyCyy -1CyxA=λ2CxxA,求取该方程的特征根即得到矩阵A和B的解;
步骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标L(n×m)和M(n×m)
采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索:图像和音频数据在m维子空间中用极坐标的形式定义特征向量xi′(xi1′,...,xik′,...,xim′),(xik′=a+b·i,(a,b∈R)),图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下:
CCAdis ( x i ′ , x j ′ ) = sqrt Σ k = 1 m ( | x ik ′ | 2 + | x jk ′ | 2 - 2 × | x ik ′ | × | x jk ′ | × Cosθ k ) ; - - - 4
β ik = arctg ( b / a ) , θ k = | β ik - β jk | , | x ik ′ | = a 2 + b 2 , k ∈ [ 1 , m ]
检索过程中用户通过人机接口提供查询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到查询例子在子空间中的m维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与查询图像例子最近的k个图像和k个音频作为查询结果返回给用户;同样,如果查询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。
基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构:系统可以在相关反馈过程中学习用户提供的感知先验知识,设Ω表示图像训练集,A表示音频训练集,定义“修正因子”γ(i,j)=Pos(ai,bj)(ai∈Ω,bj∈A),用于修正不同模态媒体对象之间的相似度:Crodis(i,j)=CCAdis(i,j)(i,j),修下因子初始化为零;
当用户提交图像查询例子R,使用CCAdis(i,j)计算R在子空间中的k近邻图像集合C1,使用Crodis(i,j)计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C1和C2
在用户交互过程中,用户通过相关反馈在查询结果中标注正例P和负例N, ∀ p i ∈ P , γ ( R , p i ) = - τ , ( τ > 0 ) , 并根据CCAdis找到pi在音频数据库A中的k-近邻T={t1,...,tj,...,tk},按距离的升序排列,然后以等差的方式,依次修改集合T中每个元素的γ值: γ ( R , t j ) = - τ + j × d 1 , ( d 1 = τ / k ) ; ∀ n i ∈ N , γ ( R , n i ) = τ , ( τ > 0 ) , 并根据CCAdis找到ni在音频数据库A中的k-近邻H={h1,...,hj,...,hk},按距离的升序排列,然后以等差的方式,依次修改集合H中每个元素的γ值: γ ( R , h i ) = τ - j × d 2 , ( d 2 = τ / k ) ;
同样,当用户提交的是音频对象时,使用同样的方法更新修正因子γ(i,j),下一轮的检索过程按照新的相似度排列返回的结果。
根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中:当用户提交的查询例子不属于训练数据集时,使用特征提取程序提取例子图像的视觉特征向量V,分下列两种情况进行新媒体对象到同构子空间的映射:
(1)如果已知新媒体对象表达的语义信息,则根据权利要求3所描述的训练得到的子窆间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离;
(2)如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与查询例子相似的图像,用户标记反馈正例Z={z1,...zj},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)=Pos(z11+...+Pos(zjj,(β1+...+βj=1)。
本发明的有益效果:
1)该方法突破了基于内容的多媒体检索只针对单模态的限制。提出一种全新的跨媒体检索方法。该方法同时分析两种不同模态的内容特征,挖掘特征之间在统计意义上的典型相关性;
2)子空间映射方法不但解决了不同模态间的异构性问题,而且最大程度地在子空间中保持了多模态特征之间的相关性信息,这种相关性信息实际上是一种语义关联信息,因此该方法在实现特征降维的同时融合了语义;
3)不同模态的媒体对象可以用同构的向量表示,在极坐标系下计算向量之间的相似度,即相同模态之间和不同模态之间的距离。
附图说明
图1是基于内容相关性的跨媒体检索方法的系统框架图;
图2(a)是本发明的同构子空间中在相关反馈之前的多媒体数据集分布示意图;
图2(b)是本发明的同构子空间中在相关反馈之后的多媒体数据集分布示意图;
图3(a)是本发明以“汽车”图像为检索例子采用同构子空间方法得到检索结果;
图3(b)是本发明以“汽车”图像为检索例子直接采用内容特征得到的检索结果;
图4(a)是本发明以“战争”图像为检索例子采用同构子空间方法得到的检索结果;
图4(b)是本发明以“战争”图像为检索例子直接采用内容特征得到的检索结果。
具体实施方式
不同模态媒体对象的底层内容特征,如图像的视觉特征(颜色、纹理、形状等)与音频的听觉特征(时域特征、频域特征、时频特征等),不但特征维数异构,而且表达不同的属性,无法直接度量相似性。本发明可以同时分析异构的视觉特征与听觉特征,并以特征之间的典型相关性为依据,进行子空间映射,解决了跨媒体检索中的异构性与不可比性问题,而且子空间映射过程最大程度地保留了初始特征之间的相关性信息。本发明的基于内容相关性的跨媒体检索方法具体实施的技术方案及步骤如下:
1.训练数据的选取和标注
视觉特征和听觉特征之间的典型相关性学习,是建立在语义联系的基础上,用统计分析的方法,从底层特征中挖掘语义层次上的相互联系。训练数据的选取需要同时有图像数据和音频数据表达相似语义。例如,对于“狗”这个语义类别,选取表达“狗”外形特征的图片,以及表达“狗”叫声的音频片断作为训练数据。
在已知语义类别个数,图像数据和音频数据的语义标注未知的情况下,采用半监督式学习,结合K平均聚类的方法对数据库中所有的图像和音频数据进行标注,并聚类到不同的语义类别,具体步骤如下:
输入:未标注的图像数据集Ω和音频数据集Γ,语义类别个数Z;
输出:每个图像数据和每个音频数据所属的语义类别编号;
步骤1:对于语义类别Zi,随机标注5个图像例子Ai,计算Ai的聚类质心ICtri
步骤2:以ICtri为K平均聚类算法的初始输入,对整个图像数据集Ω进行聚类,在相同聚类区域的图像例子被赋予相同的语义类别编号;
步骤3:对音频数据集Γ也采用步骤1和步骤2进行训练数据的标注。
2.视觉和听觉特征的提取
对于每一个语义类别中的图像数据,提取底层视觉特征,包括:HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度,为每幅图像构造p维的图像特征矢量xp,整个语义类别中的图像数据集构成图像特征矩阵X(n×p);对于每一个语义类别中的音频数据,提取底层听觉特征,包括:质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(Spectral Flux)和均方根(RMS)这四个Mpeg压缩域特征,为每一段音频例子构造q维的音频特征矢量yq,整个语义类别中的音频数据集构成音频特征矩阵Y(n×q)。如果音频数据的持续时间不同,提取的音频特征向量的维数也不同,本发明使用模糊聚类方法,在原始音频特征中提取相同数目的聚类质心作为音频索引。
3.容纳多语义不同模态媒体数据的同构子空间映射
在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量X(n×p)和Y(n×q)之间相关性,算法步骤如下:
输入:图像特征矩阵X(n×p),音频特征矩阵Y(n×q)
输出:所有图像数据和音频数据在低维子空间中的向量表示L(n×m)和M(n×m)
步骤1:通过半监督学习的方式,用K-平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别;
步骤2:在v(L)=LTL=ATXTXA=1;v(M)=MTM=BTYTYB=1的约束下,使相关系数ρ=r(L,M)最优化,采用拉格朗日乘子法得到形式为Ax=λBx的方程CxyCyy -1CyxA=λ2CxxA,求取该方程的特征根即得到矩阵A和B的解;
步骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标L(n×m)和M(n×m)
4.采用通用距离函数计算相似度
当所有图像和音频数据的特征向量转换成低维子空间中的m维向量后,出现大量复数,为了计算各种模态媒体数据间的相似度,采用极坐标形式表达降维后的特征向量:xi′=(xi1′,...,xik′,..,xim′),(xik′=a+b·i,(a,b∈R))。因此,图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下:
C CAdis ( x i ′ , x j ′ ) = sqrt Σ k = 1 m ( | x ik ′ | 2 + | x jk ′ | 2 - 2 × | x ik ′ | × | x jk ′ | × Cosθ k ) ;
β ik = arctg ( b / a ) , θ k = | β ik - β jk | , | x ik ′ | = a 2 + b 2 , k ∈ [ 1 , m ]
检索过程中用户通过人机接口提供查询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到查询例子在子空间中的m维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与查询图像例子最近的k个图像和k个音频作为查询结果返回给用户;同样,如果查询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。
本发明支持单一模态的检索和跨媒体的检索,即用户提交一种模态的媒体对象作为查询,在检索结果中可以包含其他模态的媒体对象,并可以基于另一种模态对象引发新的查询。
5.相关反馈
通过基于内容的方法,学习视觉特征和听觉特征之间的典型相关性,从而在最大程度保持相关性不变的情况下实现子空间映射,解决特征异构性问题。但是由于底层内容与高层语义之间的鸿沟,使得学习结果与真实语义存在差异。通过用户相关反馈,在返回查询结果中标注正例和负例,从用户标注中学习语义信息,并修正学习得到的多媒体数据集在子空间中的拓扑结构。
设Ω表示图像训练集,A表示音频训练集,定义“修正因子”γ(i,j)=Pos(ai,bj)(ai∈Ω,bj∈A),用于修正不同模态媒体对象之间的相似度:Crodis(i,j)=CCAdis(i,j)(i,j),修正因子初始化为零:当用户提交图像查询例子R,使用CCAdis(i,j)计算R在子空间中的k近邻图像集合C1,使用Crodis(i,j)计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C1和C2:在用户交互过程中,用户通过相关反馈在查询结果中标注正例P和负例N, ∀ p i ∈ P , γ ( R , p i ) = - τ , ( τ > 0 ) , 并根据CCAdis找到pi在音频数据库A中的k-近邻T={t1,...,tj,...,tk},按距离的升序排列,然后以等差的方式,依次修改集合T中每个元素的γ值: γ ( R , t j ) = - τ + j × d 1 , ( d 1 = τ / k ) ; ∀ n i ∈ N , γ ( R , n i ) = τ , ( τ > 0 ) , 并根据CCAdis找到ni在音频数据库A中的k-近邻H={h1,...,hj,...,hk},按距离的升序排列,然后以等差的方式,依次修改集合H中每个元素的γ值: γ ( R , h j ) = τ - j × d 2 , ( d 2 = τ / k ) ; 同样,当用户提交的是音频对象时,使用同样的方法更新修距因子γ(i,j),下一轮的检索过程按照新的相似度排列返回的结果。
6.新媒体对象的定位
用户提交的单个多媒体对象,定义为新媒体对象。如果新媒体对象不在训练数据库中,也可以通过子空间基向量,用线性的方法直接定位到训练得到的子空间中,或者通过简单的用户交互,准确定位到子空间中,同时保持在子空间中与周围的多媒体对象在语义上相似。首先使用特征提取程序提取例子图像的视觉特征向量V,分下列两种情况进行新媒体对象到同构子空间的映射:
一方面,如果已知新媒体对象表达的语义信息,则根据训练得到的子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离。
另一方面,如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与查询例子相似的图像,用户标记反馈正例Z={z1,...,zj},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)=Pos(z11+...+Pos(zjj,(β1+...+βj=1)。
实施例1
如附图2所示,给出了一些训练数据集在低维同构子空间中拓扑结构的实例。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
(1)收集7个语义(鸟类、狗、汽车、战争、老虎、松鼠、猴子)的图像数据和音频数据,作为训练数据集:
(2)采用特征提取程序提取图像的HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度特征,为每幅图像构造500维的视觉特征矢量,分别为7个语义类别构造70×500维的视觉特征矩阵:
(3)采用特征提取程序提取音频的质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(Spectral Flux)和均方根(RMS)这四个Mpeg压缩域特征:
(4)音频例子的持续时间不同,提取出的特征向量长度也不同,采用模糊聚类方法,将不同维数的音频特征向量统一规格化成40维的向量,作为每段音频例子的索引,分别为7个语义类别构造70×40维的听觉特征矩阵;
(5)在Matlab7.0环境下,用典型相关分析函数,分别学习7个语义类别的训练数据所对应的视觉和听觉特征矩阵之间的相关性。并用线性方法进行子空间映射,将70×500和70×40的特征矩阵分别变换成70×40和70×40的新特征矩阵;
(6)根据 CCAdis ( x i ′ , x j ′ ) = sqrt Σ k = 1 m ( | x ik ′ | 2 + | x jk ′ | 2 - 2 × | x ik ′ | × | x jk ′ | × Cosθ k ) 计算子空间中40维的图像特征向量和音频特征向量之间的距离,返回与查询例子距离最近的20幅图像和20段音频;
(7)在跨媒体检索过程中,用户可以通过人机界面进行交互,对跨媒体检索结果进行标注,系统自动学习用户提交的反馈正例和反馈负例,将提取的语义信息用来修正同构子空间中多媒体数据集的拓扑结构,即分别用 γ ( R , t j ) = - τ + j × d 1 , ( d 1 = τ / k ) γ ( R , h j ) = τ - j × d 2 , ( d 2 = τ / k ) 修正正例周围和负例周围多媒体对象的拓扑结构。
图2以松鼠、鸟类和汽车为例,显示了在降维映射得到的同构子空间中,使用CCAdis度量出的媒体对象数据集的理论分布,以及经过相关反馈修正后,采用Crodis度量出的相应分布情况。在图2(a)中,与松鼠音频数据集之间CCAdis最小的图像数据集是鸟类的图像,经过相关反馈,“拉近”了松鼠音频与松鼠图像之间的Crodis距离,“推远"了松鼠音频与鸟类图像之间的Crodis距离,而松鼠图像内部的拓扑关系以及松鼠音频内部的拓扑关系基本保持不变,如图2(b)所示。
可以看到,通过本发明所述的方法,可以较好地学习到图像和音频数据间的相关性,解决了不同模态媒体数据之间的异构性问题,有效实现了跨媒体的距离度量:并且通过相关反馈,学习到了用户交互过程中的语义信息,多媒体数据集在子空间中的分布更加符合高层语义之间的关系。
实施例2
如图4所示,给出了一个“战争”语义的检索实例。下面结合本发明的方法详细说明本实例实施的具体步骤,如下:
(1)输入的是一幅“战争”语义的彩色图片作为查询例子,系统找到该幅图片对应的在同构子空间中的向量表示;
(2)采用已有的数据格式转换方法将查询例子对应的子空间向量用极坐标的方式表示出来;
(3)用通用距离函数计算这个查询例子与数据库中其他图像和音频之间的距离,返回前10个最近的图像和前10个最近的音频例子;
(4)另外直接使用查询例子的底层内容特征,而不进行子空间映射,与数据库中其他图像的内容特征进行匹配,即使用基于内容的单模态检索方法,返回前10个最相似的图像,与本发明中描述的方法得到的检索结果做比较。
本实例的运行结果在附图4中显示,其中查询例子是一个反映“战争”语义的彩色爆炸图片,用本发明描述的方法,在同构子空间中匹配并返回的结果如图(a)所示,与之对比的(b)是直接使用底层视觉特征进行匹配返回的相似图像。即使使用彩色图像作为检索例子,也可以在前10个检索结果中,返回与检索例子表达共同语义的黑白图片.
可以看到,本发明的方法可以很好地理解彩色图像和黑白图像的共同语义,实现黑白图像与彩色图像的相互检索,有效解决了内容特征上差异较大的多媒体数据在相似度上的准确度量;而采用基于内容的单模态检索方法,只能返回与查询例子在视觉特征上相似的图片。

Claims (3)

1. 一种基于内容相关性的跨媒体检索方法,其特征在于包括以下步骤:
(1)从多媒体数据库采集不同模态的对象,即图像和音频数据;
(2)提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到视觉和听觉特征之间的典型相关性;
(3)采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达;
(4)采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索;
(5)基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构;
(6)根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中;
所述的提取图像数据的视觉特征,以及音频数据的听觉特征,采用典型相关性分析提取得到视觉和听觉特征之间的典型相关性的方法为:图像的底层视觉特征构成p维的图像特征矢量,音频的底层听觉特征构成q维音频特征矢量,采用典型相关性分析同时学习图像的视觉特征X(n×p)和音频的听觉特征Y(n×q),异构的特征矩阵X(n×p)和Y(n×q)之间相关系数计算如下:
ρ = r ( L , M ) = A T C XY B A T C XX B T C YY B , ( C XY = C XX C XY C YX C YY = C ) - - - 1
X ( n × p ) → A ( p × m ) L ( n × m ) ; - - - 2
其中,ρ为相关系数,A和B为线性变换,A表示维数为p×m的矩阵A(p×m),B表示维数为q×m的矩阵B(q×m),L表示维数为n×m的矩阵L(n×m),M表示维数为n×m的矩阵M(n×m),r(L,M)表示矩阵L和M之间的相关系数,X表示维数为n×p的矩阵X(n×p),Y表示维数为n×q的矩阵Y(n×q),p和q分别表示图像和音频的特征维数,n为样本个数,m为子空间维数,CXY、CYX、CXX、CYY和C表示协方差矩阵,T表示矩阵的转置,按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关,A和B的数值分布确定X与Y的空间相关分布形式,A和B的数值大小确定所对应变量的重要程度;
所述的基于增量学习的相关反馈机制,用于提取用户交互中的先验知识,以修正多媒体数据集在同构子空间中的拓扑结构的方法为:系统可以在相关反馈过程中学习用户提供的感知先验知识,设Ω表示图像训练集,A表示音频训练集,定义“修正因子”γ(i,j)=Pos(ai,bj)(ai∈Ω,bj∈A),用于修正不同模态媒体对象之间的相似度:Crodis(i,j)=CCAdis(i,j)(i,j),修正因子初始化为零;
当用户提交图像查询例子R,使用CCAdis(i,j)计算R在子空间中的k近邻图像集合C1,使用Crodis(i,j)计算R在子空间中的k近邻音频集合C2,跨媒体检索的返回结果即C1和C2
在用户交互过程中,用户通过相关反馈在查询结果中标注正例P和负例N, ∀ p i ∈ P , 令γ(R,pi)=-τ,(τ>0),并根据CCAdis找到pi在音频数据库A中的k-近邻T={t1,...,tj,...,tk},按距离的升序排列,然后以等差的方式,依次修改集合T中每个元素的γ值: γ ( R , t j ) = - τ + j × d 1 , ( d 1 = τ / k ) ; ∀ n i ∈ N , 令γ(R,ni)=τ,(τ>0),并根据CCAdis找到ni在音频数据库A中的k-近邻H={h1,...,hj,...,hk},按距离的升序排列,然后以等差的方式,依次修改集合H中每个元素的γ值:γ(R,hj)=τ-j×d2,(d2=τ/k);
同样,当用户提交的是音频对象时,使用同样的方法更新修正因子γ(i,j),下一轮的检索过程按照新的相似度排列返回的结果;
所述的根据子空间映射过程中求取的基向量,或者通过相关反馈机制,将训练集以外的其他媒体对象准确定位到同构子空间中的方法为:当用户提交的查询例子不属于训练数据集时,使用特征提取程序提取例子图像的视觉特征向量V,分下列两种情况进行新媒体对象到同构子空间的映射:
(1)如果已知新媒体对象表达的语义信息,则根据子空间基向量,用线性变换的方法将向量V映射到m维的同构子空间,与训练集中的其他多媒体对象计算通用距离;
(2)如果新媒体对象表达的语义未知,采用基于内容的单模态检索,返回与查询例子相似的图像,用户标记反馈正例Z={z1,...,zj},跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)=Pos(z11+...+Pos(zjj,(β1+...+βj=1),其中β1,...,βj表示权重参数,Pos(V)表示向量V对应的坐标,Pos(z1)和Pos(zj)分别表示z1和zj的坐标。
2. 根据权利要求1所述的基于内容相关性的跨媒体检索方法,其特征在于,所述的采用同构子空间映射算法,将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中,实现不同模态媒体数据的统一表达的方法为:同构子空间映射算法在典型相关性分析的基础上,学习得到一个最优的低维子空间,最大程度地保留了原始特征向量X(n×p)和Y(n×q)之间相关性,其中n表示样本个数,p表示图像特征,q表示音频特征的维数,算法步骤如下:
输入:图像特征矩阵X(n×p),音频特征矩阵Y(n×q)
输出:所有图像数据和音频数据在低维子空间中的向量表示L(n×m)和M(n×m),其中n表示样本个数,m表示子空间维数;
步骤1:通过半监督学习的方式,用K平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别;
步骤2:在公式3的约束下,使相关系数ρ=r(L,M)最优化,
v(L)=LTL=ATXTXA=1;v(M)=MTM=BTYTYB=1               3
其中,L表示图像特征矩阵X经过线性变换A后得到的低维矩阵,M表示音频特征矩阵Y经过线性变换B后得到的低维矩阵,v(L)和v(M)分别表示对矩阵L和M进行变换得到的值为1的等式,r(L,M)表示矩阵L和M之间的相关系数,T表示矩阵的转置运算,采用拉格朗日乘子法得到形式为Ax=λBx的方程CxyCyy -1CyxA=λ2CxxA,其中x,y分别表示图像特征向量和音频特征向量,Cxy,Cyy,Cyx,Cxx是x和y构成的协方差矩阵,λ是常系数,求取该方程的特征根即得到矩阵A和B的解;
步骤3:线性方法构造同构子空间,即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标L(n×m)和M(n×m)
其中A和B为线性变换,n为样本个数,m为子空间维数,C表示协方差矩阵,T表示矩阵的转置,X、Y为特征矩阵,L、M为组合变量。
3. 根据权利要求1所述的这种基于内容相关性的跨媒体检索方法,其特征在于,所述的采用极坐标的方式定义通用距离函数,度量不同模态媒体数据间的相关性大小,并以此为依据进行跨媒体检索的方法为:图像和音频数据在m维子空间中用极坐标的形式定义特征向量xi′=(xi1′,...,xik′,...,xim′),其中xik′表示a+b·i,(a,b∈R)的复数,图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下:
CCAdis ( x i ′ , x j ′ ) = sqrt Σ k = 1 m ( | x ik ′ | 2 + | x jk ′ | 2 - 2 × | x ik ′ | × | x jk ′ | × Cosθ k ) ;
βik=arctg(b/a),θk=|βikjk|, | x ik ′ | = a 2 + b 2 , k ∈ [ 1 , m ] k∈[1,m]
其中,xi′和xj′表示任意两个多媒体对象,βik和βjk分别表示xi′和xj′在极坐标系下第k维分量的极角,θk表示向量xi′的第k维和向量xj′的第k维之间的夹角,|xik′|表示对向量xi′的第k维求模,|xjk′|表示对向量xj′的第k维求模,sqrt表示根号运算,a和b表示向量xi′的两个坐标分量,m表示子空间维数,检索过程中用户通过人机接口提供查询例子图像,如果该例子在训练数据库中,则根据子空间映射结果找到查询例子在子空间中的m维坐标,用通用距离函数计算与其他音频和图像数据间的距离,与查询图像例子最近的k个图像和k个音频作为查询结果返回给用户;同样,如果查询例子是一段音频,则按照上述步骤检索出相似的音频和图像对象。
CNB2006100533904A 2006-09-14 2006-09-14 基于内容相关性的跨媒体检索方法 Expired - Fee Related CN100422999C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100533904A CN100422999C (zh) 2006-09-14 2006-09-14 基于内容相关性的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100533904A CN100422999C (zh) 2006-09-14 2006-09-14 基于内容相关性的跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN101021849A CN101021849A (zh) 2007-08-22
CN100422999C true CN100422999C (zh) 2008-10-01

Family

ID=38709618

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100533904A Expired - Fee Related CN100422999C (zh) 2006-09-14 2006-09-14 基于内容相关性的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN100422999C (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
US8417703B2 (en) * 2009-11-03 2013-04-09 Qualcomm Incorporated Data searching using spatial auditory cues
US8689142B2 (en) * 2009-12-04 2014-04-01 Nokia Corporation Method and apparatus for providing media content searching capabilities
CN101833565B (zh) * 2010-03-31 2011-10-19 南京大学 一种主动选择代表性图像的相关反馈方法
CN101984424A (zh) * 2010-10-26 2011-03-09 浙江工商大学 海量跨媒体索引方法
CN102262670A (zh) * 2011-07-29 2011-11-30 中山大学 一种基于移动可视设备的跨媒体信息检索系统及方法
US9497249B2 (en) * 2011-08-08 2016-11-15 Sony Corporation Information processing apparatus, information processing method, program, and information processing system
CN102521368B (zh) * 2011-12-16 2013-08-21 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
WO2013159356A1 (zh) * 2012-04-28 2013-10-31 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN102663447B (zh) * 2012-04-28 2014-04-23 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN102693316B (zh) * 2012-05-29 2014-03-26 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
WO2013177751A1 (zh) * 2012-05-29 2013-12-05 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN103793447B (zh) * 2012-10-26 2019-05-14 汤晓鸥 音乐与图像间语义相似度的估计方法和估计系统
CN103049526B (zh) * 2012-12-20 2015-08-05 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN103995804B (zh) * 2013-05-20 2017-02-01 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN103279579B (zh) * 2013-06-24 2016-07-06 魏骁勇 基于视觉空间的视频检索方法
EP3117429A2 (en) * 2014-03-10 2017-01-18 Veritone, Inc. Engine, system and method of providing audio transcriptions for use in content resources
CN103995903B (zh) * 2014-06-12 2017-04-12 武汉科技大学 基于同构子空间映射和优化的跨媒体检索方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN104077408B (zh) * 2014-07-11 2017-09-29 浙江大学 大规模跨媒体数据分布式半监督内容识别分类方法及装置
US10120933B2 (en) 2014-12-10 2018-11-06 Kyndi, Inc. Weighted subsymbolic data encoding
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
CN104679902B (zh) * 2015-03-20 2017-11-28 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
US10270839B2 (en) * 2016-03-29 2019-04-23 Snap Inc. Content collection navigation and autoforwarding
CN105938561A (zh) * 2016-04-13 2016-09-14 南京大学 一种基于典型相关性分析的计算机数据属性约简方法
CN105930873B (zh) * 2016-04-27 2019-02-12 天津中科智能识别产业技术研究院有限公司 一种基于子空间的自步跨模态匹配方法
WO2017193263A1 (zh) * 2016-05-09 2017-11-16 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
US10459970B2 (en) * 2016-06-07 2019-10-29 Baidu Usa Llc Method and system for evaluating and ranking images with content based on similarity scores in response to a search query
CN106127305B (zh) * 2016-06-17 2019-07-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法
CN110019898A (zh) * 2017-08-08 2019-07-16 航天信息股份有限公司 一种动漫图像处理系统
CN107766571B (zh) * 2017-11-08 2021-02-09 北京大学 一种多媒体资源的检索方法和装置
CN108228757A (zh) * 2017-12-21 2018-06-29 北京市商汤科技开发有限公司 图像搜索方法和装置、电子设备、存储介质、程序
CN110879863B (zh) * 2018-08-31 2023-04-18 阿里巴巴集团控股有限公司 跨领域搜索方法和跨领域搜索装置
CN109408648B (zh) * 2018-10-26 2021-01-22 京东方科技集团股份有限公司 关联确定方法、作品推荐方法
CN109784405B (zh) * 2019-01-16 2020-09-08 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109784287A (zh) * 2019-01-22 2019-05-21 中国科学院自动化研究所 基于情景信号类前额叶网络的信息处理方法、系统、装置
CN109992676B (zh) * 2019-04-01 2020-12-25 中国传媒大学 一种跨媒体资源检索方法及检索系统
CN111291204B (zh) * 2019-12-10 2023-08-29 河北金融学院 一种多媒体数据融合方法及设备
CN111046166B (zh) * 2019-12-10 2022-10-11 中山大学 一种基于相似度修正的半隐式多模态推荐方法
CN111931866B (zh) * 2020-09-21 2021-01-01 平安科技(深圳)有限公司 医疗数据处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1378156A (zh) * 2000-03-29 2002-11-06 株式会社东芝 多媒体数据检索法、索引信息提供方法及相关装置和服务器
CN1512402A (zh) * 2002-12-31 2004-07-14 程松林 一种语音检索方法及采用该方法的音像信息检索系统
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法
CN1581172A (zh) * 2003-08-08 2005-02-16 富士通株式会社 多媒体对象检索设备和方法
US20060167876A1 (en) * 1999-02-01 2006-07-27 At&T Corp. Multimedia Integration Description Scheme, Method and System For MPEG-7

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060167876A1 (en) * 1999-02-01 2006-07-27 At&T Corp. Multimedia Integration Description Scheme, Method and System For MPEG-7
CN1378156A (zh) * 2000-03-29 2002-11-06 株式会社东芝 多媒体数据检索法、索引信息提供方法及相关装置和服务器
CN1512402A (zh) * 2002-12-31 2004-07-14 程松林 一种语音检索方法及采用该方法的音像信息检索系统
CN1581172A (zh) * 2003-08-08 2005-02-16 富士通株式会社 多媒体对象检索设备和方法
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
一种新型的多媒体检索技术--基于内容的检索. 徐建华.情报学报,第19卷第4期. 2000
一种新型的多媒体检索技术--基于内容的检索. 徐建华.情报学报,第19卷第4期. 2000 *
基于内容的多媒体和跨媒体信息检索技术. 薛向阳.世界科学. 2005
基于内容的多媒体和跨媒体信息检索技术. 薛向阳.世界科学. 2005 *
基于内容的多媒体检索和索引的研究. 罗菁,王雅.中原工学院学报,第15卷第1期. 2004
基于内容的多媒体检索和索引的研究. 罗菁,王雅.中原工学院学报,第15卷第1期. 2004 *

Also Published As

Publication number Publication date
CN101021849A (zh) 2007-08-22

Similar Documents

Publication Publication Date Title
CN100422999C (zh) 基于内容相关性的跨媒体检索方法
CN102521368B (zh) 基于相似度矩阵迭代的跨媒体语义理解和优化方法
Torralba et al. 80 million tiny images: A large data set for nonparametric object and scene recognition
Krishnapuram et al. Content-based image retrieval based on a fuzzy approach
Afifi et al. Image retrieval based on content using color feature
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN109033172A (zh) 一种深度学习与近似目标定位的图像检索方法
CN104156433B (zh) 一种基于语义映射空间构建的图像检索方法
CN103995903B (zh) 基于同构子空间映射和优化的跨媒体检索方法
CN103336835B (zh) 基于权值color‑sift特征字典的图像检索方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
Qian et al. HWVP: hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval
CN105389326A (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN112905822A (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
JP2007080061A5 (zh)
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
Mamatha et al. Content based image retrieval of satellite imageries using soft query based color composite techniques
Singh et al. Semantically guided geo-location and modeling in urban environments
Sasikala et al. Efficient content based image retrieval system with metadata processing
Yen et al. Ranked centroid projection: A data visualization approach with self-organizing maps
Jin et al. Image classification based on pLSA fusing spatial relationships between topics
CN106951501B (zh) 一种基于多图匹配的三维模型检索方法
Belattar et al. CBIR using relevance feedback: comparative analysis and major challenges
Koskela Content-based image retrieval with self-organizing maps

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081001

Termination date: 20120914