CN101984424A - 海量跨媒体索引方法 - Google Patents

海量跨媒体索引方法 Download PDF

Info

Publication number
CN101984424A
CN101984424A CN 201010520233 CN201010520233A CN101984424A CN 101984424 A CN101984424 A CN 101984424A CN 201010520233 CN201010520233 CN 201010520233 CN 201010520233 A CN201010520233 A CN 201010520233A CN 101984424 A CN101984424 A CN 101984424A
Authority
CN
China
Prior art keywords
media
index
key
cid
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010520233
Other languages
English (en)
Inventor
庄毅
袁成祥
厉小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN 201010520233 priority Critical patent/CN101984424A/zh
Publication of CN101984424A publication Critical patent/CN101984424A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量跨媒体索引方法。它的步骤如下:1)通过对网页的链接分析,建立交叉关联图;2)在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex;3)进行基于CIndex的跨媒体检索,返回查询结果。本发明实现跨媒体的索引和检索。它能在保证较高查询精度的前提下,获得较好的查询性能。在实施本方法的过程中,首先对网页进行链接分析,生成一个交叉关联图,并对该图建立跨媒体索引CIndex。当用户提交一个查询媒体对象后,系统根据要求检索出与该例子相似的不同模态的媒体对象,然后用户可以根据相关反馈选择与该查询对象相关的候选对象,使系统根据用户的反馈信息动态调整交叉关联图,排除不相关的媒体对象,保持较高的查询精度。

Description

海量跨媒体索引方法
技术领域
本发明涉及数据库与多媒体领域,尤其涉及一种海量跨媒体索引方法。
背景技术
随着Internet和多媒体技术的不断发展,特别是近几年来,Internet上多媒体信息的爆炸性增长,基于内容的海量多媒体检索和索引[1]已成为一个热门的研究领域.在这些海量的多媒体信息当中,不同模态媒体对象之间往往存在某种语义相关性,如图1所示,“老虎”的图片对应“老虎”的音频和视频等.传统的多媒体检索都是针对单一模态媒体对象,如基于内容的图像[4]、音频[5]和视频[6]检索等.较少有文献系统地研究基于多模态多媒体信息的交叉检索,即通过一种模态的媒体对象检索出另外一种或几种基于相同语义的不同模态的媒体对象.早在1976年,麦格克就已经揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息,以形成整体性的理解[2]。同时认知神经心理学方面的研究也进一步验证了人脑的认知过程呈现出跨媒体的特性[3],即对来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生认知结果。我们将这类检索称之为跨媒体检索[7][8],它作为一种新兴的多媒体检索方式正越来越受到国内外学术界的关注.跨媒体也可以看作一种由各种基于相同语义媒体对象构成的复杂媒体类型,显然对它提取的特征是高维的。而高维相似性检索是一种CPU密集性的运算。如何利用索引技术来加快海量跨媒体检索是一个很重要的课题。
自从90年代早期以来,基于内容的多媒体检索已经成为一个非常活跃的研究领域。其中最有代表性是基于内容的图像检索(CBIR),如QBIC[4],Virage[9],Photobook[10]和MARS[11]等.基于内容的视频分析与检索系统包括CMU的Informedia[6]。然而这些检索系统都只是针对单一模态的媒体对象检索。随着互联网及多媒体技术的飞速发展,互联网中的许多不同模态的媒体对象呈现相同的语义特性,因此需要设计一种支持多模态检索的方法,实现从一种模态的媒体对象检索出另一种模态的媒体对象的功能。文献[13]针对图片的视觉和语义特征,提出了一种混合的索引方式,将两种模态的特征信息采用同一个索引进行表示,但其适用性非常有限,不支持多种模态媒体对象的索引表达。
高维索引技术经历了20多年的研究[7],采用的技术主要分为三类:第一类是基于数据和空间分片的树形索引,如R-tree[8]及其变种[9,10]等。但是这些树形索引方法只适合维数较低的情况,随着维数的增加,其索引的性能往往劣于顺序检索,并且维数一旦增加,其查询覆盖区域增长很快,导致查询速度的急剧下降,产生“维数灾难″;第二类是采用近似的方法来表示原始向量,如VA-file[11]和IQ-tree[12]等。该类方法的基本思想是通过对高维点数据进行压缩和近似存储来加速顺序查找速度。然而数据压缩和量化带来的信息丢失使得其首次过滤后的查询精度并不令人满意。同时尽管减少了磁盘的IO次数,但由于需要对位串解码同时计算对查询点距离的上界和下界,导致很高的CPU运算代价;最后一类是通过将高维数据转化为一维数据来进行高维查询,包括NB-Tree[13]和iDistance[14]等。NB-Tree通过计算高维空间的每个点与原点O(0,0...0)的尺度距离,将高维数据点映射到一维空间,然后将这些距离值用B+树建立索引,从而将高维查询转变为一维空间的范围查询。尽管它能够快速得到结果,但是由于它不能有效的缩减查询空间,特别是当维数很高时,范围查询效率急剧恶化。NB-Tree是一种基于单参考点的方法,iDistance是基于多参考点的方法,通过引入多参考点并结合聚类的方法有效地缩减了高维数据空间的搜索范围,提高了查询精度,然而其查询效率很大程度上取决于参考点的选取并且依赖数据聚类和分片。同时由于iDistance在对高维数据映射到一维距离时不可避免存在信息丢失,导致查询精度不是非常理想。最坏的情况下,查询空间几乎会覆盖整个高维空间。
1 Zhuang Yue-Ting,Pan Yun-He,Wu Fei,Web-based Multimedia Analysis and Retrieval.Tsinghua Press.2002.8.
2 H.McGurk,J.MacDonald.Hearing Lips and Seeing Voices.Nature,1976.264:746-748
3 A.Calvert.Cross-Modal Processing in the Human Brain:Insights from Functional Neuron Imaging Studies,Cerebral Cortex,11(12):1120-1123,2001.
4 M Flicker,Harpreet Sawhney,Wayne Niblack,Jonathan Ashley.Query by image and video content:TheQBIC System,IEEE Computer,1995
5 Zhao Xueyan,Zhuang Yueting,Liu Junwei,et al.Audio retrieval with fast relevance feedback based on the constrained fuzzy clustering and stored index table.In Proc.of PCM′02.2002.237-244.
6 Video Retrieval with the Informedia Digital Video Library System Hauptmann,A.,Thornton,S.,Qi,Y.,Papernick,N.,Ng,T.D.,Jin,R.,Houghton,R.,Proceedings of the Tenth Text Retrieval Conference (TREC′01),Gaithersburg,Maryland,November 13-16,2001
7 Fei Wu,Hong Zhang,Yueting Zhuang,Learning Semantic Correlations for Cross Media Retrieval,In Proc.ICIP 2006
8 Fei Wu,Yi Yang,Yueting Zhuang,and Yunhe Pan,Understanding Multimedia Document Semantics forCross-Media Retrieval,In Proc.PCM 2005,993-10042
9 Virage Inc.,www.virage.com,2005
10 A Pentland,R.W.Picard and S.Sclarof.Photoboo k:Content-based manipulation of image databases.Int.J.Computer Vision,1996,18(3),233-254
11 Sharad Mehrotra,Yong Rui,Kaushik Chakrabarti,Michael Ortega,and Thomas S.Huang,″Multimedia Analysis and Retrieval System″,in Proc.of the 3rd Int.Workshop on Multimedia Information Systems,Como,Italy,September 25-27,1997.
12 J.Yang,Q.Li and Y.Zhuang,″OCTOPUS:Aggressive Search of Multi-Modality Data Using Multifaceted Knowledge Base″,Proc.11th Int′l Conf.on World Wide Web,Hawaii,USA,May 2002
13 Heng Tao Shen,Xiaofang Zhou and Bin Cui.″Indexing and Integrating Multiple Features for WWW images″.World Wide Web(WWW),9(3):343-364,2006.
14 Christian
Figure BSA00000319133800031
Stefan Berchtold,Daniel Keim:Searching in High-dimensional Spaces:Index Structuresfor Improving the Performance of Multimedia Databases,ACM Computing Surveys 33(3),2001.
15 A.Guttman,R-tree:A dynamic index structure for spatial searching,In Proc.of the ACM SIGMOD Int.Conf.on Managementof Data,1984,pp.47-54.
16 R.Weber,H.Schek,and S.Blott.A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces.In Proc.24th Int.Conf.on Very Large Data Bases,1998,pp.194-205.
17 H.V.Jagadish,B.C.Ooi,K.L.Tan,C.Yu,R.Zhang:iDistance:An Adaptive B+-tree Based Indexing Method for Nearest Neighbor Search.ACM Transactions on Data Base Systems,30,2,364-397,June2005.
18 T.Zhang,R.Ramakrishnan and M.Livny.BIRCH:An efficient data clustering method for very large databases.In Proc.ACMSIGMOD’96,103-114,1996.
19 Wu Yi,Zhuang Y-T,Pan Y-H.Relevance Feedback for Video Retrieval.Journal of Computer Research and Development.2001,38(5):546-551.
20D.Cai,X.F.He,J-R.Wen,and W.-Y.Ma.Block Level Link Analysis,In SIGIR,Sheffield,United Kingdom,July 2004.
发明内容
本发明目的是为了提高海量跨媒体查询的性能,提供一种海量跨媒体索引方法。
海量跨媒体索引方法的步骤如下:
1)通过对网页的链接分析,建立交叉关联图;
2)在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex;
3)进行基于CIndex的跨媒体检索,返回查询结果。
所述的通过对网页的链接分析,建立交叉关联图的步骤为:
输入:eij:初始的媒体对象Xi和Xj的权重
输出:CRG:交叉关联图;
1.
Figure BSA00000319133800041
eij=0;        /*initialization*/
2.for any two media objects Xi,Xj∈Ωdo
3.     ifXi和Xj属于同一个网页then
4.        eij←eij+1;
5.     else if Xi和Xj属于被同一个网页所指向或指向同一个网页then
6.        eij←eij+1;
7.     else if Xj被Xi所属的网页所指向then
8.       eij←eij+1;
9.     end if
10.end for
11.return CRG。
所述的在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex的步骤为:实现从图片到音频的跨媒体检索,对应图片Ii的索引键值表示为:
key(Ii)=β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX (1)
其中d(Ii,Oj)表示Ii与质心Oj的相似距离,c(Ii,Ak)表示Ii与Ak的相关度,<·,θ>表示将●取到小数点后第θ位,β为线性放大常数使得<d(Ii,Oj),θ>为整数,常数MAX使c(Ii,Ak)归一化,这样相似距离d(Ii,Oj)与相关度c(Ii,Ak)所对应值域不重叠;
图像数据预先通过聚类得到T个类,不同类中的图片对象用一个索引键值来表示,将式(1)的键值改为式(2)形式:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX    (2)
其中CID表示Ii对应的类的编号,α为线性扩展常数.
式(2)的索引键值实现图片到音频跨媒体检索的键值统一表达,式(3)实现从图像到视频的跨媒体索引键值表达:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Vw)/MAX    (3)
将式(2)和式(3)对应的索引键值表达成一个统一的索引键值,分别加上两个扩展系数S_A和S_V,图像对象Ii的统一跨媒体索引表示为:
key ( I i ) = S _ A + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , A k ) / MAX S _ V + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , V w ) / MAX - - - ( 4 )
同理,对音频和视频来说,其对应统一跨媒体索引键值可以分别表示为:
key ( A i ) = S _ I + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , I k ) / MAX S _ V + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , V w ) / MAX - - - ( 5 )
key ( V i ) = S _ I + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , I k ) / MAX S _ A + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , A w ) / MAX - - - ( 6 )
式(4)、(5)和(6)分别为图片、音频和视频的跨媒体索引键值表达,彼此相互独立,分别对应3个独立的索引;用一个统一的索引来存储和表示,得到式(7)所示的跨媒体检索的统一索引键值表达:
key ( X i ) = SCALE _ I + key ( I i ) , if X i = I i SCALE _ A + key ( A i ) , if X i = A i SCALE _ V + key ( V i ) , if X i = V i - - - ( 7 )
其中Xi表示某一种模态的媒体对象,如Xi可以是一张图片,也可以是一段音频例子或一段视频例子;SCALE_I、SCALE_A和SCALE_V分别为扩展系数,用于线形扩大不同媒体对象的索引键值范围,使其值域互不重叠。
根据式(7),建立索引Cindex步骤为:
输入:Ω:媒体对象库,CRG:交叉关联图
输出:bt:CIndex
1.initialize;                      /*初始化*/
2.for each media object Xi∈Ωdo    /*Xi可以表示图片也可以是音频或视频对象*/
3.    locate the Xi in CRG;        /*定位媒体对象Xi在交叉关联图中的位置*/
4.    get the media objects semantically related to Xi
/*通过G,得到与Xi相关的媒体对象*/
5.       bt←InsertBtree(key(Xi));/*按照公式(7)得到索引键值并将其插入B+树*/
6.end for
7.return bt。
所述的进行基于CIndex的跨媒体检索,返回查询结果的步骤为:
输入:查询例子Xq,查询半径r       /* Xq可以是图片、音频或视频*/
输出:查询结果S
1.S←Φ;                 /*初始化*/
2.for i:=1 to num do    /*num表示需要访问num次CIndex索引 */
3.for j:=1 to T do       /*T表示总的聚类个数*/
4.    if Θ(Oj,CRj)dose not intersectsΘ(Xq,r)then
5.          next loop;
6.    else
7.          S1←Search(Xq,r,j);
8.          S←S∪S1;
9.          ifΘ(Oj,CRj)contains Θ(Xq,r)then end loop;
10.   end if
11.  end for
12.end for
13.if user is not satisfied with Sthen
14.   return S;/*返回候选对象*/
15.else
16.   Get user’s feedback and update S and CRG;
Search(Xq,r,j)
17.  left←SCALE_X+S_X+α×CID+β×(d(Xq,Oj)-r)/MCD;
18.  right←SCALE_X+S_X+α×CID+β×CRj/MCD;
19.  S←BRSearch[left,right,j];/*S中包括与Xq语义相关的不同模态的媒体对象 */
20.  for each media object Xi∈S
21.      if d(Xq,Xi)>rthen S←S-Xi
/*将Xi从候选对象集S中删除去的同时,与其相关的其它模态的媒体对象也随之删除*/
22.end for
23.return S;      /*返回候选对象*/。
本发明实现了不同媒体对象之间的交叉检索。能够在保证较高查询精度的前提下,显著提高海量跨媒体查询效率。
附图说明
图1是海量跨媒体查询的流程框图;
图2是本发明的交叉关联图;
图3是本发明的CIndex索引结构;
图4是本发明的媒体对象聚类;
图5是本发明的高维图片特征空间包含的内嵌子空间;
图6是本发明的基于邻接表的交叉关联图表示;
图7是本发明的实施例1的检索示意图;
图8是本发明的实施例2的检索示意图。
具体实施方式
海量跨媒体索引方法的步骤如下:
1)通过对网页的链接分析,建立交叉关联图;
2)在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex;
3)进行基于CIndex的跨媒体检索,返回查询结果。
所述的通过对网页的链接分析,建立交叉关联图的步骤为:
输入:eij:初始的媒体对象Xi和Xj的权重
输出:CRG:交叉关联图;
1.
Figure BSA00000319133800071
eij=0;/*initialization */
2.for any two media objects Xi,Xj∈Ωdo
3.    if Xi和Xj属于同一个网页then
4.       eij←eij+1;
5.    else if Xi和Xj属于被同一个网页所指向或指向同一个网页then
6.      eij←eij+1;
7.    else if Xj被Xi所属的网页所指向then
8.      eij←eij+1;
9.    end if
10.end for
11.return CRG。
如图2所示,交叉关联图模型描述了媒体对象之间潜在的语义联系。在图2中,当两种媒体对象为同模态时,它们之间的关联称为相似度(Similarity),实线表示;当两种媒体对象为不同模态时,它们之间的关联称为相关度(Correlation),用虚线表示。
所述的在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex的步骤为:为了支持跨媒体检索,之前已经通过链接分析的方法得到不同模态媒体间的交叉关联图。如图6所示,以图片为例,其对应的交叉关联图可以表示成邻接表结构。例如,ID为21的图片,与其语义相关的对应音频对象为3、9、18和26,对应的视频对象为7和39。需要说明的是,每个ID下面的数字表示对应的两种模态媒体对象之间的相关度。
假设图5表示图片所对应的高维特征空间。对于ID为21的图片对象来说,图5(a)中红色虚线圆包含了与该图片语义相关的音频对象,图5(b)中蓝色虚线圆包含了与该图片相关的视频对象。因此,图像高维特征空间中的每个数据点(即图片对象)都存在2个内嵌子空间。同时,又由于该内嵌子空间中的媒体对象都是语义相关的,可以称为“内嵌相关子空间(Embedded Correlation Subspace,ECS)”。
实现从图片到音频的跨媒体检索,对应图片Ii的索引键值表示为:
key(Ii)=β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX   (1)
其中d(Ii,Oj)表示Ii与质心Oj的相似距离,c(Ii,Ak)表示Ii与Ak的相关度,<·,θ>表示将●取到小数点后第θ位,β为线性放大常数使得<d(Ii,Oj),θ>为整数,常数MAX使c(Ii,Ak)归一化,这样相似距离d(Ii,Oj)与相关度c(Ii,Ak)所对应值域不重叠;
图像数据预先通过聚类得到T个类,不同类中的图片对象用一个索引键值来表示,将式(1)的键值改为式(2)形式:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX    (2)
其中CID表示Ii对应的类的编号,α为线性扩展常数.
式(2)的索引键值实现图片到音频跨媒体检索的键值统一表达,式(3)实现从图像到视频的跨媒体索引键值表达:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Vw)/MAX    (3)
将式(2)和式(3)对应的索引键值表达成一个统一的索引键值,分别加上两个扩展系数S_A和S_V,图像对象Ii的统一跨媒体索引表示为:
key ( I i ) = S _ A + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , A k ) / MAX S _ V + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , V w ) / MAX - - - ( 4 )
同理,对音频和视频来说,其对应统一跨媒体索引键值可以分别表示为:
key ( A i ) = S _ I + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , I k ) / MAX S _ V + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , V w ) / MAX - - - ( 5 )
key ( V i ) = S _ I + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , I k ) / MAX S _ A + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , A w ) / MAX - - - ( 6 )
式(4)、(5)和(6)分别为图片、音频和视频的跨媒体索引键值表达,彼此相互独立,分别对应3个独立的索引;用一个统一的索引来存储和表示,得到式(7)所示的跨媒体检索的统一索引键值表达:
key ( X i ) = SCALE _ I + key ( I i ) , if X i = I i SCALE _ A + key ( A i ) , if X i = A i SCALE _ V + key ( V i ) , if X i = V i - - - ( 7 )
其中Xi表示某一种模态的媒体对象,如Xi可以是一张图片,也可以是一段音频例子或一段视频例子;SCALE_I、SCALE_A和SCALE_V分别为扩展系数,用于线形扩大不同媒体对象的索引键值范围,使其值域互不重叠。
根据式(7),建立索引Cindex步骤为:
输入:Ω:媒体对象库,CRG:交叉关联图
输出:bt:CIndex
1.initialize;                      /*初始化*/
2.for each media object Xi∈Ωdo    /*Xi可以表示图片也可以是音频或视频对象 */
3.locate the Xi in CRG;            /*定位媒体对象Xi在交叉关联图中的位置*/
4.get the media objects semantically related to Xi
/*通过G,得到与Xi相关的媒体对象*/
5.bt←InsertBtree(key(Xi));        /*按照公式(7)得到索引键值并将其插入B+树*/
6.end for
7.return bt。
由于图3中的CIndex索引包含了3种模态的媒体类型,因此该索引可以看作由3部分构成,每一部分分别是由与图像、音频或视频对象语义相关的其它2种不同模态的媒体对象的组合得到。需要注意的是,它的每个叶节点存储两种媒体对象的ID。算法2表示跨媒体索引创建。以图片为例,假设预先已经得到交叉关联图(CRG)并且对高维图像数据进行了聚类,对于每个类中的图片,通过交叉关联图寻找与其相关的其它模态的媒体对象(第3-4行)。然后,根据式(15)得到对应媒体对象的索引键值并将其插入B+树(第5行)。
所述的进行基于CIndex的跨媒体检索,CIndex索引能够支持各种媒体对象的跨媒体检索。也就是说,用户的输入可以是图片、音频或视频。以图片为例,当用户提交一张图片例子时,通过交叉关联图(CRG)寻找与其相关的其它模态的媒体对象。然后通过过滤得到的对象,再通过求精来得到。查询处理的步骤为:
输入:查询例子Xq,查询半径r    /* Xq可以是图片、音频或视频  */
输出:查询结果S
1.S←Φ;                 /*初始化*/
2.for i:=1 to num do    /*num表示需要访问num  CIndex索引*/
3.     for j:=1 to T do       /*T表示总的聚类个数*/
4.         if Θ(Oj,CRj)dose not intersects Θ(Xq,r)then
5.               next loop;
6.     else
7.              S1←Search(Xq,r,j);
8.              S←S∪S1;
9.              if Θ(Oj,CRj)contains Θ(Xq,r)then end loop;
10.         end if
11.    end for
12.end for
13.if user is not satisfied with S then
14.   return S;                            /*返回候选对象 */
15.else
16.  Get user’s feedback and update S and CRG;
Search(Xq,r,j)
17.left←SCALE_X+S_X+α×CID+β×(d(Xq,Oj)-r)/MCD;
18.right←SCALE_X+S_X+α×CID+β×CRj/MCD;
19.S←BRSearch[left,right,j];/*S中包括与Xq语义相关的不同模态的媒体对象*/
20.for each media object Xi∈S
21.    if d(Xq,Xi)>r then S←S-Xi
       /*将Xi从候选对象集S中删除去的同时,与其相关的其它模态的媒体对象也随之删除*/
22.end for
23.return S;                                     /*返回候选对象 */。
需要说明的是,查询对象Xq中的X既可以是图片I、音频A也可以是视频V。另外,函数Search()返回的媒体对象已经包括了与提交媒体对象不同模态的媒体对象,从而实现了跨媒体检索.在该函数中,根据例子对象Xq的不同,SCALE_X可以是SCALE_I、SCALE_A或SCALE_V。
实施例1:
如附图7所示,当用户提交一个“猫”的图片,通过基于CIndex索引的交叉关联图(CRG)寻找与其相关的其它模态(音频和视频等)的媒体对象,过滤不相关媒体对象,再对得到的候选媒体对象通过求精来得到与“猫”相关的结果媒体对象。
实施例2:
类似地,如附图8所示,当用户提交一个“老虎”的视频,通过基于CIndex索引的交叉关联图(CRG)寻找与其相关的其它模态(音频和视频等)的媒体对象,过滤不相关媒体对象,再对得到的候选媒体对象通过求精来得到与“老虎”相关的不同媒体对象。

Claims (4)

1.一种海量跨媒体索引方法,其特征在于它的步骤如下:
1)通过对网页的链接分析,建立交叉关联图;
2)在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex;
3)进行基于CIndex的跨媒体检索,返回查询结果。
2.根据权利要求1所述的一种海量跨媒体索引方法,其特征在于:所述的通过对网页的链接分析,建立交叉关联图的步骤为:
输入:eij:初始的媒体对象Xi和Xj的权重
输出:CRG:交叉关联图;
1.
Figure FSA00000319133700011
eij=0;/                *initialization */
2.for any two media objects Xi,Xj∈Ωdo
3.    if Xi和Xj属于同一个网页then
4.       eij←eij+1;
5.    else if Xi和Xj属于被同一个网页所指向或指向同一个网页then
6.       eij←eij+1;
7.    else if Xj被Xi所属的网页所指向then
8.       eij←eij+1;
9.    end if
10.end for
11.return CRG。
3.根据权利要求1所述的一种海量跨媒体索引方法,其特征在于:所述的在交叉关联图基础上,对跨媒体索引键值进行统一表达,并建立索引CIndex的步骤为:实现从图片到音频的跨媒体检索,对应图片Ii的索引键值表示为:
key(Ii)=β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX     (1)
其中d(Ii,Oj)表示Ii与质心Oj的相似距离,c(Ii,Ak)表示Ii与Ak的相关度,<·,θ>表示将●取到小数点后第θ位,β为线性放大常数使得<d(Ii,Oj),θ>为整数,常数MAX使c(Ii,Ak)归一化,这样相似距离d(Ii,Oj)与相关度c(Ii,Ak)所对应值域不重叠;
图像数据预先通过聚类得到T个类,不同类中的图片对象用一个索引键值来表示,将式(1)的键值改为式(2)形式:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Ak)/MAX    (2)
其中CID表示Ii对应的类的编号,α为线性扩展常数.
式(2)的索引键值实现图片到音频跨媒体检索的键值统一表达,式(3)实现从图像到视频的跨媒体索引键值表达:
key(Ii)=α*CID+β*<d(Ii,Oj),θ>+c(Ii,Vw)/MAX    (3)
将式(2)和式(3)对应的索引键值表达成一个统一的索引键值,分别加上两个扩展系数S_A和S_V,图像对象Ii的统一跨媒体索引表示为:
key ( I i ) = S _ A + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , A k ) / MAX S _ V + &alpha; * CID + &beta; * < d ( I i , O j ) , &theta; > + c ( I i , V w ) / MAX - - - ( 4 )
同理,对音频和视频来说,其对应统一跨媒体索引键值可以分别表示为:
key ( A i ) = S _ I + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , I k ) / MAX S _ V + &alpha; * CID + &beta; * d ( A i , O j ) + c ( A i , V w ) / MAX - - - ( 5 )
key ( V i ) = S _ I + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , I k ) / MAX S _ A + &alpha; * CID + &beta; * < d ( V i , O j ) , &theta; > + c ( V i , A w ) / MAX - - - ( 6 )
式(4)、(5)和(6)分别为图片、音频和视频的跨媒体索引键值表达,彼此相互独立,分别对应3个独立的索引;用一个统一的索引来存储和表示,得到式(7)所示的跨媒体检索的统一索引键值表达:
key ( X i ) = SCALE _ I + key ( I i ) , if X i = I i SCALE _ A + key ( A i ) , if X i = A i SCALE _ V + key ( V i ) , if X i = V i - - - ( 7 )
其中Xi表示某一种模态的媒体对象,如Xi可以是一张图片,也可以是一段音频例子或一段视频例子;SCALE_I、SCALE_A和SCALE_V分别为扩展系数,用于线形扩大不同媒体对象的索引键值范围,使其值域互不重叠。
根据式(7),建立索引Cindex步骤为:
输入:Ω:媒体对象库,CRG:交叉关联图
输出:bt:CIndex
1.initialize;                          /*初始化*/
2.for each media object Xi∈Ωdo    /* Xi可以表示图片也可以是音频或视频对象*/
3.    locate the Xi in CRG;            /*定位媒体对象Xi在交叉关联图中的位置 */
4.    get the media objects semantically related to Xi
/*通过G,得到与Xi相关的媒体对象*/
5.bt←InsertBtree(key(Xi));             /*按照公式(7)得到索引键值并将其插入B+树*/
6.end for
7.return bt。
4.根据权利要求1所述的一种海量跨媒体索引方法,其特征在于:所述的进行基于CIndex的跨媒体检索,返回查询结果的步骤为:
输入:查询例子Xq,查询半径r    /* Xq可以是图片、音频或视频 */
输出:查询结果S
1.S←Φ;/*初始化*/
2.for i:=1 to num do       /*num表示需要访问num次CIndex索引*/
3.    for j:=1 to T do        /*T表示总的聚类个数*/
4.        ifΘ(Oj,CRj)dose not intersectsΘ(Xq,r)then
5.             next loop;
6.        else
7.             S1←Search(Xq,r,j);
8.             S←S∪S1;
9.             ifΘ(Oj,CRj)containsΘ(Xq,r)then end loop;
10.      end if
11.   end for
12.end for
13.if user is not satisfied with S then
14.   return S;                       /*返回候选对象*/
15.else
16.    Get user’s feedback and update S and CRG;
Search(Xq,r,j)
17.left←SCALE_X+S_X+α×CID+β×(d(Xq,Oj)-r)/MCD;
18.right←SCALE_X+S_X+α×CID+β×CRj/MCD;
19.S←BRSearch[left,right,j];    /*S中包括与Xq语义相关的不同模态的媒体对象*/
20.for each media object Xi∈S
21.if d(Xq,Xi)>r then S←S-Xi
/*将Xi从候选对象集S中删除去的同时,与其相关的其它模态的媒体对象也随之删除*/
22.end for
23.return S;             /*返回候选对象  */。
CN 201010520233 2010-10-26 2010-10-26 海量跨媒体索引方法 Pending CN101984424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010520233 CN101984424A (zh) 2010-10-26 2010-10-26 海量跨媒体索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010520233 CN101984424A (zh) 2010-10-26 2010-10-26 海量跨媒体索引方法

Publications (1)

Publication Number Publication Date
CN101984424A true CN101984424A (zh) 2011-03-09

Family

ID=43641593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010520233 Pending CN101984424A (zh) 2010-10-26 2010-10-26 海量跨媒体索引方法

Country Status (1)

Country Link
CN (1) CN101984424A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455517A (zh) * 2012-06-01 2013-12-18 亿赞普(北京)科技有限公司 广告检测方法及系统和广告终端
CN108197239A (zh) * 2017-12-29 2018-06-22 北京奇元科技有限公司 一种生成兴趣点网络拓扑图的方法及装置
US10339146B2 (en) 2014-11-25 2019-07-02 Samsung Electronics Co., Ltd. Device and method for providing media resource

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
US20070299838A1 (en) * 2006-06-02 2007-12-27 Behrens Clifford A Concept based cross media indexing and retrieval of speech documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070299838A1 (en) * 2006-06-02 2007-12-27 Behrens Clifford A Concept based cross media indexing and retrieval of speech documents
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《浙江大学》 20080415 庄毅 海量多媒体数据库的高效查询处理 第117页至第142页 1-4 , 2 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455517A (zh) * 2012-06-01 2013-12-18 亿赞普(北京)科技有限公司 广告检测方法及系统和广告终端
US10339146B2 (en) 2014-11-25 2019-07-02 Samsung Electronics Co., Ltd. Device and method for providing media resource
CN108197239A (zh) * 2017-12-29 2018-06-22 北京奇元科技有限公司 一种生成兴趣点网络拓扑图的方法及装置

Similar Documents

Publication Publication Date Title
Makantasis et al. In the wild image retrieval and clustering for 3D cultural heritage landmarks reconstruction
Qi et al. Exploring context and content links in social media: A latent space method
Papadias et al. Group nearest neighbor queries
Heesch A survey of browsing models for content based image retrieval
CN104199827B (zh) 基于局部敏感哈希的大规模多媒体数据的高维索引方法
US20080259084A1 (en) Method and apparatus for organizing data sources
CN1841379A (zh) 将文件系统模型映射到数据库对象
US10007864B1 (en) Image processing system and method
US10650191B1 (en) Document term extraction based on multiple metrics
JPH11120180A (ja) データ検索装置及びデータ検索プログラムを記録した記録媒体
CN101984424A (zh) 海量跨媒体索引方法
Chandwani et al. An approach for document retrieval using cluster-based inverted indexing
CN107256222B (zh) 基于自由词检索的电子病历快速检索系统
US11442973B2 (en) System and method for storing and querying document collections
JP2000035965A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
Doulaverakis et al. Ontology-based access to multimedia cultural heritage collections-The REACH project
Chaudhari et al. A survey on automatic annotation and annotation based image retrieval
JP2005316897A (ja) 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
Rao et al. An approach for CBIR system through multi layer neural network
Kalakota et al. Diversifying relevant search results from social media using community contributed images
Jin et al. A flexible and extensible framework for web image retrieval system
Gupta et al. Comparative Analysis of Image Retrieval Techniques in Cyberspace
Bouhlel et al. Visual re-ranking via adaptive collaborative hypergraph learning for image retrieval
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
Harikumar et al. Implementation of projected clustering based on SQL queries and UDFs in relational databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110309