CN102799614B - 基于视觉词语空间共生性的图像检索方法 - Google Patents

基于视觉词语空间共生性的图像检索方法 Download PDF

Info

Publication number
CN102799614B
CN102799614B CN201210199158.7A CN201210199158A CN102799614B CN 102799614 B CN102799614 B CN 102799614B CN 201210199158 A CN201210199158 A CN 201210199158A CN 102799614 B CN102799614 B CN 102799614B
Authority
CN
China
Prior art keywords
symbiosis
feature
word
vision word
vision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210199158.7A
Other languages
English (en)
Other versions
CN102799614A (zh
Inventor
史淼晶
徐蕊鑫
许超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201210199158.7A priority Critical patent/CN102799614B/zh
Publication of CN102799614A publication Critical patent/CN102799614A/zh
Application granted granted Critical
Publication of CN102799614B publication Critical patent/CN102799614B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于视觉词语空间共生性的图像检索方法,其步骤包括:统计训练数据库中任意两个视觉词语之间共生的概率,构建视觉词语共生表;提取输入的查询图像的尺度不变特征;在尺度不变特征中随机选择部分特征作为中心特征,对中心特征做精确映射;并在中心特征的仿射不变区域内统计其近邻特征;根据视觉词语共生表和精确映射的结果,利用高阶概率预测器为近邻特征预测候选视觉词语;比较候选词语与尺度不变特征之间的距离,确定最优的视觉词语,进而进行图像检索。本发明利用了视觉词语之间的共生性,能够更加有效、快速的产生视觉词语和进行图像检索。

Description

基于视觉词语空间共生性的图像检索方法
技术领域
本发明属于图像检索与高维数据搜索技术领域,涉及基于字袋模型的图像检索技术,具体涉及一种利用视觉词语空间共生性的图像检索方法。
背景技术
基于内容的图像检索系统中,图像被表示成尺度不变的局部特征的集合。通过将数据库中图像特征聚类与量化,可以得到视觉字典。则任意一幅新的图像的特征,都可以根据这本视觉字典映射到相应的视觉词语,图像被表示为一袋视觉词语,这就是字袋模型的产生。其中如何将图像特征映射到相应的视觉词语也即是所谓的视觉词语产生阶段,是字袋模型的重要环节,其时间与精度直接决定了字袋模型的检索效率与效果。
作为一种经典算法,树形搜索算法被广泛应用于图像检索的视觉词语产生阶段。通过多叉树的索引,视觉词语的产生理论上最快可以在O(log2N)的时间内完成,N是视觉词典大小。代表算法包括KD树和K均值树。KD树是在近似最近邻查找问题中应用最广泛的算法之一,它是一种由二叉搜索树推广而来的多维数据结构,其中每个结点为一个K维向量,它通过超平面把结点空间递归的划分为两个子空间来实现二叉搜索。在K维空间中,对N个点中查找最近邻,蛮力算法的时间复杂度为O(N2),KD树的最大时间复杂度为当N个点是随机分布时,甚至可以将搜索的复杂度降到O(log2N)。然而,KD树是局部优化算法,其搜索直接返回的结果并不一定是最近邻点,还需要对其相邻区域进行回溯比较,以确定最终的最近邻点。随着数据维度的增长,基于KD树的搜索需要的回溯比较次数将呈指数型增长,导致KD树的性能越来越差,当维度增长到一定程度,比如O(d>log2N)时,回溯需要消耗的时间太多,以至于KD树的检索效率并不比蛮力算法的优越。为了解决这个问题,研究人员又提出了一系列近似最近邻算法。下面分别介绍KD树与K均值树。
1.基于KD树的搜索算法
Arya等人(S.Arya,D.M.Mount,N.S.Netanyahu,R.Silverman,and A.Y.Wu.An optimalalgorithm for approximate nearest neighbor searching fixed dimensions.Journal of the ACM(JACM),45(6):891-923,1998.)采用优先队列的方法来加速搜索的剪枝过程,提高搜索效率;Beis和Lowe(J.S.Beis,D.G.Lowe.Shape indexing using approximate nearest neighbor search inhigh-dimensional spaces[C].In Proc.CVPR,pages 1000–1006,1997.)提出一种相似的近似搜索方法"Best Bin First"。与Arya不同之处在于,它们将检索的停止条件改为检测叶子节点数是否达到某一阈值,如果是则停止搜索;Silpa-Anan和Hartley(C.Silpa-Anan,R.Hartley.Optimisedkd-trees for fast image descriptor matching[C].In Proc.CVPR,pages 1–8,2008.)改进了原来的KD树算法,它们建立多棵KD树并且利用它们同时进行搜索来获得检索性能的提高。
2.基于K均值树的搜索算法
作为K均值树的一种变形,球形树(Metric Tree)是一种点集的分层表示结构,树的节点是多维空间的超球面,每个非叶子节点包含多个子节点,并以中心和半径来表示。中心是子叶子结点的算术平均,半径是由中心到最远结点的距离;对球形树的结构进行改进,使其左右子树存在重合区域的树称为spill-tree(T.Liu,A.W.Moore,A.Gray,K.Yang.An investigationof practical approximate nearest neighbor algorithms[C].In Proc.NIPS,pages 825–832,2004.),这种树在搜索树剪枝上有提高,因为重叠部分的存在,降低了因为误剪枝导致的错误,但也因此降低了树缩减效率;Gray等人(A.Gray and A.W.Moore.N-Body Problems in StatisticalLearning.In T.K.Leen,T.G.Dietterich,and V.Tresp,editors,Advances in Neural InformationProcessing Systems 13(December 2000).MIT Press,2001.)提出"dual tree"算法,其思想是对目标数据集和查询数据集分别建立有序索引树,同时遍历两棵树来进行剪枝判断和比较。该方法的好处在于利用查询数据特征空间的相关信息,将相近的特征放在一起,在搜索的过程中对相近的特征进行共同剪枝,减少了比较次数,进而实现搜索过程的加速;Nister(D.Nister,H.Stewenius.Scalable recognition with a vocabulary tree[C].In Proc.CVPR,pages 2161-2168,2006.)等人提出一种分级索引的K均值树(hierarchical K-means tree)。Muja(M.Muja,D.G.Lowe.Fast approximate nearest neighbors with automatic algorithm configuration[C].In Proc.VISSAPP,pages 331–340,2009.)于2009年提出FLANN(Fast Liberary for Approximate NearestNeighbor)的最近邻查询方法,该方法可以根据数据集合的分布特点、对映射精度和空间资源消耗的要求来推荐索引类型和检索参数,在高维空间最近邻查找领域得到广泛的使用。在本发明中,将采用FLANN作为直接映射的初步映射和间接映射的基准。FLANN主要包括两类索引结构:基于KD树的变形随机KD森林和K均值树。
KD树和K均值树本质上都属于局部搜索的算法,从其根节点直接单次下降到叶子节点所得到的映射结果通常局部性太强,误差太大(对牛津建筑物数据库中所有特征进行基于KD树的不回溯搜索,所得精度仅为0.05),为了获取更高的映射精度,需要对查询特征进行大量的回溯工作。在FLANN中这两种数据结构的回溯过程都是基于Best Bin First算法的,其核心思想是以节点和被查询节点距离递增的顺序来搜索节点,在索引的过程中,利用一个优先队列记录被删减掉的节点(即未搜索的节点)以及与查询节点的可能的最近距离,并且按照距离从小到大的顺序排列,在回溯的过程中,优先队列每次首先弹出未搜索节点中与查询节点最近的那个,这样一方面保证可以尽快的找到最近的节点,另一方面通过判断避免多余的比较运算,在保证算法精度的同时,提高了算法的效率。
此外,在高维数据K近邻问题中,局部敏感哈希(LSH)因为其运行时间与数据维度无关而被广泛采用。其思想就是对数据根据LSH方程进行映射,而LSH方程需要满足如下特性:对于相近的两个点,以较高的概率映射到同一个bucket;而对于距离远的两点则以较低的概率映射到同一个bucket。经过一系列的哈希映射,对映射后的buckets进行检索进而完成近似k近邻的搜索。Liu(T.Liu,A.W.Moore,A.Gray,K.Yang.An investigation of practicalapproximate nearest neighbor algorithms[C].In Proc.NIPS,pages 825–832,2004.)在球形树的基础上提出了比LSH更简单地算法,更小的资源占用率的随机映射方法。
尽管上述算法在传统的查找近似最近邻问题中得到了很好的应用,对于图像特征到视觉词典映射的过程,上述方法均是在视觉词典上建立有序索引,然后将各个图像特征在这个索引之上分别进行查找,并没有考虑图像特征之间的相关性(R.Xu,M.Shi,B.Geng,C.Xu.Fastvisual word assignment via spatial neighborhood boosting[C].In Proc.ICME,pages 262–270,2011.)。然而,图像的特征之间并非独立不相关的,它们在特征空间或者几何空间的相互关系都包含了很多的信息量,如果加以合理的利用必将进一步提高映射生成视觉词语的效率,进而提高图像检索的效率。
发明内容
本发明的目的在于针对上述问题,提出一种基于空间共生的视觉词语产生方法,通过挖掘视觉词语之间的共生性,实现高效、快速地产生视觉词语。
发明人经过大量的实验发现,自然图片的特征是空间上紧密联系的。图1为从标准牛津数据库(J.Philbin,O.Chum,M.Isard,J.Sivic,A.Zisserman.Object retrieval with largevocabularies and fast spatial matching[C].In Proc.CVPR,pages 1-8,2007.)Radcliffe地标中选出三对共生视觉词语的示意图。其中,每对共生对包含两个共生词语(白色的三角形与圆圈点对),其中三角形表示中心点,椭圆示意它的仿射不变区域。所选的三对共生对在整个数据库中分别共生80次、66次和171次。任何一个特征的出现总能对其临近特征的出现给予一定的语义暗示,而这也是人体视觉的功能之一,任何一个局部的特征或结构经过人眼识别后总能在大脑中根据已有记忆的相似影像给出一些其它相关特征或结构的预期。本发明用数学语言来描述这种预期,在整个训练数据库中记录任意两个视觉词语出现的条件概率,并且建立一张视觉词语共生表,以此来表示视觉词语之间的语义相关性。本发明提出一种基于预测编码的高阶概率预测器:任何未来的变量都可以根据已经观测到的变量进行预测。既然已知视觉词语是空间共生的,那么就可以根据已知视觉词语去预测与之近邻的共生视觉词语。因为任意一个视觉词语频繁与其共现的视觉词语已经记录在共现表中,则对测试图片,当已知一些特征对应的视觉词语后(通过精确映射实现),剩余特征的对应视觉词语都可以通过一定的规则,利用概率预测器给出最可能出现的候选视觉词语,然后通过距离比较得出特征的最小误差的视觉词语。
具体来说,为了实现上述目的,本发明采用如下技术方案:
一种基于视觉词语空间共生性的图像检索方法,其步骤包括:
1)统计训练数据库中任意两个视觉词语之间共生的概率,构建视觉词语共生表;
2)提取输入的查询图像的尺度不变特征;
3)在所述尺度不变特征中随机选择部分特征作为中心特征,对所述中心特征做精确映射;并在所述中心特征的仿射不变区域内统计其近邻特征;
4)根据所述视觉词语共生表和所述精确映射的结果,利用高阶概率预测器为所述近邻特征预测候选视觉词语;
5)比较所述候选词语与所述尺度不变特征之间的距离,确定最优的视觉词语;
6)根据所述最优的视觉词语,对所述查询图像进行检索,并返回相关图像。
进一步地,如果视觉词语w1对应的特征位于视觉词语w2对应的特征的仿射不变区域内,则认为w1与w2是共生的。
进一步地,将所述仿射不变区域扩大至原区域的3至10倍,在扩大后的区域上记录任意两个视觉词语之间的共生次数。
进一步地,从所述尺度不变特征中随机选择20%至30%作为所述中心特征。
进一步地,进行所述精确映射的方法包括但不限于:FLANN算法、蛮力算法、ANN算法、局部敏感哈希算法。
进一步地,所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语,其计算公式为:
w * s = arg max w ^ s ∈ W p ( w ^ s | w 0 , . . . , w s - 1 ) ,
其中,w0,w1,...,ws-1为通过精确映射得到的视觉词语,为最可能与w0,w1,...,ws-1共生的视觉词语,表示后验概率,表示从候选视觉词语集合W选出的任意词语。
进一步地,所述距离可以采用欧式距离、闵可夫斯基距离、马氏距离、切比雪夫距离等。
进一步地,在建立所述共生表时,统计每一个中心特征区域所包括的共生特征;在进行图像检索时,统计所述查询图片的每一个特征所属的中心特征,以获得更多的共生信息。
进一步地,对于不属于任何中心特征的特征,以及利用所述高阶概率预测器进行预测后误差仍较大的特征,采用精确映射的方法搜索其对应的视觉词语。
进一步地,步骤6)中,将查询图像表示成视觉词语的高维向量,度量数据库中图像对应的视觉词语向量与该高维向量的相似度,按照相似度从高到低的顺序返回所述相关图像。
本发明引入基于高阶概率预测器的视觉词语产生方法,进而进行图像检索。通过挖掘视觉词语之间的共生性,建立视觉词语共生表;利用从训练数据中收集的共生信息之间的条件概率来为视觉词语的产生提供更少更可能出现的候选词语。因此而降低了计算的时间复杂度。在牛津数据库上的测试结果表明,相比较其它的代表性算法,本发明能够更加有效而快速的产生视觉词语和进行图像检索。
附图说明
图1为从标准牛津数据库Radcliffe地标中选出三对共生视觉词语的示意图。其中,每对共生对包含两个共生词语:三角形与圆圈点对,三角形表示中心点,椭圆示意它的仿射不变区域。
图2为本发明实施例的基于视觉词语空间共生性的图像检索方法的步骤流程图。
图3为本发明实施例的基于高阶概率的视觉词语产生模型示意图。
图4表示在牛津数据库上的视觉词语产生的时间精度对应结果。
图5表示在牛津数据库上的视觉词语产生的另一时间精度对应结果。
具体实施方式
下面通过具体实施例并配合附图,对本发明做详细的说明。
图2为本发明实施例的基于视觉词语空间共生性的图像检索方法的步骤流程图。首先根据给定的视觉词典,在训练数据库中统计任意两个视觉词语之间共生的概率,构建视觉词语共生表。然后对于给定的一幅测试图像(进行图像检索时为输入的查询图像),提取尺度不变特征(SIFT);并随机选择部分特征作为中心特征,在其各自的仿射不变区域内统计其近邻特征。然后对中心特征用FLANN做精确映射再根据所述视觉词语共生表和所述精确映射的结果,利用概率预测器为所述近邻特征预测候选视觉词语。再通过比较候选词语与特征之间的距离(本实施选择欧式距离),决定最优的视觉词语。最优的视觉词语产生后,就可以对测试图像(查询图像)进行检索,并返回相关图像。
上述方法中,最关键的是视觉词语的产生过程。图3为本实施例的视觉词语产生模型示意图。对测试数据,近邻特征qL,...,q0被聚簇到不同中心的仿射不变区域q1,qs,而后将特征近邻组映射到视觉词语近邻组;在右边框图中离线建立视觉词语共生表,对每一中心视觉词语,记录其共生词语及共生次数,建立FLANN搜索树模型用以对部分特征做精确搜索;对测试图片,随机抽样部分特征做中心特征精确映射q1,...,qs,其余特征qL,q0被聚簇到不同的所属中心区域,如图左边框图内所示,利用概率预测器预测相应的特征。
下面结合图2和图3具体说明上述方法的各个步骤。
1)在训练数据库中,根据给定视觉词典,统计任意两个视觉词语之间共生的概率,构建视觉词语共生表。
视觉词典是通过将图像特征聚类得到的,一旦词典聚类形成,具有唯一性。所谓的视觉词语共生定义为:如果视觉词语w1对应的特征位于视觉词语w2对应的特征的仿射不变区域内,则认为w1与w2是共生的。以Ni(w1,w2)表示它们在第i幅图片中共生的次数,以N(w1,w2)表示它们在整个数据库中共生的次数,则
N(w1,w2)=∑iNi(w1,w2)(1)
考虑到特征的仿射不变区域的尺寸一般都很小,本实施例将所有的区域都扩大5倍,然后记录任意两个视觉词语之间的共生次数并且构成视觉词语共生表。除了共生次数以外,每一个视觉词语在数据库中单独出现的次数N(w)也需要被记录。上述5倍为优选比例,也可以是其它值,比如3倍至10倍之间的值。
2)给定一幅测试图片,提取其尺度不变特征SIFT(Scale Invariant Feature Transform)
提取尺度不变特征的过程可参考文献“D.G.Lowe.Distinctive image features fromscale-invariant keypoints.IJCV,60(2):91-110,2004.”。
3)随机选择20%作为中心特征(如图3所示左下虚线框中的三角形特征),并且在它们各自的仿射不变区域(如图3所示虚线框中的黑边圆圈)内统计它们的近邻特征(如图3所示虚线框中的五角星)。上述20%为优选比例,也可以是其它值,比如20%至30%之间的值。
如图3所示,在建立共生表的时候,统计每一个中心特征q0共生的特征qs,...,qk,而对于测试图片(查询图片)来说,则统计每一个特征qs都与哪些中心特征共生。这样倒排的方式使得一个特征可以同时属于多个中心特征的仿射不变区域,从而更多的共生信息可以被利用。之所以选择这种与训练图片相反的特征排序聚簇方式是因为特征之间的仿射不变区域是非对称的,比如,假设qs在q0的仿射不变区域内,但反过来qs作为中心的时候q0不一定在它的放射不变区域内。
4)将这20%中心特征用FLANN方法做精确映射,具体实现步骤可参见文献“M.Muja,D.G.Lowe.Fast approximate nearest neighbors with automatic algorithm configuration.In Proc.VISSAPP,pages331–340,2009”。做精确映射也可以采用其它方法,诸如蛮力算法、近似最近邻算法ANN(Approximate Nearest Neighbor)、局部敏感哈希算法LSH(Locality Sensitive Hash)等。
5)利用高阶概率预测器为那些近邻特征提供候选视觉词语,比较它们与特征之间的欧氏距离决定最优的视觉词语。
对测试图片的视觉词语预测需要找到每一个特征所属的中心特征区域,如图3所示,构成中心组。中心特征被首先映射到对应的视觉词语,接下来根据高阶概率预测器对共生特征提供候选视觉词语。例如对于qs,一般来说近邻组和中心组内特征数目都是比较少的,这是由纺射不变区域的大小决定的,所有qs的中心组对应的视觉词语的共生词语都首先被当做候选特征集合。它们的高阶后验概率都可以通过下式计算获得:
w * s = arg max w ^ s ∈ W p ( w ^ s | w 0 , . . . , w s - 1 ) - - - ( 2 )
选择概率最大的视觉词语作为最优选择。这样的选择虽然简单,但却是不精确的,它仅仅提供一种可能性。为了产生精确的视觉词语,本发明通过欧氏距离来比较特征与候选词语之间的距离。每一次,根据预设的最大比较次数K,选出前K次概率最大的词语作为候选词语来计算它们与特征qs之间的欧氏距离,欧氏距离最小的那个词语就是所要产生的精确视觉词语。除欧式距离外,本发明也可以采用其它的距离值,如闵可夫斯基距离、马氏距离、切比雪夫距离等。
下面对高阶概率预测器作原理上的说明。
一般来说,在预测编码中,如果采样到一个字母I,则很难预测下一个字母,因为以I开头的单词有许多。然而假设我们如果我们已知I-m-a-g,则根据Image这个单词,下一个字母将有极大的可能是e。基于此本发明提出多采样视觉词语的高阶概率预测器来预测它们的近邻视觉词语。
假设已经通过精确映射得到s个视觉词语,构成集合S={w0,w1...ws-1},根据S可以预测这些视觉词语对应的特征的近邻特征的视觉词语。前文提到,对任意一个视觉词语,在数据库中可能与它们共生的视觉词语记录在共生表中。因为共生是限定在特征的仿射不变区域内的,所以共生表是很稀疏的。本发明将S中的每一个视觉词语对应的共生表中的共生词语词集合在一起W={wS0,wS1...wSv},假设有v个,作为近邻特征的候选视觉词语。
利用贝叶斯准则来给出W中的最优候选视觉词语作为最可能与w0,w1,...,ws-1共生的视觉词语。这种可能性在数学中代表了一种最大的后验概率 的计算公式如下:
w * s = arg max w ^ s ∈ W p ( w ^ s | w 0 , . . . , w s - 1 ) - - - ( 3 )
其中,表示从候选视觉词语集合W选出的任意词语。可以用联合概率来计算此式:
p ( w ^ s | w 0 , . . . , w s - 1 ) = p ( w ^ s , w 0 , . . . , w s - 1 ) p ( w 0 , . . . , w s - 1 ) - - - ( 4 )
其中,表示的联合概率,可以被分解为:
p ( w ^ s , w 0 , . . . , w s - 1 ) = p ( w 0 , . . . , w s - 1 | w ^ s ) p ( w ^ s ) - - - ( 5 )
其中,可以通过来估计。为了分解式(5),假设已获得的视觉词语之间是w0,w1...ws-1统计独立的,这样p(w0,..,ws-1)就可以被近似为只依赖于这样它们都可以被一阶条件概率所近似:
p ( w ^ s , w 0 , . . . , w s - 1 ) ≈ p ( w ^ s ) Π w i ∈ S p ( w i | w ^ s )
p ( w 0 , . . . , w s - 1 ) ≈ Π w i ∈ S p ( w i ) - - - ( 6 )
其中,可以从先验共生次数估计得到。式(4)的最大后验概率对应下面的分解形式:
w * s = arg max w ^ s ∈ W p ( w ^ s | w 0 , . . . , w s - 1 )
≈ arg max w ^ s ∈ W p ( w ^ s ) Π w i ∈ S p ( w i | w ^ s ) Π w i ∈ S p ( w i )
= arg max w ^ s ∈ W N ( w ^ s ) N T Π w i ∈ S N ( w i , w ^ s ) N ( w ^ s ) Π w i ∈ S N ( w i ) N T - - - ( 7 )
NT是所有视觉词语出现的总次数。这里的近似表示w0,w1,...,ws-1共生的可能性是最大的,也即是说由视觉词语w0,w1,...,ws-1,ws构成的当前局部区域是最可能出现的局部模式。
如果每一个视觉词语的预测仅仅依赖于距离其空间特征最近的视觉词语ws-1,则式(7)退化成一阶条件概率的形式:
w * s = arg max w ^ s ∈ W p ( w ^ s | w s - 1 ) - - - ( 8 )
6)如果一些特征不属于任何中心特征的区域,或者当前计算得到的最佳欧氏距离仍然很大,就用FLANN继续搜索,进行精确映射。这里也可以采用其它算法,诸如蛮力算法、近似最近邻算法ANN(Approximate Nearest Neighbor)、局部敏感哈希算法LSH(LocalitySensitive Hash)等。
7)根据产生的视觉词语,在数据库中对查询图像进行检索,并返回相关图像。
下面提供一个具体的实例,参见图2,说明本发明的基于视觉词语空间共生性的图像检索方法。实验结果参见图3以及图4。
输入:索引图片y,最大比较次数M;
输出:索引图片的字袋模型的表示
1)提取图像仿射不变特征SIFT,任选其中50%特征作为中心特征,统计在它们5倍大的纺射射不变区域内的共生特征,形成近邻特征组。
2)将近邻特征组组映射到近邻视觉词语组,统计任意两个视觉词语在训练集上的共生数目,建立视觉词语共生表。
3)在对索引图片y,提取特征,任选其中20%特征作为中心特征。
4)剩余80%特征分别归类到各自所属中心的十倍大的仿射不变区域内形成中心特征组。
5)将20%中心特征先做精确映射用FLANN;对剩余80%近邻特征用本文所提出的高阶概率预测器进行视觉词语产生。
具体产生过程以qs为例说明如下,其中所述中心特征组w0,...,ws-1
当前比较次数K<共生表收集的共生视觉词语数目W<最大比较次数M:
a)提供前K个候选视觉词语: K - arg max w ^ s &Element; W p ( w ^ s | w 0 , . . . , w s - 1 ) ;
b)计算距离qs的欧氏距离最近的最优视觉词语w*
当共生表收集的共生视觉词语数目W<当前比较次数K<最大比较次数M:用FLANN寻找最优的视觉词语w*
6)视觉词语产生后,就可以进一步进行图像的检索。
6.1)查询图像被表示成视觉词语的高维向量:
a)统计查询图像中每一个视觉词语出现的词频TF(term frequncy);
b)统计获得查询图像中每一个数据词语的反文档频率IDF(inverse documentfrequency);
c)查询图像的视觉词语向量的每一维值对应了当前视觉词语的TF*IDF值;
6.2)度量查询图像的高维向量与数据库中图像对应视觉词语向量的相似度,按照相似度大小的从高到低顺序返回检索相关图像。
图4表示在牛津数据库上的视觉词语产生的时间精度对应结果,视觉词典选择100K,比较算法包括高阶概率预测器、一阶概率预测器、FLANN、共生表算法(R.Xu,M.Shi,B.Geng,C.Xu.Fast visual word assignment via spatial neighborhood boosting[C].In Proc.ICME,pages262–270,2011.)以及KD树算法。近似视觉词语产生算法精度到达0.95时,比较高阶概率预测器算法与FLANN算法,时间效率提高了约为142%;另一方面,在相同时间500ms,高阶概率预测器算法精度可以达到0.95,而FLANN精度约为0.88。
图5表示在牛津数据库上的视觉词语产生的另一时间精度对应结果,视觉词典选择1M。近似视觉词语产生算法精度到达0.90时,比较高阶概率预测器算法与FLANN算法,时间效率提高了约为35%;另一方面,在相同时间4.3s,高阶概率预测器算法精度可以达到0.9,而FLANN精度约为0.88。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (9)

1.一种基于视觉词语空间共生性的图像检索方法,包括下列步骤:
1)统计训练数据库中任意两个视觉词语之间共生的概率,构建视觉词语共生表;
2)提取输入的查询图像的尺度不变特征;
3)在所述尺度不变特征中随机选择部分特征作为中心特征,对所述中心特征做精确映射;并在所述中心特征的仿射不变区域内统计其近邻特征;
4)根据所述视觉词语共生表和所述精确映射的结果,利用高阶概率预测器为所述近邻特征预测候选视觉词语;所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语,其计算公式为:
w * s = arg max w s ^ &Element; W p ( w s ^ | w 0 , . . . , w s - 1 ) ,
其中,w0,w1,...,ws-1为通过精确映射得到的视觉词语,为最可能与w0,w1,...,ws-1共生的视觉词语,表示后验概率,表示从候选视觉词语集合W选出的任意词语;
5)比较所述候选视觉词语与所述尺度不变特征之间的距离,确定最优的视觉词语;
6)根据所述最优的视觉词语,对所述查询图像进行检索,并返回相关图像。
2.如权利要求1所述的方法,其特征在于,如果视觉词语w1对应的特征位于视觉词语w2对应的特征的仿射不变区域内,则认为w1与w2是共生的。
3.如权利要求2所述的方法,其特征在于,将所述仿射不变区域扩大至原区域的3至10倍,在扩大后的区域上记录任意两个视觉词语之间的共生次数。
4.如权利要求1所述的方法,其特征在于,从所述尺度不变特征中随机选择20%至30%作为所述中心特征。
5.如权利要求1所述的方法,其特征在于,进行所述精确映射的方法包括:Fast Liberary forApproximate Nearest Neighbor算法、蛮力算法、近似最近邻算法、局部敏感哈希算法。
6.如权利要求1所述的方法,其特征在于,所述距离采用下列距离中的一种:欧式距离、闵可夫斯基距离、马氏距离、切比雪夫距离。
7.如权利要求1所述的方法,其特征在于:在建立所述共生表时,统计每一个中心特征区域所包括的共生特征;在进行图像检索时,统计查询图片的每一个特征所属的中心特征,以获得更多的共生信息。
8.如权利要求1所述的方法,其特征在于:对于不属于任何中心特征的特征,以及利用所述高阶概率预测器进行预测后误差仍较大的特征,采用精确映射的方法搜索其对应的视觉词语。
9.如权利要求1至8任一权利要求所述的方法,其特征在于:步骤6)中,将查询图像表示成视觉词语的高维向量,度量数据库中图像对应的视觉词语向量与该高维向量的相似度,按照相似度从高到低的顺序返回所述相关图像。
CN201210199158.7A 2012-06-14 2012-06-14 基于视觉词语空间共生性的图像检索方法 Expired - Fee Related CN102799614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210199158.7A CN102799614B (zh) 2012-06-14 2012-06-14 基于视觉词语空间共生性的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210199158.7A CN102799614B (zh) 2012-06-14 2012-06-14 基于视觉词语空间共生性的图像检索方法

Publications (2)

Publication Number Publication Date
CN102799614A CN102799614A (zh) 2012-11-28
CN102799614B true CN102799614B (zh) 2015-01-07

Family

ID=47198724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210199158.7A Expired - Fee Related CN102799614B (zh) 2012-06-14 2012-06-14 基于视觉词语空间共生性的图像检索方法

Country Status (1)

Country Link
CN (1) CN102799614B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020231B (zh) * 2012-12-14 2018-06-08 北京百度网讯科技有限公司 将图片的局部特征量化为视觉词汇的方法和装置
CN103559220B (zh) * 2013-10-18 2017-08-25 北京奇虎科技有限公司 图片搜索设备、方法及系统
CN103617217B (zh) * 2013-11-20 2017-04-26 中国科学院信息工程研究所 一种基于层次索引的图像检索方法及系统
US10642845B2 (en) * 2014-05-30 2020-05-05 Apple Inc. Multi-domain search on a computing device
CN104199922B (zh) * 2014-09-01 2019-05-03 中国科学院自动化研究所 一种基于局部相似哈希算法的大规模图像库检索方法
CN105786967A (zh) * 2016-02-01 2016-07-20 杭州当虹科技有限公司 一种基于手机拍照的直播流媒体识别系统
CN105760875B (zh) * 2016-03-10 2019-03-01 西安交通大学 基于随机森林算法的判别二进制图像特征相似实现方法
CN110309143B (zh) * 2018-03-21 2021-10-22 华为技术有限公司 数据相似度确定方法、装置及处理设备
CN108764262B (zh) * 2018-05-31 2021-09-28 苏州大学 一种共生图像模式挖掘方法
CN110689323A (zh) * 2019-09-30 2020-01-14 深圳市珍爱捷云信息技术有限公司 图片审核方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147815B (zh) * 2011-04-21 2013-04-17 北京大学 图片搜索方法和图片搜索系统
CN102298605B (zh) * 2011-06-01 2013-04-17 清华大学 基于有向图非等概率随机搜索的图像自动标注方法及装置
CN102495865B (zh) * 2011-11-28 2013-08-07 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN102496146B (zh) * 2011-11-28 2014-03-05 南京大学 一种基于视觉共生的图像分割方法

Also Published As

Publication number Publication date
CN102799614A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102799614B (zh) 基于视觉词语空间共生性的图像检索方法
CN105912611B (zh) 一种基于cnn的快速图像检索方法
Yu et al. A tree-based incremental overlapping clustering method using the three-way decision theory
CN110070121B (zh) 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
Wang et al. Trinary-projection trees for approximate nearest neighbor search
WO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
JP5121917B2 (ja) 画像検索装置、画像検索方法及びプログラム
CN104035949A (zh) 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN102364498A (zh) 一种基于多标签的图像识别方法
Serratosa et al. Component retrieval based on a database of graphs for hand-written electronic-scheme digitalisation
CN106815362A (zh) 一种基于kpca多表索引图像哈希检索方法
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
Alemu et al. Multi-feature fusion for image retrieval using constrained dominant sets
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
Chen et al. Compoundeyes: Near-duplicate detection in large scale online video systems in the cloud
Ye et al. Query-adaptive remote sensing image retrieval based on image rank similarity and image-to-query class similarity
KR100786675B1 (ko) 멀티미디어 데이터베이스내에서 계층적 비트맵 색인을기반으로 한 고차원 벡터 집합에서의 데이터 인덱싱 및유사 벡터 검색 방법
CN112182026A (zh) 一种考虑流形排序算法的电网截面数据检索方法
KR102158049B1 (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
Schuh et al. Mitigating the curse of dimensionality for exact knn retrieval
Shi et al. Exploiting visual word co-occurrence for image retrieval
Luo et al. Multi-resolution representation for streaming time series retrieval
Ji et al. Labeling images by integrating sparse multiple distance learning and semantic context modeling
Arun et al. On integrating re-ranking and rank list fusion techniques for image retrieval
Yingfan et al. Revisiting $ k $-Nearest Neighbor Graph Construction on High-Dimensional Data: Experiments and Analyses

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150107

Termination date: 20170614