CN102799614B

CN102799614B - 基于视觉词语空间共生性的图像检索方法

Info

Publication number: CN102799614B
Application number: CN201210199158.7A
Authority: CN
Inventors: 史淼晶; 徐蕊鑫; 许超
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-06-14
Filing date: 2012-06-14
Publication date: 2015-01-07
Anticipated expiration: 2032-06-14
Also published as: CN102799614A

Abstract

本发明提供一种基于视觉词语空间共生性的图像检索方法，其步骤包括：统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表；提取输入的查询图像的尺度不变特征；在尺度不变特征中随机选择部分特征作为中心特征，对中心特征做精确映射；并在中心特征的仿射不变区域内统计其近邻特征；根据视觉词语共生表和精确映射的结果，利用高阶概率预测器为近邻特征预测候选视觉词语；比较候选词语与尺度不变特征之间的距离，确定最优的视觉词语，进而进行图像检索。本发明利用了视觉词语之间的共生性，能够更加有效、快速的产生视觉词语和进行图像检索。

Description

基于视觉词语空间共生性的图像检索方法

技术领域

本发明属于图像检索与高维数据搜索技术领域，涉及基于字袋模型的图像检索技术，具体涉及一种利用视觉词语空间共生性的图像检索方法。

背景技术

基于内容的图像检索系统中，图像被表示成尺度不变的局部特征的集合。通过将数据库中图像特征聚类与量化，可以得到视觉字典。则任意一幅新的图像的特征，都可以根据这本视觉字典映射到相应的视觉词语，图像被表示为一袋视觉词语，这就是字袋模型的产生。其中如何将图像特征映射到相应的视觉词语也即是所谓的视觉词语产生阶段，是字袋模型的重要环节，其时间与精度直接决定了字袋模型的检索效率与效果。

作为一种经典算法，树形搜索算法被广泛应用于图像检索的视觉词语产生阶段。通过多叉树的索引，视觉词语的产生理论上最快可以在O(log₂N)的时间内完成，N是视觉词典大小。代表算法包括KD树和K均值树。KD树是在近似最近邻查找问题中应用最广泛的算法之一，它是一种由二叉搜索树推广而来的多维数据结构，其中每个结点为一个K维向量，它通过超平面把结点空间递归的划分为两个子空间来实现二叉搜索。在K维空间中，对N个点中查找最近邻，蛮力算法的时间复杂度为O(N²)，KD树的最大时间复杂度为当N个点是随机分布时，甚至可以将搜索的复杂度降到O(log₂N)。然而，KD树是局部优化算法，其搜索直接返回的结果并不一定是最近邻点，还需要对其相邻区域进行回溯比较，以确定最终的最近邻点。随着数据维度的增长，基于KD树的搜索需要的回溯比较次数将呈指数型增长，导致KD树的性能越来越差，当维度增长到一定程度，比如O(d>log₂N)时，回溯需要消耗的时间太多，以至于KD树的检索效率并不比蛮力算法的优越。为了解决这个问题，研究人员又提出了一系列近似最近邻算法。下面分别介绍KD树与K均值树。

1.基于KD树的搜索算法

Arya等人（S.Arya,D.M.Mount,N.S.Netanyahu,R.Silverman,and A.Y.Wu.An optimalalgorithm for approximate nearest neighbor searching fixed dimensions.Journal of the ACM(JACM),45(6):891-923,1998.）采用优先队列的方法来加速搜索的剪枝过程，提高搜索效率；Beis和Lowe（J.S.Beis,D.G.Lowe.Shape indexing using approximate nearest neighbor search inhigh-dimensional spaces[C].In Proc.CVPR,pages 1000–1006,1997.）提出一种相似的近似搜索方法"Best Bin First"。与Arya不同之处在于，它们将检索的停止条件改为检测叶子节点数是否达到某一阈值，如果是则停止搜索；Silpa-Anan和Hartley（C.Silpa-Anan,R.Hartley.Optimisedkd-trees for fast image descriptor matching[C].In Proc.CVPR,pages 1–8,2008.）改进了原来的KD树算法，它们建立多棵KD树并且利用它们同时进行搜索来获得检索性能的提高。

2.基于K均值树的搜索算法

作为K均值树的一种变形，球形树（Metric Tree）是一种点集的分层表示结构，树的节点是多维空间的超球面，每个非叶子节点包含多个子节点，并以中心和半径来表示。中心是子叶子结点的算术平均，半径是由中心到最远结点的距离；对球形树的结构进行改进，使其左右子树存在重合区域的树称为spill-tree（T.Liu,A.W.Moore,A.Gray,K.Yang.An investigationof practical approximate nearest neighbor algorithms[C].In Proc.NIPS,pages 825–832,2004.），这种树在搜索树剪枝上有提高，因为重叠部分的存在，降低了因为误剪枝导致的错误，但也因此降低了树缩减效率；Gray等人（A.Gray and A.W.Moore.N-Body Problems in StatisticalLearning.In T.K.Leen,T.G.Dietterich,and V.Tresp,editors,Advances in Neural InformationProcessing Systems 13(December 2000).MIT Press,2001.）提出"dual tree"算法，其思想是对目标数据集和查询数据集分别建立有序索引树，同时遍历两棵树来进行剪枝判断和比较。该方法的好处在于利用查询数据特征空间的相关信息，将相近的特征放在一起，在搜索的过程中对相近的特征进行共同剪枝，减少了比较次数，进而实现搜索过程的加速；Nister（D.Nister,H.Stewenius.Scalable recognition with a vocabulary tree[C].In Proc.CVPR,pages 2161-2168,2006.）等人提出一种分级索引的K均值树（hierarchical K-means tree）。Muja（M.Muja,D.G.Lowe.Fast approximate nearest neighbors with automatic algorithm configuration[C].In Proc.VISSAPP,pages 331–340,2009.）于2009年提出FLANN(Fast Liberary for Approximate NearestNeighbor)的最近邻查询方法，该方法可以根据数据集合的分布特点、对映射精度和空间资源消耗的要求来推荐索引类型和检索参数，在高维空间最近邻查找领域得到广泛的使用。在本发明中，将采用FLANN作为直接映射的初步映射和间接映射的基准。FLANN主要包括两类索引结构：基于KD树的变形随机KD森林和K均值树。

KD树和K均值树本质上都属于局部搜索的算法，从其根节点直接单次下降到叶子节点所得到的映射结果通常局部性太强，误差太大（对牛津建筑物数据库中所有特征进行基于KD树的不回溯搜索，所得精度仅为0.05），为了获取更高的映射精度，需要对查询特征进行大量的回溯工作。在FLANN中这两种数据结构的回溯过程都是基于Best Bin First算法的，其核心思想是以节点和被查询节点距离递增的顺序来搜索节点，在索引的过程中，利用一个优先队列记录被删减掉的节点（即未搜索的节点）以及与查询节点的可能的最近距离，并且按照距离从小到大的顺序排列，在回溯的过程中，优先队列每次首先弹出未搜索节点中与查询节点最近的那个，这样一方面保证可以尽快的找到最近的节点，另一方面通过判断避免多余的比较运算，在保证算法精度的同时，提高了算法的效率。

此外，在高维数据K近邻问题中，局部敏感哈希（LSH）因为其运行时间与数据维度无关而被广泛采用。其思想就是对数据根据LSH方程进行映射，而LSH方程需要满足如下特性：对于相近的两个点，以较高的概率映射到同一个bucket；而对于距离远的两点则以较低的概率映射到同一个bucket。经过一系列的哈希映射，对映射后的buckets进行检索进而完成近似k近邻的搜索。Liu（T.Liu,A.W.Moore,A.Gray,K.Yang.An investigation of practicalapproximate nearest neighbor algorithms[C].In Proc.NIPS,pages 825–832,2004.）在球形树的基础上提出了比LSH更简单地算法，更小的资源占用率的随机映射方法。

尽管上述算法在传统的查找近似最近邻问题中得到了很好的应用，对于图像特征到视觉词典映射的过程，上述方法均是在视觉词典上建立有序索引，然后将各个图像特征在这个索引之上分别进行查找，并没有考虑图像特征之间的相关性（R.Xu,M.Shi,B.Geng,C.Xu.Fastvisual word assignment via spatial neighborhood boosting[C].In Proc.ICME,pages 262–270,2011.）。然而，图像的特征之间并非独立不相关的，它们在特征空间或者几何空间的相互关系都包含了很多的信息量，如果加以合理的利用必将进一步提高映射生成视觉词语的效率，进而提高图像检索的效率。

发明内容

本发明的目的在于针对上述问题，提出一种基于空间共生的视觉词语产生方法，通过挖掘视觉词语之间的共生性，实现高效、快速地产生视觉词语。

发明人经过大量的实验发现，自然图片的特征是空间上紧密联系的。图1为从标准牛津数据库（J.Philbin,O.Chum,M.Isard,J.Sivic,A.Zisserman.Object retrieval with largevocabularies and fast spatial matching[C].In Proc.CVPR,pages 1-8,2007.）Radcliffe地标中选出三对共生视觉词语的示意图。其中，每对共生对包含两个共生词语（白色的三角形与圆圈点对），其中三角形表示中心点，椭圆示意它的仿射不变区域。所选的三对共生对在整个数据库中分别共生80次、66次和171次。任何一个特征的出现总能对其临近特征的出现给予一定的语义暗示，而这也是人体视觉的功能之一，任何一个局部的特征或结构经过人眼识别后总能在大脑中根据已有记忆的相似影像给出一些其它相关特征或结构的预期。本发明用数学语言来描述这种预期，在整个训练数据库中记录任意两个视觉词语出现的条件概率，并且建立一张视觉词语共生表，以此来表示视觉词语之间的语义相关性。本发明提出一种基于预测编码的高阶概率预测器：任何未来的变量都可以根据已经观测到的变量进行预测。既然已知视觉词语是空间共生的，那么就可以根据已知视觉词语去预测与之近邻的共生视觉词语。因为任意一个视觉词语频繁与其共现的视觉词语已经记录在共现表中，则对测试图片，当已知一些特征对应的视觉词语后（通过精确映射实现），剩余特征的对应视觉词语都可以通过一定的规则，利用概率预测器给出最可能出现的候选视觉词语，然后通过距离比较得出特征的最小误差的视觉词语。

具体来说，为了实现上述目的，本发明采用如下技术方案：

一种基于视觉词语空间共生性的图像检索方法，其步骤包括：

1）统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表；

2）提取输入的查询图像的尺度不变特征；

3）在所述尺度不变特征中随机选择部分特征作为中心特征，对所述中心特征做精确映射；并在所述中心特征的仿射不变区域内统计其近邻特征；

4）根据所述视觉词语共生表和所述精确映射的结果，利用高阶概率预测器为所述近邻特征预测候选视觉词语；

5）比较所述候选词语与所述尺度不变特征之间的距离，确定最优的视觉词语；

6）根据所述最优的视觉词语，对所述查询图像进行检索，并返回相关图像。

进一步地，如果视觉词语w₁对应的特征位于视觉词语w₂对应的特征的仿射不变区域内，则认为w₁与w₂是共生的。

进一步地，将所述仿射不变区域扩大至原区域的3至10倍，在扩大后的区域上记录任意两个视觉词语之间的共生次数。

进一步地，从所述尺度不变特征中随机选择20%至30%作为所述中心特征。

进一步地，进行所述精确映射的方法包括但不限于：FLANN算法、蛮力算法、ANN算法、局部敏感哈希算法。

进一步地，所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语，其计算公式为：

{\overset{*}{w}}_{s} = {\arg \max}_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1}),

其中，w₀，w₁,...,w_s-1为通过精确映射得到的视觉词语，为最可能与w₀，w₁，...,w_s-1共生的视觉词语，表示后验概率，表示从候选视觉词语集合W选出的任意词语。

进一步地，所述距离可以采用欧式距离、闵可夫斯基距离、马氏距离、切比雪夫距离等。

进一步地，在建立所述共生表时，统计每一个中心特征区域所包括的共生特征；在进行图像检索时，统计所述查询图片的每一个特征所属的中心特征，以获得更多的共生信息。

进一步地，对于不属于任何中心特征的特征，以及利用所述高阶概率预测器进行预测后误差仍较大的特征，采用精确映射的方法搜索其对应的视觉词语。

进一步地，步骤6）中，将查询图像表示成视觉词语的高维向量，度量数据库中图像对应的视觉词语向量与该高维向量的相似度，按照相似度从高到低的顺序返回所述相关图像。

本发明引入基于高阶概率预测器的视觉词语产生方法，进而进行图像检索。通过挖掘视觉词语之间的共生性，建立视觉词语共生表；利用从训练数据中收集的共生信息之间的条件概率来为视觉词语的产生提供更少更可能出现的候选词语。因此而降低了计算的时间复杂度。在牛津数据库上的测试结果表明，相比较其它的代表性算法，本发明能够更加有效而快速的产生视觉词语和进行图像检索。

附图说明

图1为从标准牛津数据库Radcliffe地标中选出三对共生视觉词语的示意图。其中，每对共生对包含两个共生词语：三角形与圆圈点对，三角形表示中心点，椭圆示意它的仿射不变区域。

图2为本发明实施例的基于视觉词语空间共生性的图像检索方法的步骤流程图。

图3为本发明实施例的基于高阶概率的视觉词语产生模型示意图。

图4表示在牛津数据库上的视觉词语产生的时间精度对应结果。

图5表示在牛津数据库上的视觉词语产生的另一时间精度对应结果。

具体实施方式

下面通过具体实施例并配合附图，对本发明做详细的说明。

图2为本发明实施例的基于视觉词语空间共生性的图像检索方法的步骤流程图。首先根据给定的视觉词典，在训练数据库中统计任意两个视觉词语之间共生的概率，构建视觉词语共生表。然后对于给定的一幅测试图像（进行图像检索时为输入的查询图像），提取尺度不变特征（SIFT）；并随机选择部分特征作为中心特征，在其各自的仿射不变区域内统计其近邻特征。然后对中心特征用FLANN做精确映射再根据所述视觉词语共生表和所述精确映射的结果，利用概率预测器为所述近邻特征预测候选视觉词语。再通过比较候选词语与特征之间的距离（本实施选择欧式距离），决定最优的视觉词语。最优的视觉词语产生后，就可以对测试图像（查询图像）进行检索，并返回相关图像。

上述方法中，最关键的是视觉词语的产生过程。图3为本实施例的视觉词语产生模型示意图。对测试数据，近邻特征q_L,...,q₀被聚簇到不同中心的仿射不变区域q₁,q_s，而后将特征近邻组映射到视觉词语近邻组；在右边框图中离线建立视觉词语共生表，对每一中心视觉词语，记录其共生词语及共生次数，建立FLANN搜索树模型用以对部分特征做精确搜索；对测试图片，随机抽样部分特征做中心特征精确映射q₁，...,q_s，其余特征q_L,q₀被聚簇到不同的所属中心区域，如图左边框图内所示，利用概率预测器预测相应的特征。

下面结合图2和图3具体说明上述方法的各个步骤。

1）在训练数据库中，根据给定视觉词典，统计任意两个视觉词语之间共生的概率，构建视觉词语共生表。

视觉词典是通过将图像特征聚类得到的，一旦词典聚类形成，具有唯一性。所谓的视觉词语共生定义为：如果视觉词语w₁对应的特征位于视觉词语w₂对应的特征的仿射不变区域内，则认为w₁与w₂是共生的。以Nⁱ(w₁,w₂)表示它们在第i幅图片中共生的次数，以N(w₁,w₂)表示它们在整个数据库中共生的次数，则

N(w₁,w₂)＝∑_iNⁱ(w₁,w₂)（1）

考虑到特征的仿射不变区域的尺寸一般都很小，本实施例将所有的区域都扩大5倍，然后记录任意两个视觉词语之间的共生次数并且构成视觉词语共生表。除了共生次数以外，每一个视觉词语在数据库中单独出现的次数N(w)也需要被记录。上述5倍为优选比例，也可以是其它值，比如3倍至10倍之间的值。

2）给定一幅测试图片，提取其尺度不变特征SIFT（Scale Invariant Feature Transform）

提取尺度不变特征的过程可参考文献“D.G.Lowe.Distinctive image features fromscale-invariant keypoints.IJCV,60(2):91-110,2004.”。

3）随机选择20%作为中心特征（如图3所示左下虚线框中的三角形特征），并且在它们各自的仿射不变区域（如图3所示虚线框中的黑边圆圈）内统计它们的近邻特征(如图3所示虚线框中的五角星)。上述20%为优选比例，也可以是其它值，比如20%至30%之间的值。

如图3所示，在建立共生表的时候，统计每一个中心特征q₀共生的特征q_s,...,q_k，而对于测试图片（查询图片）来说，则统计每一个特征q_s都与哪些中心特征共生。这样倒排的方式使得一个特征可以同时属于多个中心特征的仿射不变区域，从而更多的共生信息可以被利用。之所以选择这种与训练图片相反的特征排序聚簇方式是因为特征之间的仿射不变区域是非对称的，比如，假设q_s在q₀的仿射不变区域内，但反过来q_s作为中心的时候q₀不一定在它的放射不变区域内。

4）将这20%中心特征用FLANN方法做精确映射，具体实现步骤可参见文献“M.Muja,D.G.Lowe.Fast approximate nearest neighbors with automatic algorithm configuration.In Proc.VISSAPP，pages331–340,2009”。做精确映射也可以采用其它方法，诸如蛮力算法、近似最近邻算法ANN（Approximate Nearest Neighbor）、局部敏感哈希算法LSH（Locality Sensitive Hash）等。

5）利用高阶概率预测器为那些近邻特征提供候选视觉词语，比较它们与特征之间的欧氏距离决定最优的视觉词语。

对测试图片的视觉词语预测需要找到每一个特征所属的中心特征区域，如图3所示,构成中心组。中心特征被首先映射到对应的视觉词语，接下来根据高阶概率预测器对共生特征提供候选视觉词语。例如对于q_s，一般来说近邻组和中心组内特征数目都是比较少的，这是由纺射不变区域的大小决定的，所有q_s的中心组对应的视觉词语的共生词语都首先被当做候选特征集合。它们的高阶后验概率都可以通过下式计算获得：

{\overset{*}{w}}_{s} = {\arg \max}_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1}) - - - (2)

选择概率最大的视觉词语作为最优选择。这样的选择虽然简单，但却是不精确的，它仅仅提供一种可能性。为了产生精确的视觉词语，本发明通过欧氏距离来比较特征与候选词语之间的距离。每一次，根据预设的最大比较次数K，选出前K次概率最大的词语作为候选词语来计算它们与特征q_s之间的欧氏距离，欧氏距离最小的那个词语就是所要产生的精确视觉词语。除欧式距离外，本发明也可以采用其它的距离值，如闵可夫斯基距离、马氏距离、切比雪夫距离等。

下面对高阶概率预测器作原理上的说明。

一般来说，在预测编码中，如果采样到一个字母I，则很难预测下一个字母，因为以I开头的单词有许多。然而假设我们如果我们已知I-m-a-g，则根据Image这个单词，下一个字母将有极大的可能是e。基于此本发明提出多采样视觉词语的高阶概率预测器来预测它们的近邻视觉词语。

假设已经通过精确映射得到s个视觉词语，构成集合S={w₀,w₁...w_s-1}，根据S可以预测这些视觉词语对应的特征的近邻特征的视觉词语。前文提到，对任意一个视觉词语，在数据库中可能与它们共生的视觉词语记录在共生表中。因为共生是限定在特征的仿射不变区域内的，所以共生表是很稀疏的。本发明将S中的每一个视觉词语对应的共生表中的共生词语词集合在一起W={w_S0,w_S1...w_Sv}，假设有v个，作为近邻特征的候选视觉词语。

利用贝叶斯准则来给出W中的最优候选视觉词语作为最可能与w₀，w₁,...,w_s-1共生的视觉词语。这种可能性在数学中代表了一种最大的后验概率的计算公式如下：

{\overset{*}{w}}_{s} = {\arg \max}_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1}) - - - (3)

其中，表示从候选视觉词语集合W选出的任意词语。可以用联合概率来计算此式：

p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1}) = \frac{p ({\hat{w}}_{s}, w_{0}, . . ., w_{s - 1})}{p (w_{0}, . . ., w_{s - 1})} - - - (4)

其中，表示的联合概率，可以被分解为：

p ({\hat{w}}_{s}, w_{0}, . . ., w_{s - 1}) = p (w_{0}, . . ., w_{s - 1} | {\hat{w}}_{s}) p ({\hat{w}}_{s}) - - - (5)

其中，可以通过来估计。为了分解式（5）,假设已获得的视觉词语之间是w₀,w₁...w_s-1统计独立的，这样p(w₀,..,w_s-1)就可以被近似为而只依赖于这样它们都可以被一阶条件概率所近似：

p ({\hat{w}}_{s}, w_{0}, . . ., w_{s - 1}) \approx p ({\hat{w}}_{s}) Π_{w_{i} &Element; S} p (w_{i} | {\hat{w}}_{s})

p (w_{0}, . . ., w_{s - 1}) \approx Π_{w_{i} &Element; S} p (w_{i}) - - - (6)

其中，可以从先验共生次数估计得到。式（4）的最大后验概率对应下面的分解形式：

{\overset{*}{w}}_{s} = \arg \max_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1})

\approx \arg \max_{{\hat{w}}_{s} &Element; W} \frac{p ({\hat{w}}_{s}) Π_{w_{i} &Element; S} p (w_{i} | {\hat{w}}_{s})}{Π_{w_{i} &Element; S} p (w_{i})}

= \arg \max_{{\hat{w}}_{s} &Element; W} \frac{\frac{N ({\hat{w}}_{s})}{N_{T}} Π_{w_{i} &Element; S} \frac{N (w_{i}, {\hat{w}}_{s})}{N ({\hat{w}}_{s})}}{Π_{w_{i} &Element; S} \frac{N (w_{i})}{N_{T}}} - - - (7)

N_T是所有视觉词语出现的总次数。这里的近似表示w₀,w₁，...,w_s-1与共生的可能性是最大的，也即是说由视觉词语w₀,w₁,...,w_s-1，w_s构成的当前局部区域是最可能出现的局部模式。

如果每一个视觉词语的预测仅仅依赖于距离其空间特征最近的视觉词语w_s-1，则式（7）退化成一阶条件概率的形式：

{\overset{*}{w}}_{s} = \arg \max_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{s - 1}) - - - (8)

6）如果一些特征不属于任何中心特征的区域，或者当前计算得到的最佳欧氏距离仍然很大，就用FLANN继续搜索，进行精确映射。这里也可以采用其它算法，诸如蛮力算法、近似最近邻算法ANN（Approximate Nearest Neighbor）、局部敏感哈希算法LSH（LocalitySensitive Hash）等。

7）根据产生的视觉词语，在数据库中对查询图像进行检索，并返回相关图像。

下面提供一个具体的实例，参见图2，说明本发明的基于视觉词语空间共生性的图像检索方法。实验结果参见图3以及图4。

输入：索引图片y，最大比较次数M；

输出：索引图片的字袋模型的表示

1）提取图像仿射不变特征SIFT，任选其中50%特征作为中心特征，统计在它们5倍大的纺射射不变区域内的共生特征，形成近邻特征组。

2）将近邻特征组组映射到近邻视觉词语组，统计任意两个视觉词语在训练集上的共生数目，建立视觉词语共生表。

3）在对索引图片y，提取特征，任选其中20%特征作为中心特征。

4）剩余80%特征分别归类到各自所属中心的十倍大的仿射不变区域内形成中心特征组。

5）将20%中心特征先做精确映射用FLANN；对剩余80%近邻特征用本文所提出的高阶概率预测器进行视觉词语产生。

具体产生过程以q_s为例说明如下，其中所述中心特征组w₀,...,w_s-1：

当前比较次数K<共生表收集的共生视觉词语数目W<最大比较次数M：

a）提供前K个候选视觉词语：

K - {\arg \max}_{{\hat{w}}_{s} &Element; W} p ({\hat{w}}_{s} | w_{0}, . . ., w_{s - 1});

b）计算距离q_s的欧氏距离最近的最优视觉词语w^*；

当共生表收集的共生视觉词语数目W<当前比较次数K<最大比较次数M：用FLANN寻找最优的视觉词语w^*。

6）视觉词语产生后，就可以进一步进行图像的检索。

6.1）查询图像被表示成视觉词语的高维向量：

a）统计查询图像中每一个视觉词语出现的词频TF（term frequncy）；

b）统计获得查询图像中每一个数据词语的反文档频率IDF（inverse documentfrequency）；

c）查询图像的视觉词语向量的每一维值对应了当前视觉词语的TF*IDF值；

6.2）度量查询图像的高维向量与数据库中图像对应视觉词语向量的相似度，按照相似度大小的从高到低顺序返回检索相关图像。

图4表示在牛津数据库上的视觉词语产生的时间精度对应结果，视觉词典选择100K,比较算法包括高阶概率预测器、一阶概率预测器、FLANN、共生表算法（R.Xu,M.Shi,B.Geng,C.Xu.Fast visual word assignment via spatial neighborhood boosting[C].In Proc.ICME,pages262–270,2011.）以及KD树算法。近似视觉词语产生算法精度到达0.95时，比较高阶概率预测器算法与FLANN算法，时间效率提高了约为142%；另一方面，在相同时间500ms，高阶概率预测器算法精度可以达到0.95，而FLANN精度约为0.88。

图5表示在牛津数据库上的视觉词语产生的另一时间精度对应结果，视觉词典选择1M。近似视觉词语产生算法精度到达0.90时，比较高阶概率预测器算法与FLANN算法，时间效率提高了约为35%；另一方面，在相同时间4.3s，高阶概率预测器算法精度可以达到0.9，而FLANN精度约为0.88。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于视觉词语空间共生性的图像检索方法，包括下列步骤：

1)统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表；

2)提取输入的查询图像的尺度不变特征；

3)在所述尺度不变特征中随机选择部分特征作为中心特征，对所述中心特征做精确映射；并在所述中心特征的仿射不变区域内统计其近邻特征；

4)根据所述视觉词语共生表和所述精确映射的结果，利用高阶概率预测器为所述近邻特征预测候选视觉词语；所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语，其计算公式为：

{\overset{*}{w}}_{s} = {\arg \max}_{\hat{w_{s}} &Element; W} p (\hat{w_{s}} | w_{0}, . . ., w_{s - 1}),

其中，w₀，w₁,...,w_s-1为通过精确映射得到的视觉词语，为最可能与w₀，w₁,...,w_s-1共生的视觉词语，表示后验概率，表示从候选视觉词语集合W选出的任意词语；

5)比较所述候选视觉词语与所述尺度不变特征之间的距离，确定最优的视觉词语；

6)根据所述最优的视觉词语，对所述查询图像进行检索，并返回相关图像。

2.如权利要求1所述的方法，其特征在于，如果视觉词语w₁对应的特征位于视觉词语w₂对应的特征的仿射不变区域内，则认为w₁与w₂是共生的。

3.如权利要求2所述的方法，其特征在于，将所述仿射不变区域扩大至原区域的3至10倍，在扩大后的区域上记录任意两个视觉词语之间的共生次数。

4.如权利要求1所述的方法，其特征在于，从所述尺度不变特征中随机选择20％至30％作为所述中心特征。

5.如权利要求1所述的方法，其特征在于，进行所述精确映射的方法包括：Fast Liberary forApproximate Nearest Neighbor算法、蛮力算法、近似最近邻算法、局部敏感哈希算法。

6.如权利要求1所述的方法，其特征在于，所述距离采用下列距离中的一种：欧式距离、闵可夫斯基距离、马氏距离、切比雪夫距离。

7.如权利要求1所述的方法，其特征在于：在建立所述共生表时，统计每一个中心特征区域所包括的共生特征；在进行图像检索时，统计查询图片的每一个特征所属的中心特征，以获得更多的共生信息。

8.如权利要求1所述的方法，其特征在于：对于不属于任何中心特征的特征，以及利用所述高阶概率预测器进行预测后误差仍较大的特征，采用精确映射的方法搜索其对应的视觉词语。

9.如权利要求1至8任一权利要求所述的方法，其特征在于：步骤6)中，将查询图像表示成视觉词语的高维向量，度量数据库中图像对应的视觉词语向量与该高维向量的相似度，按照相似度从高到低的顺序返回所述相关图像。