CN106874421A

CN106874421A - 基于自适应矩形窗口的图像检索方法

Info

Publication number: CN106874421A
Application number: CN201710055225.0A
Authority: CN
Inventors: 冯德瀛; 赵颖; 刘从新; 孙哲
Original assignee: Liaocheng University
Current assignee: Liaocheng University
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2017-06-20

Abstract

本发明公开了一种基于自适应矩形窗口的图像检索方法，具体包括如下步骤：步骤A、对数据库图像提取局部不变特征，并对每幅数据库图像中的特征描述子的空间坐标采用G‑means方法进行聚类；步骤B、在每幅数据库图像中根据G‑means聚类的类别创建自适应矩形窗口，并移除稀疏的矩形窗口、合并矩形窗口以及移除小矩形窗口；步骤C、将数据库图像中的自适应矩形窗口分别矢量化，创建自适应窗口矢量，并基于窗口矢量创建倒排索引；步骤D、将待检索目标区域矢量化，并在倒排索引中进行相似性搜索，给出最终的检索结果。与现有技术相比，本发明在保证检索效率的同时，提高了检索准确率。

Description

基于自适应矩形窗口的图像检索方法

技术领域

本发明属于信息处理技术领域，具体涉及一种基于自适应矩形窗口的图像检索方法。

背景技术

随着互联网技术的快速发展和数码产品的大规模普及，图像的获取更加简捷方便，图像的数量呈现爆炸性的增长，从而对图像的存储、搜索和组织提出了巨大的挑战和考验。在现实生活中，如何在大规模图像库中快速准确地获取最有用的信息，成为人们关注和研究的焦点之一。

图像检索技术是指根据查询图像内容信息或者指定查询标准，在图像库中进行搜索并查找出符合条件的相关图像。传统的图像检索技术大多采用基于文本的检索方法，它沿用了传统的文本检索技术，从图像名称、尺寸、压缩类型、作者、年代等方面描述图像，通过关键词的形式查询图像。基于文本的图像检索技术，不能对图像底层特征进行客观分析和描述，逐渐被基于内容的图像检索技术所取代。

基于内容的图像检索技术，早期大多采用颜色、纹理、形状等全局特征进行相似性搜索，但是这些特征对于光照、遮挡以及几何形变等不具有稳健性，因此逐渐被SIFT、SURF等局部不变性特征描述子所取代。与传统的全局特征相比，图像的局部不变性特征具有更好的唯一性、不变性和鲁棒性，能够适应图像背景混杂、局部遮挡、光线变化等各种情况，因此广泛应用在基于内容的图像检索技术中。

基于目标的图像检索是基于内容的图像检索重要的组成部分。在待检索图像中选取感兴趣的目标区域后，基于目标的图像检索系统从图像库中查询到包含相同目标区域的数据库图像并将其作为检索结果，即使这些数据库图像在全局内容上不同于待检索图像。

经对现有技术的文献检索发现，Andrew Zisserman等在专利“Object Retrieval”(美国专利号为US 2005/0225678A1，公开日期为2005年12月13日)中提供了用户在图像中自定义选取感兴趣的目标区域进行检索的方法。在该方法中，首先采用SIFT描述子描述局部不变特征，然后采用K-means方法对所有的SIFT描述子进行聚类，创建视觉词典，接着进行数据库图像矢量化，并根据图像矢量的稀疏性创建倒排索引，进行相似性搜索。在对数据库图像进行矢量化的过程中，每幅图像仅仅通过一个图像矢量进行表示，矢量中包含与待检索目标区域无关的内容信息，从而降低了待检索目标区域和数据库图像之间的相似性，同时在单一的图像矢量中没有描述出SIFT描述子之间的空间信息。

进一步检索发现，David Nister等在专利“Scalable Object Recognition UsingHierarchical Quantization with a Vocabulary Tree”(美国专利号为US7725484 B2，公开日期为2010年5月25日)中提供了一种图像检索方法。该方法在K-Means聚类的基础上引入了分层的概念，虽然降低了传统K-Means聚类的时间，但是仍然将每幅数据库图像表示为单一图像矢量，同样降低了待检索目标区域和数据库图像之间的相似性，进而降低了检索准确率。

发明内容

本发明的目的是提供一种基于自适应矩形窗口的图像检索方法，通过在数据库图像中根据局部不变特征的空间分布自动生成大小不一的矩形窗口，从而恰当地描述数据库图像中的局部区域信息，以提高待检索目标区域和数据库图像的内容相似度，避免数据库图像中内容无关区域的影响，最终在保证检索效率的同时提高检索准确率。

实现本发明目的的技术方案是：一种基于自适应矩形窗口的图像检索方法，具体包括如下步骤：

步骤A、对数据库图像提取局部不变特征，并对每幅数据库图像中的特征描述子的空间坐标采用G-means方法进行聚类；

步骤B、在每幅数据库图像中根据G-means聚类的类别创建自适应矩形窗口，并移除稀疏的矩形窗口、合并矩形窗口以及移除小矩形窗口；

步骤C、将数据库图像中的自适应矩形窗口分别矢量化，创建自适应窗口矢量，并基于窗口矢量创建倒排索引；

步骤D、将待检索目标区域矢量化，并在倒排索引中进行相似性搜索，给出最终的检索结果。

在步骤A中，对数据库图像提取局部不变特征包括如下步骤：

A－1、在每幅数据库图像中采用快速海森检测子进行特征点检测；

A－2、通过SURF描述子对各个特征点进行描述，具体为在数据库图像I_i中，提取到的SURF描述子表示为其中：是图像I_i中第r个描述子，维数为128维，n_i是图像I_i中SIFT描述子的个数。

在步骤A中，对每幅数据库图像中的局部特征空间坐标采用G-means方法进行聚类包括如下步骤：

A――1、在聚类类别总数未知的情况下，先假设图像中的特征点满足高斯分布，并对每幅图像中的特征点坐标进行聚类；

A――2、在数据库图像I_i中随机选择k个SURF描述子的二维空间坐标作为聚类中心C＝(c₁,c₂,…,c_k)；

A――3、根据聚类中心C创建随机kd树，采用随机kd树对SURF描述子的空间坐标进行近似最近邻搜索，将每个SURF描述子根据空间近邻关系划分到对应的类别中；

A――4、采用Anderson-Darling统计检验每个聚类类别中的空间坐标是否满足高斯分布，如果满足高斯分布，就保留该聚类类别；如果不满足高斯分布，就将该聚类类别划分为两类并确定对应的聚类中心；

A――5、基于新的聚类中心，重复步骤A――3至A――4，直到所有类别中的空间坐标都满足高斯分布为止，在聚类类别不再发生变化后，确定类别总数k。

在步骤B中，创建自适应矩形窗口的具体包括如下步骤：

步骤B－1、在类别C_j中，计算特征点p_i,j与其聚类中心c_j的距离d_i,j＝||p_i,j-c_j||，进而计算类别C_j中所有的特征点和聚类中心c_j之间的平均距离其中：m_j为类别C_j中特征点的数量；

步骤B－2、对于类别C_j中的特征点pi_,j，如果其中λ为设定的阈值，就将特征点p_i,j从类别C_j中滤除；

步骤B－3、在剩余特征点集合中，基于剩余特征点的空间坐标创建矩形窗口R_j，其宽度w_j和长度h_j分别计算为：其中m′_j为类别C_j中剩余特征点的数量。

在步骤B中，移除稀疏的矩形窗口包括以下步骤：

B――1、对于数据库图像I_i第j个矩形窗口R_j，计算内部特征点密度其中：a_j为矩形窗口R_j的面积；

B――2、对于矩形窗口R_j中的特征点密度如果其中：T_m为设定的特征点密度阈值，矩形窗口R_j就看作稀疏的矩形窗口，并从数据库图像中滤除。

在步骤B中，合并矩形窗口包括以下步骤：

B―――1、在垂直方向上，依次将空间近邻的两个矩形窗口R_s和R_t进行合并，合并后新的矩形窗口为V_l，其宽度w_l和长度h_l分别计算为：

B―――2、如果合并后的矩形窗口V_l的长度h_l满足条件：h_l≥0.5×h_I，其中h_I为数据库图像I_i的长度，则停止垂直方向矩形窗口的合并，以保证合并后的矩形窗口V_l在垂直方向具有空间局部性；

B―――3、在垂直方向合并后，在水平方向上，依次将空间近邻的两个矩形窗口V_s和V_t合并为新的矩形窗口W_l，其宽度w_l和长度h_l分别计算为：

B―――4、如果合并后的矩形窗口W_l的宽度w_l满足条件：w_l≥0.5×w_I，其中w_I为数据库图像I_i的宽度，则停止水平方向矩形窗口的合并，以保证合并后的矩形窗口W_l在水平方向具有空间局部性。

在步骤B中，移除矩形窗口包括以下步骤：

B――――1、在数据库图像I_i中，计算矩形窗口W_l的面积a_l＝w_l×h_l，其中：a_l为矩形窗口W_l的面积；

B――――2、对于矩形窗口的面积a_l，如果a_l＜T_a，其中T_a为设定的面积阈值，矩形窗口W_l就可以看作小矩形窗口，并从数据库图像I_i中滤除。

在步骤C中，将数据库图像中的每个矩形窗口表示为独立的窗口矢量，进而每幅数据库图像通过多个窗口矢量进行表示，具体步骤包括如下：

C－1、在将SURF描述子量化为视觉单词后，计算第z个视觉单词在矩形窗口W_l中出现的频率其中：m_l.z为第z个视觉单词在矩形窗口W_l中出现的次数，n_l为矩形窗口W_l包含的视觉单词总数；

C－2、计算第z个视觉单词在所有的矩形窗口中出现的逆向频率其中：N为图像库中自适应矩形窗口的总数，M_z为图像库中包含第z个视觉单词的自适应矩形窗口的数量；

C－3、针对自适应矩形窗口W_l，创建窗口矢量其中v_l,z为窗口矢量v_l中第z个视觉单词成分，并且计算为v_l,z＝vwf_l,z×iwf_z。

在步骤C中，基于窗口矢量创建倒排索引的具体步骤包括如下：

C――1、为每个视觉单词提供一个入口；

C――2、将矩形窗口ID及窗口矢量中的非零视觉单词成分依次存储在相应的索引列表中，与此同时，将窗口矢量的信息熵存储在索引列表中，该信息熵计算为其中：为窗口矢量v_l的信息熵，v_l,z为窗口矢量v_l中第z个视觉单词成分。

在步骤D中，在倒排索引中进行相似性搜索具体步骤包括如下：

D－1、在人工选取的待检索目标中提取SURF描述子；

D－2、将其量化为视觉单词后创建待检索目标矢量v_q，并通过其信息熵e_q在索引列表中筛选出信息熵大于e_q的窗口矢量；

D-3、在基于窗口矢量的倒排索引中进行相似性度量其中sim(Q，I)为待检索目标区域Q和数据库图像I的相似度，v_I为属于同一幅数据库图像I的多个窗口矢量；

D－4、最后将数据库图像按照相似度从大到小进行排序，排序靠前的数据库图像，即为包含待检索目标区域的图像检索结果。

本发明具有积极的效果：本发明利用特征点空间聚类的方法在数据库图像中创建自适应窗口，恰当地表示了数据库图像中的局部区域，增强了待检索图像中的目标区域和数据库图像中局部区域的相似性。通过将每个自适应矩形窗口表示为独立的窗口矢量，避免了局部区域信息湮没在全局图像矢量中，而且避免了图像中局部区域之间相互影响。通过创建基于窗口矢量的倒排索引并引入窗口矢量的信息熵，降低了相似性搜索过程中的计算量。与现有技术相比，本发明在保证检索效率的同时，提高了检索准确率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明的方法流程图；

图2为在5062幅建筑物图像库中比较G-means算法、空间金字塔方法以及我们的自适应矩形窗口(AdaptiveRectangularWindows,ARW)方法的整体检索性能：(a)检索准确率比较；(b)检索效率比较

图3为在5062幅建筑物图像库和10万幅干扰图像中比较G-means算法、空间金字塔方法以及我们的ARW方法的整体检索性能：(a)检索准确率比较；(b)检索效率比较

具体实施方式

(实施例1)

如图1至图3所示：基于自适应矩形窗口的图像检索方法，具体实施步骤如下

对数据库图像提取局部不变特征。

在数据库图像I_i中，提取到的SURF描述子表示为其中：是图像I_i中第r个描述子，维数为128维，n_i是图像I_i中SIFT描述子的个数。

对每幅数据库图像中特征描述子的空间坐标采用G-means方法进行聚类。

在G-means聚类过程中，假设图像中的特征点满足高斯分布，在数据库图像I_i中随机初始选择k＝2个SURF描述子的二维空间坐标作为聚类中心C＝(c₁,c₂)，根据聚类中心C创建随机kd树，并采用随机kd树对SURF描述子的空间坐标进行近似最近邻搜索，将每个特征点根据空间近邻关系划分到对应的类别中。采用Anderson-Darling统计检验每个聚类类别中的空间坐标是否满足高斯分布。如果满足高斯分布，就保留该聚类类别。如果不满足高斯分布，就将该聚类类别划分为两类并确定对应的聚类中心。重复多次迭代，直到所有类别中SURF描述子的空间坐标都满足高斯分布为止。在聚类类别不再发生变化后，确定最终的类别总数k。

在每幅数据库图像中根据G-means聚类的类别创建自适应矩形窗口。

首先，基于G-means聚类的类别创建矩形窗口。对于类别C_j中的特征点p_i,j，如果其中λ＝2，就将特征点p_i,j从类别C_j中滤除。在剩余特征点集合中，基于剩余特征点的空间坐标创建矩形窗口R_j。

接着，移除稀疏的矩形窗口。对于数据库图像I_i中第j个矩形窗口R_j，计算内部特征点密度如果其中T_m＝0.004，矩形窗口R_j就看作稀疏的矩形窗口，并从数据库图像中滤除。

然后，合并矩形窗口。在垂直方向上，依次将空间近邻的两个矩形窗口R_s和R_t合并为新的矩形窗口为V_l。如果V_l的长度h_l满足条件：h_l≥0.5×h_I，则停止垂直方向上的合并。在水平方向上，依次将空间近邻的两个矩形窗口V_s和V_t合并为新的矩形窗口W_l。如果W_l的宽度w_l满足条件：w_l≥0.5×w_I，则停止水平方向上的合并。

最后，移除小矩形窗口。对于矩形窗口W_l的面积a_l，如果a_l＜T_a，其中T_a＝6000，矩形窗口就可以看作小矩形窗口，并从数据库图像I_i中滤除。

将数据库图像中的自适应矩形窗口分别矢量化，并创建基于窗口矢量的倒排索引。

从图像库提取的所有特征描述子中随机选取5百万个SURF描述子，在设定聚类中心数目为5万的情况下对其进行聚类，进而根据聚类中心创建视觉词典。接着将图像数据库中所有的SURF描述子量化为最近邻的视觉单词，并在自适应矩形窗口中统计视觉单词的频率，将自适应矩形窗口表示为5万维的窗口矢量。最后，根据视觉单词和窗口矢量的反向关系，创建一个由5万个索引列表所组成的倒排索引，并在对应的索引列表中存储矩形窗口ID，非零视觉单词成分以及窗口矢量的信息熵。

将待检索目标区域矢量化，并在倒排索引中进行相似性搜索。

在待检索目标区域中提取SURF描述子，并基于包含5万个视觉单词的视觉词典进行矢量化，进而将待检索目标区域表示为5万维的待检索目标矢量。在基于窗口矢量的倒排索引中进行相似性搜索，计算待检索目标矢量和窗口矢量之间的相似度将数据库图像按照相似度从大到小进行排序，排序靠前的数据库图像，即为包含待检索目标区域的图像检索结果。

对本发明方法仿真实验如下：

本实验分别选取了5062幅建筑物图像库和10万幅干扰图像库进行了检索测试。在5062幅建筑物图像库中，其平均分辨率为1024×768像素。10万幅干扰图像库主要用来测试检索方法在大规模图像数据库中的检索性能。表1分别给出了两个图像库的图像数量以及提取出的SURF描述子的数量。

表1两个图像库的技术指标

图像数据库	图像数量	SURF描述子数量
			建筑物图像库	5062幅	12,737,036
干扰图像库	10万幅	79,871,829

在图2中，本实验在5062幅建筑物图像库中比较了G-means算法、空间金字塔方法以及自适应矩形窗口(Adaptive Rectangle Windows,ARW)方法整体检索性能。在图2(a)中，本实验通过均值平均准确率比较三种方法的检索准确率。ARW方法的均值平均准确率高于其它两种方法的均值平均准确率。该方法通过自适应矩形窗口表示数据库图像中的局部区域，不仅在矩形窗口中包含更多的空间信息，而且在图像中反映出局部区域的真实分布。因此，ARW方法通过自适应矩形窗口增加了与待检索目标区域的相似性，进而提高了检索准确率。在图2(b)中，本实验比较了三种方法的检索时间。ARW方法在三种检索方法中耗费时间最短，这是因为该方法通过信息熵对窗口矢量进行筛选，减少了涉及相似性计算的窗口矢量的数量，进而通过减少相似性计算过程中的计算量提高了检索效率。从图2可以看出，ARW方法在保证检索效率的同时提高了检索准确率。

在图3中，本实验将10万幅干扰图像引入5062幅建筑物图像库，并在这两个图像数据库中比较G-means算法、空间金字塔方法以及ARW方法的检索性能。在图3(a)中，本实验通过均值平均准确率比较三种方法的检索准确率。ARW方法的均值平均准确率仍高于G-means算法和空间金字塔方法的均值平均准确率，从而在大规模图像数据库中保证了检索准确率。在图3(b)中，本实验比较了三种方法的检索时间。随着图像库规模的增大，三种方法的检索时间都相应地增长。然而，ARW方法的检索时间仍少于其它两种方法的检索时间，从而在大规模图像数据库中保证了检索效率。

本实施例中所设计的算法均在Matlab 7.6上运行。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。

Claims

1.一种基于自适应矩形窗口的图像检索方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤A中，对数据库图像提取局部不变特征包括如下步骤：

3.根据权利要求2所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤A中，对每幅数据库图像中的局部特征空间坐标采用G-means方法进行聚类包括如下步骤：

4.根据权利要求3所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤B中，创建自适应矩形窗口包括如下步骤：

步骤B－1、在类别C_j中，计算特征点p_i,j与其聚类中心c_j的距离d_i,_j＝||pi_,j-c_j||，进而计算类别C_j中所有的特征点和聚类中心c_j之间的平均距离其中：m_j为类别C_j中特征点的数量；

步骤B－3、在剩余特征点集合中，基于剩余特征点的空间坐标创建矩形窗口R_j，其宽度w_j和长度h_j分别计算为：其中m_j′为类别C_j中剩余特征点的数量。

5.根据权利要求4所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤B中，移除稀疏的矩形窗口包括以下步骤：

6.根据权利要求4所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤B中，合并矩形窗口包括以下步骤：

7.根据权利要求4所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤B中，移除矩形窗口包括以下步骤：

8.根据权利要求4至权利要求7中任意一项所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤C中，将数据库图像中的每个矩形窗口表示为独立的窗口矢量，进而每幅数据库图像通过多个窗口矢量进行表示，具体步骤包括如下：

9.根据权利要求8所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤C中，基于窗口矢量创建倒排索引的具体步骤包括如下：

C――1、为每个视觉单词提供一个入口；

10.根据权利要求9所述的基于自适应矩形窗口的图像检索方法，其特征在于：在步骤D中，在倒排索引中进行相似性搜索具体步骤包括如下：

D-1、在人工选取的待检索目标中提取SURF描述子；

D-2、将其量化为视觉单词后创建待检索目标矢量v_q，并通过其信息熵e_q在索引列表中筛选出信息熵大于e_q的窗口矢量；

D-3、在基于窗口矢量的倒排索引中进行相似性度量其中sim(Q，I)为待检索目标区域Q和数据库图像I 的相似度，v_I为属于同一幅数据库图像I的多个窗口矢量；

D-4、最后将数据库图像按照相似度从大到小进行排序，排序靠前的数据库图像，即为包含待检索目标区域的图像检索结果。