CN103605765A

CN103605765A - 一种基于聚类紧凑特征的海量图像检索系统

Info

Publication number: CN103605765A
Application number: CN201310611155.4A
Authority: CN
Inventors: 董乐; 梁燕; 封宁; 谢山山
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2014-02-26
Anticipated expiration: 2033-11-26
Also published as: CN103605765B

Abstract

本发明属于模式识别与信息处理技术领域，提供了基于聚类紧凑特征的海量图像检索系统，包括如下步骤：一、计算样本图像库和测试图像库中图像的局部特征；二、计算每幅图像的聚类紧凑特征：对局部特征采用聚类方法获取每类的聚类中心，再统计在每个聚类中的局部特征分布直方图和空间统计信息，生成聚类紧凑特征；三、随机采样样本图像库中的聚类紧凑特征，对采样所得聚类紧凑特征中聚类中心的分量应用聚类方法生成词汇树，将测试图像库中图像的聚类紧凑特征都量化到词汇树上，生成相应的倒排文件；四、采用改进的基于词汇树的检索算法进行检索：通过查询词汇树的倒排文件，计算查询图像与图像库图像聚类紧凑特征间的相似度权重进行检索。

Description

一种基于聚类紧凑特征的海量图像检索系统

技术领域

本发明属于模式识别与信息处理技术领域，涉及计算机视觉方面的海量图像处理，尤其涉及一种基于聚类紧凑特征的海量图像检索的研究和实现方案。本方案通过对视觉特征进行基于聚类的紧凑描述并通过改进的基于词汇树的检索算法快速高效的在海量图像中检索出相似图片。

背景技术

目前，随着互联网图像数据的爆炸性增长，如何从图像大数据中检索出最相似的图片变为一项非常有挑战的主题并吸引了大量的研究工作。图像检索具有广泛的应用场景，在电子商务，社交网络，商品或风景推荐等方面应用价值越来越高。考虑一个最广泛也最通用的场景，用户在大规模的图像库中发现一张感兴趣的图片，可以是商品图片也可以风景，艺术等类型图片，想要快速准确的检索到这个图像库中与之最相似的图片。传统的图像检索通过提取图像的视觉特征包括像颜色、轮廓、纹理这样的底层特征和高维特征，在根据视觉特征计算相似度距离进行检索。海量图像检索的关键是在保持检索性能的情况下快速高效根据特征检索相似图像。

但由于包含相同的物品或场景的图片存在极大的差异，特别是由于光照，旋转，聚焦的影响，更别说相同类别不同物品之间的多样性，使海量图像检索存在特定的挑战。传统的基于内容的图像检索在检索精度和检索效率上都不能满足海量图像检索的需求。与此同时，图像多样性和海量数据增加了紧凑并具有高辨识度的视觉特征，更加鲁棒的索引结构和检索算法的需求。为了获取高辨识度的视觉特征，研究者提出了多种有效的算法，包括绑定多种特征生成词汇包[1]-[6],探索局部特征间的几何结构[7]-[10]和空间分布信息[4],[11]-[13]。然而当图像库中图像的数量增加到百万级别，这些算法会产生巨大的计算和存储开销，不利于系统实现。为了改善海量图像检索存在的计算和存储开销大的问题，[7,14,15]采用词汇树的索引结构成功地提高检索速度。词汇树索引结构是通过对样本图像的特征进行分层聚类。每个聚类中心都是词汇树的一个节点，第一次聚类产生的结果就是词汇树的第一层节点，以此类推。基于词汇树的检索通过查找树的相同节点的倒排文件进行检索，避免了需要和图像库中所有特征进行相似度计算，大大加快了检索速度。然而基于词汇树的方法需要把图像中数以千计的特征根据视觉词汇编码生成词汇包，这仍然导致大量的计算开销和存储开销。

参考文献：

[1]X.Wang,X.Bai,W.Liu,L.J.Latecki.Feature Context for Image Classification and ObjectDetection.In CVPR,June20-25,2011.

[2]Z.Wu,Q.Ke,M.Isard,J.Sun.Bundling Features for Large Scale Partial-Duplicate Web ImageSearch.In CVPR,June20-25,2009.

[3]Z.Lin and J.Brandt.A Local Bag-of-Features Model for Large-scale Object Retrieval.In ECCV,Vol.6316,Sept.5-11,2010.

[4]Y.Cao,C.Wang,Z.Li,et al.Spatial-Bag-of-Features[C],In CVPR,Sept.5-11,2010.

[5]H.J’egou,M.Douze,and C.Schmid.Improving Bag-of-Feature for Large Scale Image Search.In International Journal of Computer Vision,2010.

[6]G.Csurka,C.Dance,L.Fan,J.Willamowski,and C.Bray.Visual Categorization with Bags ofKeypoints.In Workshop on Statistical Learning in Computer Vision,ECCV,May11-14,2004.

[7]S.Zhang,Q.Huang,G.Hua,S.Ji ang,W.Gao,and Q.Tian.Building Contextual VisualVocabulary for Large-scale Image Applications.In ACM Multimedia,Oct.25-29,2010.

[8]H.Jegou,M.Douze,and C.Schmid.Hamming Embedding and Weak Geometric Consistencyfor Large Scale Image Search.In ECCV,October12-18,2008.

[9]Y.Jiang,J.Meng,J.Yuan.Randomized Visual Phrases for Object Search,In CVPR,June16-21,2012.

[10]Y.Zhang,Z.Jia,T.Chen.Image Retrieval with Geometry-Preserving Visual Phrases.In CVPR,June20-25,2011.

[11]J.Philbin,O.Chum,M.Isard,J.Sivic,and A.Zisserman.Object Retrieval with LargeVocabularies and Fast Spatial Matching.In CVPR,June17-22,2007.

[12]W.Zhou,Y.Lu,H.Li,Y.Song,and Q.Tian.Spatial Coding for Large-scale Partial-DuplicateWeb Image Search.In ACM Multimedia,Oct.25-29,2010.

[13]G.Tolias,Y.Avrithis.Speeded-up,Relaxed Spatial Matching[C],In ICCV,Nov.6-13,2011.

[14]D.Nister and H.Stewenius.Scalable Recognition with a Vocabulary Tree.In CVPR,vol.2,June17-22,2006.

[15]X.Wang,M.Yang,T.Cour,S.Zhu,K.Yu,and T.X.Han.Contextual Weighting forVocabulary Tree Based Image Retrieval.In ICCV,Nov.6-13,2011。

发明内容

本发明的目的在于为了克服海量图像检索中计算和存储开销大的不足等问题，提供了一种能够在保持视觉特征高辨识度的情况下紧凑地描述局部特征以及通过更多的信息例如空间信息来更有效的检索的一种基于聚类紧凑特征的快速高效的海量图像检索方法，该方法能够解决图像的快速检索问题，特别是包含百万或百万以上图像的图像库，由此用户可以在面临海量图像，快速检索与所感兴趣的图像最相似的图像。其是一种在不影响检索效率的情况下，快速有效的大规模图像检索方法。

为了实现上述目的本发明采用以下技术方案：

基于聚类紧凑特征的快速高效的海量图像检索方法，其特征在于包括如下步骤：

步骤一：计算样本图像库和测试图像库中图像的局部特征；

步骤二：计算每幅图像的聚类紧凑特征：

对局部特征采用聚类方法获取每类的聚类中心，再统计在每个聚类中的局部特征分布直方图和空间统计信息，生成聚类紧凑特征；

步骤三：随机采样样本图像库中的聚类紧凑特征，对采样所得聚类紧凑特征中聚类中心的分量应用聚类方法生成词汇树，将测试图像库中图像的聚类紧凑特征都量化到词汇树上，生成相应的倒排文件；

步骤四：采用改进的基于词汇树的检索算法进行检索：通过查询词汇树的倒排文件，计算查询图像与图像库图像聚类紧凑特征间的相似度权重进行检索。

上述技术方案中，所述聚类采用K-means聚类或Affinity Propagation(AP)聚类等聚类算法。

上述技术方案中，所述步骤1中的局部特征为SIFT特征，根据所提取出的局部特征每幅图像表示为I={d₁,d₂,…，d_M}∈R^D×M，其中d表示局部特征，D表示局部特征维度，M表示每幅图像局部特征的数目，R表示实数空间。

上述技术方案中，步骤二中，聚类紧凑特征表示为：

I＝{CFC₁,CFC₂,…，CFC_N}

CFC_i＝{μ_i,h_i,v_i}，

①N表示每幅图像聚类的数目；μ_i表示第i个聚类x_i的聚类中心；

②上式中成空间统计向量ρ_i，

分别表示第i聚类的特征密度,平均尺度,尺度方差，平均方向和方向方差，在下面的公式中s_j,θ_j分别表示在第i个聚类中第j个局部特征的尺度和方向，ρ表示聚类紧凑特征密度，n(i)表示在聚类区域内，局部特征的数目，d_j为在第i个聚类中第j个局部特征，x_i表示第i个聚类；

ρ_i＝n(i),i＝1,2,…,K

\overset{&OverBar;}{s_{i}} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} s_{j}

σ_{i}^{s} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} {(s_{j} - \overset{&OverBar;}{s_{i}})}^{2}

\overset{&OverBar;}{θ_{i}} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} θ_{j}

σ_{i}^{θ} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} {(θ_{j} - \overset{&OverBar;}{θ_{i}})}^{2}

③

每个聚类划分为R个小区域，第i聚类的特征分布直方图第r个分量

h_{i}^{r} = Σ_{j = 1}^{k} \{\begin{matrix} 1, & if & {dis}_{i, j} &Element; {dis}_{i}^{r}, r = 1,2, . . ., R \\ 0, & otherwise \end{matrix},

k表示第i聚类中局部特征的数目，根据第i聚类中第j个局部特征到聚类中心的距离统计获得，其中第i聚类中第j个局部特征到聚类中心的距离表示如下：

{dis}_{i, j} = {| | d_{j} - μ_{i} | |}^{2}, d_{j} &Element; x_{i}

d_j表示在第i个聚类中第j个局部特征、μ_i表示第i个聚类x_i的聚类中心；

为避免不能包含所有的局部特征或所有的局部特征都划分到直方图的一个分量中，对dis_i,j进行量化：

{dis}_{i, j} = \frac{{dis}_{i, j}}{Σ_{j = 1}^{k} {dis}_{i, j}} .

上述技术方案中，图像库中查询图像和目标图像间的相似度定义为：

sim (q, d) \overset{\cdot}{=} \frac{1}{| I_{q} | | I_{d} |} \underset{i &Element; I_{q}, j &Element; I_{d}}{Σ} f ({CFC}_{i}^{q}, {CFC}_{j}^{d})

其中|I_q|表示查询图像的聚类紧凑特征数目，|I_d|表示目标图像的聚类紧凑特征数目，为聚类紧凑特征间的相似度度量函数

({CFC}_{i}^{q}, {CFC}_{j}^{d}) \underset{v_{i} &Element; T ({CFC}_{i}^{q}), v_{j} &Element; T ({CFC}_{j}^{d})}{Σ} f_{v (v_{i}, v_{j})}

f_v(v_i,v_j)＝w_i,j(v_i)I(v_i＝v_j)

w_{i, j} (v) = w_{i, j}^{c} (v) \times w_{i, j}^{h} (v) \times w_{i, j}^{s} (v),

①

表示每个聚类紧凑特征从词汇树的根节点量化到叶子节点的视觉词汇路径集合，I(·)是一个判断函数，w_i,j(v)表示量化到词汇树上同一个节点的两个聚类紧凑特征，即查询图像第i个聚类紧凑特征和目标图像第j个聚类紧凑特征的相似度权重，由三部分组成，包括聚类中心相似度权重函数

特征分布直方图相似度权重函数和空间统计信息相似度权重函数

为聚类中心相似度权重函数，

为查询图像第i个聚类紧凑特征量化到词汇树节点v的权重，

为目标图像第j个聚类紧凑特征量化到词汇树节点v的权重、idf(v)为词汇树节点v的IDF权重、、n^q(v)表示查询图像量化到节点v的聚类紧凑特征数目，ω(v)是一个权重相关系数，可根据经验设置值；

w_{i}^{q} = \sqrt{\frac{\underset{v &Element; T ({CFC}_{i}^{q})}{Σ} ω (v)}{\underset{v &Element; T ({CFC}_{i}^{q})}{Σ} ω (v) \times n^{q} (v)}}

②

为局部特征分布直方图相似度权重函数，通过计算特征分布直方图相应分量的最小值和最大值的比率之和表示，公式如下:

公式中

表示查询图像第i个聚类紧凑特征的局部特征直方图的第r个分量，

表示目标图像第j个聚类紧凑特征的局部特征直方图的第r个分量,R表示聚类所划分的区域数目，r＝1,2,…，R，

③为空间统计信息相似度权重函数,

聚类紧凑特征密度相似度权重：

平均尺度相似度权重：

尺度方差相似度权重：

平均方向相似度权重：

方向方差相似度权重：

本发明通过提取聚类，将图像特征很好的转化为了文本。解决了海量图像的快速有效检索问题，本发明具有以下优点：

一、从图像检索系统的易于实现的角度出发，通过对图像大量的局部特征做聚类，提取出聚类中心作为一个图像的初步描述，大大的减少了一副图像的特征数量，提高了检索的速度，降低了存储开销。

二、从信息处理技术的角度出发，通过计算每个聚类的局部特征分布直方图和空间统计信息，丰富了每个特征向量所包含的信息，使用很小的计算开销就提高了每个特征向量的辨识度。

三、从消费者对用户体验的要求出发，通过对词汇树检索算法的改进，能够快速高效地实现海量图像检索效果。

四、为了验证本发明的效果，我们选用了标准图像库UKbench和ImageNet上图片作为测试图像库，包括UKbench和ImageNet-T，同时从ImageNet图像库中抽取选用了100,000张和所有测试图像不重复的图像作为样本图像库。其中UKbench包括2550类，每类从不同的视角拍摄4张图像，共10200张图像；ImageNet-T是从ImageNet图像库中选取1000类共1,261,392张图像。本发明的部分实验结果如图3所示。与参考文献[14]方法对比，在UKbench和ImageNet-T图像库的检索准确度的对比如表2，3所示。通过对比可以发现在微弱的降低检索准确度的情况下，检索时间不高于100ms，仅仅是[14]的10.6%，达到了很好的实时效果。

附图说明：

图1是基于聚类紧凑特征的海量图像检索系统框架图；

图2特征量化过程图；

图3a-3d部分实验结果图；

图4ImageNet-T图像库上的性能对比图；

图5实验不同词汇树的参数；

图6UKbench图像库的检索性能；

图7ImageNet-T图像库的检索性能。

具体实施方式:

为了使得本发明的目的、技术方案和有益效果更加清楚明白，以下结合具体案例，并参照附图，对本发明进行进一步详细的说明。

本发明是用于海量图像库中，特别是包含百万或百万以上图像库，相似图像的快速检索方法。该方法能够将图像所提取的局部视觉特征通过聚类和相应局部特征分布直方图以及空间分布信息的计算获得聚类紧凑特征，同时应用基于改进词汇树的索引结构，使用聚类紧凑特征进行检索，能高效的完成对海量图像的检索工作。该检索方法能够很好的满足用户对快速有效检索方法需求，同时可在很大程度上增加图像检索的用户体验，并通过大量的实验验证了本发明仅使用很少的计算量就在大规模图像检索达到了让人满意的效果，同时展示了本发明方法在计算准确率和检索效率上都具有很好的可扩展性。

我们的测试实验软硬件环境为：

硬件环境：

电脑类型：IBM小型机

CPU：16核IBM CPU每核主频2.2GHz

内存：30.00GB

系统类型：64位SLES11操作系统

软件环境：

IDE：Visual Studio2010

图像处理SDK：OpenCV2.3.1

开发语言：C++

如图1本发明基于聚类紧凑特征的检索系统框架图，对海量图像库中相似图像的检索方法包括如下步骤：

步骤一：首先为了能够提取出图像的可用信息，根据现已有的经典算法提取出图像的视觉局部特征。本发明采用的是SIFT特征，提取出样本图像库和测试图像库中图像的SIFT特征，表示为d_m∈R^D。每幅图像根据所提取的M个局部特征表示为I=[d₁,d₂,…，d_M]∈R^D×M。

步骤二：对步骤一所获得的图像局部特征进行聚类，获取到N个聚类X＝{x₁,x₂,…，x_N}（N＜M），并用μ_i表示聚类x_i的聚类中心。计算每个聚类中局部特征到聚类中心的距离，如公式1。dis_i,j表示在第i聚类中第j个局部特征到聚类中心的距离。

{dis}_{i, j} = {| | d_{j} - μ_{i} | |}^{2}, d_{j} &Element; x_{i}

（公式1）

根据所计算的距离统计局部特征在该聚类的分布直方图：

h_{i}^{r} = Σ_{j = 1}^{k} \{\begin{matrix} 1, & if & {dis}_{i, j} &Element; {dis}_{i}^{r}, r = 1,2, . . ., R \\ 0, & otherwise \end{matrix}

（公式2）

其中

表示第i聚类的特征分布直方图的第r个分量，k表示第i聚类中局部特征的数目。该聚类被划分为R的小区域,

表示划分的第r个子区域，第i聚类的特征分布直方图为

然而如果某一聚类，局部特征都远离聚类中心或靠近聚类中心，依据距离划分将导致某些特征分布直方图不能包含所有的局部特征或所有的局部特征都划分到直方图的一个分量中。为了避免这种情况，按照公式3对dis_i,j进行量化：

{dis}_{i, j} = \frac{{dis}_{i, j}}{Σ_{j = 1}^{k} {dis}_{i, j}}

（公式3）

为了能更好的补偿聚类所损失的信息，本发明按照公式4计算空间统计信息：

ρ_i＝n(i),i＝1,2,…，K

\overset{&OverBar;}{s_{i}} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} s_{j}

σ_{i}^{s} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} {(s_{j} - \overset{&OverBar;}{s_{i}})}^{2}

（公式4）

\overset{&OverBar;}{θ_{i}} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} θ_{j}

σ_{i}^{θ} = \frac{1}{ρ} \underset{d_{j} &Element; x_{i}}{Σ} {(θ_{j} - \overset{&OverBar;}{θ_{i}})}^{2}

s_j,θ_j分别表示第i个聚类中第j个局部特征的尺度和方向，ρ_i，

分别表示第i个聚类的特征密度,平均尺度,尺度方差，平均方向和方向方差，组成空间统计向量

结合聚类中心，特征分布直方图和空间统计信息，依据公式5生成聚类紧凑特征：

CFC_i＝{μ_i,h_i,v_i} （公式5）

因而一幅图像可用聚类紧凑特征表示为I＝{CFC₁,CFC₂,…，CFC_N}

步骤三：将步骤二中所得的样本图像库中的聚类紧凑特征进行随机采样10,000,000个聚类紧凑特征，通过对采样所得聚类紧凑特征中聚类中心的分量应用聚类算法生成词汇树。为了全面的实验，设置不同的参数：词汇树的层数和每层的容量，获得不同容量的词汇树。将测试图像库中图像的聚类紧凑特征都量化到词汇树上，生成相应的倒排文件。量化过程如图2所。

步骤四：根据提出的改进的基于词汇树的检索算法采用聚类紧凑特征进行检索。让T表示为深度为L，度为K的词汇树，在词汇树中每个节点

表示一个视觉词汇，其中l该节点所在层数，h_l表示在该层的索引。每个聚类紧凑特征从词汇树的根节点量化到叶子节点的视觉词汇路径集合表示为

图像库中查询图像和目标图像间的相似度定义为查询图像和目标图像的聚类紧凑特征对的平均相似度得分：

sim (q, d) \overset{\cdot}{=} \frac{1}{| I_{q} | | I_{d} |} \underset{i &Element; I_{q}, j &Element; I_{d}}{Σ} f ({CFC}_{i}^{q}, {CFC}_{j}^{d})

（公式6）

其中|I_q|表示查询图像的聚类紧凑特征数目,|I_d|表示目标图像的聚类紧凑特征数目。聚类紧凑特征对的相似度可以进一步表示为在词汇树节点的匹配函数，，如公式7所示：

({CFC}_{i}^{q}, {CFC}_{j}^{d}) \underset{v_{i} &Element; T ({CFC}_{i}^{q}), v_{j} &Element; T ({CFC}_{j}^{d})}{Σ} f_{v (v_{i}, v_{j})}

（公式7）

f_v定义为聚类紧凑特征量化到一个视觉词汇上的权重函数

f_v(v_i,v_j)＝w_i,j(v_i)I(v_i＝v_j) （公式8）

其中I(·)是一个判断函数。w_i，j(v)由3部分组成，包括聚类中心权重函数

特征分布直方图权重函数和空间统计信息权重函数

如公式8所示：

w_{i, j} (v) = w_{i, j}^{c} (v) \times w_{i, j}^{h} (v) \times w_{i, j}^{s} (v)

（公式9）

为了更好的利用词汇树索引结构，采用文献[14]中的描述内容权重来表示

其中

表示查询图像第i个聚类紧凑特征在该节点的权重，

表示目标图像第j个聚类紧凑特征量化到词汇树节点v的权重，idf(v)表示词汇树节点v的IDF权重。在公式11中n^q(v)表示查询图像量化到词汇树节点v的聚类紧凑特征数目，ω(v)是一个权重相关系数，可根据经验设置值

w_{i, j}^{c} (v) = w_{i}^{q} w_{j}^{d} idf (v)

（公式10）

w_{i}^{q} = \sqrt{\frac{\underset{v &Element; T ({CFC}_{i}^{q})}{Σ} ω (v)}{\underset{v &Element; T ({CFC}_{i}^{q})}{Σ} ω (v) \times n^{q} (v)}}

（公式11）

同时通过计算特征分布直方图相应分量的最小值和最大值的比率之和表示如公式8所示：

w_{i, j}^{h} = Σ_{r = 1}^{r = R} \frac{\min (h_{i}^{r}, h_{j}^{r})}{\max (h_{i,}^{r} h_{j}^{r})}

（公式12）

五个统计信息相似度函数分别定义为：

w_{i, j}^{ρ} = \frac{\min (ρ_{i,} ρ_{j})}{\max (ρ_{i,} ρ_{j})}

w_{i, j}^{\overset{&OverBar;}{s}} = \frac{\min (\overset{&OverBar;}{s_{i},} \overset{&OverBar;}{s_{j}})}{man (\overset{&OverBar;}{s_{i},} \overset{&OverBar;}{s_{j}})}

w_{i, j}^{σ^{s}} = \frac{\min (σ_{i}^{s}, σ_{j}^{s})}{\max (σ_{i}^{s}, σ_{j}^{s})}

（公式13）

w_{i, j}^{\overset{&OverBar;}{θ}} = \frac{\min (\overset{&OverBar;}{θ_{i},} \overset{&OverBar;}{θ_{j}})}{\max (\overset{&OverBar;}{θ_{i},} \overset{&OverBar;}{θ_{j}})}

w_{i, j}^{σ^{θ}} = \frac{\min (σ_{i}^{θ}, σ_{j}^{θ})}{\max (σ_{i}^{θ}, σ_{j}^{θ})}

空间统计信息相似度函数把5个统计信息相似度函数结合起来，定义为：

w_{i, j}^{s} = w_{i, j}^{ρ} \times w_{i, j}^{\overset{&OverBar;}{s}} \times w_{i, j}^{σ^{s}} \times w_{i, j}^{\overset{&OverBar;}{θ}} \times w_{i, j}^{σ^{θ}}

（公式14）

两幅图像的相似度由三部分构成，采用了相较于局部特征更为丰富的有效信息，使用很小的计算开销就获得了令人满意的检索结果。