CN102117337A

CN102117337A - 一种融合空间信息的Bag of Words图像检索方法

Info

Publication number: CN102117337A
Application number: CN2011100813319A
Authority: CN
Inventors: 韩军伟; 郭雷; 刘天明; 胡新韬; 许明
Original assignee: Northwestern Polytechnical University
Current assignee: Eoplly New Energy Technology Co ltd; Northwestern Polytechnical University
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2011-07-06
Anticipated expiration: 2031-03-31
Also published as: CN102117337B

Abstract

本发明涉及一种融合空间信息的Bag of Words图像检索方法，技术特征在于：考虑到图像所包含的内容都是现实世界的物体，物体都具有一定的形状和结构特征，融入显著特征区域的空间信息便可以更加形象、准确的描述图像所包含的内容，从而能够得到更好的图像检索效果。利用Bag of Words对图像进行很好的描述，可以获得图像在图像空间基上的向量表示，通过特征区域空间信息的加入，可以很好的保证了图像底层特征区域之间的结构信息，从而提高了图像的检索精度。因此，融合特征区域空间信息的Bag of Words图像检索方法，更加适用于图像的检索。

Description

一种融合空间信息的Bag of Words图像检索方法

技术领域

本发明涉及一种融合空间信息的Bag of Words图像检索方法，可以应用于可见光图像的检索。

背景技术

随着多媒体信息技术的发展，多媒体信息的存储、压缩和检索变的日益重要。图像作为一种重要的多媒体信息，其包含的内容丰富，正如“一幅图胜过千言”。由于图像底层SIFT特征的出现，该特征能够很好的反映图像中一些旋转和尺度不变形的显著区域。最近出现了许多基于SIFT特征的图像检索的方法，其中最常见的是Bag of Words方法，该方法首先是对图像所提取的SIFT特征的区域进行聚类，将聚类中心做为图像空间中的一组标准基(标准的图像区域)，然后图像可以用这组标准基进行向量表示，结合现有的文本检索技术，最终实现了图像的检索。

现有的Bag of Words方法，仅仅考虑了图像是否含有某些显著的特征区域，而忽略了特征区域的空间信息，因此基于Bag of Words方法图像检索会造成检索精度较低的问题，必须针对如何引入特征区域的空间信息进行新的图像检索方法研究。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种融合空间信息的Bag of Words图像检索方法。

本发明的思想在于：Bag of Words方法实现了图像在图像空间一组基上的向量表示的同时往往忽略其显著特征区域的空间信息。但是考虑到图像所包含的内容都是现实世界的物体，物体都具有一定的形状和结构特征，融入显著特征区域的空间信息便可以更加形象、准确的描述图像所包含的内容，从而能够得到更好的图像检索效果。

技术方案

一种融合空间信息的Bag of Words图像检索方法，其特征在于步骤如下：

步骤1：提取数据库中每幅图像的SIFT特征，得到每幅图像底层特征的集合I＝{p_m|m＝1...|I|}，其中p_m＝(f_m，X_m，λ_m，θ_m)，|I|为图像I中SIFT特征区域数目，f_m为特征区域128维的特征描述向量、X_m为特征区域中心所在位置、λ_m为特征区域尺度信息、θ_m为特征区域的主方向角度信息；

步骤2：利用Hierarchical K-means聚类算法对图像数据库中的所有图像所提取的特征区域的特征描述向量f_m进行聚类，其中聚类数目K∈[10000，1000000]，得到聚类中心的类别的标号w及聚类的层次树结构Tree，形成底层特征p′_m＝(w_m，X_m，λ_m，θ_m)，所述的w_m∈w为特征区域所属的聚类中心类别的标号；

步骤3：计算图像每个底层特征p′_m的

和Δθ_mn＝||θ_m-θ_n||，得到ΔX_m＝{ΔX_mn|n＝1，2，...，|I|，n≠m}和Δθ_m＝(Δθ_mn|n＝1，2，...，|I|，n≠m)，将[0，2π]等分成数个均匀方向区域，在每个均匀方向区域上，计算Δθ_m中属于该方向区域上的集合Δθ′_m＝{Δθ_mi|i＝a₁，...，a_k}所对应的集合ΔX′_m＝{ΔX_mi|i＝a₁，...，a_k}中最小值对应的特征区域的类别标号w_i，其中

得到底层特征p″_m＝(w_m，sw_m)；所述的下标mn分别表示图像中第m个特征区域与第n个特征区域，所述的sw_m为数个均匀方向区域上选取的w_i组成的向量；

步骤4：图像数据库中的每幅图像T的底层特征的集合表示t＝{p″_m|m＝1，2，...|T|}，其中p″_m＝(w_m，sw_m)；

步骤5：计算待查询图像目标区域Q的底层特征的集合q＝{p″_o|o＝1，2，...|Q|}，其中p″_o＝(w_o，sw_o)，待查询图像目标区域特征p，p′，p″均以下标o表示，与图像数据库中下标m加以区分，具体步骤如下：

步骤a：提取以待查询图像目标区域的底层SIFT特征，得到以待查询图像目标区域Q的底层特征集合q＝{p_o|o＝1...|Q|}，其中p_o＝(f_o，X_o，λ_o，θ_o)；

步骤b：利用步骤2生成的聚类层次树结构Tree，查找每个f_o对应的类别标号w_o，得到以待查询图像目标区域Q的底层特征集合q＝{p′_o|o＝1，2，...|Q|}，其中p′_o＝(w_o，X_o，λ_o，θ_o)，w_o∈w；

步骤c：对以待查询图像目标区域q＝{p′_o|o＝1，2，...|Q|}，分别选取q中的每个底层特征p′_o计算

和Δθ_on＝||θ_o-θ_n||，得到ΔX_o＝{ΔX_on|n＝1，2，...，|I|，n≠o}和Δθ_o＝(Δθ_on|n＝1，2，...，|I|，n≠o)，将[0，2π]等分成数个均匀方向区域，在每个均匀方向区域上，计算Δθ_o中属于该方向区域上的集合Δθ′_o{Δθ_oi|i＝a₁，...，a_k}所对应的集合ΔX′_o{ΔX_oi|i＝a₁，...，a_k}中最小值对应的特征区域的类别标号w_o，其中

j∈{1，2，...，k}，得到底层特征p″_o＝(w_o，sw_o)；，得到以待查询图像底层特征集合q＝{p″_o|o＝1，2，...|Q|}，其中p″_o＝(w_o，sw_o)；

步骤6：计算以待查询图像目标区域Q与图像数据库中每幅图像T之间的相似度，具体步骤如下：

步骤(a)：依次取图像数据库中的每幅图像t＝{p″_m|m＝1，2，...|T|}；

步骤(b)：对q中的每个元素p″_o，判断t中是否存在非空子集mt，使其满足

步骤(c)：如果存在非空子集mt，则计算sw_o与mt中每个sw_m的相似度

得到S_temp＝{S_temp(m)|m∈{s₁，s₂，....s_k}}，其中所述的H(·)为汉明距离，所述的D为sw_o的向量长度；

步骤(d)：计算以待查询图像目标区域Q与数据库中每幅图像T之间的

所述S_s(Q，T)为对每个元素(w_o，sw_o)生成的S_temp进行max(S_temp)求和，所述的S_w(Q，T)为每个元素(w_o，sw_o)生成的S_temp进行max(S_temp)＞0数目求和，所述|T|为图像特征区域的数目；

步骤7：将以待查询图像目标Q与数据库中每幅图像T之间的S(Q，T)按降序排列，按相似度大小依次在图像库中选取所对应的图像。

有益效果

本发明提出的一种融合空间信息的Bag of Words图像检索方法，利用Bag of Words对图像进行很好的描述，可以获得图像在图像空间基上的向量表示，通过特征区域空间信息的加入，可以很好的保证了图像底层特征区域之间的结构信息，从而提高了图像的检索精度。因此，融合特征区域空间信息的Bag of Words图像检索方法，更加适用于图像的检索。

附图说明

图1：本发明方法的基本流程图

图2：本发明方法中图像的索引结构

图3：使用本发明方法与单纯的Bag of Words方法完成图像检索的对比

(a)：两个待查询的目标图像

(b)：使用本方法的检索结果

(c)：单纯的Bag of Words方法的检索结果

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：AMD 64 X2 Dual Core process 5000+2.6G计算机、2GB内存、256M显卡，运行的软件环境是：Matlab R2008a和Windows XP。我们用Matlab软件实现了本发明提出的方法。图像数据采用Oxford Build Dataset中的5063幅图像，并对其提供的55标准查询图像中的特定目标进行检索。

本发明具体实施如下：

1、提取图像数据库中每幅图像的底层特征，首先对图像数据库中的每幅图像进行高斯平滑处理，其中选取σ_n＝0.5，得到图像选取不同的σ＝σ₀2^o+s/S与

做卷积形成了一个图像金字塔GSS_σ，其中s＝0，...S-1，o＝0，...O-1，S＝3，O＝min(log₂row，log₂col)，σ₀＝1.5，row表示图像的垂直方向上像素点的个数，col表示图像的水平方向上像素点的个数。然后对相邻的GSS_σ求差分得到DOG_σ，对于DOG_σ的每个像素点分别与上一尺度对应位置像素点及周围的八邻域像素点，当前尺度周围的八邻域像素点，以及下一尺度对应位置像素点及周围的八邻域像素点作比较，如果该像素点为极小值或者极大值点，则该像素点为图像显著点，其周围以σ为半径的区域为显著区域，由此可以得到一系列的图像显著点X，其σ为其尺度大小λ。对于每个图像显著点X，将

的梯度图像与高斯核做卷积得到梯度图像

其中σ_G＝1.5σ，并计算梯度图像

中显著点X的显著区域中的方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度进行累加，取方向直方图的区间个数L＝36，从方向直方图选取幅度超过其最大值80％的方向区域，确定为该特征区域主方向θ，如存在多个方向区域，则该特征区域存在多个主方向θ。最后对图像显著点X的显著区域，按主方向及其垂直方向将显著性区域均匀等分成16个区域，在每个小区域中分别统计方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度赋值进行累加，取方向直方图的区间个数L＝8，并将每个方向直方图的幅值量化到[0，255]之间，则得到一个16*8描述向量f，图像底层特征的集合I＝{p_m|m＝1...|I|}，其中p_m＝(f_m，X_m，λ_m，θ_m)。

2、利用Hierarchical K-means聚类算法对图像数据库中每幅图像所得到的特征区域描述向量f进行聚类，得到聚类中心类别标号w及聚类的层次树结构Tree，图像底层特征的集合I＝{p′_m|m＝1...|I|}，其中p′_m＝(w_m，X_m，λ_m，θ_m)，w_m＝w，选取HKM聚类算法的参数K＝10000，100000，1000000，ktree＝10，所述的K为聚类中心的数目、ktree为HKM聚类算法中子树的数目。

3、对于图像中的每个特征区域的描述p′_m，计算

和Δθ_mn＝||θ_m-θ_n||，ΔX_m＝{ΔX_mn|n＝1，2，...，|I|，n≠m}和Δθ_m＝(Δθ_mn|n＝1，2，...，|I|，n≠m)，将[0，2π]等分成数个均匀方向区域，在每个均匀方向区域上，计算Δθ_m中属于该方向区域上的集合Δθ′_m＝{Δθ_mi|i＝a₁，...，a_k}所对应的集合ΔX′_m＝{ΔX_mi|i＝a₁，...，a_k}中最小值对应的特征区域的类别标号w_i，其中

得到底层特征p″_m＝(w_m，sw_m)；按顺时针排列这些方向区域中所得到的w_i组成向量sw_m，最后图像底层特征的集合I＝{p″_m|m＝1，2，...|I|}，其中p″_m＝(w_m，sw_m)，均匀方向区域的数目范围为[2，16]。

4、计算以待查询图像目标区域Q与图像数据库中每幅图像T之间的相似度，首先提取以待查询图像目标区域Q的底层特征的集合表示q＝{p″_o|o＝1，2，...|Q|}，其中p″_o＝(w_o，sw_o)，以待查询图像目标区域特征p，p′，p″均以下标o表示，与图像数据库中下标m加以区分，具体步骤如下：

步骤a：提取以待查询图像目标区域Q的底层SIFT特征集合q＝{p_o|o＝1...|Q|}，其中p_o＝(f_o，X_o，λ_o，θ_o)；

步骤b：利用步骤2生成的聚类的层次树结构Tree，查找f_o对应的类别标号w_o，得到以待查询图像目标区域q＝{p′_o|o＝1，2，...|Q|}，其中p′_o＝(w_o，X_o，λ_o，θ_o)，w_o∈w；

得到底层特征p″_o＝(w_o，sw_o)；，得到以待查询图像底层特征集合q＝{p″_o|o＝1，2，...|Q|}，其中p″_o＝(w_o，sw_o)；

然后计算待查询图像Q与图像数据库中每幅图像T的相似度，具体步骤如下：

(1)依次取图像数据库中的每幅图像T的底层特征集合t＝{(w_m，sw_m)|m＝1，2，...|T|}，并初始化S_w(Q，T)＝0，S_s(Q，T)＝0；

(2)对待以待查询图像目标区域Q底层特征集合q＝{p″_o|o＝1，2，...|Q|}中的每个p″_o，在t中寻找其非空匹配子集mt，使其满足

若存在mt，则计算sw_o与其对应的匹配集mt中sw_m的相似度，其相似度计算公式如下：

S_temp (m) = \frac{D - H ({sw}_{o}, {sw}_{n})}{D}

得到S_temp＝{S_temp(m)|m∈{s₁，s₂，....s_k}}，其中

其中H(·)为汉明距离；

设两个向量α＝(α₁，α₂，...α_N)和向量β＝(β₁，β₂，...β_N)，则汉明距离为：

H (α, β) = Σ_{n = 1}^{N} h (α_{n}, β_{n}),

其中

h (α_{n}, β_{n}) = \{\begin{matrix} 1, α_{n} &NotEqual; β_{n} \\ 0, α_{n} = β_{n} \end{matrix}

对于满足max(S_temp)＞0，则：

S_s(Q，T)←S_s(Q，T)+max(S_temp)

S_s(Q，T)←S_s(Q，T)+1

否则，S_s(Q，T)和S_w(Q，T)不处理；

(3)以待查询图像目标Q与图像数据库中每幅图像T的相似度的计算为：

S (Q, T) = \frac{S_{w} (Q, T) \cdot S_{s} (Q, T)}{| T |}

最后，将以待查询图像目标与数据库中每幅图像的相似度大小S(Q，T)按降序排列，按相似度大小依次在图像库中选取所对应的图像。

图3为融入空间信息的Bag of Words方法与单纯的Bag of Words方法检索结果的对比图像，图(a)中为两个查询图像，其中图像上的黄色矩形框对查询目标给以了标注，图(b)为本发明方法的检索结果，图(c)为单纯的Bag of Words方法的检索结果，其中图像上的红色边框表示该图像中不含有检索目标即为错误的检索结果。本发明所得的检索结果与Bag of Words方法所得的检索结果进行对比，对于Oxford Build Dataset提供的55标准特定目标图像进行检索，选取不同的K＝10000，100000，1000000值下分别计算其平均检索精度，评价结果如表1所示。平均检索准确精度越高，图像检索效果越好。

表1检索结果评价

	10000	100000	1000000
				BoW	0.269	0.328	0.371
本发明方法	0.307	0.350	0.385

Claims

1.一种融合空间信息的Bag of Words图像检索方法，其特征在于步骤如下：

步骤3：计算图像每个底层特征p′_m的

和Δθ_on＝||θ_o-θ_n||，得到ΔX_o＝{ΔX_on|n＝1，2，...，|I|，n≠o}和Δθ_o＝(Δθ_on|n＝1，2，...，|I|，n≠o)，将[0，2π]等分成数个均匀方向区域，在每个均匀方向区域上，计算Δθ_o中属于该方向区域上的集合Δθ′_o＝{Δθ_oi|i＝a₁，...，a_k}所对应的集合ΔX′_o＝{ΔX_oi|i＝a₁，...，a_k}中最小值对应的特征区域的类别标号w_o，其中

得到底层特征p_o″＝(w_o，sw_o)；，得到以待查询图像底层特征集合q＝{p″_o|o＝1，2，...|Q|}，其中p″_o＝(w_o，sw_o)；

得到S_temp＝{S_temp(m)|m∈{s₁，s₂，....s_k}}，其中

所述的H(·)为汉明距离，所述的D为sw_o的向量长度；