CN104778272A

CN104778272A - 一种基于区域挖掘和空间编码的图像位置估计方法

Info

Publication number: CN104778272A
Application number: CN201510202266.9A
Authority: CN
Inventors: 钱学明; 赵一斯
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2015-04-24
Filing date: 2015-04-24
Publication date: 2015-07-15
Anticipated expiration: 2035-04-24
Also published as: CN104778272B

Abstract

本发明公开了一种基于区域挖掘和空间编码的图像位置估计方法，由离线部分和在线部分构成，离线部分包括：提取GPS图像库中图像的全局特征，并对图像聚类；对GPS图像库中的每张图像，进行区域挖掘和BOW位置描述符生成；最后，基于视觉单词，为整个GPS图像库建立一个倒排索引表。在线部分包括：通过全局特征提取、匹配得到输入图像的候选图像集；对输入图像进行与离线部分中的区域挖掘和BOW位置描述符生成步骤相同的操作；利用离线部分中的倒排索引表进行基于区域的图像匹配，最终获得输入图像的GPS位置。

Description

一种基于区域挖掘和空间编码的图像位置估计方法

技术领域

本发明涉及社交网络数据管理的多媒体检索技术，特别涉及一种社交网络图片资料的检索方法。

背景技术

随着社交网络的不断普及以及多媒体技术的迅速发展，用户上传的数字化多媒体的规模以爆炸性的速度增长。知名的图片分享网站如Flickr，上传的图片总数达50亿张。社交网络中的图片上传数量更为惊人，光Facebook一家就达到了600亿。在中国，人人网、开心网成为了主要的上传与分享的社交网站。因此，对于大规模的多媒体数据(图片资料)，如何快速有效地进行信息挖掘与图像检索已成为人们的迫切需求，基于内容的图像检索也就应运而生。随着生活水平的提高，越来越多的人开始热衷于旅游，并且也会将旅游的图像上传到社交网络中。智能手机和数码相机拍照时带有GPS记录功能，在Flickr上，当用户查看的图像具有GPS时，会出现该图像在地图上对应的位置。也许人们会碰到自己非常喜欢的图像，同时这些图片又没有GPS信息。因此，如何依托GPS图像库对输入图像自动的进行位置估计，就成了人们所期望解决的问题。

目前已经有很多图像位置估计方法被提出，特别是应用广泛的基于图像整体内容的方法。它利用图像的全局特征或者BOW(视觉词汇包模型)局部特征对图像内容进行描述，然后基于整张图像的内容进行统计和匹配。但是，在场景复杂的情况下，整体特征的生成会掩盖掉我们真正想要检索内容的特征，识别结果往往不尽如人意。

虽然通过BOW和倒排索引结构的方法能够提高效率，但是，由于BOW在量化过程中会存在误差，并且特征点之间的空间位置关系是被忽略的，因此，人们增加了对空间位置关系的研究。我们计算一个视觉词汇相对于其他词汇到区域中心的距离，并采用分级的思想生成多尺度的位置描述符。

发明内容

本发明的目的是为了解决在用户对图像内容不了解的前提下，依托GPS图像库对该图像自动地进行位置估计；鉴于此，本发明提出了一种多区域挖掘和空间编码的图像位置识别技术，通过全局特征和局部特征，离线部分和在线部分的交互，可以检索到与输入图像内容相似的图像，进而根据相似图像的GPS位置估计该输入图像的GPS位置。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种基于区域挖掘和空间编码的图像位置估计方法，由离线部分和在线部分构成，其特征在于，所述离线部分包括：首先，提取GPS图像库中图像的全局特征，并对图像聚类，聚类后的结果用于在线部分的全局特征匹配；其次，对GPS图像库中的每张图像，进行区域挖掘和BOW位置描述符生成；最后，基于视觉单词，为整个GPS图像库建立一个倒排索引表；其中，区域挖掘和BOW位置描述符生成包括三个子步骤：(1)“有用”特征的筛选，(2)区域挖掘及区域重要度排序，(3)BOW位置描述符生成；

所述在线部分包括：步骤101，通过全局特征提取、匹配得到输入图像的候选图像集，其中全局特征匹配需用到离线部分中的全局特征聚类的结果；步骤102，对输入图像进行与离线部分中的区域挖掘和BOW位置描述符生成步骤相同的操作；步骤103，利用离线部分中的倒排索引表进行基于区域的图像匹配，最终获得输入图像的GPS位置。

所述子步骤(2)的具体操作如下：

2.1、用mean-shift(均值偏移)算法对“有用”视觉词汇的坐标进行聚类，Meanshift算法得到多个类，其中一个类就代表一个区域，生成的类的数目就是对图像划分的区域数目，Mean-shift算法如下：；

\{\begin{matrix} M_{b} (v) = \frac{1}{k} \underset{v_{i} &Element; S_{b} (v)}{Σ} (v_{i} - v) \\ S_{b} (v) = {z : {(z - v)}^{T} (z - v) \leq b^{2}} \end{matrix}

其中，S_b(v)表示以v为中心，以b为半径的圆；z是落在S_b(v)区域里的视觉单词的坐标，k是落在S_b(v)里的视觉单词的个数，M_b(v)表示以v为起点的偏移矢量；

2.2、对区域的重要度排序是利用saliency map(显著图)算法来挖掘图像的显著区域，选取和saliency map有重叠的mean-shift区域，给这些区域以较高的权重，结合另两个因素：该区域内词汇个数除以该张图片内词汇总数，区域中心和图片中心的距离，对重要度的计算方法如下：

Weigh t_{i} = a \times rs (i) \times (1 - \frac{rp (i)}{\max (rp)})

其中，Weight_i表示第i个区域的重要值；rs表示区域的大小，即该区域内词汇个数除以该张图片内词汇总数；rp表示区域的位置，即区域中心和图片中心的距离；

所述子步骤(3)的具体操作如下：

3.1、对一个区域而言，定义聚类中心就是该区域中心，以此为原点建立坐标系；

3.2、对该区域内的每个视觉词汇，计算其所在象限；

{RA}_{i} = \{\begin{matrix} [1000], if x_{i} > a_{0}, y_{i} > b_{0} \\ [0100], if x_{i} < a_{0}, y_{i} > b_{0} \\ [0010], if x_{i} < a_{0}, y_{i} < b_{0} \\ [0001], if x_{i} > a_{0}, y_{i} < b_{0} \end{matrix}

其中，RA_i表示对第i个视觉单词所在象限的编码，(x_i,y_i)是第i个视觉单词的坐标，(a₀,b₀)是该区域中心的坐标；

3.3、计算该区域内每个视觉词汇到中心的相对距离，相对性是体现在相对于区域内其他视觉单词到中心的距离；

\begin{matrix} \tilde{d} = \frac{d_{i}}{\frac{1}{n} Σ_{k = 1}^{n} d_{k}} & {RD}_{i} = \{\begin{matrix} 0, if \tilde{d} \leq 1 \\ 1, if \tilde{d} > 1 \end{matrix} \end{matrix}

其中，RD_i表示对第i个视觉单词的相对距离的编码，d_i表示第i个视觉单词到区域中心的距离，n表示该区域内的视觉单词总数；

3.4、在计算得到后，以区域中心为圆心，以为半径画圆，然后重复步骤3.1-3.4，得到相对距离的多位描述。

上述方法中，所述步骤103的具体操作如下：

103-1、匹配区域对检测：定义包含有相同视觉单词的两个区域为匹配区域对，其中一个来自输入图像，另一个区域来自候选图像；

103-2、计算匹配对里两个区域的内容相似度，即两个区域内相同BOW的空间一致性，公式如下：

{MS}_{P_{i}} = 1 - \frac{1}{a} Σ_{k = 1}^{a} P D_{Q}^{k} &CirclePlus; P D_{R}^{k}

其中，表示第i对区域的匹配得分，a表示该对区域内相同bow的数目；

103-3、一张候选图像和输入图像有多个匹配区域对，我们依次计算多个匹配区域对的得分，那么就得到多个匹配值，取这多个匹配值的最大值作为该候选图像的得分

Scor e_{j} = \max ({MS}_{P_{i}}), i = 1,2, . . ., n

其中，Score_j表示第j张候选图像的得分，n表示该候选图像和输入图像的匹配区域对数。

本发明是一种基于图像区域描述的检索方法，同现有的分区域式算法相比，(1)我们是依托图像“有用”视觉词汇本身的分布特点进行划分区域；(2)我们通过显著图、区域大小和区域位置对多区域进行重要度排序，以提高检索性能，并能适应信息传输的可伸缩性。同时本发明在区域内对视觉词汇进行空间编码，以聚类中心为原点建立坐标系，提出可分级编码的思想来生成多尺度位置描述符。另通过搭建相应系统在不同的图像库上进行了测试分析，证明了本发明的优越性。

下面结合附图和具体实施方式对本发明做进一步的详细说明。

附图说明

图1为本发明方法的流程框图。

图2为本发明方法中对图像进行区域挖掘的步骤示意图。其中，图2(a)是一张示例图像；图2(b)是提取的视觉特征在该示例图像中的分布示意，图中白色圆点表示每个特征点的位置；图2(c)是对该示例图像进行特征筛选，保留下来的“有用”特征在该图像中的分布示意；图2(d)是依托“有用”特征，通过mean-shift对该示例图像划分区域的效果示意，图中的每个黑圈就代表一个区域。

图3为本发明方法中建立倒排索引表的步骤示意图。

具体实施方式

如图1所示，本发明基于区域挖掘和空间编码的图像位置估计方法由离线和在线两个部分构成。在离线部分中，首先，我们提取GPS图像库中图像的全局特征，并对图像聚类，聚类后的结果用于在线部分的全局特征匹配。其次，对GPS图像库中的每张图像，我们进行区域挖掘和BOW位置描述符生成，即图1离线部分中的步骤102。该步骤包括三个子步骤：102-1是“有用”特征的筛选(以下a、b子步骤)，102-2是区域挖掘及区域重要度排序，102-3是BOW位置描述符生成。最后，我们基于视觉单词，为整个GPS图像库建立了一个倒排索引表。

在在线部分中，步骤101是通过全局特征提取、匹配得到输入图像的候选图像集(其中全局特征匹配需用到离线部分中的全局特征聚类的结果)；步骤102是对输入图像划分区域，对区域进行重要度排序以及为视觉单词生成位置描述符(与离线部分的102相同)；步骤103是利用离线部分中的倒排索引表进行基于区域的图像匹配，最终获得输入图像的GPS位置。

本发明中对GPS图像库里的图像和输入图像都要进行分区域挖掘图像内容，所以离线和在线部分都有相同的步骤102。

接下来具体介绍图1所示方法：

一、在离线部分中，首先利用颜色纹理特征将GPS图像库中图像进行全局特征提取、聚类。我们采用的是k-means(k均值)聚类算法，将图像库划分为多个小规模的图像组；其次，我们为GPS图像库中每张图像划分区域，为区域进行重要度排序以及为视觉单词生成位置描述符(步骤102)，具体步骤如下：

步骤102-1的有用特征筛选：

a)对于一张图像，如图2(a)所示，提取其尺度不变特征转换SIFT特征，并将其量化到视觉词汇包BOW模型上。图2(b)是提取的BOW在图2(a)中的分布展示图，图中白色圆点表示每个特征点的位置；

b)利用tf-idf(词频-反转文件频率)方法对该图像里的BOW进行筛选(图1中步骤102-1)，结果如图2(c)所示，我们得到更能代表图像内容的“有用”词汇。这些词汇的有用性体现在既能加快检索速度，也有利于方法性能的提高；计算一个视觉单词的tf-idf值的公式如下：

S_{w} = \frac{f_{w}}{Σ_{w} f_{w}} \times \log \frac{N}{n_{w}}

其中，S_w表示第w个视觉单词的得分，f_w表示第w个视觉单词在该张图像中出现的次数，N表示库中的图像总数，n_w表示库中包含第w个视觉单词的图像数目。我们选取得分值大于0.001的BOW作为“有用”特征。

步骤102-2的区域挖掘及重要度排序的方法如下：

c)利用这些“有用”视觉词汇本身的位置分布特点，根据mean-shift算法对“有用”视觉词汇的坐标进行聚类(图1中102-2的区域挖掘)。Mean-shift算法得到多个类，其中一个类就代表一个区域，生成的类的数目就是对该张图像划分的区域数目，对该图划分区域的效果展示图如图2中图(d)所示。Mean-shift的基本思想如下：

\{\begin{matrix} M_{b} (v) = \frac{1}{k} \underset{v_{i} &Element; S_{b} (v)}{Σ} (v_{i} - v) \\ S_{b} (v) = {z : {(z - v)}^{T} (z - v) \leq b^{2}} \end{matrix}

其中，S_b(v)表示以v为中心，以b为半径的圆。z是落在S_b(v)区域里的视觉单词的坐标，k是落在S_b(v)里的视觉单词的个数，M_b(v)表示以v为起点的偏移矢量。

d)利用saliency map对区域的重要度进行排序(图1中102-2的区域重要度排序)。我们对和saliency map显著位置有重叠的区域给予较大权值。权值为a(0.5<a<1),其他区域权值就为1-a，实验中设的是a＝2/3。考虑另两个因素：该区域内词汇个数除以该张图片内词汇总数，区域中心和图片中心的距离，对重要度的计算方法如下：

Weigh t_{i} = a \times rs (i) \times (1 - \frac{rp (i)}{\max (rp)})

其中，Weight_i表示第i个区域的重要值；rs表示区域的大小，即该区域内词汇个数除以该张图片内词汇总数；rp表示区域的位置，即区域中心和图片中心的距离。

步骤102-3的BOW位置描述符生成的方法如下：

e)对于一个区域而言，类内视觉词汇就是该区域的视觉内容描述。我们定义聚类中心就是该区域中心，以此为原点建立坐标系，对该区域内的每个视觉单词，我们计算其所在象限；

{RA}_{i} = \{\begin{matrix} [1000], if x_{i} > a_{0}, y_{i} > b_{0} \\ [0100], if x_{i} < a_{0}, y_{i} > b_{0} \\ [0010], if x_{i} < a_{0}, y_{i} < b_{0} \\ [0001], if x_{i} > a_{0}, y_{i} < b_{0} \end{matrix}

其中，RA_i表示对第i个视觉单词所在象限的编码。(x_i,y_i)是第i个视觉单词的坐标，(a₀,b₀)是该区域中心的坐标。

f)计算每个视觉单词到中心的相对距离，相对性是体现在相对于区域内其他视觉单词到中心的距离；

\begin{matrix} \tilde{d} = \frac{d_{i}}{\frac{1}{n} Σ_{k = 1}^{n} d_{k}} & {RD}_{i} = \{\begin{matrix} 0, if \tilde{d} \leq 1 \\ 1, if \tilde{d} > 1 \end{matrix} \end{matrix}

其中，RD_i表示对第i个视觉单词的相对距离的编码。d_i表示第i个视觉单词到区域中心的距离，n表示该区域内的视觉单词总数。

g)采用分级的思想做更详细的描述，根据上面所述方法，RD是1bit的描述符，反映了该视觉单词距离区域中心远或近的一个概念。在这里，我们采用可分级的思想：在计算得到后，以区域中心为圆心，以为半径画圆，得到一个子区域。如果然后该子区域内重复步骤102-3，得到相对距离的多位描述。

最后，我们对视觉单词建立倒排索引表，如图3所示。对于一个视觉单词#x，我们记录了包含#x的候选图像及图像的GPS位置，#x在这些候选图像中的区域标号以及在各个区域里对应的位置编码。

二、在线部分的具体操作如下：

在步骤101中，我们提取输入图像的颜色纹理特征，计算其和图像库聚类得到的多个类中心的欧氏距离。

d_i＝||F_x-C_i||,(i＝1,…,M)

其中，F_x表示输入图像的215维颜色纹理特征，C_i表示第i个类的中心，M表示对整个图像库的聚类数目。选择和输入图像距离比较近的前S个类，这S个类中的图像即为输入图像的候选图像集。

在步骤102中，我们为输入图像划分区域，计算区域重要度以及为视觉单词生成位置描述符，方法参见前述离线部分步骤102。

在步骤103中，我们用基于区域的图像匹配方法具体步骤如下：

a)匹配区域对检测：我们定义包含有相同视觉单词的两个区域(一个区域来自输入图像，一个区域来自候选图像)为匹配区域对。查找遍历输入图像里的每个BOW，以一个视觉单词w₁为例，我们根据倒排索引表查找包含w₁的候选图像，w₁在这些候选图像中的所属区域以及对应的位置编码。；

b)假设我们检测到一个区域匹配对<Q,R>，Q是输入图像中的一个区域，R是候选图像中的一个区域。计算该匹配对的两个区域的内容相似度，方法是计算两个区域内相同BOW的空间一致性，公式如下：

{MS}_{P_{i}} = 1 - \frac{1}{a} Σ_{k = 1}^{a} P D_{Q}^{k} &CirclePlus; P D_{R}^{k}

其中，表示第i对区域的匹配得分，a表示该对区域内相同bow的数目。

c)对于一张候选图像和输入图像，我们可以检测得到多个区域匹配对，那么久依次计算这多个匹配区域对的得分。我们从而就得到多个匹配值，实验中取这多个匹配值的最大值作为该候选图像的得分。

Scor e_{j} = \max ({MS}_{P_{i}}), i = 1,2, . . ., n

d)用k-nn(k最近邻)分类算法根据候选图像的GPS位置来估计输入图像的GPS位置。

Claims

1.一种基于区域挖掘和空间编码的图像位置估计方法，由离线部分和在线部分构成，其特征在于，所述离线部分包括：首先，提取GPS图像库中图像的全局特征，并对图像聚类，聚类后的结果用于在线部分的全局特征匹配；其次，对GPS图像库中的每张图像，进行区域挖掘和BOW位置描述符生成；最后，基于视觉单词，为整个GPS图像库建立一个倒排索引表；其中，区域挖掘和BOW位置描述符生成包括三个子步骤：(1)“有用”特征的筛选，(2)区域挖掘及区域重要度排序，(3)BOW位置描述符生成；

所述在线部分包括：步骤101，通过全局特征提取、匹配得到输入图像的候选图像集，其中全局特征匹配需用到离线部分中的全局特征聚类的结果；步骤102，对输入图像进行与离线部分中的区域挖掘和BOW位置描述符生成步骤相同的操作；步骤103，利用离线部分中的倒排索引表进行基于区域的图像匹配，最终获得输入图像的GPS位置；

所述子步骤(2)的具体操作如下：

2.1、用meanshift算法对“有用”视觉词汇的坐标进行聚类，Meanshift算法得到多个类，其中一个类就代表一个区域，生成的类的数目就是对图像划分的区域数目，Meanshift算法如下：；

\{\begin{matrix} M_{b} (v) = \frac{1}{k} \underset{v_{i} &Element; S_{b} (v)}{Σ} (v_{i} - v) \\ S_{b} (v) = {z : {(z - v)}^{T} (z - v) \leq b^{2}} \end{matrix}

2.2、对区域的重要度排序是利用saliency map算法来挖掘图像的显著区域，选取和saliency map有重叠的meanshift区域，给这些区域以较高的权重，结合另两个因素：该区域内词汇个数除以该张图片内词汇总数，区域中心和图片中心的距离，对重要度的计算方法如下：

{Werght}_{i} = a \times rs (i) \times (I - \frac{rp (i)}{\max (rp)})

所述子步骤(3)的具体操作如下：

3.2、对该区域内的每个视觉词汇，计算其所在象限；

{RA}_{i} = \{\begin{matrix} [1000], & if & x_{i} > a_{0}, y_{i} > b_{0} \\ [0100], & if & x_{i} < a_{0}, y_{i} > b_{0} \\ [0010], & if & x_{i} < a_{0}, y_{i} < b_{0} \\ [0001], & if & x_{i} > a_{0}, y_{i} < b_{0} \end{matrix}

\tilde{d} = \frac{d_{i}}{\frac{1}{n} Σ_{k = 1}^{n} d_{k}}

{RD}_{i} = \{\begin{matrix} 0, & if & \tilde{d} \leq 1 \\ 1, & if & \tilde{d} > 1 \end{matrix}

2.如权利要求1所述的基于区域挖掘和空间编码的图像位置估计方法，其特征在于，所述步骤103的具体操作如下：

{MS}_{P_{i}} = 1 - \frac{1}{a} Σ_{k = 1}^{a} {PD}_{Q}^{k} &CirclePlus; {PD}_{R}^{k}

{Score}_{j} = \max ({MS}_{P_{i}}), i = 1,2, . . ., n