CN104484347A

CN104484347A - 一种基于地理信息的层次化视觉特征提取方法

Info

Publication number: CN104484347A
Application number: CN201410706281.2A
Authority: CN
Inventors: 汤斯亮; 吴飞; 李子健; 邵健; 鲁伟明; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2015-04-01
Anticipated expiration: 2034-11-28
Also published as: CN104484347B

Abstract

本发明公开了一种基于地理信息的层次化视觉特征提取方法。包括如下步骤：1)编写爬虫程序下载照片分享网站中的图像及其地理信息；2)利用图像词袋模型表达图像特征；3) 结合地理信息，应用半监督主题建模方法将图像视觉单词按照视觉主题的形式组织起来；4) 挖掘视觉主题的层次化特性，获取在不同尺度和侧面对特定地理位置进行描述的视觉特征；5)利用获取的层次化视觉特征，对图像进行聚类、分类和检索。本发明结合层次化主题建模和半监督学习，将图像高维视觉单词凝练成具有代表性的视觉主题，并将地理信息引入主题建模过程中，学习得到一个层次化视觉主题模型，将图像表示成多个视觉主题上的分布，据此获得了更具有语义表达能力的层次化视觉特征。

Description

一种基于地理信息的层次化视觉特征提取方法

技术领域

本发明涉及图像特征提取和层次化主题建模，尤其涉及一种基于地理信息的层次化视觉特征提取方法。

背景技术

近年来，随着互联网、电信网和移动智能终端的飞速发展，越来越多的图像分享网站涌现出来，从世界各地拍摄的照片正以每天上亿的数量被上传到互联网上。飞速增长的图像数据除了给互联网用户足不出户游览环球的体验和为图像分析应用提供了更多的样本以外，也带来了如何对大规模数据进行自动图像聚类和分类的挑战。为了应对这一挑战，许多研究把重点放在了如何从图像中提取最具有代表性和区分性，并且能够体现图像语义信息的图像特征上。早期的工作主要集中在对图像浅层特征的应用上，例如图像的颜色和纹理特征。这一类特征能够较好地反映图像在像素级别上的特性，但是难以表达图像的高层语义。随着图像词袋模型的发展，逐渐有研究人员开始将主题建模的方法应用到图像特征提取中，以提高图像特征的语义表达能力。

LDA(隐狄利克雷分配)是一种应用广泛的传统主题模型，从2003年被提出直至今日，LDA及其衍生模型已经作为多种主题建模应用的核心算法，被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战，并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比，主题模型在可观测的文档层和单词层间增加了一个隐含的主题层，并认为文档是包含有一个或多个主题，而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容，而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据，新闻报道和科学论文等；由于图像数据和文本数据具有某种程度上的同质性，因此在将图像中的特征点处理为视觉单词后，也可以使用主题建模方法对图像数据进行归纳整合，主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。

LDA等经典主题模型的一个核心假设是对文档的词袋模型表达。词袋模型假设每篇文档中词与词之间没有关联，并且相互之间的位置可互换。该假设在数学上易于推导，为主题模型带来了计算上的方便和处理数据时的快捷。通过将相似的视觉特征聚类成视觉单词，并将图像表达成视觉单词的集合，从而获得了图像的降维稀疏表达，能够很好地表达图像在视觉空间上的特性。然而，因为视觉单词的尺度过小，难以表达图像的高层语义，并且因为没有引入监督信息，得到的视觉主题往往比较隐晦，难以和现实中的语义形成对应关系。

作为对传统主题建模方法的改进，一些研究人员提出了层次化的主题模型，如层次化主题建模(hLDA)等。这一类方法虽然通过层次化的主题结构得到了文档和图像在不同粒度上的表达，但由于依然是非监督的方法，得到的主题难以和现实语义形成对应。还有一些研究人员提出了有监督的主题模型，如有监督主题建模(Supervised LDA)等，这一类方法则未能解决多尺度多粒度表达的问题，同时这一类模型的训练需要大量人工标注的数据，给模型训练带来了困难。因此，根据少量的标注数据和图像本身的特征，对主题模型施加内容和结构上的限制，从而使整体算法能够更加适应现实需求是图像特征提取与主题建模领域研究的重要方向。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于地理信息的层次化视觉特征提取方法。

一种基于地理信息的层次化视觉特征提取方法包括如下步骤：

1)编写爬虫程序下载照片分享网站中的图像及其地理信息；

2)利用图像词袋模型表达图像特征；

3)结合地理信息，结合层次化主题建模和半监督学习，将图像高维视觉单词凝练成具有代表性的视觉主题，并挖掘视觉主题的层次化特性，获取在不同尺度和侧面对特定地理位置进行描述的视觉特征；

4)利用获取的层次化视觉特征，对图像进行聚类、分类和检索。

所述的步骤1)包括：

(1)编写爬虫程序，根据预定义的地点列表，从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片，构成图像集合

IMAGE - {{Image}_{{location}_{1}}, {Image}_{{location}_{2}}, . . . {Image}_{{location}_{m}}}

其中是在第m个地点拍摄的照片集合，即：

{Image}_{{location}_{m}} = {{Image}_{1}, {Image}_{2}, . . ., {Image}_{N_{m}}}

其中N_m是在第m个地点拍摄的照片总数。

(2)下载图像集合IMAGE中每个图像所在的网页，利用页面解析程序对每个网页进行解析，去除HTML标记和标点符号后，保留页面上的GPS信息和地理相关的标签作为图像的地理信息。

所述的步骤2)包括：

(1)对图像集合IMAGE中的每个图像i，提取尺度不变特征转换特征，最终对每个图像计算得到128维的SIFT特征描述算子：

SIFT_i-{S₁，S₂，...S₁₂₈}

(2)对图像集合IMAGE中的每个图像i，选取8×8的滑动窗口大小，提取梯度直方图特征，最终对每个图像计算得到m维的HOG特征描述算子，其中m的大小根据图像本身的大小而变化：

HOG_i＝{H₁，H₂，...，H_m}

(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFT_i放入如下公式进行优化问题求解：

minarg_(w，x){Σ_i[w_ix_i-SIFT_i]²/n+λ||w||₁}

s.t.||w||₁＜C

其中||w||₁表示w向量的1-范数，C是一个预定义的常数，λ是稀疏惩罚项系数，w向量和x向量是优化问题求解的目标，n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达，记为：

BOW_SIFT＝{BS₁，BS₂，...，BS_N}

其中BS_i是图像i的SIFT特征，N是图像总数。

(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOG_i放入如下公式进行优化问题求解：

minarg_(w，x){Σ_i[w_ix_i-HOG_i]²/n+λ||w||₁}

s.t.||w||₁＜C

其中||w||₁表示w向量的1-范数，C是一个预定义的常数，λ是稀疏惩罚项系数，w向量和x向量是优化问题求解的目标，n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达，记为：

BOW_HOG＝{BH₁，BH₂，...，BH_N}

其中BH₁是图像i的HOG特征，N是图像总数。

所述的步骤3)包括：

(1)由系统自动设定，或者由用户指定Dirichlet分布的参数α和β，以及Beta分布的参数γ，并且设定好迭代次数、收敛条件等参数。

(2)初始化层次化主题树T

(3)利用如下公式对图像d中的第n个视觉单词的主题Z_d，n进行采样：

p (Z_{d, n} = k | z_{d, - n}, C, W, α, β) &Proportional; \frac{α + # [Z_{d, - n} = k]}{Kα + # [Z_{d, - n} &GreaterEqual; k]} \times \frac{# [Z = k, C_{1} = C_{d, 1}, W = W_{d, n}] + β}{# [Z = k, C_{1} = C_{d, 1}] + Vβ}

其中Z_d，n，Z_d，-n，C，W，α，β都是LDA模型的变量，k表示第k个主题。

(4)利用如下公式对图像d所在主题树T上的路径C_d进行采样：

其中C_d，W，C_-d，Z，β，Φ，γ，都是LDA模型的变量，k表示第k个主题。

(5)完成上述更新过程后检查算法是否满足收敛条件，未满足则返回步骤1。

(6)算法满足收敛条件后，输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。

所述的步骤4)包括：

(1)在得到层次化视觉特征后，利用如下公式判断每张图像拍摄的地点：

P ({topic}_{T}) &Proportional; Π_{i = 1}^{v} P {({topic}_{T} | {word}_{i})}^{count ({word}_{i})}

其中topic_T代表某一特定的地点主题，P(topic_T)代表该图像属于该地点主题topic_T的概率。根据该公式，P(topic_T)正比于图像中每个视觉单词word_i属于地点主题topic_T的概率的乘积，即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。

(2)利用每张图像的F(topic_T)，得到每张图像基于地理位置的表示，如下：

Image＝{P(topic₁，P(topic₂)，...P（Topic_M)}

即每张图像由它属于各地点主题的概率所表示。

(3)利用图像基于地理位置的表示Image作为图像的一种基本特征，进而对图像进行聚类、分类和检索。

本发明与现有技术相比具有的有益的效果：

1.本发明提出了一种基于地理信息的层次化视觉特征提取方法，该方法的核心是一种层次化的半监督主题模型。对比已有的主题建模方法，该方法充分利用了图像的地理信息，在训练主题模型时，同时对模型的层级结构和主题内容进行约束，从而获得了更具有语义表达能力的层次化视觉主题。和现有的有监督主题建模相比，该方法只需要少量的已标注数据作为算法输入，更适应工程实践的需求。

2.本发明通过利用上述的基于地理信息的层次化视觉特征提取方法，提出了一种图像的特征，该特征是基于图像地理位置的主题概率特征。在图像聚类、分类和检索试验中，该特征得出了比SIFT和GIST特征更好的实验结果。

3.本发明具有良好的扩展性。一方面，本发明的核心算法可以应用到任何提供图像伴随信息(不一定是地理信息)的场景中；另一方面，本发明得到图像特征可以作为多种计算机视觉应用的基本特征，例如可以应用于图像的自动标注、图像内容的理解等。

附图说明

图1是本发明所使用的核心主题建模算法的概率图模型表达，方框从外到内分别代表各个文档、文档中的各个片段结构和片段结构中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征)，无色圆圈代表隐含的中间变量和模型参数。

图2是本发明用于图像检索的效果实例及与传统方法的对比。

图3是本发明中得到的层次化主题树的实例。

具体实施方式

1)编写爬虫程序下载照片分享网站中的图像及其地理信息；

2)利用图像词袋模型表达图像特征；

所述的步骤1)包括：

IMAGE - {{Image}_{{location}_{1}}, {Image}_{{location}_{2}}, . . . {Image}_{{location}_{m}}}

其中是在第m个地点拍摄的照片集合，即：

{Image}_{{location}_{m}} = {{Image}_{1}, {Image}_{2}, . . ., {Image}_{N_{m}}}

其中N_m是在第m个地点拍摄的照片总数。

所述的步骤2)包括：

SIFT_i-{S₁，S₂，...S₁₂₈}

HOG_i＝{H₁，H₂，...，H_m}

minarg_(w，x){Σ_i[w_ix_i-SIFT_i]²/n+λ||w||₁}

s.t.||w||₁＜C

BOW_SIFT＝{BS₁，BS₂，...，BS_N}

其中BS₁是图像i的SIFT特征，N是图像总数。

minarg_(w，x){Σ_i[w_ix_i-HOG_i]²/n+λ||w||₁}

s.t.||w||₁＜C

BOW_HOG＝{BH₁，BH₂，...，BH_N}

其中BH_i是图像i的HOG特征，N是图像总数。

所述的步骤3)包括：

(2)初始化层次化主题树T

p (Z_{d, n} = k | z_{d, - n}, C, W, α, β) &Proportional; \frac{α + # [Z_{d, - n} = k]}{Kα + # [Z_{d, - n} &GreaterEqual; k]} \times \frac{# [Z = k, C_{1} = C_{d, 1}, W = W_{d, n}] + β}{# [Z = k, C_{1} = C_{d, 1}] + Vβ}

(4)利用如下公式对图像d所在主题树T上的路径C_d进行采样：

所述的步骤4)包括：

P ({topic}_{T}) &Proportional; Π_{i = 1}^{v} P {({topic}_{T} | {word}_{i})}^{count ({word}_{i})}

Image＝{P(topic₁，P(topic₂)，...P（Topic_M)}

即每张图像由它属于各地点主题的概率所表示。

实施例1

以用户提交来自Flickr.com的25个著名地标为例，本发明的实施步骤如下：

1.爬虫程序根据预定义的地点列表，从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片共25536张，构成图像集合

IMAGE = {{Image}_{1_{1}}, {Image}_{2}, . . . {Image}_{25}}

其中IMAG₁是在第1个地点拍摄的照片集合，即：

{IMAGE}_{1} = {{Image}_{1}, {Image}_{2}, . . ., {Image}_{N_{1}}}

其中N₁是在第1个地点拍摄的照片总数，以此类推。

2.下载图像集合IMAGE中每个图像所在的网页，利用页面解析程序对每个网页进行解析，去除HTML标记和标点符号后，保留页面上的GPS信息和地理相关的标签作为图像的地理信息。

3.对图像集合IMAGE中的每个图像i，提取其尺度不变特征转换(SIFT)特征，最终对每个图像计算得到128维的SIFT特征描述算子：

SIFT_i-{S₁，S₂，...S₁₂₈}

4.对图像集合IMAGE中的每个图像i，选取8×8的滑动窗口大小，提取其梯度直方图(HOG)特征，最终对每个图像计算得到m维的HOG特征描述算子，其中m的大小根据图像本身的大小而变化：

HOG_i＝{H₁，H₂，...，H_m}

5.将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFT_i放入如下公式进行优化问题求解：

minarg_(w，x){Σ_i[w_ix_i-SIFT_i]²/n+λ||w||₁}

s.t.||w||₁＜C

BOW_SIFT＝{BS₁，BS₂，...，BS25536}

其中BS₁是图像i的SIFT特征，25536是图像总数。

minarg_(w，x){Σ_i[w_ix_i-HOG_i]²/n+λ||w||₁}

s.t.||w||₁＜C

BOW_HOG＝{BH₁，BH₂，...，BH₂₅₅₃₆}

其中BH₁是图像i的HOG特征，25536是图像总数。

其中25536是图像总数。

7.由系统自动设定，或者由用户指定Dirichlet分布的参数α和β，以及Beta分布的参数γ，并且设定好迭代次数、收敛条件等参数。

8.初始化层次化主题树T

9.利用如下公式对图像d中的第n个视觉单词的主题Z_d，n进行采样：

10.利用如下公式对图像d所在主题树T上的路径C_d进行采样：

11.完成上述更新过程后检查算法是否满足收敛条件，未满足则返回步骤1。

12.算法满足收敛条件后，输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。

13.在得到层次化视觉特征后，利用如下公式判断每张图像拍摄的地点：

P ({topic}_{T}) &Proportional; Π_{i = 1}^{v} P {({topic}_{T} | {word}_{i})}^{count ({word}_{i})}

14.利用每张图像的F(topic_T)，可以得到每张图像基于地理位置的表示，如下：

Image＝{P(topic₁，P(topic₂)，...P（Topic₂₈)}

即每张图像由它属于各地点主题的概率所表示。

15.利用图像基于地理位置的表示Image，我们可以将该表示作为图像的一种基本特征，进而在该表示上对图像进行聚类、分类和检索。

图2是图片检索的实际运行结果，以及本方法与SIFT和GIST图像特征的对比。可以看出本发明的实际图片检索效果要好于传统方法。图3是上述实例处理完成后得到的层次化主题树。可以看到，主题树的第一层和第二层的黑白图像是视觉主题特征的可视化，该特征本质上是一种形状特征。例如对于大本钟，因为大本钟是一个竖直形状的建筑，因此其形状特征在垂直方向上最为显著。因为加入了地理信息约束，第二层主题和地理位置信息形成了很强的关联，这就使得模型语义表达能力大为增强。第三层的每一个方框中，每一行代表一个视觉主题。可以看到，这些视觉主题往往反映了地标的某一个侧面。在第三层的每一个方框中，都会有一到两个视觉主题代表了图像中的噪声，即树木、云彩等等，这就意味着我们的模型还具有主动去噪的功能，这一功能也对图像检索效果有一定提升。

Claims

1.一种基于地理信息的层次化视觉特征提取方法，其特征在于包括如下步骤：

1)编写爬虫程序下载照片分享网站中的图像及其地理信息；

2)利用图像词袋模型表达图像特征；

2.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法，其特征在于所述的步骤1)包括：

IMAGE = {{Image}_{{location}_{1}}, {Image}_{{location}_{2}}, . . . {Image}_{{location}_{m}}}

其中是在第m个地点拍摄的照片集合，即：

{Image}_{{location}_{m}} = {{Image}_{1}, {Image}_{2}, . . ., {Image}_{N_{m}}}

其中N_m是在第m个地点拍摄的照片总数。

3.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法，其特征在于所述的步骤2)包括：

SIFT_i＝{S₁，S₂，...S₁₂₈}

HOG_i＝{H₁，H₂，...，H_m}

minarg_(w，x){Σ_i[w_ix_i-SIFT_i]²/n+λ||w||₁}

s.t.||w||₁＜C

其中BS_i是图像i的SIFT特征，N是图像总数。

minarg_(w，x){Σ_i[w_ix_i-HOG_i]²/n+λ||w||₁}

s.t.||w||₁＜C

BOW_HOC＝{BH₁，BH₂，...BH_N}

其中BH_i是图像i的HOG特征，N是图像总数。

4.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法，其特征在于所述的步骤3)包括：

(2)初始化层次化主题树T

p (Z_{d, n} = k | Z_{d - w} C, W, α, β) &Proportional; \frac{α + # [Z_{d - n} = k]}{Kα + # [Z_{d - n} &GreaterEqual; k]} \times \frac{# [Z = k, C_{1} = C_{d, 1}, W = W_{d, n}] + β}{# [Z = k, C_{1} = C_{d, 1}] + Vβ}

其中Z_d，n，Z_d-n，C，W，α，β都是LDA模型的变量，k表示第k个主题。

(4)利用如下公式对图像d所在主题树T上的路径C_d进行采样：

5.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法，其特征在于所述的步骤4)包括：

P ({topic}_{T}) &Proportional; Π_{i = 1}^{v} P {({topic}_{T} | {word}_{i})}^{count (wor d_{i})}

(2)利用每张图像的P(topic_T)，得到每张图像基于地理位置的表示，如下：

Image＝{P(topic₁)，P(topic₂)，...P(Topic_M)}

即每张图像由它属于各地点主题的概率所表示。