CN104484347A - 一种基于地理信息的层次化视觉特征提取方法 - Google Patents

一种基于地理信息的层次化视觉特征提取方法 Download PDF

Info

Publication number
CN104484347A
CN104484347A CN201410706281.2A CN201410706281A CN104484347A CN 104484347 A CN104484347 A CN 104484347A CN 201410706281 A CN201410706281 A CN 201410706281A CN 104484347 A CN104484347 A CN 104484347A
Authority
CN
China
Prior art keywords
image
theme
visual
topic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410706281.2A
Other languages
English (en)
Other versions
CN104484347B (zh
Inventor
汤斯亮
吴飞
李子健
邵健
鲁伟明
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410706281.2A priority Critical patent/CN104484347B/zh
Publication of CN104484347A publication Critical patent/CN104484347A/zh
Application granted granted Critical
Publication of CN104484347B publication Critical patent/CN104484347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于地理信息的层次化视觉特征提取方法。包括如下步骤:1)编写爬虫程序下载照片分享网站中的图像及其地理信息;2)利用图像词袋模型表达图像特征;3) 结合地理信息,应用半监督主题建模方法将图像视觉单词按照视觉主题的形式组织起来;4) 挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;5)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。本发明结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并将地理信息引入主题建模过程中,学习得到一个层次化视觉主题模型,将图像表示成多个视觉主题上的分布,据此获得了更具有语义表达能力的层次化视觉特征。

Description

一种基于地理信息的层次化视觉特征提取方法
技术领域
本发明涉及图像特征提取和层次化主题建模,尤其涉及一种基于地理信息的层次化视觉特征提取方法。
背景技术
近年来,随着互联网、电信网和移动智能终端的飞速发展,越来越多的图像分享网站涌现出来,从世界各地拍摄的照片正以每天上亿的数量被上传到互联网上。飞速增长的图像数据除了给互联网用户足不出户游览环球的体验和为图像分析应用提供了更多的样本以外,也带来了如何对大规模数据进行自动图像聚类和分类的挑战。为了应对这一挑战,许多研究把重点放在了如何从图像中提取最具有代表性和区分性,并且能够体现图像语义信息的图像特征上。早期的工作主要集中在对图像浅层特征的应用上,例如图像的颜色和纹理特征。这一类特征能够较好地反映图像在像素级别上的特性,但是难以表达图像的高层语义。随着图像词袋模型的发展,逐渐有研究人员开始将主题建模的方法应用到图像特征提取中,以提高图像特征的语义表达能力。
LDA(隐狄利克雷分配)是一种应用广泛的传统主题模型,从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容,而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。
LDA等经典主题模型的一个核心假设是对文档的词袋模型表达。词袋模型假设每篇文档中词与词之间没有关联,并且相互之间的位置可互换。该假设在数学上易于推导,为主题模型带来了计算上的方便和处理数据时的快捷。通过将相似的视觉特征聚类成视觉单词,并将图像表达成视觉单词的集合,从而获得了图像的降维稀疏表达,能够很好地表达图像在视觉空间上的特性。然而,因为视觉单词的尺度过小,难以表达图像的高层语义,并且因为没有引入监督信息,得到的视觉主题往往比较隐晦,难以和现实中的语义形成对应关系。
作为对传统主题建模方法的改进,一些研究人员提出了层次化的主题模型,如层次化主题建模(hLDA)等。这一类方法虽然通过层次化的主题结构得到了文档和图像在不同粒度上的表达,但由于依然是非监督的方法,得到的主题难以和现实语义形成对应。还有一些研究人员提出了有监督的主题模型,如有监督主题建模(Supervised LDA)等,这一类方法则未能解决多尺度多粒度表达的问题,同时这一类模型的训练需要大量人工标注的数据,给模型训练带来了困难。因此,根据少量的标注数据和图像本身的特征,对主题模型施加内容和结构上的限制,从而使整体算法能够更加适应现实需求是图像特征提取与主题建模领域研究的重要方向。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于地理信息的层次化视觉特征提取方法。
一种基于地理信息的层次化视觉特征提取方法包括如下步骤:
1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
2)利用图像词袋模型表达图像特征;
3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
所述的步骤1)包括:
(1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
IMAGE - { Image location 1 , Image location 2 , . . . Image location m }
其中是在第m个地点拍摄的照片集合,即:
Image location m = { Image 1 , Image 2 , . . . , Image N m }
其中Nm是在第m个地点拍摄的照片总数。
(2)下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
所述的步骤2)包括:
(1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi-{S1,S2,...S128}
(2)对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取梯度直方图特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BSN}
其中BSi是图像i的SIFT特征,N是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BHN}
其中BH1是图像i的HOG特征,N是图像总数。
所述的步骤3)包括:
(1)由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
(2)初始化层次化主题树T
(3)利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
p ( Z d , n = k | z d , - n , C , W , α , β ) ∝ α + # [ Z d , - n = k ] Kα + # [ Z d , - n ≥ k ] × # [ Z = k , C 1 = C d , 1 , W = W d , n ] + β # [ Z = k , C 1 = C d , 1 ] + Vβ
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
(4)利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
(5)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
(6)算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
所述的步骤4)包括:
(1)在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
P ( topic T ) ∝ Π i = 1 v P ( topic T | word i ) count ( word i )
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
(2)利用每张图像的F(topicT),得到每张图像基于地理位置的表示,如下:
Image={P(topic1,P(topic2),...P(TopicM)}
即每张图像由它属于各地点主题的概率所表示。
(3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
本发明与现有技术相比具有的有益的效果:
1.本发明提出了一种基于地理信息的层次化视觉特征提取方法,该方法的核心是一种层次化的半监督主题模型。对比已有的主题建模方法,该方法充分利用了图像的地理信息,在训练主题模型时,同时对模型的层级结构和主题内容进行约束,从而获得了更具有语义表达能力的层次化视觉主题。和现有的有监督主题建模相比,该方法只需要少量的已标注数据作为算法输入,更适应工程实践的需求。
2.本发明通过利用上述的基于地理信息的层次化视觉特征提取方法,提出了一种图像的特征,该特征是基于图像地理位置的主题概率特征。在图像聚类、分类和检索试验中,该特征得出了比SIFT和GIST特征更好的实验结果。
3.本发明具有良好的扩展性。一方面,本发明的核心算法可以应用到任何提供图像伴随信息(不一定是地理信息)的场景中;另一方面,本发明得到图像特征可以作为多种计算机视觉应用的基本特征,例如可以应用于图像的自动标注、图像内容的理解等。
附图说明
图1是本发明所使用的核心主题建模算法的概率图模型表达,方框从外到内分别代表各个文档、文档中的各个片段结构和片段结构中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征),无色圆圈代表隐含的中间变量和模型参数。
图2是本发明用于图像检索的效果实例及与传统方法的对比。
图3是本发明中得到的层次化主题树的实例。
具体实施方式
一种基于地理信息的层次化视觉特征提取方法包括如下步骤:
1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
2)利用图像词袋模型表达图像特征;
3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
所述的步骤1)包括:
(1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
IMAGE - { Image location 1 , Image location 2 , . . . Image location m }
其中是在第m个地点拍摄的照片集合,即:
Image location m = { Image 1 , Image 2 , . . . , Image N m }
其中Nm是在第m个地点拍摄的照片总数。
(2)下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
所述的步骤2)包括:
(1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi-{S1,S2,...S128}
(2)对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取梯度直方图特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BSN}
其中BS1是图像i的SIFT特征,N是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BHN}
其中BHi是图像i的HOG特征,N是图像总数。
所述的步骤3)包括:
(1)由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
(2)初始化层次化主题树T
(3)利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
p ( Z d , n = k | z d , - n , C , W , α , β ) ∝ α + # [ Z d , - n = k ] Kα + # [ Z d , - n ≥ k ] × # [ Z = k , C 1 = C d , 1 , W = W d , n ] + β # [ Z = k , C 1 = C d , 1 ] + Vβ
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
(4)利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
(5)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
(6)算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
所述的步骤4)包括:
(1)在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
P ( topic T ) ∝ Π i = 1 v P ( topic T | word i ) count ( word i )
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
(2)利用每张图像的F(topicT),得到每张图像基于地理位置的表示,如下:
Image={P(topic1,P(topic2),...P(TopicM)}
即每张图像由它属于各地点主题的概率所表示。
(3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
实施例1
以用户提交来自Flickr.com的25个著名地标为例,本发明的实施步骤如下:
1.爬虫程序根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片共25536张,构成图像集合
IMAGE = { Image 1 1 , Image 2 , . . . Image 25 }
其中IMAG1是在第1个地点拍摄的照片集合,即:
IMAGE 1 = { Image 1 , Image 2 , . . . , Image N 1 }
其中N1是在第1个地点拍摄的照片总数,以此类推。
2.下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
3.对图像集合IMAGE中的每个图像i,提取其尺度不变特征转换(SIFT)特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi-{S1,S2,...S128}
4.对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取其梯度直方图(HOG)特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
5.将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BS25536}
其中BS1是图像i的SIFT特征,25536是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BH25536}
其中BH1是图像i的HOG特征,25536是图像总数。
其中25536是图像总数。
7.由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
8.初始化层次化主题树T
9.利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
10.利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
11.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
12.算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
13.在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
P ( topic T ) ∝ Π i = 1 v P ( topic T | word i ) count ( word i )
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
14.利用每张图像的F(topicT),可以得到每张图像基于地理位置的表示,如下:
Image={P(topic1,P(topic2),...P(Topic28)}
即每张图像由它属于各地点主题的概率所表示。
15.利用图像基于地理位置的表示Image,我们可以将该表示作为图像的一种基本特征,进而在该表示上对图像进行聚类、分类和检索。
图2是图片检索的实际运行结果,以及本方法与SIFT和GIST图像特征的对比。可以看出本发明的实际图片检索效果要好于传统方法。图3是上述实例处理完成后得到的层次化主题树。可以看到,主题树的第一层和第二层的黑白图像是视觉主题特征的可视化,该特征本质上是一种形状特征。例如对于大本钟,因为大本钟是一个竖直形状的建筑,因此其形状特征在垂直方向上最为显著。因为加入了地理信息约束,第二层主题和地理位置信息形成了很强的关联,这就使得模型语义表达能力大为增强。第三层的每一个方框中,每一行代表一个视觉主题。可以看到,这些视觉主题往往反映了地标的某一个侧面。在第三层的每一个方框中,都会有一到两个视觉主题代表了图像中的噪声,即树木、云彩等等,这就意味着我们的模型还具有主动去噪的功能,这一功能也对图像检索效果有一定提升。

Claims (5)

1.一种基于地理信息的层次化视觉特征提取方法,其特征在于包括如下步骤:
1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
2)利用图像词袋模型表达图像特征;
3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
2.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤1)包括:
(1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
IMAGE = { Image location 1 , Image location 2 , . . . Image location m }
其中是在第m个地点拍摄的照片集合,即:
Image location m = { Image 1 , Image 2 , . . . , Image N m }
其中Nm是在第m个地点拍摄的照片总数。
(2)下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
3.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤2)包括:
(1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi={S1,S2,...S128}
(2)对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取梯度直方图特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
其中BSi是图像i的SIFT特征,N是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x)i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOC={BH1,BH2,...BHN}
其中BHi是图像i的HOG特征,N是图像总数。
4.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤3)包括:
(1)由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
(2)初始化层次化主题树T
(3)利用如下公式对图像d中的第n个视觉单词的主题zd,n进行采样:
p ( Z d , n = k | Z d - w C , W , α , β ) ∝ α + # [ Z d - n = k ] Kα + # [ Z d - n ≥ k ] × # [ Z = k , C 1 = C d , 1 , W = W d , n ] + β # [ Z = k , C 1 = C d , 1 ] + Vβ
其中Zd,n,Zd-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
(4)利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
(5)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
(6)算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
5.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤4)包括:
(1)在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
P ( topic T ) ∝ Π i = 1 v P ( topic T | word i ) count ( wor d i )
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
(2)利用每张图像的P(topicT),得到每张图像基于地理位置的表示,如下:
Image={P(topic1),P(topic2),...P(TopicM)}
即每张图像由它属于各地点主题的概率所表示。
(3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
CN201410706281.2A 2014-11-28 2014-11-28 一种基于地理信息的层次化视觉特征提取方法 Active CN104484347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410706281.2A CN104484347B (zh) 2014-11-28 2014-11-28 一种基于地理信息的层次化视觉特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410706281.2A CN104484347B (zh) 2014-11-28 2014-11-28 一种基于地理信息的层次化视觉特征提取方法

Publications (2)

Publication Number Publication Date
CN104484347A true CN104484347A (zh) 2015-04-01
CN104484347B CN104484347B (zh) 2018-06-05

Family

ID=52758888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410706281.2A Active CN104484347B (zh) 2014-11-28 2014-11-28 一种基于地理信息的层次化视觉特征提取方法

Country Status (1)

Country Link
CN (1) CN104484347B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820718A (zh) * 2015-05-22 2015-08-05 哈尔滨工业大学 基于地理位置特征与全局视觉特征的图像分类和检索方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
CN107292245A (zh) * 2017-06-02 2017-10-24 同济大学 一种高分遥感影像上的港口检测方法
CN109145936A (zh) * 2018-06-20 2019-01-04 北京达佳互联信息技术有限公司 一种模型优化方法及装置
CN111177071A (zh) * 2019-12-12 2020-05-19 广州地理研究所 Flickr平台的图片下载方法及装置
US11144800B2 (en) * 2017-04-25 2021-10-12 Beijing Sensetime Technology Development Co., Ltd. Image disambiguation method and apparatus, storage medium, and electronic device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009032570A1 (en) * 2007-08-30 2009-03-12 Microsoft Corporation Visual language modeling for image classification
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN102637199A (zh) * 2012-02-29 2012-08-15 浙江大学 一种基于半监督主题建模的图像标注方法
CN103473275A (zh) * 2013-08-23 2013-12-25 中山大学 一种采用多特征融合的图像自动标注方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009032570A1 (en) * 2007-08-30 2009-03-12 Microsoft Corporation Visual language modeling for image classification
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN102637199A (zh) * 2012-02-29 2012-08-15 浙江大学 一种基于半监督主题建模的图像标注方法
CN103473275A (zh) * 2013-08-23 2013-12-25 中山大学 一种采用多特征融合的图像自动标注方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZIJIAN LI等: ""Geo-informative discriminative image representation by semi-supervised hierarchical topic modeling"", 《MULTIMEDIA AND EXPO (ICME), 2014 IEEE INTERNATIONAL CONFERENCE ON》 *
张 寅 等: ""结合作者与地理信息的主题建模"", 《计算机辅助设计与图形学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820718A (zh) * 2015-05-22 2015-08-05 哈尔滨工业大学 基于地理位置特征与全局视觉特征的图像分类和检索方法
CN104820718B (zh) * 2015-05-22 2018-01-30 哈尔滨工业大学 基于地理位置特征与全局视觉特征的图像分类和检索方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
CN105608217B (zh) * 2015-12-31 2019-03-26 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
US11144800B2 (en) * 2017-04-25 2021-10-12 Beijing Sensetime Technology Development Co., Ltd. Image disambiguation method and apparatus, storage medium, and electronic device
CN107292245A (zh) * 2017-06-02 2017-10-24 同济大学 一种高分遥感影像上的港口检测方法
CN107292245B (zh) * 2017-06-02 2018-04-10 同济大学 一种高分遥感影像上的港口检测方法
CN109145936A (zh) * 2018-06-20 2019-01-04 北京达佳互联信息技术有限公司 一种模型优化方法及装置
CN109145936B (zh) * 2018-06-20 2019-07-09 北京达佳互联信息技术有限公司 一种模型优化方法及装置
CN111177071A (zh) * 2019-12-12 2020-05-19 广州地理研究所 Flickr平台的图片下载方法及装置
CN111177071B (zh) * 2019-12-12 2023-07-07 广州地理研究所 Flickr平台的图片下载方法及装置

Also Published As

Publication number Publication date
CN104484347B (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN104484347B (zh) 一种基于地理信息的层次化视觉特征提取方法
CN110458107B (zh) 用于图像识别的方法和装置
CN107506793B (zh) 基于弱标注图像的服装识别方法及系统
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN104077447B (zh) 基于纸质平面数据的城市三维空间矢量建模方法
CN104517120B (zh) 基于多路分层正交匹配的遥感图像场景分类方法
CN111062441A (zh) 基于自监督机制和区域建议网络的场景分类方法及装置
CN110264407B (zh) 图像超分辨模型训练及重建方法、装置、设备及存储介质
CN104268140A (zh) 基于权重自学习超图和多元信息融合的图像检索方法
CN106056609A (zh) 基于dbnmi模型实现遥感影像自动标注的方法
Jishan et al. Bangla language textual image description by hybrid neural network model
Figueroa-Mata et al. Using deep learning to identify Costa Rican native tree species from wood cut images
Zheng et al. Category-wise fusion and enhancement learning for multimodal remote sensing image semantic segmentation
CN103324942B (zh) 一种图像分类方法、装置及系统
CN103218460A (zh) 基于最优线性稀疏重构的图像标签补全方法
Al Deen Taher et al. Autonomous multiple damage detection and segmentation in structures using mask R-CNN
CN110717512A (zh) 一种基于结构保持零样本学习的鸟类濒危物种识别方法
CN113282781B (zh) 图像检索方法及装置
CN105740881A (zh) 一种基于矩阵分解的部分标注图像聚类方法及装置
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
Shen et al. Topic modelling for object-based classification of VHR satellite images based on multiscale segmentations
DE102016013631A1 (de) Modellieren von semantischen Konzepten in einem Einbettungsraum als Verteilungen
CN113706551A (zh) 一种图像分割方法、装置、设备及存储介质
CN104835154A (zh) 一种基于随机游走的彩色图像目标获取方法
CN106227858B (zh) 一种移动互联网网页或媒体平台文章内容的准确提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant