CN104484347B - 一种基于地理信息的层次化视觉特征提取方法 - Google Patents
一种基于地理信息的层次化视觉特征提取方法 Download PDFInfo
- Publication number
- CN104484347B CN104484347B CN201410706281.2A CN201410706281A CN104484347B CN 104484347 B CN104484347 B CN 104484347B CN 201410706281 A CN201410706281 A CN 201410706281A CN 104484347 B CN104484347 B CN 104484347B
- Authority
- CN
- China
- Prior art keywords
- image
- path
- b3a25aa3
- jpg
- cpc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013517 stratification Methods 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 title claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 10
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 244000182264 Lucuma nervosa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于地理信息的层次化视觉特征提取方法。包括如下步骤:1)编写爬虫程序下载照片分享网站中的图像及其地理信息;2)利用图像词袋模型表达图像特征;3)结合地理信息,应用半监督主题建模方法将图像视觉单词按照视觉主题的形式组织起来;4)挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;5)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。本发明结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并将地理信息引入主题建模过程中,学习得到一个层次化视觉主题模型,将图像表示成多个视觉主题上的分布,据此获得了更具有语义表达能力的层次化视觉特征。
Description
技术领域
本发明涉及图像特征提取和层次化主题建模,尤其涉及一种基于地理信息的层次化视觉特征提取方法。
背景技术
近年来,随着互联网、电信网和移动智能终端的飞速发展,越来越多的图像分享网站涌现出来,从世界各地拍摄的照片正以每天上亿的数量被上传到互联网上。飞速增长的图像数据除了给互联网用户足不出户游览环球的体验和为图像分析应用提供了更多的样本以外,也带来了如何对大规模数据进行自动图像聚类和分类的挑战。为了应对这一挑战,许多研究把重点放在了如何从图像中提取最具有代表性和区分性,并且能够体现图像语义信息的图像特征上。早期的工作主要集中在对图像浅层特征的应用上,例如图像的颜色和纹理特征。这一类特征能够较好地反映图像在像素级别上的特性,但是难以表达图像的高层语义。随着图像词袋模型的发展,逐渐有研究人员开始将主题建模的方法应用到图像特征提取中,以提高图像特征的语义表达能力。
LDA(隐狄利克雷分配)是一种应用广泛的传统主题模型,从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容,而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。
LDA等经典主题模型的一个核心假设是对文档的词袋模型表达。词袋模型假设每篇文档中词与词之间没有关联,并且相互之间的位置可互换。该假设在数学上易于推导,为主题模型带来了计算上的方便和处理数据时的快捷。通过将相似的视觉特征聚类成视觉单词,并将图像表达成视觉单词的集合,从而获得了图像的降维稀疏表达,能够很好地表达图像在视觉空间上的特性。然而,因为视觉单词的尺度过小,难以表达图像的高层语义,并且因为没有引入监督信息,得到的视觉主题往往比较隐晦,难以和现实中的语义形成对应关系。
作为对传统主题建模方法的改进,一些研究人员提出了层次化的主题模型,如层次化主题建模(hLDA)等。这一类方法虽然通过层次化的主题结构得到了文档和图像在不同粒度上的表达,但由于依然是非监督的方法,得到的主题难以和现实语义形成对应。还有一些研究人员提出了有监督的主题模型,如有监督主题建模(Supervised LDA)等,这一类方法则未能解决多尺度多粒度表达的问题,同时这一类模型的训练需要大量人工标注的数据,给模型训练带来了困难。因此,根据少量的标注数据和图像本身的特征,对主题模型施加内容和结构上的限制,从而使整体算法能够更加适应现实需求是图像特征提取与主题建模领域研究的重要方向。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于地理信息的层次化视觉特征提取方法。
一种基于地理信息的层次化视觉特征提取方法包括如下步骤:
1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
2)利用图像词袋模型表达图像特征;
3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
所述的步骤1)包括:
(1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
其中是在第m个地点拍摄的照片集合,即:
其中Nm是在第m个地点拍摄的照片总数。
(2)下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
所述的步骤2)包括:
(1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi={S1,S2,...S128}
(2)对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取梯度直方图特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BSN}
其中BSi是图像i的SIFT特征,N是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BHN}
其中BHi是图像i的HOG特征,N是图像总数。
所述的步骤3)包括:
(1)由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
(2)初始化层次化主题树T
(3)利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
(4)利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
(5)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
(6)算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
所述的步骤4)包括:
(1)在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
(2)利用每张图像的P(topicT),得到每张图像基于地理位置的表示,如下:
Image={P(topic1),P(topic2),...P(TopicM)}
即每张图像由它属于各地点主题的概率所表示。
(3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
本发明与现有技术相比具有的有益的效果:
1.本发明提出了一种基于地理信息的层次化视觉特征提取方法,该方法的核心是一种层次化的半监督主题模型。对比已有的主题建模方法,该方法充分利用了图像的地理信息,在训练主题模型时,同时对模型的层级结构和主题内容进行约束,从而获得了更具有语义表达能力的层次化视觉主题。和现有的有监督主题建模相比,该方法只需要少量的已标注数据作为算法输入,更适应工程实践的需求。
2.本发明通过利用上述的基于地理信息的层次化视觉特征提取方法,提出了一种图像的特征,该特征是基于图像地理位置的主题概率特征。在图像聚类、分类和检索试验中,该特征得出了比SIFT和GIST特征更好的实验结果。
3.本发明具有良好的扩展性。一方面,本发明的核心算法可以应用到任何提供图像伴随信息(不一定是地理信息)的场景中;另一方面,本发明得到图像特征可以作为多种计算机视觉应用的基本特征,例如可以应用于图像的自动标注、图像内容的理解等。
附图说明
图1是本发明所使用的核心主题建模算法的概率图模型表达,方框从外到内分别代表各个文档、文档中的各个片段结构和片段结构中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征),无色圆圈代表隐含的中间变量和模型参数。
图2是本发明用于图像检索的效果实例及与传统方法的对比。
图3是本发明中得到的层次化主题树的实例。
具体实施方式
一种基于地理信息的层次化视觉特征提取方法包括如下步骤:
1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
2)利用图像词袋模型表达图像特征;
3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
所述的步骤1)包括:
(1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
其中是在第m个地点拍摄的照片集合,即:
其中Nm是在第m个地点拍摄的照片总数。
(2)下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
所述的步骤2)包括:
(1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi={S1,S2,...S128}
(2)对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取梯度直方图特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
(3)将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BSN}
其中BSi是图像i的SIFT特征,N是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BHN}
其中BHi是图像i的HOG特征,N是图像总数。
所述的步骤3)包括:
(1)由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
(2)初始化层次化主题树T
(3)利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
(4)利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
(5)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
(6)算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
所述的步骤4)包括:
(1)在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
(2)利用每张图像的P(topicT),得到每张图像基于地理位置的表示,如下:
Image={P(topic1),P(topic2),...P(TopicM)}
即每张图像由它属于各地点主题的概率所表示。
(3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
实施例1
以用户提交来自Flickr.com的25个著名地标为例,本发明的实施步骤如下:
1.爬虫程序根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上自动下载在指定地点拍摄的照片共25536张,构成图像集合
其中IMAGE1是在第1个地点拍摄的照片集合,即:
其中N1是在第1个地点拍摄的照片总数,以此类推。
2.下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的地理信息。
3.对图像集合IMAGE中的每个图像i,提取其尺度不变特征转换(SIFT)特征,最终对每个图像计算得到128维的SIFT特征描述算子:
SIFTi={S1,S2,...S128}
4.对图像集合IMAGE中的每个图像i,选取8×8的滑动窗口大小,提取其梯度直方图(HOG)特征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而变化:
HOGi={H1,H2,...,Hm}
5.将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-SIFTi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是SIFT特征在词袋模型上的表达,记为:
BOWSIFT={BS1,BS2,...,BS25536}
其中BSi是图像i的SIFT特征,25536是图像总数。
(4)将图像集合IMAGE中的每个图像i对应的HOG特征描述算子HOGi放入如下公式进行优化问题求解:
minarg(w,x){∑i[wixi-HOGi]2/n+λ||w||1}
s.t.||w||1<C
其中||w||1表示w向量的1-范数,C是一个预定义的常数,λ是稀疏惩罚项系数,w向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x向量即是HOG特征在词袋模型上的表达,记为:
BOWHOG={BH1,BH2,...,BH25536}
其中BHi是图像i的HOG特征,25536是图像总数。
其中25536是图像总数。
7.由系统自动设定,或者由用户指定Dirichlet分布的参数α和β,以及Beta分布的参数γ,并且设定好迭代次数、收敛条件等参数。
8.初始化层次化主题树T
9.利用如下公式对图像d中的第n个视觉单词的主题Zd,n进行采样:
其中Zd,n,Zd,-n,C,W,α,β都是LDA模型的变量,k表示第k个主题。
10.利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C-d,Z,β,Φ,γ,都是LDA模型的变量,k表示第k个主题。
11.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。
12.算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
13.在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicT的概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确定。
14.利用每张图像的P(topicT),可以得到每张图像基于地理位置的表示,如下:
Image={P(topic1),P(topic2),...P(Topic25)}
即每张图像由它属于各地点主题的概率所表示。
15.利用图像基于地理位置的表示Image,我们可以将该表示作为图像的一种基本特征,进而在该表示上对图像进行聚类、分类和检索。
图2是图片检索的实际运行结果,以及本方法与SIFT和GIST图像特征的对比。可以看出本发明的实际图片检索效果要好于传统方法。图3是上述实例处理完成后得到的层次化主题树。可以看到,主题树的第一层和第二层的黑白图像是视觉主题特征的可视化,该特征本质上是一种形状特征。例如对于大本钟,因为大本钟是一个竖直形状的建筑,因此其形状特征在垂直方向上最为显著。因为加入了地理信息约束,第二层主题和地理位置信息形成了很强的关联,这就使得模型语义表达能力大为增强。第三层的每一个方框中,每一行代表一个视觉主题。可以看到,这些视觉主题往往反映了地标的某一个侧面。在第三层的每一个方框中,都会有一到两个视觉主题代表了图像中的噪声,即树木、云彩等等,这就意味着我们的模型还具有主动去噪的功能,这一功能也对图像检索效果有一定提升。
Claims (3)
1.一种基于地理信息的层次化视觉特征提取方法,其特征在于包括如下步骤:
1) 编写爬虫程序下载照片分享网站中的图像及其地理信息,具体包括:
1.1) 编写爬虫程序,根据预定义的地点列表,从包含Flickr、Panoramio在内的照片分享网站上自动下载在指定地点拍摄的照片,构成图像集合
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image004.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image006.jpg是在第m个地点拍摄的照片集合,即:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image008.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image010.jpg是在第m个地点拍摄的照片总数;
1.2) 下载图像集合说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image012.jpg中每个图像所在的网页,利用页面解析程序对每个网页进
行解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的
地理信息;
2) 利用图像词袋模型表达图像特征,具体包括:
2.1) 对图像集合说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\432446dest_path_image012.jpg中的每个图像i,提取尺度不变特征转换特征,最终对每个图
像计算得到128维的SIFT特征描述算子:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image014.jpg
2.2) 对图像集合IMAGE中的每个图像i,选取说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image016.jpg的滑动窗口大小,提取梯度直方图特
征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小而
变化:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image018.jpg
2.3) 将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image020.jpg放入如下公式进
行优化问题求解:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image022.jpg
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image024.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image026.jpg表示w向量的1-范数,C是一个预定义的常数,说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image028.jpg是稀疏惩罚项系数,w向量和x
向量是优化问题求解的目标,n是图像特征的总个数;根据此优化问题求解出的x向量即是
SIFT特征在词袋模型上的表达,记为:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image030.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image032.jpg是图像i的SIFT特征,N是图像总数;
2.4) 将图像集合IMAGE中的每个图像i对应的HOG特征描述算子说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image034.jpg放入如下公式进
行优化问题求解:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image036.jpg
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image024a.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\520225dest_path_image026.jpg表示w向量的1-范数,C是一个预定义的常数,说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\299962dest_path_image028.jpg是稀疏惩罚项系数,w向量和x
向量是优化问题求解的目标,n是图像特征的总个数;根据此优化问题求解出的x向量即是
HOG特征在词袋模型上的表达,记为:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image038.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image040.jpg是图像i的HOG特征,N是图像总数;
3) 结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;
4) 利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
2.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤3)包括:
3.1) 由系统自动设定,或者由用户指定Dirichlet分布的参数说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image042.jpg和说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image044.jpg,以及Beta分布的
参数说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image046.jpg,并且设定好包含迭代次数、收敛条件在内的参数;
3.2) 初始化层次化主题树T
3.3) 利用如下公式对图像d中的第n个视觉单词的主题说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image048.jpg进行采样:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image050.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image052.jpg都是LDA模型的变量,k表示第k个主题;
3.4) 利用如下公式对图像d所在主题树T上的路径说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image054.jpg进行采样:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image056.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image058.jpg都是LDA模型的变量,k表示第k个主题;
3.5) 完成更新过程后检查算法是否满足收敛条件,未满足则返回步骤1;
3.6) 算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及层次化主题树。
3.根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于所述的步骤4)包括:
4.1) 在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image060.jpg
其中说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image062.jpg代表某一特定的地点主题,说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image064.jpg代表该图像属于该地点主题说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\131390dest_path_image062.jpg的
概率;根据该公式,说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\945762dest_path_image064.jpg正比于图像中每个视觉单词说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image066.jpg属于地点主题说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\705908dest_path_image062.jpg的概
率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确
定;
4.2) 利用每张图像的说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\972941dest_path_image064.jpg,得到每张图像基于地理位置的表示,如下:
说明: D:\CPC客户端\cases\inventions\b3a25aa3-7d3a-4783-97e5-38c791695947\others\1e049933-8c37-40b1-bc68-241415f1402f\100001\dest_path_image068.jpg
即每张图像由它属于各地点主题的概率所表示;
4.3) 利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行聚类、分类和检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706281.2A CN104484347B (zh) | 2014-11-28 | 2014-11-28 | 一种基于地理信息的层次化视觉特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706281.2A CN104484347B (zh) | 2014-11-28 | 2014-11-28 | 一种基于地理信息的层次化视觉特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484347A CN104484347A (zh) | 2015-04-01 |
CN104484347B true CN104484347B (zh) | 2018-06-05 |
Family
ID=52758888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410706281.2A Active CN104484347B (zh) | 2014-11-28 | 2014-11-28 | 一种基于地理信息的层次化视觉特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484347B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820718B (zh) * | 2015-05-22 | 2018-01-30 | 哈尔滨工业大学 | 基于地理位置特征与全局视觉特征的图像分类和检索方法 |
CN105608217B (zh) * | 2015-12-31 | 2019-03-26 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN108205684B (zh) * | 2017-04-25 | 2022-02-11 | 北京市商汤科技开发有限公司 | 图像消歧方法、装置、存储介质和电子设备 |
CN107292245B (zh) * | 2017-06-02 | 2018-04-10 | 同济大学 | 一种高分遥感影像上的港口检测方法 |
CN109145936B (zh) * | 2018-06-20 | 2019-07-09 | 北京达佳互联信息技术有限公司 | 一种模型优化方法及装置 |
CN111177071B (zh) * | 2019-12-12 | 2023-07-07 | 广州地理研究所 | Flickr平台的图片下载方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009032570A1 (en) * | 2007-08-30 | 2009-03-12 | Microsoft Corporation | Visual language modeling for image classification |
CN102495865A (zh) * | 2011-11-28 | 2012-06-13 | 南京大学 | 结合图像内部空间关系及视觉共生关系的图像标注方法 |
CN102637199A (zh) * | 2012-02-29 | 2012-08-15 | 浙江大学 | 一种基于半监督主题建模的图像标注方法 |
CN103473275A (zh) * | 2013-08-23 | 2013-12-25 | 中山大学 | 一种采用多特征融合的图像自动标注方法和系统 |
-
2014
- 2014-11-28 CN CN201410706281.2A patent/CN104484347B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009032570A1 (en) * | 2007-08-30 | 2009-03-12 | Microsoft Corporation | Visual language modeling for image classification |
CN102495865A (zh) * | 2011-11-28 | 2012-06-13 | 南京大学 | 结合图像内部空间关系及视觉共生关系的图像标注方法 |
CN102637199A (zh) * | 2012-02-29 | 2012-08-15 | 浙江大学 | 一种基于半监督主题建模的图像标注方法 |
CN103473275A (zh) * | 2013-08-23 | 2013-12-25 | 中山大学 | 一种采用多特征融合的图像自动标注方法和系统 |
Non-Patent Citations (2)
Title |
---|
"Geo-informative discriminative image representation by semi-supervised hierarchical topic modeling";Zijian Li等;《Multimedia and Expo (ICME), 2014 IEEE International Conference on》;20140708;第2-3章,图3 * |
"结合作者与地理信息的主题建模";张 寅 等;《计算机辅助设计与图形学学报》;20120930;第24卷(第9期);第1180-1187页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104484347A (zh) | 2015-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484347B (zh) | 一种基于地理信息的层次化视觉特征提取方法 | |
CN104077447B (zh) | 基于纸质平面数据的城市三维空间矢量建模方法 | |
CN103207910B (zh) | 基于分层特征和遗传规划相关反馈的图像检索方法 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
CN104517120B (zh) | 基于多路分层正交匹配的遥感图像场景分类方法 | |
CN106202281B (zh) | 一种多模态数据表示学习方法及系统 | |
CN111062441A (zh) | 基于自监督机制和区域建议网络的场景分类方法及装置 | |
CN103390046A (zh) | 潜在狄利克雷模型的多尺度字典自然场景图像分类方法 | |
CN105868706A (zh) | 一种基于稀疏自编码的三维模型识别方法 | |
CN104156464A (zh) | 基于微视频特征数据库的微视频检索方法及装置 | |
CN110264407A (zh) | 图像超分辨模型训练及重建方法、装置、设备及存储介质 | |
CN103473275A (zh) | 一种采用多特征融合的图像自动标注方法和系统 | |
CN103530403A (zh) | 一种结构化的图像描述方法 | |
Norzaki et al. | A comparative study of template matching, ISO cluster segmentation, and tree canopy segmentation for homogeneous tree counting | |
CN106056609A (zh) | 基于dbnmi模型实现遥感影像自动标注的方法 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
Vallone et al. | Danish airs and grounds: A dataset for aerial-to-street-level place recognition and localization | |
Zheng et al. | Category-wise fusion and enhancement learning for multimodal remote sensing image semantic segmentation | |
CN104331717B (zh) | 一种整合特征字典结构与视觉特征编码的图像分类方法 | |
JP5569728B2 (ja) | 画像ランキング方法、プログラム及び記憶媒体並びに画像表示システム | |
CN111222000B (zh) | 一种基于图卷积神经网络的图像分类方法及系统 | |
Jia et al. | A multi-style interior floor plan design approach based on generative adversarial networks | |
CN103699568A (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
CN107045520A (zh) | 一种基于位置信息加权词汇树的车辆图像检索方法 | |
CN114064973A (zh) | 视频新闻分类模型建立方法、分类方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |