CN105678349A - 一种视觉词汇的上下文描述子生成方法 - Google Patents

一种视觉词汇的上下文描述子生成方法 Download PDF

Info

Publication number
CN105678349A
CN105678349A CN201610005159.1A CN201610005159A CN105678349A CN 105678349 A CN105678349 A CN 105678349A CN 201610005159 A CN201610005159 A CN 201610005159A CN 105678349 A CN105678349 A CN 105678349A
Authority
CN
China
Prior art keywords
context
visual vocabulary
local feature
descriptive
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610005159.1A
Other languages
English (en)
Other versions
CN105678349B (zh
Inventor
姚金良
王小华
黄孝喜
杨冰
谌志群
王荣波
陈浩
杨醒龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201610005159.1A priority Critical patent/CN105678349B/zh
Publication of CN105678349A publication Critical patent/CN105678349A/zh
Application granted granted Critical
Publication of CN105678349B publication Critical patent/CN105678349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种视觉词汇的上下文描述子生成方法。本发明包括离线学习、上下文描述子生成和上下文描述子相似性计算。离线学习用于视觉词汇词典的构建和视觉词汇的评价。上下文描述子生成步骤如下:1.局部特征点的提取和特征描述子的量化;2.上下文的选择;3.上下文中局部特征点的特征提取和上下文描述子的生成。上下文描述子相似性计算依据上下文描述子中局部特征点的方位、主方向和视觉词汇一致性来验证两个上下文描述子中的局部特征点是否匹配,并通过匹配的视觉词汇的反文档频率的和来评价两个上下文描述子的相似性。本发明构建的上下文描述子能够适应图像裁剪、旋转、尺度缩放等变换带来的影响,可用于基于视觉词汇的图像检索和分类等应用中。

Description

一种视觉词汇的上下文描述子生成方法
技术领域
本发明属于计算机图像处理和机器视觉领域,涉及一种视觉词汇的上下文描述子生成方法。
背景技术
基于图像中的局部特征点进行图像的分析、识别和检索是当前图像处理领域的一种重要方式。将局部特征点描述子量化为视觉词汇并用词袋模型来表示图像,是当前图像识别与分类的一类重要方法。词袋模型与倒排索引结构相结合是当前最有效的基于内容的图像检索方式;该图像检索方法可以应对图像的各种编辑和变换,有较好的鲁棒性;另外,基于视觉词汇的倒排索引结构可以在大规模图像库中实现实时的查询要求。但是通过局部特征的描述子量化得到的视觉词汇相对于自然语言中的词汇并没有明确的意义,容易受到噪声的影响。为了能够保证视觉词汇的区分能力要求:词典中视觉词汇数量越多越好;但是越多的视觉词汇导致了其抗噪能力变弱,并且在局部特征量化为视觉词汇时需要耗费更多的计算量。然而,为了消除噪声影响而减少词典中视觉词汇的数量,导致了视觉词汇中广泛存在着多义现象,多义现象是指同一个视觉词汇指向了多个不同的局部图像,使视觉词汇的区分能力降低,同时造成了视觉词汇的高误检率,从而给后面的图像相似度计算带来了困难。针对局部特征量化为视觉词汇后导致的多义问题,有部分的研究者关注到了该问题,并提出了部分的解决方法。
有研究者希望通过建模视觉词汇(局部特征)的空间依赖关系来提高视觉词汇的描述能力。Liu通过两个视觉词汇稳定的空间共现选择二阶视觉词汇特征。Yuan和Zhang提出了视觉词汇短语特征来描述视觉词汇空间共现特性。Li采用文本中N-Gram方式来构建可能的视觉词汇组,然后用chi方统计量来选择代表性的视觉词汇组。然而上述这些方法都是依赖于训练数据来选择共现视觉词汇对,其主要以图像分类和对象检索为目的,并不完全适合包括各种未知对象的图像检索应用。
近年来也有学者研究面向检索领域的局部特征的上下文信息表示问题。Wu通过最大稳定极限区域将视觉词汇组合成Bundle,然后基于Bundle对图像进行索引,并通过Bundle中视觉词汇的匹配实现相似性的度量。该方法依赖于最大稳定极值区域检测的鲁棒性。Zhou采用了紧致的空间编码方法来描述视觉词汇的相互位置关系。但该方法对图像的旋转变换支持不是很理想,需要通过构建多个方向的位置关系来提高对旋转变换的鲁棒性。Zhang在大规模图像下,通过量化视觉词汇的空间关系以及学习语义距离来降低视觉词汇的误检率,但是该方法的效率低。Paradowski提出利用视觉词汇之间的几何关系和拓扑关系来验证近似拷贝图像,利用匹配“视觉词汇对”来求解透视变换参数,再通过投影获得几何相似性。拓扑关系通过上下文视觉词汇的顺序来表示。
针对局部特征量化为视觉词汇后导致的多义现象而造成的匹配准确率较低的问题,本发明方法提出利用视觉词汇在图像中的上下文构建一个上下文描述子进一步增强视觉词汇区分能力。该视觉词汇上下文描述子满足了紧致性和鲁棒性两方面要求,可以应用图像的识别和检索。
发明内容
本发明的目的是针对现有技术的不足,提供了一种视觉词汇的上下文描述子生成方法。
本发明解决其技术问题所采用的技术方案,包括如下三部分:(1)离线学习部分,(2)上下文描述子生成部分,(3)上下文描述子相似性计算部分。
所述的离线学习部分包括视觉词汇词典的构建和视觉词汇反文档频率的获取;
所述的上下文描述子生成部分包括提取和量化局部特征点、选择局部特征点的上下文、提取上下文中局部特征点的特征并生成描述子;
所述的上下文描述子相似性计算部分包括视觉词汇的扩展、基于反文档频率和视觉词汇扩展的相似性计算和基于阈值的上下文一致性验证;
上述的三个部分相互关联,离线学习部分得到的视觉词汇词典用于上下文描述子生成部分中的局部特征点描述子特征向量的量化和视觉词汇的扩展,视觉词汇反文档频率用于上下文描述子的相似性计算。上下文描述子相似性计算部分是上下文描述子在应用中的必要步骤。
(1)离线学习部分包括:视觉词汇词典的构建和视觉词汇反文档频率的获取,具体步骤如下:
1-1.提取图像库中图像的局部特征点及其特征描述子,将提取的特征描述子构建成样本库;样本库的数量越多越能反映真实的局部特征点描述子的分布情况。
1-2.通过样本库获得视觉词汇词典;具体的,对样本库中特征描述子的特征向量进行分组,在每个特征组上通过K均值聚类得到K个类中心,每个类中心为一个特征向量即代表视觉词汇中的一个词根,K个类中心为该特征组的词根集合;从每个特征组的词根集合中选择一个词根就生成了一个视觉词汇。在每个特征组上构建的词根集合进行组合得到视觉词汇词典;
1-3.对样本库中的局部特征描述子根据视觉词汇词典采用分组量化方法得到视觉词汇,再通过统计获得视觉词汇的反文档频率;
视觉词汇VWi的反文档频率IDF(VWi)是通过统计样本库中视觉词汇的文档频率的倒数得到,其作为视觉词汇重要性的指标;由于一些视觉词汇在样本库中并不一定存在,对不存在的视觉词汇用样本库中视觉词汇反文档频率的最大值进行填充;该填充方法表达了视觉词汇的出现频率越低带有的信息量越大这一特性。
(2)上下文描述子生成部分的具体步骤如下:
2-1.对输入图像提取局部特征点集合S={Pi,i∈[0,Q]},Q为输入图像中局部特征点的个数,Pi指代第i个局部特征点;并依据视觉词汇词典通过分组量化方法将局部特征点Pi的特征描述子量化为视觉词汇VWi;具体步骤如下:
2-1-1.从图像中提取局部特征点Pi的特征描述子Fi、位置(Pxi,Pyi)、尺度σi和主方向θi信息,即局部特征点Pi表示为[Fiii,Pxi,Pyi];
2-1-2.对每个局部特征点Pi的特征描述子Fi依据视觉词汇词典采用分组量化方法得到视觉词汇;依据视觉词汇词典的分组量化是将特征描述子Fi分成M组,每组为D/M个特征,其中D为特征描述子Fi特征向量的维数;然后对每组的特征向量根据步骤1-2训练好的视觉词汇词典单独量化为Vj,则采用分组量化得到特征描述子Fi的视觉词汇VWi为:
VW i = Σ j = 0 M V j * L j ;
其中,L为视觉词汇词典中对应组的词根数;从而一个局部特征点Pi被表示为[VWiii,Pxi,Pyi];每组特征向量的量化通过在该组的词根集合中基于欧式距离查找最近的类中心,并将该类中心的下标作为其量化结果;
2-2.对每个局部特征点Pi从输入图像的局部特征点集合S中选取N个局部特征点作为Pi的上下文Context(Pi);根据局部特征点Pi与输入图像中其它局部特征点Pj的距离和尺度差的加权和D(Pi,Pj))来评价Pi与Pj关系的稳定性,D(Pi,Pj)越小两者的关系越稳定,越不容易受到图像变换的影响;D(Pi,Pj)的计算公式为:
D ( P i , P j ) = w * ( Px i - Px j ) 2 + ( Py i - Py j ) 2 Img W 2 + Img H 2 + ( 1 - w ) * ( σ i - σ j ) max ( σ ) ;
其中,和max(σ)是归一化因子,Imgw和ImgH分别指代图像宽度和高度;w和(1-w)分别为距离和尺度差的权重;选取D(Pi,Pj)最小的N个局部特征点Ck作为Pi的上下文,即:
Context(pi)={Ck,k∈[1,N],Ck∈S};
D(Pi,Pj)的计算公式表达了本方法选择距离近且尺度大的局部特征点作为上下文中特征点;选择距离近特征点有助于消除图像裁剪的影响;选择尺度大的特征点有助于消除图像缩放带来的小尺度特征点消失的影响;
2-3.根据局部特征点Pi的主方向生成上下文中每个局部特征点Ck的特征并量化;具体包括如下步骤:
2-3-1.提取上下文中局部特征点Ck的方位特征:α(k)=|arctan2(Pyk-Pyi,Pxk-Pxi)-θi|,然后量化为A为量化因子;量化用于对该特征进行压缩,减少存储空间;arctan2(Pyk-Pyi,Pxk-Pxi)表示特征点k相对特征点i的方位;方位特征中减去特征点i的主方向可保证该特征对图像的旋转鲁棒;
2-3-2.提取上下文中局部特征点Ck的主方向特征:β(k)=|θki|,量化为B为量化因子;量化用于对该特征进行压缩,减少存储空间;主方向特征中减去特征点i的主方向可保证该特征具有旋转不变性;
2-3-3.根据Ck的方位特征、主方向特征和视觉词汇生成上下文描述子为:{qd(k),qa(k),VWk,k∈[1,N]},并序列化为上下文描述子用于构建图像索引;序列化就是将N个上下文中特征点的特征按一定的规则排列,并用字节序列进行表示和存储。
(3)上下文描述子相似性计算部分主要根据上下文描述子中局部特征点的方位特征、主方向特征和视觉词汇一致性来验证两个上下文描述子中的局部特征点是否匹配,并通过匹配的视觉词汇的反文档频率(IDF)的和来评价两个上下文描述子的相似性。视觉词汇的匹配通过视觉词汇的扩展来增加匹配的可能性,提高上下文描述子的鲁棒性。具体包括以下步骤:
3-1.对上下文中局部特征点的特征描述子进行视觉词汇的扩展,也就是将其量化为M个视觉词汇;该视觉词汇扩展通过独立的在每个分组的词典中选择距离最近的M个量化结果,然后通过排列组合,选择排列组合中距离最小的M个量化结果的组合作为其扩展的视觉词汇集合;
3-2.在给定两个上下文描述子Context1和Context2的情况下,基于视觉词汇扩展和视觉词汇的反文档频率计算上下文相似性:具体的,遍历上下文描述子Context1和Context2中的局部特征点,然后进行两两匹配,匹配过程中方位特征、主方向特征一致性通过阈值来判断;视觉词汇的一致性通过视觉词汇扩展来实现;设上下文描述子的相似值为MatchValue,存在一个局部特征点匹配就在MatchValue加上该特征点匹配视觉词汇的反文档频率。在进行上下文中特征点的视觉词汇扩展时,可以选择对两个上下文描述子中视觉词汇都进行扩展,也可以仅仅对一个上下文描述子中视觉词汇进行扩展;在上下文描述子用于图像检索时,考虑到索引的空间需求,对索引的上下文描述子不进行扩展,仅存储一个视觉词汇,但对查询的上下文描述子进行扩展。具体执行过程的伪代码如下:
3-3.验证MatchValue,若MatchValue大于阈值Th_MachedValue,则判定两个上下文描述子匹配,否则不匹配;
本发明相对于现有技术具有以下有益效果:
本发明可以用于大规模图像检索,提高检索的效率和准确率;同时通过该方法生成的上下文描述子对图像的缩放、旋转、裁剪等图像变换具有鲁棒性。
附图说明
图1表示本发明的流程图;
图2(a)和2(b)上下文选择样例图;
图3选择局部特征点的上下文结果示意图;
图4上下文中局部特征点的方位和主方向特征示意图;
图5上下文描述子的字节序列结构;
图6(a)和6(b)为上下文相似性验证的视觉词汇匹配效果图。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅便于对本发明的理解,而对其不起任何限定作用。
在本发明中,处理的局部特征点可以采用各种描述子进行表示,比如:SIFT(Scale-invariantfeaturetransform,尺度不变特征转换)、SURF、PCA-SIFT等;但是需要局部特征点描述子具有位置、主方向、尺度、特征描述子四个信息。在此实施例中,处理的局部特征描述子采用SIFT描述子。在以下的叙述中,局部特征点的描述子就是指SIFT,不再具体指明。本实施例中主要介绍局部特征点的上下文描述子生成方法,并用上下文描述子验证来过滤不准确的视觉词汇匹配。其可用于图像检索和基于局部特征点的图像识别和检测方法中。
下面将参考附图进一步介绍本发明的实施例。
图1是一个流程框图,表示了本发明各个部分关系及其流程。一种视觉词汇的上下文描述子生成方法,具体包括如下部分:
离线学习部分、上下文描述子生成部分和上下文描述子相似性计算部分。离线学习部分用于视觉词汇词典的构建和视觉词汇的评价。上下文描述子生成部分主要三个基本步骤:(1)局部特征点的提取和特征描述子的量化;(2)局部特征点的上下文选择;(3)上下文中局部特征点的特征(方位、主方向、视觉词汇)提取和上下文描述子的生成。上下文描述子相似性计算部分依据上下文描述子中局部特征点的方位、主方向和视觉词汇一致性来验证两个上下文描述子中的局部特征点是否匹配,并通过匹配的视觉词汇的反文档频率(IDF)的和来评价两个上下文描述子的相似性。
(1)图1中离线学习部分主要包括:视觉词汇词典的构建和视觉词汇的评价。
对于视觉词汇词典的构建,本方法首先构建一个图像库,图像库尽量涵盖各种类型的图片,比如人物、风景、建筑等;然后提取图像库中图像的局部特征点及其特征描述子,将提取的特征描述子构建成样本库;样本库的数量越多越能反映真实的局部特征点描述子的分布情况。在本实施例中,提取的SIFT的特征描述子为32维的特征向量。
然后,对特征描述子样本库中特征描述子的特征向量进行分组;在每个特征组上通过K均值聚类得到K个类中心,每个类中心为一个特征向量即代表视觉词汇中的一个词根,K个类中心为该特征组的词根集合;从每个特征组的词根集合中选择一个词根就生成了一个视觉词汇。在每个特征组上构建的词根集合进行组合得到视觉词汇词典。在本实施例中,局部特征点的特征描述子被分为4个组,每组8个特征值,通过K均值聚类构建64个类中心,每个类中心就为该组的词根;4个类中心就为本方法的视觉词典;每组的类中心都保存在一个数组中,并存储到文件中;在进行量化局部特征描述子时方法需要装载该数组到内存中。
最后,对样本库中的局部特征描述子根据视觉词汇词典采用分组量化方法得到视觉词汇,再通过统计获得视觉词汇的反文档频率;
视觉词汇VWi的反文档频率IDF(VWi)是通过统计样本库中视觉词汇的文档频率的倒数得到,其作为视觉词汇重要性的指标;由于一些视觉词汇在样本库中并不一定存在,对不存在的视觉词汇用样本库中视觉词汇反文档频率的最大值进行填充;该填充方法表达了视觉词汇的出现频率越低带有的信息量越大这一特性。在本实施例中,训练反文档频率的图像库为10,000张图像,包含:风景、人物、建筑、会话、事件等内容。统计的结果显示部分视觉词汇在各种图像中出现的频率非常高,而有些视觉词汇出现的概率非常少;由于本方法的视觉词汇编码是从0到(644-1),所以该视觉词汇的反文档频率被保存为一个数组,数组的下标为对应的视觉词汇,值为反文档频率。
(2)图1中上下文描述子生成部分的具体步骤如下:
图1中步骤S1对图像提取局部特征点集合S={Pi,i∈[0,Q]},Q为图像中局部特征点的个数;并通过依据视觉词汇词典的分组量化方法将局部特征点Pi的特征描述子量化为视觉词汇VWi。具体步骤如下:
图1步骤S1中的提取局部特征点211,主要包括检测局部特征点和描述局部特征点两个部分。当前在局部区域检测方面,主要采用:DoG极大值、哈里斯角点检测、Harris-Hessian等。在本实施例中,采用DoG极大值检测局部特征点,通过DoG极大值检测方法可以检测图像在不同尺度下的局部特征点,从而保证局部特征点具有尺度不变性;在局部特征点描述方面,当前主要采用:PCA-SIFT、SIFT、PM-DFT、LocalDifferencePattern、多分辨率直方图。在本实施例中,对检测得到的局部特征点采用SIFT描述子进行描述;一个局部特征点(Pi)通过SIFT描述子可表示为:[Fiii,Pxi,Pyi];其中Fi为特征描述子向量,用梯度直方图表示;θi为主方向;σi为局部特征点的尺度,(Pxi,Pyi)为局部特征点(Pi)在图像中的空间位置。在本实施例中,Fi被设置为一个32维的特征向量。通过局部特征点提取与描述,图像被表示为SIFT描述子的集合。为了增强局部特征的描述能力,本方法为图像中的每个局部特征点增加一个上下文描述子。
图1步骤S1中的特征描述子量化212对每个局部特征点的特征描述子(Fi)采用依据视觉词汇的分组量化方法得到视觉词汇;分组量化是将特征描述子Fi(D维的特征向量)分成M组,每组为D/M个特征,然后对每组的特征向量根据训练好的词典单独量化为Vj,则采用分组量化得到特征描述子的视觉词汇(VW)为:其中L为视觉词汇词典中对应组的词根数。从而一个局部特征点Pi被表示为[VWiii,Pxi,Pyi]。,在实施例中,考虑到特征描述子提取是采用的2*2的窗口提取每个窗口中的梯度直方图,梯度方向取8个方向。因此,窗口之间的直方图相对独立,而窗口之内的特征值相关性较大。所以Fi被分成了4组,每组为8个特征,也就是M被设定为8。然后对每个8维的特征向量在样本库中采用K均值聚类的方法训练得到64个类中心(词根)。每个词根对应K均值聚类结束后的一个中心特征向量;也就是每组特征向量被量化为0到63中的一个值。从而,整个视觉词汇描述子量化的结果通过组合每个组的结果得到,即通过公式得到。从而整个特征描述子被量化为区间[0,644-1]中的一个值。在每组量化时,只需要将8维的特征向量与词典中的64个类中心特征向量计算距离,选择距离最近的作为量化值。整个描述子的量化只需要进行64*4次距离计算。因此,分组量化方法具有较高的效率,可以有效应对图像中存在大量具体特征点的问题。经过局部特征描述子的量化,一个局部特征点Pi被表示为[VWiii,Pxi,Pyi]。
图1步骤S2中选择上下文单元22采用局部特征点Pi与图像中其它局部特征点Pj的距离和尺度差的加权和(D(Pi,Pj))来评价Pi与Pj关系的稳定性。在本方法中,Pi被称为参考点。由于图像的缩小会导致图像中的细节信息丢失,从而使图像中尺度较小的局部特征点消失。为了消除参考局部特征点的上下文受图像尺度变换的影响,本方法选择的上下文中局部特征点的尺度应尽可能的比参考点的尺度大。同时为了消除图像裁剪的影响,需要尽可能的选择距离较近的局部特征点作为参考局部特征点的上下文。因此,D(Pi,Pj)的计算公式为: D ( P i , P j ) = w * ( Px i - Px j ) 2 + ( Py i - Py j ) 2 Img W 2 + Img H 2 + ( 1 - w ) * ( σ i - σ j ) max ( σ ) , 其中下标i表示参考局部特征点,下标j表示图像中除参考点之外的其它局部特征点;和max(σ)是归一化因子;Img_W和Img_H分别为图像的宽和高,max(σ)为图像中局部特征点的最大尺度值,w和(1-w)分别为距离和尺度差的权重。选取D(Pi,Pj)最小的N个局部特征点(Ck)作为Pi的上下文,即:Context(pi)={Ck,k∈[1,N],Ck∈S};N被称为上下文的规模。在本实施例中,C被设置为0.8。上下文提取效果的样例如图2所示,图2(b)尺度为图2(a)的1/3;红线为参考局部特征点,黄线为对应的上下文。图2(a)中部分尺度较小的局部特征点没有被选择为参考特征点的上下文,从而可以尽可能保证图2(a)和图2(b)有一致的上下文。附图3为上下文选择的示意图,图中红色特征点由于与参考特征点的尺度差比较大,因此没有被选为其上下文。
图1步骤S3根据局部特征点Pi的主方向生成上下文中每个局部特征点Ck的特征并量化。其关键是提取局部特征点的哪些特征,从而能保证这些特征能有效地增加Pi的区分能力,同时保证生成的上下文描述子具有旋转和尺度变换的鲁棒性。由于Ck相对Pi的位置具有较强的区分能力,但是位置对尺度变换敏感,且无法应对旋转变换;因此,本方法考虑采用Ck相对Pi的方位,并通过与Pi主方向的角度差来消除尺度和旋转变换带来的影响。同时,考虑到局部特征的主方向比较稳定,不容易受到噪声的影响,因此,提取上下文中局部特征点Ck的主方向特征,并通过与Pi主方向的角度差来消除旋转变换的影响;另外,本方法还将Ck的特征描述子量化得到的视觉词汇作为特征,其不受旋转变换、尺度变换、裁剪等影响;具体包括三个执行单元:
图1步骤S3中的提取方位特征单元(231)用于提取上下文中局部特征点Ck的方位特征:α(k)=|arctan2(Pyk-Pyi,Pxk-Pxi)-θi|,然后量化为A为量化因子;方位特征示意图见附图4;量化是有助于将方位特征用较少的位来存储。在本实施例中,方位特征量化为[0,255],通过一个字节来存储。
图1步骤S3中的提取主方向特征单元(232)用于提取上下文中局部特征点Ck的主方向特征:β(k)=|θki|,量化为B为量化因子;主方向特征示意图见附图4;在本实施例中,主方向特征量化为[0,255],通过一个字节来存储。
图1步骤S3中的生成上下文描述子单元(233)根据Ck的方位、主方向和视觉词汇生成上下文描述子为:{qd(k),qa(k),VWk,k∈[1,N]},并序列化为上下文描述子用于构建图像索引。序列化过程就是将上述特征转换为字节序列,便于存储。在本实施例中,由于视觉词汇被量化为[0,644-1]中的一个值,因此可以通过三个字节来存储视觉词汇VWk;从而,上下文描述子的字节序列可以通过附图5所示的结构进行存储。在本实施例中,上下文中的一个局部特征点用5个字节来表示,前面两个字节分别存储方位和主方向,后面三个字节存储量化得到的视觉词汇;在上下文的规模N被设定为4时,整个上下文描述子需要4*5=20个字节。
(3)图1中上下文描述子相似性计算部分主要根据上下文描述子中局部特征点的方位、主方向和视觉词汇一致性来验证两个上下文描述子中的局部特征点是否匹配,并通过匹配的视觉词汇的反文档频率(IDF)的和来评价两个上下文描述子的相似性。视觉词汇的匹配通过视觉词汇的扩展来增加匹配的可能性,提高上下文描述子的鲁棒性。在本实施例中,方法用于图像检索应用系统,因此,命名了查询上下文描述子和索引上下文描述子,并计算两者的相似性。在图像检索应用中,需要依据视觉词汇构建倒排索引,在倒排索引表中存储视觉词汇出现的图像ID以及其在该图像中上下文描述子。为了保持上下文描述子比较紧致,减少索引的存储空间,因此,在索引的上下文描述子中仅保存局部特征描述子的视觉词汇,不进行扩展;而在查询时,仅针对单幅图像中的局部特征点构建上下文描述子,因此,可以通过扩展来视觉词汇来提高匹配率,从而提高检索的召回率。具体包括以下步骤:
图1中扩展查询局部特征的视觉词汇31单元是在对查询上下文中的局部特征描述子量化时将其量化为M个视觉词汇;该扩展的出发点在于:由于视觉词汇匹配是一个非常强的约束以及各种图像变换的影响,在上下文中的N个局部特征点中找到一个完全匹配视觉词汇是一个比较困难的,因此通过扩展可以应对图像变换等造成的视觉词汇量化的不一致,提高视觉词汇匹配的召回率。为了实现视觉词汇的扩展,需要在量化时进行K近邻计算。本方法采用分组量化方法,因此,视觉词汇扩展通过独立的在每个组的词根集合中选择距离最近的M个词根,然后通过组合可得到M*M*M*M种组合情况,选择组合中距离最小的M个词根组合(视觉词汇)作为其扩展的视觉词汇集合,而不是选择距离最小的词根组合作为特征描述子的视觉词汇。由于每个组中的词根数比较少(在本实施例中为64),因此,在每个组的词典中选择距离最近的M个量化编码是高效的,不会极大地增加量化的计算复杂度。
图1中基于反文档频率和词汇扩展的相似性计算32单元用于在Pi视觉词汇匹配的基础上评价Pi查询上下文描述子(Context1)与索引上下文描述子(Context2)之间的相似性。该评价过程的伪代码如下:
该伪代码就是在比较查询上下文描述子与索引上下文描述子时先匹配上下文中局部特征点的方位和主方向是否一致;一致则表示该两个参考局部特征在该方位上存在一个主方向一致的局部特征点;如果一致,本方法再通过视觉词汇扩展判断这两个局部特征点的特征描述子是否一致,也就是判断是否在扩展视觉词汇集合中存在一个视觉词汇与索引上下文描述子中该局部特征点(方位和主方向一致的条件下,前面已经判断)的视觉词汇一致。如果一致,则认为是一个有效的匹配,并用其匹配视觉词汇的反文档频率作为其权重。视觉词汇的反文档频率反映了视觉词汇的重要性。该评价指标来源于文档检索。该评价指标认为:如果一个视觉词汇在图像库中出现频率越高,其区别能力就越弱。
图1中基于阈值的上下文一致性验证33就是通过验证MatchValue是否大于阈值Th_MachedValue,则可以判断两个上下文描述子是否匹配。
在本实施例中,利用本方法的上下文相似性验证的视觉词汇过滤效果如附图6所示。图6中上图为原始图像缩小一半的结果,其作为查询图像;(a)图中的下图为原图裁剪70%的结果;(b)图中的下图为原始图像旋转20%的结果。图中黑线和白线表示两幅图像中对应局部特征点的视觉词汇一样,而红线表示经过上下文描述子验证的结果。在本测试的上下文描述子的相似性计算过程中,查询图像(上图)中的局部特征点的上下文描述子进行视觉词汇的扩展,而索引图像(下图)不进行扩展。从图6中可以看到通过上下文描述子的验证有效的过滤掉了一些错误的视觉词汇匹配,提高了匹配的准确率,保留了正确的匹配。而且本发明方法的上下文描述子能有效应对图像裁剪、尺度变换和旋转变换等,具有较好的鲁棒性。
前面已经具体描述了本发明的实施方案,应当理解,对于一个具有本技术领域的普通技能的人,在不背离本发明的范围的情况下,在上述的和在权利要求中特别提出的本发明的范围内进行变化和调整能同样达到本发明的目的。

Claims (4)

1.一种视觉词汇的上下文描述子生成方法,其特征在于包括如下三部分:离线学习部分、上下文描述子生成部分和上下文描述子相似性计算部分;
所述的离线学习部分包括视觉词汇词典的构建和视觉词汇反文档频率的获取;
所述的上下文描述子生成部分包括提取和量化局部特征点、选择局部特征点的上下文、提取上下文中局部特征点的特征并生成描述子;
所述的上下文描述子相似性计算部分包括视觉词汇的扩展、基于反文档频率和视觉词汇扩展的相似性计算和基于阈值的上下文一致性验证;
上述的三个部分相互关联,离线学习部分得到的视觉词汇词典用于上下文描述子生成部分中的局部特征点描述子特征向量的量化和视觉词汇的扩展,视觉词汇反文档频率用于上下文描述子的相似性计算。上下文描述子相似性计算部分是上下文描述子在应用中的必要步骤。
2.如权利要求1所述的离线学习部分,其特征在于所述的视觉词汇词典的构建和视觉词汇反文档频率的获取,具体步骤如下:
2-1.提取图像库中图像的局部特征点及其特征描述子,将提取的特征描述子构建成样本库;
2-2.通过样本库获得视觉词汇词典;具体的,对样本库中特征描述子的特征向量进行分组,在每个特征组上通过K均值聚类得到K个类中心,每个类中心为一个特征向量即代表视觉词汇中的一个词根,K个类中心为该特征组的词根集合;从而在每个特征组上构建的词根集合进行组合得到视觉词汇词典;
2-3.对样本库中的局部特征描述子根据视觉词汇词典采用分组量化方法得到视觉词汇,再通过统计获得视觉词汇的反文档频率;
视觉词汇VWi的反文档频率IDF(VWi)是通过统计样本库中视觉词汇的文档频率的倒数得到,其作为视觉词汇重要性的指标;由于一些视觉词汇在样本库中并不一定存在,对不存在的视觉词汇用样本库中视觉词汇反文档频率的最大值进行填充;该填充方法表达了视觉词汇的出现频率越低带有的信息量越大这一特性。
3.如权利要求1所述的上下文描述子生成部分,其特征在于所述的上下文描述子生成的具体步骤如下:
3-1.对输入图像提取局部特征点集合S={Pi,i∈[0,Q]},Q为输入图像中局部特征点的个数,Pi指代第i个局部特征点;并依据视觉词汇词典通过分组量化方法将局部特征点Pi的特征描述子量化为视觉词汇VWi;具体步骤如下:
3-1-1.从图像中提取局部特征点Pi的特征描述子Fi、位置(Pxi,Pyi)、尺度σi和主方向θi信息,即局部特征点Pi表示为[Fiii,Pxi,Pyi];
3-1-2.对每个局部特征点Pi的特征描述子Fi依据视觉词汇词典采用分组量化方法得到视觉词汇;依据视觉词汇词典的分组量化是将特征描述子Fi分成M组,每组为D/M个特征,其中D为特征描述子Fi特征向量的维数;然后对每组的特征向量根据步骤1-2训练好的视觉词汇词典单独量化为Vj,则采用分组量化得到特征描述子Fi的视觉词汇VWi为:
VW i = Σ j = 0 M V j * L j ;
其中,L为视觉词汇词典中对应组的词根数;从而一个局部特征点Pi被表示为[VWiii,Pxi,Pyi];每组特征向量的量化通过在该组的词根集合中基于欧式距离查找最近的类中心,并将该类中心的下标作为其量化结果;
3-2.对每个局部特征点Pi从输入图像的局部特征点集合S中选取N个局部特征点作为Pi的上下文Context(Pi);根据局部特征点Pi与输入图像中其它局部特征点Pj的距离和尺度差的加权和D(Pi,Pj))来评价Pi与Pj关系的稳定性,D(Pi,Pj)越小两者的关系越稳定,越不容易受到图像变换的影响;D(Pi,Pj)的计算公式为:
D ( P i , P j ) = w * ( Px i - Px j ) 2 + ( Py i - Py j ) 2 Img W 2 + Img H 2 + ( 1 - w ) * ( σ i - σ j ) max ( σ ) ;
其中,和max(σ)是归一化因子,ImgW和ImgH分别指代图像宽度和高度;w和(1-w)分别为距离和尺度差的权重;选取D(Pi,Pj)最小的N个局部特征点Ck作为Pi的上下文,即:
Context(pi)={Ck,k∈[1,N],Ck∈S};
3-3.根据局部特征点Pi的主方向生成上下文中每个局部特征点Ck的特征并量化;具体包括如下步骤:
3-3-1.提取上下文中局部特征点Ck的方位特征:α(k)=|arctan2(Pyk-Pyi,Pxk-Pxi)-θi|,然后量化为A为量化因子;量化用于对该特征进行压缩,减少存储空间;arctan2(Pyk-Pyi,Pxk-Pxi)表示特征点k相对特征点i的方位;方位特征中减去特征点i的主方向可保证该特征对图像的旋转鲁棒;
3-3-2.提取上下文中局部特征点Ck的主方向特征:β(k)=|θki|,量化为B为量化因子;量化用于对该特征进行压缩,减少存储空间;主方向特征中减去特征点i的主方向可保证该特征具有旋转不变性;
3-3-3.根据Ck的方位特征、主方向特征和视觉词汇生成上下文描述子为:{qd(k),qa(k),VWk,k∈[1,N]},并序列化为上下文描述子用于构建图像索引;序列化就是将N个上下文中特征点的特征按一定的规则排列,并用字节序列进行表示和存储。
4.如权利要求1所述的上下文描述子相似性计算主要根据上下文描述子中局部特征点的方位特征、主方向特征和视觉词汇一致性来验证两个上下文描述子中的局部特征点是否匹配,并通过匹配的视觉词汇的反文档频率IDF的和来评价两个上下文描述子的相似性;视觉词汇的匹配通过视觉词汇的扩展来增加匹配的可能性,提高上下文描述子的鲁棒性;具体步骤如下:
4-1.对上下文中局部特征点的特征描述子进行视觉词汇的扩展,也就是将其量化为M个视觉词汇;该视觉词汇扩展通过独立的在每个分组的词典中选择距离最近的M个量化结果,然后通过排列组合,选择排列组合中距离最小的M个量化结果的组合作为其扩展的视觉词汇集合;
4-2.在给定两个上下文描述子Context1和Context2的情况下,基于视觉词汇扩展和视觉词汇的反文档频率计算上下文相似性:具体的,遍历上下文描述子Context1和Context2中的局部特征点,然后进行两两匹配,匹配过程中方位特征、主方向特征一致性通过阈值来判断;视觉词汇的一致性通过视觉词汇扩展来实现;设上下文描述子的相似值为MatchValue,存在一个局部特征点匹配就在MatchValue加上该特征点匹配视觉词汇的反文档频率。在进行上下文中特征点的视觉词汇扩展时,可以选择对两个上下文描述子中视觉词汇都进行扩展,也可以仅仅对一个上下文描述子中视觉词汇进行扩展;
4-3.验证MatchValue,若MatchValue大于阈值Th_MachedValue,则判定两个上下文描述子匹配,否则不匹配。
CN201610005159.1A 2016-01-04 2016-01-04 一种视觉词汇的上下文描述子生成方法 Active CN105678349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610005159.1A CN105678349B (zh) 2016-01-04 2016-01-04 一种视觉词汇的上下文描述子生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610005159.1A CN105678349B (zh) 2016-01-04 2016-01-04 一种视觉词汇的上下文描述子生成方法

Publications (2)

Publication Number Publication Date
CN105678349A true CN105678349A (zh) 2016-06-15
CN105678349B CN105678349B (zh) 2018-12-07

Family

ID=56298960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610005159.1A Active CN105678349B (zh) 2016-01-04 2016-01-04 一种视觉词汇的上下文描述子生成方法

Country Status (1)

Country Link
CN (1) CN105678349B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649624A (zh) * 2016-12-06 2017-05-10 杭州电子科技大学 基于全局关系一致性约束的局部特征点验证方法
CN109255043A (zh) * 2018-09-14 2019-01-22 哈尔滨工业大学 基于场景理解的图像检索方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN111931791A (zh) * 2020-08-11 2020-11-13 重庆邮电大学 一种实现图像翻转不变性的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336830A (zh) * 2013-07-08 2013-10-02 刘广海 基于结构语义直方图的图像检索方法
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN104199842A (zh) * 2014-08-07 2014-12-10 同济大学 一种基于局部特征邻域信息的相似图片检索方法
CN104462199A (zh) * 2014-10-31 2015-03-25 中国科学院自动化研究所 一种网络环境下的近似重复图像搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793434A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种基于内容的图片搜索方法和装置
CN103336830A (zh) * 2013-07-08 2013-10-02 刘广海 基于结构语义直方图的图像检索方法
CN104199842A (zh) * 2014-08-07 2014-12-10 同济大学 一种基于局部特征邻域信息的相似图片检索方法
CN104462199A (zh) * 2014-10-31 2015-03-25 中国科学院自动化研究所 一种网络环境下的近似重复图像搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱道广等: "基于空间上下文加权词汇树的图像检索方法", 《模式识别与人工智能》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649624A (zh) * 2016-12-06 2017-05-10 杭州电子科技大学 基于全局关系一致性约束的局部特征点验证方法
CN106649624B (zh) * 2016-12-06 2020-03-03 杭州电子科技大学 基于全局关系一致性约束的局部特征点验证方法
CN109255043A (zh) * 2018-09-14 2019-01-22 哈尔滨工业大学 基于场景理解的图像检索方法
CN109255043B (zh) * 2018-09-14 2020-08-11 哈尔滨工业大学 基于场景理解的图像检索方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN109783638B (zh) * 2018-12-17 2021-04-06 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN111931791A (zh) * 2020-08-11 2020-11-13 重庆邮电大学 一种实现图像翻转不变性的方法
CN111931791B (zh) * 2020-08-11 2022-10-11 重庆邮电大学 一种实现图像翻转不变性的方法

Also Published As

Publication number Publication date
CN105678349B (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
Reddy Mopuri et al. Object level deep feature pooling for compact image representation
Jégou et al. On the burstiness of visual elements
Aly et al. Indexing in large scale image collections: Scaling properties and benchmark
Ge et al. Sparse-Coded Features for Image Retrieval.
Yue et al. Robust loop closure detection based on bag of superpoints and graph verification
CN102693299A (zh) 一种并行视频拷贝检测系统和方法
CN105678349A (zh) 一种视觉词汇的上下文描述子生成方法
CN104966090B (zh) 实现面向图像理解的视觉单词生成和评价的系统及方法
Bhute et al. Content based image indexing and retrieval
Wu et al. A multi-sample, multi-tree approach to bag-of-words image representation for image retrieval
CN109978042A (zh) 一种融合特征学习的自适应快速K-means聚类方法
CN103617609A (zh) 基于图论的k-means非线性流形聚类与代表点选取方法
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
CN108280158B (zh) 基于梯度方向累加热核特征的非刚性三维模型检索方法
CN103092935A (zh) 一种基于sift量化的近似拷贝图像检测方法
Sankar et al. Probabilistic reverse annotation for large scale image retrieval
Shi et al. Sift-based elastic sparse coding for image retrieval
Al-Jubouri et al. A Content-Based Image Retrieval Method By Exploiting Cluster Shapes.
CN116310407A (zh) 一种面向配用电多维业务的异构数据语义提取方法
Abdelrahim et al. Image retrieval based on content and image compression
CN109977849B (zh) 一种基于迹变换的图像纹理特征融合提取方法
CN104978729A (zh) 一种基于数据感知的图像哈希方法
Makadia Feature tracking for wide-baseline image retrieval
Li et al. Scene-Change Detection Based on Multi-Feature-Fusion Latent Dirichlet Allocation Model for High-Spatial-Resolution Remote Sensing Imagery
Reddy et al. Sparse coding based VLAD for efficient image retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191014

Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Yuanchuan New Technology Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: HANGZHOU DIANZI University

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Context Descriptor Generation Method for Visual Vocabulary

Effective date of registration: 20230509

Granted publication date: 20181207

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155