CN102542058A - 一种融合全局与局部视觉特征的层次化地标识别方法 - Google Patents
一种融合全局与局部视觉特征的层次化地标识别方法 Download PDFInfo
- Publication number
- CN102542058A CN102542058A CN2011104521803A CN201110452180A CN102542058A CN 102542058 A CN102542058 A CN 102542058A CN 2011104521803 A CN2011104521803 A CN 2011104521803A CN 201110452180 A CN201110452180 A CN 201110452180A CN 102542058 A CN102542058 A CN 102542058A
- Authority
- CN
- China
- Prior art keywords
- image
- local
- landmark
- point
- vision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合全局与局部视觉特征的层次化地标识别方法,获取地标图像的高维特征向量,将高维特征向量作为地标图像的全局视觉特征;获取地标图像的局部特征;采用层级树状结构将全局视觉特征和局部特征进行存储,获取视觉特征集合;通过视觉特征集合表征每一幅图像;根据全局视觉特征xi进行初步检索,获取第一候选图像;根据局部显著点统计特征vi对第一候选图像进行进一步检索,获取第二候选图像;根据局部显著点特征集yi对第二候选图像进行再一步检索,获取最终候选图像,反馈给用户。本方法快速准确的实现待识别图像的检索,满足用户便捷的信息获取的需求,并且通过去除一些误匹配点,提高地标识别的准确度、降低了地标识别的复杂度。
Description
技术领域
本发明涉及图像检索领域,特别涉及一种融合全局与局部视觉特征的层次化地标识别方法。
背景技术
近年来,随着旅游行业的飞速发展,便捷的旅游导航设备成为用户不可缺少的工具。通常,用户在旅游中面对一个景点位置,不仅需要知道该景点的地标名称,还需要了解其相关信息。但是,传统的基于卫星的GPS定位系统往往仅能提供定位其内置的地理信息的功能,其定位精度和扩展性都存在严重的局限性,无法满足用户的个性化需求。因此,针对不同旅游景区建立个性化的景点的地标识别方法成为亟待解决的问题,从而使得用户可以根据个人需求输入对景点的描述,自动反馈景点的位置和相关信息。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
1)为了实现准确的地标识别,用户输入的景点描述信息是一个重要的因素。现有技术中的地标识别方法均是输入对事物的文字描述信息,但是文字信息所包含的信息十分有限,并且不同用户对同一事物的描述也多种多样,严重限制了地标识别的准确度,增加了地标识别的复杂度,无法满足实际应用中的需要;
2)尽管新兴的图像检索相关研究已经开展多年,但是如何有效的提取、组织以及综合利用图像的高维特征从而实现快速准确的检索仍然是一个亟待解决的问题。
发明内容
本发明提供了一种融合全局与局部视觉特征的层次化地标识别方法,该方法提高了地标识别的准确度、降低了地标识别的复杂度,详见下文描述:
一种融合全局与局部视觉特征的层次化地标识别方法,所述方法包括以下步骤:
(1)提取地标图像的全局颜色特征、全局纹理特征和全局形状特征,对所述全局颜色特征、所述全局纹理特征和所述全局形状特征进行处理,获取地标图像的高维特征向量,将所述高维特征向量作为地标图像的全局视觉特征xi;
(2)获取地标图像的局部特征,其中,所述局部特征包括:局部显著点特征集yi和局部显著点统计特征vi;
(3)采用层级树状结构将所述全局视觉特征和所述局部特征进行存储,获取视觉特征集合{xi,yi,vi,1≤i≤N};
(4)通过所述视觉特征集合{xi,yi,vi,1≤i≤N}表征每一幅图像;
(5)根据所述全局视觉特征进行初步检索,获取第一候选图像;
(6)根据所述局部显著点统计特征vi对所述第一候选图像进行进一步检索,获取第二候选图像;
(7)根据所述局部显著点特征集yi对所述第二候选图像进行再一步检索,获取最终候选图像,反馈给用户。
所述获取地标图像的局部特征具体包括:
1)采取SIFT方法提取地标图像中表征地标图像显著特性的点,并将所述显著特性的点通过SIFT描述子表征成128维特征si;
2)将每幅地标图像所有的128维特征si构成所述局部显著点特征集yi={si,1≤i≤M},其中,M表示地标图像共有M个显著点,M的取值为正整数;
3)将数据库中所有地标图像包含的所述局部显著点特征集{yj,1≤j≤P}用聚类方法进行聚类,将每个聚类中心视为视觉关键词,其中,P表示数据库中地标图像的个数,P的取值为正整数;
4)根据所述视觉关键词构建视觉关键词表,计算每个地标图像中提取的局部显著点对应的128维特征si与各聚类中心的欧式距离,并将所述局部显著点类别指定为所计算欧式距离最小的类;
5)计算所述视觉关键词表中的每个视觉关键词的权重,分别统计每个视觉关键词在特定文档中的频率TF和在文档集中的逆文档频率IDF;
6)将所述逆文档频率IDF进行排序,删除小于特定阈值的视觉关键词,获取最终视觉关键词表;
7)根据所述最终视觉关键词表获取视觉关键词的向量空间模型,将所述向量空间模型作为所述局部显著点统计特征vi。
所述局部显著点统计特征vi,
其中,n为视觉关键词表中视觉关键词的个数,N为整个文档集中的文档数,nid为第i类视觉关键词在文档d中的出现次数,nd为文档d中视觉关键词的总数,ni表示第i类视觉关键词在整个文档集中的出现文档个数。
所述根据所述全局视觉特征进行初步检索,获取第一候选图像具体为:
将所述地标图像的全局视觉特征与树结构存储中各类中心图像的全局视觉特征计算欧式距离,选择欧式距离最小的前t类作为后续检索的第一候选图像,其中,k表示类的个数,k和t的取值为正整数。
所述根据所述局部显著点统计特征vi对所述第一候选图像进行进一步检索,获取第二候选图像具体为:
所述根据所述局部显著点特征集yi对所述第二候选图像进行再一步检索,获取最终候选图像,反馈给用户具体为:
1)设经过所述第二候选图像保留下来的第j类地标图像类共包含kj个图像,将待检索图像与这kj个图像分别进行显著点匹配;
2)选取所述待检索图像中的第一显著点,在图像q,q∈kj中找出与所述第一显著点欧式距离最近的两个关键点,记为第一关键点和第二关键点,最近距离记为第一距离,次近距离记为第二距离;
3)判断所述第一距离与所述第二距离之比是否小于经验性阈值,如果是,则将所述第一显著点和所述第一关键点作为匹配点,如果否,则表示所述待检索图像中所述第一显著点在图像q中无匹配点,然后,对所述待检索图像中的其他显著点重复步骤2)和步骤3),查找匹配点;
4)获取待检索图像与每类中的各幅图像所拥有的匹配点个数;
5)去除误匹配点;
6)计算各图像类中匹配点数的总和,将匹配点数最多的一类判定为待检索图像所属的类别,获取所述最终候选图像,将所述最终候选图像反馈给用户。
本发明提供的技术方案的有益效果是:
本发明提供了一种融合全局与局部视觉特征的层次化地标识别方法,本方法通过地标图像的全局视觉特征xi、地标图像的局部显著点特征yi和局部显著点统计特征vi在数据库中对图像进行层级化的检索、识别,最终获取到和地标图像匹配度最高的最终图像,本方法可以快速准确的实现待检测图像的检索,从而满足用户便捷的信息获取的需求,并且通过去除一些误匹配点,提高了地标识别的准确度、降低了地标识别的复杂度,满足了实际应用中的需要。
附图说明
图1为本发明提供的融合全局与局部视觉特征的层次化地标识别的结构示意图;
图2为本发明提供的将地标图像平均划分为4×4的小块的示意图;
图3为本发明提供的对某类地标进行二级树结构存储的示意图;
图4为本发明提供的一种融合全局与局部视觉特征的层次化地标识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了提高地标识别的准确度、降低地标识别的复杂度,本发明实施例提供了一种融合全局与局部视觉特征的层次化地标识别方法,详见下文描述:
众所周知,图像与文字信息相比对事物的描述更丰富和客观,因此通过输入待查询景点的地标图像,通过挖掘图像本身的特征来进行地标识别则是更好的方法。本发明实施例将采用基于图像内容信息的方法实现地标识别,其核心问题在于:1)图像特征提取:由于用户采集地标图像时角度、旋转、光线、图像格式和分辨率等多样因素的不同,使得被输入的图像与检索系统已存储的数据库在视觉上存在差异,因此通过提取图像多样视觉特征实现对图像的多方面的表征,以及提取独立于这些外因影响的视觉特征实现对地标的准确识别非常重要;2)检索策略:该检索方法不仅要能够实现准确的地标检索,还需要实现快速的反馈,以满足用户便捷的信息获取的需求。针对上述问题,本发明实施例提出了一种融合全局与局部视觉特征的层次化地标识别方法,其系统框图如图1所示,参见图4,该方法包括以下步骤,详见下文描述:
101:提取地标图像的全局颜色特征、全局纹理特征和全局形状特征,对全局颜色特征、全局纹理特征和全局形状特征进行处理,获取地标图像的高维特征向量,将高维特征向量作为地标图像的全局视觉特征;
其中,该步骤具体为:为了实现对地标图像的多信息表征,综合运用和提取了地标图像的多类全局视觉特征。
地标图像的全局视觉特征:可以从多角度表示图像视觉特征,通常包括地标图像的全局颜色、全局纹理和全局形状特征。
其中,全局颜色特征的提取可以对整幅地标图像(或者将地标图像平均分成若干子块)提取颜色直方图和颜色矩等特征,然后将整幅图像(或者各子块)的各类特征串联起来形成高维向量作为对该地标图像的全局颜色特征表示,具体实现时,本发明实施例对此不做限制,以下给出一个具体参考实施方案,详见下文描述:
1)在RGB空间中,每个像素对应一个三维向量,分别表示所在点的红、绿和蓝分量,将三维向量分别进行等级量化,将三维向量转换成一个0到(S-1)之间的整数值,每个整数值代表一个颜色分段,其中,S的取值为大于1的正整数;
其中,本发明实施例以S的取值为32为例,进行说明。
2)将地标图像平均划分为4×4的小块,组合为5个大的分块A、B、C、D和E,ABCD分别对应上、左、下和右四个部分,E对应中间部分;
参见图2,将地标图像平均划分为4×4的小块,然后组合为5个大的分块,分别对应上下左右和中间部分(ABCD分别对应上、左、下和右四个部分,E对应中间部分,粗线条表示这些大的分块的边界)。
3)上下左右四个板块各提取3维的颜色一阶矩、颜色二阶矩和颜色三阶矩,中间板块提取量化为S级的颜色直方图,将每个地标图像所有颜色特征结合起来行成颜色高维向量,表征地标图像的全局颜色特征。
其中,全局纹理特征的提取和全局形状特征的提取可以采用现有技术中通用的方法,例如:参考文献[1]和[2]中记录的方法,具体实现时,本发明实施例对此不做限制。
将上述三类全局颜色特征、全局纹理特征和全局形状特征结合起来行成高维向量xi,来表征该地标图像的全局视觉特征。
102:获取地标图像的局部特征;
其中,地标图像的局部特征更有利于描述地标图像局部区域的视觉显著性,有利于地标图像的精确匹配。本发明实施例采用对尺度、旋转和光照等外界因素具有鲁棒性的时空特征点检测和描述方法——SIFT(Scale Invariant FeatureTransform,尺度不变特征变换)”对地标图像中显著点进行提取和表征,获取地标图像的局部特征,其中,地标图像的局部特征包括:局部显著点特征集yi和局部显著点统计特征vi,该步骤具体包括:
1)采取SIFT方法提取地标图像中表征地标图像显著特性的点,并将显著特性的点通过SIFT描述子表征成128维特征si;
其中,具有空间显著特性的点及其SIFT描述被用作地标图像的局部特征,具体方法可以采用现有技术中通用的方法,例如:参考文献[3]中记录的方法,具体实现时,本发明实施例对此不做限制。
2)将每幅地标图像所有的128维特征si构成局部显著点特征集yi={si,1≤i≤M};
其中,M表示地标图像共有M个显著点,M的取值为正整数,构成局部显著点特征集yi={si,1≤i≤M}。
3)将数据库中所有地标图像包含的显著点特征集{yj,1≤j≤P}(其中P表示数据库中图像个数,P的取值为正整数)用聚类方法进行聚类,将每个聚类中心视为视觉关键词;
其中,聚类方法可以采用现有技术中通用的方法(如K均值聚类和谱聚类等),本发明实施例中以K均值聚类为例进行说明,例如:参考文献[4]中的方法,具体实现时,本发明实施例对此不做限制。
4)根据视觉关键词构建视觉关键词表,计算每个地标图像中提取的局部显著点对应的128维特征si与各聚类中心的欧式距离,并将该局部显著点类别指定为所计算距离最小的类;
其中,该步骤具体为:在提取局部显著点的基础上,为了更加精简的表征地标图像特征,构建视觉关键词表,并采取视觉关键词的向量空间模型来表示地标图像的局部统计特征。将数据库中所有地标图像包含的显著点进行聚类,生成视觉关键词表,并采用类似文本检索的方法,将每一地标图像看成一个文档,将所有地标图像看成文档集,并统计所有文档中每个显著点在文档集中的TF×IDF权重,以实现视觉关键词的特征提取,具体步骤如下:
5)计算视觉关键词表中的每个视觉关键词的权重,分别统计每个视觉关键词在特定文档中的频率TF和在文档集中的逆文档频率IDF;
假设视觉关键词表共有n个视觉关键词,N为整个文档集中的文档数,nid表示第i类视觉关键词在文档d中的出现次数,nd表示文档d中视觉关键词的总数;ni表示第i类视觉关键词在整个文档集中的出现文档个数,则:
TF的计算公式为:
IDF的计算公式为:
其中,特定文档是指:每个待检索图像。
6)将逆文档频率IDF进行排序,删除小于特定阈值的视觉关键词,获取最终视觉关键词表;
其中,本发明实施例中以特定阈值的取值为0.1为例进行说明,具体实现时,本发明实施例对此不做限制。
其中,某些视觉关键词的逆文档频率IDF值较小,表示这些视觉关键词几乎在每个关键帧中都会出现,它们对于地标图像特征表示并没有代表性,应予以剔除,这类似于文本检索中的去除停用词(Stop list)。小于特定阈值Th1的视觉关键词为视觉停用词,因此,将逆文档频率IDF排序后,去除逆文档频率IDF小于特定阈值Th1的视觉停用词来生成最终的视觉关键词表。
其中,将逆文档频率IDF进行排序,可以采用由低到高,或由高到低的顺序进行排序,具体实现时,本发明实施例对此不做限制。
7)根据最终视觉关键词表获取视觉关键词的向量空间模型vi,将向量空间模型vi作为地标图像的局部显著点统计特征vi。
其中,假设最终视觉关键词表中共有n个视觉关键词,对于文档d,表示为vi=(t1,t2,...,tn)T,其中ti=tfid×idfi。
103:采用层级树状结构将全局视觉特征和局部特征进行存储,获取视觉特征组成集合{xi,yi,vi,1≤i≤N};
其中,为了便于数据存储和检索,有序的数据存储十分重要。采用层级树状结构对上述提取的全局视觉特征和局部特征进行存储。对包含同一地标的各图像通过上述方法提取视觉特征集合{xi,yi,vi,1≤i≤N},即:每个地标图像包含全局视觉特征xi、局部显著点特征集yi以及局部显著点统计特征vi,并采用二级树状结构进行存储,如图3所示。通过主观任意选取该地标类别中所有地标图像中任意一幅作为类中心,将其作为二级树结构的根节点,其余地标图像作为叶节点。根节点存储其视觉特征组合{xi,yi,vi}以及该类其他地标图像的标号,各叶节点存储其视觉特征组合{xi,yi,vi}以及它所属类别的类中心图像标号。
104:通过视觉特征组成集合{xi,yi,vi,1≤i≤N}表征每一幅图像;
105:根据全局视觉特征进行初步检索,获取第一候选图像;
为了对输入的待检索地标进行准确识别,最可靠的方法是将该地标图像中所有显著点与数据库中各图像所包含的显著点分别进行匹配,得到的匹配点数最多的图像可以被判定为与待识别地标最接近的图像,从而实现对待输入地标的检索。但是,借助上述介绍的SIFT显著点提取方法对一幅图像提取显著点通常可以多达几百甚至上千个点,并且所构建的数据库通常包含大量图像数据,因此通过两两比对图像相似度来进行检索,使得计算复杂度极高,根本无法满足用户便捷信息获取的需求。因此,本发明实施例提出了层次化的检索方法。本方法所提取的地标图像的全局视觉特征包括颜色、纹理和形状三类特征,能够从整体的角度很好的表征图像特性,因此可以用于作为初步检索,以减小后续进一步检索的范围。
其中,该步骤具体为:将全局视觉特征xtest与树结构存储中各类中心图像的全局视觉特征(k表示共有k类)计算欧式距离,选择距离最小的前t类作为后续检索的第一候选图像,其中,k表示类的个数,k和t的取值为正整数。
其中,参数t的选取可以根据实际应用中的需求设定,本发明实施例中的参考值为k/10(比如数据库中已存储了1000类地标的图像,则通过该步后选取100类候选图像用于后续检索)。
106:根据局部显著点统计特征vi对第一候选图像进行进一步检索,获取第二候选图像;
地标图像的局部特征包含了局部显著点统计特征vi,能够兼顾图像局部和整体特征,因此可以用于对第一候选图像进行进一步检索,以进一步减小后续图像的匹配范围。
其中,该步骤具体为:将地标图像的局部统计特征vtest与树结构存储中各类中心图像的局部统计特征(t表示第一候选图像)计算欧式距离,选择距离最小的r类作为后续图像匹配的第二候选图像,其中,t表示第一候选图像,r和t的取值为正整数,t>r。
其中参数r的选取可以根据实际应用中的需求设定,本发明实施例中的参考值为5类。由于因为所构建系统包含地标类别通常在千级的数量,所以上一步保存的类别数t往往远大于这一步保存的类别数r,即t>r,从而为后续图像匹配进一步缩小范围。
107:根据局部显著点特征yi对第二候选图像进行再一步检索,获取最终候选图像,反馈给用户。
其中,利用局部显著点特征yi进行再一步图像匹配,以实现精确的地标识别。
首先,第二候选图像采用特征点SIFT描述子集合yi={si,1≤i≤M}(其中,各第二候选图像所包含显著点数通常不同,因此对于不同第二候选图像M值通常是不同的),被保留下来的第二候选图像也采用相同方式进行表示,用户输入的待检索图像也采用相同方式进行表示,分别将待检测图像与第二候选图像中各类地标图像的二级树结构中根节点和叶节点(如图3所示)对应的所有图像进行匹配,来计算待检索图像与第二候选图像中各类地标图像类的相似度,选择相似度最高的一类作为最终候选图像反馈给用户,其中该步骤具体包括:
1)设经过第二候选图像保留下来的第j类地标图像类共包含kj个图像,将待检索图像与这kj个图像分别进行显著点匹配;
2)选取待检索图像中的第一显著点,在图像q(q∈kj)中找出与第一显著点欧式距离最近的两个关键点,记为第一关键点和第二关键点,最近距离记为第一距离,次近距离记为第二距离;
3)判断第一距离与第二距离之比是否小于经验性阈值,如果是,则将第一显著点和第一关键点作为匹配点,如果否,则表示待检索图像中的该第一显著点在图像q中无匹配点,然后,对待检索图像中的其他显著点重复步骤2)和步骤3),查找匹配点;
其中,本发明实施例中的经验性阈值以0.8为例进行说明,若比值小于0.8,则将第一显著点与第一关键点作为匹配点,系统接受这一对匹配点。重复执行步骤2)和步骤3),直到对待检索图像中的所有显著点都匹配完,获取多个匹配点,该步骤107结束。
4)获取待检索图像与每类中的各幅图像所拥有的匹配点个数;
5)去除误匹配点;
由于仅采用步骤107中描述的通过SIFT点匹配会存在很多误匹配点,因此本方法还需进一步去除误匹配点。本发明实例采用随机取样一致性方法对误匹配点进行去除,具体方法可以参见参考文献[5]。具体实现时,还可以采用其他的方法来去除误匹配点,具体实现时,本发明实施例对此不做限制。
6)计算各图像类中匹配点数的总和,将匹配点数最多的一类判定为待检索图像所属的类别,获取最终候选图像,将最终候选图像反馈给用户。
经过上述层级化的检索,可以快速准确的实现地标图像的检索,从而满足用户便捷的信息获取的需求。
下面以一个具体的试验来验证本发明实施例提供的一种融合全局与局部视觉特征的层次化地标识别方法的可行性,详见下文描述:
数据库包括天津市水上公园内各建筑物剪影共3000张(共有100处景点,每个景点30张),数据采集综合考虑到光照、旋转和仿射等因素影响,所以分别在不同时间点,不同角度进行数据的采集。然后,对数据库图片建立二级树状结构索引,每类图像中主观选择最理想的一幅作为根结点对应图像,其余29幅作为叶节点对应图像。在识别过程中首先借助图像全局视觉特征进行第一级检索,经过第一级检索后相似度最高的10类图像被保存作为第一候选图像;其次,借助图像局部统计特征进行第二级检索,并保存相似度最高的5类图像作为第二候选图像;最后通过图像局部显著点匹配进行第三级检索,得到相似度最高的图像类,并反馈给用户。
对每一级检索结果进行统计,判断它们是否包含待测图像正确类别,如果包括,表示检索结果正确,否则表示检索结果错误,实验结果如表1所示。
表1识别正确率
检索级数 | 1 | 2 | 3 |
正确率 | 98.9% | 97.2% | 95.3% |
实验结果证明:(1)本方法能准确检索出在不同尺度缩放情况下的地标;(2)本方法对地标的平移有很好的检索效果;(3)本方法对不同视角下的同一地标能够精确识别;(4)本方法对不同光照或背景下的地标识别也表现出稳定性。
经实验比较,在配置为CPU主频2.0G,内存2.0G的计算机上,分辨率为352×288的图像通过本发明实施例提供的方法进行检索平均处理时间约为0.3分钟,满足用户快速信息获取的需求;如果直接采用第三级检索方法,将待检测图像与数据库中所有图像所包含显著点进行匹配然后将匹配点数最高的图像所属类别反馈给用户,则平均需要4.5分钟。因此,本发明实施例提供的方法显著地降低了计算复杂度,并大幅度地提高了检索速度。
综上所述,本发明实施例提供了一种融合全局与局部视觉特征的层次化地标识别方法,本发明实施例通过地标图像的全局视觉特征xi、地标图像的局部显著点特征yi和局部显著点统计特征vi在数据库中对图像进行层级化的检索,最终获取到和地标图像匹配度最高的最终图像,本方法可以快速准确的实现待检测图像的检索,从而满足用户便捷的信息获取的需求,并且通过去除一些误匹配点,提高了地标识别的准确度、降低了地标识别的复杂度,满足了实际应用中的需要。
参考文献
[1]Chengjun Liu,Wechsler,H.,“Gabor feature based classification using theenhanced fisher linear discriminant model for face recognition,”IEEE Transactionson Image Processing,Vol:11(4),pp:467~476,Apr.2002.
[2]Navneet Dalal,Bill Triggs,“Histograms of Oriented Gradients for HumanDetection,”International Conference on Computer Vision&Pattern Recognition,Jun.2005.
[3]Lowe,D.G.,“Distinctive Image Features from Scale-Invariant Keypoints”,International Journal of Computer Vision,60,2,pp.91-110,2004.
[4]Chris Ding and Xiaofeng He.″K-means Clustering via Principal ComponentAnalysis″.Proc.of Int′l Conf.Machine Learning(ICML 2004),pp 225-232.July2004.
[5]Martin A.Fischler and Robert C.Bolles,“Random Sample Consensus:AParadigm for Model Fitting with Applications to Image Analysis and AutomatedCartography,”Comm.of the ACM 24(6):381-395,Jun.1981.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种融合全局与局部视觉特征的层次化地标识别方法,其特征在于,所述方法包括以下步骤:
(1)提取地标图像的全局颜色特征、全局纹理特征和全局形状特征,对所述全局颜色特征、所述全局纹理特征和所述全局形状特征进行处理,获取地标图像的高维特征向量,将所述高维特征向量作为地标图像的全局视觉特征xi;
(2)获取地标图像的局部特征,其中,所述局部特征包括:局部显著点特征集yi和局部显著点统计特征vi;
(3)采用层级树状结构将所述全局视觉特征和所述局部特征进行存储,获取视觉特征集合{xi,yi,vi,1≤i≤N};
(4)通过所述视觉特征集合{xi,yi,vi,1≤i≤N}表征每一幅图像;
(5)根据所述全局视觉特征进行初步检索,获取第一候选图像;
(6)根据所述局部显著点统计特征vi对所述第一候选图像进行进一步检索,获取第二候选图像;
(7)根据所述局部显著点特征集yi对所述第二候选图像进行再一步检索,获取最终候选图像,反馈给用户。
2.根据权利要求1所述的一种融合全局与局部视觉特征的层次化地标识别方法,其特征在于,所述获取地标图像的局部特征具体包括:
1)采取SIFT方法提取地标图像中表征地标图像显著特性的点,并将所述显著特性的点通过SIFT描述子表征成128维特征si;
2)将每幅地标图像所有的128维特征si构成所述局部显著点特征集yi={si,1≤i≤M},其中,M表示地标图像共有M个显著点,M的取值为正整数;
3)将数据库中所有地标图像包含的所述局部显著点特征集{yj,1≤j≤P}用聚类方法进行聚类,将每个聚类中心视为视觉关键词,其中,P表示数据库中地标图像的个数,P的取值为正整数;
4)根据所述视觉关键词构建视觉关键词表,计算每个地标图像中提取的局部显著点对应的128维特征si与各聚类中心的欧式距离,并将所述局部显著点类别指定为所计算欧式距离最小的类;
5)计算所述视觉关键词表中的每个视觉关键词的权重,分别统计每个视觉关键词在特定文档中的频率TF和在文档集中的逆文档频率IDF;
6)将所述逆文档频率IDF进行排序,删除小于特定阈值的视觉关键词,获取最终视觉关键词表;
7)根据所述最终视觉关键词表获取视觉关键词的向量空间模型,将所述向量空间模型作为所述局部显著点统计特征vi。
6.根据权利要求5所述的一种融合全局与局部视觉特征的层次化地标识别方法,其特征在于,所述根据所述局部显著点特征集yi对所述第二候选图像进行再一步检索,获取最终候选图像,反馈给用户具体为:
1)设经过所述第二候选图像保留下来的第j类地标图像类共包含kj个图像,将待检索图像与这kj个图像分别进行显著点匹配;
2)选取所述待检索图像中的第一显著点,在图像q,q∈kj中找出与所述第一显著点欧式距离最近的两个关键点,记为第一关键点和第二关键点,最近距离记为第一距离,次近距离记为第二距离;
3)判断所述第一距离与所述第二距离之比是否小于经验性阈值,如果是,则将所述第一显著点和所述第一关键点作为匹配点,如果否,则表示所述待检索图像中所述第一显著点在图像q中无匹配点,然后,对所述待检索图像中的其他显著点采用步骤2)和步骤3),查找匹配点;
4)获取待检索图像与每类中的各幅图像所拥有的匹配点个数;
5)去除误匹配点;
6)计算各图像类中匹配点数的总和,将匹配点数最多的一类判定为待检索图像所属的类别,获取所述最终候选图像,将所述最终候选图像反馈给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110452180.3A CN102542058B (zh) | 2011-12-29 | 2011-12-29 | 一种融合全局与局部视觉特征的层次化地标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110452180.3A CN102542058B (zh) | 2011-12-29 | 2011-12-29 | 一种融合全局与局部视觉特征的层次化地标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102542058A true CN102542058A (zh) | 2012-07-04 |
CN102542058B CN102542058B (zh) | 2013-04-03 |
Family
ID=46348937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110452180.3A Active CN102542058B (zh) | 2011-12-29 | 2011-12-29 | 一种融合全局与局部视觉特征的层次化地标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102542058B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819752A (zh) * | 2012-08-16 | 2012-12-12 | 北京理工大学 | 基于分布式和倒排文件的室外大规模物体识别方法和系统 |
CN103336795A (zh) * | 2013-06-09 | 2013-10-02 | 华中科技大学 | 基于多特征的视频索引方法 |
CN103902605A (zh) * | 2012-12-28 | 2014-07-02 | 重庆凯泽科技有限公司 | 一种折中特征量化的方法 |
CN104111960A (zh) * | 2013-04-22 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 一种页面的匹配方法和装置 |
CN104216974A (zh) * | 2014-08-28 | 2014-12-17 | 西北工业大学 | 基于词汇树分块聚类的无人机航拍图像匹配的方法 |
CN104239531A (zh) * | 2014-09-19 | 2014-12-24 | 上海依图网络科技有限公司 | 一种基于局部视觉特征的精确比对方法 |
CN104281679A (zh) * | 2014-09-30 | 2015-01-14 | 东软集团股份有限公司 | 基于图像特征的商品分类方法及装置 |
CN104424226A (zh) * | 2013-08-26 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种获得视觉词词典、图像检索的方法及装置 |
CN104714962A (zh) * | 2013-12-13 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种图像搜索引擎的生成方法及系统 |
CN104794219A (zh) * | 2015-04-28 | 2015-07-22 | 杭州电子科技大学 | 一种基于地理位置信息的场景检索方法 |
CN105608230A (zh) * | 2016-02-03 | 2016-05-25 | 南京云创大数据科技股份有限公司 | 一种基于图像检索的商家信息推荐系统及方法 |
CN106528807A (zh) * | 2016-11-15 | 2017-03-22 | 杭州壹晨仟阳科技有限公司 | 地标注册方法、装置、设备以及地标查询方法和装置 |
CN106528662A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于特征几何约束的车辆图像快速检索方法与系统 |
CN106844733A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨理工大学 | 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法 |
CN107133261A (zh) * | 2017-03-22 | 2017-09-05 | 新奥特(北京)视频技术有限公司 | 一种地标信息的录入方法和装置 |
CN107133260A (zh) * | 2017-03-22 | 2017-09-05 | 新奥特(北京)视频技术有限公司 | 一种地标图像的匹配识别方法和装置 |
CN107766822A (zh) * | 2017-10-23 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、人脸图像聚类搜索方法和计算机可读存储介质 |
CN108228761A (zh) * | 2017-12-21 | 2018-06-29 | 深圳市商汤科技有限公司 | 支持区域自定义的图像检索方法和装置、设备、介质 |
CN108369594A (zh) * | 2015-11-23 | 2018-08-03 | 超威半导体公司 | 用于执行并行搜索操作的方法和设备 |
CN109165639A (zh) * | 2018-10-15 | 2019-01-08 | 广州广电运通金融电子股份有限公司 | 一种指静脉识别方法、装置及设备 |
CN103902552B (zh) * | 2012-12-25 | 2019-03-26 | 深圳市世纪光速信息技术有限公司 | 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置 |
CN109697240A (zh) * | 2017-10-24 | 2019-04-30 | 中移(杭州)信息技术有限公司 | 一种基于特征的图像检索方法及装置 |
CN109918473A (zh) * | 2017-12-14 | 2019-06-21 | 北大方正集团有限公司 | 数学公式相似度的测量方法及其测量系统 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110210533A (zh) * | 2019-05-20 | 2019-09-06 | 清华大学深圳研究生院 | 基于最大覆盖位置问题的图片组地理定位方法 |
CN110363179A (zh) * | 2019-07-23 | 2019-10-22 | 联想(北京)有限公司 | 地图获取方法、装置、电子设备以及存储介质 |
CN111353062A (zh) * | 2018-12-21 | 2020-06-30 | 华为技术有限公司 | 一种图像检索方法、装置以及设备 |
CN111522986A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN111950464A (zh) * | 2020-08-13 | 2020-11-17 | 安徽淘云科技有限公司 | 图像检索方法、服务端和扫描笔 |
CN112182264A (zh) * | 2020-10-10 | 2021-01-05 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
CN117689899A (zh) * | 2024-02-04 | 2024-03-12 | 南昌虚拟现实研究院股份有限公司 | 一种手势采集装置参数点检方法、系统、设备及存储介质 |
CN117809062A (zh) * | 2024-03-01 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 地标识别方法、装置、设备、存储介质及计算机程序产品 |
CN117809062B (zh) * | 2024-03-01 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 地标识别方法、装置、设备、存储介质及计算机程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001022270A2 (en) * | 1999-09-20 | 2001-03-29 | Ut-Battelle, Llc | Method for indexing and retrieving manufacturing-specific digital imagery based on image content |
EP2297703A1 (en) * | 2008-06-03 | 2011-03-23 | ETH Zurich | Method and system for generating a pictorial reference database using geographical information |
CN102184186A (zh) * | 2011-04-12 | 2011-09-14 | 宋金龙 | 基于多特征自适应融合的图像检索方法 |
-
2011
- 2011-12-29 CN CN201110452180.3A patent/CN102542058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001022270A2 (en) * | 1999-09-20 | 2001-03-29 | Ut-Battelle, Llc | Method for indexing and retrieving manufacturing-specific digital imagery based on image content |
EP2297703A1 (en) * | 2008-06-03 | 2011-03-23 | ETH Zurich | Method and system for generating a pictorial reference database using geographical information |
CN102184186A (zh) * | 2011-04-12 | 2011-09-14 | 宋金龙 | 基于多特征自适应融合的图像检索方法 |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819752A (zh) * | 2012-08-16 | 2012-12-12 | 北京理工大学 | 基于分布式和倒排文件的室外大规模物体识别方法和系统 |
CN102819752B (zh) * | 2012-08-16 | 2015-04-22 | 北京理工大学 | 基于分布式和倒排文件的室外大规模物体识别方法和系统 |
CN103902552B (zh) * | 2012-12-25 | 2019-03-26 | 深圳市世纪光速信息技术有限公司 | 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置 |
CN103902605A (zh) * | 2012-12-28 | 2014-07-02 | 重庆凯泽科技有限公司 | 一种折中特征量化的方法 |
CN104111960A (zh) * | 2013-04-22 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 一种页面的匹配方法和装置 |
CN103336795A (zh) * | 2013-06-09 | 2013-10-02 | 华中科技大学 | 基于多特征的视频索引方法 |
CN103336795B (zh) * | 2013-06-09 | 2017-03-08 | 华中科技大学 | 基于多特征的视频索引方法 |
CN104424226B (zh) * | 2013-08-26 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种获得视觉词词典、图像检索的方法及装置 |
CN104424226A (zh) * | 2013-08-26 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种获得视觉词词典、图像检索的方法及装置 |
CN104714962A (zh) * | 2013-12-13 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种图像搜索引擎的生成方法及系统 |
CN104714962B (zh) * | 2013-12-13 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种图像搜索引擎的生成方法及系统 |
CN104216974B (zh) * | 2014-08-28 | 2017-07-21 | 西北工业大学 | 基于词汇树分块聚类的无人机航拍图像匹配的方法 |
CN104216974A (zh) * | 2014-08-28 | 2014-12-17 | 西北工业大学 | 基于词汇树分块聚类的无人机航拍图像匹配的方法 |
CN104239531A (zh) * | 2014-09-19 | 2014-12-24 | 上海依图网络科技有限公司 | 一种基于局部视觉特征的精确比对方法 |
CN104239531B (zh) * | 2014-09-19 | 2017-09-26 | 上海依图网络科技有限公司 | 一种基于局部视觉特征的精确比对方法 |
CN104281679A (zh) * | 2014-09-30 | 2015-01-14 | 东软集团股份有限公司 | 基于图像特征的商品分类方法及装置 |
CN104281679B (zh) * | 2014-09-30 | 2018-04-06 | 东软集团股份有限公司 | 基于图像特征的商品分类方法及装置 |
CN104794219A (zh) * | 2015-04-28 | 2015-07-22 | 杭州电子科技大学 | 一种基于地理位置信息的场景检索方法 |
CN108369594B (zh) * | 2015-11-23 | 2023-11-10 | 超威半导体公司 | 用于执行并行搜索操作的方法和设备 |
CN108369594A (zh) * | 2015-11-23 | 2018-08-03 | 超威半导体公司 | 用于执行并行搜索操作的方法和设备 |
CN105608230A (zh) * | 2016-02-03 | 2016-05-25 | 南京云创大数据科技股份有限公司 | 一种基于图像检索的商家信息推荐系统及方法 |
CN106528662A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于特征几何约束的车辆图像快速检索方法与系统 |
CN106528807A (zh) * | 2016-11-15 | 2017-03-22 | 杭州壹晨仟阳科技有限公司 | 地标注册方法、装置、设备以及地标查询方法和装置 |
CN106844733B (zh) * | 2017-02-13 | 2020-04-03 | 哈尔滨理工大学 | 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法 |
CN106844733A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨理工大学 | 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法 |
CN107133260A (zh) * | 2017-03-22 | 2017-09-05 | 新奥特(北京)视频技术有限公司 | 一种地标图像的匹配识别方法和装置 |
CN107133261A (zh) * | 2017-03-22 | 2017-09-05 | 新奥特(北京)视频技术有限公司 | 一种地标信息的录入方法和装置 |
CN107766822A (zh) * | 2017-10-23 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、人脸图像聚类搜索方法和计算机可读存储介质 |
CN109697240A (zh) * | 2017-10-24 | 2019-04-30 | 中移(杭州)信息技术有限公司 | 一种基于特征的图像检索方法及装置 |
CN109697240B (zh) * | 2017-10-24 | 2020-12-22 | 中移(杭州)信息技术有限公司 | 一种基于特征的图像检索方法及装置 |
CN109918473B (zh) * | 2017-12-14 | 2020-12-29 | 北大方正集团有限公司 | 数学公式相似度的测量方法及其测量系统 |
CN109918473A (zh) * | 2017-12-14 | 2019-06-21 | 北大方正集团有限公司 | 数学公式相似度的测量方法及其测量系统 |
CN108228761A (zh) * | 2017-12-21 | 2018-06-29 | 深圳市商汤科技有限公司 | 支持区域自定义的图像检索方法和装置、设备、介质 |
CN109165639B (zh) * | 2018-10-15 | 2021-12-10 | 广州广电运通金融电子股份有限公司 | 一种指静脉识别方法、装置及设备 |
CN109165639A (zh) * | 2018-10-15 | 2019-01-08 | 广州广电运通金融电子股份有限公司 | 一种指静脉识别方法、装置及设备 |
CN111353062A (zh) * | 2018-12-21 | 2020-06-30 | 华为技术有限公司 | 一种图像检索方法、装置以及设备 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110046236B (zh) * | 2019-03-20 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110210533A (zh) * | 2019-05-20 | 2019-09-06 | 清华大学深圳研究生院 | 基于最大覆盖位置问题的图片组地理定位方法 |
CN110363179A (zh) * | 2019-07-23 | 2019-10-22 | 联想(北京)有限公司 | 地图获取方法、装置、电子设备以及存储介质 |
CN111522986A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN111522986B (zh) * | 2020-04-23 | 2023-10-10 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
US11836186B2 (en) | 2020-04-23 | 2023-12-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for retrieving image, device, and medium |
CN111950464A (zh) * | 2020-08-13 | 2020-11-17 | 安徽淘云科技有限公司 | 图像检索方法、服务端和扫描笔 |
CN112182264A (zh) * | 2020-10-10 | 2021-01-05 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
CN112182264B (zh) * | 2020-10-10 | 2024-05-10 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
CN117689899A (zh) * | 2024-02-04 | 2024-03-12 | 南昌虚拟现实研究院股份有限公司 | 一种手势采集装置参数点检方法、系统、设备及存储介质 |
CN117689899B (zh) * | 2024-02-04 | 2024-05-24 | 南昌虚拟现实研究院股份有限公司 | 一种手势采集装置参数点检方法、系统、设备及存储介质 |
CN117809062A (zh) * | 2024-03-01 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 地标识别方法、装置、设备、存储介质及计算机程序产品 |
CN117809062B (zh) * | 2024-03-01 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 地标识别方法、装置、设备、存储介质及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN102542058B (zh) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102542058B (zh) | 一种融合全局与局部视觉特征的层次化地标识别方法 | |
Zamir et al. | Accurate image localization based on google maps street view | |
US6584221B1 (en) | Method for image retrieval with multiple regions of interest | |
CN102012939B (zh) | 综合颜色和局部不变特征匹配的动画场景自动标注方法 | |
Srivastava et al. | A review: color feature extraction methods for content based image retrieval | |
CN102521366A (zh) | 融合分类与全局索引的图像检索方法和图像检索系统 | |
CN104991954A (zh) | 基于图像搜索的购物搜索系统及其实现方法 | |
CN108287833A (zh) | 一种用于艺术品鉴定的以图搜图方法 | |
CN104951562B (zh) | 一种基于vlad双重自适应的图像检索方法 | |
Vimina et al. | A sub-block based image retrieval using modified integrated region matching | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
Chen et al. | Instance retrieval using region of interest based CNN features | |
Alamdar et al. | A new color feature extraction method based on dynamic color distribution entropy of neighborhoods | |
Mouine et al. | Combining leaf salient points and leaf contour descriptions for plant species recognition | |
Srinagesh et al. | A modified shape feature extraction technique for image retrieval | |
Le et al. | Document retrieval based on logo spotting using key-point matching | |
Kim et al. | Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition | |
Le et al. | Improving logo spotting and matching for document categorization by a post-filter based on homography | |
Jaswal et al. | Content based image retrieval using color space approaches | |
Ömrüuzun et al. | Content based hyperspectral image retrieval using bag of endmembers image descriptors | |
Da Rugna et al. | About segmentation step in content-based image retrieval systems | |
Mills | Relative orientation and scale for improved feature matching | |
CN108170729A (zh) | 利用超图融合多模态信息的图像检索方法 | |
Prakash et al. | Combining novel features for content based image retrieval | |
Konlambigue et al. | Performance evaluation of state-of-the-art filtering criteria applied to sift features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |