CN102880854A - 基于分布式和哈希映射的室外海量物体识别方法和系统 - Google Patents

基于分布式和哈希映射的室外海量物体识别方法和系统 Download PDF

Info

Publication number
CN102880854A
CN102880854A CN2012102923765A CN201210292376A CN102880854A CN 102880854 A CN102880854 A CN 102880854A CN 2012102923765 A CN2012102923765 A CN 2012102923765A CN 201210292376 A CN201210292376 A CN 201210292376A CN 102880854 A CN102880854 A CN 102880854A
Authority
CN
China
Prior art keywords
image
sample
bit string
identified
gps information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102923765A
Other languages
English (en)
Other versions
CN102880854B (zh
Inventor
刘越
桂振文
王涌天
陈靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201210292376.5A priority Critical patent/CN102880854B/zh
Publication of CN102880854A publication Critical patent/CN102880854A/zh
Application granted granted Critical
Publication of CN102880854B publication Critical patent/CN102880854B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种基于分布式处理和哈希映射的室外海量物体识别方法和系统,终端采集待识别图像以及GPS信息,提取待识别图像的描述符特征向量,将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;分布式处理系统将描述符文件中的描述符特征向量映射为Hash位串,并且根据GPS信息查询当前正在处理的匹配任务中是否已经存在相同的匹配任务,如果没有则在数据库中搜索与待识别图像相关的样本图像的样本位串,分摊加载到多个计算节点中并进行匹配,匹配率最高样本图像就是匹配图像反馈给终端。使用本发明能够实现智能终端的大规模图像识别和检索,而且减少了数据运算量,数据存储量,提高了图像识别和检索的速度。

Description

基于分布式和哈希映射的室外海量物体识别方法和系统
技术领域
本发明属于移动增强现实技术领域,具体涉及一种基于分布式处理和暴力匹配的室外大规模物体识别方法。
背景技术
图像识别的是基于内容的信息检索研究的热门话题,在遥感图像处理、医学图像处理和计算机视觉等领域有着广泛的应用。
随着互联网的发展,人类正在步入一个信息化的社会,互联网已经成为人类发布、获取、交换信息的重要平台。互联网上信息量的指数级增长,使得如何让用户能够快速准确地在海量的数据中找到其所需信息成为了一个重要的课题。近些年来,随着数字摄影和存储设备的进步和普及,室外的图像数量在互联网上的飞速增长,也已经达到成千上万了。如何有效的利用这些数据信息,给当前处于相同位置的用户提供这些已有的信息,是商业界和学术界的一个重要研究方向。然而,随着图像库规模的极大增长,要保证图像搜索的实时性,相应的数据库索引技术和图像检索技术也必须做相应的调整或加速。
同时计算机软、硬件技术的迅猛发展,为增强现实技术走出室内应用进而支持复杂的分析、决策和管理打下了坚实的基础。一些移动终端设备(像PDA、智能手机等)的功能也越来越丰富,并且拥有了嵌入式操作系统、触摸屏、GPS定位、视频摄像头等功能,同时也具备了较强的计算和处理能力。这些功能的集成为开发基于移动终端的增强现实系统奠定了基础。据有关资料,截止到2010年我国移动电话用户可达7.4亿,其中拥有智能手机的用户占了相当的比重,智能手机作为增强现实的应用平台将具有很大的应用潜力。3G网的逐步开通、运行,意味着移动增值业务全新时代的开始,增强现实技术和LBS相结合可以实现信息的实时交互、三维动态显示,可使人机界面更加友好和具有智能性。
基于上述分析,结合具有摄像头的终端以及服务器端的图像识别和匹配技术,可以将场景之类的大规模物体的在线识别变为可能。
然而以前的许多图像识别的研究工作都是在单机环境下考虑图像检索问题,许多方法也不能推广到更大规模的图像识别问题,系统性能和能够处理的数据规模存在局限性。当城市级规模的数据,以百万为单位时,图像识别系统需要海量的存储空间和海量数据的计算能力。因为图像库本身需要很大的空间存储,从图像提取的各种特征描述向量也需要大量的空间存储。同时,在图像识别和匹配过程中对描述符索引、匹配也需要强大计算能力。所以,用哈希函数的散列表示,只需要几十位就代表高维的描述向量,节省了存储空间,为大规模的存储数据提供了可行性。分布式文件系统和分布式计算为海量描述符的索引和描述符的并行匹配计算能力,为海量图像的识别提供支撑条件。
发明内容
有鉴于此,本发明提供了一种基于分布式处理和哈希映射的室外海量物体识别方案,能够实现在线海量物体的识别,而且减少了数据存储量,提高了图像识别和检索的速度。
该方案是这样实现的:
一种基于分布式处理和哈希映射的室外海量物体识别方法,预先获取带GPS信息的样本图像,提取每幅样本图像的局部特征并转化为描述符特征向量,再对描述符特征向量进行Hash映射,得到Hash位串称为样本位串;将样本图像的GPS信息、样本图像信息、样本位串对应存储到样本文件系统中;
所述的识别方法包括如下步骤:
步骤1:终端采集当前场景的待识别图像以及GPS信息;
步骤2:提取所述待识别图像的局部特征,并转化为描述符特征向量;
步骤3:将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;
步骤4:分布式处理系统中设有调度处理集群、多个计算节点和所述样本文件系统;调度处理集群接收到所述描述符文件后,从该描述符文件中提取GPS信息,查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本位串加载到各计算节点中,则将描述符文件发送给每个计算节点,然后执行步骤6;否则,执行步骤5;
所述匹配任务的查询标准为:如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值,则认为存在相同的匹配任务;
步骤5:调度处理集群为待识别图像加载相关的样本特征向量:
以待识别图像的GPS信息为圆心,按照预先设定的筛选半径确定一个圆形区域,从样本文件系统中筛选出GPS信息在所述圆形区域内的样本位串,将筛选出的样本位串分摊加载到各个计算节点中;同时,调度处理集群还将描述符文件发送给每个计算节点。
步骤6:每个计算节点从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;将待识别图像的待匹配Hash位串与已加载的与该识别图像相关的样本位串进行逐个进行汉明比较,将匹配结果汇总到调度处理集群;
步骤7:调度处理集群统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。
优选地,步骤2中,在提取所述待识别图像的局部特征之前,进一步对所述待识别图像进行降采样处理,以降低图像分辨率。
本发明还提供了一种基于分布式处理和暴力匹配的室外大规模物体识别系统,包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端;分布式处理系统包括交换设备、调度处理集群、至少2个计算节点和样本文件系统;调度处理集群通过交换设备接入无线网络,并且与样本文件系统、所有的计算节点连接;
所述样本文件系统,用于存储各类场景的样本图像、每个场景的GPS信息以及每幅样本图像对应的Hash位串,样本图像对应的Hash位串是对样本图像提取描述符特征向量,再对描述符特征向量进行Hash映射得到的,称为样本位串;样本图像的GPS信息、样本图像信息和样本位串对应存储;
所述终端,用于采集当前场景的待识别图像以及GPS信息,提取所述待识别图像的局部特征,并转换为描述符特征向量;将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;
所述调度处理集群,用于在接收到所述描述符文件后,从该描述符文件中提取GPS信息,查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本特征向量加载到各计算节点中,则将描述符文件发送给每个计算节点;否则,为待识别图像加载相关的样本位串;
其中,所述匹配任务的查询标准为:如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值,则认为存在相同的匹配任务;
所述为待识别图像加载相关的样本位串为:以待识别图像的GPS信息为圆心,按照预先设定的筛选半径确定一个圆形区域,从样本文件系统中筛选出GPS信息在所述圆形区域内的样本位串,将筛选出的样本位串分摊加载到各个计算节点中;同时,调度处理集群还将描述符文件发送给每个计算节点;
所述计算节点,用于从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;将待识别图像的待匹配Hash位串与已加载的与该待识别图像相关的样本位串进行逐个进行汉明比较,将匹配结果汇总到调度处理集群;
所述调度处理集群进一步用于,统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。
有益效果:
本发明使用智能设备的摄像头对当前场景进行图像采集,并利用分布式处理技术与计算机视觉技术,对被采集室外场景进行识别,依靠互联网或其它通信手段,提供被识别物体的各种信息,还可以在这些信息上附加进一步的各种应用,从而为使用者获取该物品的相关信息提供一种更为便利的手段。而且,本发明用哈希散列表示描述符,可以大大减少数据存储量。
其次,本发明在为当前任务加载样本位串时,根据GPS信息判断是否已经由类似或相同的任务,如果有,不需要再次加载,直接采用已经加载的样本位串即可,节省了加载数据的时间。
此外,本发明在记载样本位串时,只加载一定范围内的样本特征向量,这样可以进一步缩小运算量。
本发明可以扩展智能终端的交互式应用,满足了旅游、导航、交通、酒店服务等在智能终端上的扩展应用,使网络运营商和内容提供商能够利用其丰富的服务器资源和优越的服务器性能发展其业务。
附图说明
图1为本发明基于分布式系统与哈希映射的室外海量物体识别原理图;
图2(a)为非结构化存储的示意图;
图2(b)为结构化存储的示意图;
图3为本发明识别系统的结构示意图。
具体实施方式
下面将结合附图对本发明的物体识别分析方法做详细描述。
图1示出了本发明的基于分布式系统和Hash映射的增强现实(AR)物体识别方法的原理图。如图1所示,实现该方法的系统包括分布式处理系统、无线网络、具有图像采集和GPS定位功能的终端。终端和分布式处理系统通过无线网络互通。分布式处理系统具体包括交换设备(网关)、调度处理集群(Master)、多个计算节点和样本文件系统。调度处理集群通过网关接入无线网络,并且与样本文件系统、所有的计算节点连接。
基于上述系统,本发明的具体实现流程如下:
识别之前的准备工作:预先获取带GPS信息的样本图像,一般来说可以按场景获取图像,例如从网络或实地拍摄,每个场景从不同角度获取几幅样本图像,场景的GPS信息就是样本图像的GPS信息。提取每幅样本图像的局部特征并转换为描述符特征向量,然后采用预先确定的Hash函数将描述符特征向量映射为Hash位串,称为样本位串;然后,将样本图像的GPS信息、样本图像信息与样本位串对应存储到样本文件系统中。
识别过程如下:
步骤1:用户打开终端的拍摄设备,终端采集当前场景的待识别图像;再调用终端的GPS传感器接口,获取当前位置的GPS信息。
步骤2:为了降低运算量,终端对采集到的待识别图像进行降采样处理(即降低分辨率),以降低图像分辨率;然后再采用局部特征检测算法(SIFT、SURF或ORB)进行特征点检测,以提取所述场景图像的局部特征,再用特征向量的形式表现,从而转化为描述符特征向量。一幅图像可能有上百个描述符特征向量。
步骤3:将待识别图像的GPS信息以及全部描述符特征向量以及特征向量个数打包成一个描述符文件,GPS信息和特征向量个数放在文件的开头,特征向量个数便于接收端判断一个描述符文件是否接收完毕。然后将描述符文件通过无线网络发送给分布式处理系统。
步骤4:分布式处理系统中的调度处理集群通过网关接收到描述符文件后,从该描述符文件中提取GPS信息,在调度处理集群内查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本位串加载到各计算节点中,则将描述符文件发送给每个计算节点,然后执行步骤6;否则,执行步骤5。
匹配任务的查询标准为:如果当前正在处理的匹配任务对应的图像GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值,则认为存在相同的匹配任务。其中,当前正在处理的匹配任务可以缓存在一个调度列表中以便查询。
步骤5:调度处理集群为待识别图像加载相关的样本位串。具体为:
以待识别图像的GPS信息为圆心,按照预先设定的筛选半径确定一个圆形区域,从样本文件系统中筛选出GPS信息在所述圆形区域内的样本位串,将筛选出的样本位串以样本图像为单位分摊加载到各个计算节点中;同时,调度处理集群还将描述符文件发送给每个计算节点。其中,筛选范围可以为10米、20米、30米、40米或50米。
步骤6:每个计算节点将从描述符文件中解析出的待匹配描述符特征向量,采用与前面相同的Hash函数进行Hash映射,得到待匹配Hash位串,再将待识别图像的待匹配Hash位串与已经载入的与待识别图像相关的样本位串进行逐个汉明比较也就是常说的暴力匹配,将匹配结果汇总到调度处理集群。
其中,这里所述的“与该待识别图像相关的已加载样本位串”就是GPS信息在圆形区域内的样本位串,它们参与待识别图像的汉明比较。对于在步骤4中找到相同匹配任务的待识别图像,哪些样本位串参与其汉明比较可以由计算节点根据已加载样本位串的GPS信息再次判断,其判断计算量很小,不会影响计算速度;当然,也可以由调度处理集群告知计算节点哪些样本位串参与本任务的汉明比较。
Hash映射是通过设计一个散列函数,将高维的特征描述符映射成较少的位串,通常高维向量SIFT、SURF需要80-100位表示,用汉明距离来判断映射后的Hash位串是否相似。考虑到图像特征向量需要非常精确的匹配,Hash函数要求尽可能的将相近的特征描述向量映射到同一位串,将不相近的特征向量映射到汉明距离较远的位串,这也是Hash函数设计的时候通常要考虑的问题,是本领域技术人员能够实现的。通常映射函数用公式(1)的表示形式:
1 - 1 1 1 - 1 · · · 1 = sign ( PV + M )
P为投影矩阵,V为高维的描述符向量,M为位串长度的阈值位描述符。
将待匹配的Hash位串与样本的所有样本位串进行逐个汉明距离对比,求取汉明距离最短的样本位串。通常判断两个位串是否匹配,是通过设定一个全局的阈值,当汉明距离小于或等于该阈值,则判定两位串匹配。
步骤7:调度处理集群统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。此后,终端可以显示上述识别结果,用户可以点击上述分类结果,查看详细信息。
至此,本流程结束。
在上述流程中,向终端返回的匹配图像信息可以是图像ID,也可以是图像本身或者与匹配图像有关的其他信息。如果返回的是图像本身,还需要在样本文件系统中存储样本图像。那么如图1所示,样本文件系统中建立图像库和特征库。为每个场景采集的带GPS信息的样本图像可以存储在图像库中,图像库记载样本图像、样本图像ID、以及样本图像采集地点的GPS信息。而根据样本图像提取的样本位串存储在特征库中,特征库记载样本图像ID、样本图像对应的样本位串、以及样本图像采集地点的GPS信息。
在实际中,样本文件系统中的特征库可以采用结构化或非结构化方式存储。下面介绍这两种存储方式,以及针对每种存储方式设计的较优的位串匹配方案。
(1)采用非结构化方式存储样本位串:
如图2(a)所示,采用文件块组织数据,每个描述文件块对应一个场景,与该场景相关的样本位串均存储在同一个描述文件块中。参见附图,描述文件块存储对应场景的GPS信息、针对该场景获取的样本图像数量,每个样本图像的图像ID、每个样本图像对应的样本位串和样本位串数量。
由于以描述文件块为单位存储Hash位串,且描述文件块的读取操作需要自行设计,速度较慢,因此每次载入一个描述文件块,匹配完再载入另一个描述文件块比较合适。那么本发明的步骤6和7的较佳处理方式为:
①每个计算节点接收载入的描述文件块和终端发来的描述符文件,从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;以样本图像为单位,用待匹配Hash位串逐个与单个样本图像的所有样本特征向量进行汉明比较,两个位串汉明距离最短且距离小于或等于阈值,则两位串匹配,统计匹配率,即在一幅样本图像中匹配成功的样本位串占单个样本图像的所有样本位串的比例,将匹配率汇总到调度处理集群;然后再载入一个描述文件块进行匹配和匹配率汇总,直到处理完所有的相关描述文件块。
②调度处理集群从所有计算节点反馈的匹配率中的寻找最大匹配率,最大匹配率对应的样本图像就是匹配图像;
③将匹配图像的信息返回给所述终端。
(2)采用结构化方式存储样本位串:
如图2(b)所示,样本位串以记录的形式存储。每个记录存储一条样本位串,各条记录的格式相同。对于结构化存储,较佳的加载方式为根据索引进行快速加载。因此,每条记录的内容包括:索引ID、样本图像ID、GPS信息、样本位串序号、样本位串。
其中索引ID的构建方式是常规技术手段,在识别前的准备阶段,在样本文件系统中存储索引表,该索引表记载了GPS信息与记录存储位置的索引关系。那么根据GPS信息查找索引表就可以将GPS信息在圆形区域内的所有记录内容加载到各个计算节点中。在建立索引时,也可以采用多个计算节点进行分布式计算,以节省计算时间;同理对图像库中的图像进行特征提取和Hash映射也可以采用分布式计算的方式实现。
由于以记录为单位存储位串,且建立了索引表,因此可以采用已有的数据库技术进行快速读取记录并加载到计算节点中,速度较快,因此可以一次性的将所有与待匹配图像相关的所有记录均加载到计算节点中。那么本发明的步骤6和7的较佳处理方式为:
①每个计算节点从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串,将每一个待匹配Hash位串x与加载到自身的所有样本特征向量位串逐一进行匹配;各计算节点找同一个待匹配Hash位串x与加载到自身的所有样本位串逐一进行汉明比较,找到汉明距离最短的样本位串,记为A,并汇总到调度处理集群进行整体排序,调度处理集群从汇总的所有A中找到与待匹配Hash位串x汉明距离最短的样本位串,记为A’,如果样本位串A’与待匹配Hash位串x的汉明距离小于或等于预设的全局阈值,则将该样本位串A’记为一个匹配点;
②针对每个待匹配Hash位串均进行上述操作,然后调度处理集群针对每个样本图像,计算匹配点占该样本图像样本位串的比例,比例最高的样本图像就是匹配图像;
③将匹配图像的信息返回给所述终端。
实际上,无论是结构化存储还是非结构化存储,以上两种匹配过程均适用,只是相对来说,结构化存储优选后者,非结构化存储优选前者。
在分布式系统里面,除各个计算单元之间进行分布式计算意外,计算单元里面还可以进行并行计算。这样1000幅样本图像的位串,例如用10个计算单元,每个计算单元承担100个样本的匹配任务,每个计算单元开辟10个并行计算的线程,每个线程承担10个样本图像的匹配任务,这样对1000样本图像进行匹配时只需要10个图像暴力匹配的时间,通常在四核的CPU2.8G,内存为8G的机器上,图像分辨率为320×240,用位串对10个样本图像进行匹配,消耗时间为86ms左右。所以,用分布式系统与Hash函数对海量图像进行匹配能够达到很好的实时性,同时用暴力匹配的方式进行特征点最近邻查找,能实现较高的匹配精度。
在上述流程中,涉及智能终端拍摄视频图像,处理并显示来自网络端的分布式系统服务器发送的返回结果,这些步骤在目前的智能终端上均已经广泛实施,这些已有实施方式均可用于本发明,且本发明的视频图像拍摄、处理并显示来自网络服务器端的数据不限于现有的方式。
基于上述方法可知,本发明提供的室外海量物体识别系统中各组成模块的功能为:
样本文件系统,用于存储各类场景的样本图像、每个场景的GPS信息以及每幅样本图像对应的Hash位串,样本图像对应的Hash位串是对样本图像提取描述符特征向量,再对描述符特征向量进行Hash映射得到的,称为样本位串;样本图像的GPS信息、样本图像信息和样本位串对应存储;
终端,用于采集当前场景的待识别图像以及GPS信息,提取所述待识别图像的局部特征,并转换为描述符特征向量;将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;
调度处理集群,用于在接收到所述描述符文件后,从该描述符文件中提取GPS信息,按照前述查询标准查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本特征向量加载到各计算节点中,则将描述符文件发送给每个计算节点;否则,为待识别图像加载相关的样本位串;其中,为待识别图像加载相关的样本位串的具体方式与方法流程中的描述相同,这里不赘述。
计算节点,用于从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;将待识别图像的待匹配Hash位串与已加载的与该待识别图像相关的样本位串进行逐个进行汉明比较,将匹配结果汇总到调度处理集群;
调度处理集群进一步用于,统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。
优选地,终端在提取所述待识别图像的局部特征之前,进一步对所述待识别图像进行降采样处理,以降低图像分辨率。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于分布式处理和哈希映射的室外海量物体识别方法,其特征在于,预先获取带GPS信息的样本图像,提取每幅样本图像的局部特征并转化为描述符特征向量,再对描述符特征向量进行Hash映射,得到Hash位串称为样本位串;将样本图像的GPS信息、样本图像信息、样本位串对应存储到样本文件系统中;
所述的识别方法包括如下步骤:
步骤1:终端采集当前场景的待识别图像以及GPS信息;
步骤2:提取所述待识别图像的局部特征,并转化为描述符特征向量;
步骤3:将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;
步骤4:分布式处理系统中设有调度处理集群、多个计算节点和所述样本文件系统;调度处理集群接收到所述描述符文件后,从该描述符文件中提取GPS信息,查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本位串加载到各计算节点中,则将描述符文件发送给每个计算节点,然后执行步骤6;否则,执行步骤5;
所述匹配任务的查询标准为:如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值,则认为存在相同的匹配任务;
步骤5:调度处理集群为待识别图像加载相关的样本特征向量:
以待识别图像的GPS信息为圆心,按照预先设定的筛选半径确定一个圆形区域,从样本文件系统中筛选出GPS信息在所述圆形区域内的样本位串,将筛选出的样本位串分摊加载到各个计算节点中;同时,调度处理集群还将描述符文件发送给每个计算节点。
步骤6:每个计算节点从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;将待识别图像的待匹配Hash位串与已加载的与该识别图像相关的样本位串进行逐个进行汉明比较,将匹配结果汇总到调度处理集群;
步骤7:调度处理集群统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。
2.如权利要求1所述的方法,其特征在于,步骤2中,在提取所述待识别图像的局部特征之前,进一步对所述待识别图像进行降采样处理,以降低图像分辨率。
3.如权利要求1所述的方法,其特征在于,所述步骤6和步骤7具体为:
①计算节点从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;各计算节点找同一个待匹配Hash位串x与加载到自身的所有样本位串逐一进行汉明比较,找到汉明距离最短的样本位串A,并汇总到调度处理集群进行整体排序,调度处理集群根据汇总数据找到与待匹配Hash位串x汉明距离最短的样本位串A’,如果样本位串A’与待匹配位串x的汉明距离小于或等于预设的全局阈值,则将该样本位串A’记为一个匹配点;
②针对每个待匹配Hash位串均进行上述操作,然后调度处理集群针对每个样本图像,计算匹配点占该样本图像的样本位串的比例,比例最高的样本图像就是匹配图像;
③将匹配图像的信息返回给所述终端。
4.如权利要求1所述的方法,其特征在于,所述步骤6和步骤7具体为:
①每个计算节点从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;以样本图像为单位,用待匹配Hash位串逐个与单个样本图像的所有样本位串进行汉明比较,统计匹配率,即匹配成功的样本位串占单个样本图像的所有样本位串的比例,将匹配率汇总到调度处理集群;
②调度处理集群从所有计算节点反馈的匹配率中的寻找最大匹配率,最大匹配率对应的样本图像就是匹配图像;
③将匹配图像的信息返回给所述终端。
5.如权利要求1或3所述的方法,其特征在于,采用结构化存储方式存储样本位串,每个样本位串对应一条记录;每个记录的字段包括索引ID、样本图像ID、GPS信息、样本位串序号、样本位串;
进一步在样本文件系统中存储索引表,该索引表记载了GPS信息与记录存储位置的索引关系;
所述步骤5中为待识别图像加载相关的样本位串时,根据GPS信息查找根据索引表,将GPS信息在所述圆形区域内的记录内容加载到各个计算节点中。
6.如权利要求1所述的方法,其特征在于,每个计算节点中开辟多个并行计算线程,每个线程承担相同的任务量。
7.一种基于分布式处理和哈希映射的室外大规模物体识别系统,其特征在于,包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端;分布式处理系统包括交换设备、调度处理集群、至少2个计算节点和样本文件系统;调度处理集群通过交换设备接入无线网络,并且与样本文件系统、所有的计算节点连接;
所述样本文件系统,用于存储各类场景的样本图像、每个场景的GPS信息以及每幅样本图像对应的Hash位串,样本图像对应的Hash位串是对样本图像提取描述符特征向量,再对描述符特征向量进行Hash映射得到的,称为样本位串;样本图像的GPS信息、样本图像信息和样本位串对应存储;
所述终端,用于采集当前场景的待识别图像以及GPS信息,提取所述待识别图像的局部特征,并转换为描述符特征向量;将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件,发送给分布式处理系统;
所述调度处理集群,用于在接收到所述描述符文件后,从该描述符文件中提取GPS信息,查询当前正在处理的匹配任务中是否存在与提取的GPS信息相同的匹配任务,如果是,说明已经将与待识别图像相关的样本特征向量加载到各计算节点中,则将描述符文件发送给每个计算节点;否则,为待识别图像加载相关的样本位串;
其中,所述匹配任务的查询标准为:如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值,则认为存在相同的匹配任务;
所述为待识别图像加载相关的样本位串为:以待识别图像的GPS信息为圆心,按照预先设定的筛选半径确定一个圆形区域,从样本文件系统中筛选出GPS信息在所述圆形区域内的样本位串,将筛选出的样本位串分摊加载到各个计算节点中;同时,调度处理集群还将描述符文件发送给每个计算节点;
所述计算节点,用于从描述符文件中解析出待匹配描述符特征向量,并进行Hash映射,得到待匹配Hash位串;将待识别图像的待匹配Hash位串与已加载的与该待识别图像相关的样本位串进行逐个进行汉明比较,将匹配结果汇总到调度处理集群;
所述调度处理集群进一步用于,统计各个计算节点的匹配结果,选出匹配比率最高的样本图像作为匹配图像,将匹配图像的信息返回给所述终端。
8.如权利要求7所述的物体识别系统,其特征在于,所述终端进一步用于,在提取所述待识别图像的局部特征之前,进一步对所述待识别图像进行降采样处理,以降低图像分辨率。
CN201210292376.5A 2012-08-16 2012-08-16 基于分布式和哈希映射的室外海量物体识别方法和系统 Expired - Fee Related CN102880854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210292376.5A CN102880854B (zh) 2012-08-16 2012-08-16 基于分布式和哈希映射的室外海量物体识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210292376.5A CN102880854B (zh) 2012-08-16 2012-08-16 基于分布式和哈希映射的室外海量物体识别方法和系统

Publications (2)

Publication Number Publication Date
CN102880854A true CN102880854A (zh) 2013-01-16
CN102880854B CN102880854B (zh) 2015-02-18

Family

ID=47482172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210292376.5A Expired - Fee Related CN102880854B (zh) 2012-08-16 2012-08-16 基于分布式和哈希映射的室外海量物体识别方法和系统

Country Status (1)

Country Link
CN (1) CN102880854B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514446A (zh) * 2013-10-16 2014-01-15 北京理工大学 一种融合传感器信息的室外场景识别方法
CN103530881A (zh) * 2013-10-16 2014-01-22 北京理工大学 适用于移动终端的户外增强现实无标志点跟踪注册方法
CN104090885A (zh) * 2013-12-09 2014-10-08 武汉飞凌视讯科技有限公司 一种基于局部拷贝检测的多视角视频对象检索系统及方法
CN104217205A (zh) * 2013-05-29 2014-12-17 华为技术有限公司 一种识别用户活动类型的方法及系统
CN105205487A (zh) * 2014-05-28 2015-12-30 腾讯科技(深圳)有限公司 一种图片处理方法及装置
CN105849719A (zh) * 2013-06-27 2016-08-10 奥瑞斯玛有限公司 增强现实
CN108289201A (zh) * 2018-01-24 2018-07-17 北京地平线机器人技术研发有限公司 视频数据处理方法、装置和电子设备
CN108984614A (zh) * 2018-06-12 2018-12-11 成都三零凯天通信实业有限公司 一种基于大数据环境下的视图像快速识别方法
CN109214831A (zh) * 2018-08-09 2019-01-15 云智前沿科技发展(深圳)有限公司 一种基于位置信息与DNA信息的Hash指纹及其构建方法与应用
CN111259185A (zh) * 2018-12-03 2020-06-09 埃森哲环球解决方案有限公司 文本域图像检索

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009146719A1 (en) * 2008-06-03 2009-12-10 Eth Zurich Method and system for generating a pictorial reference database using geographical information
CN102254345A (zh) * 2011-06-30 2011-11-23 上海大学 基于云计算的自然特征注册方法
WO2012053118A1 (en) * 2010-10-22 2012-04-26 Telefonaktiebolaget L M Ericsson (Publ) Image matching apparatus and image matching method
CN102625993A (zh) * 2009-07-30 2012-08-01 Sk普兰尼特有限公司 用于提供增强现实的方法、服务器和便携终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009146719A1 (en) * 2008-06-03 2009-12-10 Eth Zurich Method and system for generating a pictorial reference database using geographical information
CN102625993A (zh) * 2009-07-30 2012-08-01 Sk普兰尼特有限公司 用于提供增强现实的方法、服务器和便携终端
WO2012053118A1 (en) * 2010-10-22 2012-04-26 Telefonaktiebolaget L M Ericsson (Publ) Image matching apparatus and image matching method
CN102254345A (zh) * 2011-06-30 2011-11-23 上海大学 基于云计算的自然特征注册方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID M. CHEN ET AL.: "city-scale landmark identification on mobile devices", 《2011 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 》, 3 December 2011 (2011-12-03), pages 737 - 744 *
EDUARDO TODT ET AL.: "outdoor landmark-view recognition based on bipartite-graph matching and logistic regression", 《PROCEEDINGS OF THE 2007 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》, 14 April 2007 (2007-04-14), pages 4289 - 4294, XP031091474 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217205A (zh) * 2013-05-29 2014-12-17 华为技术有限公司 一种识别用户活动类型的方法及系统
US9984304B2 (en) 2013-05-29 2018-05-29 Huawei Technologies Co., Ltd. Method and system for recognizing user activity type
CN105849719B (zh) * 2013-06-27 2021-09-28 惠普发展公司,有限责任合伙企业 增强现实
CN105849719A (zh) * 2013-06-27 2016-08-10 奥瑞斯玛有限公司 增强现实
CN103530881A (zh) * 2013-10-16 2014-01-22 北京理工大学 适用于移动终端的户外增强现实无标志点跟踪注册方法
CN103514446A (zh) * 2013-10-16 2014-01-15 北京理工大学 一种融合传感器信息的室外场景识别方法
CN103530881B (zh) * 2013-10-16 2016-03-09 北京理工大学 适用于移动终端的户外增强现实无标志点跟踪注册方法
CN103514446B (zh) * 2013-10-16 2016-08-24 北京理工大学 一种融合传感器信息的室外场景识别方法
CN104090885A (zh) * 2013-12-09 2014-10-08 武汉飞凌视讯科技有限公司 一种基于局部拷贝检测的多视角视频对象检索系统及方法
CN105205487A (zh) * 2014-05-28 2015-12-30 腾讯科技(深圳)有限公司 一种图片处理方法及装置
CN105205487B (zh) * 2014-05-28 2019-08-23 腾讯科技(深圳)有限公司 一种图片处理方法及装置
CN108289201A (zh) * 2018-01-24 2018-07-17 北京地平线机器人技术研发有限公司 视频数据处理方法、装置和电子设备
CN108984614A (zh) * 2018-06-12 2018-12-11 成都三零凯天通信实业有限公司 一种基于大数据环境下的视图像快速识别方法
CN108984614B (zh) * 2018-06-12 2022-01-25 成都三零凯天通信实业有限公司 一种基于大数据环境下的视图像快速识别方法
CN109214831A (zh) * 2018-08-09 2019-01-15 云智前沿科技发展(深圳)有限公司 一种基于位置信息与DNA信息的Hash指纹及其构建方法与应用
CN109214831B (zh) * 2018-08-09 2021-08-03 云智前沿科技发展(深圳)有限公司 基于位置信息与DNA信息的Hash指纹及构建方法与应用
CN111259185A (zh) * 2018-12-03 2020-06-09 埃森哲环球解决方案有限公司 文本域图像检索
CN111259185B (zh) * 2018-12-03 2023-10-13 埃森哲环球解决方案有限公司 文本域图像检索系统和方法

Also Published As

Publication number Publication date
CN102880854B (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
CN102831405B (zh) 基于分布式和暴力匹配的室外大规模物体识别方法和系统
CN102880854B (zh) 基于分布式和哈希映射的室外海量物体识别方法和系统
CN102880879B (zh) 基于分布式和svm分类器的室外海量物体识别方法和系统
CN105760469B (zh) 云计算环境下基于倒排lsh的高维近似图象检索方法
CN105760468B (zh) 移动环境下基于倒排位置敏感哈希索引的大规模图象查询系统
CN111586091B (zh) 一种实现算力组配的边缘计算网关系统
CN104408163B (zh) 一种数据分级存储方法和装置
CN103530649A (zh) 一种适用于移动终端的视觉搜索方法
CN103530377B (zh) 一种基于二进制特征码的场景信息搜索方法
CN102819752B (zh) 基于分布式和倒排文件的室外大规模物体识别方法和系统
US11860846B2 (en) Methods, systems and apparatus to improve spatial-temporal data management
CN102236714A (zh) 一种基于xml的交互应用多媒体信息检索方法
CN110162522A (zh) 一种分布式数据搜索系统及方法
CN112416960A (zh) 多场景下的数据处理方法、装置、设备及存储介质
CN100462978C (zh) 一种图像检索方法及系统
CN110659369B (zh) 在轨高精度轻量化全球影像控制点数据库构建方法及系统
CN105183737A (zh) 外观设计专利即时检索系统及检索方法
CN111401482B (zh) 特征点匹配方法及装置、设备、存储介质
CN110633379B (zh) 一种基于gpu并行运算的以图搜图系统及方法
CN112115281A (zh) 数据检索方法、装置及存储介质
CN111797175B (zh) 数据存储方法、装置、存储介质及电子设备
US20050052535A1 (en) Context sensitive camera
CN111581420B (zh) 一种基于Flink的医学图像实时检索方法
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
Zhao et al. Scalable Top-Spatial Image Search on Road Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150218