CN102819752B

CN102819752B - 基于分布式和倒排文件的室外大规模物体识别方法和系统

Info

Publication number: CN102819752B
Application number: CN201210292574.1A
Authority: CN
Inventors: 王涌天; 桂振文; 陈靖; 刘越
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-08-16
Filing date: 2012-08-16
Publication date: 2015-04-22
Anticipated expiration: 2032-08-16
Also published as: CN102819752A

Abstract

本发明公开了一种基于分布式处理和倒排文件的室外大规模物体识别方案，该方案预先对城市版图进行区域划分，针对每个区域采集图像、存储区域的词典、IDF权值和样本权值向量；识别时，终端将拍摄的图像和当前GPS信息打包发送给调度处理集群；调度处理集群根据GPS信息确定加载区域范围，将范围内的词典、IDF和样本权值向量分摊加载到计算节点；计算节点利用词典得到待识别图像的TF，与IDF相乘后得到待匹配权值向量，再与样本权值向量进行比较，将所有计算节点中与待匹配权值向量距离最近的样本权值向量对应的样本图像信息发送给终端。使用本发明能够实现智能终端的大规模图像识别和检索，而且减少了数据运算量，提高了图像识别和检索的速度。

Description

基于分布式和倒排文件的室外大规模物体识别方法和系统

技术领域

本发明属于移动增强现实技术领域，具体涉及一种基于分布式处理和倒排文件的室外大规模物体识别方法和系统。

背景技术

在近几年，将图像内容表示为特定“视觉单词″，统计单词在样本图像中出现的次数的词频-倒排模型,展示了其在相似图像查找方面的强大优势，在通过每个单词节点进行倒排文件表示，计算样本图像的权向量，通过比较查询图像和样本图像的权向量差异长度，能实现高精度的图像识别。物体识别的本质就是建立一个能够识别出图像中感兴趣物体类别的计算系统,在现实生活中有着广泛的应用需求,具有相当高的应用价值和研究意义。

随着互联网的发展，人类正在步入一个信息化的社会，互联网已经成为人类发布、获取、交换信息的重要平台。互联网上信息量的指数级增长，使得如何让用户能够快速准确地在海量的数据中找到其所需信息成为了一个重要的课题。近些年来，随着数字摄影和存储设备的进步和普及，室外的图像数量在互联网上的飞速增长，也已经达到成千上万了。如何有效的利用这些数据信息，给当前处于相同位置的用户提供这些已有的信息，是商业界和学术界的一个重要研究方向。然而，随着图像库规模的极大增长，要保证图像搜索的实时性，相应的数据库索引技术和图像检索技术也必须做相应的调整或加速。

同时计算机软、硬件技术的迅猛发展，为增强现实技术走出室内应用进而支持复杂的分析、决策和管理打下了坚实的基础。一些移动终端设备（像PDA、智能手机等）的功能也越来越丰富，并且拥有了嵌入式操作系统、触摸屏、GPS定位、视频摄像头等功能，同时也具备了较强的计算和处理能力。这些功能的集成为开发基于移动终端的增强现实系统奠定了基础。据有关资料，截止到2010年我国移动电话用户可达7.4亿，其中拥有智能手机的用户占了相当的比重，智能手机作为增强现实的应用平台将具有很大的应用潜力。3G网的逐步开通、运行，意味着移动增值业务全新时代的开始，增强现实技术和LBS相结合可以实现信息的实时交互、三维动态显示，可使人机界面更加友好和具有智能性。

基于上述分析，结合具有摄像头的终端以及服务器端的基于词频-倒排模型的图像识别技术，可以将场景之类的大规模物体的在线识别变为可能，而且结合分布式处理技术可以大大缩短在线识别时间。

发明内容

有鉴于此，本发明提供一种基于分布式处理和倒排文件的室外大规模物体识别方案，根据本发明的物体识别方法，使用智能设备的摄像头对当前场景进行图像采集，并利用分布式处理技术、倒排文件与视觉识别技术，对被采集室外场景进行识别，依靠互联网或其它通信手段，提供被识别物体的各种信息，并在这些信息上附加进一步的各种应用，为使用者获取该物品的相关信息提供一种更为便利的手段。而且，本发明利用GPS信息缩小数据匹配范围，减少了数据运算量，从而进一步提高了图像识别和检索的速度，实现了在线实时的室外大规模物体识别。

该方案是这样实现的：

一种基于分布式处理和倒排文件的室外大规模物体识别方法，该方法包括：

将室外建筑整体区划分为多个矩形的区域；针对每个区域，采集多幅样本图像，从每幅样本图像中提取特征点并转化为描述符，利用聚类算法对一个区域内的所有描述符进行聚类，每个聚类中心作为一个单词，一个区域内的所有单词形成一个词典；每个区域采用中心处GPS信息和四个角的GPS信息表示区域位置，存储带区域位置的词典到样本文件系统中；

以区域为单位，根据TF-IDF模型，计算词典中每个单词的逆向文件频率IDF，并且针对区域内的每个样本图像采用词典计算每个单词在该样本图像中的词频TF；根据权值向量=TF×IDF计算每个样本图像的样本权值向量；将区域位置、样本权值向量和样本图像信息对应存储到样本文件系统中；并且将IDF与词典对应存储；

所述的识别方法包括如下步骤：

步骤1：终端采集当前场景的待识别图像以及GPS信息；

步骤2：提取所述待识别图像的局部特征，并转化为描述符特征向量；

步骤3：将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件，发送给分布式处理系统；

步骤4：分布式处理系统中设有调度处理集群、多个计算节点和所述样本文件系统；调度处理集群接收到所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典、IDF和样本权值向量加载到各计算节点中，则将描述符文件发送给每个计算节点，然后执行步骤6；否则，执行步骤5；

所述相同或相似的匹配任务的查询标准为：如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值，则认为存在相同的匹配任务；

步骤5：调度处理集群为待识别图像加载相关的词典、IDF和样本权值向量：

以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的的词典、词典对应的IDF和筛选出区域内所有样本权值向量分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

步骤6：每个计算节点从描述符文件中解析出待匹配描述符特征向量；针对每个区域执行如下操作：利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，获得每个单词的词频TF统计向量，将TF统计向量与字典对应的IDF相乘，得到待匹配权值向量；再与载入的该区域的所有样本权值向量进行距离比较，找出距离最近的样本权值向量；

将各区域的匹配结果汇总到调度处理集群；

步骤7：调度处理集群统计各个计算节点的匹配结果，选出距离最近的样本权值向量，输出该样本权值向量对应的样本图像信息给终端。

当所述区域的划分为将室外建筑整体区划分为互不重叠的多个小区域，每4个上下左右相邻的小区域构成一个所述区域时，步骤5中，所述根据区域位置从样本文件系统中筛选出与该圆形相交的区域为：仅筛选出包含所述圆形的区域。

本发明还提供了一种基于分布式处理和倒排文件的室外大规模物体识别系统，包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端；分布式处理系统包括交换设备、调度处理集群、样本文件系统和至少2个计算节点；调度处理集群通过交换设备接入无线网络，并且与样本文件系统、所有的计算节点连接；

样本文件系统，用于存储词典、逆向文件频率IDF和样本权值向量；存储方式为：

所述终端，用于采集当前场景的待识别图像以及GPS信息，提取所述待识别图像的局部特征，并转换为描述符特征向量；将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件，发送给调度处理集群；

调度处理集群，用于在接收到来自终端的所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典、IDF和样本权值向量加载到各计算节点中，则将描述符文件发送给每个计算节点；否则，为匹配任务A加载相关的词典、IDF和样本权值向量；

所述为匹配任务A加载相关的词典、IDF和样本权值向量为：以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的词典、词典对应的IDF和筛选出区域内所有样本权值向量分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

计算节点，用于从描述符文件中解析出待匹配描述符特征向量；针对每个区域执行如下操作：利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，获得每个单词的词频TF统计向量，将TF统计向量与字典对应的IDF相乘，得到待匹配权值向量；再与载入的该区域的所有样本权值向量进行距离比较，找出距离最近的样本权值向量；将各区域的匹配结果汇总到调度处理集群；

调度处理集群进一步用于，统计各个计算节点的匹配结果，选出距离最近的样本权值向量，输出该样本权值向量对应的样本图像信息给终端。

有益效果：

本发明基于分布式系统和倒排文件的海量物体识别方法，使用成熟的分布式架构，实现基于视觉的增强现实，能够使用智能设备实时获取当前场景的视频帧，通过对视频帧图像的提取局部特征，通过TF-IDF模型进行权值向量计算和对比，实时准确地找出当前场景，最相似的样本权值向量，进而提供进一步的附加信息，扩展了智能终端的交互式应用，满足了旅游、导航、交通、酒店服务等在智能终端上的扩展应用，使网络运营商和内容提供商能够利用其丰富的服务器资源和优越的服务器性能发展其业务。

本发明在为当前任务加载词典和分类器时，根据GPS信息判断是否已经由类似或相同的任务，如果有，不需要再次加载，直接采用已经加载的词典和分类器即可，节省了加载数据的时间。

而且在记载词典和分类器时，根据GPS信息只加载一定范围内的词典和分类器，这样可以进一步缩小运算量。

此外，重叠的分区方法可以减少载入计算节点的词典和权值向量。

附图说明

图1示出了本发明的分布式系统与SVM分类器的海量物体识别原理图；

图2示出了本发明对城市区域划分的一种方式；

图3示出了本发明对城市区域划分的另一种方式；

图4(a)和图4(b)分别为本发明SVM分类器结构化存储示意图与非结构化存储示意图；

图5(a)和图5(b)分别为本发明区域词典结构化存储示意图与非结构化存储示意图；

图6为本发明识别系统的结构组成示意图。

具体实施方式

下面将结合附图对本发明的物体识别分析方法做详细描述。

本发明采用TF-IDF（词频-逆向文件频率）模型计算权值向量，根据权值向量进行图像匹配和识别。其中TF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。

权值向量是指TF与IDF的乘积。在一份给定的文件里，词频TF指的是某一个给定的词语在该文件中出现的次数处以该文件的总词语数。IDF是一个词语普遍重要性的度量，某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目，再对得到的商取对数得到。在某一特定文件内的高词语频率，以及该词语在整个文件集合的低文件频率，可以产生出高权重的TF-IDF，这就是倒排文件的原理。

图1示出了本发明的基于分布式系统和倒排文件的增强现实（AR）物体识别方法的原理图。如图1所示，实现该方法的系统包括分布式处理系统、无线网络、具有图像采集和GPS定位功能的终端。终端和分布式处理系统通过无线网络互通。分布式处理系统具体包括交换设备（网关）、调度处理集群（Master）、多个计算节点和样本数据系统。调度处理集群通过网关接入无线网络，并且与样本数据系统、所有的计算节点连接。

首先，预先进行室外区域的划分与样本数据训练。

其中，对城市的室外建筑区域进行区域划分的方式有两种：

方式一、没有重叠的区域划分

参见图2，将室外建筑区域划分为互不重叠的多个区域，每个区域的长M为10公里，宽N也为10公里，那么一面积1万平方公里的城市也顶多被划分成100个区域。

方式二、有重叠的区域划分

参见图3，先将室外建筑区域划分为互不重叠的小区域，每4个上下左右相邻的小区域构成一个区域，从而获得相互重叠的多个区域，完成了区域划分。设，每个小区域的长M和宽N各为10千米，那么，一面积1万平方公里的城市也顶多被划分成81个区域。

样本数据训练

针对每个区域，采集多幅样本图像，图像可以从实地拍摄，也可以从网络中获得；每幅图像提取特征点并转化为描述符，利用诸如k-means的聚类算法对一个区域内所有场景的所有描述符进行聚类，得到每个类别的聚类中心，每个聚类中心作为一个单词，一个区域内的所有单词形成一个词典，每个区域采用区域中心的GPS和四个角的GPS表示区域位置，那么每个词典对应一组区域位置信息，从而得到了带区域位置信息的词典，存储到样本文件系统中。

以区域为单位，根据TF-IDF模型，计算词典中每个单词的逆向文件频率IDF，并且针对区域内的每个样本图像采用词典计算每个单词在该样本图像中的词频TF；根据权值向量=TF×IDF计算每个样本图像的样本权值向量；将区域位置、样本权值向量和样本图像信息对应存储到样本文件系统中；并且将IDF与词典对应存储。

最终，在样本文件系统中存储如下信息：

（1）各区域的带区域位置信息的词典，以及各词典的IDF；

（2）每个区域中各样本图像的权值向量；存储时，样本图像所处的区域位置（5个GPS表示）、样本权值向量和样本图形信息对应存储；

（3）当然样本图像也可以存储在样本文件系统中，存储时，分区域存储。

基于上述系统和样本训练结果，识别的具体流程如下：

步骤1、用户打开终端的拍摄设备，终端采集当前场景的待识别图像；再调用终端的GPS传感器接口，获取当前位置的GPS信息。

步骤2：为了降低运算量，终端对采集到的待识别图像进行降采样处理（即降低分辨率），以降低图像分辨率；然后再采用局部特征检测算法（SIFT、SURF或ORB）进行特征点检测，以提取所述场景图像的局部特征，再用特征向量的形式表现，称为描述符特征向量。一幅图像可能有上百个描述符特征向量。

步骤3：将待识别图像的GPS信息以及全部描述符特征向量以及特征向量个数打包成一个描述符文件，GPS信息和特征向量个数放在文件的开头，特征向量个数便于接收端判断一个描述符文件是否接收完毕。然后将描述符文件通过无线网络发送给分布式处理系统。

步骤4：分布式处理系统中的调度处理集群通过网关接收到描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典、IDF和样本权值向量加载到各计算节点中，则将描述符文件发送给每个计算节点，然后执行步骤6；否则，执行步骤5；

其中，所述相同或相似的匹配任务的查询标准为：如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值，则认为存在相同的匹配任务。当前正在处理的匹配任务可以缓存在一个调度列表中以便查询。

步骤5：调度处理集群为匹配任务A加载相关的词典、IDF和样本权值向量：

以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的的词典、词典对应的IDF和筛选出区域内所有样本权值向量分摊加载到各个计算节点中，加载时以区域为单位；同时，调度处理集群还将描述符文件发送给每个计算节点；

其中筛选范围可以为10米、20米、30米、40米或50米，根据区域大小确定，本实施例中选择50米。

●当按无重叠的区域划分时，所述与圆形相交的区域包括“包含”和“相交”，即只要是与圆形有交点，就将该区域确定为与圆形相交。如果是包含只载入包含区域的一个词典；如果是相交可能有多个相交区域的词典、IDF和样本权值向量载入。为了避免过多的词典载入，在区域划分时，最好采用正方形区域，且令四个区域构成的大正方形的边长大于圆形的直径，这样保证相交时不会超过4个词典载入。

●当按有重叠的区域划分时，如区域采用正方形区域且四个区域构成的大正方形的边长大于圆形的直径，则圆形必然包含于一个区域内部，那么只用进行区域包含判定，总能找到包含该圆域的区域，将该区域的词典IDF和样本权值向量载入计算节点。

在实际软件计算时，为了方便计算，采用以所述圆形的直径为边的正方形代替圆形进行判定；当正方形存在部分角坐标点在区域包围的范围里面时，则判定该区域与圆形相交；而当正方形的四个角坐标点都在同一区域包围的范围里面时，则判定该区域与圆形相交，且圆形完全包含于该区域内。

计算公式如下：

设区域A的四点的GPS信息为(x1,y1)、(x1+1000,y1)、(x1,y1+1000)、(x1+1000,y1+1000)；查询图像的GPS位置信息为（c1,d1)，则正方形区域为（c1-50,d1-50)、（c1+50,d1-50)、（c1-50,d1+50)、（c1+50,d1+50)。

区域包含判定如公式（1）

(x1≤c1-50，c1+50≤x1+1000)∩(y1≤c1-50，c1+50≤y1+1000) (1)

区域相交判定如公式（2）

[(x1≤c1-50≤x1+1000)∩(y1≤d1≤y1+1000)]∪[(x1≤c1+50≤x1+1000)∩(y1≤d1-50≤y1+1000)]∪[(x1≤c1-50≤x1+1000)∩(y1≤d1+50≤y1+1000)]∪[(x1≤c1+50≤x1+1000)∩(y1≤d1+50≤y1+1000)]。

步骤6：每个计算节点从描述符文件中解析出待匹配描述符特征向量；针对每个区域执行如下操作：利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，获得每个单词的词频TF统计向量，将TF统计向量与字典对应的IDF相乘，得到待匹配权值向量；再与已经载入的该区域的所有样本权值向量进行距离比较，找出距离最近的样本权值向量；

每个区域都执行上述操作，将各区域的匹配结果汇总到调度处理集群。

步骤7：调度处理集群统计各个计算节点的匹配结果，选出距离最近的样本权值向量，由于样本特征向量是对应样本图像的，因此可以找到距离最近的样本权值向量对应的样本图像信息，发送给终端。

在分布式系统里面，除各个计算单元之间进行分布式计算意外，计算单元里面还可以进行并行计算。实验测试了权值向量计算和向量之间距离计算。1个词典包含5000个词汇，在四核的CPU2.8G，内存为8G的机器上，图像分辨率为320×240,计算权值向量，消耗时间为17ms左右，与1000个权值向量比较时间为5ms。

在上述流程中，涉及智能终端拍摄视频图像，处理并显示来自网络端的分布式系统服务器发送的返回结果，这些步骤在目前的智能终端上均已经广泛实施，这些已有实施方式均可用于本发明，且本发明的视频图像拍摄、处理并显示来自网络服务器端的数据不限于现有的方式。

在实际中，样本文件系统中的词典和SVM分类器可以采用结构化或非结构化方式存储。

●结构化存储：以记录的方式来存储，

如图4（a）所示，对于权值向量来说，一条记录对应一个权值向量；每条记录格式相同，包含：索引ID、图像ID、GPS信息（就是5个GPS组成的区域位置）、权值向量序号和样本权值向量。

如图5（a）所示，对于词典来说，一条记录对应一个单词；每条记录格式相同，包含：索引ID、区域ID、区域中心点GPS信息、区域四个角点GPS信息、单词序号和单词内容。词典的IDF可以单独存储，也可以作为一项存储在记录中。

对于结构化存储，较佳的加载方式为根据索引进行快速加载，因此在每条记录中增加了索引ID，其中索引ID的构建方式是常规技术手段，在识别前的准备阶段，在样本文件系统中存储索引表，该索引表记载了区域位置与记录存储位置的索引关系。在识别过程中，可以采用已有的数据库技术进行快速读取记录并加载到计算节点中，速度较快。

●非结构化存储：以文件块的方式来存储

如图4（b）所示，对于权值向量来说，一个区域对应一个文件块，文件块中记载了该区域的区域位置、图像数量、每个图像的图像ID、以及每个图像的权值向量。

如图5（b）所示，对于词典来说，可以用一个文件块来存储所有词典，那么该文件块记载了区域数量，每个区域的序号，区域中心GPS信息、四个角点GPS信息，每个区域对应词典的单词个数，单词内容。同样，词典的IDF可以单独存储，也可以存储在文件块中。

非结构化存储虽然不能建立记录的索引，但是可以建立文件块的索引，因此其也可以通过文件索引快速载入词典和分类器到运算节点。

由以上描述可见，本发明系统中各模块的功能总结如下：

调度处理集群，用于在接收到所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，按照前述查询标准查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典、IDF和样本权值向量加载到各计算节点中，则将描述符文件发送给每个计算节点；否则，为匹配任务A加载相关的词典、IDF和样本权值向量；其中，为匹配任务A即待识别图像加载相关的词典、IDF和样本权值向量的具体方式与方法流程中的描述相同，这里不赘述。

优选地，终端在提取所述待识别图像的局部特征之前，进一步对所述待识别图像进行降采样处理，以降低图像分辨率。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式处理和倒排文件的室外大规模物体识别方法，其特征在于，该方法包括：

所述的识别方法包括如下步骤：

步骤1：终端采集当前场景的待识别图像以及GPS信息；

以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的词典、词典对应的IDF和筛选出区域内所有样本权值向量分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

将各区域的匹配结果汇总到调度处理集群；

2.如权利要求1所述的方法，其特征在于，所述区域的划分为：将室外建筑整体区划分为互不重叠的多个小区域，每4个上下左右相邻的小区域构成一个所述区域；

步骤5中，所述根据区域位置从样本文件系统中筛选出与该圆形相交的区域为：筛选出包含所述圆形的区域。

3.如权利要求1所述的方法，其特征在于，在步骤5中判断圆形与区域的相交关系时，判断方式为：

采用以所述圆形的直径为边的正方形代替圆形进行判定；

当正方形存在部分角坐标点在区域包围的范围里面时，则判定该区域与圆形相交，但圆形至少同时与2个区域相交；

当正方形的四个角坐标点都在区域包围的范围里面时，则判定该区域与圆形相交，且圆形完全包含于该区域内。

4.如权利要求1所述的方法，其特征在于，步骤2中，在提取所述待识别图像的局部特征之前，进一步对所述待识别图像进行降采样处理，以降低图像分辨率。

5.一种基于分布式处理和倒排文件的室外大规模物体识别系统，其特征在于，包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端；分布式处理系统包括交换设备、调度处理集群、样本文件系统和至少2个计算节点；调度处理集群通过交换设备接入无线网络，并且与样本文件系统、所有的计算节点连接；

6.如权利要求5所述的系统，其特征在于，所述终端进一步用于，在提取所述待识别图像的局部特征之前，对所述待识别图像进行降采样处理。