CN102880879B

CN102880879B - 基于分布式和svm分类器的室外海量物体识别方法和系统

Info

Publication number: CN102880879B
Application number: CN201210292379.9A
Authority: CN
Inventors: 王涌天; 桂振文; 刘越; 陈靖
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-08-16
Filing date: 2012-08-16
Publication date: 2015-04-22
Anticipated expiration: 2032-08-16
Also published as: CN102880879A

Abstract

本发明公开了一种基于分布式处理和SVM分类器的室外海量物体识别方案，该方案预先对城市版图进行区域划分，在每个区域中对各场景进行图像采集，并训练区域的词典和场景的SVM分类器；识别时，终端将拍摄的图像和当前GPS信息打包发送给调度处理集群；调度处理集群根据GPS信息判断与待识别图像相关的词典和分类器是否已经加载到计算节点，如果没有，再确定加载范围，将范围内的词典和分类器分摊加载到计算节点；计算节点利用词典得到待识别图像的统计直方图向量，再用SVM进行打分；所有计算节点打分最高的SVM对应的场景最后识别结果，反馈给终端。使用本发明能够实现智能终端的大规模图像识别和检索，而且减少了数据运算量，提高了图像识别和检索的速度。

Description

基于分布式和SVM分类器的室外海量物体识别方法和系统

技术领域

本发明属于移动增强现实技术领域，具体涉及一种基于分布式处理和SVM分类器的室外海量物体识别方法和系统。

背景技术

在近几年，将图像内容表示为特定“视觉单词”出现次数直方图的Bag-of-words模型,展示了其在图像内容分类方面的强大优势，在通过SVM分类器进行学习，能实现高精度的图像识别。物体识别的本质就是建立一个能够识别出图像中感兴趣物体类别的计算系统，在现实生活中有着广泛的应用需求，具有相当高的应用价值和研究意义。

随着互联网的发展，人类正在步入一个信息化的社会，互联网已经成为人类发布、获取、交换信息的重要平台。互联网上信息量的指数级增长，使得如何让用户能够快速准确地在海量的数据中找到其所需信息成为了一个重要的课题。近些年来，随着数字摄影和存储设备的进步和普及，室外的图像数量在互联网上的飞速增长，也已经达到成千上万了。如何有效的利用这些数据信息，给当前处于相同位置的用户提供这些已有的信息，是商业界和学术界的一个重要研究方向。然而，随着图像库规模的极大增长，要保证图像搜索的实时性，相应的数据库索引技术和图像检索技术也必须做相应的调整或加速。

同时计算机软、硬件技术的迅猛发展，为增强现实技术走出室内应用进而支持复杂的分析、决策和管理打下了坚实的基础。一些移动终端设备(像PDA、智能手机等)的功能也越来越丰富，并且拥有了嵌入式操作系统、触摸屏、GPS定位、视频摄像头等功能，同时也具备了较强的计算和处理能力。这些功能的集成为开发基于移动终端的增强现实系统奠定了基础。据有关资料，截止到2010年我国移动电话用户可达7.4亿，其中拥有智能手机的用户占了相当的比重，智能手机作为增强现实的应用平台将具有很大的应用潜力。3G网的逐步开通、运行，意味着移动增值业务全新时代的开始，增强现实技术和LBS相结合可以实现信息的实时交互、三维动态显示，可使人机界面更加友好和具有智能性。

基于上述分析，结合具有摄像头的终端以及基于视觉单词的图像识别技术，可以将海量物体的在线识别变为可能，而且结合分布式处理技术可以大大缩短在线识别时间。

发明内容

有鉴于此，本发明提供一种基于分布式处理和SVM分类器的室外海量物体识别方案，该方案将分布式处理技术与计算机视觉技术相结合使智能终端具备大规模图像的识别功能，实现智能终端的大规模图像识别和检索，进而实现移动增强现实的多种应用。而且，本发明利用GPS信息缩小数据匹配范围，减少了数据运算量，从而进一步提高了图像识别和检索的速度，实现了在线实时的室外海量物体识别。

该方案是这样实现的：

一种基于分布式处理和SVM分类器的室外海量物体识别方法，该方法包括：

将室外建筑整体区划分为多个矩形的区域；针对每个区域，选取多个场景，为每个场景采集多幅图像，从每幅图像中提取特征点并转化为描述符，利用聚类算法对一个区域内所有场景的所有描述符进行聚类，每个聚类中心作为一个单词，一个区域内的所有单词形成一个词典；每个区域采用区域中心处GPS信息和四个角的GPS信息表示区域位置，存储带区域位置的词典到样本文件系统中；

以区域为单位，对区域内每个场景所有图像的描述符进行训练，形成一个支持向量机SVM分类器，一个场景对应一个分类器；将区域位置、SVM分类器和场景信息对应存储到样本文件系统中；

所述的识别方法包括如下步骤：

步骤1：终端采集当前场景的待识别图像以及GPS信息；

步骤2：提取所述待识别图像的局部特征，并转化为描述符特征向量；

步骤3：将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件，发送给分布式处理系统；

步骤4：分布式处理系统中设有调度处理集群、多个计算节点和所述样本文件系统；调度处理集群接收到所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典和SVM分类器加载到各计算节点中，则将描述符文件发送给每个计算节点，然后执行步骤6；否则，执行步骤5；

所述相同或相似的匹配任务的查询标准为：如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值，则认为存在相同的匹配任务；

步骤5：调度处理集群为匹配任务A加载相关的词典和SVM分类器：

以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的词典和区域内所有SVM分类器分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

步骤6：每个计算节点从描述符文件中解析出待匹配描述符特征向量；针对每个区域，利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，并对每个单词的出现频率进行统计，得到统计直方图向量；再将统计直方图向量输入该区域对应所有SVM分类器进行打分，找出分数最高的SVM分类器；

将各区域的匹配结果汇总到调度处理集群；

步骤7：调度处理集群统计各个计算节点的匹配结果，选出打分最高的SVM分类器，输出该SVM分类器对应的场景信息给终端。

当所述区域的划分为将室外建筑整体区划分为互不重叠的多个小区域，每4个上下左右相邻的小区域构成一个所述区域时，步骤5中，所述根据区域位置从样本文件系统中筛选出与该圆形相交的区域为：仅筛选出包含所述圆形的区域。

本发明还提供了一种基于分布式处理和SVM分类器的室外海量物体识别系统，其特征在于，包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端；分布式处理系统包括交换设备、调度处理集群、样本文件系统和至少2个计算节点；调度处理集群通过交换设备接入无线网络，并且与样本文件系统、所有的计算节点连接；

样本文件系统，用于存储词典和SVM分类器；存储方式为：

所述终端，用于采集当前场景的待识别图像以及GPS信息，提取所述待识别图像的局部特征，并转换为描述符特征向量；将待识别图像的GPS信息以及描述符特征向量打包成一个描述符文件，发送给调度处理集群；

调度处理集群，用于在接收到来自终端的所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典和SVM分类器加载到各计算节点中，则将描述符文件发送给每个计算节点；否则，为匹配任务A加载相关的词典和SVM分类器；

所述为匹配任务A加载相关的词典和SVM分类器为：以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的词典和区域内所有SVM分类器分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

计算节点，用于从描述符文件中解析出待匹配描述符特征向量；针对每个区域，利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，并对每个单词的出现频率进行统计，得到统计直方图向量；再将统计直方图向量输入该区域对应所有SVM分类器进行打分，找出分数最高的SVM分类器；将各区域的匹配结果汇总到调度处理集群；

调度处理集群进一步用于，统计各个计算节点的匹配结果，选出打分最高的SVM分类器，输出该SVM分类器对应的场景信息给终端。

有益效果：

本发明基于分布式系统和SVM分类器的海量物体识别方法，使用成熟的分布式架构，实现基于视觉的增强现实，能够使用智能设备实时获取当前场景的视频帧，通过对视频帧图像的提取局部特征，再用Bag of word模型进行直方图计算和SVM分类器进行分类，实时准确地找出当前场景属于的样本场景的哪一类，进而提供进一步的附加信息，扩展了智能终端的交互式应用，满足了旅游、导航、交通、酒店服务等在智能终端上的扩展应用，使网络运营商和内容提供商能够利用其丰富的服务器资源和优越的服务器性能发展其业务。

本发明在为当前任务加载词典和分类器时，根据GPS信息判断是否已经由类似或相同的任务，如果有，不需要再次加载，直接采用已经加载的词典和分类器即可，节省了加载数据的时间。

而且在记载词典和分类器时，根据GPS信息只加载一定范围内的词典和分类器，这样可以进一步缩小运算量。

此外，重叠的分区方法可以减少载入计算节点的词典和SVM分类器。

附图说明

图1示出了本发明的物体基于bag of words表示模型的视觉直方图；

图2(a)示出了本发明对城市区域划分的一种方式；

图2(b)示出了本发明对城市区域划分的另一种方式；

图3示出了本发明的分布式系统与SVM分类器的海量物体识别原理图；

图4(a)和图4(b)分别为本发明SVM分类器结构化存储示意图与非结构化存储示意图；

图5(a)和图5(b)分别为本发明区域词典结构化存储示意图与非结构化存储示意图；

图6为本发明识别系统的结构组成示意图。

具体实施方式

下面将结合附图对本发明的物体识别分析方法做详细描述。

首先介绍一下Bag of Words算法，也称词袋算法，其认为一幅图像由若干个识别单词组成，提取图片中的若干描述符，经例如k-means的聚类算法对描述符进行聚类，便可以得到每个类别的聚类中心，每个聚类中心为一个单词，所有聚类中心便成为词典(视觉词汇表)。根据单词与词典的关系生成一幅图片的视觉单词直方图，如图1所示，可以有效地实现物体的识别分类。

图3示出了本发明的基于分布式系统和SVM分类器的海量物体识别方法的原理图。图6为本发明识别系统的结构组成示意图；如图3和图6所示，实现该方法的系统包括分布式处理系统、无线网络、具有图像采集和GPS定位功能的终端。终端和分布式处理系统通过无线网络互通。分布式处理系统具体包括交换设备(网关)、调度处理集群(Master)、多个计算节点和样本文件系统。调度处理集群通过网关接入无线网络，并且与样本文件系统、所有的计算节点连接。

首先，预先进行室外区域的划分与样本数据训练。

其中，对城市的室外建筑区域进行区域划分的方式有两种：

方式一、没有重叠的区域划分

参见图2(a)，将室外建筑区域划分为互不重叠的多个区域，每个区域的长M为10公里，宽N也为10公里，那么一面积1万平方公里的城市也顶多被划分成100个区域。

方式二、有重叠的区域划分

参见图2(b)，先将室外建筑区域划分为互不重叠的小区域，每4个上下左右相邻的小区域构成一个区域，从而获得相互重叠的多个区域，完成了区域划分。设，每个小区域的长M和宽N各为10千米，那么，一面积1万平方公里的城市也顶多被划分成81个区域。

样本数据训练

针对每个区域，选取多个场景，为每个场景采集多幅图像，图像可以从实地拍摄，也可以从网络中获得；每幅图像提取特征点并转化为描述符，利用诸如k-means的聚类算法对一个区域内所有场景的所有描述符进行聚类，得到每个类别的聚类中心，每个聚类中心作为一个单词，一个区域内的所有单词形成一个词典，每个区域采用区域中心的GPS和四个角的GPS表示区域位置，那么每个词典对应一组区域位置信息，从而得到了带区域位置信息的词典。

以区域为单位，对区域内每个场景所有图像的描述符进行训练，形成一个支持向量机SVM分类器，一个场景对应一个分类器。

最终，在样本文件系统中存储如下信息：

(1)各区域的带区域位置信息的词典；

(2)每个区域中各场景的SVM分类器；存储时，区域位置(5个GPS表示)、SVM分类器和场景信息对应存储。

(3)当然样本图像也可以存储在样本文件系统中，存储时，分区域存储。

基于上述系统和样本训练结果，识别的具体流程如下：

步骤1、用户打开终端的拍摄设备，终端采集当前场景的待识别图像；再调用终端的GPS传感器接口，获取当前位置的GPS信息。

步骤2：为了降低运算量，终端对采集到的待识别图像进行降采样处理(即降低分辨率)，以降低图像分辨率；然后再采用局部特征检测算法(SIFT、SURF或ORB)进行特征点检测，以提取所述场景图像的局部特征，再用特征向量的形式表现，称为描述符特征向量。一幅图像可能有上百个描述符特征向量。

步骤3：将待识别图像的GPS信息以及全部描述符特征向量以及特征向量个数打包成一个描述符文件，GPS信息和特征向量个数放在文件的开头，特征向量个数便于接收端判断一个描述符文件是否接收完毕。然后将描述符文件通过无线网络发送给分布式处理系统。

步骤4：分布式处理系统中的调度处理集群通过网关接收到描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典和SVM分类器加载到各计算节点中，则将描述符文件发送给每个计算节点，然后执行步骤6；否则，执行步骤5；

其中，所述相同或相似的匹配任务的查询标准为：如果当前正在处理的匹配任务对应的GPS信息与待识别图像的GPS信息一致或者相差一个预设阈值，则认为存在相同的匹配任务。当前正在处理的匹配任务可以缓存在一个调度列表中以便查询。

调度处理集群以待识别图像的GPS信息为圆心，按照预先设定的筛选半径确定一个圆形，根据区域位置从样本文件系统中筛选出与该圆形相交的区域，将筛选出区域的词典和区域内所有SVM分类器以区域为单位分摊加载到各个计算节点中；同时，调度处理集群还将描述符文件发送给每个计算节点；

其中筛选范围可以为10米、20米、30米、40米或50米，根据区域大小确定，本实施例中选择50米。

●当按无重叠的区域划分时，所述与圆形相交的区域包括“包含”和“相交”，即只要是与圆形有交点，就将该区域确定为与圆形相交。如果是包含只载入包含区域的一个词典；如果是相交可能有多个相交区域的词典载入。为了避免过多的词典载入，在区域划分时，最好采用正方形区域，且令四个区域构成的大正方形的边长大于圆形的直径，这样保证相交时不会超过4个词典载入。

●当按有重叠的区域划分时，如区域采用正方形区域且四个区域构成的大正方形的边长大于圆形的直径，则圆形必然包含于一个区域内部，那么只用进行区域包含判定，总能找到包含该圆域的区域，将该区域的词典和分类器载入计算节点。

在实际软件计算时，为了方便计算，采用以所述圆形的直径为边的正方形代替圆形进行判定；当正方形存在部分角坐标点在区域包围的范围里面时，则判定该区域与圆形相交；而当正方形的四个角坐标点都在同一区域包围的范围里面时，则判定该区域与圆形相交，且圆形完全包含于该区域内。

计算公式如下：

设区域A的四点的GPS信息为(x1,y1)、(x1+1000,y1)、(x1,y1+1000)、(x1+1000,y1+1000)；查询图像的GPS位置信息为(c1,d1)，则正方形区域为(c1-50,d1-50)、(c1+50,d1-50)、(c1-50,d1+50)、(c1+50,d1+50)。

区域包含判定如公式(1)

(x1≤c1-50，c1+50≤x1+1000)∩(y1≤c1-50，c1+50≤y1+1000) (1)

区域相交判定如公式(2)

[(x1≤c1-50≤x1+1000)∩(y1≤d1≤y1+1000)]∪[(x1≤c1+50≤x1+1000)∩(y1≤d1-50≤y1+1000)]∪[(x1≤c1-50≤x1+1000)∩(y1≤d1+50≤y1+1000)]∪[(x1≤c1+50≤x1+1000)∩(y1≤d1+50≤y1+1000)]

步骤6：每个计算节点从描述符文件中解析出待匹配描述符特征向量；针对每个区域，利用距离关系查找每个待匹配描述符特征向量在词典中对应的单词，并对每个单词的出现频率进行统计，得到统计直方图向量；再将统计直方图向量输入该区域对应所有SVM分类器进行打分，常分类器通过输出分值，代表查询图像与分类器代表的场景的相似程度，分数越高代表相似程度越高，找出分数最高的SVM分类器；

针对每个区域都执行上述统计直方图向量求取和SVM分类器打分的操作，将各区域的匹配结果汇总到调度处理集群；

步骤7：调度处理集群统计各个计算节点的匹配结果，选出打分最高的SVM分类器，输出该SVM分类器对应的场景信息，该场景信息就是当前匹配任务的匹配结果。此后，终端可以显示上述识别结果，用户可以点击上述分类结果，查看详细信息。

在分布式系统里面，除各个计算单元之间进行分布式计算意外，计算单元里面还可以进行并行计算。实验测试了1000个场景对应1000个分类器，1个词典包含5000个词汇，在四核的CPU2.8G，内存为8G的机器上，图像分辨率为320×240,计算直方图向量，消耗时间为26ms左右，1000个分类器分类时间为1S。

在上述流程中，涉及智能终端拍摄视频图像，处理并显示来自网络端的分布式系统服务器发送的返回结果，这些步骤在目前的智能终端上均已经广泛实施，这些已有实施方式均可用于本发明，且本发明的视频图像拍摄、处理并显示来自网络服务器端的数据不限于现有的方式。

在实际中，样本文件系统中的词典和SVM分类器可以采用结构化或非结构化方式存储。

●结构化存储：以记录的方式来存储，

如图4(a)所示，对于SVM分类器来说，一条记录对应一个SVM分类器；每条记录格式相同，包含：索引ID、场景ID、GPS信息(就是5个GPS组成的区域位置)、分类器序号和SVM分类器。

如图5(a)所示，对于词典来说，一条记录对应一个单词；每条记录格式相同，包含：索引ID、区域ID、区域中心点GPS信息、区域四个角点GPS信息、单词序号和单词内容。

对于结构化存储，较佳的加载方式为根据索引进行快速加载，因此在每条记录中增加了索引ID，其中索引ID的构建方式是常规技术手段，在识别前的准备阶段，在样本文件系统中存储索引表，该索引表记载了区域位置与记录存储位置的索引关系。在识别过程中，可以采用已有的数据库技术进行快速读取记录并加载到计算节点中，速度较快。

●非结构化存储：以文件块的方式来存储

如图4(b)所示，对于SVM分类器来说，一个区域对应一个文件块，文件块中记载了该区域的区域位置、场景数量、每个场景的场景ID、每个场景的SVM分类器数量，以及每个SVM分类器内容。

如图5(b)所示，对于词典来说，可以用一个文件块来存储所有词典，那么该文件块记载了区域数量，每个区域的序号，区域中心GPS信息、四个角点GPS信息，每个区域对应词典的单词个数，单词内容。

非结构化存储虽然不能建立记录的索引，但是可以建立文件块的索引，因此其也可以通过文件索引快速载入词典和分类器到运算节点。

由以上描述可见，本发明系统中各模块的功能总结如下：

样本文件系统，用于存储词典和SVM分类器；存储方式为：

调度处理集群，用于在接收到所述描述符文件后，为所述终端建立一个新的匹配任务A，从该描述符文件中提取GPS信息作为匹配任务A的标识，按照前述查询标准查询当前正在处理的匹配任务中是否存在与匹配任务A相同或相似的匹配任务，如果是，说明已经将与待识别图像相关的词典和SVM分类器加载到各计算节点中，则将描述符文件发送给每个计算节点；否则，为匹配任务A加载相关的词典和SVM分类器；其中，为匹配任务A即待识别图像加载相关的词典和SVM分类器的具体方式与方法流程中的描述相同，这里不赘述。

优选地，终端在提取所述待识别图像的局部特征之前，进一步对所述待识别图像进行降采样处理，以降低图像分辨率。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式处理和SVM分类器的室外海量物体识别方法，其特征在于，该方法包括：

所述的识别方法包括如下步骤：

步骤1：终端采集当前场景的待识别图像以及GPS信息；

将各区域的匹配结果汇总到调度处理集群；

2.如权利要求1所述的方法，其特征在于，所述区域的划分为：将室外建筑整体区划分为互不重叠的多个小区域，每4个上下左右相邻的小区域构成一个所述区域；

步骤5中，所述根据区域位置从样本文件系统中筛选出与该圆形相交的区域为：筛选出包含所述圆形的区域。

3.如权利要求1或2所述的方法，其特征在于，在步骤5中判断圆形与区域的相交关系时，判断方式为：

采用以所述圆形的直径为边的正方形代替圆形进行判定；

当正方形存在部分角坐标点在区域包围的范围里面时，则判定该区域与圆形相交，但圆形至少同时与2个区域相交；

当正方形的四个角坐标点都在同一区域包围的范围里面时，则判定该区域与圆形相交，且圆形完全包含于该区域内。

4.如权利要求1所述的方法，其特征在于，步骤2中，在提取所述待识别图像的局部特征之前，进一步对所述待识别图像进行降采样处理，以降低图像分辨率。

5.一种基于分布式处理和SVM分类器的室外海量物体识别系统，其特征在于，包括分布式处理系统、无线网络和具有图像采集和GPS定位功能的终端；分布式处理系统包括交换设备、调度处理集群、样本文件系统和至少2个计算节点；调度处理集群通过交换设备接入无线网络，并且与样本文件系统、所有的计算节点连接；

样本文件系统，用于存储词典和SVM分类器；存储方式为：

6.如权利要求5所述的系统，其特征在于，所述终端进一步用于，在提取所述待识别图像的局部特征之前，对所述待识别图像进行降采样处理。