CN107967473A

CN107967473A - 基于图文识别和语义的机器人自主定位和导航

Info

Publication number: CN107967473A
Application number: CN201610912309.7A
Authority: CN
Inventors: 王庆文
Original assignee: Nanjing Million Cloud Information Technology Co Ltd
Current assignee: Nanjing Million Cloud Information Technology Co Ltd
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2018-04-27
Anticipated expiration: 2036-10-20
Also published as: CN107967473B

Abstract

本发明涉及移动智能设备如服务机器人、无人机、自动导引小车、室内三维建模设备的自主定位和导航，相对于现有系统，它引入了对于室内标志的图文识别以及语义绑定，其特点：(1)相对于激光雷达或者视觉识别的路标，图文识别所识别的结果精确度高；(2)只需添加一个摄像头，成本和重量都比较低；(3)有效消弭传感器(IMU、激光雷达、视觉等)的累积误差，并提高回路检测的准确性；(4)结合图文识别，整体上提高了机器人定位和导航的精度，使得机器人的商用成为可能；(5)利用本发明的方法所提供的工具软件，结合图文识别的结果，通过人工绑定，为环境地图赋予语义信息，可以促进人机沟通，帮助机器人完成高级的任务。

Description

基于图文识别和语义的机器人自主定位和导航

技术领域

本发明涉及移动智能设备如服务机器人、无人机、自动导引小车、室内三维建模设备等自主定位和导航的领域，特别是涉及室内没有GPS信号的情况下的智能移动设备的定位和导航，这种定位和导航无需事先提供环境的平面图，无需在室内部署无线网络如UWB、ZIGBEE网络等。

背景技术

对于高精度定位的需求，来自于如火如荼、迅猛发展的机器人领域以及可穿戴设备领域，比如机器人包括家政机器人、扫地机器人、物流机器人，相对于人类的定位来说，定位对于这些设备是刚需，并且应用场景的多样性，不能采用特别的设备如UWB基站和天线的方式实现；对于机器人，虽然目前有基于轨道、磁贴或者人工遥控等方式的定位方案，但是都不属于自主导航，轨道部署成本高，而磁贴具有容易消磁、部署不方便等缺点。

服务机器人大部分时间呆在室内，在一个陌生的大型室内环境如医院、展览馆、火车站、航站楼、停车场等，常常有快速室内定位和导航的需求，所以室内的定位就非常有市场前景和应用价值。由于各种大型商场大型场馆越来越多，而GPS因为定位信号到达地面时较弱，不能穿透建筑物，同时又受到定位器终端的成本较高等原因的限制，因此，依靠GPS技术无法完成服务机器人的室内精确定位。

定位和导航是移动机器人要解决的三个基本问题之一。虽然GPS已能提供高精度的全局定位，但其应用具有一定局限性。例如在室内GPS信号很弱；在复杂的城区环境中常常由于GPS信号被遮挡、多径效应等原因造成定位精度下降、位置丢失；而在军事应用中，GPS信号还常受到敌军的干扰等。因此，不依赖GPS的定位技术在机器人领域具有广阔的应用前景。

机器人的定位和路径规划在技术上属于同步定位和成图领域(SLAM：Simultaneous Localization And Mapping)，以下简称SLAM，这是本发明设计适用的重点领域。

一般的SLAM系统包括前端子系统和后端子系统。前端收集传感器数据并进行特征提取和数据关联，其中数据关联包括短时的特征匹配和跟踪，长时的数据关联指回路检测；后端子系统主要通过滤波或者非线性优化的方法计算环境地图和机器人的位置，并根据环境地图和机器人的位置进行路径规划、空间巡游(搜索)等人类交给的任务。

目前机器人SLAM系统中用到的传感器主要包括：激光雷达、视觉(单目、双目、深度摄像头等)、惯性传感器(IMU)等。

后端子系统中常用的几种定位和导航的技术，简单描述如下：

在机器人SLAM方法中，基于扩展卡尔曼滤波的SLAM算法应用最广，许多算法就是在此基础上发展起来的，比如Shojaie等人提出了IEKF(Iterated Extended KalmanFilter)和ISPKF(Iterated Sigma Point Kalman Filter)，不过还有待进一步验证在真实环境中的性能。顾照鹏等人利用惯性传感器输出的俯仰角和横滚角进行系统标定，利用扩展卡尔曼滤波器将偏航角作为一个系统状态向量的分量实时地估计状态向量，提出了一种基于惯性传感器俯仰角和横滚角的SLAM方法。

Thrun等将地图创建转化为概率约束条件下的最大相似度估计问题，提出了基于EM(Expectation Maximization)模型的SLAM算法。基于EM模型的SLAM算法提高了算法的收敛，对数据关联准确性的依赖程度减轻了。基于EM模型的SLAM算法的主要缺点是容易陷入局部最小值，计算量大，不利于在大规模环境中的应用，不过它仍然可能会成为SLAM的一个重要研究方向。

Murphy等人为了降低计算复杂度将全状态滤波器分解，提出了Rao-Blackwellised粒子滤波器，由此使用粒子滤波器解决SLAM问题成为可能。Montemerlo等在此基础上将SLAM问题分解成机器人定位和环境特征位置估计，提出了FastSLAM算法。FastSLAM算法中，路径的估计用粒子滤波器实现，环境特征的位置估计用EKF实现，每一个EKF对应一个环境特征。FastSLAM算法融合了概率方法和EKF算法的优点，降低了计算的复杂度，有较好的鲁棒性。。

目前许多SLAM的方法和系统，比如FastSLAM算法以及传统的单目视觉同步定位与地图创建(MonoSLAM)方法除了各自的问题外，一个共同的问题是大多针对静态环境，对于比如有人走动或者家具移动的环境就力不从心了。显然对于这种动态环境的支持是非常有必要的，如在商场迎宾或者导引、在博物馆导引、几个月甚至几年在水下自动收集数据的机器人，必须能够知道自己的位置、并在环境变化时候自动更新地图、并对错误有一定的鲁棒性或者能从错误中自动恢复。

近年来，利用非线性优化的方法，把一系列的机器人pose作为优化对象进行机器人姿态和轨迹优化的fullSLAM方法占据了主导地位。不同于滤波算法针对机器人的特定位置(Pose)来计算其位置的后验概率，smoothing是基于机器人的整个轨迹，这样做的好处是可以回溯和容错，例如数据关联中如果发现先前的测量和关联有错误，则简单的把错误的测量及关联去掉就可以了，然后基于新的测量重新更新机器人的轨迹；同时，基于平滑的方法保持了问题的稀疏性，计算量小于基于粒子滤波的方法，也克服了粒子滤波中粒子退化等问题。

目前比较有代表性的SLAM开源系统有基于滤波算法的fastSLAM系统，基于视觉的ORB-SLAM，OKViS，LSD-SLAM，SVO-SLAM，monoSLAM，PTAM等等。

在基于视觉或者激光雷达的SLAM系统中，由于传感器的误差累积以及视觉图像匹配中的误差累积，往往造成机器人位置和轨迹的漂移，使得机器人移动较短时间以后或者移动较小区域以后误差就已经不能支持其自主导航和导航了。在SLAM中，为了克服这一问题，提供了回路检测(loop closure)技术来克服环境复杂性及传感器误差累积导致的定位无效，但是，其一机器人不一定要走封闭的路线，其二机器人不一定能够在有效的回路检测之前保持一定的定位有效性(也就是还没有到回路检测就已经“走飞”了)。

发明内容

为了克服上述问题，技术上有两个方向：要么提高特征提取(featureextraction)及匹配(feature match)的准确度，要么提高loop closure的准确度和成功率，目前这两方面都没有很成熟的方案。本发明提出了一种创新的基于图文识别的方案，来提高环境特征提取的可靠性以及回路检测的可靠性。它可以有效检测环境中的有效标识，从而帮助机器人准确“记忆”环境，不至于迷失自我，即便没有回路检测，也可以大大提高机器人定位和导航的有效性。同时由于图文识别是计算机视觉领域比较成熟的技术，算法有效性高，占用空间小，比较适合于机器人在线系统计算资源(CPU/GPU/内存等)有限的特点。

本发明充分利用了成熟的计算机图文识别技术，这种技术利用了机器学习的方案，先是取得大量的样本进行训练，使得计算机学会识别大量的图文信息。人类社会中室内环境如楼堂馆所等，存在着大量的图文信息，如火车站、机场航站楼、办公楼里面的房间名称、标号、行走箭头等(如图所示)。从图文识别的角度和需求，需要大量的这种标识来训练算法。而对于文字，由于样本容易获得，近年来文字识别的成功率已经大大提高，可以达到99％以上。不仅可以识别中文，还可以识别英文、少数民族文字。

这里的图文信息可以分为两类，一类是只用于定位的标识信息，作为SLAM系统中的路标，系统不关心它的语义目的；第二类称为语义类，既把它作为位置识别的路标，又把识别出来的语义信息作为进一步可以利用的价值，如识别出的房间号或者名称(总经理室、第一会议室等)，可以存储下来作为环境信息的语义理解，未来在机器人执行机器人的任务时，给予机器人语义上的帮助，如“进入第一会议室，把投影仪打开”，机器人在接到人类的这一指令后，它会知道第一会议室的位置，并自行规划到“第一会议室”的路径。本发明同时支持上述两种图文信息的利用。

将上述图文识别和目前基于视觉或者激光雷达的SLAM算法结合：在特征提取时候作为置信度较高的特征与当前的位姿绑定，帮助机器人记忆当前位置，这一点不仅用于当前的位姿确定，还可以作为回路检测的有效方案。这里的算法可以是滤波算法，也可以是非线性优化算法。

本发明不但可以在没有地图的时候用来确定机器人的位置和轨迹；也可以在有地图的时候和地图绑定来更有效的确定机器人位置。

基于图文识别，还可以给予机器人语义的支持，帮助机器人完成人类赋予的任务。目前机器人定位和导航的结果还只是完成环境的感知以及基于对环境的感知而完成的机器人自身位置和轨迹的确定。环境感知的成果是“地图”，这种地图只是对于环境中可达区域以及不可达区域的区分，但是没有语义上的理解，比如，机器人通过激光雷达或者视觉探知到了一个花盆，它知道有一个圆柱形的障碍物，但是它不知道这个障碍物是“花盆”或者是一个圆柱形的“垃圾桶”，也就是它没有对于物体的“概念”或者“名称”，这样一来，机器人就很难与人类进行语义层面的沟通，还难以自动完成人类交代的语义任务。比如人类说“走到801会议室去”，机器人就根本不能知道801会议室是它所形成的环境地图的哪一部分。

基于图文识别的机器人识别，就可以容易解决上述问题，在室内环境中特别是办公环境中，往往每个房间都有门牌号或者房间名称，机器人识别以后，就可以把这些名称或号码与环境地图相对应，这样当人类再说“走到801会议室去”，机器人就根据图文识别以及与SLAM方案的结合，能知道801会议室是它所形成的环境地图的那一部分，从而能够达到801会议室。

在家庭环境中，即便没有房间名称或者房间号，也可以容易的张贴名称或者房间号来帮助机器人识别这些空间的语义信息。

本发明的目的是通过如下技术措施来实现的。

离线阶段：

获得大量的相关图片，主要包含各种室内路线指示标志，比如左转箭头、右转箭头、直行箭头等，把这些图片作为训练素材提供给计算机程序，通过机器学习的方式训练程序，以便在实时定位和导航中计算机程序能够识别这些标志。至于文字，由于现行的图文识别软件已经经过了大量的训练，可以直接识别而无需训练。

在线阶段：

通过视觉获取环境图文信息，并进行实时识别

为机器人配备摄像头(建议双目摄像头以提供深度信息，或者单目加深度摄像头)，按照一定的频率将视频信息截成一帧帧的图像(分辨率不低于640*480)，图文识别算法实时进行识别，建议采样频率为1HZ。本方法适合于激光雷达或者视觉，对于视觉传感器无需添加额外设备；如果激光雷达作为传感器，那么需要添加摄像头(建议双目摄像头，可以感知深度信息)；

将识别的图文信息与当前的SLAM算法结合，这个过程主要包括以下步骤：

(1)通过摄像头获取环境的图片信息(建议每秒至少一帧图像)；

(2)从图像中提取有标识意义的图文信息，并进行识别；

(3)将识别以后的图文信息作为路标(landmark)，进行非线性优化；

(4)系统实时将当前识别的图文信息与先前的缓存的图文信息进行匹配，结合先前的机器人位置，判定当前的图文为重复再现的图文信息，从而断定此为回路检测成立；

(5)根据回路检测的成立，矫正机器人位姿的误差；

(6)重复上述步骤(1)到(5)。

回路检测：根据slam估算的初步结果以及发现的重复的标志，判定机器人是重复进入某个区域，那么就可以进行回路检测确认，从而消弭累积的误差了。

语义结合：目前实现全自动的环境语义信息是不可能的，现实环境中也只有部分空间单元具有图文标识，本系统采取系统自动图文识别和人工干预相结合的方法生成语义地图。首现，系统需要将识别出的文字、号码、方向指示等记录在形成的地图中；其次，这种环境地图与图文绑定(binding)需要人工二次确认，也就是通过工具软件，人工确定系统所识别出的信息与实际的单元的对应，而对于本来没有标识的房间或者其他空间单元，由人工进行空间划分，并赋予其名称或者号码。

本发明与现有的机器人定位和导航方式相比其优点在于：

(1)由于图文识别是计算机视觉领域成熟的技术，相对于激光雷达或者视觉识别的其它路标，精确度高；

(2)成本低，相对于视觉定位，无需额外辅助设备，相对于激光雷达，只需添加一个摄像头，成本和重量都比较低；

(3)有效消弭传感器(IMU、激光雷达、视觉等)的累积误差；

(4)图文识别的结构具有语义，有较高的智能化，可以促进人机沟通，帮助机器人完成高级的任务；

(5)基于图文识别，整体上提高了机器人定位和导航的精度，使得机器人的商用成为可能；

(6)本发明提供工具软件，结合图文识别的结果，通过人工干预，为环境地图赋予语义信息。

附图说明

图1是本发明中所指的图文的示意图。

如图1所示，本发明的“图文”包括两部分，一部分是汉字、英文字母和数字或者它们的组合，如“总经理室”，“801房间”，“1Floor”；另一部分为简单的图形标志，如左转箭头、右转箭头等。

图2是机器人位姿图的示意图。

图2所示为机器人SLAM位姿图(Pose graph)，其中的白色圆圈为机器人位姿(X)和路标(L)，黑色圆圈为控制变量(U)和测量变量(Z)。

图3是激光雷达SLAM算法形成的占据栅格图(Occupancy Grid Map)。

图3中的白色区域为环境中的空白区，灰色或者黑色为不可达区，黑色直线为墙壁。

图4是通过人工标注形成的语义地图。

图4中黑色点画线为人工标注的单元分界线，电梯厅、走廊等为空间单元的命名。

具体实施方式

下面结合实施例对本发明作进一步的描述。

本发明设计的系统分为离线部分和在线系统。

离线部分：

主要是完成各种指示牌特别是室内方向指示牌、警告指示牌的采集，通过人工标注(labelled)，存储在数据库中，通过机器学习的方案使得算法记忆了这些指示牌的图形、图像特征以及语义信息。它包括：

1)采集：可以在网络上进行采集，也可以人工现场采集

2)标注：人工的方法标注所采集的指示牌的属性和语义，如方向指示牌的形状和意义，通行的标识以及禁止通行的标识等

3)训练：通过机器学习的方法使得算法获得这些指示牌的知识(属性、概念、语义等)

在线系统：

与文档的扫描件不同，图文识别所关注的部分，或者对于图文识别有意义的部分只是整个摄像头所获取的图形的一小部分，而且分辨率可能比较低，难以满足通常文字识别所需要的分辨率；同时，现场获取的图像在字体类型、大小、颜色、尺寸、比例等方面不一，由于相机的运动和聚焦问题造成的图像模糊和失真也给在线的图文识别造成了很大的挑战。所以为了满足准确率和实时性，本发明提供了一种鲁棒性、快速的图文识别方法；

1)针对机器人所获取的视频(以及截取的图像)分辨率低，难以有效的被用来识别有用的图文信息，本发明首先通过超分辨率算法把连续的几帧图像融合成一帧高分辨率图形，在合成的高分辨率图像上面进行下一步的图文区域的辨别；

2)通过针对极值区域ER(Extremal Region)算法有效减少了所要识别的图文区域的数量，从而减少了下一步OCR引擎所要处理的图文区域的数量，提高了识别的实时性；

3)将第2)步的处理结果，也就是一系列得可能的图文区域作为OCR系统的输入，OCR系统对照应用字典，给出识别的结果，如“洗手间”、“诊疗室”等等

4)将识别结果如上面的“诊疗室”等作为特殊的路标(landmark)，集成到SLAM的非线性优化模型中

5)将识别出来的单元名称(房间名称、厕所、会议室等)与相应的地图单元绑定，给地图单元加上语义标签，以方便人类给机器人定义任务，如“到会议室把空调打开”就是一个任务的例子

6)如果发现识别的文字或指示标志先前已经发现过，那么确认“回路检测”成立，基于回路检测进行误差消除

7)重复上述步骤1)-6)

针对上述步骤1)，采用基于重建的超分辨率算法进行低分辨率图像到高分辨率图像的合成：

1)利用SURF或者ORB进行特征点的匹配(SURF或者ORB是现有的特征点匹配算法)；

2)基于特征点的匹配获得不同图形之间的变换矩阵(transformation matrix)；

3)根据变换矩阵把不同的帧图像变换到同一个局部坐标系下；

4)利用最大后验概率算法MAP(Maximum a Posterior)融合上述多帧图像到一张高分辨率图像。下面公式中表示对目标高分辨率图像E的估计，也就是算法最终的输出结果。其中的先验概率项lnp(E)表示高分辨率图像E出现的先验概率，代表了对高分辨率图像的一种评价标准，以避免病态问题的出现。在MAP及相关的超分辨率方法中，体现高分辨率图像的先验知识的这一项lnp(E)，通常表达了对目标图像平滑程度的要求，使得结果图像具有比较强的空间连续性。

针对上述步骤2)：

为了描述方便，这里定义图像帧为I，深度信息为D，语义字典为L。

注：ER指的是图像上的一个区域R(Region)，它的边界外的像素δR的亮度值大于区域内的像素的亮度值，也就是对于任意的p∈R，q∈δR，有C(p)＜θ＜C(q)，其中C(p)，C(q)分别表示像素p、q的亮度值，θ表示区分ER和非ER区域的界限值。

算法过程：

输入：I、D、L

A)从图像中抽取ER

B)根据深度信息估计图像中每个像素的平面法向量

C)根据极值区域的经验准则Cer减少ER的数量

D)组合相邻的ER作为包含单词的区域，提供给OCR系统

E)OCR系统针对语义字典进行处理，得到识别的结果

上面步骤C)中的Cer准则是根据室内环境中文字及图形标识牌的一般规律总结的先验知识，比如这类图文标识一般出现在静态、竖直的墙壁上，具有一定的物理大小(不会覆盖整个墙壁或者门板等)，本方法规定的Cer准则包括：

A)对于英文字母或者汉语字母，每个ER包含的封闭区域少于3个，比如字母B包含2个封闭的区域(“洞”)

B)所有的图文标志都出现在竖直或者近乎竖直的平面上，如墙壁、门板、或者入口的屏风墙等

C)所有的图文标志的ER都不会超出一定的物理大小，如出现在门上的房间名称或者房间号其大小小于门的面积的十分之一

通过上述先验知识，可以有效地减少ER数量，提高系统效率。

针对上述步骤3)，参考图2：

定义X＝{x_i}为机器人在不同时刻i＝1，…，N的位姿，其控制变量为U＝{u_i}，那么机器人的移动模型为：

机器人在移动的过程中，会获得来自惯性传感器、视觉、激光雷达的测量数据，进而用测量模型：

如果把路标(landmark)变量考虑进来，测量模型可以写成：

求解SLAM问题的自然思路是求解包含所有变量的联合分布概率，通过概率密度函数p(X，Z，U)，把路标变量考虑进来，就是p(X，Z，L，U)，即求解：

采用非线性优化方法求解上述公式，就是求解变量X*，使得X*具有最大置信度：

求解(5)等同于求解

一般来说，所以公式(6)可以转化为下面的非线性优化问题：

其中函数f表示两个机器人位姿之间的约束，C是与约束相关联的成本函数(costfunction)，对于高斯误差分布，成本函数表现了两个机器人位姿之间的Mahalanobis距离。

本发明把所检测出来的文字和指示牌作为路标来处理，唯一不同的是这种“路标”与其它的路标的权重不同，也就是说，本发明第一次把这种特殊的“路标”给予了较高的置信度。通俗的将，也就是使得机器人更加依赖于这种信息作为其定位和导航的依据。

针对上述步骤4)，通过人工的方式进行机器人形成的地图的语义的绑定

在线阶段：

机器人图文识别以后，会将识别出来的文字和指示标志作为路标(landmark)保存在地图中，这种地图可以是占据栅格类型的，可以是基于特征的(feature based)，也可以是基于拓扑的类型。

本发明提供将上述地图类型转化为基于语义的地图的方法，这种方法是通过人工方式离线操作工具软件的形式来完成的：

离线阶段：

根据机器人形成的环境地图，通过人工标注，形成语义地图。

A)打开工具软件，载入机器人所形成的地图(一般为图形格式，如果不是图形格式，通过图形工具转化为图片)，如图3所示；

B)对于所有机器人给出的文字信息，如果是表示空间单元(房间、会议室、大堂、厕所、办公室等统称为空间单元)的，如“总经理室”等，人工标出这个单元与其他单元的分界线，一般是门的位置画出一条直线，并命名单元名称。注意：这里的命名一定要和机器人识别的结果一样；

C)对于机器人没有给出文字信息的空间单元，人工也要标注出这个单元与其它单元的分界线，并命名这个单元，如图4所示；

D)将人工处理的结果保存为特定的格式，如XML格式(仅仅以电梯厅为例)：

E)将XML格式的地图文件上载到机器人内存中，这时候的地图就是本发明所定义的语义地图。

下一次，当人类通过人机接口给机器人下达指令时，如“到会议室去录一段环境的视频”，机器人就可以根据人工标注形成的语义地图找到人类要他去的目的地，根据自身当前的位置进行路径规划，从而到达会议室并打开摄像头进行录像。

Claims

1.将室内的图文信息与当前的SLAM算法结合，提高特征识别的精确度以及回路检测的准确度，并根据识别的结果以及人工干预，赋予环境地图的语义信息，以方便人机交互，使得机器人更智能地完成人类交给的任务：

步骤a：通过摄像头获取环境的图片信息(建议每秒至少一帧图像)；

步骤b：从图像中提取有标识意义的包含图文信息的区域，并进行识别；

步骤c：将识别以后的图文信息作为路标(landmark)，进行非线性优化；

步骤d：系统实时将当前识别的图文信息与先前的缓存的图文信息进行匹配，结合先前的机器人位置，判定当前的图文为重复的图文信息，从而断定此为回路检测成立；

步骤e：根据回路检测的成立，矫正机器人位姿的误差；

步骤f：根据识别的结果，并通过人工干预，赋予环境地图以语义信息。

2.根据权利要求1步骤b所述的方法，其特征在于，从摄像头视频中截图，从所截取的图像中获取图文区域，并进行图文识别，包括：

步骤b11：针对机器人所获取的视频(以及截取的图像)分辨率低，难以有效的被用来识别有用的图文信息，本发明首先通过基于重建的超分辨率算法把连续的几帧低分辨率图像融合成一帧高分辨率图形：

4)利用最大后验概率算法MAP(Maximum a Posterior)融合上述多帧图像到一张高分辨率图像。下面公式中表示对目标高分辨率图像E的估计，也就是算法最终的输出结果。其中的先验概率项lnp(E)表示高分辨率图像E出现的先验概率，代表了对高分辨率图像的一种评价标准，以避免病态问题的出现。在MAP及相关的超分辨率方法中，体现加入的HR图像的先验知识的这一项lnp(E)，通常表达了对目标图像平滑程度的要求，使得结果图像具有比较强的空间连续性。

步骤b12：在合成的高分辨率图像上面，通过极值区域ER(Extremal Region)筛选方法有效减少所要识别的图文区域的数量，从而减少下一步OCR引擎所要处理的图文区域的数量，提高了识别的实时性；

算法过程：

输入：I、D、L

A)从图像中抽取ER

B)根据深度信息估计图像中每个像素的平面法向量

C)根据Cer准则减少ER的数量

D)组合相邻的ER作为包含单词的区域，提供给OCR系统

E)OCR系统针对语义字典进行处理，得到识别的结果

上面步骤C)中的Cer是根据室内环境中文字及图形标识牌的一般规律总结的先验知识，比如这类图文标识一般出现在静态、竖直的墙壁上，具有一定的物理大小(不会覆盖整个墙壁或者门板等)，本方法规定的Cer准则包括：

A)对于拼音文字，每个ER包含的封闭区域少于3个，比如字母B包含2个封闭的区域(“洞”)

步骤b13：将第二步的处理结果，也就是一系列得可能的图文区域作为OCR系统的输入，OCR系统对照应用字典，给出识别的结果，如“洗手间”、“诊疗室”等。

3.根据权利要求1步骤f所述的方法，其特征在于，根据机器人形成的环境地图，通过人工标注，形成语义地图。

步骤f11：打开工具软件，载入机器人所形成的地图(一般为图形格式，如果不是图形格式，通过图形工具转化为图片)；

步骤f12：对于所有机器人给出的文字信息，如果是表示空间单元(房间、会议室、大堂、厕所、办公室等统称为空间单元)的，如“总经理室”等，人工标出这个单元与其他单元的分界线，一般是门的位置画出一条直线，并命名单元名称。注意：这里的命名一定要和机器人识别的结果一样；

步骤f13：对于机器人没有给出文字信息的空间单元，人工也要标注出这个单元与其它单元的分界线，并命名这个单元；

步骤f14：将人工处理的结果保存为特定的格式，如XML格式(仅仅以电梯厅为例)：