CN109583457A

CN109583457A - 一种机器人定位与地图构建的方法及机器人

Info

Publication number: CN109583457A
Application number: CN201811466488.1A
Authority: CN
Inventors: 张跃进; 李波; 黄德昌
Original assignee: Jingmen Boqian Information Technology Co Ltd
Current assignee: Jingmen Boqian Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-05

Abstract

本发明涉及一种机器人定位与地图构建的方法、机器人，属于移动机器人自主定位与地图构建技术领域。该发明在视觉SLAM算法的基础上，采用深度学习，充分利用图像信息实现场景理解、语义分割及深度估计等功能，实现了基于ORB特征的单目视觉SLAM算法，利用深度学习从SLAM生成的稀疏深度图中恢复场景的稠密深度信息，重建出稠密的三维点云地图，增强主体对环境的感知能力，使得机器人实现高移动性与自主性，改进了特征法SLAM无法重建稠密地图、直接法SLAM精度和稳定性不高的缺陷，解决了现有技术中机器人移动性和自主性较差的问题。

Description

一种机器人定位与地图构建的方法及机器人

技术领域

本发明属于移动机器人自主定位与地图构建技术领域，具体涉及一种机器人定位与地图构建的方法、机器人。

背景技术

随着计算机、电子信息、自动化控制、精密机械工程、光电传感技术及人工智能的快速发展，机器人技术已成为当今世界高新技术的前沿领域之一。作为一个集成了场景感知、智能识别、自主决策和行为控制的光、机、电、算一体化系统，机器人已在工业、农业、军事和服务业等领域得到了广泛的应用，并逐渐走进人们的生活。

目前，传统的机器人控制通常采用SLAM算法，通过SLAM算法使得机器人在一个未知位置进行自身位置定位并递增式描述出此环境的完整地图，此处的完整地图是指不受障碍行进到房间可进入的每个角落。传统的视觉SLAM算法使得机器人虽然能够实现实时重建三维场景、跟踪传感器主体的运动等功能，但其自身具有尺度漂移、重建容易失败等特点，并且未充分利用图像信息，缺乏移动性和自主性，无法满足人们日益增长的需求。

发明内容

为了解决现有技术存在的机器人移动性和自主性较低的问题，本发明提供了一种机器人SLAM算法、机器人，其具有高移动性与自主性等特点。

本发明提供以下技术方案：

一方面，一种机器人定位与地图构建的方法，所述方法包括：

提取目标场景图像的ORB特征；

采用无监督学习方法生成分层树结构的txt格式ORB视觉词典，并将所述txt格式ORB视觉词典导入SLAM；

利用词袋模型对所述OBR特征进行回环检测；

视觉SLAM根据所述回环检测产生的结果对全局地图进行修正；

对至少两帧目标场景图像中的同一像素点进行观察，利用三角测量所述像素点的深度，生成目标场景的稀疏深度图；

将所述稀疏深度图和原始RGB图像作为网络输入，获取目标场景的稠密深度图；

利用SLAM获取所述场景的帧间位姿变换，将所述稠密深度图投影到世界坐标，生成稠密的点云地图。

进一步可选地，在提取目标场景图像的ORB特征前，还包括：预先将目标场景图像网络化，并在各网格内采用自适应阈值，提取ORB特征。

进一步可选地，所述提取目标场景图像的ORB特征，具体包括：

对所述目标场景图像进行FAST角点检测；

对所述FAST角点利用灰度质心法计算区块内灰度分布的方向；

用BRIEF在所述区块内随机挑选多组像素对进行比较，生成二进制描述子并添加方向信息。

进一步可选地，所述将所述txt格式ORB视觉词典导入SLAM，包括：将所述txt格式ORB视觉词典进行格式转换为二进制格式，导入SLAM。

进一步可选地，所述无监督学习方法包括：k-means算法或k-means++算法。

进一步可选地，所述对所述OBR特征进行回环检测，具体包括：

生成目标场景图像的图像数据库；

检索所述图像数据库；

集群和匹配回环候选帧；

检验所述目标场景图像的时空一致性；

检验所述目标场景图像帧间变换一致性。

进一步可选地，所述生成目标场景图像的图像数据库，还包括：利用视觉词典建立图像数据库的正向索引。

进一步可选地，所述对至少两帧目标场景图像中的同一像素点进行观察，利用三角测量所述像素点的深度，生成目标场景的稀疏深度图，还包括：进行相机位姿估计；

所述进行相机位姿估计包括：

利用特征匹配、对极几何和RANSAC算法实现相机位姿估计。

进一步可选地，所述获取目标场景的稠密深度图，包括：利用CNN进行端到端的训练后，将所述稀疏深度图和原始RGB图作为网络的输入，经CNN输出所述场景的稠密深度估计。

又一方面，一种机器人，运用上述任一项机器人定位与地图构建的方法。

本发明的实施例在视觉SLAM算法的基础上，采用深度学习，充分利用图像信息实现场景理解、语义分割及深度估计等功能，实现了基于ORB特征的单目视觉SLAM算法，利用深度学习从SLAM生成的稀疏深度图中恢复场景的稠密深度信息，重建出稠密的三维点云地图，增强主体对环境的感知能力，使得机器人实现高移动性与自主性，改进了特征法SLAM无法重建稠密地图、直接法SLAM精度和稳定性不高的缺陷，解决了现有技术中机器人移动性和自主性较差的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供一种机器人定位与地图构建方法实施例的方法流程图。

图2为本发明提供一种机器人定位与地图构建方法实施例中FAST角点检测示意图。

图3为本发明提供一种机器人定位与地图构建方法实施例中图片网格化处理对ORB特征提取结果的影响示意图。其中，(a)为直接提取ORB的结果；(b)为网格化后提取ORB的结果；标号为1-3的图片为EuRoC数据集，4为KITTI数据集。

图4为本发明提供一种机器人定位与地图构建方法实施例中ORB视觉词典的树状结构及实现特征描述子压缩的过程示意图。

图5为本发明提供一种机器人定位与地图构建方法实施例中图像正向索引的构成示意图。

图6为本发明提供一种机器人定位与地图构建方法实施例中回环候选帧的集群示意图。

图7为本发明提供一种机器人定位与地图构建方法实施例中稠密深度估计的深度学习网络框架示意图。

图8为本发明提供一种机器人定位与地图构建方法实施例中利用预测的稠密深度图重建的稠密场景三维地图。其中，(a)和(b)分别是在NYU-depth-v2dining room-1a和dining room-3的重建结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

为了更加清楚地说明本实施例发明方法的过程和优点，本发明提供一种机器人定位与地图构建方法的实施例。

参见图1，本发明实施例的方法包括：

提取目标场景图像的ORB特征；

利用词袋模型对所述OBR特征进行回环检测；

视觉SLAM根据所述回环检测产生的结果对全局地图进行修正；

本发明的实施例中，在视觉SLAM算法的基础上，采用深度学习，充分利用图像信息实现场景理解、语义分割及深度估计等功能，实现了基于ORB特征的单目视觉SLAM算法，利用深度学习从SLAM生成的稀疏深度图中恢复场景的稠密深度信息，重建出稠密的三维点云地图，增强主体对环境的感知能力，使得机器人实现高移动性与自主性，改进了特征法SLAM无法重建稠密地图、直接法SLAM精度和稳定性不高的缺陷，解决了现有技术中机器人移动性和自主性较差的问题。

基于上述一种机器人定位与地图构建方法，本发明实施例提供一可选实施例：参见图1，本实施例的机器人定位与地图构建方法可以包括以下步骤：

s101、提取目标场景图像的ORB特征。

ORB特征的全称是OrientedFAST and Rotated BRIEF。本发明的实施例中，将机器人放置到某场景中，定义机器人的周边环境为目标场景，提取目标场景图像的ORB特征。

s1011、对目标场景图像进行FAST角点检测。

ORB首先使用FAST检测角点。参见图2，FAST遍历图像的所有像素，以像素p为中心、以3个像素为半径画圆得到16个像素点。设圆心的灰度值为I(p)，如果在圆上有连续N个像素的灰度大于I(p)+T或小于I(p)-T，则认为p为特征点，其中T为阈值T。本实施例中，设定N为9，即FAST-9。

为了提升排除不是角点的像素速度，本实施例的FAST在实际操作中加入了一个预判操作，快速排除了不是角点的像素。对每个像素p，首先比较圆上第1、5、9、13个像素点与I(p)的大小。只有这4个像素的灰度有三个及以上大于I(p)+T或小于I(p)-T时，p才可能是特征点。该方法大大提高了FAST检测的速度。

为了尽快提取不同图像帧相同数量的特征点，以保证视觉SLAM跟踪的稳定性，ORB在FAST检测后对每个角点计算Harris响应，并选取前N个响应最大的角点作为最终的结果。

由于FAST仅取半径固定的圆，因此不具有尺度不变性。远看是角点的地方，近看可能就不再是角点。为此ORB对图像进行不同层次的降采样，构建了8层图像金字塔，再在金字塔的每一层上检测角点，使FAST角点具有尺度不变性。

图像中特征点的分布往往并不均匀，经常会出现有些区域特征点非常多(如细节丰富的区域)，有些区域非常少(如墙壁、地面、走廊等灰度变化缓慢的区域)的现象。过于密集的角点会使SLAM在特征匹配时出现误匹配现象，给三角化计算深度带来严重的误差；相反，若特征点在图片中分布均匀，则特征点对应的深度也有远有近，有助于确保位姿跟踪的准确性。

为了使得提取的目标场景图形的ORB特征均匀分布，在本实施例中，预先将目标场景图像网络化，并在各网格内采用自适应阈值，提取ORB特征。本实施例中，将图片预先划分为许多网格，并尽量在每个网格中寻找至少5个特征点。在第一次FASF提取时，该网格中特征点超过5个，则选取前m个特征点(m＞5)；若不足5个则降低阈值T再次计算并选取前m个特征点。若再次计算后特征点仍不足m个，则选取所有的特征点作为最终结果。经过这种处理后，提取出的特征分布较为均匀。

图3为本发明提供一种机器人定位与地图构建方法实施例中图片网格化处理对ORB特征提取结果的影响示意图。参见图3，其中，(a)为直接提取ORB的结果；(b)为网格化后提取ORB的结果。标号为1-3的图片为EuRoC数据集，4为KITTI数据集。

例如，本实施中选用EuRoC数据集测试，测试图片为640×480像素的单通道图像，使用CPU的型号为Intel i7 7700HQ且未使用GPU并行加速。本实施例在ORB特征提取时首先将图像网格化(网格尺寸为30×30)，再在各网格内分别提取ORB特征点，此处理方法可使提取出的特征更加均匀。参见图3，可看出，在光照、亮度不均匀的情况下，直接提取ORB特征会使某些区域特征非常密集，出现扎堆现象，而其他区域几乎提取不出特征点。在光照、亮度不均匀的情况下，直接提取ORB特征会使某些区域特征非常密集，出现扎堆现象，而其他区域几乎提取不出特征点。例如图3(a-1)中提取出的绝大部分特征都聚集在棋盘格上。这是因为在FAST角点检测时会将圆心和圆上点的灰度差与阈值T作比较。若直接对整幅图片提取ORB特征，则使用的阈值T即为全局阈值。在若图像亮度和对比度分布不均匀的情况下，全局阈值很难在所有区域都适用。例如图3(a-1)中窗帘、沙发和墙壁的对比度较低，棋盘格的对比度较高，在T较高时只能提取出棋盘格上的特征点；而如果降低T的值，虽然能在其他区域提取出特征点，但棋盘格上特征点的分布会非常密集。经网格化处理后各网格内的亮度、对比度较为一致。各网格内部采取自适应阈值提取特征，最终整幅图片的特征分布较为均匀。

s1012、对FAST角点利用灰度质心法计算区块内灰度分布的方向。

在通常的FAST角点检测中，FAST不具有方向性。为了赋予目标场景中图像OBR特征角点方向，本实施例中采用灰度质心法(intensity centroid)添加OBR特征的方向性描述。一个小图像块P(patch)的pq阶矩定义为：

若将像素的灰度值看作质量，则x、y方向的力矩分别为：

因此P的质心为：

ORB定义了从圆形图像块P的几何中心O指向其质心C的向量于是该图像块的方向θ可表示为：

θ＝arctan(m₀₁,m₁₀)

通过此方法，FAST角点具有了尺度不变性和方向性描述，增强了对图像特征的描述能力。

s1013、用BRIEF在区块内随机挑选多组像素对进行比较，生成二进制描述子并添加方向信息。

BRIEF是一种二进制描述子，这种0-1编码的二进制串构成一个特征向量，描述子的每位数字都是二项灰度测试的结果。BRIEF预先离线地选择L_b个像素对的坐标，用于进行后续的二项灰度测试。

经典的BRIEF描述子没有关于图像块灰度分布方向性的描述，因此对图像的旋转比较敏感。ORB将FAST提取时得到的θ添加到BRIEF描述中。对于预先选好的二项灰度测试的点对

(c+a_i,c+b_i)，定义大小为2×L_b的矩阵S：

以及2×2的旋转矩阵R_θ：

经过R_θ校正后的矩阵为：

S_θ＝R_θS

校正后的BRIEF描述子为：

G(c,θ)＝B(c)|(c+a_i,c+b_i)∈S_θ

为加快运算速度，在实际操作中ORB预先将θ离散化(θ从0到360°单位增量为12°)并计算对应的矩阵S_θ。若θ落在某个区间，则直接使用预先算好的S_θ，这种制表-查表的方法大大加快了运算速度，加快了提取目标场景图像的ORB特征的速度。

s102、采用无监督学习方法生成分层树结构的txt格式ORB视觉词典，并将txt格式ORB视觉词典导入SLAM。

无监督学习是机器学习的一种方式，它适用于缺乏足够的先验知识、难以使用大量人工标注的样本训练、且需要对海量数据分类的情形。无监督学习的典型应用是聚类(clustering)，即将相似的数据聚成一类。典型的聚类算法有k-means、k-means++、CLARANS算法等。可选地，本实施例采用k-means++对目标场景图像特征进行聚类。

例如，在本实施例中，从海量训练图片中提取ORB特征，经k-means++不断聚类后，生成储存二进制描述子的视觉词典。

首先，在从训练图片中提取了大量ORB特征后用k-means++进行第一次聚类，将二进制描述空间分为k_w个互不相交的区域，并用每个区域描述子的中值B_1,i,median代表这一类C_1,i。这k_w个类组成了词典树的第一层。在第一层中，C_1,i对应的节点储存了该类的中值B_1,i,median。之后，在每一类C_1,i内部继续用k-means++分为k_w类，该分类过程循环执行L_w次，最终得到L_w层、每层有k_w个节点的树状词典。

图4为本发明提供一种机器人定位与地图构建方法实施例中ORB视觉词典的树状结构及实现特征描述子压缩的过程示意图，参见图4，词典的最底层为W个叶子节点，即最终的单词(特征描述子)，且：

例如，本实施例中，在生成词典时给每个单词加上了权重，以表示该单词的显著性和区分度。该实施例使用文本检索中常用的TF-IDF(Term Frequency,Inverse DocumentFrequency)计算权重。TF表示词频，即单词在所有文章中出现的频率；IDF表示逆文本频率，即包含该单词的文章越少，该单词的区分度越高。

由于无监督学习生成的ORB视觉词典非常大，且导入SLAM的速度很慢，不适合用于手机端、嵌入式等储存和计算性能受限的平台。因此，为了提升视觉词典导入SIAM的时间，本实施例中将视觉词典由文本格式(txt)转换为二进制格式(bin)，大幅减少了占有空间，并将词典读取速度提升至原来的45倍。

在本实施例中，从KITTI、EuRoC、TUM和NYU-Depth-v2数据集中挑选出32978张图片作为训练数据，构建了6层、每层10个节点、共100万个叶子节点的ORB视觉词典。K-means++聚类的时间开销约2小时。在这100万个叶子节点中，有985713个含有单词(即特征描述子)，占叶子节点的98.57％，合理地利用了分类树的储存空间。该结果说明6层、每层10个节点的词典结构既能将囊括所有的单词类别，又刚好能容纳这些单词、节省储存空间。

算法生成txt格式的视觉词典的大小为273.9MB，导入SLAM耗时6.3s。本实施例将txt格式的词典转换为二进制格式，转换后的词典大小为43.6MB，为原先的15.9％；导入SLAM的时间减少为0.14s，效率提升至原来的45倍。

s103、利用词袋模型对OBR特征进行回环检测。

回环检测本质上是计算图像相似度的问题。本发明实施例利用经过词袋模型压缩的图像数据库，通过以下步骤实现回环检测。

s1031、生成目标场景图像的图像数据库。

为进行回环检测和重定位，视觉SLAM会将视频中的一些列图像降维压缩形成数据库，以便后续使用。而词袋模型就是实现数据压缩的一种方式。

首先，在t时刻对图像It提取ORB特征后，用ORB视觉词典表示It中的每一个描述子。具体做法如图5所示：对每个待测描述子，沿树状词典自顶向下地搜索与该描述子最匹配的节点，并用这些节点的编号代表该描述子。在计算时，用汉明距离表示描述子与各节点的相似性。通过这种方式，又将256位的描述子进一步压缩为L_w位k_w进制描述子。之后，将I_t中所有的ORB特征描述子汇总在一起，用词袋向量v_t表示，完成视频序列的压缩。

图5为本发明提供一种机器人定位与地图构建方法实施例中图像正向索引的构成示意图。参见图5，为了降低SLAM中图像匹配运行的复杂程度，本实施例中为每张图片建立了正向索引(direct index)。正向索引有助于在图像检索时显著降低运算复杂度，并用于特征匹配、重定位和回环检测等过程。对新图像It中的每个特征，算法从词典的叶子节点开始，自底向上地搜索该特征描述子对应的第l层父节点，并将第l层父节点和I_t保存在一起，组成正向索引。相比于通常使用的反向索引(inverse index)，正向索引不需要在每次捕获到新图像后更新索引的内容，大大减小了计算开销。

s1032、检索所述图像数据库。

当机器人相机捕获到目标场景的图像It后，将It转换为词袋向量vt。然后在图像数据库中搜索与vt匹配的词袋向量。

s1033、集群和匹配回环候选帧。

图6为本发明提供一种机器人定位与地图构建方法实施例中回环候选帧的集群示意图。参见图6，由于视频流具有连续性，因此若vt和之前某一时刻的有很高的相似性，则vt与前后相邻的图像往往也会有很高的相似性。为更好地检测回环，防止多个相邻帧相互竞争产生干扰，本实施例将时间相近的图像帧组成一个集合(island)，并将该集合视为和v_t的一个匹配。令T_i表示集合中图像的时间序列并用表示和v_t匹配度较高的一系列候选匹配对即：

之后，将集合中每帧的匹配系数累加，求得该集合的匹配系数：

对与v_t匹配的每一个集合都用上述公式计算匹配系数，并选出匹配系数最高的集合V_T'进行后续检验。

s1034、检验目标场景图像的时空一致性。

本发明实施例中使用共视图(covisibility graph)来表征不同视角的关键帧对同一场景的共视关系。共视图的顶点代表关键帧的相机位姿，边代表关键帧间的共视关系。若关键帧之间看到的场景相似，则对应的边就会产生连接。相似程度越高，边的权重就越高。

首先，在共视图中寻找与vt连接的权重最高的帧，并检查该帧是否在集合V_T'中。若确实在V_T'中，则进一步对v_t的前k帧图像计算出与之匹配的集合，得到：若T₁、T₂…T_k之间有交叠，则说明图像的匹配在时间上是连续的，此时v_t通过了时空一致性检验。

在通过检验后，只保留V_T'中和vt的匹配度最高的匹配对<v_t,v_t'>，进行最后的帧间变换一致性检验。

s1035、检验目标场景图像帧间变换一致性。

本实施例中，选取至少15对匹配点，通过RANSAC算法计算I_t和I_t’的位姿变换矩阵。若位姿变换幅度不大，则认为检测到回环。至此回环检测全部完成。

在检测到回环后，利用全局束集调整(BundleAdjustment,BA)对所有的关键帧进行优化，消除累积误差。

s104、视觉SLAM根据回环检测产生的结果对全局地图进行修正。

在本实施例中，当机器人在目标场景中再次经过同一场景时，视觉SLAM准确地检测到回环并修正全局地图。

s105、对至少两帧目标场景图像中的同一像素点进行观察，利用三角测量像素点的深度，生成目标场景的稀疏深度图。

单目视觉SLAM无法通过单张图像获得点的深度信息，需要在两帧或多帧中观察同一像素点，通过三角测量估计点的深度，生成目标场景的稀疏深度图。

其中，相机将三维世界中的物体映射到二维的图像平面。作为视觉SLAM的唯一传感器，相机的成像过程使机器人能够观测外部的世界。因此，相机位姿估计对目标场景稀疏深度图的生成具有重要作用。在本实施例中，进行相机位姿估计的步骤包括：

s1051、确定两帧图像中特征点的对应关系，即特征匹配。

在本实施例中，使用上述帧间变换一致性检验的方法实现特征匹配，大大加快了匹配速度，此处不再赘述。由于图像的局部特性，实际的匹配结果中会有许多误匹配，本实施例筛选描述子的汉明距离在该帧最小汉明距离的6倍以内的匹配点对作为最终结果。

s1052、得到匹配的特征点后，通过特征点的对应关系利用对极几何获取帧间的相机运动。

三维世界中的点P在图像I₁,I₂中的投影点分别为p₁,p₂。O₁,O₂,P三点确定极平面。O₁O₂为基线，O₁O₂与I₁,I₂交于极点e₁,e₂，极平面与I₁,I₂的交线l₁,l₂为极线。在不考虑误匹配的情况下，P的真实位置由匹配点p₁,p₂完全确定，根据对极几何获取出相机的位姿。

s106、将稀疏深度图和原始RGB图像作为网络输入，获取目标场景的稠密深度图。

近年来，计算机硬件性能飞速提升，且人们发现多层神经网络具有并行化的可行性，因此人们开始重新关注这种机器学习方法。2006年，Hinton等人提出用多层神经网络将低级特征不断组合形成高级特征的方法，开创了深度学习的研究浪潮。从此，深度卷积神经网络(Convolutional Neural Network,CNN)为代表的多层网络框架以及通过GPU并行运算的形式，成为实现深度学习算法的基本方式。

几乎所有图像识别和分类的CNN框架都会不断抽取高级特征，通过一系列卷积和池化使输入图片的尺寸不断减小。这种操作可扩大高层次感知机的接受域(perceptivefield)，以获得含有全局信息的高层次特征。这样，网络将一幅高分辨率图片用几个输出特征表示。这种尺寸不断变小的网络结构适用于分类问题。而在回归问题中，往往需要输入和输出的一一映射，在计算机视觉领域即表现为用图像生成图像，网络的输出应为一幅图片。因此在经过降采样后，应通过一系列上采样(up-sampling)获得分辨率满足要求的输出。

图7为本发明提供一种机器人定位与地图构建方法实施例中稠密深度估计的深度学习网络框架示意图。参见图7，本实施例的深度学习网络采用编码-解码的构造，输入是RGB图像和稀疏深度图，输出是场景的稠密深度图。本实施例中，采用Ma等提出的sparse-to-dense的思想，基于全卷积残差网络(Fully Convolutional Residual Network,FCRN)，实现稠密深度图的生成。

在本实施例中，SLAM生成的稀疏深度图和原始RGB图像作为网络的输入，输出场景的稠密深度图。具体地，利用CNN进行端到端的训练后，将所述稀疏深度图和原始RGB图作为网络的输入，经CNN输出所述场景的稠密深度估计。本实施例改进了sparse-to-dense网络的训练方法，使用ORB特征点对应的稀疏深度图作为网络训练的输入数据，使网络在训练时更好地学习到稀疏深度点、RGB图像及稠密深度图的内在联系，提高了稠密深度估计的准确性。

s107、利用SLAM获取场景的帧间位姿变换，将稠密深度图投影到世界坐标，生成稠密的点云地图。

在本实施例中，选用NYU-Depth-v2数据集进行实验，该数据集是用Kinect在室内采集的RGB-D图像，包含了很多种类的室内场景。本实施例中使用的计算设备为装配了Intel i7 7700K的CPU和4张NVIDIA GTX 1080Ti显卡的服务器。在训练网络时，使用官方的划分形式将464个数据集划分为249个训练集和215个测试集，并认为Kinect采集的深度图是真值(groundtruth)。

本实施例采用PCL库将深度图拼接成了稠密的点云地图。由于单目视觉SLAM难以得到绝对尺度，因此本实施例在得到稀疏深度图后，将稀疏的深度和数据集中对应点的深度对齐，再用SLAM得到的帧间位姿变换将对齐后的深度图拼接成稠密的三维点云地图。本实施例对深度图直接进行拼接，并未对生成的三维地图进行滤波、降噪、平滑和融合等操作，拼接的结果参见图8。从图中可看出，本实施例生成的深度图对物体边缘等细节部分有较好的预测效果，如图8(a)中的椅子靠背和家具的边缘。

本发明实施例在视觉SLAM算法的基础上，采用深度学习，充分利用图像信息实现场景理解、语义分割及深度估计等功能，实现了基于ORB特征的单目视觉SLAM算法，利用深度学习从SLAM生成的稀疏深度图中恢复场景的稠密深度信息，重建出稠密的三维点云地图，增强主体对环境的感知能力，使得机器人实现高移动性与自主性，改进了特征法SLAM无法重建稠密地图、直接法SLAM精度和稳定性不高的缺陷，解决了现有技术中机器人移动性和自主性较差的问题。其中，将特征法SLAM和深度学习的优势结合，设计的系统既能实现跟踪、定位和回环检测，又能重建场景的稠密地图；又一方面，通过对图片的网格化使提取的ORB特征均匀分布；又一方面，使用正向索引显著降低了SLAM中图像匹配的运算复杂度；又一方面，改进了卷积神经网络的训练方法，提高了稠密深度估计的准确性。

为了更全面地对本发明的技术方案进行解释，本申请还提供一种机器人，本实施例的机器人运用上述实施例中任意一项定位与地图构建的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器人定位与地图构建的方法，其特征在于，所述方法包括：

提取目标场景图像的ORB特征；

利用词袋模型对所述OBR特征进行回环检测；

视觉SLAM根据所述回环检测产生的结果对全局地图进行修正；

2.权利要求1所述的方法，其特征在于，在提取目标场景图像的ORB特征前，还包括：预先将目标场景图像网络化，并在各网格内采用自适应阈值，提取ORB特征。

3.根据权利要求1所述的方法，其特征在于，所述提取目标场景图像的ORB特征，具体包括：

对所述目标场景图像进行FAST角点检测；

对所述FAST角点利用灰度质心法计算区块内灰度分布的方向；

4.根据权利要求1所述的方法，其特征在于，所述将所述txt格式ORB视觉词典导入SLAM，包括：将所述txt格式ORB视觉词典进行格式转换为二进制格式，导入SLAM。

5.根据权利要求1所述的方法，其特征在于，所述无监督学习方法包括：k-means算法或k-means++算法。

6.根据权利要求1所述的方法，其特征在于，所述对所述OBR特征进行回环检测，具体包括：

生成目标场景图像的图像数据库；

检索所述图像数据库；

集群和匹配回环候选帧；

检验所述目标场景图像的时空一致性；

检验所述目标场景图像帧间变换一致性。

7.根据权利要求6所述的方法，其特征在于，所述生成目标场景图像的图像数据库，还包括：利用视觉词典建立图像数据库的正向索引。

8.根据权利要求1所述的方法，其特征在于，所述对至少两帧目标场景图像中的同一像素点进行观察，利用三角测量所述像素点的深度，生成目标场景的稀疏深度图，还包括：进行相机位姿估计；

所述进行相机位姿估计包括：

利用特征匹配、对极几何和RANSAC算法实现相机位姿估计。

9.根据权利要求1所述的方法，其特征在于，所述获取目标场景的稠密深度图，包括：利用CNN进行端到端的训练后，将所述稀疏深度图和原始RGB图作为网络的输入，经CNN输出所述场景的稠密深度估计。

10.一种机器人，其特征在于，运用权利要求1-9任一项所述机器人定位与地图构建的方法。