CN111814683A

CN111814683A - 一种基于语义先验和深度学习特征的鲁棒视觉slam方法

Info

Publication number: CN111814683A
Application number: CN202010656860.6A
Authority: CN
Inventors: 崔林艳; 赖嵩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-23
Anticipated expiration: 2040-07-09
Also published as: CN111814683B

Abstract

本发明涉及一种基于语义先验和深度学习特征的鲁棒视觉SLAM方法，包括以下步骤：(1)搭建基于深度学习特征提取的视觉SLAM框架，该框架的跟踪线程将相机传感器获取的图像输入深度神经网络，提取深度特征点；(2)基于轻量型语义分割网络模型，对输入视频序列进行语义分割，得到语义分割结果，获取场景中动态物体的语义先验信息；(3)根据步骤(2)中的语义先验信息对步骤(1)中提取的深度特征点进行剔除，将位于动态物体上的特征点进行剔除，提高动态场景下的定位精度；(4)根据步骤(2)中的语义分割结果获取跟踪线程所选择的关键帧对应的静态点云，再根据步骤(3)得到的关键帧位姿进行静态点云拼接，实时构建稠密的全局点云地图。

Description

一种基于语义先验和深度学习特征的鲁棒视觉SLAM方法

技术领域

本发明涉及基于语义先验和深度学习特征的鲁棒视觉SLAM方法，这是一种结合语义先验信息和更为鲁棒的深度学习特征的视觉SLAM算法，在弱纹理和动态场景中具有更好的适应性。

背景技术

视觉SLAM以相机等作为传感器，成本低且所获取的信息更接近人类的认知层次，在移动机器人等领域得到了较为广泛的应用。室内场景相比于室外场景而言，没有剧烈光照变化，同时机器人运动速度较低，是移动机器人主要的工作场所。尽管在室内进行导航安全性要高于室外环境，但室内环境更加复杂，障碍物更加密集，将SLAM技术落地到室内机器人导航，至少还需要解决两大挑战。

(1)提升SLAM算法对于弱纹理环境的鲁棒性

目前主流的稳定的SLAM算法都基于特征点提取从而完成位姿估计，但室内环境难免会包括走廊、空房间等弱纹理甚至无纹理区域，在这些情况下，不论是SIFT、SURF还是ORB都难以有效的提取足够数量特征点完成稳定的跟踪。

(2)提升SLAM算法对于动态环境的鲁棒性

无论是室内还是室外环境，动态物体的存在无疑是对视觉SLAM的定位精度和鲁棒性的重大挑战之一，主流的视觉SLAM框架都没有考虑动态物体的影响，假设周围环境是静止的，而所获取图像的变化都是由相机的运动产生，这就给SLAM算法在不同帧之间进行数据关联带来了挑战。例如，家中家具的移动、办公室中人的走动，如果将这些动态物体作为环境的一部分进行构建，一方面会降低视觉SLAM算法自身位姿的估计精度。另一方面，单纯运用几何信息对动态场景构建地图，所构建的静态地图还不足以可用于室内导航。

随着人工智能的不断发展，将人工智能的思想注入机器人导航领域的研究越来越引起关注。近年来，许多轻量级的语义分割网络的出现和支持GPU加速的移动计算平台的开发，给实时融合语义信息的SLAM框架带来了可能。此外，相比传统的人工设计的特征提取方法，例如SIFT、FAST、ORB等方法，基于深度学习的特征提取方法在弱纹理、光照变化等场景下也取得了更为鲁棒的效果。

发明内容

本发明的技术解决问题是：面对动态环境和弱纹理环境对SLAM算法提出的挑战，本发明提供一种基于语义先验和深度学习特征的鲁棒视觉SLAM方法，在弱纹理环境中稳定的特征点提取方式，并将语义信息融合进SLAM算法进行辅助，添加对环境中动态物体的处理，同时依靠语义信息辅助地图构建，使所构建的地图可以更好的应用于各种智能场景。

本发明的技术解决方案为：一种基于语义先验和深度学习特征的鲁棒视觉SLAM方法，包括以下步骤：

(1)搭建基于深度学习特征提取的视觉SLAM框架，该框架的跟踪线程将相机传感器获取的图像输入深度神经网络，提取深度特征点；

(2)基于轻量型语义分割网络模型，对输入视频序列进行语义分割，得到语义分割结果，获取场景中动态物体的语义先验信息；

(3)根据步骤(2)中的语义先验信息对步骤(1)中提取的深度特征点进行剔除，将位于动态物体上的特征点进行剔除，提高动态场景下的定位精度；

(4)根据步骤(2)中的语义分割结果获取跟踪线程所选择的关键帧对应的静态点云，再根据步骤(3)得到的关键帧位姿进行静态点云拼接，实时构建稠密的全局点云地图。

进一步的，所述步骤(1)中，搭建基于深度学习特征提取的视觉SLAM框架，该框架的跟踪线程将相机传感器获取的图像输入深度神经网络，提取深度特征点，实现在弱纹理和动态场景下更加鲁棒的视觉定位性能，方法如下：

对ORB-SLAM框架中的特征提取模块进行替换，将GCN网络作为特征提取器，首先，对于相机所获取的图像，GCN网络的卷积神经网络部分输出与所述相机所获取的图像尺寸相同的特征图，特征图对应像素点的特征向量作为该点的描述子，GCN网络的循环神经网络部分输出深度特征点位置预测，然后，将所提取的深度特征点和描述子用于位姿更新和闭环优化，实现基于深度学习特征提取的视觉SLAM。

进一步的，所述步骤(2)中，基于轻量型语义分割网络模型，对输入视频序列进行语义分割，获取场景中动态物体的先验信息，方法如下：

选取ESPNetV2模型作为所采取的轻量型网络模型，对于相机所获取的图像序列，传入独立运行的语义分割线程，该线程首先读取由PASCAL VOC 2012数据集训练得到的网络权重参数，并把模型部署至GPU上，然后对图像进行预处理，包括图像通道模式的转换、图像尺寸的调整和数据类型的转换，再将图像传入网络输出语义分割图，最后将语义分割图重新调整为原图尺寸以获取每一个像素点的语义动态信息。

进一步的，根据步骤(2)中的语义先验信息对步骤(1)中提取的深度特征点进行剔除，将位于动态物体上的特征点进行剔除，提高动态场景下的定位精度，具体如下：

将语义分割线程与特征点提取步骤并行进行，实现基于语义先验和深度学习特征的视觉SLAM，该算法框架前端用以估计相机位姿，增加了运动物体处理环节，包括语义分割以及动态点去除两部分，对于输入RGB彩色图，用一独立的语义分割线程对其进行处理，而动态点去除模块则嵌入原前端线程：对于图像运动物体所处区域，剔除其上特征点以保证位姿估计环节获取正确的特征匹配对，之后的局部建图与回环检测线程与常规ORB-SLAM框架相同。

进一步的，所述步骤(4)中，根据步骤(2)中的语义分割结果获取跟踪线程所选择的关键帧对应的静态点云，再根据步骤(3)得到的关键帧位姿进行静态点云拼接，实时构建稠密的全局点云地图，方法如下：

(4.1)：视觉SLAM框架中的跟踪线程选取一系列关键帧，选择的判断条件是图像中特征点的数量和分布位置以及与已有地图点相比的信息冗余程度，然后在步骤(2)中获取关键帧对应的语义分割结果；

(4.2)：基于PCL点云库，根据相机内参和关键帧语义分割图，将关键帧中不属于“人”所在区域的像素点投影到三维空间中，获取静态点云，然后根据步骤(3)中所估计的关键帧位姿，将所有关键帧的静态点云进行拼接作为对静态环境的稠密建图，其计算过程为；

式中，m表示相机坐标系下的全局点云，C_k表示关键帧中静态点从二维投影到三维的静态点云坐标，T_k表示关键帧对应的位姿，n表示关键帧数量；

(4.3)：对于得到的全局的点云地图，引入统计滤波器对离群值进行剔除，离群点的判断条件为该点与其领域内若干点的平均距离是否超过预设的阈值，然后进行体素滤波降采样，使用立方体区域内的点的重心代替该区域内所有点，减少内存空间占用。

本发明与现有技术相比的优点在于：

(1)本发明将轻量型语义分割网络模型和基于深度学习的特征提取相结合，最终实现了面向弱纹理和动态场景的更为鲁棒的视觉SLAM。

(2)本发明采用libtorch作为第三方库对SLAM系统进行搭建，利用主流开发语言Python对SLAM框架进行开发，可更好的与目前主流深度框架更好的结合，便于后续进行二次开发。

总之，本发明采用的方法原理简洁，达到了在弱纹理和动态场景中更为鲁棒的视觉定位和稠密地图构建的目的。

附图说明

图1为本发明基于语义先验和深度学习特征的鲁棒视觉SLAM方法流程图。

具体实施方式

如图1所示，本发明的具体实现步骤如下：

步骤1、搭建基于深度学习特征提取的视觉SLAM框架，初步实现在弱纹理和动态场景下更为鲁棒的视觉定位性能。

目前经典的视觉SLAM框架，提取的特征均为人工设计的特征，以ORB-SLAM框架为主，提取的是ORB特征。随着深度学习的不断发展，基于深度学习的特征提取方法得到了广泛关注。用深度学习提取的图像特征，表达图像信息更充分，对光照等环境变化有更强的鲁棒性。此外，基于深度学习的特征提取方法可以获得多层次的图像特征，将低层次特征(如像素级的灰度特征)，和高层次的特征(如语义级别的特征)进行组合，更接近人类的认知习惯。在深度学习特征提取的基础上，替换经典视觉SLAM框架中的人工特征提取算子(例如ORB特征、SIFT特征等)，结合视觉SLAM经典框架进行跟踪、优化、回环检测等线程，最终实现基于深度学习特征提取的视觉SLAM。

从SLAM的应用场景来看，大部分情况下SLAM还是作为一种需要在移动端部署的定位技术，对于实际应用环境，偏向底层的C++自然是首选，因此目前所有的开源SLAM框架都是基于C++编写的，而对于所需要的各种C++库的配置，Linux系统提供了较好的支持，同时ROS系统也只能在Linux下进行开发(ROS系统可以方便的获取传感器数据)。本发明选择的搭建环境为Ubuntu 16.04，同时考虑到深度学习的主流开发语言为Python，因此选择libtorch作为第三方库对SLAM系统进行搭建。

步骤2、基于轻量型语义分割网络模型，对输入视频序列进行语义分割，获取场景中动态物体的先验信息。

对于视觉SLAM系统而言，运算时间非常重要，过于冗余的语义分割网络结构使得网络的运行时间远远无法达到实时性的要求，因此在SLAM系统中加入语义信息的辅助，需要兼顾速度和性能。为此，本发明选取了轻量型网络模型对视频进行语义分割，轻量化网络模型在注重计算的速度的同时，也保证了分割的准确率。经过对目前已有轻量型网络模型，包括ShuffleNet、Mobilenet、ESPNet等，在FLOP(表示网络运算所需要进行的浮点运算次数，计算量越小说明网络越简洁)、mIOU(平均交并比，体现语义分割精度)、推理时间等三个指标进行对比分析，最终选取了ESPNetV2模型作为本发明所采取的轻量型网络模型。ESPNetV2模型对卷积操作进行分解的方式上，与MobileNet卷积单元相比，ESPNetV2所采用的ESP单元，使用空间深度可分离卷积代替深度可分离卷积，使用逐点群卷积代替逐点卷积，降低了网络中的参数量，同时也扩大了模型的感受野。与ShuffleNet相比，虽然ShuffleNet模块的参数量少，但会占用更大的内存同时无法扩大感受野。因此选择ESPNetV2网络作为语义分割模块。ESPNetV2在所需模型计算量为其他网络的几十分之一甚至几百分之一的情况下，达到了接近未做轻量化结构处理的语义分割网络的分割精度。同时，ESPNetV2因其网络结构最为轻量化，推理速度要远远优于其他网络，结合SLAM系统30帧/秒的运行速度，使用ESPNetV2进行语义分割线程仍然可以保证SLAM算法的实时性。

步骤3、构建基于语义信息和深度学习特征的鲁棒视觉SLAM，剔除动态特征点，实现更为鲁棒的视觉定位。

为了改善由于动态物体特征点给跟踪带来的不利影响，最直接的思路就是将位于动态物体上的特征点去除，而对于动态区域的分割可以依赖语义分割所获取的语义先验信息(例如将人作为动态物体)，Pascal VOC 2012数据集一共包括人、椅子、显示器、椅子、汽车、沙发等20种常见的语义类别，在本发明所关注的应用场景中包含了显示器、椅子、人、沙发等四种物体，其实人的语义标签对应为15，而且考虑到另外三种物体大部分情况下保持静止(椅子在人起身和坐下时发生了移动)，因此只将落在人身上的特征点进行去除，结合语义分割图，对特征点剔除。

为了保证SLAM算法效率，将语义分割线程与特征点提取步骤并行进行，实现基于语义先验和深度学习特征的视觉SLAM。该算法框架前端用以估计相机位姿，增加了运动物体处理环节，包括语义分割以及动态点去除两部分。对于输入RGB彩色图，有一独立的语义分割线程对其进行处理，而动态点去除模块则嵌入原前端线程：对于图像运动物体所处区域，剔除其上特征点以保证位姿估计环节获取正确的特征匹配对。之后的局部建图与回环检测线程与常规ORB-SLAM框架相同。

步骤4、通过语义辅助在线实现稠密点云建图，结合语义分割的结果剔除动态物体所对应的点云。

定位与建图是视觉SLAM关注的两大任务，SLAM所构建的地图不仅仅可以用于自身的位姿估计，还可以帮助许多上层应用实现需求，例如场景重建、定位、自主导航、人机交互等等。基于步骤(3)实现的基于语义先验和深度学习特征的视觉SLAM是一种基于特征点法的视觉SLAM框架，特征点的稀疏性使得所构建地图也十分稀疏，从外观重建的意义上来说，这样的地图不直观，展示效果差，从导航和避障的应用层面来看，稀疏地图无法告诉机器人哪些是安全通行区域，那些是危险障碍物区域，更无法进行可行的路径规划针对实际应用对稠密地图的需求，为前面搭建好的系统添加在线稠密建图功能。基于PCL点云库，将关键帧中的静态物体的像素点投影到三维空间中，获取静态点云。为了减轻后端优化的负担，SLAM算法从一系列普通帧中提取出图像清晰、特征点数量充足、与其他局部普通帧存在共视关系的特殊帧来作为局部的代表，建立关键帧库，然后选择将关键帧的静态点云进行拼接作为对静态环境的稠密建图，其计算过程为。

式中，m表示相机坐标系下的局部点云，C_k表示关键帧中静态点从二维投影到三维的点云坐标，T_k表示关键帧对应的位姿，n表示关键帧数量。

对于动态场景，往往需要重建的是环境的静态部分，动态物体的存在不利于机器人与环境进行交互，因此还需要对稠密地图进行动态点云去除。动态点云的去除主要可以通过结合图像的语义信息进行，将语义分割结果中标签为人的类别的像素点进行全部剔除，再进行点云的拼接与滤波，从而达到静态建图的目的。

如表1所示，为采用本发明方法与ORB-SLAM在TUM RGB-D数据集中三个弱纹理场景视频序列(str_notex_far、str_notex_near、large_cabinet)上的运行结果精度对比，定量指标采用的是绝对轨迹误差的五次运行结果的RMSE(单位：m)。由于纹理信息十分缺乏，ORB-SLAM在整个运行过程中没有提取到足够数量的特征点进行运动估计，在几乎无纹理的场景下完全失效或者跟丢现象严重。但本发明基于深度学习特征提取的视觉SLAM算法仍然可以很好的应对这种情况，全程都能够稳定跟踪，对纹理信息匮乏场景具有更好的鲁棒性。

如表2所示，为采用本发明与ORB-SLAM在TUM RGB-D数据集中五个动态场景视频序列(s_static、w_halfsphere、w_rpy、w_static、w_xyz)上的运行结果精度对比。在动态环境中，为了减少特征点提取的随机因素给跟踪精度带来的影响，在RGB-D模式下将每个视频序列运行五次，得到轨迹误差的中位数、平均数、最小值和最大值。表2中采用的定量指标是这四个指标相比ORB-SLAM的平均精度提升。整体来看，本发明基于语义先验和深度学习特征的视觉SLAM在动态场景中的表现优于ORB-SLAM，由于动态物体运动速度较快、动作幅度较大时所产生的跟踪精度下降、跟踪丢失等问题得到了有效缓解。

表1

(注：表中“-”表示对应算法在该视频序列上无法运行或者出现严重跟丢现象，以致算法失败)

表2

(注：表中百分数表示本发明方法相比经典ORB-SLAM精度提升量的百分比)

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于语义先验和深度学习特征的鲁棒视觉SLAM方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义先验和深度学习特征的鲁棒视觉SLAM方法，其特征在于：所述步骤(1)中，搭建基于深度学习特征提取的视觉SLAM框架，该框架的跟踪线程将相机传感器获取的图像输入深度神经网络，提取深度特征点，实现在弱纹理和动态场景下更加鲁棒的视觉定位性能，方法如下：

3.根据权利要求1所述的基于语义先验和深度学习特征的鲁棒视觉SLAM方法，其特征在于：所述步骤(2)中，基于轻量型语义分割网络模型，对输入视频序列进行语义分割，获取场景中动态物体的先验信息，方法如下：

4.根据权利要求1所述的基于语义先验和深度学习特征的鲁棒视觉SLAM方法，其特征在于：根据步骤(2)中的语义先验信息对步骤(1)中提取的深度特征点进行剔除，将位于动态物体上的特征点进行剔除，提高动态场景下的定位精度，具体如下：

5.根据权利要求1所述的基于语义先验和深度学习特征的鲁棒视觉SLAM方法，其特征在于：所述步骤(4)中，根据步骤(2)中的语义分割结果获取跟踪线程所选择的关键帧对应的静态点云，再根据步骤(3)得到的关键帧位姿进行静态点云拼接，实时构建稠密的全局点云地图，方法如下：