CN110738673A

CN110738673A - 基于实例分割的视觉slam方法

Info

Publication number: CN110738673A
Application number: CN201910999570.9A
Authority: CN
Inventors: 何召兰; 何乃超; 张庆洋; 姚徐; 丁淑培
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-31

Abstract

本发明提供一种基于实例分割的视觉SLAM算法，首先在对输入图像提取特征点的同时，使用卷积神经网络对图像进行实例分割；其次利用实例分割信息辅助定位，剔除容易造成误匹配的特征点，缩小特征匹配的区域；最后使用实例分割的语义信息构建语义地图，实现机器人对已建地图的复用与人机交互。本发明使用TUM数据集分别对图像实例分割、视觉定位以及语义地图构建进行了实验验证。实验结果表明，将图像实例分割与视觉SLAM相结合可以增加图像特征匹配的鲁棒性，加快特征匹配速度，提高移动机器人定位的准确性；并且该算法可以生成精确的语义地图，满足机器人执行高级任务的需求。

Description

基于实例分割的视觉SLAM方法

技术领域

本发明涉及视觉图像技术领域，具体涉及一种基于实例分割的视觉SLAM方法。

背景技术

SLAM算法即是移动机器人从未知环境的某一地点出发，在运动过程中重复地读取传感器观测数据，分析获取环境特征与自身位置姿态，并以此实时的构建周围环境的增量式地图。其中，视觉传感器相比于其他传感器能够获得更丰富的图像信息，同时视觉传感器轻巧廉价、易于安装，因此基于视觉传感器的SLAM研究成为了当下研究热点。视觉SLAM的实现主要有特征点法和直接法,其中，直接法完全依靠搜索图像像素梯度来估算机器人位姿，这就要求机器人移动不能特别剧烈，同时直接法还需要假设机器人在运动过程中采集到的图像的灰度值不变，这些条件在现实环境中不可能完全满足，因此直接法只能够在特定的环境中使用。而特征点法则利用图像中的局部特征点进行特征匹配，通过匹配的特征点来进行位姿估计，它具有运行稳定、对光照及动态物体不敏感等优点。

目前典型的视觉SLAM方法仍然存在以下几个问题：一是在特征匹配的过程中容易受到噪声和误匹配点的干扰，鲁棒性较差。二是无法从场景中提取语义信息，仅能生成包含几何信息的地图，无法满足机器人执行更高级任务的需求。

发明内容

针对当前视觉同步定位与地图构建(Visual Simultaneous Localization andMapping，VSLAM)算法位姿估计鲁棒性差、定位精度较低以及无法生成适合自主导航的语义地图等问题，本发明提出了一种基于实例分割的视觉SLAM算法。本发明利用视觉SLAM技术与实例分割技术实现了移动机器人位置信息和语义信息的融合。首先通过MASK R-CNN检测出图像中各个物体的类别及其相对位置，并根据检测信息将图像划分为不同的实例区域，输出各个实例区域的掩模(MASK)，再根据视觉图像上各个实例区域，对SLAM算法中特征匹配过程进行优化，提高定位的鲁棒性与精确度，最后根据实例区域语义信息构造语义地图，以满足移动机器人执行智能化任务的要求。

具体的技术方案为：

基于实例分割的视觉SLAM方法，包括以下步骤：

(1)对深度相机采集的视觉图像进行ORB特征点提取，采用图像的ORB特征作为视觉SLAM的路标特征；

(2)构建MASK R-CNN模块，利用生成的掩模信息对ORB特征点进行筛选；

所述的MASK R-CNN模块框架：

MASK R-CNN模块并行完成目标分类、目标定位、语义分割三项任务；主要由卷积神经网络构成，通过多分支子网络并行实现端到端的实例分割；

所述的MASK R-CNN模块的构建过程如下：

步骤一：将图像输入主干网络，生成特征图；

主干网络的卷积层由MASK R-CNN整体共享，主要的功能是学习并提取图像特征；使用深度残差网络以及特征金字塔网络相互结合构建主干网络；

步骤二：将特征图输入区域提议网络，所述的区域提议网络首先利用3*3的卷积层对原图进行滑动扫描，为图像的每个像素生成锚框，然后将锚框送入分类分支以及边框回归分支，分类分支输出每个锚框存在物体的概率；边框回归分支将锚框进行伸缩平移，使锚框更接近的回归于标记好的真实边界框，输出初步的候选框坐标及其高与宽；最后在区域提议网络末端综合两分支的结果，并利用非极大值抑制对锚框进行初步筛选，最终获得基于原图的候选区域；

步骤三：利用ROI Align对区域提议网络输出的候选区域的图像进行处理。ROIAlign使用双线性内插的方法将基于原图的矩形候选框坐标映射到特征图上，并使所有映射到特征图的候选区域图像大小一致，使之符合全连接层的输入要求；

步骤四：将经过ROI Align层处理的候选区域图像送入目标检测分支及掩模预测分支，完成分类、定位、以及掩模预测任务；掩模预测利用全卷积神经网络对候选区域图像的每一个像素点进行分类，生成物体的掩模，实现对候选区域图像的语义分割。

(3)利用实例分割掩模信息进行图像特征匹配并估算机器人位姿；解决相邻两帧图像特征点集数据的关联问题，即确定当前所观察的路标点是否与上一时刻的路标点为同一个；ORB特征点主要是通过相邻两帧图像特征点描述子的相似度进行匹配，经过特征匹配获得一组组匹配的特征点对，如式1所示：

其中，^tP表示图像帧F₁的所有特征点集合，^t+1P表示图像帧F₂的所有特征点集合。

MASK R-CNN利用边界框将视觉图像划分成有语义标记的不同实例区域，在进行特征匹配时，只需要在同一实例区域进行匹配，根据SLAM数学模型，这些特征匹配点对的变换关系如式(2)所示：

其中R为机器人位姿旋转变换矩阵，T为机器人位移矩阵，^tP_i与^t+1P_i为t时刻到t+1时刻的特征点匹配点对；

采用最小化重投影误差的方法来求解位姿，如式3所示：

其中，^tP表示图像帧F₁的所有特征点集合，^t-1P表示图像帧F₂的所有特征点集合；R为移动机器人的旋转矩阵，T为移动机器人的平移向量,N表示特征点对的数目。

(4)利用语义信息进行回环检测；利用图像分类的语义信息构建语义地图，并实现回环检测。

利用语义信息构建语义地图，MASK R-CNN对机器人在运动过程中检测到的物体打上语义标签，并结合SLAM框架生成带有高级语义标签的语义地图。

本发明是一种基于实例分割的视觉SLAM算法，本发明可应用于移动机器人的导航控制系统，实现移动机器人的的自主定位导航，使移动机器人具备执行智能化任务的能力。本发明将MASK R-CNN作为一个独立的分支引入到传统的视觉SLAM框架当中，在对视觉图像进行特征提取的同时，利用MASK R-CNN完成实例分割，根据实例分割的掩模信息以及边界框信息对图像特征点进行筛选并优化了特征匹配的过程，提高了机器人位姿估算的精度以及计算的效率，同时本发明还利用MASK R-CNN对视觉图像进行目标检测，并对检测到的物体进行像素级别的分类，赋予三维点云地图语义信息，构建具有语义信息的三维点云地图，满足移动机器人执行更高级的智能化任务的需求。

本发明提供的基于实例分割的视觉SLAM方法，将MASK R-CNN作为一个独立的分支引入到传统的视觉SLAM框架当中。其主要效果如下：：

(1)利用实例分割可以辅助完成SLAM的定位过程，提高了定位的精确性、鲁棒性以及定位速度。本文在对视觉图像进行特征提取的同时，利用MASK R-CNN完成实例分割，利用实例分割的掩模信息以及边界框信息对图像特征点进行筛选并优化了特征匹配的过程，提高了机器人位姿估算的精度以及计算的效率。

(2)利用实例分割的语义信息能够构建具有语义信息的三维点云地图。MASK R-CNN能够对视觉图像进行目标检测，并对检测到的物体进行像素级别的分类，赋予三维点云地图的语义信息，满足了移动机器人执行更高级的智能化任务的需求。

附图说明

图1为发明的流程示意图；

图2为MASK R-CNN模块框架；

图3为传统算法的特征匹配效果；

图4为采用本发明的例分割优化的特征匹配效果；

图5为移动机器人的运行轨迹。

具体实施方式

结合实施例说明本发明的技术方案。

本发明主要分为两大模块，分别是定位与构图模块以及实例分割模块。其中实例分割模块主要负责对视觉图像序列进行目标检测与语义信息提取，为定位与构图模块提供约束信息，提高定位精度与定位效率，同时为构图提供语义信息。

本发明的具体流程方案如图1所示。

方案的具体流程如下：

(1)对深度相机采集的的视觉图像进行ORB特征点提取。图像特征点是那些经过算法分析出来的，含有丰富局部信息的点，本发明采用图像的ORB(Oriented FAST andRotated BRIEF)特征作为视觉SLAM的路标特征，ORB特征是目前最具代表性的实时图像特征。它改进了FAST检测子不具有方向性的问题，并采用速度极快的二进制描述子BRIEF(Binary Robust Independent Elementary Features)，使图像特征提取整个环节大大提速。

(2)构建MASK R-CNN网络。在对视觉图像进行特征提取时，将生成大量的ORB特征点，这些特征点所包含的信息是冗余的，大量的特征点不仅会加大系统的运算量，更会导致误匹配概率加大。因此本发明构建MASK R-CNN模块，利用其生成的掩模信息对特征点进行筛选；MASK R-CNN模块框架如图2所示

MASK R-CNN模块可以并行完成目标分类、目标定位、语义分割三项任务。不同于传统的语意分割，基于MASK R-CNN框架的实例分割不仅仅可以标注出图像中物体的语义信息，还能够区分同一类物体的不同个体，并可以用边界框(Bounding Box)精确的定位目标物体在图像中的位置，这对于SLAM这种要求检测精度较高的任务来说十分重要。MASK R-CNN主要由卷积神经网络构成，通过多分支子网络并行实现端到端的实例分割。本发明MASKR-CNN模块的构建过程如下：

步骤一：将图像输入主干网络(Backbone Network)，生成特征图(Feature Maps)。主干网络的卷积层由MASK R-CNN整体共享，主要的功能是学习并提取图像特征。本文使用深度残差网络(ResNet以及特征金字塔网络(Feature Pyramid Networks，FPN)相互结合构建主干网络。

步骤二：将特征图输入区域提议网络(Region Proposal Network，RPN)，RPN是一个轻量级的卷积神经网络结构。该网络首先利用3*3的卷积层对原图进行滑动扫描，为图像的每个像素生成锚框(Anchor Box)，然后将锚框送入分类分支以及边框回归分支(BboxReg)，分类分支输出每个锚框存在物体的概率；而边框回归分支将锚框进行伸缩平移，使它更接近的回归于标记好的真实边界框(Ground Truth box)，输出初步的候选框坐标及其高与宽。最后在RPN末端综合两分支的结果，并利用非极大值抑制(Non-MaximumSuppression，NMS)对锚框进行初步筛选，最终获得基于原图的候选区域(RegionProposal)。

步骤三：利用ROI Align对RPN输出的候选区域的图像进行处理。ROI Align使用双线性内插的方法将基于原图的矩形候选框坐标映射到特征图上，并使所有映射到特征图的候选区域图像大小一致，使之符合全连接层(Fully Connected layers，FC layers)的输入要求。

步骤四：将经过ROI Align层处理的候选区域图像送入目标检测分支及掩模预测分支，完成分类、定位、以及掩模预测任务。其中掩模预测是利用全卷积神经网络(FullyConvolutional Networks，FCN)对候选区域图像的每一个像素点进行分类，生成物体的掩模，实现对候选区域图像的语义分割。

利用实例分割掩模信息并图像特征匹配并估算机器人位姿。特征匹配解决的是相邻两帧图像特征点集数据的关联问题，即确定当前所观察的路标点是否与上一时刻的路标点为同一个。特征点主要是通过相邻两帧图像特征点描述子的相似度进行匹配。经过特征匹配获得一组组匹配的特征点对，如式1所示：

MASK R-CNN利用边界框将视觉图像划分成有语义标记的不同实例区域，在进行特征匹配时，只需要在同一实例区域进行匹配，这极大的减少了特征匹配点对的个数，根据SLAM数学模型，这些特征匹配点对的变换关系如式(2)所示：

其中R为机器人位姿旋转变换矩阵，T为机器人位移矩阵，^tP_i与^t+1P_i为t时刻到t+1时刻的特征点匹配点对。在特征匹配的过程中，无法避免误差的产生，为了尽量准确的获得该时刻移动机器人的位姿数据，本发明采用最小化重投影误差的方法来求解位姿。如式3所示：

利用语义信息进行回环检测；传统的SLAM算法使用对特征描述进行聚类的方法来建立词袋(Bag of Words,BOW)模型，而MASK R-CNN可以利用图像分类的高级语义信息更直接而准确的建立词袋模型，并实现回环检测。

利用语义信息构建语义地图，MASK R-CNN可以对机器人在运动过程中检测到的物体打上语义标签，并结合SLAM框架生成带有高级语义标签的语义地图。基于特征点法的视觉SLAM算法通常构建的为稀疏特征地图，这种地图无法具体的描述机器人当前所处的环境。随着计算机硬件的发展，构建稠密的三维点云地图成为了当前的主流。这种地图虽然可以直观的反应环境信息，但对于计算机来说，该地图只不过由三维点云堆积而成，机器人无法凭借该地图执行更高级的智能任务。本发明利用MASK R-CNN的语义信息构建了具有语义信息的点云地图。

为验证本发明方法的有效性和正确性，对基于实例分割的SLAM算法进行实验验证。实验采用两种数据集，一种是MSCOCO数据集，另一个是TUM数据集。MSCOCO数据集是微软专门为图像识别、检测以及语义分割所设计的大型图像数据集，包含超过30万张图片，200多万个实例以及80个对象类别。但该数据集的图像并不具备时间连续性，只使用该数据集无法满足实验要求。因此本文使用TUM的freiburg1_room数据集进行扩充。TUM数据集是德国慕尼黑工业大学利用深度相机采集的一组连续的室内图像集，提供了深度相机参数以及相机在室内运动的真实轨迹(ground-truth)，可以满足本文实验的需求。为了提高MASK R-CNN在视觉SLAM算法框架中的表现力，本发明在使用MSCOCO数据集训练的基础上，又使用TUM数据集对MASK R-CNN的网络参数进行微调。TUM数据集没有对图像进行标注且包含的场景单一，因此本发明首先利用labelme工具对选取的图像进行标注并生成掩模，然后对图像进行裁剪、缩放以及旋转等处理，以扩充数据集。

为了验证本发明是否可以提高特征点匹配的精度以及特征点匹配的效率，使用传统的ORB SLAM方法与本发明方法法进行对比，首先从TUM数据集选取两张连续的图片，将其分为完全相同的两组，其中一组输入传统的ORB-SLAM算法直接进行特征匹配，特征匹配效果如图3所示。可以看出一副图片提取得到的特征点数目是巨大的，且在特征匹配时存在很多误匹配点。另一组输入本文的算法框架，在进行特征提取的同时，利用实例分割进行特征点筛选并优化特征匹配过程，匹配结果如图4所示。经过实例分割优化后的特征匹配结果较为精确，且匹配的特征点大大减少，匹配效率较高。

为进一步验证本发明的作用效果，通过移动机器人的运行轨迹进行验证本方法的精度，视觉SLAM能够实时估算出移动机器人位姿，若将各个时刻的机器人位姿连接起来，就形成了机器人运行轨迹。TUM数据集提供了采集图像时机器人运动的真实轨迹，因此通过比较SLAM估算得到的运行轨迹与真实轨迹的差值，就可以验证本发明SLAM算法的有效性。本实验通过对比传统的ORB SLAM算法与本文算法的运行轨迹，来验证本文算法的有效性。

表1为本发明优化算法与传统算法的运动轨迹差值对比

在图5和表1中，表示真实轨迹与SLAM算法估算的运行轨迹的差值，经过对比，本文算法推算的机器人运行轨迹更接近于真实轨迹。

Claims

1.基于实例分割的视觉SLAM方法，其特征在于，包括以下步骤：

所述的MASK R-CNN模块框架：

(3)利用实例分割掩模信息进行图像特征匹配并估算机器人位姿；解决相邻两帧图像F₁与F₂特征点集数据的关联问题，即确定当前所观察的路标点是否与上一时刻的路标点为同一个；ORB特征点主要是通过相邻两帧图像特征点描述子的相似度进行匹配，经过特征匹配获得一组组匹配的特征点对，如式1所示：

其中，^tP表示图像帧F₁的所有特征点集合，^t-1P表示图像帧F₂的所有特征点集合；

其中，^tP表示图像帧F₁的所有特征点集合，^t-1P表示图像帧F₂的所有特征点集合；R为移动机器人的旋转矩阵，T为移动机器人的平移向量；

采用最小化重投影误差的方法来求解位姿，如式3所示：

其中，^tP表示图像帧F₁的所有特征点集合，^t-1P表示图像帧F₂的所有特征点集合；R为移动机器人的旋转矩阵，T为移动机器人的平移向量,N表示特征点对的数目；

2.根据权利要求1所述的基于实例分割的视觉SLAM方法，其特征在于，步骤(2)所述的MASK R-CNN模块的构建过程如下：

步骤一：将图像输入主干网络，生成特征图；

步骤三：利用ROI Align对区域提议网络输出的候选区域的图像进行处理；ROI Align使用双线性内插的方法将基于原图的矩形候选框坐标映射到特征图上，并使所有映射到特征图的候选区域图像大小一致，使之符合全连接层的输入要求；