CN112132897A

CN112132897A - 一种基于深度学习之语义分割的视觉slam方法

Info

Publication number: CN112132897A
Application number: CN202010978343.0A
Authority: CN
Inventors: 艾勇保; 芮挺; 赵晓萌; 方虎生; 符磊; 何家林; 陆明; 刘帅; 赵璇
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-25

Abstract

一种基于深度学习之语义分割的视觉SLAM方法，涉及计算机视觉传感的技术领域。本发明通过RGB‑D深度相机采集图像，进行特征提取和语义分割，得到提取的ORB特征点与像素级语义分割结果；通过基于多视图几何动静点检测算法，检测出运动物体对象，删除ORB特征点；执行初始化建图：顺次执行跟踪、局部建图以及回环检测线程，根据关键帧位姿和静态背景修复技术获得的合成图像，构造出静态场景的八叉树三维点云地图，最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法。本发明提高了动态场景下视觉SLAM的相机位姿估计和轨迹评估的精度，增强了动态场景下传统视觉SLAM系统性能的鲁棒性、稳定性以及精确性。

Description

一种基于深度学习之语义分割的视觉SLAM方法

技术领域

本发明涉及计算机视觉传感的技术领域，尤其涉及结合了语义分割和基于多视图几何的动静点检测算法的视觉SLAM方法。

背景技术

SLAM，全称是Simultaneous Localization and Mapping，即同时定位与建图，它是一些机器人应用的基础技术，例如工业自动化机器人、自动驾驶汽车和无人机避障导航等。上世纪八十年代中期，Smith等人率先提出SLAM应用技术。这项计算机视觉技术指的是自主机器人在未知的场景中运动时，采用特别的外部传感器获得环境信息数据并且结合先前的位置信息来估计它当前的运动位姿，与此同时逐步建立起增量式的外部环境地图。经过几十年的发展进步，SLAM被视为一项实现完全自主移动的智能机器人的里程碑式的技术。如今，可以肯定地说，至少在理论上关于SLAM技术的一些问题已经通过多种方式得到了解决。

实际上，目前流行的RGB-D SLAM算法都是基于静态环境假设。它假设在机器人遍历的环境中不存在动态的物体对象。因为运动对象很可能会阻碍SLAM前端视觉里程计中数据关联的过程。当把错误的数据输入到SLAM的后端优化过程，则会严重损害这个过程，最终会导致定位和建图过程出现灾难性的错误。通常情况下，SLAM系统前端视觉里程计中的数据关联由两个部分组成：短期数据关联和长期数据关联。其中，短期数据关联用于确定相邻的位姿估计，而长期数据关联对回环检测产生影响。以基于稀疏特征的RGB-D SLAM系统为例，标准的鲁棒估计器，例如，常用于SLAM前端视觉里程计中的Random Sample Consensus(RANSAC)算法以拒绝异常的数据特征关联。但是，当动态物体对象在相机视野中出现或是占据了整个视野时，SLAM系统就很难可靠地去除动态物体对象带来的异常值。在这种情况下，不可避免地将异常值(离群值)用于估计机器人的位姿，这样的结果是错误的。当机器人再次返回到先前访问过的地方时，动态物体对象消失了，此时再进行相同的场景匹配，然而，这对于机器人来说却具有不同的视觉外观，就无法实现回环检测过程。反之，若机器人在某个地方的首次探索中消除了视野中的动态物体对象的干扰，则可以仅使用场景中静态特征点来进行图像匹配，这将获得可靠的回环检测结果。而且，只使用静态特征点来获得机器人位姿估计是更加准确的。因此，消除场景中的动态物体对象干扰能够减少错误的数据关联，这对于提高视觉SLAM系统的性能至关重要。

在过去的几十年技术发展过程中，一些令人印象深刻的针对特定场景的SLAM系统得到了不断发展并且取得了良好的性能。尽管如此，仍然存在许多亟待解决的问题，例如，在动态环境下如何应对运动的物体对象，如何使机器人充分理解外部环境并且完成更高级的类人任务。

发明内容

本发明的一种基于深度学习之语义分割的视觉SLAM方法，提高了动态场景下视觉SLAM的位姿估计和轨迹评估的精度，且精度优于现有的方法，增强了动态场景下传统视觉SLAM系统的性能的鲁棒性、稳定性以及精确性。

一种基于深度学习之语义分割的视觉SLAM方法，包括如下步骤：

步骤(1)通过RGB-D深度相机采集图像，并且对采集到的原始RGB图像进行特征提取和语义分割，得到提取的ORB特征点与像素级语义分割结果；

步骤(2)根据提取的特征点与语义分割结果，通过基于多视图几何的动静点检测算法，检测出真正属于运动物体对象的分割掩码，然后删除位于动态对象的分割掩码区域内的ORB特征点，以彻底消除动态对象的干扰；

步骤(3)初始化建图过程，顺次执行跟踪、局部建图以及回环检测线程，根据关键帧位姿和静态背景修复技术获得的合成图像，从而构造出静态场景的八叉树三维点云地图，最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法。

优选的是，本发明步骤(1)的具体过程如下：原始的RGB图像首先经过DUNet深度卷积神经网络处理，该语义分割网络能够获得像素级的先验动态对象的分割掩码，对图像帧中潜在的动态对象完成了语义分割任务，然后在此阶段提取图像的ORB特征点，并且利用图像帧中的静态部分来估计相机的位姿。

在视觉里程计中加载的DUNet分割网络模型是基于PASCAL VOC数据集或MS COCO数据集进行训练的，DUNet网络的输入是尺寸为h×w×3的原始RGB图像，网络的输出是尺寸为h×w×n的矩阵，其中h表示图像的像素高度，w表示图像的像素宽度，n表示图像中动态对象的数量；对于每个输出通道i∈n，获取二进制语义分割掩码，通过将所有通道合并成为一个通道，得到出现在图像帧中所有动态对象的语义分割掩码。

优选的是，本发明的DUNet是建立在U-Net基础之上，并且使用DeformableConvNet(Deformable Convolutional Network，可变形的卷积块)作为编码和解码单元，DUNet的网络结构为U型架构，两侧对称结构分别是编码器和解码器；DUNet分割网络中采用了三种图像与处理方法：单通道图像、归一化和对比度有限的自适应直方图均衡以及gamma校正。

优选的是，本发明步骤(2)中，根据提取的ORB特征点与语义分割结果，通过基于多视图几何的动静点检测算法，检测出真正属于运动物体对象的分割掩码，然后彻底删除位于动态对象的分割掩码区域内的ORB特征点，具体方法如下：

当局部地图中的点投影到当前帧的视角时，其测量的深度值应该和投影的深度值相差不大，若相差较大，则断定为有动态物体遮挡了当前帧的部分视野；对于每个输入图像帧，检索前面5个和其具有最高相似度的关键帧，计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度z_pd；每个关键特征点x对应的空间3D点为X，计算x和x′的反投影之间的视差角α，如果视差角大于30°，则该点可能会被遮挡，在后续计算中将被忽略；若测得当前帧剩余关键点的深度为z′，并且计算其投影深度为z_pd，若投影误差Δz＝z_pd-z′超过设定的阈值τ_z，那么关键点x被认为是属于动态对象的，从而能够检测出图像帧中被语义分割方法所忽略的动态对象。

优选的是，本发明步骤(3)中，初始化建图过程的方法如下：

将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来，在ORB特征点提取完毕后，首先判断是否检测到动态物体，若没有则直接进行描述子的提取；若检测到动态物体的存在，那么遍历所检测到的ORB特征点是否落在动态物体的轮廓区域内，如果落在该区域内，则赋予动态物体二级语义信息--运动，否则赋予动态物体二级语义信息--静止；对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。

若二级语义信息为运动，那么将动态物体所在的语义分割区域内的ORB特征点作为外点，进行全部剔除后，则得到静态特征点集合，然后对“纯净”的特征点进行描述子的提取；若二级语义信息为静态，则直接提取特征点的描述子。

优选的是，本发明步骤(3)中的顺次执行跟踪、局部建图及回环检测的方法如下：

DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上，由三个并行线程组成：跟踪线程、局部建图和回环检测线程；RGB图像和深度图像及其语义分割掩码被输入到系统中，在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子，通过在局部地图中找到匹配的特征点并且使用光束法平差(Bundle Adjustment，BA)来最小化重投影误差，进而估计相机的位姿；在系统的后端程序中，对于每个在外点剔除过程中被移除的动态对象，我们采用静态背景修复技术来修补被动态对象遮挡的背景，从而获得无动态内容干扰真实的纯静态背景环境的图像。这些合成的包含静态背景环境信息的图像能够用于诸如虚拟现实和增强现实之类的三维重建应用当中，以用于在地图构建以后进行相机位姿的重新定位和持续跟踪。在语义地图构建过程中，利用这些合成帧生成局部三维稠密点云，该局部点云将被转换并且维护在全局八叉树语义地图中。

在全局八叉树语义地图构建过程中，利用不同的颜色来表征场景中不同的物体标志。倘若环境中的物体对象超出了语义知识库的范围，则直接使用物体的原色建在点云地图中。

首先，我们将图像帧中静态的语义分割掩码区域作为物体ID标志，如果在连续的图像帧中该物体为首次出现，则为其作新的ID标志。物体ID标志的预测过程基于以下几何假设：如果八叉树地图中的物体与图像帧中的分割掩码区域同属一个物体对象，那么其投影应该与分割掩码区域重叠。因此，我们采用公式(1)计算两个区域之间的交集IOU以表示它们的重叠程度：

其中，R₁，R₂分别表示分割掩码区域和八叉树地图中物体的投影区域，当我们判定两个区域是重叠的时候，进一步采用下式评估它们之间的深度一致性：

P(R₁|R₂)＝IoU(R₁R₂)*e^-Err (2)

式中，深度误差Err表示在重叠区域内掩码区域和投影区域深度值之间的MSE，其值如等式(3)：

其中，D_o(u,v),D_p(u,v)分别表征在像素点(u,v)处掩码区域和投影区域的深度值，N是投影到重叠区域中的点云的数量，如果深度一致性高于阈值θ_d，则我们将投影区域的物体ID标志分配给语义分割掩码区域，相反，我们为该区域分配了一个新的物体ID标志。

优选的是，本发明全局八叉树语义地图的每个节点属性由6维向量表示，分别是三维空间坐标x，y，z，物体标志i，物体颜色信息c和占据概率值p，以概率形式表达八叉树的节点是否被占据的信息，动态地构建语义地图中的物体对象信息，使用log-odds评分方法来进行占据概率的描述；假设某体素为n，占据概率p的取值范围为0～1，q∈i为概率对数值，则它们之间由logit变换表示如下：

其反变换为

假设第n个体素的观测数据为w，那么在t时刻某个节点的概率对数值为L(n|w_1:t)，t+1时刻的概率对数值可以表示为

L(n|w_1:t+1)＝L(n|w_1:t-1)+L(n|w_t) (6)

通过反变换能够获得该体素的概率值，当由点云转换为全局八叉树语义地图时，每一个体素初始化概率为0.5，概率对数值为0，当不断观测到“占据”时，则其概率对数值增加0.1，否则就让其减小一个0.1，当其概率超过阈值0.8时，就认为该体素是稳定存在的静态物体，才会被显示在八叉树地图中；假设在RGB-D图像中观测到某个像素带有深度值d，这表明在深度值对应的空间点上观察到了一个占据数据，并且从相机光心出发到这个点的线段上，应该是没有物体存在的，实时地对全局八叉树语义地图进行更新，并且能够处理运动的物体对象。

本发明采用上述技术方案，与现有技术相比具有如下优点：

(1)本发明采用了一种结合深度学习方法的新颖的RGB-D SLAM系统，以减少运动物体对相机位姿估计的影响。结合语义分割和基于多视图几何的动静点检测算法的使用作为视觉里程计的数据预处理阶段，以过滤出与动态对象目标有关的数据。

(2)本发明采用了一种静态背景修复技术，用于修复图像中被运动物体对象遮挡的静态环境背景。然后，将这些合成图像帧用于生成语义八叉树三维点云地图。

(3)本发明提高了动态场景下视觉SLAM的位姿估计和轨迹评估的精度，且精度优于现有方法，增强了动态场景下传统视觉SLAM系统的性能的鲁棒性、稳定性以及精确性。

附图说明

图1是本发明外点剔除的流程图。

具体实施方式

一种基于深度学习之目标检测的视觉SLAM方法，实现步骤如下：

具体过程如下：

原始的RGB图像首先经过DUNet深度卷积神经网络处理，该语义分割网络能够获得像素级的先验动态对象的分割掩码，例如，行人、汽车和奔跑的狗等。于是，对图像帧中潜在的动态对象完成了语义分割任务，然后在此阶段提取图像的特征点，并且利用图像帧中的静态部分来估计相机的位姿，另外这个阶段的跟踪算法更加容易，计算量也较小。最初DUNet网络是为了对人体眼底视网膜血管复杂的结构进行精确地语义分割，从而辅助诊断病理性疾病而提出的。它是基于FCN架构的神经网络，极大地增强了深度神经网络的分割能力。DUNet建立在U-Net基础之上，并且使用DeformableConvNet(DeformableConvolutional Network，可变形卷积块)作为编码和解码单元。它的网络结构具有U-Net类似的U型架构，两侧对称结构分别是编码器和解码器，原始的U-Net卷积层已由DeformableConvNet所代替。DUNet分割网络中采用了三种图像与处理方法：单通道图像、归一化和对比度有限的自适应直方图均衡(CLAHE)以及gamma校正。DUNet分割网络的编码阶段使用更加丰富的滤波器对较低维度的输入图像进行编码，而解码阶段旨在通过对低维度特征图进行上采样和合并来执行编码的逆过程，从而实现精确的分割定位。

在视觉里程计中加载的DUNet分割网络模型是基于PASCAL VOC数据集训练的。该数据集用于分割任务时能够识别20类物体(除背景以外)，在实际应用中，常见的潜在动态物体对象几乎已经包括这20个类别中。如果在真实应用过程中，遇到超出Pascal VOC数据集的类别范畴的实例，我们也可以使用更大的MS COCO数据集来训练我们的深度学习网络。DUNet网络的输入是尺寸为h×w×3的原始RGB图像，网络的输出是尺寸为h×w×n的矩阵，其中h表示图像的像素高度，w表示图像的像素宽度，n表示图像中动态对象的数量。对于每个输出通道i∈n，获取二进制语义分割掩码。然后，通过将所有通道合并成为一个通道，可以获取出现在图像帧中所有的动态对象的语义分割掩码。另外，在DDL-SLAM系统外点剔除的过程中，实际上仅仅需要动态对象的掩码轮廓，若对图像帧中所有的像素都进行语义分割，那么分割后的图像帧中的区域划分会比较混乱，不利于获取动态对象的语义分割掩码过程。而且，我们采用边缘腐蚀膨胀和概率累计的方法来弥补语义分割不精确的缺陷。

具体过程如下：

尽管大多数动态对象都可以使用DUNet语义分割网络区分出来，但是仍有少数物体对象无法通过这种方式检测到。这是由于它们不是先验动态的对象或者即使属于先验动态的物体对象，但在此刻的场景中它们暂时保持静止不动。此外，还可以检测到大多数情况下都是静态的并且未在语义分割网络阶段设置为动态的，而在事实上为动态的新增添的物体对象。

在计算机视觉应用领域中，多视图几何算法主要指的是采用若干幅连续的二维图像来进行三维重构。在这个理论思想基础之上，我们尝试了一种基于多视图几何的动静点检测算法。该算法的核心思想是，当局部地图中的点投影到当前帧的视角时，其测量的深度值应该和投影的深度值相差不大，否则，就可能是有动态物体遮挡了当前帧的部分视野。对于每个输入图像帧，寻找前面5个和其具有最高相似度的关键帧。然后，计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度z_pd。另外，每个关键特征点x对应的空间3D点为X，计算x和x′的反投影之间的视差角α，如果视差角大于30°，则该点可能会被遮挡，此后将被忽略。在TUM RGB-D数据集中，我们发现当视差角大于30°时，静态的物体会被误认为是动态的。于是，我们测得当前帧其余关键点的深度z′，并且计算投影深度z_pd，若投影误差Δz＝z_pd-z′超过设定的阈值τ_z，关键点x被认为属于动态对象。至此，能够发现图像帧中被语义分割方法所忽略的动态对象。

步骤(3)初始化建图过程，顺次执行跟踪、局部建图以及回环检测线程，根据关键帧位姿和静态背景修复技术获得的合成图像，从而构造出静态场景的八叉树三维点云地图，最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法，被命名为DDL-SLAM系统。

具体过程如下：

动态场景中视觉SLAM的核心问题是剔除动态点。然而，如果只使用语义分割网络来区分图像帧中的静态和动态区域，则当先验动态对象处于静止状态(例如，停放的汽车或坐着看书的人)时，在大的时间跨度进行地图构建的过程中，单纯采用语义分割的方法将会失效。另一方面，在极富挑战性的场景中，运动对象几乎可以覆盖整个图像，使用RANSAC算法进行处理，仍然会有一些剩余的属于动态对象的特征点被误认为是内点，导致在后续的位姿估计过程中引入误差。正因为如此，我们将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来，以准确可靠地去除图像帧中的动态点，减少相机位姿估计、轨迹评估和三维地图构建的误差。在本发明的方法中，我们以“人”为示例的动态对象阐释动态特征点剔除的过程。在ORB特征点提取完毕后，首先判断是否检测到“人”，若没有则直接进行描述子的提取。若检测到人的存在，那么遍历所检测到的动态点是否落在人的轮廓区域内，如果落在该区域内，则赋予人二级语义信息--运动，否则赋予人二级语义信息--静止。在这里，考虑到语义分割边缘的不完整性，对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。若二级语义信息为运动，那么将人所在的语义分割区域的ORB特征点作为外点，进行全部剔除后得到静态特征点集，然后对“纯净”的特征点进行描述子的提取。如果二级语义信息判定为静态，那么直接提取描述子。最后，执行相机位姿估计等其他后续操作步骤。

DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上，主要由三个并行线程组成：跟踪线程、局部建图和回环检测线程。RGB和深度图像及其语义分割掩码被输入到系统的这个阶段。在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子。然后，通过在局部地图中找到匹配的特征点并且使用光束法平差(Bundle Adjustment，BA)来最小化重投影误差，进而估计相机的位姿。此外，在系统的后端程序中，对于每个在外点剔除过程中被移除的动态对象，我们采用静态背景修复技术来修补被动态对象遮挡的背景，从而可以获得无动态内容干扰真实的纯静态背景环境的图像。这些合成的包含静态背景环境信息的图像能够用于诸如虚拟现实和增强现实之类的三维重建应用当中，以用于在地图构建以后进行相机位姿的重新定位和持续跟踪。然后，在语义地图构建过程中，利用这些合成的帧生成局部三维稠密点云，该局部点云将被转换并且维护在全局八叉树语义地图中。

在八叉树语义地图构建过程中，利用不同的颜色来表征场景中不同的物体标志。倘若环境中的物体对象超出了语义知识库的范围，那么则直接使用物体的原色建在点云地图中。首先，我们将图像帧中静态的语义分割掩码区域作为物体ID标志，其目的是为了在八叉树地图中找到对应的物体ID，如果在连续的图像帧中该物体为首次出现，则为其作新的ID标志。物体ID标志的预测过程基于以下几何假设：如果八叉树地图中的物体与图像帧中的分割掩码区域同属一个物体对象，那么其投影应该与分割掩码区域重叠。因此，我们采用公式(1)计算两个区域之间的交集(IOU)以表示它们的重叠程度：

其中，R₁，R₂分别表示分割掩码区域和八叉树地图中物体的投影区域。当我们判定两个区域是重叠的时候，进一步采用下式评估它们之间的深度一致性：

P(R₁|R₂)＝IoU(R₁R₂)*e^-Err (2)

式中，深度误差Err表示在重叠区域内掩码区域和投影区域深度值之间的MSE(Mean Squared Error,均方误差)，其值如等式(3)：

其中，D_o(u,v),D_p(u,v)分别表征在像素点(u,v)处掩码区域和投影区域的深度值，N是投影到重叠区域中的点云的数量。如果深度一致性高于阈值θ_d，则我们将投影区域的物体ID标志分配给语义分割掩码区域。相反，我们为该区域分配了一个新的物体ID标志。

在另一方面，八叉树语义地图的每个节点属性由6维向量表示，分别是三维空间坐标x，y，z，物体标志i，物体颜色信息c和占据概率值p。以概率形式表达八叉树的节点是否被占据的信息，因为这样可以动态地建模语义地图中的物体对象信息。文中使用log-odds评分方法来进行占据概率的描述。假设某体素为n，占据概率p的取值范围为0～1，q∈i为概率对数值，则它们之间可由logit变换表示如下：

其反变换为

L(n|w_1:t+1)＝L(n|w_1:t-1)+L(n|w_t) (6)

通过反变换能够获得该体素的概率值，当由点云转换为八叉树地图时，每一个体素初始化概率为0.5，概率对数值为0。当不断观测到“占据”时，则其概率对数值增加0.1，否则就让其减小一个0.1。当其概率超过阈值0.8时，认为该体素是稳定存在的静态物体，才会被显示在八叉树地图中。另外，假设在RGB-D图像中观测到某个像素带有深度值d，这表明在深度值对应的空间点上观察到了一个占据数据，并且从相机光心出发到这个点的线段上，应该是没有物体存在的(否则会被遮挡)。利用这个信息，可以实时地对八叉树地图进行更新，并且能处理运动的物体对象。采用这种log-odds概率融合的方式，能够较好的完成面向动态场景的语义建图任务。

实施例1

一种基于深度学习之语义分割的视觉SLAM方法：

步骤1、当获取RGB-D深度相机采集的图像数据后，提取原始RGB图像的ORB特征点，并使用DUNet语义分割网络对RGB图像进行像素级语义分割，获得语义分割掩码。我们的视觉SLAM系统中加载的DUNet的网络模型是基于PASCAL VOC数据集训练的，该数据集用于分割任务时总共可以检测到20个类别，如果在真实应用过程中，遇到超出Pascal VOC数据集的类别范畴的实例，我们也可以使用更大的MS COCO数据集来训练我们的深度学习网络。DUNet网络的输入是尺寸为h×w×3的原始RGB图像，网络的输出是尺寸为h×w×n的矩阵，其中h表示图像的像素高度，w表示图像的像素宽度，n表示图像中动态对象的数量。对于每个输出通道i∈n，获取二进制语义分割掩码。然后，通过将所有通道合并成为一个通道，可以获取出现在图像帧中所有的动态对象的语义分割掩码。

步骤2、尽管大多数动态对象都可以使用DUNet语义分割网络区分出来，但是仍有少数物体对象无法通过这种方式检测到。这是由于它们不是先验动态的对象或者即使属于先验动态的物体对象，但在此刻的场景中它们暂时保持静止不动。此外，还可以检测到大多数情况下都是静态的并且未在语义分割网络阶段设置为动态的，而在事实上为动态的新增添的物体对象。根据上所述特征点与语义分割获得的分割掩码，通过多视图几何的动静点检测算法，检测出动态对象的分割掩码区域，进一步剔除这些区域内的动态特征点。

步骤3、我们将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来，以准确可靠地去除图像帧中的动态点，减少相机位姿估计、轨迹评估和三维地图构建的误差。在本发明的方法中，我们以“人”为示例的动态对象阐释动态特征点剔除的过程。在ORB特征点提取完毕后，首先判断是否检测到“人”，若没有则直接进行描述子的提取。若检测到人的存在，那么遍历所检测到的动态点是否落在人的轮廓区域内，如果落在该区域内，则赋予人二级语义信息--运动，否则赋予人二级语义信息--静止。在这里，考虑到语义分割边缘的不完整性，对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。若二级语义信息为运动，那么将人所在的语义分割区域的ORB特征点作为外点，进行全部剔除后得到静态特征点集，然后对“纯净”的特征点进行描述子的提取。如果二级语义信息判定为静态，那么直接提取描述子。最后，执行相机位姿估计等其他后续操作步骤。

如表1所示，将本发明方法与现有的传统视觉SLAM系统ORB-SLAM2在TUM RGB-D数据集上进行定量对比，其中TUM RGB-D数据集包含一个低动态场景视频序列fr3/sitting_static、rpy和静态场景视频序列fr2/desk_with_person以及四个高动态场景视频序列fr3/walking_halfsphere、rpy、static和xyz。定量对比结果表明，本发明无论是在低动态场景还是高动态场景中均具有更高的精度和鲁棒性，能更加有效地改善传统视觉SLAM系统应对动态场景的能力，提高系统在动态场景下的定位精度。

表1

两个系统的绝对位姿误差(ATE[m])对比结果

两个系统的相对位姿误差(RPE)对比结果

(a)几何平移漂移误差(MTD[m/s])结果

(b)几何旋转漂移误差(MRD[deg/s])结果

Claims

1.一种基于深度学习之语义分割的视觉SLAM方法，其特征包括如下步骤：

2.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法，其特征在于上述步骤(1)的具体过程如下：原始的RGB图像首先经过DUNet深度卷积神经网络处理，该语义分割网络能够获得像素级的先验动态对象的分割掩码，对图像帧中潜在的动态对象完成了语义分割任务，然后在此阶段提取图像的ORB特征点，并且利用图像帧中的静态部分来估计相机的位姿；

3.根据权利要求2所述的基于深度学习之语义分割的视觉SLAM方法，其特征在于上述DUNet是建立在U-Net基础之上，并且使用DeformableConvNet作为编码和解码单元，DUNet的网络结构为U型架构，两侧对称结构分别是编码器和解码器；DUNet分割网络中采用了三种图像与处理方法：单通道图像、归一化和对比度有限的自适应直方图均衡以及gamma校正。

4.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法，其特征在于上述步骤(2)中，根据提取的ORB特征点与语义分割结果，通过基于多视图几何的动静点检测算法，检测出真正属于运动物体对象的分割掩码，然后彻底删除位于动态对象的分割掩码区域内的ORB特征点，具体方法如下：

当局部地图中的点投影到当前帧的视角时，其测量的深度值应该和投影的深度值相差不大，若相差较大，则断定为有动态物体遮挡了当前帧的部分视野；对于每个输入图像帧，检索前面5个和其具有最高相似度的关键帧，计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度z_pd；每个关键特征点x对应的空间3D点为X，计算x和x′的反投影之间的视差角α，如果视差角大于30°，则该点可能会被遮挡，在后续计算中将被忽略；若测得当前帧剩余关键点的深度为z′，并且计算其投影深度为z_pd，若投影误差Δz＝z_pd-z′超过设定的阈值τ_z，关键点x被认为是属于动态对象的，从而能够检测出图像帧中被语义分割方法所忽略的动态对象。

5.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法，其特征在于上述步骤(3)中，初始化建图过程的方法如下：

将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来，在ORB特征点提取完毕后，首先判断是否检测到动态物体，若没有则直接进行描述子的提取；若检测到动态物体的存在，那么遍历所检测到的ORB特征点是否落在动态物体的轮廓区域内，如果落在该区域内，则赋予动态物体二级语义信息--运动，否则赋予动态物体二级语义信息--静止；对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓；

6.根据权利要求5所属的基于深度学习之语义分割的视觉SLAM方法，其特征在于上述步骤(3)中的顺次执行跟踪、局部建图及回环检测的方法如下：

DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上，由三个并行线程组成：跟踪线程、局部建图和回环检测线程；RGB图像和深度图像及其语义分割掩码被输入到系统中，在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子，通过在局部地图中找到匹配的特征点并且使用光束法平差来最小化重投影误差，进而估计相机的位姿；在系统的后端程序中，对于每个在外点剔除过程中被移除的动态对象，采用静态背景修复技术来修补被动态对象遮挡的背景，从而获得无动态内容干扰真实的纯静态背景环境的图像；这些合成的包含静态背景环境信息的图像用于三维重建应用当中，以用于在地图构建以后进行相机位姿的重新定位和持续跟踪；在语义地图构建过程中，利用这些合成帧生成局部三维稠密点云，该局部点云将被转换并且维护在全局八叉树语义地图中；

在全局八叉树语义地图构建过程中，利用不同的颜色来表征场景中不同的物体标志；倘若环境中的物体对象超出了语义知识库的范围，则直接使用物体的原色建在点云地图中；

P(R₁|R₂)＝IoU(R₁R₂)*e^-Err (2)

7.根据权利要求6所属的基于深度学习之语义分割的视觉SLAM方法，其特征在于全局八叉树语义地图的每个节点属性由6维向量表示，分别是三维空间坐标x，y，z，物体标志i，物体颜色信息c和占据概率值p，以概率形式表达八叉树的节点是否被占据的信息，动态地构建语义地图中的物体对象信息，使用log-odds评分方法来进行占据概率的描述；假设某体素为n，占据概率p的取值范围为0～1，

为概率对数值，则它们之间由logit变换表示如下：

其反变换为

L(n|w_1:t+1)＝L(n|w_1:t-1)+L(n|w_t) (6)