CN111968129B

CN111968129B - 具有语义感知的即时定位与地图构建系统及方法

Info

Publication number: CN111968129B
Application number: CN202010678065.7A
Authority: CN
Inventors: 杨小康; 马超
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2023-11-07
Anticipated expiration: 2040-07-15
Also published as: CN111968129A

Abstract

本发明提供了一种具有语义感知的即时定位与地图构建系统及方法，图像采集与预处理模块获取相机采集的RGB图像并进行预处理，得到预处理图；语义分割模块对预处理图进行二维语义分割，得到二维语义分割图；深度估计模块获取预处理图的深度信息，得到预处理图的深度预测图；相机位姿估计模块根据输入的预处理图及其深度预测图进行相机位姿估计，得到相机位姿矩阵；三维稠密点云重建模块对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建，并将二维语义分割图映射到三维场景的稠密点云上，完成具有语义信息的三维场景重建。本发明并且具有准确性和鲁棒性，仅靠单目相机实现了对场景的理解与重建。

Description

具有语义感知的即时定位与地图构建系统及方法

技术领域

本发明涉及定位与地图构建(SLAM)技术领域，具体地，涉及一种具有语义感知的即时定位与地图构建系统及方法。

背景技术

同步定位和建图(SLAM)是当前计算机视觉和自动驾驶领域中一个备受瞩目的研究方向，其往往应用于三维场景的重建与相机姿态的估计。近年来，旨在融合从深度相机或激光设备获得的深度图的实时SLAM方法越来越受欢迎，它们可以应用于移动机器人与无人机的导航和建图，同时适用于很多虚拟现实、增强现实等应用。除导航和建图外，SLAM还可用于三维场景的精确重建，然而这种方法的一个主要缺陷便是深度相机本身所具有的一些局限。由于大多数的深度相机仅具有有限且较短的工作范围，而且那些基于主动感测的深度相机在阳光下往往不能工作或表现不佳，因此使得其在室外环境下的三维场景重建不太精确。

通常，因为深度相机或双目相机并不像单目彩色相机那样常见，所以许多的研究都会关注在基于单个相机的稠密或半稠密的SLAM方法。这些方法往往通过在相邻的一组帧上利用小基线立体匹配的方法来估计当前相机所处视点的深度图，以此实现实时的单目三维场景重建。其一般假设相机随着时间的推移在三维空间中进行平移运动，因此可以粗略地认为成对的连续帧组成了一个双目相机。然后再通过立体匹配的方法估计深度，其通常通过颜色一致性或依靠关键点提取和匹配来执行。而单目SLAM方法的一个主要限制是其无法估计绝对尺度。事实上，即使这类方法能够十分精确地实现相机的姿态估计和三维场景的重建，其重建场景的绝对尺度也是模糊而不确定的，这大大限制了单目SLAM系统的使用。在机器人领域与增强现实的许多应用中，有一些方法提出通过将实际场景与预定义的三维模型集进行匹配来通过对象检测解决问题，其通过基于估计对象的大小来恢复初始比例，但是这些方法在场景中没有已知对象的情况下便会失效。单目SLAM方法的另一个主要限制是在发生纯旋转的相机运动时难以进行相机位姿的估计。在这种情况下，由于缺少双目立体基线而不能应用双目立体估计，因此无法获得相机的位姿信息，从而往往导致跟踪失败。

场景理解同样是计算机视觉和机器人领域研究的一个重要问题，越来越多的应用场景需要从图像中提取出相关的语义信息，例如自动驾驶、人机交互等。语义分割与模型重建作为实现场景理解的两个重要任务，其重要性不言而喻。许多场景都需要精确且高效的三维语义分割，或是赋有语义信息的三维模型，其为原始的图像或点云数据赋予一些人们认知中的某种高级含义，帮助机器能够更好地理解这个世界，从而提供更优的服务。然而相比于目前的语义分割模型在二维图像上的实现已经相对成熟，实际三维场景下的语义分割与模型重建仍存在一些局限性。常用的一些方法，例如3D卷积神经网络，其三维点云十分稀疏，难以从这些有限的数据中得到有效的学习，另一方面3D CNN相比于2D CNN在计算规模和成本上要大很多，难以应对大规模场景的语义分割与重建。

单目深度估计属于三维建模、场景理解的一部分，大多数传统方法主要是利用一些传统的几何图像法，例如利用图像边缘模糊的响应模型或是利用大气的散射模型，也有利用物体表面阴影的变化、纹理、消失点等进行深度预测。然而这些方法只能针对一些具有特定约束的场景，而对实际场景的图像而言，光照、物体表面纹理等未知因素都会对结果造成不可控制的影响。近年来，基于深度学习方法的单目深度估计成为了一种新的研究途径，其通过深度学习的方法从单张图像中解决深度预测问题。目前，已经有使用深度神经网络的算法证明了对于较高的分辨率的图像进行深度估计具备高准确率的能力，即使在缺少纹理或是具有重复纹理的情况下仍能进行高精度的深度估计。深度学习方法的另一个优点是绝对尺度可以从示例中学习并且不需要基于场景的假设或几何约束。

可以看出，上述的三个研究领域在针对实际场景下的实时定位与赋有语义信息的地图重建方面都存在各种各样的问题，而其作为自动驾驶、虚拟现实等领域的重要保证，设计一个可以同时实现基于单目相机的实时精确定位及赋有语义的三维场景重建的系统非常重要。

经过检索发现：R.Mur-Artal,J.M.M.Montiel and J.D.Tardós,"ORB-SLAM:AVersati le and Accurate Monocular SLAM System,"in IEEE Transact ions onRobotics,vol.31,no.5,pp.1147-1163,Oct.2015中，记载了一种ORB-SLAM技术，该技术中的单目SLAM系统存在无法估计绝对尺度的限制。因此，其重建场景的绝对尺度是模糊而不确定的，这大大限制了单目SLAM系统的使用。其另一个主要限制是在发生纯旋转的相机运动时难以进行相机位姿的估计。在这种情况下，由于缺少双目立体基线而不能应用双目立体估计，因此无法获得相机的位姿信息，从而往往导致跟踪失败。同时由于ORBSLAM系统仅能计算得到参照点的坐标，因此重建场景的三维点云十分稀疏，也不具有语义信息。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种具有语义感知的即时定位与地图构建系统及方法，该系统将深度神经网络预测的深度估计图与语义分割图融合入基于单目相机的同步定位和建图(SLAM)系统中，构建了一种语义的定位与地图构建系统(简称Semant ic SLAM系统)。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种具有语义感知的即时定位与地图构建系统，包括：图像采集与预处理模块、语义分割及深度估计融合模块、相机位姿估计模块以及三维稠密点云重建模块；其中：

所述图像采集与预处理模块获取相机采集的RGB图像并进行预处理，得到预处理图；

所述语义分割及深度估计融合模块分别对预处理图进行二维语义分割和深度信息预测，得到二维语义分割图和深度预测图；

所述相机位姿估计模块根据输入的预处理图及其深度预测图进行相机位姿估计，得到相机位姿矩阵；

所述三维稠密点云重建模块对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建，并将二维语义分割图映射到三维场景的稠密点云上，完成具有语义信息的三维场景重建。

优选地，所述图像采集与预处理模块还对相机进行参数标定。

优选地，所述预处理为对相机采集的RGB图像进行去畸变处理。

优选地，所述语义分割及深度估计融合模块包括：Light-Weight-RefineNet网络以及设置于Light-Weight-RefineNet网络后端的分组卷积，所述分组卷积包括两条分支，其中每一条分支均包括1x1的深度卷积和3x3的普通卷积，分别形成语义分割分支和深度估计分支，能够同时进行语义分割预测和深度信息预测；

所述语义分割及深度估计融合模块采用如下损失函数：

将Light-Weight-RefineNet网络的输出表示为：/>其中，/>表述具有参数θ_b的Light-Weight-RefineNet网络，I为输入的彩色图像，则语义分割预测值/>和深度信息预测值/>分别表示为：

其中，和/>分别为具有参数θ_s和θ_d语义分割分支和深度估计分支，然后将标准的softmax交叉熵损失用于语义分割分支，将逆Huber损失用于深度估计分支，总损耗函数L_total包含缩放因子λ：

L_total(I,G_s,G_d；θ_b,θ_s,θ_d)＝(λ·L_segm(I,G_s；θ_b,θ_s)(1-λ)·L_depth(I,G_d；θ_b,θ_d))

其中，L_segm(I,G)表示语义分割损失，L_dept(I,G)表示深度估计损失，G_s与G_d分别表示真实的语义分割结果与深度图，语义分割损失L_segm(I,G)中的(·)_ij表示像素i为第j类的概率值。

优选地，所述相机位姿估计模块采用ORB-SLAM2架构，包括：跟踪部分、局部建图部分、闭环检测部分和全局BA优化部分；其中：

所述跟踪部分获取图像ORB特征，获得相机初步位姿；更新共视图与局部关键帧，并更新局部的地图点，利用获得相机初步位姿优化相机位姿；生成新的关键帧，并将生成的新的关键帧及其位姿信息送入局部建图部分；

所述局部建图部分根据新加入的关键帧进行建图，生成和剔除地图点，并对当前关键帧和相邻关键帧进行优化和剔除；

所述闭环检查部分在每次局部建图完成后进行闭环检测，当出现闭环时进行闭环矫正，实现闭环；

所述全局BA优化部分在实现闭环后进行全局优化。

优选地，所述跟踪部分首先获取当前图像的ORB特征；若当前帧与前一帧追踪成功，则从前一帧进行初始化相机位姿，得到相机初步位置，并对相机初步位姿进行优化；若当前帧与前一帧追踪失败，则进行重新定位，将当前帧与所有关键帧做特征点匹配，得到特征点在当前相机系下的坐标，进而计算得到相机初步位姿并对相机初步位姿进行优化；之后更新共视图与局部关键帧，并更新局部的地图点，通过前期计算得到的相机初步位姿，将局部地图点投影到当前帧图像上，舍去超过图像范围的投影点，将地图点与图像特征点进行匹配，优化相机位姿；当满足如下任意一项或任意多项判断标准时，生成新的关键帧：

上一次重定位后经过至少二十帧或关键帧数少于二十帧时；

上一关键帧插入后经过至少二十帧或局部建图部分处于空闲状态时；

当前帧能够跟踪到足够多的特征点时；

当前帧跟踪特征点数大于15，并且小于90％的参考关键帧所跟踪的特征点数时。

优选地，所述局部建图部分首先将跟踪部分新生成的关键帧加入到共视图中，更新共视图并计算关键帧的词袋模型，再将关键帧加入地图中，并更新关键帧所观察到的地图点的坐标值；检查新加入的地图点并剔除一些冗余的地图点，对于每个新加入地图的点，必须满足：少于四分之一的关键帧能够观测到该点、至少被三个关键帧观测到且当前关键帧与第一个观测到该点的关键帧之间不能超过两帧；之后将当前帧图像提取到的ORB特征与相连的关键帧进行特征点匹配，即计算两张图像间满足对极匹配的特征点并将得到的匹配点进行三角化计算，创建新的地图点，而若该点在两帧图像平面上的重投影误差大于某一特定值，则剔除该点；对当前关键帧进行优化，并同时优化与当前关键帧相连的关键帧；最后剔除一些冗余的局部关键帧。

优选地，所述闭环检查部分首先检测当前关键帧和在共视图中相连的关键帧并依次计算当前关键帧与相连关键帧的词袋模型，得到最小值，通过最小值搜寻候选关键帧，并对候选关键帧做连续性检测，若在当前帧及其两个相连的关键帧中均发现某一闭环候选帧，则认为检测到闭环；当检测到闭环时进行闭环矫正，首先将重复的点进行融合，且在共视图中插入新的边形成回环，之后对当前帧及与当前帧相连的关键帧进行矫正，再将所有回环内的关键帧观察到的地图点投影到一个较小的区域中再寻找其近邻匹配；最后使用本质图并利用非线性最优化来优化位姿图，将回环误差散布到整个地图中，实现闭环。

优选地，所述全局光束法平差优化部分，在回环检测后进行全局光束法平差，实现持续建图的同时进行回环检测，当检测到闭环时，启动全局光束法平差优化，并与当前正在重建的地图融合；当处于全局光束法平差优化时若再次遇到新的闭环，则停止当前的优化并重新启动全局优化，最终将更新后的关键帧和地图点与其他关键帧和地图点相结合。

优选地，所述三维稠密点云重建模块采用相机针孔模型将相机所得到的RGB图像的二维像素点投影到三维空间，由此得到RGB-D图像的像素坐标[u,v,d]与其对应的空间点坐标[x,y,z]的关系为：

其中，f_x，f_y分别为相机在x轴和y轴的焦距，c_x，c_y分别表示相机的中心，s为深度值的缩放系数；将f_x，f_y，c_x，c_y定义为相机的内参矩阵C，则有：

其中，R，t为相机位姿，通过该映射将包含深度信息的RGB-D图像像素点投影到三维空间；之后利用相机的位姿矩阵对点云进行拼接操作，将点云拼接看作一个点云变换的过程；利用变换矩阵：

其中，变换矩阵T的上半部分为3x3的旋转矩阵R_3×3与3x1的位移矩阵t_3×1，左下角为缩放矢量；将每张图片对应得点云通过上述变换矩阵进行转换，便能得到拼接后的点云；由于真实场景下不会出现物体突然的缩放，因此将所述缩放矢量设置为0，即O_1×3。

根据本发明的另一个方面，提供了一种具有语义感知的即时定位与地图构建方法，包括：

获取相机采集的RGB图像并进行预处理，得到预处理图；

对预处理图进行二维语义分割和深度信息预测，得到二维语义分割图和深度预测图；

根据预处理图及其深度预测图进行相机位姿估计，得到相机位姿矩阵；

对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建，并将二维语义分割图映射到三维场景的稠密点云上，完成具有语义信息的三维场景重建。

优选地，采用语义分割及深度估计融合网络对预处理图进行二维语义分割和深度信息预测；所述语义分割及深度估计融合网络包括：Light-Weight-RefineNet网络以及设置于Light-Weight-RefineNet网络后端的分组卷积，所述分组卷积包括两条分支，其中每一条分支均包括1x1的深度卷积和3x3的普通卷积，分别形成语义分割分支和深度估计分支，能够同时进行语义分割预测和深度信息预测；

所述语义分割及深度估计融合网络采用如下损失函数：

优选地，所述相机位姿估计的方法为：采用RGBD图像作为输入，获取图像ORB特征，过程中直接以第一帧作初始化，获得相机初步位姿；更新共视图与局部关键帧，并更新局部的地图点，利用获得相机初步位姿优化相机位姿；生成新的关键帧；根据新的关键帧进行建图，生成和剔除地图点，并对当前关键帧和相邻关键帧进行优化和剔除；在每次局部建图完成后进行闭环检测，当出现闭环时进行闭环矫正，实现闭环；在实现闭环后进行全局优化，最终获得相机位姿估计值；所述初始化的过程不需要对极约束。

与现有技术相比，本发明具有如下有益效果：

本发明提供的具有语义感知的即时定位与地图构建系统，采用单目相机，利用深度模型预测图像深度信息，与原图像组成RGBD输入，其深度信息具有绝对尺度，且由于基线为零，无需进行匹配，解决了传统单目SLAM系统无法估计绝对尺度、无法估计缺少纹理或具有重复纹理区域的深度信息、初始化较慢、无法处理纯旋转运动等难题，并且具有准确性和鲁棒性。

本发明提供的具有语义感知的即时定位与地图构建系统，直接以第一帧作初始化，且初始化过程中无需对极约束，初始化效率高，速度快，且能够在纯旋转情况下进行初始化。

本发明提供的具有语义感知的即时定位与地图构建系统，利用深度预测模型获取各像素的深度信息，重建场景的三维点云稠密，并利用2D到3D的映射将二维图像的语义信息赋予三维点云，从而仅靠单目相机实现了对场景的理解与重建。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中所提供的具有语义感知的即时定位与地图构建系统总体框架图；

图2为本发明实施例中所采用的KITTI数据集中的道路场景图；

图3为本发明实施例中所提供的实拍校园道路场景图；

图4为本发明实施例中所提供的深度估计模块对KITTI集道路场景的深度预测图；

图5为本发明实施例中所提供的深度估计模块对实拍校园道路场景的深度预测图；

图6为本发明实施例中所提供的颜色与语义标签对应关系图；

图7为本发明实施例中所提供的校园实拍道路场景的语义分割结果；

图8为本发明实施例中所提供的相机位姿估计模块在KITTI集上的轨迹重建精确度评估图；其中，(a)为跟踪轨迹误差分布图，(b)为相机位姿误差分布图；

图9为本发明实施例中所提供的稠密点云重建模块在校园实拍场景下的局部点云重建效果图；

图10为本发明实施例中所提供的稠密点云重建模块在校园实拍场景下的整体点云重建效果图；

图11为本发明实施例中所提供的具有语义感知的即时定位与地图构建系统在校园实拍场景下的语义三维稠密点云重建效果(局部)；

图12为本发明实施例中所提供的具有语义感知的即时定位与地图构建系统在校园实拍场景下的语义三维稠密点云重建效果(整体)。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供了一种具有语义感知的即时定位与地图构建系统，该系统通过将SLAM、单目深度估计与语义分割相结合，利用单目彩色相机在实际三维场景中实现了实时精确定位并且能够进行实时的富有语义信息的三维地图的稠密点云重建，建立了语义的SLAM系统，即Semantic SLAM系统，解决了传统单目SLAM系统中初始化难、尺度不确定、无法估计相机纯旋转运动的位姿等问题。将语义信息融合在三维稠密点云中，帮助自动驾驶系统能够更好地对实际场景进行三维视觉理解；将几种实时性较好的算法，如实时语义分割算法(Light-Weight-RefineNet)等集成到系统中，保证了系统具有实时高效的性能；将传统深度预测算法与基于深度网络的深度估计算法进行比较，将基于深度网络的单目深度估计算法运用在基于ORB-SLAM框架的相机位姿估计及稠密点云的三维重建中，提升单目SLAM系统的实时定位能力与三维稠密点云重建的精确性。

Semantic SLAM系统实现基于单目彩色相机的实时精确定位与具有语义信息的三维点云地图构建，其主要包含五个模块：图像采集与预处理模块、深度估计模块、相机位姿估计模块、语义分割模块以及三维稠密点云重建模块，如附图1所示。图像采集与预处理模块将采集的RGB图像经过预处理后分别送入深度估计模块与语义分割模块，之后将得到的具有稠密深度信息的深度图与RGB图作为RGB-D输入送入相机位姿估计模块和三维稠密点云重建模块分别获得即时定位并进行三维稠密点云重建，最后将语义分割模块得到的分割图投影到三维稠密点云上，使三维稠密点云具有语义信息，完成地图的最终重建。

下面对本发明实施例所提供的具有语义感知的即时定位与地图构建系统进一步详细描述。

本发明一个实施例提供了一种具有语义感知的即时定位与地图构建系统，如图1所示，包括：

1、图像采集与预处理模块

图像采集与预处理模块用于采集图像，在图像采集前，首先对摄像头进行参数标定，之后对采集的图像做去畸变等预处理。该模块输入摄像头采集的原始图片，输出去畸变后的图片作为后续模块的输入部分。

2、语义分割及深度估计融合模块，包括语义分割分支和深度估计分支

语义分割分支实现图像的二维语义分割，输入预处理后的图像，输出该图像的二维语义分割结果。为了对实际场景进行含有语义分割信息的三维重建，首先考虑将通过三维稠密点云重建模块得到的稠密点云作三维语义分割，然而目前的三维语义分割算法都需要非常大的计算量，处理速度较慢，因此考虑对二维图像先进行二维的语义分割，再将二维语义分割的结果投射到三维稠密点云上。这种做法的好处在于，当前二维图像的语义分割技术相对成熟，分割效果良好，且相对三维点云语义分割处理速度更快。考虑到整个系统的实时性，可以选用Light-Weight-RefineNet等轻量网络作为语义分割网络的骨干网，其具有处理速度上的明显优势。

深度估计分支采用深度预测模型获取图像深度，输入预处理后的图像，输出该图像的深度预测图。将得到的深度预测图与预处理后的RGB图像一起作为相机位姿估计模块的RGB-D输入，使相机位姿估计模块直接使用第一帧进行初始化，且效率更高，绝对尺寸确定。

为实现实时性，考虑到时间成本，本实施例将语义分割和深度估计预测任务进行了联合训练，即将两个功能部分进行合并以提高处理速度。

作为一优选实施例，语义分割及深度估计融合模块，采用上述的基于MobileNet-v2分类网络的Light-Weight-RefineNet网络作为骨干网，为进一步提高处理速度，将链式残差池化(CRP)模块中的1x1的卷积改为分组卷积。在该网络后分别附加1x1的深度卷积和3x3的普通卷积，可使网络同时预测深度信息和语义信息。

将分支前的Light-Weight-RefineNet网络输出表示为：其中/>是具有参数θ_b的骨干网络，I为输入的彩色图像，则深度预测和语义预测值分别表示为：

其中和/>分别为具有参数θ_s和θ_d语义分割和深度估计分支，然后将标准的softmax交叉熵损失用于语义分割，将逆Huber损失用于深度估计，总损耗函数包含缩放因子λ：

其中，L_segm(I,G)表示语义分割损失，L_dept(I,G)表示深度估计损失，G_s与G_d分别表示真实的语义分割结果与深度图，语义分割损失L_segm(I,G)中的(·)_ij(即)表示像素i为第j类的概率值。

4、相机位姿估计模块

相机位姿估计模块实现相机的位姿信息估计，输入预处理后的连续的多帧图像以及深度估计模型中得到的对应得深度预测图，输出相机的位姿矩阵。该模块采用基于ORB-SLAM改进后的ORB-SLAM2作为主体部分。采用的RGB-D方法由于没有真实尺度的问题，也无需利用对极约束进行初始化，在目前单目深度估计模型已经能够很好的恢复深度图的情况下，利用深度模型预测的深度图与原始RGB图像结合，作为RGB-D输入。该模块针对RGB-D输入，在图像通道上提取ORB特征点，在深度通道上采用基于深度模型得到的预测深度图，基线相当于零，无需进行匹配，直接将第一帧作为关键帧，并对其位姿做初始化，直接创建初始化地图。

该模块的框架主要由四个线程构成，分别为跟踪部分，局部建图部分，闭环检测部分与全局BA(光束法平差)优化部分。

跟踪部分首先获取当前图像的ORB特征；若当前帧与前一帧能够追踪成功，则从前一帧进行初始化位姿。为了提高处理速度，假设物体进行匀速运动，通过前帧的位姿信息和位姿变化速度来推断当前帧的位姿信息，使用PnP算法估计位姿，将前帧的地图点映射到当前帧平面上，然后利用最小化重投影算法对相机位姿进行优化。若采用匀速运动模式匹配到的特征点较少，则采用关键帧方法。即先计算当前帧的词袋模型(BoW)并假设位姿为前帧的位姿，然后用字典和位姿进行特征点匹配，利用最小二乘方法优化相机位姿。若当前帧与前一帧追踪失败，则进行重新定位，将当前帧与所有关键帧做特征点匹配。即先计算当前帧的BoW，在字典里搜寻一些关键帧供选择。找出其中特征匹配点足够多的关键帧后，采用EPNP算法得到特征点在当前相机系下的坐标，然后使用ICP算法计算得到相机的位姿，并利用RANSAC的方法对位姿进行优化。之后更新共视图与局部关键帧，并更新局部的地图点，通过前期计算得到的粗略的位姿估计，将局部地图点投影到当前帧图像上，舍去超过图像范围的投影点，通过将地图点与图像特征点进行匹配，使用非线性最小二乘优化，优化相机位姿。然后判断是否生成新关键帧。判断标准如下：满足上次重定位后经过至少二十帧或关键帧数少于二十帧；满足上一关键帧插入后经过至少二十帧或局部建图部分处于空闲状态；满足当前帧能够跟踪到足够多的点；满足当前帧跟踪点数大于15，并且小于90％的参考关键帧所跟踪的点数。通过判断标准则生成新的关键帧。

在本实施例中：

获取ORB特征是为了获取特征点和描述子，用于之后的匹配(跟踪)和地图点生成。

追踪成功是指：两帧匹配成功，可设定为匹配点数量超过20个。

共视图以相机位姿作为顶点，边为两位姿之间的位置关系，权值为边的可信度，其根据观测到的空间点的个数决定。

局部关键帧即局部建图时所选取的关键帧，后文有提到选取标准。

地图点即是投影到位姿相机图像平面上与特征点描述子匹配的3D点。

局部建图部分首先将跟踪部分新加入的关键帧加入到共视图中，更新共视图并计算关键帧的BoW，再将关键帧加入地图中，并更新关键帧所观察到的地图点的坐标值。检查新加入的那些地图点并剔除一些冗余的地图点，对于每个新加入地图的点，必须满足：少于四分之一的关键帧能够观测到该点，至少被三个关键帧观测到且当前关键帧与第一个观测到该点的关键帧之间不能超过两帧。之后将当前帧图像提取到的ORB特征与相连的关键帧进行特征点匹配，即计算两张图像间满足对极匹配的特征点并将得到的匹配点进行三角化计算，创建新的地图点，而若该点在两帧图像平面上的重投影误差大于某一特定值，则剔除该点。利用局部BA对当前关键帧进行优化，并同时优化与当前关键帧相连的关键帧。最后剔除一些冗余的局部关键帧，即该帧有九成以上点能被其他三个关键帧观察到的。

闭环检查部分首先检测当前关键帧和在共视图中相连的关键帧并依次计算当前关键帧与相连关键帧的BoW，得到最小值，通过最小值在字典中搜寻替补关键帧，并对候选关键帧做连续性检测，若在当前帧及其两个相连的关键帧中均发现某一闭环候选帧，则认为检测到闭环。当检测到闭环时进行闭环矫正，首先将重复的点进行融合，且在共视图中插入新的边形成回环，之后对当前帧及与当前帧相连的关键帧进行矫正，再将所有回环内的关键帧观察到的地图点投影到一个较小的区域中再寻找其近邻匹配。最后使用本质图并利用非线性最优化来优化位姿图，将回环误差散布到整个地图中，更有效地实现闭环。

回环检测后进行全局BA，全局BA优化部分使系统一边持续建图一边进行回环检测，当检测到闭环时，启动全局BA优化，并与当前正在重建的地图融合。当处于全局BA优化时若再次遇到新的闭环，则停止当前的优化并重新启动全局优化，最终将更新后的关键帧和地图点与其他关键帧和地图点相结合。

5、三维稠密点云重建模块

三维稠密点云重建模块实现三维场景的稠密点云重建，输入部分为相机当前帧的位姿矩阵，对应帧的深度预测图以及对应的二维语义分割结果。该模块采用相机针孔模型将相机所得到的二维像素点投影到三维空间，由此得到RGB-D图像(即原RGB图像+深度预测图)的像素坐标[u,v,d]与其对应的空间点坐标[x,y,z]的关系为：

其中，f_x，f_y分别为相机在x轴和y轴的焦距，c_x，c_y分别表示相机的中心，s为深度值的缩放系数。将f_x，f_y，c_x，c_y定义为相机的内参矩阵C，则有：

其中R，t为相机位姿，通过该映射可以简单地将包含深度信息的RGB-D图像像素点投影到三维空间。之后利用相机的位姿矩阵对点云进行拼接操作，可以将点云拼接看作一个点云变换的过程。利用变换矩阵：

其中，变换矩阵T的上半部分为3x3的旋转矩阵R与3x1的位移矩阵t，左下角为缩放矢量，由于真实场景下不会出现物体突然的缩放，因此常常设置为0。将每张图片对应得点云通过上述变换矩阵进行转换，便能得到拼接后的点云。

下面结合附图及具体实施例对本发明方案进行进一步的详细说明。

具体实例：该方案可适用于道路场景下的具有语义信息的三维点云重建

如图2和3所示，在实拍校园道路与KITTI数据集的城市道路中进行具体实施，首先将输入的图像经过预处理后送入深度预测模块与语义分割模块。

深度估计模块采用基于Light-Weight-RefineNet为骨干的深度估计网络，将网络在KITTI集上进行训练，其中KITTI集包含20697幅含有深度标注的图像。采用20000幅用于训练，697幅用于测试。该算法相比其他先进的深度估计模型，参数量与浮点数计算量更少，参数量仅为2.99M，且精度并没有出现下降，非常符合SLAM系统需要的实时性，单张1200x350分辨率的图片处理仅需17毫秒。其在KITTI数据集及实拍校园道路场景下的输出如图4和图5所示。

语义分割模块选用Light-Weight-RefineNet作为语义分割网络的骨干网，其相对于其他算法，具有处理速度上的明显优势。采用在ImageNe上预训练的ResNet-50作为网络的下路并在CityScape数据集上进行调整。其包含来自五十个不同城市的道路场景和包含34种不同的语义类别。选用其中2975幅图片作为训练样本，选取500幅作为测试样本，选择其中的19类语义标签进行训练。最终训练得到的语义分割模型在CityScape数据集上达到了0.66的IoU，其仅包含29M的参数量，单张1280*720图片处理时间仅20ms。将训练好的模型应用在该模块中，对于分类得到的含有不同语义标签的灰度图进行上色。颜色与语义标签的对应关系如图6所示，语义分割结果如图7所示。将语义分割结果与原图像融合，保留其景物的纹理等信息。

相机位姿估计模块实现以ORBSLAM2为主要框架，利用原始RGB图像与深度预测图组成RGB-D输入的相机位姿估计模块在KITTI数据集进行相机轨迹重建精确度的测试如图8中(a)和(b)所示，其体现相机姿态估计模块在KITTI数据集上测试的定位准确率高，误差低，且重建的地图轨迹具有真实尺度。

稠密点云重建模块利用相机针孔模型将RGB-D图像的像素点向三维点云进行映射，利用相机位姿估计模块得到新增的关键帧和当前的相机位姿矩阵，将新插入的帧通过由相机位姿矩阵得到的变换矩阵与旧点云融合，完成点云的更新。当相机位姿估计模块检测到闭环时，点云重建模块也会相应地对闭环内的所有关键帧进行位姿更新，重新修正点云。经实验发现在深度预测图中存在天空深度预测误差较大的情况。由于天空并不需要作为SLAM定位的路标，也无需对其进行三维语义重建(实际重建过程中过滤20米外的景物)，因此可以将语义分割识别到的标注“天空”的像素点在相应的深度预测图中修正为足够远的点。在该模块中加入了网格滤波器来调整地图的分辨率，考虑到深度相机有限的深度区间及深度估计算法在远处具有较大的误差，因此加入了z轴方向的区间滤波器来过滤较远的像素点，同时保证了系统的实时性的准确性。如图9和图10所示，稠密点云重建模块很好地实现了三维点云重建功能，在局部图中将人行横道、减速带等都能非常精确地重现出来，在整体图中将整个相机运动轨迹及相机拍摄的实际景物进行了精确的重建。最终，通过将语义信息映射到三维稠密点云上，如图11和图12，最终完成具有语义信息的三维场景重建。

本发明的另一个实施例提供了一种具有语义感知的即时定位与地图构建方法，包括：

获取相机采集的RGB图像并进行预处理，得到预处理图；

作为一优选实施例，采用语义分割及深度估计融合网络对预处理图进行二维语义分割和深度信息预测；语义分割及深度估计融合网络包括：Light-Weight-RefineNet网络以及设置于Light-Weight-RefineNet网络后端的分组卷积，分组卷积包括两条分支，其中每一条分支均包括1x1的深度卷积和3x3的普通卷积，分别形成语义分割分支和深度估计分支，能够同时进行语义分割预测和深度信息预测；

语义分割及深度估计融合网络采用如下损失函数：

/>

作为一优选实施例，相机位姿估计的方法为：采用RGBD图像作为输入，获取图像ORB特征，过程中直接以第一帧作初始化，获得相机初步位姿；更新共视图与局部关键帧，并更新局部的地图点，利用获得相机初步位姿优化相机位姿；生成新的关键帧；根据新的关键帧进行建图，生成和剔除地图点，并对当前关键帧和相邻关键帧进行优化和剔除；在每次局部建图完成后进行闭环检测，当出现闭环时进行闭环矫正，实现闭环；在实现闭环后进行全局优化，最终获得相机位姿估计值；所述初始化的过程不需要对极约束。

本发明上述实施例所提供的具有语义感知的即时定位与地图构建系统及方法，将基于深度学习的深度估计模型与SLAM系统相结合以解决传统单目SLAM系统无法估计绝对尺度、无法估计缺少纹理或具有重复纹理区域的深度信息、初始化较慢、无法处理纯旋转运动等难题，并且具有准确性和鲁棒性；能够实现实时精确定位的基础上，还能够将基于深度学习的语义分割结果与三维稠密点云模型相结合，重建出具有语义信息的三维稠密点云模型，且重建结果具有绝对尺度，从而利用单目相机实现对场景的理解与重建；集成了多种实时性好、效率高的模型与算法，在公开数据集和实拍的校园道路场景下都有良好的实时定位与重建效果，为自动驾驶技术的研究与实现提供了理论基础与算法实现。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种具有语义感知的即时定位与地图构建系统，其特征在于，包括：图像采集与预处理模块、语义分割及深度估计融合模块、相机位姿估计模块以及三维稠密点云重建模块；其中：

所述三维稠密点云重建模块对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建，并将二维语义分割图映射到三维场景的稠密点云上，完成具有语义信息的三维场景重建；

所述语义分割及深度估计融合模块包括：Light-Weight-RefineNet网络以及设置于Light-Weight-RefineNet网络后端的分组卷积，所述分组卷积包括两条分支，其中每一条分支均包括1x1的深度卷积和3x3的普通卷积，分别形成语义分割分支和深度估计分支，能够同时进行语义分割预测和深度信息预测；

所述语义分割及深度估计融合模块采用如下损失函数：

其中，L_segm(I,G)表示语义分割损失，L_depth(I,G)表示深度估计损失，G_s与G_d分别表示真实的语义分割结果与深度图，语义分割损失L_segm(I,G)中的(·)_ij表示像素i为第j类的概率值。

2.根据权利要求1所述的具有语义感知的即时定位与地图构建系统，其特征在于，所述图像采集与预处理模块还对相机进行参数标定。

3.根据权利要求1所述的具有语义感知的即时定位与地图构建系统，其特征在于，所述预处理为对相机采集的RGB图像进行去畸变处理。

4.根据权利要求1所述的具有语义感知的即时定位与地图构建系统，其特征在于，所述相机位姿估计模块采用ORB-SLAM2架构，包括：跟踪部分、局部建图部分、闭环检查部分和全局光束法平差优化部分；其中：

所述全局光束法平差优化部分在实现闭环后进行全局优化。

5.根据权利要求4所述的具有语义感知的即时定位与地图构建系统，其特征在于，所述相机位姿估计模块，还包括如下任意一项或任意多项：

-所述跟踪部分首先获取当前图像的ORB特征；若当前帧与前一帧追踪成功，则从前一帧进行初始化相机位姿，得到相机初步位置，并对相机初步位姿进行优化；若当前帧与前一帧追踪失败，则进行重新定位，将当前帧与所有关键帧做特征点匹配，得到特征点在当前相机系下的坐标，进而计算得到相机初步位姿并对相机初步位姿进行优化；之后更新共视图与局部关键帧，并更新局部的地图点，通过前期计算得到的相机初步位姿，将局部地图点投影到当前帧图像上，舍去超过图像范围的投影点，将地图点与图像特征点进行匹配，优化相机位姿；当满足如下任意一项或任意多项判断标准时，生成新的关键帧：

上一次重定位后经过至少二十帧或关键帧数少于二十帧时；

当前帧能够跟踪到足够多的特征点时；

当前帧跟踪特征点数大于15，并且小于90％的参考关键帧所跟踪的特征点数时；

-所述局部建图部分首先将跟踪部分新生成的关键帧加入到共视图中，更新共视图并计算关键帧的词袋模型，再将关键帧加入地图中，并更新关键帧所观察到的地图点的坐标值；检查新加入的地图点并剔除一些冗余的地图点，对于每个新加入地图的点，必须满足：少于四分之一的关键帧能够观测到该点、至少被三个关键帧观测到且当前关键帧与第一个观测到该点的关键帧之间不能超过两帧；之后将当前帧图像提取到的ORB特征与相连的关键帧进行特征点匹配，即计算两张图像间满足对极匹配的特征点并将得到的匹配点进行三角化计算，创建新的地图点，而若该点在两帧图像平面上的重投影误差大于某一特定值，则剔除该点；对当前关键帧进行优化，并同时优化与当前关键帧相连的关键帧；最后剔除一些冗余的局部关键帧；

-所述闭环检查部分首先检测当前关键帧和在共视图中相连的关键帧并依次计算当前关键帧与相连关键帧的词袋模型，得到最小值，通过最小值搜寻候选关键帧，并对候选关键帧做连续性检测，若在当前帧及其两个相连的关键帧中均发现某一闭环候选帧，则认为检测到闭环；当检测到闭环时进行闭环矫正，首先将重复的点进行融合，且在共视图中插入新的边形成回环，之后对当前帧及与当前帧相连的关键帧进行矫正，再将所有回环内的关键帧观察到的地图点投影到一个较小的区域中再寻找其近邻匹配；最后使用本质图并利用非线性最优化来优化位姿图，将回环误差散布到整个地图中，实现闭环；

-所述全局光束法平差优化部分，在回环检测后进行全局光束法平差，实现持续建图的同时进行回环检测，当检测到闭环时，启动全局光束法平差优化，并与当前正在重建的地图融合；当处于全局光束法平差优化时若再次遇到新的闭环，则停止当前的优化并重新启动全局优化，最终将更新后的关键帧和地图点与其他关键帧和地图点相结合。

6.根据权利要求1所述的具有语义感知的即时定位与地图构建系统，其特征在于，所述三维稠密点云重建模块采用相机针孔模型将相机所得到的RGB图像的二维像素点投影到三维空间，由此得到RGB-D图像的像素坐标[u,v,d]与其对应的空间点坐标[x,y,z]的关系为：

7.一种具有语义感知的即时定位与地图构建方法，其特征在于，包括：

获取相机采集的RGB图像并进行预处理，得到预处理图；

对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建，并将二维语义分割图映射到三维场景的稠密点云上，完成具有语义信息的三维场景重建；

采用语义分割及深度估计融合网络对预处理图进行二维语义分割和深度信息预测；所述语义分割及深度估计融合网络包括：Light-Weight-RefineNet网络以及设置于Light-Weight-RefineNet网络后端的分组卷积，所述分组卷积包括两条分支，其中每一条分支均包括1x1的深度卷积和3x3的普通卷积，分别形成语义分割分支和深度估计分支，能够同时进行语义分割预测和深度信息预测；

所述语义分割及深度估计融合网络采用如下损失函数：

8.根据权利要求7所述的具有语义感知的即时定位与地图构建方法，其特征在于，所述相机位姿估计的方法为：采用RGBD图像作为输入，获取图像ORB特征，过程中直接以第一帧作初始化，获得相机初步位姿；更新共视图与局部关键帧，并更新局部的地图点，利用获得相机初步位姿优化相机位姿；生成新的关键帧；根据新的关键帧进行建图，生成和剔除地图点，并对当前关键帧和相邻关键帧进行优化和剔除；在每次局部建图完成后进行闭环检测，当出现闭环时进行闭环矫正，实现闭环；在实现闭环后进行全局优化，最终获得相机位姿估计值；所述初始化的过程不需要对极约束。