CN108665496B

CN108665496B - 一种基于深度学习的端到端的语义即时定位与建图方法

Info

Publication number: CN108665496B
Application number: CN201810236640.0A
Authority: CN
Inventors: 严超华; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2021-01-26
Anticipated expiration: 2038-03-21
Also published as: CN108665496A

Abstract

本发明公开了一种基于深度学习的端到端的语义即时定位与建图方法。通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列，处理获得连续五帧图像序列的位姿变换信息、深度信息和语义分割信息；构建带分支的多任务深度神经网络，输入到多任务深度神经网络中，训练多任务深度神经网络获得参数，采用训练后的多任务深度神经网络对连续五帧的待测图像序列进行处理，获得图像帧之间的位姿变换信息、深度信息和语义分割信息。与传统的ORB‑SLAM算法和同样基于深度学习的方法相比，本发明方法有更好的性能。

Description

一种基于深度学习的端到端的语义即时定位与建图方法

技术领域

本发明涉及图像同时定位与建图方法，具体涉及了一种基于深度学习的端到端的语义即时定位与建图方法。

背景技术

无人平台的关键技术中，环境感知和定位自身位置的功能是必不可少的。同时定位与建图算法是解决这些问题的算法中的集大成者，利用各种传感器感知周围环境和估计自身位置，在无人系统中被广泛使用。

目前，大部分同时定位与建图算法提供的都是环境的结构信息和自身的位置信息，缺少对场景的理解，往往不足以满足无人平台执行任务的需要。为了获得更加丰富的环境信息，在同时定位与建图技术上增加语义理解的功能变得尤为迫切。语义同时定位与建图可以解决很多无人平台的需求，如通过语义标注可以得到场景中的可通行区域、行人车辆等动态目标等。而现在却只有少部分工作对地图信息进行了语义理解。

另一方面，传统的同时定位与建图算法不论是特征法还是直接法，仍处于图像低层特征的阶段，不能满足实际应用中对鲁棒性、场景可扩展性的需求；而深度学习技术在很多图像理解的方向(如图像分类、目标识别、语义分割等)上都有非常大的突破。这种技术在同时定位与建图算法上的应用打破了原有基于几何的框架，利用卷积神经网络对此问题进行建模，依靠众多的网络参数来拟合传统方法上各个模块耦合的过程，以端到端的方式代替复杂的优化过程。这种方式带来了新颖的思路，但目前在性能上还不能和传统方法相提并论。

发明内容

本发明的目的在于提供一种基于深度学习的端到端的语义即时定位与建图方法。

本方法将不仅将深度学习方法应用在同时定位与建图的算法上，还融合了摄像机和激光雷达等多个传感器的数据，结合语义分割的信息来筛选对位姿估计有效的像素，一方面结合了深度学习卓越的图像理解能力提高算法的性能，另一方面促使基于图像低层特征的同时定位与建图算法和图像高层次的语义内容相结合。

本发明采用的技术方案是包括以下步骤：

(1)通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列，原始图像序列和原始三维点云序列的总帧数相同；

(2)对于每一帧图像I_t，由当前帧图像I_t与其相邻帧图像构建形成连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>，以连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>为基本单位对原始图像序列和原始三维点云序列进行划分，并处理获得连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>的位姿变换信息、深度信息和语义分割信息；

(3)构建带分支的多任务深度神经网络；

(4)将连续五帧短图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>及其位姿变换信息、深度信息和语义分割信息输入到多任务深度神经网络中，利用带动量(momentum)的Adam算法训练多任务深度神经网络，获得多任务深度神经网络的参数；

(5)采用训练后的多任务深度神经网络对连续五帧的待测图像序列进行处理，获得图像帧之间的位姿变换信息、深度信息和语义分割信息。

所述步骤(2)中，对原始图像序列处理获得每一帧图像的位姿变换，对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r，t]作为位姿变换信息；

对原始三维点云序列进行预处理得到稀疏深度图作为深度信息；

对图像进行处理获得每个像素对应的类别标签，构建语义分割结果图L_t作为语义分割信息，其中类别标签共七类包括平地、交通工具、建筑物、物体、自然景观、天空和其他，其中将建筑物、物体、平地归属于静态类别。

所述的相邻帧为与当前帧图像I_t时序前后相邻的各两帧图像，共计四帧图像。

所述步骤(2)中，位姿变换信息具体采用以下方式获得：

首先，通过记录采集图像序列过程中每帧图像对应相机的位置得到每帧图像对应的相机位置相对相机初始位置(即第一帧图像对应的相机位置)的位姿变换，其中位姿变换包括旋转变换和平移变换两个分量部分，代表图像对应的相机位置相对相机初始位置的平移距离和旋转角度；

其次，由当前帧图像I_t的相机位置相对相机初始位置的位姿变换T_t转换计算当前帧图像I_t分别到相邻每一帧图像的相对位姿变换T_rel，T_t＝[R_t，t_t]，T_rel＝[R_rel，t_rel]，采用下式完成：

其中，R_t，t_t分别表示当前帧图像I_t相对世界坐标系的旋转变换和平移变换，R_r，t_r分别为相邻帧图像I_r相对世界坐标系的旋转变换和平移变换，世界坐标系是指相机初始位置(即第一帧图像)为坐标系原点的三维坐标系；R_rel，t_rel分别表示当前帧图像I_t到相邻一帧图像的旋转变换和平移变换，T表示矩阵转置；

然后，平移变换t_rel表示为平移向量形式[t_x t_y t_z]^T，t_x、t_y、t_z分别代表沿世界坐标系x、y、z三个轴平移的距离；

旋转变换R_rel采用以下公式转换成旋转向量r_rel：

r_rel＝[r_x r_y r_z]^T

r_x＝arctan(R₃₂/R₃₃)

r_z＝arctan(R₂₁/R₁₁)

其中，R₁₁～R₃₃表示旋转变换中的矩阵元素，r_x、r_y、r_z分别代表绕世界坐标系x、y、z三个轴旋转的角度；

由旋转向量r_rel和构成平移变换t_rel的平移向量形式[t_x t_y t_z]^T构成一个相对位姿变换向量，对连续五帧短图像序列通过处理得到四个的相对位姿变换向量，即当前帧图像I_t分别到相邻四帧图像的相对位姿变换向量。

所述步骤(2)中，深度信息具体采用以下方式获得：

对于每帧图像I_t对应的原始三维点云P_t，利用彩色相机和激光雷达之间的标定矩阵

将三维点云配准到图像平面上得到对应的稀疏深度图D_t，其中三维点云的每个点通过以下公式配准到图像平面上：

x_pixel＝KX_cam

式中，X_velo＝[x_v y_v z_v]^T为三维点云的点在激光雷达坐标系下的点云坐标，激光雷达坐标系是指每一帧三维点云的激光雷达中心为坐标系原点的三维坐标系；X_cam＝[x_c y_cz_c]^T为三维点云的点在相机坐标系的相机坐标，相机坐标系是指以每一帧图像的相机光心原点为坐标系原点的三维坐标系；x_pixel＝[u v 1]^T为三维点云的点在图像平面坐标系下的像素坐标，图像平面坐标系是指每一帧图像的图像中心为坐标系原点的二维坐标系；

是激光雷达坐标系到相机坐标系的转换矩阵，

K为相机的内参矩阵，由相机的焦距f_u、f_v和光心坐标[c_u c_v]组成，将相机坐标系的点转换到图像平面上的像素点；s为图像尺寸的缩放因子。

所述步骤(2)中，语义分割信息具体采用以下方式获得：使用可变卷积版本的Deeplab算法对每帧图像I_t进行处理得到图像中每个像素对应的类别标签，对图像I_t中每个像素用类别标签进行标记处理获得语义分割结果图L_t。

所述的可变卷积版本的Deeplab算法采用Dai J，Qi H，Xiong Y，etal.Deformable Convolutional Networks文献中第767页第8段的计算方法获得。

所述步骤(3)构建的多任务深度神经网络具体包含位姿模块PoseNet、深度模块DepthNet、分割模块SegNet、位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

和损失函数模块

位姿模块PoseNet接收连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>作为输入，输出预测结果分别到位姿监督损失函数模块

加权光度误差损失函数模块

分割模块SegNet接收连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>作为输入，输出预测结果分别到语义分割监督损失函数模块

和加权光度误差损失函数模块

深度模块DepthNet接收连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>中的I_t作为输入，输出预测结果分别到深度监督损失函数模块

深度平滑损失函数模块

和加权光度误差损失函数模块

位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

共同输出到损失函数模块

所述的PoseNet模块包括依次的8层卷积层(Convs)和全局平均池化层(Globalaverage pooling，GAP)，其中卷积层共8层，其中前两层卷积层的卷积核(Kernel)大小分别为7x7和5x5；第三层到第七层卷积层的局部感受野范围都是3x3，步幅(Stride)为2；最后一层卷积层的卷积核(Kernel)大小为1x1；每个卷积层连接ReLU作为激活函数，依次经各个卷积层提取特征后连接全局平均池化层(GAP)对每个通道进行降维和全尺寸的平均；

所述的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs)，每组卷积是由两个卷积核大小相同的卷积层组成，共同进行特征提取，且对应一组同样大小的反卷积；

所述的反卷积层采用Zeiler M D,Krishnan D,Taylor G W,etal.Deconvolutional networks文献中提出的结构，在正向和反向传播中执行着和卷积相反的运算。

所述的分割模块SegNet包含依次的五层卷积层和五层反卷积层，其中五层卷积层和所述的位姿模块PoseNet中的前五层卷积层共有；

所述的位姿监督损失函数模块

采用以下公式运算：

其中，[r_rel，t_rel]为步骤(2)得到的位姿变换信息的一个相对位姿变换向量，[r_pred，t_pred]为位姿模块PoseNet的预测结果；

所述的深度监督损失函数模块

采用以下公式运算：

其中，D_t为步骤(2)得到的稀疏深度图，D_t(p)表示稀疏深度图中像素p的深度值，D_pred为深度模块DepthNet预测的深度图，p为图像I中的一个像素，N为图像所有像素总数，mask是一张二值图，二值图mask是由D_gt图上有稀疏深度值的像素的位置标记为1、否则标记为0构建得到；

所述的深度平滑损失函数模块

采用以下公式运算：

其中，D_pred为深度模块DepthNet的预测结果的深度图，

分别表示深度图D_pred的横、纵方向的梯度；

所述的语义分割监督损失函数模块

采用以下公式运算：

其中，L_c为步骤(2)预处理得到的语义分割结果图L_t中的一个类别标签，L_c(p)表示语义分割结果图L_t中像素p的类别标签，L_pred为分割模块SegNet的预测结果，p为图像I中的一个像素，N为图像所有像素总数；

所述的加权光度误差损失函数模块

采用以下公式运算：

其中，L_s为分割模块SegNet的预测结果中属于静态类别的结果集合，T_pred为位姿模块PoseNet的预测结果的变换矩阵，T_pred＝[r_pred，t_pred]，D_pred为深度模块DepthNet的预测结果的深度图，ω(p,D_pred(p)，T_pred)是将像素p通过变换矩阵T_pred和自身在深度图D_pred中的深度值从当前帧I_c投影到相邻帧I_r的操作，在连续五帧短图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>中当前帧为I_t，其余均为相邻帧；

具体实施中，操作ω(p,D_pred(p)，T_pred)采用Engel J,

T,Cremers D.LSD-SLAM:Large-scale direct monocular SLAM论文第5页公式5提出的方法进行处理。

所述的损失函数模块

采用以下公式运算：

其中，λ_p，λ_d，λ_s，λ_c分别为加权光度误差、深度监督损失函数、深度平滑损失函和语义分割监督损失函数的权重。

所述步骤(5)具体为：

将待测图像序列输入到训练后且去掉了位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

和损失函数模块

的深度神经网络中进行前向传播，得到输出相对位姿变换向量[r_res，t_res]、深度图D_res和语义分割结果L_res。

本发明方法构造一个带有分支的多任务深度神经网络，分别学习短图像序列每帧之间的位姿变换、单帧图像对应的深度信息和语义分割结果。位姿变换、深度信息和语义分割分别通过监督的方式进行训练；通过位姿变换和深度信息构造光度误差对网络进行无监督训练；语义分割结果用于筛选有效像素构造加权的光度误差对三个任务共同进行优化。

本发明的有益效果是：

本发明方法构造了一个深度神经网络，在学习位姿变换的网络的基础上增加学习深度图的网络分支，后续接上语义分割的网络层级，三者除了各自的监督训练以外，其结果通过加权的光度误差结合起来，共同优化网络参数。

本发明方法利用深度学习方法并加入语义信息帮助筛选对位姿估计有贡献的像素，与以往的同时定位与建图方法相比，得到了更好的性能，而且在单目的位姿估计中减少了尺度缺失带来的影响。

与传统的ORB-SLAM算法和同样基于深度学习的方法相比，本发明方法有更好的表现，对环境的变化有一定鲁棒性。

附图说明

图1是本发明深度神经网络的模块结构框图；

图2是本发明在测试集上与其他方法的轨迹对比图；

图3是本发明在测试集上预测的深度结果图；

图4是本发明在测试集上预测的语义结果图。

具体实施方式

下面对本发明进行进一步说明。

按照本发明方法实施的实施例及其实施过程是：

(2)对于每一帧图像I_t，由当前帧图像I_t与其相邻帧图像构建形成连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>，以连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>为基本单位对原始图像序列和原始三维点云序列进行划分，并处理获得连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>的位姿变换信息、深度信息和语义分割信息。

对原始图像序列处理获得每一帧图像的位姿变换，对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r，t]作为位姿变换信息；

(3)构建深度神经网络。

如图1所示，位姿模块PoseNet接收连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>作为输入，输出预测结果分别到位姿监督损失函数模块

加权光度误差损失函数模块

具体实施的位姿模块PoseNet包括依次的8层卷积层(Convs)和全局平均池化层(Global average pooling，GAP)，具体结构组成和参数如下表1：

表1 PoseNet的网络结构

和加权光度误差损失函数模块

具体实施的分割模块SegNet包含依次的五层卷积层和五层反卷积层，如图1所示，其中五层卷积层和所述的位姿模块PoseNet中的前五层卷积层相同且共有。具体实施的具体结构组成和参数如下表2：

表2 SegNet的网络结构

深度平滑损失函数模块

和加权光度误差损失函数模块

具体实施的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs)，具体结构组成和参数如下表3：

表3 DepthNet的网络结构

位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

共同输出到损失函数模块

上述各个函数模块均按照发明内容。

(4)将连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>输入到深度神经网络中，利用带动量(momentum)的Adam算法训练深度神经网络，获得深度神经网络的参数；

具体实施的带动量(momentum)的Adam算法中，动量设置为0.9。一共迭代250,000次，学习率为0.0001，批量大小为4。训练结束后，保存深度神经网络的参数。

(5)针对未知位姿变换的连续五帧图像序列<I_t-2,I_t-1,I_t,I_t+1,I_t+2>，将其输入到训练后且去掉了损失函数模块

的深度神经网络中进行前向传播，得到输出矩阵为图像帧之间的位姿变换，同时其他分支包括单帧图像对应的深度图和语义分割结果。

本实施例最后使用公开数据集KITTI(Geiger A，Lenz P，Stiller C，etal.Vision meets robotics:The KITTI dataset[J].The International Journal ofRobotics Research，2013，32(11):1231-1237.)进行测试。数据集一共11个序列，其中00-08序列作为训练集，09和10两个序列作为测试集。使用位姿结果的评判标准绝对轨迹误差(Absolute trajectory error，ATE)进行评测，表4给出了本方法与传统的ORB-SLAM算法、同样基于深度学习的Unsupervised算法的ATE值，ATE值越少说明性能越好。

表4 本方法与常见算法在KITTI数据集上的比较

从上表可见，本方法的ATE值低于传统的ORB-SLAM和Unsupervised算法的ATE值，本发明具有其突出显著的技术效果。

其中，ORB-SLAM算法采用论文Mur-Artal R,Montiel J M M,Tardos J D.ORB-SLAM:a versatile and accurate monocular SLAM system[J].IEEE Transactions onRobotics,2015,31(5):1147-1163.所述的方法实现。基于深度学习的Unsupervised算法采用论文Zhou T,Brown M,Snavely N,et al.Unsupervised learning of depth and ego-motion from video[C]//CVPR.2017,2(6):7.所述的方法实现。

图2是本方法与其他方法在轨迹上的对比，第二行是第一行对应局部区域的放大图，图中可见同样是基于单目(单个相机)的ORB-SLAM和Unsupervised算法得到的轨迹形状上和真实轨迹相似，但由于单相机不能估计具体的尺度，所以这两种算法得到的轨迹结果和真实轨迹相差甚远。由于本发明使用了全监督的深度学习方法进行训练，所以本发明估计的轨迹没有尺度缺失，最接近真实轨迹。

图3和图4分别是本方法实施在测试集上预测的深度图和语义分割结果。

图3中，从上到下分别为输入的彩色图像、对应三维点云配准到图像平面上的稀疏深度图、Unsupervised算法预测的深度图、本方法处理后获得的深度图，图中可见本方法利用稀疏深度图真值作为监督，得到的是稠密的深度图，细节上比Unsupervised算法预测的深度图更为丰富，可以直观看到物体轮廓。

图4中，从上到下分别为输入的彩色图、本方法处理后获得的语义分割结果，图中不同类别标签用不同颜色代表，图中可见本方法可以大致分割比较明显的语义类别。

本发明方法利用深度学习方法并加入语义信息帮助筛选对位姿估计有贡献的像素，具有更好的性能，在单目的位姿估计中减少了尺度缺失带来的影响，对环境的变化具有良好的鲁棒性。

Claims

1.一种基于深度学习的端到端的语义即时定位与建图方法，其特征是，包括如下步骤：

(1)通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列；

(2)对于每一帧图像I，由当前帧图像I_t与其相邻帧图像构建形成连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>，以连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>为基本单位对原始图像序列和原始三维点云序列进行划分，并处理获得位姿变换信息、深度信息和语义分割信息；t表示连续五帧图像序列的中间当前帧图像的帧序数，且t＞2；

(3)构建带分支的多任务深度神经网络；

(4)将连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>及其位姿变换信息、深度信息和语义分割信息输入到多任务深度神经网络中，利用带动量(momentum)的Adam算法训练多任务深度神经网络，获得多任务深度神经网络的参数；

2.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：所述步骤(2)中，对原始图像序列处理获得每一帧图像的位姿变换，对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r，t]作为位姿变换信息；r表示旋转变换，t表示平移变换；

对图像进行处理获得每个像素对应的类别标签，构建语义分割结果图L_t作为语义分割信息，其中类别标签共七类包括平地、交通工具、建筑物、除交通工具和建筑物以外的物体、自然景观、天空和其他类，其中将建筑物、除交通工具和建筑物以外的物体、平地归属于静态类别。

3.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：所述步骤(2)中的相邻帧为与当前帧图像I_t时序前后相邻的各两帧图像，共计四帧图像。

4.根据权利要求2所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：所述步骤(2)中，位姿变换信息具体采用以下方式获得：

首先，通过记录采集图像序列过程中每帧图像对应相机的位置得到每帧图像对应的相机位置相对相机初始位置的位姿变换；

其中，R_t，t_t分别表示当前帧图像I_t相对世界坐标系的旋转变换和平移变换，R_r，t_r分别为相邻帧图像I_r相对世界坐标系的旋转变换和平移变换，世界坐标系是指相机初始位置为坐标系原点的三维坐标系；R_rel，t_rel分别表示当前帧图像I_t到相邻一帧图像的旋转变换和平移变换，T表示矩阵转置；

旋转变换R_rel采用以下公式转换成旋转向量r_rel：

r_rel＝[r_x r_y r_z]^T

r_x＝arctan(R₃₂/R₃₃)

r_z＝arctan(R₂₁/R₁₁)

由旋转向量r_rel和构成平移变换t_rel的平移向量形式[t_x t_y t_z]^T构成一个相对位姿变换向量，对连续五帧图像序列通过处理得到四个的相对位姿变换向量。

5.根据权利要求2所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：

所述步骤(2)中，深度信息具体采用以下方式获得：

对于每个当前帧图像I_t对应的原始三维点云P_t，利用转换矩阵

将原始三维点云P_t配准到图像平面上得到对应的稀疏深度图D_t，其中原始三维点云P_t的每个点通过以下公式配准到图像平面上：

x_pixel＝KX_cam

式中，X_velo＝[x_v y_v z_v]^T为原始三维点云P_t的点在激光雷达坐标系下的点云坐标，激光雷达坐标系是指每一帧原始三维点云P_t的激光雷达中心为坐标系原点的三维坐标系；X_cam＝[x_c y_c z_c]^T为原始三维点云P_t的点在相机坐标系的相机坐标，相机坐标系是指以每一帧图像的相机光心原点为坐标系原点的三维坐标系；x_pixel＝[u v 1]^T为原始三维点云P_t的点在图像平面坐标系下的像素坐标，图像平面坐标系是指每一帧图像的图像中心为坐标系原点的二维坐标系；

是激光雷达的激光雷达坐标系到彩色相机的相机坐标系的转换矩阵，

K为相机的内参矩阵，由相机的焦距f_u、f_v和光心坐标[c_u c_v]组成；s为图像尺寸的缩放因子。

6.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：

7.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

和损失函数模块

位姿模块PoseNet接收连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>作为输入，输出预测结果分别到位姿监督损失函数模块

加权光度误差损失函数模块

分割模块SegNet接收连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>作为输入，输出预测结果分别到语义分割监督损失函数模块

和加权光度误差损失函数模块

深度模块DepthNet接收连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>中的I_t作为输入，输出预测结果分别到深度监督损失函数模块

深度平滑损失函数模块

和加权光度误差损失函数模块

位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

共同输出到损失函数模块

所述的PoseNet模块包括依次的8层卷积层(Convs)和全局平均池化层(Globalaverage pooling，GAP)，其中前两层卷积层的卷积核(Kernel)大小分别为7x7和5x5；第三层到第七层卷积层的局部感受野范围都是3x3，步幅(Stride)为2；最后一层卷积层的卷积核(Kernel)大小为1x1；依次经各个卷积层提取特征后连接全局平均池化层(GAP)对每个通道进行降维和全尺寸的平均；

所述的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs)，每组卷积是由两个卷积核大小相同的卷积层组成，共同进行特征提取；

所述的位姿监督损失函数模块

采用以下公式运算：

所述的深度监督损失函数模块

采用以下公式运算：

其中，D_t为步骤(2)得到的稀疏深度图，D_t(p)表示稀疏深度图中像素p的深度值，D_pred为深度模块DepthNet预测的深度图，p为图像I中的一个像素，N为图像所有像素总数，mask是一张二值图，二值图mask是由D_t图上有稀疏深度值的像素的位置标记为1、否则标记为0构建得到；

所述的深度平滑损失函数模块

采用以下公式运算：

其中，D_pred为深度模块DepthNet的预测结果的深度图，

分别表示深度图D_pred的横、纵方向的梯度；

所述的语义分割监督损失函数模块

采用以下公式运算：

其中，L_c为步骤(2)预处理得到的语义分割结果图L_t中的一个类别标签，L_c(p)表示语义分割结果图L_t中像素p的类别标签，L_pred为分割模块SegNet的预测结果，p为图像I中的一个像素，N为图像所有像素总数；c表示其中一个图像语义标签，C表示所有图像语义标签的集合；L_pred(p)表示分割模块SegNet的预测结果中像素p的值；

所述的加权光度误差损失函数模块

采用以下公式运算：

其中，L_s为分割模块SegNet的预测结果中属于静态类别的结果集合，T_pred为位姿模块PoseNet的预测结果的变换矩阵，T_pred＝[r_pred，t_pred]，D_pred为深度模块DepthNet的预测结果的深度图，ω(p，D_pred(p)，T_pred)是将像素p通过变换矩阵T_pred和自身在深度图D_pred中的深度值从当前帧I_c投影到相邻帧I_r的操作，在连续五帧图像序列<I_t-2，I_t-1，I_t，I_t+1，I_t+2>中当前帧为I_t，其余均为相邻帧；D_pred(p)表示深度模块DepthNet预测的深度图中像素p的深度值，I_c(p)表示当前帧中像素点p的像素值；r表示相邻帧的帧序数；

所述的损失函数模块

采用以下公式运算：

8.根据权利要求7所述的一种基于深度学习的端到端的语义即时定位与建图方法，其特征是：所述步骤(5)具体为：将待测图像序列输入到训练后且去掉了位姿监督损失函数模块

深度监督损失函数模块

深度平滑损失函数模块

语义分割监督损失函数模块

加权光度误差损失函数模块

和损失函数模块