CN111325794A

CN111325794A - 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Info

Publication number: CN111325794A
Application number: CN202010109809.3A
Authority: CN
Inventors: 叶东; 吕旭冬; 王硕
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-02-23
Filing date: 2020-02-23
Publication date: 2020-06-23
Anticipated expiration: 2040-02-23
Also published as: CN111325794B

Abstract

本发明公开了一种基于深度卷积自编码器的视觉同时定位与地图构建方法(Visual‑SLAM)。步骤1：训练数据进行数据预处理；步骤2：建立多任务学习网络；步骤3：将图像序列中相邻的三帧双目图像作为网络输入；步骤4：构建损失函数；步骤5：多任务网络的训练、验证和测试；步骤6：训练后的共享编码器网络用于回环检测；步骤7：上述六个步骤构造了一个新的Visual‑SLAM系统前端，利用位姿图优化或因子图优化来构造Visual‑SLAM系统的后端，进而搭建一个完整的系统，步骤8：验证定位准确性和鲁棒性。使用深度卷积自编码器，以一种半监督多任务的学习方法来构建SLAM系统的前端，包括深度估计、相机位姿估计、光流估计和语义分割，并利用网络的特征图构建图像表征进行回环检测。

Description

一种基于深度卷积自编码器的视觉同时定位与地图构建方法

技术领域

本发明属于图像处理技术领域；具体涉及一种基于深度卷积自编码器的视觉同时定位与地图构建方法。

背景技术

同时定位与地图构建技术是指搭载特定传感器的移动机器人在没有后环境先验条件下，于运动过程中利用传感器恢复场景的三维信息，同时定位自身位姿的关键技术，是实现机器人路径规划、自主导航以及完成其他复杂任务的基础要求。

一个完整的视觉同时定位与地图构建(Visual-SLAM)系统理论上可以分成两个部分：前端和后端，其关系图如图1所示。前端部分主要包含视觉里程计、局部地图构建和回环检测。视觉里程计主要考虑连续数据帧间的匹配及相对姿态估计问题，利用位姿信息可以构建当前帧的局部地图，而回环检测主要是根据观测数据判断机器人是否处在之前已访问区域。后端部分主要包含位姿图优化和全局地图构建。由于观测噪声以及配准误差的存在，通过观测信息配准得到的位姿参数往往不具备一致性。为获得较小的位姿估计误差需要进行相应的最优化操作，优化过程等价于计算位姿后验概率的最大似然估计(maximum-a-posteriori，MAP)问题。与位姿优化相似，全局地图构建将所有的局部地图点与位姿同时进行优化，获得最优的全局地图。

在视觉里程计方面，目前的主流方法大多基于多视图几何，包含特征点法、直接法和半直接法。尽管这些传统算法在精度和鲁棒性方面都取得了很好的结果，但这类方法或多或少都存在着一定的缺点。特征点法依赖特征描述子来建立相邻帧之间同一关键点的联系，在缺乏纹理信息、图像模糊等场景下会出现特征缺失，容易导致相机位姿估计失败，并且特征点的提取和匹配的计算量非常大，不易实现实时定位。直接法依赖图像的灰度不变性假设，在光照变化剧烈的场景下会严重影响定位和地图构建的准确性。

传统的视觉里程计，深度图的计算通常利用双目相机或者RGB-D相机来直接获得，双目相机利用多视图几何中的双目图像匹配方法来计算，其成像的有效范围和准确率有限受到相机的成像单元尺寸和双目相机的基线大小制约，此外，获得稠密的深度图还需要大量的计算资源。而RGB-D相机受到其工作原理的制约，其有效测量范围较小，无法用于室外环境。相机的位姿估计则依赖于相邻帧图像的图像匹配算法：基于特征描述子的特征点法和基于光照不变假设的直接法。此外，深度估计的误差也会影响相机的位姿估计准确性。深度图的计算不准确除了会影响位姿估计的准确性外，还会使建立的地图出现偏差、扭曲、不连续、甚至无法建图的问题。相机的位姿估计则会影响整个视觉里程计的定位与建图，如果位姿估计偏差较大，利用后端优化也只能在一定范围内降低整个地图和轨迹的偏差。在回环检测方面，基于外观的回环检测方式能够有效地在不同场景工作，成为了视觉SLAM中的主流做法，其中基于视觉词袋模型的回环检测方法是目前基于外观的方法中表现最好的。但是基于视觉词袋模型的方法都使用人工设计的特征，如SIFT、ORB等来构造视觉字典。尽管这些精心设计的特征在简单场景下具有很好的表现，但是在遇到一些包含光照变化、部分遮挡、视角变化、季节变换等复杂场景时，这些方法的性能将受到严重影响。此外，传统的视觉里程计还无法获得语义信息，进而无法用于更高级别的场景理解、多机协同和人机交互等任务。

近年来，随着深度学习技术的发展，其在计算机视觉领域内取得了诸多成果，而如何将深度学习与经典SLAM算法相结合来改善传统方法的不足也成为了当前的研究热点。目前大多研究主要集中在利用深度学习技术来进行图像的深度估计和相机的位姿估计。利用卷积神经网络来直接获得深度图和位姿，并与给定的深度真值和位姿真值进行比较来构造损失函数，通过有监督的方式来分别训练深度估计网络和位姿估计网络。这种基于有监督学习的方式需要大量的标注数据，并且真值标签的获得具有一定的难度。深度图真值可以使用三角测量的方式获得，但其有效测量范围和测量精度受到传感器和测量算法制约，此外还可以利用激光雷达来获得准确的深度图，但利用这种方式获得的深度图是非常稀疏。相机位姿的真值可以利GPS、IMU或者多传感器融合的方式获得，但GPS绝对误差较大且无法在室内或有大量遮挡的室外环境中使用，即使使用多传感融合的方式也不易获得准确的位姿真值。为解决大量真值数据不易获得的问题，利用多视图几何方法和图像之间的几何约束关系合成中间图像作为网络训练的监督信号，进而实现无监督的学习方式逐渐成为热点。在只有原始的RGB图像的情况下，依然可以通过这种无监督的方式来进行深度预测、光流预测、位姿估计的自监督训练。

发明内容

本发明解决现有SLAM系统中存在的问题，为此，使用深度卷积自编码器，以一种半监督多任务学习方法来构建SLAM系统的前端，包括深度估计、相机位姿估计、光流估计和语义分割，并利用网络的特征图构建图像表征进行回环检测。其中相机的位姿估计、深度估计和光流估计采用无监督的学习方式，通过几何约束关系来构建损失函数，而语义分割则采用有监督的学习方式。上述的四个任务均需要对网络进行训练，然后再进行推理应用，回环检测则利用训练后的模型所输出的图像表征实现检测任务。

本发明通过以下技术方案实现：

一种基于深度卷积自编码器的视觉同时定位与地图构建方法，所述方法包括以下步骤：

步骤1：根据需求选择不同的训练数据进行数据预处理；

步骤2：建立基于深度卷积自编码器的多任务学习网络；

步骤3：将图像序列中相邻的三帧双目图像作为网络输入，其中，中间帧为目标帧图像I_o，相邻的前后两帧为参考帧图像I_s，将目标帧与参考帧图像输入多任务学习网络，获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图；

步骤4：构建损失函数；

步骤5：多任务网络的训练、验证和测试；

步骤6：多任务网络的训练结束后，利用网络编码器的作为图像表征向量的特征提取器，选择合适的特征图构建图像表征，用于回环检测；

步骤7：上述六个步骤构造了一个新的VSLAM系统前端，利用位姿图优化或因子图优化来构造VSLAM系统的后端，进而搭建一个完整的VSLAM系统，

步骤8：验证搭建的VSLAM系统的定位准确性和鲁棒性。

进一步的，所述步骤1：训练数据包含两部分：通用的公开数据集和移动机器人平台采集的室内外多传感器数据集；

数据预处理包含数据增强和改变图像尺寸，所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。

进一步的，所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集，其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据，而Synthia数据集则是虚拟场景下的仿真城市街道数据集。

进一步的，所述步骤2，建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为：方案一：该方案中使用四个单独的网络，分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络；

方案二：该方案中使用与方案一中相同的深度估计网络，语义分割网络与深度估计网络共享编码器网络，二者具有独立的解码器网络，光流估计网络和相机位姿估计网络为两个独立的网络；

方案三：该方案中使用与方案一中相同的深度估计网络，语义分割、光流估计网络与深度估计网络共享编码器网络，三者具有独立的解码器网络，相机位姿估计网络为独立的网络；

方案四：该方案中使用与方案一中相同的深度估计网络，语义分割、光流估计、相机位姿估计网络与深度估计网络共享编码器网络，四者具有独立的解码器网络。

进一步的，所述步骤3多任务网络的训练的输出包含四个部分：输入图像对应的左右深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语义分割图；其中，深度预测网络同时预测输入图像的左深度图和右深度图，因此相邻三帧图像输出6幅深度图；相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数；光流预测网络同时输出前向光流和反向光流，按照参考帧的数目共输出四幅光流图像；语义分割网络的输出与输入图像一一对应，共输出三幅语义分割图像。

进一步的，所述步骤4构建多任务学习网络的损失函数，利用输入图像和网络预测出的视差图和位姿向量，通过空间反向映射inverse warping的方式重构目标图像，并构建相应的损失函数，实现深度预测、光流预测和位姿预测三个任务的无监督学习，语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式，构建二者的交叉熵损失函数，搭建的多任务损失函数主要由五部分组成：

L_multi＝L_d+L_p+L_f+L_s+L_wc (1)

其中L_d是视差图的损失函数，L_p是位姿的损失函数，L_p是位姿的损失函数，L_s是语义分割的损失函数，L_cw是循环重构图像光度一致性的损失函数；

步骤4.1：视差图损失函数：

所述视差图损失函数由三部分组成：

其中L_sp是空间图像光度重构误差，用于评估重构图像与输入图像之间的相似度；L_ds是视差图平滑度误差，保证预测出视差图的平滑性；L_dc是视差图的左右一致性误差，保证预测出的左右视差图的一致性，每一组训练数据包含前后两帧的左右图像，共计四幅图像，但在训练的过程中只有两幅左图被输入网络；

步骤4.1.1：空间图像光度重构误差：

在训练网络时，使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像

和

评估重构图像与原图像之间的差异性，从而构造空间图像光度重构误差损失函数

其中

是输入图像，

为

的重构图像，N是图像中像素的个数，W和H分别为图像的宽和高，SSIM的权重为λ_SSIM＝0.85；

步骤4.1.2：视差图平滑度误差；

利用视差图梯度的L1范数来构造损失函数，因为深度图的局部不连续经常发生在图像梯度比较大的地方，使用图像的梯度作为损失函数中各项的权重因子，使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数，

其中

为视差图的一阶导数，

为视差图的二阶偏导数，

为原图像的一阶导数，

为原图像的二阶偏导数，

步骤4.1.3：视差图的左右一致性误差；

为了获得更准确的视差图，在训练时仅将左视角的图像输入网络，但网络的输出为左右两幅视差图，为保证两幅视差图的一致性，额外增加了一个L1 penalty损失函数来限制左右视差图的一致性，对于左视差图而言，通过右视差图向左视差图投影，即在右视差图上利用左视差图的灰度值进行坐标运算，左视角的视差图与投影的右视角视差图相等，反之亦然，

在获得了视差图之后，利用已知的相机基线b和焦距f，可以将视差图

变换为深度图

步骤4.2：相邻帧图像的位姿误差：

与构造视差图的损失函数相似，在构造相机位姿的损失函数时，也使用几何约束条件构造的合成图像作为监督信号，进而实现无监督的学习方式，与视差图的预测问题不同，位姿预测需要使用前后两幅图像作为训练数据的输入，而输出是相机的位姿参数，的多任务网络输出一个六自由度的向量T＝(t_x,t_t,t_z,α,β,γ)来表示两帧图像的相机相对位姿，利用原图像，深度图和相对位姿参数构建连续图像的位姿损失函数，该损失函数由两部分组成：时间图像光度重构误差L_tp和三维几何配准误差L_gr，即L_p＝L_tp+L_gr，

步骤4.2.1：时间图像光度重构误差：

令输入的两帧图像分别为参考帧图像

和目标帧图像

根据多视图几何原理，采用反向映射的方式来构造图像，利用预测深度图

和相对位姿T_o→s，将

中的各个像素p_o投影到

所在的坐标系下，

其中，p_s表示投影到

后的齐次坐标(homogeneous coordinates)，p_o表示某像素在图像

中的齐次坐标，K是相机的内参矩阵，与正常的图像映射方式不同，在获得目标帧图像的重构图时不是直接由参考帧图像进行映射，而是采取反方向的方式，先将目标帧图像坐标投影(project)到参考帧图像上，然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像，如公式(6)所述，

为将目标帧的图像坐标系变换为相机坐标系，T_o→sD_o(p_o)K^-1p_o为将目标帧的相机坐标系再变换为参考帧的相机坐标系，最后再利用相机内参矩阵K变换为参考帧的图像坐标系，经过投影之后的p_o坐标值是连续的，因此需要使用可微的双线性插值方法来获得近似的整数坐标，

其中p_o是图像

中的某个像素点，K是相机的内参矩阵，

为目标帧图像

对应的深度图，T_o→s是从目标帧图像到参考帧图像的相机坐标变换矩阵，f_bs代表双线性差值。若将t时刻的图像作为

t-1和t+1时刻的图像作为

可以利用公式(7)，分别从图像

和

中合成图像

和

三幅连续图像序列的时间图像光度重构误差可以表示为

其中，

其中SSIM的权重因子为

步骤4.2.2：三维几何配准误差：

也使用3D几何匹配误差来评估预测出的相机参数，假设P_t(X,Y,Z)是在第t帧图像在其相机坐标系下的三维坐标，利用T_t→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系下P_t′(X,Y,Z)，把P_t+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下P′_t+1(X,Y,Z)，因此，两幅连续图像序列之间的三维几何匹配误差表示为：

步骤4.3：光流图损失函数：

构造光流图的损失函数与构造相机为位姿损失函数相似，使用几何约束条件构造的合成图像作为监督信号，进而实现光流图的无监督学习。光流图的预测也使用前后两幅图像作为训练数据的输入，输出为前向光流图w_f和反向光流图w_b两幅图像。利用原图像和两幅光流图构建连续图像的光流图损失函数。该损失函数由三部分组成：光流图光度重构误差L_fd，光流图平滑度误差L_fs和光流一致性误差L_fc，即L_f＝L_fd+λ_fsL_fs+λ_fcL_fc。

步骤4.3.1：光流图光度重构误差(FlowPhotometric Error)：

光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后，映射图与原始图像之间的差值构成了的无监督损失函数。但是，遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的。因此在这类遮挡区域上，需要去除遮挡对于损失函数的影响，从而避免网络学习到错误的光流信息。遮挡区域的检测是基于前向和反正光流图的一致性检测，即对于非遮挡区域像素，前向光流应该是第二幅图像对应像素点反向光流的相反数。当二者之间的差异性很大时，认为该区域是遮挡区域，反之为非遮挡区域，进而构造光流图的掩码图像。因此，对于前向方向的遮挡，当前向光流和反向光流满足下述条件时，定义掩码图像o_f的像素为1，反之，则为0：

|F_f(x)+F_b(x+F_f(x))|²＜α₁(|F_f(x)|²+|F_b(x+F_f(x))|²)+α₂ (11)

其中，前向光流为F_f，反向光流为F_b，前向光流掩码图像为o_f，反向光流掩码图像为o_b，常数参数α₁＝0.01，α₂＝0.5。对于反向光流掩码图像o_b，只需要将公式(11)中的前向光流为F_f和反向光流F_b交换位置即可。

利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数：

其中f_D(I₁(x),I₂(x′))＝I₁(x)-I₂(x)表示两幅图像对应像素光度误差，ρ(x)＝(x²+ε²)^γ是标准化Charbonnier惩罚函数，γ＝0.45，λ_p为一个惩罚常数，在所有的遮挡像素上增加该参数，可以有效地避免所有的像素都变成遮挡像素，并且惩罚所有未遮挡像素光度误差。

步骤4.3.2：光流图平滑度误差：

希望最终获得的光流图是局部平滑的，因此利用光流场的二阶平滑约束来鼓励相邻流的共线性，从而实现更有效的正则化：

其中，N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成， ρ(x)＝(x²+ε²)^γ是标准化Charbonnier惩罚函数，γ＝0.40。

步骤4.3.3：光流一致性误差(Forward-BackwardFlow Consistency Loss)：

对于非遮挡区域的像素，增加了一个前向-反向一致性惩罚损失函数：

步骤4.4：语义分割误差：

在语义分割任务中，使用交叉熵损失函数作为多任务目标函数的一部分用于训练DSVO系统，语义分割交叉熵损失函数计算方式是，在一个小批次中将所有的像素的损失值相加起来。

步骤4.5：循环重构图像光度一致性误差：

为了提高视差图估计和光流估计的准确性，引入了一个新的损失函数：循环重构图像光度一致性误差。利用视差图和光流图进行两次重构，遮挡掩码图只在光流图重构时使用，而视差图重构则不使用。从图像

经过图像

重构图像

重构出的图像和遮挡掩码图分别为：

其中，图像

为图像

对应的重构图像，o^r,t→l,t+1为相邻帧

与

之间的前向光流图， W为投影函数，

为t时刻预测出的左视差图，

为t+1时刻的前向光路图。

通过比较从图像

经过图像

重构出的对应图像

与直接从

重构的对应图像

之间的差值来构造抗遮挡的循环重构图像光度损失函数：

SSIM的权重因子为

最后，把所有上述的误差进行加和，获得提出的多任务网络的总的损失函数，提出的方法与其他方法相比，只使用一个网络来同时完成四个任务，而不是一个任务一个网络，提出的方法是第一个将多任务网络的思想用于SLAM系统的前端模块中，并且在构造损失函数时，同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差，并结合了语义分割的交叉熵损失函数，在训练网络时，对多种损失函数进行联合优化。

进一步的，所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特征提取器，选择合适的特征图构建图像表征，用于回环检测；

所述回环检测的具体方法，包括的步骤如下：

步骤6.1：利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器，选取网络合适层的特征图作为图像的原始全局表征张量：

其中F_i ^l为第i个特征图，h和w分别为特征图的长和宽，l表示选取网络的第l层作为图像表征，将所有的特征图展平为特征向量，并将所有的特征向量进行拼接：

其中F^l为拼接之后的图像表征向量，

为将第i个特征图F_i ^l展开后的特征向量，c 为原始全局表征张量的深度，即特征图的个数，

步骤6.2：将所有输入图像的表征向量组合成一个表征矩阵，并对矩阵进行去中心化：

其中X为去中心化后的表征矩阵，m为输入图像的数目，n＝h×w×c为表征向量的长度，

为表征矩阵的平均值向量：

步骤6.3：对去中心化的表征矩阵X先进行二范数规范化，然后进行自适应的主成分分析压缩：

其中cov为表征矩阵X的协方差矩阵，∑和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵，利用特征向量矩阵对原始图像表征矩阵进行压缩：

其中Y为压缩后的图像表征矩阵，k为压缩之后表征向量长度，U_k＝[u₁ u₂ … u_k]为前k个特征值对应的特征向量矩阵，不直接设置k值，而是通过信息压缩比来自适应的设置该值：

其中γ为信息压缩比，λ_i为协方差矩阵的第i个特征值，

步骤6.4：对压缩后的图像表征矩阵Y进行白化操作，减小特征之间的相关性：

其中ε∈(0,1)是一个很小的常数，用于防止除数为0。

基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后，利用位姿图优化或因子图优化来构造VSLAM系统的后端，进而搭建一个完整的VSLAM系统。

本发明的有益效果是：

1.本发明建立一个基于深度卷积自编码器的完整视觉同时定位与地图构建(VSLAM) 系统。

2.本发明利用几何约束构建网络的损失函数，实现无监督方式的学习。

3.本发明利用图像的语义信息提高深度预测、光流预测的准确性。

4.本发明提出一种循环重构图像光度误差(circle-warp)的损失函数，建立深度、光流和相机位姿之间的联系。

5.本发明使用多任务网络的编码器作为图像表征提取器，用于回环检测。

6.与传统方法比较：提高定位的准确性和鲁棒性，提高回环检测准确性(不受复杂场景变化的影响：纹理特征缺失、光照变化剧烈等)。

附图说明

图1完整的视觉SLAM系统前端-后端框架图。

图2基于MS-DCA的视觉里程计系统DSVO的网络结构图。

图3共享残差表征编码器网络中的scSE-Resblock模块。

图4scSE模块网络结构。

图5共享残差表征编码器网络中的ASPP和scSE模块。

图6视差图和光流图解码器网络的网络结构图。

图7视差图和光流图解码器网络多尺度合成模块的网络结构图。

图8语义分割解码器网络的网络结构图。

图9DSVO系统的损失函数构建框图。

图10可微的空间反向映射方法框图。

图11循环重构图像光度一致性损失函数的构建框图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1：根据需求选择不同的训练数据进行数据预处理；如图像的翻转、压缩扭曲、局部截取和高斯噪声等

步骤2：建立基于深度卷积自编码器的多任务学习网络；该网络能选择不同的网络模块和网络设计方案来构建于深度卷积自编码器网络，可以选择的使用预训练模型初始化网络参数；

步骤4：构建损失函数；该损失函数由多个部分组成，其中相机的位姿估计、深度估计和光流估计采用无监督的学习方式，通过几何约束关系来构建损失函数，而语义分割则采用有监督的学习方式；

步骤5：多任务网络的训练、验证和测试；

步骤8：验证搭建的VSLAM系统的定位准确性和鲁棒性。

数据预处理包含数据增强和改变图像尺寸，所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。在数据集的量不够理想的情况下扩充数据集同时加入适当干扰增加训练模型的泛化能力；改变图像尺寸是为了保证不同数据集中输入图像的大小一致，同时可以减小输入图像的大小，进而减小网络的计算量，

KITTI数据集包含双目相机图像数据、激光雷达点云数据、GPS和IMU数据，利用激光点云投影获得稀疏的深度图和GPS/IMU融合获得的相机位姿作为训练数据的深度真值和相机位姿真值，所述Cityscape数据集包含双目相机图像数据、算法合成的视差图、 GPS和IMU数据，尽管利用视差图可以获得粗略的深度图，但该深度图的精度不足以作为深度图真值，因此该数据集只能用于网络训练，而不能用于测试，相比上述两个真实场景数据集，Synthia数据集包含更多样的场景数据，能作为多任务网络的补充数据集对训练好的网络参数进行微调，此外该数据集包含准确的语义分割图像，可用于多任务学习网络中语义分割任务的训练。

所述步骤2，DSVO是基于MS-DCA的视觉里程计系统，因此，DSVO是一个可以进行多任务学习的深度学习架构，DSVO由五部分组成，分别是：共享表征编码器、相机位姿解码器、视差图解码器、光流图解码器和语义分割解码器。如图2所示，DSVO系统在训练过程中，只使用来自双目传感器的左视角的连续三帧图像作为MS-DCA网络的输入，而相应的右视角图像作为MS-DCA训练过程中的监督信号的一部分，DSVO系统将预测左右视角连续三帧图像的视差图、左视角的连续三帧的语义分割掩码以及相机的两个位姿参数和四幅光流图。

共享残差表征编码器网络。在基于MS-DCA的DSVO系统中，位姿预测任务、视差预测任务以及语义分割预测任务共享一个表征编码器编码出的表征。在DSVO中，共享的表征编码器是一个基于深度残差神经网络(deep residual neural network)的卷积神经网络，残差编码器的卷积神经网络结构类似于经典的ResNet-34的神经网络结构，ResNet-34被设计用于目标分类任务。但是与经典的ResNet-34的结构略有不同的是，在经典的ResNet-34中使用一个滑动步长为2的卷积层和一个滑动步长为1的卷积层实现特征图压缩，而在DSVO的表征编码器中使用一个滑动步长为2的最大池化层实现特征图压缩。两个相邻的最大池化层之间的残差模块构成一个表征编码器，经过最大池化层生成的一组特征图作为其它的解码器的共享特征。共享的特征图能够获得和保留边缘信息，边缘信息对于视差图预测和语义分割十分重要。该网络由四个空间和通道挤压和激励残差模块(scSE-Resblock)、空洞卷积金字塔池化层(Atrous Spatial PyramidPooling，ASPP)和空间和通道挤压和激励块组成(Spatial and Channel Squeeze&Excitation Block，scSE)。scSE-Resblock的结构如图3所示，该模块中包含一个scSE模块位于整个模块最下端的激活层之前，其网络结构如图4所示。ASPP和其后端连接的scSE模块的网络图如图5所示。

相机位姿解码器网络。在DSVO系统中，将双目传感器中左视角的连续两帧图像通过串联的方式相连接，以这种连接方式作为共享残差表征编码器，相机位姿解码器预测的是连续两帧图像间的相对位姿。相对位姿由两部分组成，分别是具有高非线性的转角(rotation) 以及平移(translation)。相机位姿解码器由两个全连接层组成，并使用非线性激活函数ReLU 进行激活，最后输出一个6通道(相应的3个欧拉转角，以及3个3-D转移向量)的相对位姿向量。

视差图解码器网络。视差图解码器与共享残差表征解码器构成编码器与解码器结构，在视差图解码器后使用一个Sigmoid函数进行视差图预测估计。视差图解码器网络结构与共享残差表征解码器网络结构成对称镜像关系，解码器网络实际上是一种生成器。与共享残差表征解码器不同的是，视差图解码器网络需要利用来自于共享残差表征解码器网络的特征图生成重构目标，因此使用反卷积操作应用于共享表征。两个相邻反卷积层之间的残差模块作为一个解码器。每个解码器将相应的编码器输出的共享特征图作为输入，经过反卷积操作后生成稀疏特征图。然后，这些生成的稀疏特征图经过每个解码器中的一系列卷积操作后生成稠密的特征图。最后，使用Sigmoid函数进行视差图预测。在视差图解码器网络中，能够同时预测左右图像的视差图，因此，Sigmoid的输出通道数为2。该网络的网络结构图如图6所示，因为本发明中使用的是多尺度的方式来进行预测，因此需要将多个尺度下的视差图输出进行合并进而生成最终的视差图，该合成模块的网络结构如图7所示。

光流图解码器网络。光流图解码器网络与视差图解码器网络相似，只是光流解码器网络预测相邻两帧图像直接的前后光流图，因此，Sigmoid的输出通道数为4。

语义分割解码器网络。语义分割解码器网络的结构与视差图解码器网络结构类似，但是由于预测任务的不同，因此在网络的顶端使用Softmax分类器进行逐像素分类，将语义分割解码器最后输出的特征图输入到softmax多类别分类器中用于独立生成每个像素的类别概率。最后的一个语义分割解码器与第一个表征编码器相对应，该语义分割解码器生成一组多通道特征图。将这组多通道特征图输入一个可训练的softmax分类器。这个softmax对每个像素进行独立分类。Softmax分类器输出是一个C个通道的概率图像，其中C与类别个数相等。最后，预测出的分类结果是根据在每个像素点上具有最大类别概率的类别决定。该网络的网络结构图如图8所示。

进一步的，所述步骤3多任务网络的训练的输出包含四个部分：输入图像(RGB) 对应的左右深度图(leftDepth,rightDepth)、目标帧与参考帧之间的相机位姿(Pose)、目标帧与参考帧之间的光流图(Forwar Flow,Backward Flow)、输入图像的语义分割图(Segmentationmask)；其中，深度预测网络同时预测输入图像的左深度图和右深度图，因此相邻三帧图像输出6幅深度图；相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数；光流预测网络同时输出前向光流和反向光流，按照参考帧的数目共输出四幅光流图像；语义分割网络的输出与输入图像一一对应，共输出三幅语义分割图像。

进一步的，所述步骤4构建多任务学习网络的损失函数，利用输入图像和网络预测出的视差图和位姿向量，通过空间反向映射inverse warping的方式重构目标图像，并构建相应的损失函数，实现深度预测、光流预测和位姿预测三个任务的无监督学习，语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式，构建二者的交叉熵损失函数，搭建的多任务损失函数由四部分组成，其构建框图如图9所示：

L_multi＝L_d+L_p+L_f+L_s+L_wc (1)

其中L_d是视差图的损失函数，L_p是位姿的损失函数，L_p是位姿的损失函数，L_s是语义分割的损失函数，L_cw是循环重构图像光度一致性的损失函数。

进一步的，步骤4.1：视差图损失函数：

所述视差图损失函数只针对目标帧图像

和

该损失函数由三部分组成：

其中L_sp是空间图像光度重构误差，用于评估重构图像与输入图像之间的相似度；L_ds是视差图平滑度误差，保证预测出视差图的平滑性；L_dc是视差图的左右一致性误差，保证预测出的左右视差图的一致性，每一组训练数据包含前后两帧的左右图像，共计四幅图像，但在训练的过程中只有两幅左图被输入网络，接下来，将会详细描述式子(2)中左图对应的每一个损失函数，而右图的损失函数与左图相对应，只需从相反的方向对图像进行warping 即可，

步骤4.1.1：所述空间图像光度重构误差(SpatialPhotometric Error)：

大多数基于学习的方法都将深度预测问题作为一个有监督的学习问题，在训练的过程中使用RGB图像和相应的深度图作为系统的输入和真值标签，但是，在大尺度的场景下，很难获得理想的深度图真值标签，即使是使用昂贵的激光雷达，在复杂的动态场景中，测量结果也依然不够准确，并且采集到的深度图通常是稀疏的，无法直接作为真值标签，因此，在本文中尝试将深度估计的问题转换为一个无监督的学习问题，其核心思想为：在训练网络时，使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像

和

与其他直接预测深度图的方法不同，尝试从原始的输入图像生成视差图，再利用已知的双目相机焦距和基线参数，获得对应的深度图，与(左右一致性paper)相类似，将左图 I_l输入网络，输出左右两幅视差图

和

根据双目相机左右图像与视差图的关系，可以利用左图I_l和右视差图

重构右图

同样的也可以重构出左图

在重构的过程中，因为使用的视差图是通过网络生成的，利用该视差图直接进行warping而重构出的图像像素坐标不是整数，因此无法直接进行相似性比较，因此对重构图像进行双线性差值(如图5所示)，这一操作同时也保证了构造损失函数的可微性，

使用L1范数和结构相似性(SSIM)两种方法来评估重构图像与原图像之间的差异性，从而构造空间图像光度重构误差损失函数

其中

是输入图像，

为

步骤4.1.2：视差图平滑度误差(一阶+二阶)；

希望最终获得的视差图是局部平滑的，因此利用视差图梯度的L1范数来构造损失函数，因为深度图的局部不连续经常发生在图像梯度比较大的地方，使用图像的梯度作为损失函数中各项的权重因子，使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数，

其中

为视差图的一阶导数，

为视差图的二阶偏导数，

为原图像的一阶导数，

为原图像的二阶偏导数，

步骤4.1.3：视差图的左右一致性误差(Left-Right Depth Consistency Loss)：

为了获得更准确的视差图，在训练时仅将左视角的图像输入网络，但网络的输出为左右两幅视差图，为保证两幅视差图的一致性，额外增加了一个L1 penalty损失函数来限制左右视差图的一致性，对于左视差图而言，通过右视差图向左视差图投影，即在右视差图上利用左视差图的灰度值进行坐标运算，左视角的视差图与投影的右视角视差图相等，反之亦然，，

在获得了视差图之后，利用已知的相机基线b和焦距f(来源于训练数据集)，可以将视差图

变换为深度图

步骤4.2：相邻帧图像的位姿误差：

步骤4.2.1：时间图像光度重构误差(TemporalPhotometric Error)：

令输入的两帧图像分别为参考帧图像

和目标帧图像

和相对位姿T_o→s，将

中的各个像素p_o投影到

所在的坐标系下，

其中，p_s表示投影到

后的齐次坐标(homogeneous coordinates)，p_o表示某像素在图像

中的齐次坐标，K是相机的内参矩阵。与正常的图像映射方式不同，在获得目标帧图像的重构图时不是直接由参考帧图像进行映射，而是采取反方向的方式(如图10所示)，先将目标帧图像坐标投影(project)到参考帧图像上，然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像。如公式(6)所述，

为将目标帧的图像坐标系变换为相机坐标系，T_o→sD_o(p_o)K^-1p_o为将目标帧的相机坐标系再变换为参考帧的相机坐标系，最后再利用相机内参矩阵K变换为参考帧的图像坐标系。经过投影之后的p_o坐标值是连续的，因此需要使用可微的双线性插值方法来获得近似的整数坐标，

其中p_o是图像

中的某个像素点，K是相机的内参矩阵，

为目标帧图像

t-1和t+1时刻的图像作为

可以利用公式(7)，分别从图像

和

中合成图像

和

三幅连续图像序列的时间图像光度重构误差可以表示为

其中

其中SSIM的权重因子为

步骤4.2.2：三维几何配准误差：

步骤4.3：光流图损失函数：

步骤4.3.1：光流图光度重构误差(FlowPhotometric Error)：

|F_f(x)+F_b(x+F_f(x))|²＜α₁(|F_f(x)|²+|F_b(x+F_f(x))|²)+α₂ (11)

步骤4.3.2：光流图平滑度误差：

步骤4.3.3：光流一致性误差(Forward-BackwardFlow Consistency Loss)：

步骤4.4：语义分割误差：

步骤4.5：循环重构图像光度一致性误差：

经过图像

重构图像

重构出的图像和遮挡掩码图分别为：

其中，图像

为图像

对应的重构图像，o^r,t→l,t+1为相邻帧

与

之间的前向光流图， W为投影函数，

为t时刻预测出的左视差图，

为t+1时刻的前向光路图。

通过比较从图像

经过图像

重构出的对应图像

与直接从

重构的对应图像

之间的差值来构造抗遮挡的循环重构图像光度损失函数(该损失函数的构建框图如图11所示)：

SSIM的权重因子为

所述回环检测的具体方法，包括的步骤如下：

其中F^l为拼接之后的图像表征向量，

为表征矩阵的平均值向量：

其中γ为信息压缩比，λ_i为协方差矩阵的第i个特征值，

其中ε∈(0,1)是一个很小的常数，用于防止除数为0。

Claims

1.一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述方法包括以下步骤：

步骤1：根据需求选择不同的训练数据进行数据预处理；

步骤2：建立基于深度卷积自编码器的多任务学习网络；

步骤4：构建损失函数；

步骤5：多任务网络的训练、验证和测试；

步骤7：上述六个步骤构造了一个新的Visual-SLAM系统前端，利用位姿图优化或因子图优化来构造Visual-SLAM系统的后端，进而搭建一个完整的Visual-SLAM系统，

步骤8：验证搭建的Visual-SLAM系统的定位准确性和鲁棒性。

2.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述步骤1：训练数据包含两部分：通用的公开数据集和移动机器人平台采集的室内外多传感器数据集；

3.根据权利要求2所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集，其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据，而Synthia数据集则是虚拟场景下的仿真城市街道数据集。

4.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述步骤2，建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为：方案一：该方案中使用四个单独的网络，分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络；

5.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述步骤3多任务网络的训练的输出包含四个部分：输入图像对应的左右深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语义分割图；其中，深度预测网络同时预测输入图像的左深度图和右深度图，因此相邻三帧图像输出6幅深度图；相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数；光流预测网络同时输出前向光流和反向光流，按照参考帧的数目共输出四幅光流图像；语义分割网络的输出与输入图像一一对应，共输出三幅语义分割图像。

6.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，所述步骤4构建多任务学习网络的损失函数，利用输入图像和网络预测出的视差图和位姿向量，通过空间反向映射inverse warping的方式重构目标图像，并构建相应的损失函数，实现深度预测、光流预测和位姿预测三个任务的无监督学习，语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式，构建二者的交叉熵损失函数，搭建的多任务损失函数由四部分组成：

L_multi＝L_d+L_p+L_f+L_s+L_wc (1)

7.根据权利要求6所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法，其特征在于，

步骤4.1：视差图损失函数：

所述视差图损失函数由三部分组成：

步骤4.1.1：空间图像光度重构误差：

和

其中

是输入图像，

为

步骤4.1.2：视差图平滑度误差；

其中

为视差图的一阶导数，

为视差图的二阶偏导数，

为原图像的一阶导数，

为原图像的二阶偏导数，

步骤4.1.3：视差图的左右一致性误差；

变换为深度图

步骤4.2：相邻帧图像的位姿误差：

步骤4.2.1：时间图像光度重构误差：

令输入的两帧图像分别为参考帧图像

和目标帧图像

和相对位姿T_o→s，将

中的各个像素p_o投影到

所在的坐标系下，

其中，p_s表示投影到

后的齐次坐标homogeneous coordinates，p_o表示某像素在图像

中的齐次坐标，K是相机的内参矩阵，与正常的图像映射方式不同，在获得目标帧图像的重构图时不是直接由参考帧图像进行映射，而是采取反方向的方式，先将目标帧图像坐标投影project到参考帧图像上，然后再将投影后图像对应坐标的灰度值映射回warp原始目标帧图像作为最终的重构图像，如公式(6)所述，

其中p_o是图像

中的某个像素点，K是相机的内参矩阵，

为目标帧图像

对应的深度图，T_o→s是从目标帧图像到参考帧图像的相机坐标变换矩阵，f_bs代表双线性差值，若将t时刻的图像作为

t-1和t+1时刻的图像作为

可以利用公式(7)，分别从图像

和

中合成图像

和

三幅连续图像序列的时间图像光度重构误差可以表示为

其中，

其中SSIM的权重因子为

步骤4.2.2：三维几何配准误差：

步骤4.3：光流图损失函数：

构造光流图的损失函数与构造相机为位姿损失函数相似，使用几何约束条件构造的合成图像作为监督信号，进而实现光流图的无监督学习，光流图的预测也使用前后两幅图像作为训练数据的输入，输出为前向光流图w_f和反向光流图w_b两幅图像，利用原图像和两幅光流图构建连续图像的光流图损失函数，该损失函数由三部分组成：光流图光度重构误差L_fd，光流图平滑度误差L_fs和光流一致性误差L_fc，即L_f＝L_fd+λ_fsL_fs+λ_fcL_fc；

步骤4.3.1：光流图光度重构误差(Flow Photometric Error)：

光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后，映射图与原始图像之间的差值构成了的无监督损失函数，但是，遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的，因此在这类遮挡区域上，需要去除遮挡对于损失函数的影响，从而避免网络学习到错误的光流信息，遮挡区域的检测是基于前向和反正光流图的一致性检测，即对于非遮挡区域像素，前向光流应该是第二幅图像对应像素点反向光流的相反数，当二者之间的差异性很大时，认为该区域是遮挡区域，反之为非遮挡区域，进而构造光流图的掩码图像，因此，对于前向方向的遮挡，当前向光流和反向光流满足下述条件时，定义掩码图像o_f的像素为1，反之，则为0：