CN111325794A - 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 - Google Patents

一种基于深度卷积自编码器的视觉同时定位与地图构建方法 Download PDF

Info

Publication number
CN111325794A
CN111325794A CN202010109809.3A CN202010109809A CN111325794A CN 111325794 A CN111325794 A CN 111325794A CN 202010109809 A CN202010109809 A CN 202010109809A CN 111325794 A CN111325794 A CN 111325794A
Authority
CN
China
Prior art keywords
image
network
optical flow
loss function
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010109809.3A
Other languages
English (en)
Other versions
CN111325794B (zh
Inventor
叶东
吕旭冬
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010109809.3A priority Critical patent/CN111325794B/zh
Publication of CN111325794A publication Critical patent/CN111325794A/zh
Application granted granted Critical
Publication of CN111325794B publication Critical patent/CN111325794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • G06T2207/30208Marker matrix
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积自编码器的视觉同时定位与地图构建方法(Visual‑SLAM)。步骤1:训练数据进行数据预处理;步骤2:建立多任务学习网络;步骤3:将图像序列中相邻的三帧双目图像作为网络输入;步骤4:构建损失函数;步骤5:多任务网络的训练、验证和测试;步骤6:训练后的共享编码器网络用于回环检测;步骤7:上述六个步骤构造了一个新的Visual‑SLAM系统前端,利用位姿图优化或因子图优化来构造Visual‑SLAM系统的后端,进而搭建一个完整的系统,步骤8:验证定位准确性和鲁棒性。使用深度卷积自编码器,以一种半监督多任务的学习方法来构建SLAM系统的前端,包括深度估计、相机位姿估计、光流估计和语义分割,并利用网络的特征图构建图像表征进行回环检测。

Description

一种基于深度卷积自编码器的视觉同时定位与地图构建方法
技术领域
本发明属于图像处理技术领域;具体涉及一种基于深度卷积自编码器的视觉同时定位 与地图构建方法。
背景技术
同时定位与地图构建技术是指搭载特定传感器的移动机器人在没有后环境先验条件 下,于运动过程中利用传感器恢复场景的三维信息,同时定位自身位姿的关键技术,是实 现机器人路径规划、自主导航以及完成其他复杂任务的基础要求。
一个完整的视觉同时定位与地图构建(Visual-SLAM)系统理论上可以分成两个部分: 前端和后端,其关系图如图1所示。前端部分主要包含视觉里程计、局部地图构建和回环 检测。视觉里程计主要考虑连续数据帧间的匹配及相对姿态估计问题,利用位姿信息可以 构建当前帧的局部地图,而回环检测主要是根据观测数据判断机器人是否处在之前已访问 区域。后端部分主要包含位姿图优化和全局地图构建。由于观测噪声以及配准误差的存在, 通过观测信息配准得到的位姿参数往往不具备一致性。为获得较小的位姿估计误差需要进 行相应的最优化操作,优化过程等价于计算位姿后验概率的最大似然估计(maximum-a-posteriori,MAP)问题。与位姿优化相似,全局地图构建将所有的局部地 图点与位姿同时进行优化,获得最优的全局地图。
在视觉里程计方面,目前的主流方法大多基于多视图几何,包含特征点法、直接法和 半直接法。尽管这些传统算法在精度和鲁棒性方面都取得了很好的结果,但这类方法或多 或少都存在着一定的缺点。特征点法依赖特征描述子来建立相邻帧之间同一关键点的联 系,在缺乏纹理信息、图像模糊等场景下会出现特征缺失,容易导致相机位姿估计失败,并且特征点的提取和匹配的计算量非常大,不易实现实时定位。直接法依赖图像的灰度不变性假设,在光照变化剧烈的场景下会严重影响定位和地图构建的准确性。
传统的视觉里程计,深度图的计算通常利用双目相机或者RGB-D相机来直接获得,双目相机利用多视图几何中的双目图像匹配方法来计算,其成像的有效范围和准确率有限受到相机的成像单元尺寸和双目相机的基线大小制约,此外,获得稠密的深度图还需要大量的计算资源。而RGB-D相机受到其工作原理的制约,其有效测量范围较小,无法用于 室外环境。相机的位姿估计则依赖于相邻帧图像的图像匹配算法:基于特征描述子的特征 点法和基于光照不变假设的直接法。此外,深度估计的误差也会影响相机的位姿估计准确 性。深度图的计算不准确除了会影响位姿估计的准确性外,还会使建立的地图出现偏差、 扭曲、不连续、甚至无法建图的问题。相机的位姿估计则会影响整个视觉里程计的定位与 建图,如果位姿估计偏差较大,利用后端优化也只能在一定范围内降低整个地图和轨迹的 偏差。在回环检测方面,基于外观的回环检测方式能够有效地在不同场景工作,成为了视 觉SLAM中的主流做法,其中基于视觉词袋模型的回环检测方法是目前基于外观的方法 中表现最好的。但是基于视觉词袋模型的方法都使用人工设计的特征,如SIFT、ORB等 来构造视觉字典。尽管这些精心设计的特征在简单场景下具有很好的表现,但是在遇到一 些包含光照变化、部分遮挡、视角变化、季节变换等复杂场景时,这些方法的性能将受到 严重影响。此外,传统的视觉里程计还无法获得语义信息,进而无法用于更高级别的场景 理解、多机协同和人机交互等任务。
近年来,随着深度学习技术的发展,其在计算机视觉领域内取得了诸多成果,而如何 将深度学习与经典SLAM算法相结合来改善传统方法的不足也成为了当前的研究热点。目前大多研究主要集中在利用深度学习技术来进行图像的深度估计和相机的位姿估计。利用卷积神经网络来直接获得深度图和位姿,并与给定的深度真值和位姿真值进行比较来构造损失函数,通过有监督的方式来分别训练深度估计网络和位姿估计网络。这种基于有监督学习的方式需要大量的标注数据,并且真值标签的获得具有一定的难度。深度图真值可以使用三角测量的方式获得,但其有效测量范围和测量精度受到传感器和测量算法制约,此外还可以利用激光雷达来获得准确的深度图,但利用这种方式获得的深度图是非常稀疏。相机位姿的真值可以利GPS、IMU或者多传感器融合的方式获得,但GPS绝对误差 较大且无法在室内或有大量遮挡的室外环境中使用,即使使用多传感融合的方式也不易获 得准确的位姿真值。为解决大量真值数据不易获得的问题,利用多视图几何方法和图像之 间的几何约束关系合成中间图像作为网络训练的监督信号,进而实现无监督的学习方式逐 渐成为热点。在只有原始的RGB图像的情况下,依然可以通过这种无监督的方式来进行 深度预测、光流预测、位姿估计的自监督训练。
发明内容
本发明解决现有SLAM系统中存在的问题,为此,使用深度卷积自编码器,以一种半监督多任务学习方法来构建SLAM系统的前端,包括深度估计、相机位姿估计、光流 估计和语义分割,并利用网络的特征图构建图像表征进行回环检测。其中相机的位姿估计、 深度估计和光流估计采用无监督的学习方式,通过几何约束关系来构建损失函数,而语义 分割则采用有监督的学习方式。上述的四个任务均需要对网络进行训练,然后再进行推理 应用,回环检测则利用训练后的模型所输出的图像表征实现检测任务。
本发明通过以下技术方案实现:
一种基于深度卷积自编码器的视觉同时定位与地图构建方法,所述方法包括以下步 骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;
步骤2:建立基于深度卷积自编码器的多任务学习网络;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图 像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取 器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的VSLAM系统前端,利用位姿图优化或因子图优化来构造VSLAM系统的后端,进而搭建一个完整的VSLAM系统,
步骤8:验证搭建的VSLAM系统的定位准确性和鲁棒性。
进一步的,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台 采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩 调整、局部裁剪和加入噪声。
进一步的,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
进一步的,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方 案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、 相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网 络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两 个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与 深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的 网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机 位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
进一步的,所述步骤3多任务网络的训练的输出包含四个部分:输入图像对应的左右 深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语 义分割图;其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧 图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数; 光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语 义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
进一步的,所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出 的视差图和位姿向量,通过空间反向映射inverse warping的方式重构目标图像,并构建相 应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任 务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建 二者的交叉熵损失函数,搭建的多任务损失函数主要由五部分组成:
Lmulti=Ld+Lp+Lf+Ls+Lwc (1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数,Lcw是循环重构图像光度一致性的损失函数;
步骤4.1:视差图损失函数:
所述视差图损失函数由三部分组成:
Figure BDA0002389578300000041
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是 视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预 测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像, 但在训练的过程中只有两幅左图被输入网络;
步骤4.1.1:空间图像光度重构误差:
在训练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右 两幅图像
Figure BDA0002389578300000042
Figure BDA0002389578300000043
评估重构图像与原图像之间的差异性,从而构造空间图像光度重构误差损失函数
Figure BDA0002389578300000051
Figure BDA0002389578300000052
其中
Figure BDA0002389578300000053
是输入图像,
Figure BDA0002389578300000054
Figure BDA0002389578300000055
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差;
利用视差图梯度的L1范数来构造损失函数,因为深度图的局部不连续经常发生在图像 梯度比较大的地方,使用图像的梯度作为损失函数中各项的权重因子,使用视差图的一阶 导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数,
Figure RE-GDA0002444911070000056
其中
Figure BDA0002389578300000057
为视差图的一阶导数,
Figure BDA0002389578300000058
为视差图的二阶 偏导数,
Figure BDA0002389578300000059
为原图像的一阶导数,
Figure BDA00023895783000000510
为原图像的二阶偏 导数,
步骤4.1.3:视差图的左右一致性误差;
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左 右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左 右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上 利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之 亦然,
Figure BDA00023895783000000511
在获得了视差图之后,利用已知的相机基线b和焦距f,可以将视差图
Figure BDA00023895783000000512
变换为深度 图
Figure BDA00023895783000000513
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件 构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同, 位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任 务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用 原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成: 时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差:
令输入的两帧图像分别为参考帧图像
Figure BDA0002389578300000061
和目标帧图像
Figure BDA0002389578300000062
根据多视图几何原理,采用 反向映射的方式来构造图像,利用预测深度图
Figure BDA0002389578300000063
和相对位姿To→s,将
Figure BDA0002389578300000064
中的各个像素po投 影到
Figure BDA0002389578300000065
所在的坐标系下,
Figure BDA0002389578300000066
其中,ps表示投影到
Figure BDA0002389578300000067
后的齐次坐标(homogeneous coordinates),po表示某像素在 图像
Figure BDA0002389578300000068
中的齐次坐标,K是相机的内参矩阵,与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式,先将目标帧图像坐标投影(project)到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像,如公式(6)所述,
Figure BDA0002389578300000069
为将目标 帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参 考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系,经过投影之 后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure BDA00023895783000000610
其中po是图像
Figure BDA00023895783000000611
中的某个像素点,K是相机的内参矩阵,
Figure BDA00023895783000000612
为目标帧图像
Figure BDA00023895783000000613
对应的 深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值。若 将t时刻的图像作为
Figure BDA00023895783000000614
t-1和t+1时刻的图像作为
Figure BDA00023895783000000615
可以利用公式(7),分别从图像
Figure BDA00023895783000000616
Figure BDA00023895783000000617
中合成图像
Figure BDA00023895783000000618
Figure BDA00023895783000000619
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure BDA00023895783000000620
其中,
Figure BDA0002389578300000071
Figure BDA0002389578300000072
其中SSIM的权重因子为
Figure BDA0002389578300000073
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其 相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系 下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下P′t+1(X,Y,Z),因此,两 幅连续图像序列之间的三维几何匹配误差表示为:
Figure BDA0002389578300000074
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合 成图像作为监督信号,进而实现光流图的无监督学习。光流图的预测也使用前后两幅图像 作为训练数据的输入,输出为前向光流图wf和反向光流图wb两幅图像。利用原图像和两 幅光流图构建连续图像的光流图损失函数。该损失函数由三部分组成:光流图光度重构误 差Lfd,光流图平滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差(FlowPhotometric Error):
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原 始图像之间的差值构成了的无监督损失函数。但是,遮挡区域的像素在相邻图像中的对应 像素上是无法被观察到的。因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响, 从而避免网络学习到错误的光流信息。遮挡区域的检测是基于前向和反正光流图的一致性 检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数。 当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流 图的掩码图像。因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定 义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2 (11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5。对于反向光流掩码图像ob,只需要将公式(11)中 的前向光流为Ff和反向光流Fb交换位置即可。
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure BDA0002389578300000081
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是 标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该 参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差。
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流 的共线性,从而实现更有效的正则化:
Figure BDA0002389578300000082
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成, ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40。
步骤4.3.3:光流一致性误差(Forward-BackwardFlow Consistency Loss):
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure BDA0002389578300000083
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练DSVO系统,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失 值相加起来。
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像 光度一致性误差。利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用, 而视差图重构则不使用。从图像
Figure BDA0002389578300000084
经过图像
Figure BDA0002389578300000085
重构图像
Figure BDA0002389578300000086
重构出的图像和遮挡掩码图 分别为:
Figure BDA0002389578300000091
Figure BDA0002389578300000092
其中,图像
Figure BDA0002389578300000093
为图像
Figure BDA0002389578300000094
对应的重构图像,or,t→l,t+1为相邻帧
Figure BDA0002389578300000095
Figure BDA0002389578300000096
之间的前向光流图, W为投影函数,
Figure BDA0002389578300000097
为t时刻预测出的左视差图,
Figure BDA0002389578300000098
为t+1时刻的前向光路图。
通过比较从图像
Figure BDA0002389578300000099
经过图像
Figure BDA00023895783000000910
重构出的对应图像
Figure BDA00023895783000000911
与直接从
Figure BDA00023895783000000912
重构的对应图像
Figure BDA00023895783000000913
之间 的差值来构造抗遮挡的循环重构图像光度损失函数:
Figure RE-GDA00024449110700000917
SSIM的权重因子为
Figure BDA00023895783000000915
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的 方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络, 提出的方法是第一个将多任务网络的思想用于SLAM系统的前端模块中,并且在构造损失 函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化。
进一步的,所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特 征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器, 选取网络合适层的特征图作为图像的原始全局表征张量:
Figure BDA00023895783000000916
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure BDA00023895783000000918
其中Fl为拼接之后的图像表征向量,
Figure BDA0002389578300000107
为将第i个特征图Fi l展开后的特征向量,c 为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure RE-GDA0002444911070000103
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure BDA0002389578300000102
为表征矩阵的平均值向量:
Figure RE-GDA0002444911070000105
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分 分析压缩:
Figure BDA0002389578300000104
其中cov为表征矩阵X的协方差矩阵,∑和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure BDA0002389578300000105
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2 … uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的 设置该值:
Figure BDA0002389578300000106
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure BDA0002389578300000111
其中ε∈(0,1)是一个很小的常数,用于防止除数为0。
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利 用位姿图优化或因子图优化来构造VSLAM系统的后端,进而搭建一个完整的VSLAM系统。
本发明的有益效果是:
1.本发明建立一个基于深度卷积自编码器的完整视觉同时定位与地图构建(VSLAM) 系统。
2.本发明利用几何约束构建网络的损失函数,实现无监督方式的学习。
3.本发明利用图像的语义信息提高深度预测、光流预测的准确性。
4.本发明提出一种循环重构图像光度误差(circle-warp)的损失函数,建立深度、光流 和相机位姿之间的联系。
5.本发明使用多任务网络的编码器作为图像表征提取器,用于回环检测。
6.与传统方法比较:提高定位的准确性和鲁棒性,提高回环检测准确性(不受复杂场 景变化的影响:纹理特征缺失、光照变化剧烈等)。
附图说明
图1完整的视觉SLAM系统前端-后端框架图。
图2基于MS-DCA的视觉里程计系统DSVO的网络结构图。
图3共享残差表征编码器网络中的scSE-Resblock模块。
图4scSE模块网络结构。
图5共享残差表征编码器网络中的ASPP和scSE模块。
图6视差图和光流图解码器网络的网络结构图。
图7视差图和光流图解码器网络多尺度合成模块的网络结构图。
图8语义分割解码器网络的网络结构图。
图9DSVO系统的损失函数构建框图。
图10可微的空间反向映射方法框图。
图11循环重构图像光度一致性损失函数的构建框图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
一种基于深度卷积自编码器的视觉同时定位与地图构建方法,所述方法包括以下步 骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;如图像的翻转、压缩扭曲、局部截取和高斯噪声等
步骤2:建立基于深度卷积自编码器的多任务学习网络;该网络能选择不同的网络模 块和网络设计方案来构建于深度卷积自编码器网络,可以选择的使用预训练模型初始化网 络参数;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图 像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;该损失函数由多个部分组成,其中相机的位姿估计、深度估计和光流估计采用无监督的学习方式,通过几何约束关系来构建损失函数,而语义分割则采用有监督的学习方式;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取 器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的VSLAM系统前端,利用位姿图优化或因子图优化来构造VSLAM系统的后端,进而搭建一个完整的VSLAM系统,
步骤8:验证搭建的VSLAM系统的定位准确性和鲁棒性。
进一步的,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台 采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩 调整、局部裁剪和加入噪声。在数据集的量不够理想的情况下扩充数据集同时加入适当干 扰增加训练模型的泛化能力;改变图像尺寸是为了保证不同数据集中输入图像的大小一 致,同时可以减小输入图像的大小,进而减小网络的计算量,
进一步的,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
KITTI数据集包含双目相机图像数据、激光雷达点云数据、GPS和IMU数据,利用 激光点云投影获得稀疏的深度图和GPS/IMU融合获得的相机位姿作为训练数据的深度真 值和相机位姿真值,所述Cityscape数据集包含双目相机图像数据、算法合成的视差图、 GPS和IMU数据,尽管利用视差图可以获得粗略的深度图,但该深度图的精度不足以作 为深度图真值,因此该数据集只能用于网络训练,而不能用于测试,相比上述两个真实场 景数据集,Synthia数据集包含更多样的场景数据,能作为多任务网络的补充数据集对训 练好的网络参数进行微调,此外该数据集包含准确的语义分割图像,可用于多任务学习网 络中语义分割任务的训练。
所述步骤2,DSVO是基于MS-DCA的视觉里程计系统,因此,DSVO是一个可以进行 多任务学习的深度学习架构,DSVO由五部分组成,分别是:共享表征编码器、相机位姿 解码器、视差图解码器、光流图解码器和语义分割解码器。如图2所示,DSVO系统在训练 过程中,只使用来自双目传感器的左视角的连续三帧图像作为MS-DCA网络的输入,而相 应的右视角图像作为MS-DCA训练过程中的监督信号的一部分,DSVO系统将预测左右视角 连续三帧图像的视差图、左视角的连续三帧的语义分割掩码以及相机的两个位姿参数和四 幅光流图。
共享残差表征编码器网络。在基于MS-DCA的DSVO系统中,位姿预测任务、视差预测任务以及语义分割预测任务共享一个表征编码器编码出的表征。在DSVO中,共享的表征 编码器是一个基于深度残差神经网络(deep residual neural network)的卷积神经网络,残差 编码器的卷积神经网络结构类似于经典的ResNet-34的神经网络结构,ResNet-34被设计用于 目标分类任务。但是与经典的ResNet-34的结构略有不同的是,在经典的ResNet-34中使用一 个滑动步长为2的卷积层和一个滑动步长为1的卷积层实现特征图压缩,而在DSVO的表征 编码器中使用一个滑动步长为2的最大池化层实现特征图压缩。两个相邻的最大池化层之间 的残差模块构成一个表征编码器,经过最大池化层生成的一组特征图作为其它的解码器的 共享特征。共享的特征图能够获得和保留边缘信息,边缘信息对于视差图预测和语义分割 十分重要。该网络由四个空间和通道挤压和激励残差模块(scSE-Resblock)、空洞卷积金字 塔池化层(Atrous Spatial PyramidPooling,ASPP)和空间和通道挤压和激励块组成(Spatial and Channel Squeeze&Excitation Block,scSE)。scSE-Resblock的结构如图3所示,该模块中 包含一个scSE模块位于整个模块最下端的激活层之前,其网络结构如图4所示。ASPP和其 后端连接的scSE模块的网络图如图5所示。
相机位姿解码器网络。在DSVO系统中,将双目传感器中左视角的连续两帧图像通过 串联的方式相连接,以这种连接方式作为共享残差表征编码器,相机位姿解码器预测的是 连续两帧图像间的相对位姿。相对位姿由两部分组成,分别是具有高非线性的转角(rotation) 以及平移(translation)。相机位姿解码器由两个全连接层组成,并使用非线性激活函数ReLU 进行激活,最后输出一个6通道(相应的3个欧拉转角,以及3个3-D转移向量)的相对位姿 向量。
视差图解码器网络。视差图解码器与共享残差表征解码器构成编码器与解码器结构, 在视差图解码器后使用一个Sigmoid函数进行视差图预测估计。视差图解码器网络结构与共 享残差表征解码器网络结构成对称镜像关系,解码器网络实际上是一种生成器。与共享残 差表征解码器不同的是,视差图解码器网络需要利用来自于共享残差表征解码器网络的特 征图生成重构目标,因此使用反卷积操作应用于共享表征。两个相邻反卷积层之间的残差 模块作为一个解码器。每个解码器将相应的编码器输出的共享特征图作为输入,经过反卷 积操作后生成稀疏特征图。然后,这些生成的稀疏特征图经过每个解码器中的一系列卷积 操作后生成稠密的特征图。最后,使用Sigmoid函数进行视差图预测。在视差图解码器网络 中,能够同时预测左右图像的视差图,因此,Sigmoid的输出通道数为2。该网络的网络结 构图如图6所示,因为本发明中使用的是多尺度的方式来进行预测,因此需要将多个尺度下 的视差图输出进行合并进而生成最终的视差图,该合成模块的网络结构如图7所示。
光流图解码器网络。光流图解码器网络与视差图解码器网络相似,只是光流解码器网 络预测相邻两帧图像直接的前后光流图,因此,Sigmoid的输出通道数为4。
语义分割解码器网络。语义分割解码器网络的结构与视差图解码器网络结构类似,但 是由于预测任务的不同,因此在网络的顶端使用Softmax分类器进行逐像素分类,将语义分 割解码器最后输出的特征图输入到softmax多类别分类器中用于独立生成每个像素的类别 概率。最后的一个语义分割解码器与第一个表征编码器相对应,该语义分割解码器生成一 组多通道特征图。将这组多通道特征图输入一个可训练的softmax分类器。这个softmax对每 个像素进行独立分类。Softmax分类器输出是一个C个通道的概率图像,其中C与类别个数 相等。最后,预测出的分类结果是根据在每个像素点上具有最大类别概率的类别决定。该 网络的网络结构图如图8所示。
进一步的,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方 案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、 相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网 络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两 个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与 深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的 网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机 位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
进一步的,所述步骤3多任务网络的训练的输出包含四个部分:输入图像(RGB) 对应的左右深度图(leftDepth,rightDepth)、目标帧与参考帧之间的相机位姿(Pose)、目 标帧与参考帧之间的光流图(Forwar Flow,Backward Flow)、输入图像的语义分割图(Segmentationmask);其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数;光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
进一步的,所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出 的视差图和位姿向量,通过空间反向映射inverse warping的方式重构目标图像,并构建相 应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任 务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建 二者的交叉熵损失函数,搭建的多任务损失函数由四部分组成,其构建框图如图9所示:
Lmulti=Ld+Lp+Lf+Ls+Lwc (1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数,Lcw是循环重构图像光度一致性的损失函数。
进一步的,步骤4.1:视差图损失函数:
所述视差图损失函数只针对目标帧图像
Figure BDA0002389578300000161
Figure BDA0002389578300000162
该损失函数由三部分组成:
Figure BDA0002389578300000163
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是 视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预 测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像, 但在训练的过程中只有两幅左图被输入网络,接下来,将会详细描述式子(2)中左图对应的 每一个损失函数,而右图的损失函数与左图相对应,只需从相反的方向对图像进行warping 即可,
步骤4.1.1:所述空间图像光度重构误差(SpatialPhotometric Error):
大多数基于学习的方法都将深度预测问题作为一个有监督的学习问题,在训练的过程 中使用RGB图像和相应的深度图作为系统的输入和真值标签,但是,在大尺度的场景下, 很难获得理想的深度图真值标签,即使是使用昂贵的激光雷达,在复杂的动态场景中,测 量结果也依然不够准确,并且采集到的深度图通常是稀疏的,无法直接作为真值标签,因 此,在本文中尝试将深度估计的问题转换为一个无监督的学习问题,其核心思想为:在训 练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像
Figure BDA0002389578300000164
Figure BDA0002389578300000165
与其他直接预测深度图的方法不同,尝试从原始的输入图像生成视差图,再利用已知 的双目相机焦距和基线参数,获得对应的深度图,与(左右一致性paper)相类似,将左图 Il输入网络,输出左右两幅视差图
Figure BDA0002389578300000166
Figure BDA0002389578300000167
根据双目相机左右图像与视差图的关系,可 以利用左图Il和右视差图
Figure BDA0002389578300000168
重构右图
Figure BDA0002389578300000169
同样的也可以重构出左图
Figure BDA00023895783000001610
在重构的过程中,因为使用的视差图是通过网络生成的,利用该视差图直接进行warping而 重构出的图像像素坐标不是整数,因此无法直接进行相似性比较,因此对重构图像进行双 线性差值(如图5所示),这一操作同时也保证了构造损失函数的可微性,
使用L1范数和结构相似性(SSIM)两种方法来评估重构图像与原图像之间的差异性,从 而构造空间图像光度重构误差损失函数
Figure BDA00023895783000001611
Figure BDA00023895783000001612
其中
Figure BDA0002389578300000171
是输入图像,
Figure BDA0002389578300000172
Figure BDA0002389578300000173
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差(一阶+二阶);
希望最终获得的视差图是局部平滑的,因此利用视差图梯度的L1范数来构造损失函数, 因为深度图的局部不连续经常发生在图像梯度比较大的地方,使用图像的梯度作为损失函 数中各项的权重因子,使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度 误差损失函数,
Figure RE-GDA0002444911070000176
其中
Figure BDA0002389578300000175
为视差图的一阶导数,
Figure BDA0002389578300000176
为视差图的二阶 偏导数,
Figure BDA0002389578300000177
为原图像的一阶导数,
Figure BDA0002389578300000178
为原图像的二阶偏 导数,
步骤4.1.3:视差图的左右一致性误差(Left-Right Depth Consistency Loss):
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左 右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左 右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上 利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之 亦然,,
Figure BDA0002389578300000179
在获得了视差图之后,利用已知的相机基线b和焦距f(来源于训练数据集),可以将视差图
Figure BDA00023895783000001710
变换为深度图
Figure BDA00023895783000001711
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件 构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同, 位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任 务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用 原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成: 时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差(TemporalPhotometric Error):
令输入的两帧图像分别为参考帧图像
Figure BDA0002389578300000181
和目标帧图像
Figure BDA0002389578300000182
根据多视图几何原理,采用 反向映射的方式来构造图像,利用预测深度图
Figure BDA0002389578300000183
和相对位姿To→s,将
Figure BDA0002389578300000184
中的各个像素po投 影到
Figure BDA0002389578300000185
所在的坐标系下,
Figure BDA0002389578300000186
其中,ps表示投影到
Figure BDA0002389578300000187
后的齐次坐标(homogeneous coordinates),po表示某像素在 图像
Figure BDA0002389578300000188
中的齐次坐标,K是相机的内参矩阵。与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式(如图10所示),先将目标帧图像坐标投影(project)到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像。如公式(6)所述,
Figure BDA0002389578300000189
为将目标帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系。经过投影之后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure BDA00023895783000001810
其中po是图像
Figure BDA00023895783000001811
中的某个像素点,K是相机的内参矩阵,
Figure BDA00023895783000001812
为目标帧图像
Figure BDA00023895783000001813
对应的深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值。若将t时刻的图像作为
Figure BDA00023895783000001814
t-1和t+1时刻的图像作为
Figure BDA00023895783000001815
可以利用公式(7),分别从图像
Figure BDA00023895783000001816
Figure BDA00023895783000001817
中合成图像
Figure BDA00023895783000001818
Figure BDA00023895783000001819
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure BDA00023895783000001820
其中
Figure BDA00023895783000001821
Figure BDA0002389578300000191
其中SSIM的权重因子为
Figure BDA0002389578300000192
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其 相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系 下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下P′t+1(X,Y,Z),因此,两 幅连续图像序列之间的三维几何匹配误差表示为:
Figure BDA0002389578300000193
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合 成图像作为监督信号,进而实现光流图的无监督学习。光流图的预测也使用前后两幅图像 作为训练数据的输入,输出为前向光流图wf和反向光流图wb两幅图像。利用原图像和两 幅光流图构建连续图像的光流图损失函数。该损失函数由三部分组成:光流图光度重构误 差Lfd,光流图平滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差(FlowPhotometric Error):
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原 始图像之间的差值构成了的无监督损失函数。但是,遮挡区域的像素在相邻图像中的对应 像素上是无法被观察到的。因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响, 从而避免网络学习到错误的光流信息。遮挡区域的检测是基于前向和反正光流图的一致性 检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数。 当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流 图的掩码图像。因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定 义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2 (11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5。对于反向光流掩码图像ob,只需要将公式(11)中 的前向光流为Ff和反向光流Fb交换位置即可。
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure BDA0002389578300000201
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是 标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该 参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差。
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流 的共线性,从而实现更有效的正则化:
Figure BDA0002389578300000202
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成, ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40。
步骤4.3.3:光流一致性误差(Forward-BackwardFlow Consistency Loss):
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure BDA0002389578300000203
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练DSVO系统,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失 值相加起来。
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像 光度一致性误差。利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用, 而视差图重构则不使用。从图像
Figure BDA0002389578300000204
经过图像
Figure BDA0002389578300000205
重构图像
Figure BDA0002389578300000206
重构出的图像和遮挡掩码图 分别为:
Figure BDA0002389578300000207
Figure BDA0002389578300000211
其中,图像
Figure BDA0002389578300000212
为图像
Figure BDA0002389578300000213
对应的重构图像,or,t→l,t+1为相邻帧
Figure BDA0002389578300000214
Figure BDA0002389578300000215
之间的前向光流图, W为投影函数,
Figure BDA0002389578300000216
为t时刻预测出的左视差图,
Figure BDA0002389578300000217
为t+1时刻的前向光路图。
通过比较从图像
Figure BDA0002389578300000218
经过图像
Figure BDA0002389578300000219
重构出的对应图像
Figure BDA00023895783000002110
与直接从
Figure BDA00023895783000002111
重构的对应图像
Figure BDA00023895783000002112
之间 的差值来构造抗遮挡的循环重构图像光度损失函数(该损失函数的构建框图如图11所示):
Figure RE-GDA00024449110700002114
SSIM的权重因子为
Figure BDA00023895783000002114
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的 方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络, 提出的方法是第一个将多任务网络的思想用于SLAM系统的前端模块中,并且在构造损失 函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化。
进一步的,所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特 征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器, 选取网络合适层的特征图作为图像的原始全局表征张量:
Figure BDA00023895783000002115
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure BDA00023895783000002116
其中Fl为拼接之后的图像表征向量,
Figure BDA00023895783000002117
为将第i个特征图Fi l展开后的特征向量,c 为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure RE-GDA0002444911070000226
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure BDA0002389578300000222
为表征矩阵的平均值向量:
Figure RE-GDA0002444911070000228
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分 分析压缩:
Figure BDA0002389578300000224
其中cov为表征矩阵X的协方差矩阵,∑和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure BDA0002389578300000225
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2 … uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的 设置该值:
Figure BDA0002389578300000226
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure BDA0002389578300000231
其中ε∈(0,1)是一个很小的常数,用于防止除数为0。
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利 用位姿图优化或因子图优化来构造VSLAM系统的后端,进而搭建一个完整的VSLAM系统。

Claims (8)

1.一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述方法包括以下步骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;
步骤2:建立基于深度卷积自编码器的多任务学习网络;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的Visual-SLAM系统前端,利用位姿图优化或因子图优化来构造Visual-SLAM系统的后端,进而搭建一个完整的Visual-SLAM系统,
步骤8:验证搭建的Visual-SLAM系统的定位准确性和鲁棒性。
2.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。
3.根据权利要求2所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
4.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
5.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤3多任务网络的训练的输出包含四个部分:输入图像对应的左右深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语义分割图;其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数;光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
6.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出的视差图和位姿向量,通过空间反向映射inverse warping的方式重构目标图像,并构建相应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建二者的交叉熵损失函数,搭建的多任务损失函数由四部分组成:
Lmulti=Ld+Lp+Lf+Ls+Lwc (1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数,Lcw是循环重构图像光度一致性的损失函数。
7.根据权利要求6所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,
步骤4.1:视差图损失函数:
所述视差图损失函数由三部分组成:
Figure FDA0002389578290000021
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像,但在训练的过程中只有两幅左图被输入网络;
步骤4.1.1:空间图像光度重构误差:
在训练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像
Figure FDA0002389578290000031
Figure FDA0002389578290000032
评估重构图像与原图像之间的差异性,从而构造空间图像光度重构误差损失函数
Figure FDA0002389578290000033
Figure FDA0002389578290000034
其中
Figure FDA0002389578290000035
是输入图像,
Figure FDA0002389578290000036
Figure FDA0002389578290000037
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差;
利用视差图梯度的L1范数来构造损失函数,因为深度图的局部不连续经常发生在图像梯度比较大的地方,使用图像的梯度作为损失函数中各项的权重因子,使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数,
Figure 1
其中
Figure FDA0002389578290000039
为视差图的一阶导数,
Figure FDA00023895782900000310
为视差图的二阶偏导数,
Figure FDA00023895782900000311
为原图像的一阶导数,
Figure FDA00023895782900000312
为原图像的二阶偏导数,
步骤4.1.3:视差图的左右一致性误差;
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之亦然,
Figure FDA0002389578290000041
在获得了视差图之后,利用已知的相机基线b和焦距f,可以将视差图
Figure FDA0002389578290000042
变换为深度图
Figure FDA0002389578290000043
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同,位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成:时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差:
令输入的两帧图像分别为参考帧图像
Figure FDA0002389578290000044
和目标帧图像
Figure FDA0002389578290000045
根据多视图几何原理,采用反向映射的方式来构造图像,利用预测深度图
Figure FDA0002389578290000046
和相对位姿To→s,将
Figure FDA0002389578290000047
中的各个像素po投影到
Figure FDA0002389578290000048
所在的坐标系下,
Figure FDA0002389578290000049
其中,ps表示投影到
Figure FDA00023895782900000410
后的齐次坐标homogeneous coordinates,po表示某像素在图像
Figure FDA00023895782900000411
中的齐次坐标,K是相机的内参矩阵,与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式,先将目标帧图像坐标投影project到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回warp原始目标帧图像作为最终的重构图像,如公式(6)所述,
Figure FDA00023895782900000412
为将目标帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系,经过投影之后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure FDA00023895782900000413
其中po是图像
Figure FDA0002389578290000051
中的某个像素点,K是相机的内参矩阵,
Figure FDA0002389578290000052
为目标帧图像
Figure FDA0002389578290000053
对应的深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值,若将t时刻的图像作为
Figure FDA0002389578290000054
t-1和t+1时刻的图像作为
Figure FDA0002389578290000055
可以利用公式(7),分别从图像
Figure FDA0002389578290000056
Figure FDA0002389578290000057
中合成图像
Figure FDA0002389578290000058
Figure FDA0002389578290000059
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure FDA00023895782900000510
其中,
Figure FDA00023895782900000511
Figure FDA00023895782900000512
其中SSIM的权重因子为
Figure FDA00023895782900000513
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下P′t+1(X,Y,Z),因此,两幅连续图像序列之间的三维几何匹配误差表示为:
Figure FDA00023895782900000514
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合成图像作为监督信号,进而实现光流图的无监督学习,光流图的预测也使用前后两幅图像作为训练数据的输入,输出为前向光流图wf和反向光流图wb两幅图像,利用原图像和两幅光流图构建连续图像的光流图损失函数,该损失函数由三部分组成:光流图光度重构误差Lfd,光流图平滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差(Flow Photometric Error):
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原始图像之间的差值构成了的无监督损失函数,但是,遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的,因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响,从而避免网络学习到错误的光流信息,遮挡区域的检测是基于前向和反正光流图的一致性检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数,当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流图的掩码图像,因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2 (11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5,对于反向光流掩码图像ob,只需要将公式(11)中的前向光流为Ff和反向光流Fb交换位置即可,
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure FDA0002389578290000061
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差;
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流的共线性,从而实现更有效的正则化:
Figure FDA0002389578290000062
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40;
步骤4.3.3:光流一致性误差:
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure FDA0002389578290000063
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练DSVO系统,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失值相加起来;
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像光度一致性误差,利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用,而视差图重构则不使用,从图像
Figure FDA0002389578290000071
经过图像
Figure FDA0002389578290000072
重构图像
Figure FDA0002389578290000073
重构出的图像和遮挡掩码图分别为:
Figure FDA0002389578290000074
Figure FDA0002389578290000075
其中,图像
Figure FDA0002389578290000076
为图像
Figure FDA0002389578290000077
对应的重构图像,or,t→l,t+1为相邻帧
Figure FDA0002389578290000078
Figure FDA0002389578290000079
之间的前向光流图,W为投影函数,
Figure FDA00023895782900000710
为t时刻预测出的左视差图,
Figure FDA00023895782900000711
为t+1时刻的前向光路图,通过比较从图像
Figure FDA00023895782900000712
经过图像
Figure FDA00023895782900000713
重构出的对应图像
Figure FDA00023895782900000714
与直接从
Figure FDA00023895782900000715
重构的对应图像
Figure FDA00023895782900000716
之间的差值来构造抗遮挡的循环重构图像光度损失函数:
Figure DEST_PATH_FDA00024449110600000717
SSIM的权重因子为
Figure FDA00023895782900000718
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络,提出的方法是第一个将多任务网络的思想用于SLAM系统的前端模块中,并且在构造损失函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化。
8.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器,选取网络合适层的特征图作为图像的原始全局表征张量:
Figure FDA0002389578290000081
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure FDA0002389578290000087
其中Fl为拼接之后的图像表征向量,
Figure FDA0002389578290000088
为将第i个特征图Fi l展开后的特征向量,c为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure DEST_PATH_FDA0002444911060000084
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure FDA0002389578290000083
为表征矩阵的平均值向量:
Figure DEST_PATH_FDA0002444911060000086
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分分析压缩:
Figure FDA0002389578290000085
其中cov为表征矩阵X的协方差矩阵,∑和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure FDA0002389578290000086
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2 … uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的设置该值:
Figure FDA0002389578290000091
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure FDA0002389578290000092
其中ε∈(0,1)是一个很小的常数,用于防止除数为0,
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利用位姿图优化或因子图优化来构造VSLAM系统的后端,进而搭建一个完整的VSLAM系统。
CN202010109809.3A 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 Active CN111325794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010109809.3A CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010109809.3A CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Publications (2)

Publication Number Publication Date
CN111325794A true CN111325794A (zh) 2020-06-23
CN111325794B CN111325794B (zh) 2023-05-26

Family

ID=71167109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010109809.3A Active CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Country Status (1)

Country Link
CN (1) CN111325794B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931689A (zh) * 2020-08-26 2020-11-13 北京建筑大学 一种在线提取视频卫星数据鉴别特征的方法
CN112022066A (zh) * 2020-09-25 2020-12-04 电子科技大学 一种基于深度学习的消化道钩虫发现方法及系统
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112183325A (zh) * 2020-09-27 2021-01-05 哈尔滨市科佳通用机电股份有限公司 基于图像对比的公路车辆检测方法
CN112233179A (zh) * 2020-10-20 2021-01-15 湘潭大学 一种视觉里程计测量方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112288789A (zh) * 2020-10-26 2021-01-29 杭州电子科技大学 基于遮挡区域迭代优化的光场深度自监督学习方法
CN112330693A (zh) * 2020-11-13 2021-02-05 北京伟景智能科技有限公司 一种煤矸石检测方法及系统
CN112396167A (zh) * 2020-12-30 2021-02-23 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112697158A (zh) * 2020-12-03 2021-04-23 南京工业大学 一种用于室内外场景的人为回环即时定位和建图方法及系统
CN112819911A (zh) * 2021-01-23 2021-05-18 西安交通大学 基于N-net和CycN-net网络结构的四维锥束CT重建图像增强算法
CN112950481A (zh) * 2021-04-22 2021-06-11 上海大学 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN112967317A (zh) * 2021-03-09 2021-06-15 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113011525A (zh) * 2021-04-20 2021-06-22 上海应用技术大学 一种基于依赖性解码的轨道板裂缝语义分割模型
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113093221A (zh) * 2021-03-31 2021-07-09 东软睿驰汽车技术(沈阳)有限公司 占据栅格地图的生成方法及装置
CN113096176A (zh) * 2021-03-26 2021-07-09 西安交通大学 一种语义分割辅助的双目视觉无监督深度估计方法
CN113129373A (zh) * 2021-04-02 2021-07-16 南京航空航天大学 一种基于卷积神经网络的室内移动机器人视觉定位方法
CN113222124A (zh) * 2021-06-28 2021-08-06 重庆理工大学 用于图像语义分割的SAUNet++网络与图像语义分割方法
CN113240743A (zh) * 2021-05-18 2021-08-10 浙江大学 基于神经网络的异构图像位姿估计及配准方法、装置及介质
CN113379750A (zh) * 2021-06-22 2021-09-10 北京百度网讯科技有限公司 语义分割模型的半监督学习方法、相关装置及产品
CN113436251A (zh) * 2021-06-24 2021-09-24 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113469495A (zh) * 2021-05-28 2021-10-01 视辰信息科技(上海)有限公司 一种视觉定位系统的自动化评估方法及其系统
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113781582A (zh) * 2021-09-18 2021-12-10 四川大学 基于激光雷达和惯导联合标定的同步定位与地图创建方法
CN113781517A (zh) * 2020-09-30 2021-12-10 上海联影智能医疗科技有限公司 用于运动估计的系统和方法
CN113822954A (zh) * 2021-09-10 2021-12-21 西安交通大学 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN114046790A (zh) * 2021-10-22 2022-02-15 南京航空航天大学 一种因子图双重回环的检测方法
CN114418886A (zh) * 2022-01-19 2022-04-29 电子科技大学 一种基于深度卷积自编码器的鲁棒性去噪方法
US11321862B2 (en) * 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
CN114485417A (zh) * 2022-01-07 2022-05-13 哈尔滨工业大学 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统
CN114742987A (zh) * 2022-06-08 2022-07-12 苏州市洛肯电子科技有限公司 一种用于非金属材料切割的自动定位控制方法及系统
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
CN115311530A (zh) * 2022-07-15 2022-11-08 哈尔滨工业大学 一种基于深度卷积自编码器的流场特征提取方法
CN115556110A (zh) * 2022-10-25 2023-01-03 华中科技大学 基于主动半监督迁移学习的机器人位姿误差感知方法
WO2023015414A1 (zh) * 2021-08-09 2023-02-16 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
WO2023118943A1 (en) * 2021-12-21 2023-06-29 Bosch Car Multimedia Portugal, S.A. Joint object detection and simultaneous localization and mapping method for automated perception
CN116593162A (zh) * 2023-04-26 2023-08-15 西安交通大学 一种航空发动机机匣相对位姿的视觉测量方法
CN116630901A (zh) * 2023-07-24 2023-08-22 南京师范大学 一种基于潜在图预测无监督学习框架的视觉里程计方法
CN116649159A (zh) * 2023-08-01 2023-08-29 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的系统和方法
CN117555979A (zh) * 2024-01-11 2024-02-13 人民中科(北京)智能技术有限公司 一种高效的自底向上的地图位置缺失识别方法
CN117576665A (zh) * 2024-01-19 2024-02-20 南京邮电大学 一种面向自动驾驶的单摄像头三维目标检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103202018A (zh) * 2010-09-10 2013-07-10 汤姆逊许可公司 使用基于样本的数据修剪的视频编码
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
US20190051056A1 (en) * 2017-08-11 2019-02-14 Sri International Augmenting reality using semantic segmentation
CN109579825A (zh) * 2018-11-26 2019-04-05 江苏科技大学 基于双目视觉和卷积神经网络的机器人定位系统及方法
CN109615698A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于互回环检测的多无人机slam地图融合算法
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
US20190392729A1 (en) * 2018-06-20 2019-12-26 NEX Team, Inc. Remote multiplayer interactive physical gaming with mobile computing devices
CN110782395A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 图像处理方法及装置、电子设备和计算机可读存储介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103202018A (zh) * 2010-09-10 2013-07-10 汤姆逊许可公司 使用基于样本的数据修剪的视频编码
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
US20190051056A1 (en) * 2017-08-11 2019-02-14 Sri International Augmenting reality using semantic segmentation
US20190392729A1 (en) * 2018-06-20 2019-12-26 NEX Team, Inc. Remote multiplayer interactive physical gaming with mobile computing devices
CN109579825A (zh) * 2018-11-26 2019-04-05 江苏科技大学 基于双目视觉和卷积神经网络的机器人定位系统及方法
CN109615698A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于互回环检测的多无人机slam地图融合算法
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
CN110782395A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 图像处理方法及装置、电子设备和计算机可读存储介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
STEFAN MILZ: "Visual SLAM for Automated Driving: Exploring the Applications of Deep Learning" *
XIWU ZHANG: "Loop closure detection for visual SLAM systems using convolutional neural network" *
刘智杰: "基于卷积神经网络的语义同时定位以及地图构建方法" *
常友成: "基于自动编码器的视觉SLAM闭环检测方法研究" *
张云洲: "基于栈式卷积自编码的视觉SLAM闭环检测" *
李少朋;张涛;: "深度学习在视觉SLAM中应用综述" *
李少朋;张涛;: "深度学习在视觉SLAM中应用综述", 空间控制技术与应用 *
王廷银;林明贵;陈达;吴允平;: "基于北斗RDSS的核辐射监测应急通讯方法" *
王廷银;林明贵;陈达;吴允平;: "基于北斗RDSS的核辐射监测应急通讯方法", 计算机系统应用 *
缪弘: "基于深度卷积神经网络的视觉SLAM去模糊系统" *
陈晗: "基于端到端半监督生成对抗网络的视觉里程计" *
陈蕾: "基于激光SLAM技术的电缆沟道无人机巡检避障技术研究" *

Cited By (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931689B (zh) * 2020-08-26 2021-04-23 北京建筑大学 一种在线提取视频卫星数据鉴别特征的方法
CN111931689A (zh) * 2020-08-26 2020-11-13 北京建筑大学 一种在线提取视频卫星数据鉴别特征的方法
US20220138975A1 (en) * 2020-09-15 2022-05-05 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11704822B2 (en) * 2020-09-15 2023-07-18 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11321862B2 (en) * 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
CN112022066A (zh) * 2020-09-25 2020-12-04 电子科技大学 一种基于深度学习的消化道钩虫发现方法及系统
CN112183325B (zh) * 2020-09-27 2021-04-06 哈尔滨市科佳通用机电股份有限公司 基于图像对比的公路车辆检测方法
CN112183325A (zh) * 2020-09-27 2021-01-05 哈尔滨市科佳通用机电股份有限公司 基于图像对比的公路车辆检测方法
CN113781517A (zh) * 2020-09-30 2021-12-10 上海联影智能医疗科技有限公司 用于运动估计的系统和方法
CN112233179B (zh) * 2020-10-20 2022-08-19 湘潭大学 一种视觉里程计测量方法
CN112233179A (zh) * 2020-10-20 2021-01-15 湘潭大学 一种视觉里程计测量方法
CN112149757B (zh) * 2020-10-23 2022-08-19 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112288789A (zh) * 2020-10-26 2021-01-29 杭州电子科技大学 基于遮挡区域迭代优化的光场深度自监督学习方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112288789B (zh) * 2020-10-26 2024-03-29 杭州电子科技大学 基于遮挡区域迭代优化的光场深度自监督学习方法
CN112270249B (zh) * 2020-10-26 2024-01-23 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112330693A (zh) * 2020-11-13 2021-02-05 北京伟景智能科技有限公司 一种煤矸石检测方法及系统
CN112330693B (zh) * 2020-11-13 2023-12-29 北京伟景智能科技有限公司 一种煤矸石检测方法及系统
CN112697158A (zh) * 2020-12-03 2021-04-23 南京工业大学 一种用于室内外场景的人为回环即时定位和建图方法及系统
CN112634341B (zh) * 2020-12-24 2021-09-07 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112396167B (zh) * 2020-12-30 2022-07-15 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112396167A (zh) * 2020-12-30 2021-02-23 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112819911B (zh) * 2021-01-23 2022-10-25 西安交通大学 基于N-net和CycN-net网络结构的四维锥束CT重建图像增强算法
CN112819911A (zh) * 2021-01-23 2021-05-18 西安交通大学 基于N-net和CycN-net网络结构的四维锥束CT重建图像增强算法
CN112967317A (zh) * 2021-03-09 2021-06-15 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113096176A (zh) * 2021-03-26 2021-07-09 西安交通大学 一种语义分割辅助的双目视觉无监督深度估计方法
CN113096176B (zh) * 2021-03-26 2024-04-05 西安交通大学 一种语义分割辅助的双目视觉无监督深度估计方法
CN113093221A (zh) * 2021-03-31 2021-07-09 东软睿驰汽车技术(沈阳)有限公司 占据栅格地图的生成方法及装置
CN113129373A (zh) * 2021-04-02 2021-07-16 南京航空航天大学 一种基于卷积神经网络的室内移动机器人视觉定位方法
CN113129373B (zh) * 2021-04-02 2024-03-19 南京航空航天大学 一种基于卷积神经网络的室内移动机器人视觉定位方法
CN113077505B (zh) * 2021-04-19 2023-11-17 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113011525B (zh) * 2021-04-20 2023-09-19 上海应用技术大学 一种基于依赖性解码的轨道板裂缝语义分割模型
CN113011525A (zh) * 2021-04-20 2021-06-22 上海应用技术大学 一种基于依赖性解码的轨道板裂缝语义分割模型
CN112950481B (zh) * 2021-04-22 2022-12-06 上海大学 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN112950481A (zh) * 2021-04-22 2021-06-11 上海大学 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN113240743A (zh) * 2021-05-18 2021-08-10 浙江大学 基于神经网络的异构图像位姿估计及配准方法、装置及介质
CN113240743B (zh) * 2021-05-18 2022-03-25 浙江大学 基于神经网络的异构图像位姿估计及配准方法、装置及介质
CN113469495A (zh) * 2021-05-28 2021-10-01 视辰信息科技(上海)有限公司 一种视觉定位系统的自动化评估方法及其系统
CN113379750A (zh) * 2021-06-22 2021-09-10 北京百度网讯科技有限公司 语义分割模型的半监督学习方法、相关装置及产品
CN113436251B (zh) * 2021-06-24 2024-01-09 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113436251A (zh) * 2021-06-24 2021-09-24 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113222124A (zh) * 2021-06-28 2021-08-06 重庆理工大学 用于图像语义分割的SAUNet++网络与图像语义分割方法
CN113222124B (zh) * 2021-06-28 2023-04-18 重庆理工大学 用于图像语义分割的SAUNet++网络与图像语义分割方法
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
WO2023015414A1 (zh) * 2021-08-09 2023-02-16 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN113822954A (zh) * 2021-09-10 2021-12-21 西安交通大学 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN113822954B (zh) * 2021-09-10 2024-04-02 西安交通大学 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN113781582A (zh) * 2021-09-18 2021-12-10 四川大学 基于激光雷达和惯导联合标定的同步定位与地图创建方法
CN113781582B (zh) * 2021-09-18 2023-09-19 四川大学 基于激光雷达和惯导联合标定的同步定位与地图创建方法
CN114046790A (zh) * 2021-10-22 2022-02-15 南京航空航天大学 一种因子图双重回环的检测方法
WO2023118943A1 (en) * 2021-12-21 2023-06-29 Bosch Car Multimedia Portugal, S.A. Joint object detection and simultaneous localization and mapping method for automated perception
CN114485417A (zh) * 2022-01-07 2022-05-13 哈尔滨工业大学 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统
CN114418886A (zh) * 2022-01-19 2022-04-29 电子科技大学 一种基于深度卷积自编码器的鲁棒性去噪方法
CN114742987A (zh) * 2022-06-08 2022-07-12 苏州市洛肯电子科技有限公司 一种用于非金属材料切割的自动定位控制方法及系统
CN114742987B (zh) * 2022-06-08 2022-09-27 苏州市洛肯电子科技有限公司 一种用于非金属材料切割的自动定位控制方法及系统
CN115311530B (zh) * 2022-07-15 2023-08-29 哈尔滨工业大学 一种基于深度卷积自编码器的流场特征提取方法
CN115311530A (zh) * 2022-07-15 2022-11-08 哈尔滨工业大学 一种基于深度卷积自编码器的流场特征提取方法
CN115556110A (zh) * 2022-10-25 2023-01-03 华中科技大学 基于主动半监督迁移学习的机器人位姿误差感知方法
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116593162B (zh) * 2023-04-26 2023-12-19 西安交通大学 一种航空发动机机匣相对位姿的视觉测量方法
CN116593162A (zh) * 2023-04-26 2023-08-15 西安交通大学 一种航空发动机机匣相对位姿的视觉测量方法
CN116630901B (zh) * 2023-07-24 2023-09-22 南京师范大学 一种基于潜在图预测无监督学习框架的视觉里程计方法
CN116630901A (zh) * 2023-07-24 2023-08-22 南京师范大学 一种基于潜在图预测无监督学习框架的视觉里程计方法
CN116649159B (zh) * 2023-08-01 2023-11-07 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的系统和方法
CN116649159A (zh) * 2023-08-01 2023-08-29 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的系统和方法
CN117555979A (zh) * 2024-01-11 2024-02-13 人民中科(北京)智能技术有限公司 一种高效的自底向上的地图位置缺失识别方法
CN117555979B (zh) * 2024-01-11 2024-04-19 人民中科(北京)智能技术有限公司 一种高效的自底向上的地图位置缺失识别方法
CN117576665A (zh) * 2024-01-19 2024-02-20 南京邮电大学 一种面向自动驾驶的单摄像头三维目标检测方法及系统
CN117576665B (zh) * 2024-01-19 2024-04-16 南京邮电大学 一种面向自动驾驶的单摄像头三维目标检测方法及系统

Also Published As

Publication number Publication date
CN111325794B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Ming et al. Deep learning for monocular depth estimation: A review
Saito et al. Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization
US11210803B2 (en) Method for 3D scene dense reconstruction based on monocular visual slam
US11100401B2 (en) Predicting depth from image data using a statistical model
Kuznietsov et al. Semi-supervised deep learning for monocular depth map prediction
Zhang et al. Meshstereo: A global stereo model with mesh alignment regularization for view interpolation
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN108876814B (zh) 一种生成姿态流图像的方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
Rogez et al. Image-based synthesis for deep 3D human pose estimation
dos Santos Rosa et al. Sparse-to-continuous: Enhancing monocular depth estimation using occupancy maps
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
Zakharov et al. Single-shot scene reconstruction
Mukasa et al. 3d scene mesh from cnn depth predictions and sparse monocular slam
Mihajlovic et al. Deepsurfels: Learning online appearance fusion
Liu et al. A survey on deep learning methods for scene flow estimation
CN116452752A (zh) 联合单目稠密slam与残差网络的肠壁重建方法
Baudron et al. E3d: event-based 3d shape reconstruction
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
Li et al. Three-dimensional motion estimation via matrix completion
Correia et al. 3D reconstruction of human bodies from single-view and multi-view images: A systematic review
Zhang et al. CUDA acceleration of 3D dynamic scene reconstruction and 3D motion estimation for motion capture
Wu et al. Neural mesh refiner for 6-dof pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant