CN110610486A

CN110610486A - 单目图像深度估计方法及装置

Info

Publication number: CN110610486A
Application number: CN201910800196.5A
Authority: CN
Inventors: 戴琼海; 郝敏升; 李一鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-24
Anticipated expiration: 2039-08-28
Also published as: CN110610486B

Abstract

本发明公开了一种单目图像深度估计方法及装置，其中，该方法包括：获取单目视频序列，通过SLAM算法对单目视频序列进行处理生成关键帧稀疏特征点深度信息；根据关键帧稀疏特征点深度信息和单目视频序列构建训练集；构建端对端网络模型；对关键帧稀疏特征点深度信息进行恢复生成深度图，根据深度图及深度图对应的深度点计算几何误差，根据几何误差、相似性误差及深度图光滑度构造损失函数；根据训练集和损失函数对端对端网络模型进行训练，生成单目图像深度估计模型，通过单目图像深度估计模型对单目图像的深度信息进行估计。该方法通过SLAM系统得到的深度信息作为弱监督信息并基于此训练网络模型，提高了CNN输出深度图的准确度。

Description

单目图像深度估计方法及装置

技术领域

本发明涉及图像深度估计技术领域，特别涉及一种单目图像深度估计方法及装置。

背景技术

如何从图像中恢复出场景的三维信息是计算机视觉的研究热点与难点，而图像中物体的深度信息会对三维重建提供极大的帮助，因此通过平面图像估计深度对三维重建有很重要的意义，除此之外，对AR，导航，语义分割，3D bounding box也有很大的帮助。

目前对场景信息的获取大多依靠特定的硬件设备，如激光雷达、RGB-D相机和双目相机。Velodyne公司的激光雷达测距能力强，精度高鲁棒性高，能在任何光线条件下测距，但价格高昂，使得无法广泛普及。而RGB-D相机如Microsoft公司的Kinect相机，Intel公司的RealSense等等能够同时得到图像数据与深度数据，但容易受到光线影响，测距距离较短，以Microsoft公司的Kinect相机为例，最远只能检测到5米。RGB-D相机适用于室内条件下的深度感知，无法在室外得到较好的深度数据。双目相机通过匹配左右图像的特征点，根据对应的特征点和左右相机的位置关系，通过计算得到稀疏的深度信息，但使用前需要进行标定，同时因为算法复杂，所以在应用上会有很多限制。

除了直接获取深度信息外，通过多视角图像或视频序列也可以获取周围场景的深度信息。基于多视图图像是通过相机阵列对深度进行采集，通过多视点图像之间的对应关系进行深度估计，但是相机阵列配置麻烦，成本高，应用范围小。基于视频序列的深度感知具有代表性的就是视觉SLAM技术。视觉SLAM技术根据使用的设备不同，又可以分为RGB-D、双目和单目视觉SLAM技术。RGB-D和双目SLAM技术优缺点受制于设备。单目视觉SLAM技术通过使用相机作为传感器，通过提取特征点，匹配相邻两帧图像，构建视觉里程计，使用具有稀疏性的非线性优化理论(Bundle Adjustment)进行优化，能够使用实时算法对相机的位姿进行追踪，同时构建环境地图。

随着深度学习技术的成熟，在诸多领域都有较好的突破，将其引入视觉领域，用于解决传统算法无法攻克的难题。近两年来，使用机器学习方法来对图像和视频进行分析，通过深度学习获取深度信息等研究越来越受到重视，具有很大的开发潜力。这种方法非常类似于人类的视觉系统——利用先验知识进行深度的感知，具体方法是通过大量的数据训练网络模型，让网络进行学习。训练完成后，就可以通过图像预测深度。同时通过深度学习获取的深度信息是唯一能够得到稠密的深度图方法。2014年，Eigen等人首次使用了端对端的网络模型，通过计算估计出深度与真实深度的差值，采用有监督的方法训练网络，直接获得输入图像的深度图像。2017年，Zhou Tinghui首次提出了通过无监督的方法训练网络：根据估计出的深度图像与相机姿态将当前图像投影到时间上相邻的图像中，对投影图像与源图像差值进行回归，从而训练网络。但是无监督方法相比监督方法在最终效果上稍差。

目前，通过深度学习估计单目深度的方法大多都直接将深度或图像数据作为数据集输入网络进行训练，没有很好地与传统方法进行结合，导致浪费了部分信息。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种单目图像深度估计方法，该方法通过SLAM系统得到的深度信息作为弱监督信息并基于此训练网络模型，提高了CNN输出深度图的准确度。

本发明的另一个目的在于提出一种单目图像深度估计装置。

为达到上述目的，本发明一方面实施例提出了一种单目图像深度估计方法，包括：

获取单目视频序列，通过SLAM算法对所述单目视频序列进行处理生成关键帧稀疏特征点深度信息；

根据所述关键帧稀疏特征点深度信息和所述单目视频序列构建训练集；

构建端对端网络模型；

对所述关键帧稀疏特征点深度信息进行恢复生成深度图，根据所述深度图及所述深度图对应的深度点计算几何误差，计算相似性误差和深度图光滑度，根据所述几何误差、所述相似性误差及所述深度图光滑度构造损失函数；

根据所述训练集和所述损失函数对所述端对端网络模型进行训练，生成单目图像深度估计模型，通过所述单目图像深度估计模型对单目图像的深度信息进行估计。

本发明实施例的单目图像深度估计方法，通过使用SLAM算法处理单目视频序列以获得关键帧稀疏特征点深度信息，预处理并保存；利用保存的特征点深度信息和图像序列构建训练用数据集；构建用于估计单目图像深度的端对端网络模型；根据计算深度图及对应深度点计算几何误差，并结合相似性误差以及深度图像光滑度，构造损失函数；训练网络，获得单目图像深度估计模型。由此，可利用任何长度合适的视频序列进行训练，不受特定数据集的约束，不需要其他设备提供深度信息；利用稀疏点的深度弱监督信息，提高了CNN回归深度图像的精确度；通过合适的数据处理方法，提高了对训练样本的利用率。

另外，根据本发明上述实施例的单目图像深度估计方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，将所述单目视频序列输入到SLAM系统中，通过所述SLAM算法优化生成所述关键帧稀疏特征点深度信息。

进一步地，在本发明的一个实施例中，还包括：对所述深度图进行归一化，归一化公式为：

其中，D_sp为单目视频序列中的图像对应的监督深度图，k为深度图中具有深度信息的像素点个数，d_av为监督深度图的平均深度。

进一步地，在本发明的一个实施例中，所述几何误差为：

其中，mask为一个稀疏矩阵，d_i为归一化后的深度图在点i处的深度，ξ_i为所述端对端网络模型估计出的点i处的深度。

进一步地，在本发明的一个实施例中，所述损失函数为：

其中，为几何误差，为相似性误差，为深度图光滑度，λ_sp与λ_sm为超参数。

为达到上述目的，本发明另一方面实施例提出了一种单目图像深度估计装置，包括：

生成模块，用于获取单目视频序列，通过SLAM算法对所述单目视频序列进行处理生成关键帧稀疏特征点深度信息；

第一构建模块，用于根据所述关键帧稀疏特征点深度信息和所述单目视频序列构建训练集；

第二构建模块，用于构建端对端网络模型；

计算模块，用于对所述关键帧稀疏特征点深度信息进行恢复生成深度图，根据所述深度图及所述深度图对应的深度点计算几何误差，计算相似性误差和深度图光滑度，根据所述几何误差、所述相似性误差及所述深度图光滑度构造损失函数；

估计模块，用于根据所述训练集和所述损失函数对所述端对端网络模型进行训练，生成单目图像深度估计模型，通过所述单目图像深度估计模型对单目图像的深度信息进行估计。

本发明实施例的单目图像深度估计装置，通过使用SLAM算法处理单目视频序列以获得关键帧稀疏特征点深度信息，预处理并保存；利用保存的特征点深度信息和图像序列构建训练用数据集；构建用于估计单目图像深度的端对端网络模型；根据计算深度图及对应深度点计算几何误差，并结合相似性误差以及深度图像光滑度，构造损失函数；训练网络，获得单目图像深度估计模型。由此，可利用任何长度合适的视频序列进行训练，不受特定数据集的约束，不需要其他设备提供深度信息；利用稀疏点的深度弱监督信息，提高了CNN回归深度图像的精确度；通过合适的数据处理方法，提高了对训练样本的利用率。

另外，根据本发明上述实施例的单目图像深度估计装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述几何误差为：

进一步地，在本发明的一个实施例中，所述损失函数为：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的单目图像深度估计方法流程图；

图2为根据本发明一个实施例的单目图像深度估计方法流程框图；

图3为根据本发明一个实施例的通过SLAM获取深度信息过程图；

图4为根据本发明一个实施例的图像投影示意图；

图5为根据本发明一个实施例的计算深度图与原图对照示意图；

图6为根据本发明一个实施例的单目图像深度估计装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的单目图像深度估计方法及装置。

首先将参照附图描述根据本发明实施例提出的单目图像深度估计方法。

图1为根据本发明一个实施例的单目图像深度估计方法流程图。

如图1和图2所示，该单目图像深度估计方法包括以下步骤：

在步骤S101中，获取单目视频序列，通过SLAM算法对单目视频序列进行处理生成关键帧稀疏特征点深度信息。

具体地，将单目视频序列输入到SLAM系统中，通过SLAM算法优化获得关键帧稀疏特征点的可靠深度信息。对关键帧稀疏特征点深度信息预处理并保存。

其中，所使用的SLAM系统为采用直接法的能够在室外场景下获取较多特征点的SLAM系统。

具体而言，实施过程如图3所示：将视频序列输入到采用直接法的SLAM系统中，本实例以DSO方法为例。首先需要将DSO中希望得到的活跃点阈值提高至8000(原来为2000)，用于得到更加稠密的数据，再将每一帧都设置为关键帧，从而每一帧图像都具有深度信息；在每进入一张新图像后，SLAM会对目前保留的所有关键帧进行联合优化(DSO算法中最多对7帧关键帧进行同时优化)，用于更新关键帧的深度信息；随后，对所有帧中所有点进行遍历，对还存在活跃点的帧，考虑每个点i周围的30×30的所有具有深度信息的像素点，记做一个图像块同时定义可靠性为：

其中，为一个点i周围的30×30的图像块，d_i为像素点i所估计出的深度值，d_j同理。d_max为图像块中深度的最大值：

当说明像素点i与j深度相差不大，当中有两对这样的点时，认为i点的深度值是可靠的。

将可靠点信息以(x,y,depth)形式保存，至此一次保存就完成。随着SLAM不断优化，一帧可能保存多次，深度信息也越来越接近于真实值。

在步骤S102中，根据关键帧稀疏特征点深度信息和单目视频序列构建训练集。

具体地，利用保存的特征点深度信息和图像序列构建训练用数据集。训练用的数据集由通过SLAM生成的稀疏特征点深度图和原图像两部分组成。训练用的数据集中的每一张图片由相邻3帧拼接而成，原图像与深度图一一对应。

进一步地，通过一下方法构建训练集：将图像调整大小；同时将相邻三帧拼接为一张图片；根据保存的深度信息恢复出深度图：将深度图调整为与图像一致大小，将相邻三帧深度图拼接为一张图片；进行数据增强。

进一步地，图像拼接方法为：在图像宽度方向无缝衔接3张图片，最终得到图像尺寸宽度为一张图像的三倍，高度不变。

进一步地，构建训练用数据集时进行的数据增强方法如下：

图像调整：对调整大小后图像进行亮度、饱和度和色度的调整，包括对亮度、饱和度和色度乘以一个随机值，生成训练数据。

图像翻转：对调整后图像以竖直方向为轴进行翻转，此操作对象为普通图像以及深度图像。

具体而言，将图像调整为416×128大小，用于提高训练速度，减少参数；同时将相邻三帧拼接为一张图片，用于输入网络时保留图像相邻关系；根据保存的深度信息恢复出深度图：去掉最大的4个深度值，用于减少野点；统计深度图中有深度信息点个数，如果个数小于20，则舍弃；对于没有深度信息的点，统一将深度设置为0；将深度图调整为与图像一致大小，将相邻三帧深度图拼接为一张图片。数据增强方法如下：图像调整：对调整大小后图像进行亮度、饱和度和色度的调整，包括对亮度、饱和度和色度乘以一个范围在0.8-1之间的随机值，生成训练数据。图像翻转：对调整后图像以竖直方向为轴进行180°翻转，此操作对象为普通图像以及深度图像。

在步骤S103中，构建用于估计单目图像深度的端对端网络模型。

具体地，深度估计网络模型采用U-net，中间采用使用VGG或RESNET50网络结构。网络输入为：一张图片I。输出为：相应的估计深度图D；除此之外，还需要构建估计相机位姿网络：输入为三帧拼接图像，输出为相机位姿(x,y,z,α,β,γ)。相机位姿网络为普通的CNN结构网络。整体网络结构与T.Zhou,M.Brown,N.Snavely,and D.G.Lowe,“UnsupervisedLearning of Depth and Ego-Motion from Video,”2017,pp.6612–6619.中构造的结构类似，与之不同的是取消了位姿估计网络用于生成可解释图像的后半部分网络，同时实现了RESNET50网络结构。

在步骤S104中，对关键帧稀疏特征点深度信息进行恢复生成深度图，根据深度图及深度图对应的深度点计算几何误差，计算相似性误差和深度图光滑度，根据几何误差、相似性误差及深度图光滑度构造损失函数。

具体地，如图4所示，根据计算深度图及对应深度点计算几何误差，并结合相似性误差以及深度图像光滑度，构造损失函数。

具体来说，图片I对应的监督深度图为D_sp，首先将D_sp中深度信息进行归一化处理：

上式中kd_av为监督深度图的平均深度。本操作用于将监督深度信息的平均尺度调整为1。则几何误差:

mask为一个稀疏矩阵，在相应坐标处有监督深度的点值为1，其他为0；用于把没有监督信息的点滤去。

相似性误差定义如下：记网络输入图片为t时刻图像I_t，与之相邻图片为I_t-1，I_t+1，统一记为源图像I_s；根据深度和相机位姿，将I_t投影到I_s所在平面，记做

K为相机内参矩阵，为相应姿态矩阵。根据与I_s，可定义相似性误差：

其中，SSIM(*)为结构相似性误差，SSIM用来计算结构相似性误差，α＝0.85由交叉验证后得出。

深度图像光滑度为：

其中，是向量微分算子，T表示图像梯度加权的转置。

最终的损失函数由相似性误差、深度图像光滑度以及几何误差三部分组成，根据本步骤定义的几何误差相似性误差和深度图像光滑度可定义损失函数：

λ_sp与λ_sm为超参数，在本实例中经交叉试验后，λ_sp＝1，λ_sm＝0.5。参数的选取应在具体的实验中进行调整。

在步骤S105中，根据训练集和损失函数对端对端网络模型进行训练，生成单目图像深度估计模型，通过单目图像深度估计模型对单目图像的深度信息进行估计。

使用训练数据集并结合损失函数对网络模型进行训练；用训练完成后的最终估计模型就能够对输入图像进行深度估计。

具体来说，利用步骤S102中的训练集，通过不断优化步骤S104构造的损失函数至最小来训练步骤S103中构建的网络模型，在本实施例中共训练350000步。训练完成后，即可使用网络进行对单张图片的深度估计，结果如图5所示。

根据本发明实施例提出的单目图像深度估计方法，通过使用SLAM算法处理单目视频序列以获得关键帧稀疏特征点深度信息，预处理并保存；利用保存的特征点深度信息和图像序列构建训练用数据集；构建用于估计单目图像深度的端对端网络模型；根据计算深度图及对应深度点计算几何误差，并结合相似性误差以及深度图像光滑度，构造损失函数；训练网络，获得单目图像深度估计模型。由此，可利用任何长度合适的视频序列进行训练，不受特定数据集的约束，不需要其他设备提供深度信息；利用稀疏点的深度弱监督信息，提高了CNN回归深度图像的精确度；通过合适的数据处理方法，提高了对训练样本的利用率。

其次参照附图描述根据本发明实施例提出的单目图像深度估计装置。

如图6所示，该单目图像深度估计装置包括：生成模块100、第一构建模块200、第二构建模块300、计算模块400和估计模块500。

生成模块100，用于获取单目视频序列，通过SLAM算法对单目视频序列进行处理生成关键帧稀疏特征点深度信息。

第一构建模块200，用于根据关键帧稀疏特征点深度信息和单目视频序列构建训练集。

第二构建模块300，用于构建端对端网络模型。

计算模块400，用于对关键帧稀疏特征点深度信息进行恢复生成深度图，根据深度图及深度图对应的深度点计算几何误差，计算相似性误差和深度图光滑度，根据几何误差、相似性误差及深度图光滑度构造损失函数。

估计模块500，用于根据训练集和损失函数对端对端网络模型进行训练，生成单目图像深度估计模型，通过单目图像深度估计模型对单目图像的深度信息进行估计。

进一步地，在本发明的一个实施例中，将单目视频序列输入到SLAM系统中，通过SLAM算法优化生成关键帧稀疏特征点深度信息。

进一步地，在本发明的一个实施例中，还包括：对深度图进行归一化，归一化公式为：

进一步地，在本发明的一个实施例中，几何误差为：

其中，mask为一个稀疏矩阵，d_i为归一化后的深度图在点i处的深度，ξ_i为端对端网络模型估计出的点i处的深度。

进一步地，在本发明的一个实施例中，损失函数为：

需要说明的是，前述对单目图像深度估计方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的单目图像深度估计装置，通过使用SLAM算法处理单目视频序列以获得关键帧稀疏特征点深度信息，预处理并保存；利用保存的特征点深度信息和图像序列构建训练用数据集；构建用于估计单目图像深度的端对端网络模型；根据计算深度图及对应深度点计算几何误差，并结合相似性误差以及深度图像光滑度，构造损失函数；训练网络，获得单目图像深度估计模型。由此，可利用任何长度合适的视频序列进行训练，不受特定数据集的约束，不需要其他设备提供深度信息；利用稀疏点的深度弱监督信息，提高了CNN回归深度图像的精确度；通过合适的数据处理方法，提高了对训练样本的利用率。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种单目图像深度估计方法，其特征在于，包括以下步骤：

构建端对端网络模型；

2.根据权利要求1所述的方法，其特征在于，

将所述单目视频序列输入到SLAM系统中，通过所述SLAM算法优化生成所述关键帧稀疏特征点深度信息。

3.根据权利要求1所述的方法，其特征在于，还包括：对所述深度图进行归一化，归一化公式为：

4.根据权利要求1所述的法，其特征在于，所述几何误差为：

5.根据权利要求1所述的方法，其特征在于，所述损失函数为：

6.一种单目图像深度估计装置，其特征在于，包括：

第二构建模块，用于构建端对端网络模型；

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求6所述的装置，其特征在于，还包括：对所述深度图进行归一化，归一化公式为：

9.根据权利要求6所述的装置，其特征在于，所述几何误差为：

10.根据权利要求6所述的装置，其特征在于，所述损失函数为：