CN112598721A

CN112598721A - 基于归一化回归函数单目深度估计系统训练方法和网络

Info

Publication number: CN112598721A
Application number: CN202011532878.1A
Authority: CN
Inventors: 李承远
Original assignee: Shaoxing Beida Information Technology Innovation Center; Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Shaoxing Beida Information Technology Innovation Center; Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-02

Abstract

一种基于归一化回归函数的单目深度估计系统训练方法，包括以下步骤：从数据集中读取双目图像，利用立体匹配算法处理出深度图，从数据集的双目图像中选取目标图像输入训练网络，输出预测深度图，利用回归函数对预测深度图以及代理深度标签进行回归监督，将目标图像的像素点投影到参考图像中，再从参考图像中的投影位置采样合成新像素，生成重建图片，通过光度误差损失函数计算目标图像和重建图片之间的图像相似误差，通过深度连续性损失函数计算预测深度图的光滑误差，迭代优化，直至光度误差损失函数、深度连续性损失函数以及回归函数达到收敛，完成训练。

Description

基于归一化回归函数单目深度估计系统训练方法和网络

技术领域

本发明属于计算机视觉领域中的深度估计领域，特别是基于归一化回归函数单目深度估计系统训练方法和网络。

背景技术

单目深度估计是计算机视觉领域的重要研究课题，其在机器人、自动驾驶、增强现实等领域拥有诸多广泛的应用。近年来出现了一些用无监督方法进行单目深度估计的系统，输入双目图像对，这些方法首先利用深度神经网络对目标图像预测深度，并利用该预测出来的深度图和另外一个参考图片重建出一个新的目标图像。重建出来的图片和原图片之间的光度误差用来优化整个深度神经网络。另外也有一些工作利用传统的立体匹配算法提前对输入的双目图像对进行预处理，得到粗糙的深度图，并利用该粗糙的深度图在系统训练中进行弱监督。

但是，这些具有两种损失函数的单目深度估计系统存在一个问题，这两种损失函数形成的训练损失并不平衡，具体表现为，基于光度误差的损失函数会随着系统预测深度的变大而增大，基于回归误差的损失函数会随着系统预测深度的增大而减小，因此，在系统预测大深度值时，回归损失误差会远远超过光度损失误差，因此造成损失误差的不平衡从而降低整个系统的性能。

发明内容：

本发明要解决的技术问题是现有单目深度估计系统训练损失不平衡。

本发明提出一种基于归一化回归函数单目深度估计系统训练方法。包括以下步骤：

一种基于归一化回归函数单目深度估计系统训练方法，其特征在于，包括以下步骤：

S1，选取数据集，从数据集中读取双目图像，双目图像包括目标图像和参考图像，利用立体匹配算法处理出深度图，作为代理深度标签；

S2，从数据集的双目图像中选取目标图像输入训练网络，输出预测深度图；

S3,利用回归函数对预测深度图以及代理深度标签进行回归监督，得到弱监督训练误差；

S4，利用预测深度图和双目图像之间的基线距离，先将目标图像的像素点投影到参考图像中，再从参考图像中的投影位置采样合成新像素，生成重建图片；

S5，通过光度误差损失函数计算目标图像和重建图片之间的图像相似误差，通过深度连续性损失函数计算预测深度图的光滑误差；

S6，重复S1至S5，直至光度误差损失函数、深度连续性损失函数以及回归函数达到收敛，完成训练。

进一步的，所述S2中的立体匹配算法以左图为基准，计算出左图的视差图z后，利用已知的相机焦距f和双目基线距离b将左眼图像的视差图转换成深度图d′_l，公式为：d′_l＝f*b/z。

进一步的，所述S2的预测深度图与目标图像的尺寸相同。

进一步的，所述S2中训练网络包括编码网络和解码网络，对编码网络进行预训练，解码网络进行初始化。

进一步的，所述S3中回归函数公式为：

其中为d_ij为预测深度图在像素位置处的深度大小，d′_ij为立体匹配算法计算出的深度图在像素位置处的深度大小。

进一步的，所述S4中目标图像向参考图像的投影方法为：

p_r～KBD(p_l)K^-1p_l

其中，p_l表示目标图像中的像素点坐标，K、B表示已知的双目相机内参和基线距离，p_r表示投影在目标图像中的位置坐标。

进一步的，所述S5中的光度误差损失函数为：

其中，p表示目标图像中的像素，SSIM表示结构相似性误差函数。

进一步的，所述S5中的深度连续性损失函数为：

其中，p表示目标图像中的像素，d表示预测深度图，I表示与深度图对应的图像。

一种基于归一化回归函数单目深度估计系统训练网络，包括编码网络、解码网络和归一化模块，编码网络通过卷积和池化操作将目标图像变成高维度特征，解码网络对该高维度特征进行反卷积将特征尺寸扩大并生成和目标图像尺寸一样的深度图，归一化模块采用log函数对解码网络生成的深度图与目标图像经立体匹配计算出的深度图两者间的误差值进行映射。

进一步的，所述编码网络的结构与解码网络相同，但两者的排列相反。

本发明同现有技术相比具有以下优点及效果：

1、本发明在训练过程中通过使用归一化回归函数对网络输出的深度图以及粗糙的代理标签进行回归监督，使得回归误差值不会随着网络预测深度的上升而剧烈变化，从而维系回归误差和光度误差的平衡，使得整个深度估计系统更加稳定和鲁棒，并且大大增强系统性能。

2、本发明的归一化回归函数的对深度图间的误差值采用log函数进行映射，利用log函数的性质将较大误差拉小。此外，对计算出的误差值进行归一化，其目的同样是降低大误差的影响。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明的总流程图；

图2为本发明深度预测精度和其它方法的对比图；

图3为本发明预测出的深度图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：

如图1所示，一种基于归一化回归损失函数的单目深度估计系统训练方法。

步骤1，对训练数据进行预处理。选取训练所需数据集，例如KITTI无人驾驶数据集、Cityscape无人驾驶数据集等公开的数据集，本实施例选用KITTI无人驾驶数据集，该数据集内的图像分辨率可以为任意分辨率，例如1024×960、1080×600、960×480等，本实施例中选用1024×320分辨的图像。随机的从数据集当中读取一对或多对双目图像(I_l，I_r)，利用立体匹配SGBM算法对双目图像对进行预处理，得到左眼图像视差图z_l，接着利用视差深度转换公式将视差图z_l转换成深度图d′_l，视差深度转换公式如下：

其中f为相机内参，b为双目相机的基线距离。这样，通过立体匹配SGBM算法对KITTI数据集进行了预处理，得到了一系列的粗糙深度图d′_l，这些深度图将会作为我们后面的代理标签。

步骤2，对整个深度估计系统的神经网络进行初始化。整个深度估计系统采用编码网络和解码网络结合的方式实现，解码网络结构与编码网络相同但排列相反。编码网络和解码网络有多种选择，例如Resnet18、Resnet50、Resnet128。本实施例中，选用Resnet50作为编码网络，解码网络采用U-NET结构。网络的初始参数优选其它模型预训练后的参数，例如ResNet50读取ImageNet上的预训练模型进行初始化，而解码网络则进行随机初始化。

步骤3，随机选取KITTI数据集中的图像I_l，将I_l输入到深度估计系统的编码网络中，编码网络通过层层的卷积操作，将输入的分辨率为1024×320的目标图像编码成一个维度为2048×10×32的特征z。将特征z输入到解码网络当中，通过上采样和反卷积，输出分辨率为1024×320的目标图像的深度图d_l。

步骤4，利用归一化回归函数L_ours对网络输出的深度图d_l以及立体匹配生成的粗糙的代理标签d′_l进行归一化回归监督，得到网络训练所需的弱监督训练误差l_s，归一化回归函数L_ours公式如下：

其中d_ij为网络预测的深度图在像素位置i，j处的深度大小，d′_ij为立体匹配算法计算出的深度图在像素位置i，j处的深度大小。整个归一化回归函数的关键在于对|d_ij-d′_ij|误差值采用log函数进行映射，利用log函数的性质将较大误差拉小。此外，对计算出的误差值利用d′_ij进行归一化，其目的同样是降低大误差的影响。通过这样两种方式，使得弱监督误差值不会随着网络预测深度d_ij的上升而剧烈变化，从而维系回弱监督误差和光度误差的平衡，使得整个深度估计系统更加稳定和鲁棒，并且大大增强系统性能。

通过目标图像的深度图和双目摄像头之间的基线距离，先将I_l中的像素点投影到I_r中，再从参考图像I_r中的投影位置进行非线性插值采样，重建出对比图像I′_r。

计算原目标图像I_l与对比图像I′_r之间的图像重建L1误差和结构相似性误差之和，误差函数如下：

上式中的p表示图像I_l中的像素，SSIM表示结构相似性误差函数。

计算输出深度图的深度连续性误差，误差函数如下：

上式中p表示图像中的像素，d表示网络预测出的深度图，I表示与深度图对应的图像。求出L1误差、结构相似性误差和深度连续性误差后，对深度连续性误差、L1误差、结构相似性误差以及弱监督归一化回归误差l_s求和得到总误差。

步骤5：用总误差优化整个深度估计系统，重复步骤1至4，例如在KITTI数据集上迭代100个周期、150个周期、200个周期等，直至光度误差损失函数、深度连续性损失函数以及回归函数的输出不再有明显下降，得到收敛后的网络参数，此时完成整个深度估计系统的训练。

如图2所示，本发明和其它算法深度图预测精度的对比，加粗的数值表示最优的结果，可以看到，本发明的精度超过了现有算法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于归一化回归函数单目深度估计系统训练方法，其特征在于，包括以下步骤：

S3,利用回归函数对预测深度图以及代理深度标签进行回归监督；

2.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S2中的立体匹配算法以左图为基准，计算出左图的视差图z后，利用已知的相机焦距f和双目基线距离b将左眼图像的视差图转换成深度图d′_l，公式为：d′_l＝f*b/z。

3.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S2的预测深度图与目标图像的尺寸相同。

4.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S2中训练网络包括编码网络和解码网络，对编码网络进行预训练，解码网络进行初始化。

5.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S3中回归函数公式为：

6.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S4中目标图像向参考图像的投影方法为：

p_r～KBD(p_l)K^-1p_l

7.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S5中的光度误差损失函数为：

8.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法，其特征在于，所述S5中的深度连续性损失函数为：

9.一种基于归一化回归函数单目深度估计系统训练网络，其特征在于，包括编码网络、解码网络和归一化模块，编码网络通过卷积和池化操作将目标图像变成高维度特征，解码网络对该高维度特征进行反卷积将特征尺寸扩大并生成和目标图像尺寸一样的深度图，归一化模块采用log函数对解码网络生成的深度图与目标图像经立体匹配计算出的深度图两者间的误差值进行映射。

10.根据权利要求9所述的基于归一化回归函数单目深度估计系统训练网络，其特征在于，所述编码网络的结构与解码网络相同，但两者的排列相反。