CN110443843A

CN110443843A - 一种基于生成对抗网络的无监督单目深度估计方法

Info

Publication number: CN110443843A
Application number: CN201910688782.5A
Authority: CN
Inventors: 房立金; 赵乾坤; 万应才
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-12

Abstract

本发明的一种基于生成对抗网络的无监督单目深度估计方法，其包括如下步骤：步骤1：通过双目相机获取具有时间严格同步的左右图像对，建立双目彩色图像数据集，并对双目彩色图像进行校正；步骤2：建立无监督生成对抗网络模型，将校正后的双目彩色图像输入到网络中，对网络模型进行训练和迭代回归；步骤3：将单目彩色图像输入到训练好的网络模型中，生成与之对应视差图；步骤4：将视差图通过双目视差深度转换公式转换为深度信息，并合成深度图。本发明提供的深度估计方法将使用无监督网络模型将单目彩色图像转换含有深度信息的深度图，无需复杂的真实深度数据。

Description

一种基于生成对抗网络的无监督单目深度估计方法

技术领域

本发明属于机器人视觉技术领域，涉及一种基于生成对抗网络的无监督单目深度估计方法。

背景技术

深度信息是计算机视觉中视觉SLAM、三维场景重建、影像医学等领域的核心问题。在机器人领域，准确的深度估计是计算机视觉理解三维环境对于机器的运动规划，导航定位，运动避障以及控制决策都有十分重要的意义。

通常来说，深度估计主要有两种方法：三维测量传感器直接测量和图像信息深度恢复。三维测量传感器主要依赖各种直接测量传感器如Velodyne设计激光雷达通过以一定的频率发出激光束扫描周围三位点，建立三维环境。但是激光雷达结构复杂，成本较高。微软Kinect相机采用Light coding和Time of Fight方法能够较为准确实现周围环境深度测量，但它受背景物体和光线强度影响较大，测量距离较短只适用室内环境。另一种方法是通过不同视角对于同一物体进行拍摄，然后通过数学变换转换至欧式几何空间后再利用三角测量的方法计算深度信息，已经应用于双目立体相机上。但该方法在运算量比较大，且当摄影机基线距离较大时场景深度预测精度发生严重下滑。

随着深度学习的快速发展，基于CNN网络的图像直接估计深度方法取得了很大的进步。深度CNN能够提取图像中不同场景的各种特征如色彩、光流、几何形状纹理等，然后将特征用于合成深度图的训练之中，得到RGB图像到深度图的映射网络。当前单目深度估计问题可以分为有监督和无监督两种方法。有监督学习是通过输入图像对真实深度图的端到端训练来拟合估计深度，而无监督法是通过对立体相机的左右图像进行左右一致性训练来获取左右视差图。大量的研究表明，基于有监督深度学习网络的深度估计方法能够有效地估计出深度图，并且在引入如条件随机场(CRFs)、马尔科夫随机场(MRFs)等概率图模型后，进一步提升了深度网络模型的回归性能。但是有监督学习需要大量的真实深度图作为数据回归的参照值，这些实际真实深度数据需要由深度传感器测量。这种方法不仅需要大量的采集及标注工作，而且还需要对数据集进行容错训练，减少场景变化对估计的影响。

最近，为了避免有监督深度估计地面真值数据集的局限性，一些研究者提出了无监督单目深度估计的方法。基于双目立体相机的无监督深度估计方法的原理是通过输入左图像推断生成图像对应的右图像，并根据同一物体在左右图像中的视差估计输入图像的深度。

尽管这些无监督方法可以在不依赖大深度地面真实性的情况下获得比较结果，但是，那些基于DispNet网络的无监督神经网络结构只有一个尺度特征，并且受M.M.的启发，将L1范数和结构相似性指数度量(SSIM)的损失函数结合起来作为损失项。深度估计工作可以引入多尺度特征，提高性能的准确性。Godard等人提出用单一的生成网络估计正、反向视差图，并利用左右视差图的一致性约束模型学习。其他建议通过联合学习相机姿态来进行深度估计的工作。这些研究是根据预期图像合成作为监督来优化模型，图像合成的质量直接影响了生成的视差图的质量。然而这些人着重研究了重建损失，而没有考虑使用对抗网络来提高图像生成的质量。

发明内容

本发明的目的是提供一种基于生成对抗网络的无监督单目深度估计方法，能够解决当前深度估计传感器成本过高，相机位姿估计不准确地问题，同时为相机进行环境感知，三维场景重建，自动驾驶等相关任务提供基础。

本发明的一种基于生成对抗网络的无监督单目深度估计方法，包括如下步骤：

步骤1：通过双目相机获取具有时间严格同步的左右图像对，建立双目彩色图像数据集，并对双目彩色图像进行校正；

步骤2：建立无监督生成对抗网络模型，将校正后的双目彩色图像输入到网络中，对网络模型进行训练和迭代回归；

步骤3：将单目彩色图像输入到训练好的网络模型中，生成与之对应视差图；

步骤4：将视差图通过双目视差深度转换公式转换为深度信息，并合成深度图。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，步骤3中的无监督生成对抗网络模型包括生成器和鉴别器，生成器包括编码部分和解码部分。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，步骤3包括：

步骤3.1：将校正后的双目彩色图像输入到无监督生成对抗网络模型的生成器中，双目彩色图像在编码部分进行编码，在不同尺度提取图像的特征；

步骤3.2：通过解码部分进行解码，分别利用左右图像的不同尺度的特征合成左右图像各自的视差图；

步骤3.3：将左右图像的两张视差图融合为最后用于计算深度的右侧图像视差图；

步骤3.4：将融合的右侧图像视差图与输入的左侧图像做变形运算转换为合成的右侧图像；

步骤3.5：将输入的右侧图像和合成的右侧图像输入到鉴别器中用以判断输入到鉴别器图像的真假；

步骤3.6：通过多个损失函数回归网络模型的参数，提升模型的回归性能和深度估计的准确性，完成模型训练。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，所述生成器使用ResNet50网络。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，所述鉴别器使用VGG-16网络。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，多个损失函数包括：表征匹配损失函数、视差平滑损失函数、左右视差一致性损失函数和图像生成损失函数。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，其特征在于：

表征匹配损失函数为：

为输入的右侧图像的像素值，合成的右侧图像的像素值，α为常数；

为输入的右侧图像的像素值的均值，为合成的右侧图像的像素值的均值，为输入的右侧图像的像素值的标准差，为合成的右侧图像的像素值的标准差，为输入的右侧图像和合成的右侧图像的像素值的协方差，c₁和c₂为常数；

视差平滑损失函数为：

式中，为生成的对应左侧图像视差；

左右视差一致性损失函数为：

式中，为经过变换后的右侧图像视差；

图像生成损失函数为：

式中，式中μ为控制梯度惩罚的罚因子，λ为一个介于0～1之间的随机值，D为判别器函数，为随机变量服从P概率分布的期望值。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，网络模型的总损失函数为：

式中，α_ap、α_ds、α_lr、α_gan为超参数。

在本发明的基于生成对抗网络的无监督单目深度估计方法中，所述步骤4中的双目视差深度转换公式为：

其中，b为训练过程中使用的双目相机的左右相机基线，f为相机焦距，d为生成的视差，dis为计算得出的每个像素对应深度信息，并生成深度图。

本发明的一种基于生成对抗网络的无监督单目深度估计方法，至少具有以下有益效果：

1)使用无监督网络模型实现了深度估计，训练过程中只需要双目相机的左右视图，不需要复杂的真实深度图做回归。

2)使用对抗生成网络，为深度估计引入图像生成机制，将回归问题转换为图像生成问题，提高了深度估计的准确度。

3)在对抗生成网络中引入多种损失函数，如表征匹配损失、视差平滑损失、左右视差一致性损失，提高了图像生成质量和模型的回归性能。

4)引入梯度乘法函数，解决对抗生成网络训练过程中梯度消失、过拟合等问题。

附图说明

图1是本发明的一种基于生成对抗网络的无监督单目深度估计方法的流程图；

图2是为基于生成对抗网络的单目深度估计模型结构图。

具体实施方式

如图1所示，本发明的一种基于生成对抗网络的无监督单目深度估计方法，包括如下步骤：

本发明建立的无监督生成对抗网络模型包括生成器和鉴别器，生成器使用具有残差机制ResNet50网络，鉴别器使用VGG-16网络。生成器包括编码部分和解码部分；步骤3具体包括：

步骤3.6：通过多个损失函数回归网络模型参数，提升模型的回归性能和深度估计的准确性，完成模型训练。

图2为无监督生成对抗网络模型的结构图。图中，I^l和I^r为输入的用于训练的双目相机左右图像对，G为图像生成器，包括Encoder编码部分和Decoder解码部分，生成器使用具有残差机制的ResNet50网络。生成器主要作用是使图像经过一系列不同的大小的卷积核，提取图像特征，组合不同的相近的特征，并保留图像原有特征。残差机制是将各个网络层的输入部分直接添加到输出，以保证输入的内容直接作用到后面的网络层，保留图像的低级特惠总能，以减小输入输出的特征。C为连接运算，W变形运算，为合成的右侧图像。D为鉴别器，使用VGGNet16网络，图像经过鉴别器不同的卷积核后，提取特征后返回预测的概率值，范围在0～1之间的数字，用来判断输入图像的真假，其中输出0为假，1为真。

图2中，Encoder和Decoder部分具体的网络结构如表1和表2，表中，k为卷积核大小，s为卷积步长，chns为每一层输入和输出的通道数，in和out为每一层输入和输出相对输入图像的尺度因子，input为每一层的输入对象，+代表级联操作，*代表该层的2倍上采样操作。

表1：Encoder部分网络结构

表2：Decoder部分网络结构

具体实施时，将处理好的训练数据集中的双目图像对输入到无监督对抗生成网络模型的生成器之中，输入双目左右图像对I^l和I^r到ResNet50网络中Encoder部分进行编码，在不同尺度提取图像的特征。然后通过ResNet50网络中的Decoder部分进行解码，分别利用左右图像的不同尺度的特征合成左右图像各自的视差图d^l，d^r。然后将两张视差图融合为最后用于计算深度的右侧图像视差图d^r’，后将融合后的视差图d^r’与输入的左侧图像I^l做变形运算转换为合成的右侧图像一同输入到网络模型的鉴别器D中，用以鉴别输入到鉴别器中图像的真假，鉴别器使用VGG-16网络，从而提高视差图的生成质量。

在整个模型的训练过程中，定义多个损失函数用来回归优化所述的网络模型参数，提升了模型的回归性能和深度估计的准确性，具体包括如下损失函数：

表征匹配损失函数为：

视差平滑损失函数为：

式中，为生成的对应左侧图像视差；

左右视差一致性损失函数为：

式中，为经过变换后的右侧图像视差；

图像生成损失函数为：

式中，式中λ为控制梯度惩罚的罚因子，为一个介于0～1之间的随机值，D为判别器函数，为随机变量服从P概率分布的期望值。

网络模型的总损失函数为：

式中，α_ap、α_ds、α_lr、α_gan为超参数。根据经验及训练的结果分析：取α_ap＝0.85、α_ds＝0.1、α_lr＝1.0、α_gan＝0.001。

具体实施时，双目视差深度转换公式为：

对于生成的深度数据结果的评估，使用Abs_rel(绝对相关误差)，Sq_rel(平方相关误差)，rmse(均方根误差)，rmse_log(均方根对数误差)和δ(深度阈值)作为评价指标。表2为评估的结果。

表2：生成的深度数据评估结果

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的无监督单目深度估计方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，步骤3中的无监督生成对抗网络模型包括生成器和鉴别器，生成器包括编码部分和解码部分。

3.如权利要求2所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，步骤3包括：

4.如权利要求2所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，所述生成器使用ResNet50网络。

5.如权利要求2所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，所述鉴别器使用VGG-16网络。

6.如权利要求3所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，多个损失函数包括：表征匹配损失函数、视差平滑损失函数、左右视差一致性损失函数和图像生成损失函数。

7.如权利要求6所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于：

表征匹配损失函数为：

视差平滑损失函数为：

式中，为生成的对应左侧图像视差；

左右视差一致性损失函数为：

式中，为经过变换后的右侧图像视差；

图像生成损失函数为：

8.如权利要求7所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，网络模型的总损失函数为：

式中，α_ap、α_ds、α_lr、α_gan为超参数。

9.如权利要求1所述的基于生成对抗网络的无监督单目深度估计方法，其特征在于，所述步骤4中的双目视差深度转换公式为：