CN109166144B

CN109166144B - 一种基于生成对抗网络的图像深度估计方法

Info

Publication number: CN109166144B
Application number: CN201810806067.2A
Authority: CN
Inventors: 俞智斌; 张少永; 郑海永; 郑冰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2021-08-24
Anticipated expiration: 2038-07-20
Also published as: CN109166144A

Abstract

本发明提供一种基于生成对抗网络的图像深度估计方法，采集场景RGB‑D图像，构建场景RGB‑D图像数据集，其中，所述RGB‑D图像数据集中的彩色图像作为单目场景图像；构建基于生成对抗网络的模型，将所述单目场景图像输入到所述网络模型中，通过训练和迭代反馈，将所述单目场景图像转换为最终合成的深度图图像。本发明提供的深度估计方法将单目场景图像转换含有距离信息的深度图图像，进而对场景三维重建的研究提供基础。

Description

一种基于生成对抗网络的图像深度估计方法

技术领域

本发明涉及计算机视觉中三维重建技术领域，特别涉及一种基于生成对抗网络的图像深度估计方法。

背景技术

距离信息是计算机视觉中场景三维重建等一些领域的研究基础。如果能够准确地从场景图像中推理出场景的三维结构，人类和计算机就能理解图像中物体之间的三维关系，从而更好地对场景理解，同时也将极大促进计算机视觉领域多种应用的发展，例如3D电影制作、机器人导航、无人驾驶等。

传统的场景深度估计的视觉算法一般是双目或者多目，主要是基于光学几何约束，如立体图像匹配、SfM等。此外还有一些基于环境假设的单目图像深度估计的方法，例如焦点、光照变化、遮挡、物体大小等。与双目或者多目图像深度估计方法相比，单目图像深度估计方法对于相机参数要求更低，应用更加方便。

单目图像深度估计方法的困难之处在于视觉模型很难从单目图像中获取足够用于推测场景3D结构信息的特征。近年来，深度学习方法在计算机视觉领域取得了一些重大的突破，由于深度学习方法可以学习到丰富的相关特征表达，因此深度学习非常善于处理感知类任务，所以基于深度学习的单目图像深度估计能够更好的获取图像特征，从而推测出更丰富的3D结构信息。因此基于深度学习的单目图像深度估计的研究就具有很强的实际意义。

发明内容

本发明提供一种基于生成对抗网络的图像深度估计方法，以解决现有的单目图像深度估计精度低，硬件设备要求高，对同一场景不同尺度的单目图像无法准确估计深度等技术问题，该深度估计方法将单目场景图像转换含有距离信息的深度图，进而对场景三维重建的研究提供基础。

一种基于生成对抗网络的图像深度估计方法，包括如下步骤：

采集场景RGB-D图像，构建场景RGB-D图像数据集，其中，所述RGB-D图像数据集中的彩色图像作为单目场景图像；

构建基于生成对抗网络的单目场景图像深度估计模型，将所述单目场景图像输入到所述网络模型中，通过训练和迭代反馈，将所述单目场景图像转换为最终合成的深度图图像。

进一步的，所述网络模型包括生成器和判别器；

所述将所述单目场景图像转换为合成的深度图图像的具体步骤为：

将所述单目场景图像输入所述生成器，所述生成器输出合成的深度图图像；

将所述合成的深度图图像以及所述真实的深度图图像输入到所述判别器，用以判别输入到所述判别器的深度图图像的真假；

通过损失函数优化所述网络模型，得到所述最终合成的深度图图像。

进一步的，所述的损失函数包括：

在生成器中添加的GAN loss损失函数，用以使得合成的深度图图像更接近于真实的深度图图像；在所述合成的深度图图像和所述真实的深度图图像之间添加ssim损失函数，用以保持所述单目场景图像转换为所述合成的深度图图像的结构不变性；在所述合成的深度图图像和所述真实的深度图图像之间添加尺度不变损失函数，用以使得所述网络模型在同一场景的不同尺度情况下能够准确预测场景深度。

进一步的，所述GAN loss损失函数具体为：采用最小二乘损失函数结合梯度惩罚项： L_DGAN(G,D)＝L_GAN(G,D)+λL_gp，

式中，λ为控制梯度惩罚的贡献，α是一个介于0到1之前的随机值，D为判别器，

表示随机变量x服从P_data概率分布的期望值，G为生成器，L_GAN(G,D)为最小二乘损失函数，L_gp为梯度惩罚，

为合成的深度图图像G(x)与真实的深度图图像y的混合。

进一步的，所述ssim损失函数具体为：

式中，

x为单目场景图像，G(x)为网络模型根据单目场景图合成的深度图图像，y为单目场景图对应的真实的深度图图像，N为单目场景图像的像素的总数目，

为合成的深度图图像

的均值，μ_y为真实的深度图图像y的均值，σ_y为真实的深度图图像y的标准差，

为合成的深度图图像

的标准差，

为合成的深度图图像

和真实的深度图图像y的协方差，c₁、c₂为常数。

进一步的，所述尺度不变损失函数具体为：

进一步的，所述单目场景图像合成最终的深度图图像过程中总的损失函数为：

式中，ξ和γ为超参数。

本发明提供了一种基于生成对抗网络的图像深度估计方法，具有以下优点：

1)将深度估计从回归问题转换成单目场景图图像到深度图图像(图到图)转换的问题，并提出一种新的生成对抗网络结构；

2)提出了多种损失函数，如ssim损失函数,尺度不变损失函数等，使得网络模型能够合成高精度的深度图；

3)使用梯度惩罚函数解决GAN训练过程中梯度消失、过拟合等问题；

4)实验证明相比于条件生成对抗网，非条件生成对抗网更适用于深度估计任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图来获得其他的附图。

图1为单目场景图转换为深度图图像的流程图；

图2为基于生成对抗网络的单目图像深度估计方法流程图；

图3为条件生成对抗网对单目深度估计效果图；

图4为非条件生成对抗网及图像对比图；

图5为添加不同损失函数后的合成深度图图像对比图；

图6为不同合成方法在深度估计上的有效性的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的组件或具有相同或类似功能的组件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例：

本申请实施例为本申请的优选实施例。

一种基于生成对抗网络的图像深度估计方法，利用少量配对的单目场景图像和与之对应的包含深度信息的深度图图像，通过监督深度学习方法将单目场景图像转换为包含场景深度信息深度图图像，该方法包括如下步骤：

首先，利用可以获取深度信息图像的设备，如Kinect units(体感游戏设备)或者激光雷达采集清晰的RGB-D图像(RGB-D图像包括彩色图像以及对应的深度图图像)，构建场景RGB-D图像数据集，其中，RGB-D图像数据集中的彩色图像作为单目场景图像。然后对场景RGB-D图像对做旋转、尺度变换、裁剪、色彩变化操作，目的是在训练模型时增强模型的鲁棒性。

然后，构建基于生成对抗网络的单目场景图像深度估计模型，将所述单目场景图像输入到所述网络模型中，通过训练和迭代反馈，将所述单目场景图像转换为最终合成的深度图图像，本发明中关注于单目场景图像转换为深度图图像的过程。其中，所述网络模型包括生成器和判别器。图1所示为单目场景图像转换为深度图图像流程图，图中，x为单目场景图像，

为合成的深度图图像，G为生成器，y为真实的深度图图像，D为判别器，其工作原理为：将单目场景图像x通过生成器G得到合成的深度图图像

将合成的深度图图像

和真实深度图图像y输入到判别器D，判别器D用以判别输入图像的真假。

图2中，

表示n×n卷积(strides)，H表示batch normalization批标准化，

表示 ReLU函数，

表示Leaky ReLU函数，

表示Sigmoid函数，

表示上卷积。

所述单目场景图转换为最终合成的深度图图像的具体步骤为：

将单目场景图像x输入生成器G，生成器G输出合成的深度图图像

生成器G由编码器、残差网络和解码器构成，编码器的卷积网络将图像经过不同大小的卷积核，在图像上移动获取原图像中的特征，其主要作用是提取图像特征，组合不同相近特征，并保留原始图像特征。残差网络将输入部分直接添加到输出，以确保网络输入内容直接作用到后面的网络层，保留图像低级特征，以减小输入输出的偏差。解码器主要利用反卷积网络结构实现。从特征向量中计算出场景深度信息，从而合成深度图图像。

将合成的深度图图像

以及真实深度图图像y输入到判别器D，用以判别输入到判别器D的深度图的真假；判别器D主要为卷积网络，将合成的深度图图像

以及真实深度图图像y输入到判别器D，经过卷积神经网络后，提取特征后返回预测的概率值，范围是 0～1之间的数字，其中，1表示真，0表示假。

整个网络为生成对抗网络的损失，通过损失函数优化所述网络模型，得到最终合成的深度图图像。具体为：

在本实施例中为网络添加的损失函数包括：

1)在合成的深度图图像以及真实的深度图图像之间添加ssim损失函数，用以保持单目场景图像转换为合成的深度图图像的结构不变性；

2)在合成的深度图图像以及真实的深度图图像之间添加尺度不变损失函数，用以使得所述模型在同一场景不同尺度情况下能够准确预测场景深度；

对该对抗网络模型进行前向传输和后向反馈，使得网络根据输入的单目场景图像和真实的深度图图像进行训练和学习；

输出损失函数的loss值，其中，x为单目场景图像，G(x)为网络模型根据单目场景图合成的深度图图像，y为单目场景图对应的真实的深度图图像，该真实的深度图图像中的包含了距离信息。

GAN loss，使得合成的深度图图像更接近于真实的深度图图像，采用最小二乘损失函数结合梯度惩罚项：L_DGAN(G,D)＝L_GAN(G,D)+λL_gp，

表示随机变量x服从P_data概率分布的期望值，G为生成器， L_GAN(G,D)为最小二乘损失函数，L_gp为梯度惩罚，

为合成的深度图图像G(x)与真实的深度图图像y的混合。

ssim损失函数，用单目场景图像和合成的深度图图像做ssim损失计算，称为结构相似性loss，在提升深度预测精度的同时深度图图像的整体结构也相似于单目场景图像：

式中，

x为单目场景图像，G(x)为网络模型根据单目场景图合成的深度图图像，y为单目场景图对应的真实的包含距离信息的深度图图像，N为场景图像的像素的总数目，

为合成的深度图图像

为合成的深度图图像

的标准差，

为合成的深度图图像

和真实的深度图图像y的协方差，c₁、c₂为常数。为了避免分母为0而维持稳定，这里取c₁＝0.012、c₂＝0.032。

尺度不变损失函数，用于使模型能够在面对同一场景图像在不同尺度情况时依然能准确合成深度图：

式中，

综上，单目场景图像合成深度图图像过程总的损失函数为：

式中，ξ、γ为超参数，根据经验设置ξ＝0.85，γ＝0.03。

通过降低损失函数loss值和观察合成的深度图图像的质量来评价整个对抗网络的性能。

下面将通过实验进一步验证本发明的有效性，包括在生成对抗网对深度估计的有效性、全卷积残差网络的作为生成器有效性，对抗网络中添加loss的有效性、非条件生成对抗网更适用于深度估计、采用不同方法合成的深度图图像的效果对比。本申请实施例从主观评价和客观评价两方面对方法进行评价，在评价指标上的客观表现采用不同评价指标，对于δ(深度阈值)越高越好，rmse(均方根误差),rmsle(均方根对数误差),abs_rel (绝对相关误差),sq_rel(平方相关误差)越低越好。

1、生成对抗网对深度估计的有效性：

本申请实施例采用目前流行的条件生成对抗网Pix2pix验证生成对抗网是否具有完成深度估计的潜力。如图3所示，第一列是单目场景图像，第二列是单目场景图像对应的真实的深度图，第三列为经过训练的Pix2pix在测试集上的结果图像。第一、二、三行结果显示Pix2pix能够合成单目场景的模糊的深度图，精度较低，结构模糊。第四、五行结果显示Pix2pix在某些单目场景中并不能合成具有深度信息的深度图。

2、全卷积残差网络的作为生成器有效性：

图4所示为全卷积残差网络作为所述模型的生成器和U-Net作为所述模型的生成器在测试集上的效果对比。结果所示全卷积残差网络作为所述模型的生成器性能明显优于U-Net作为所述模型的生成器。表1中实验1和实验2中展示全卷积残差网络作为所述模型的生成器在各个评价指标上都优于U-Net作为所述模型的生成器。

表1不同生成器结构和损失函数下得到的模型在测试集上的比较

3、对抗网络中添加loss的有效性：

如图5所示，在添加了本实施例中所述的总的损失函数时，合成的深度图图像无论在客观评价和主观评价上更加接近真实深度图(第三列所示图片)。第5、6列所示图片为仅使用L2损失时不能保持住图片原有的结构信息。第4列所示图片为总的损失函数去掉尺度不变损失函数时生成的图片结构信息有了很大的改善，同时在评价指标上的表现更优 (如表1中实验5所示)。

4、非条件生成对抗网更适用于深度估计：

由于物体的位置结构信息在某些条件下会影响距离信息的判断，所以当将单目场景图像作为判别器的条件与深度图图像同时输入到判别器时，会使得模型同样受到上述因素的影响从而出现深度误判的影响。图6所示为生成对抗网络的判别器使用非条件判别器和条件判别器时的效果对比，第三列为非条件生成对抗网络模型测试结果，第四列为条件生成对抗网络模型测试结果，根据框中的深度信息对比，可以明显发现非条件生成对抗网更适用于深度估计。同时如表1实验6(条件生成对抗网络)和实验7(非条件生成对抗网络)评价指标所示，对于深度估计任务，非条件生成对抗网整体上更由于条件生成对抗网。

5、采用不同方法合成的深度图图像的效果对比：

如表2所示，基于生成对抗网络的单目图像深度估计方法优于目前存在的其他的单目场景深度估计方法。

表2单目场景图像深度估计现有方法的客观评价指标对比

以上具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的图像深度估计方法，其特征在于，包括如下步骤：

构建基于生成对抗网络的单目场景图像深度估计模型，将所述单目场景图像输入到网络模型中，通过训练和迭代反馈，将所述单目场景图像转换为最终合成的深度图图像；

其中，所述网络模型包括生成器和判别器；所述生成器网络由resent-50作为编码器，5个上卷积层作为解码器；所述判别器的卷积核均为4*4；

将所述合成的深度图图像以及真实的深度图图像输入到所述判别器，用以判别输入到所述判别器的深度图图像的真假；

通过损失函数优化所述网络模型，得到所述最终合成的深度图图像；

其中，所述的损失函数包括：

在生成器中添加的GAN loss损失函数，用以使得合成的深度图图像更接近于真实的深度图图像；在所述合成的深度图图像和所述真实的深度图图像之间添加ssim损失函数，用以保持所述单目场景图像转换为所述合成的深度图图像的结构不变性；在所述合成的深度图图像和所述真实的深度图图像之间添加尺度不变损失函数，用以使得所述网络模型在同一场景的不同尺度情况下能够准确预测场景深度；

其中，所述GAN loss损失函数具体为：采用最小二乘损失函数结合梯度惩罚项：

L_DGAN(G,D)＝L_GAN(G,D)+λL_gp，