CN109003297B

CN109003297B - 一种单目深度估计方法、装置、终端和存储介质

Info

Publication number: CN109003297B
Application number: CN201810790093.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Liangfengtai Shanghai Information Technology Co ltd
Current assignee: Hiscene Information Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2020-11-24
Anticipated expiration: 2038-07-18
Also published as: CN109003297A

Abstract

本发明实施例公开了一种单目深度估计方法、装置、终端和存储介质。该方法包括：获取待深度估计的单目图像；将单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据目标深度生成模型的输出确定单目图像对应的目标深度图，其中，目标深度生成模型根据目标生成对抗网络中的深度判别模型训练得到。本发明实施例的技术方案，可以解决现有的单目深度估计网络预测的深度图在深度分界边缘处趋向于平滑和模糊的问题，从而提高深度图的预测精度。

Description

一种单目深度估计方法、装置、终端和存储介质

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种单目深度估计方法、装置、终端和存储介质。

背景技术

在计算机视觉研究领域中，越来越多的人们研究单目深度估计方法，即通过一张利用普通相机(如RGB相机)获取的彩色图像预测出图像中各位置与相机之间的距离，即深度信息。

随着深度学习技术的不断进步，越来越多的人们使用基于卷积神经网络的方法来进行单目深度估计。通过单目深度估计网络，根据一张单目图像便可以直接得到对应的深度图像，无需使用体积较大的传感器等设备，扩大了应用范围。现有的单目深度估计网络往往是利用常规的误差函数进行训练得到，比如均方误差函数、绝对值误差函数、Huber误差函数等。

然而，基于现有的误差函数训练得到的深度估计网络，在进行单目深度估计时往往会遇到图像模糊的问题，也就是输出的深度图在深度变化较大的分界区域上趋向于平滑和模糊，如图1所示。图1中利用现有单目深度估计网络输出的深度图中的边缘(黑白相交的区域)过于模糊和平滑，使其与实际深度图的偏差较大，从而导致现有的深度估计网络预侧的深度图的精度较低。

发明内容

本发明实施例提供了一种单目深度估计方法、装置、终端和存储介质，以解决现有的单目深度估计网络预测的深度图在深度分界边缘处趋向于平滑和模糊的问题，提高了深度图的预测精度。

第一方面，本发明实施例提供了一种单目深度估计方法，包括：

获取待深度估计的单目图像；

将所述单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据所述目标深度生成模型的输出确定所述单目图像对应的目标深度图，其中，所述目标深度生成模型根据所述目标生成对抗网络中的深度判别模型训练得到。

第二方面，本发明实施例还提供了一种单目深度估计装置，包括：

单目图像获取模块，用于获取待深度估计的单目图像；

目标深度图确定模块，用于将所述单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据所述目标深度生成模型的输出确定所述单目图像对应的目标深度图，其中，所述目标深度生成模型根据所述目标生成对抗网络中的深度判别模型训练得到。

第三方面，本发明实施例还提供了一种终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

输入装置，用于采集单目图像；

输出装置，用于显示目标深度图；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的单目深度估计方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的单目深度估计方法。

本实施例的技术方案，通过对生成对抗网络中的深度生成模型和深度判别模型进行轮流训练，获得目标深度生成模型，将待深度估计的单目图像作为目标深度生成模型的输入，并根据目标深度生成模型的输出确定单目图像对应的目标深度图。通过生成对抗网络训练得到的目标深度生成模型，可以有效的解决现有的单目深度估计网络预测的深度图中存在的边缘模糊的问题，从而利用目标深度生成模型确定的目标深度图的边缘分界更加清晰锐化，提高了深度图的预测精度。

附图说明

图1是利用现有的单目深度估计网络输出的与单目图像对应的深度图以及与单目图像对应的实际深度图的示例；

图2是本发明实施例一提供的一种单目深度估计方法的流程图；

图3是本发明实施例一提供的一种生成对抗网络的结构示意图；

图4是本发明实施例一提供的利用目标深度生成模型输出的与单目图像对应的目标深度图以及与单目图像对应的实际深度图的示例；

图5是本发明实施例一提供的一种第一深度生成模型的结构示意图；

图6是本发明实施例一提供的一种第一深度判别模型的结构示意图；

图7是本发明实施例二提供的一种单目深度估计装置的结构示意图；

图8是本发明实施例三提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图2为本发明实施例一提供的一种单目深度估计方法的流程图，本实施例可适用于获取单目图像对应的高精度深度图的情况，尤其是可以用于智能手机、无人机、机器人、自动驾驶技术或增强现实技术中对单目图像进行深度估计的场景。该方法可以由单目深度估计装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于需要进行估计深度的终端中，比如无人机、机器人、智能手机等。该方法具体包括以下步骤：

S110、获取待深度估计的单目图像。

其中，单目图像可以是指利用一台普通相机拍摄的一张图像。示例性的，单目图像可以是利用RGB(Red Green Blue)相机拍摄的一张RGB彩色图像。

S120、将单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据目标深度生成模型的输出确定单目图像对应的目标深度图，其中，目标深度生成模型根据目标生成对抗网络中的深度判别模型训练得到。

其中，生成对抗网络(Generative Adversarial Networks，GAN)包括两个子神经网络，分别为深度生成模型和深度判别模型，其中，深度生成模型用于根据模型输入(如单目图像)输出对应的生成深度图；深度判别模型为一个分类网络，用于区分深度生成模型输出的生成深度图与实际深度图之间的真假。图3给出了一种生成对抗网络的结构示意图。如图3所示，深度生成模型的输入为单目图像，其输出为该单目图像对应的生成深度图；将该单目图像与深度生成模型输出的生成深度图作为一个生成图像对，并将该生成图像对作为深度判别模型的输入，输出该生成图像对对应的生成判别值，即该单目图像对应的生成判别值。本实施例中的目标生成对抗网络是指已训练完成的生成对抗网络。目标生成对抗网络包括目标深度生成模型和目标深度判别模型，其中，目标深度生成模型是指基于生成对抗网络训练得到的深度生成模型，用于根据输入的单目图像输出该单目图像对应的稠密的目标深度图，从而实现对单目图像的深度估计。

具体的，通过训练生成对抗网络，深度生成模型和深度判别模型进行轮流训练以及相互竞争，以使深度生成模型可以生成尽可能迷惑深度判别模型的深度图，而深度判别模型可以不断提高自身判别能力来区分生成的深度图与实际深度图。通过该训练过程，深度生成模型可以生成更加逼真的接近实际深度图的深度图，减小与实际深度图的偏差，有效解决现有单目深度估计网络中存在的边缘模糊的问题，从而基于生成对抗网络训练得到的目标深度生成模型可以生成边缘锐化、精度更高的目标深度图。如图4所示，利用目标深度生成模型输出的与单目图像对应的目标深度图在深度分界边缘处(黑白相交的区域)更加锐化，使得生成的目标深度图更加接近实际深度图，明显提高了深度图的预测精度。

需要注意的是，生成对抗网络中的深度判别模型只参与目标深度生成模型的训练过程，并不会参与目标深度生成模型的测试使用过程，从而利用生成对抗网络进行的单目深度估计在提高深度图精度的基础上也无需增加目标深度生成模型的运行时间。

可选的，S120中目标深度生成模型根据目标生成对抗网络中的深度判别模型训练得到，包括：

获取多个图像样本以及各图像样本对应的实际深度图；创建第一生成对抗网络，其中第一生成对抗网络包括第一深度生成模型和第一深度判别模型；基于第一深度生成模型对应的生成误差函数和第一深度判别模型对应的判别误差函数，根据各图像样本以及对应的各实际深度图，对第一深度生成模型和第一深度判别模型进行轮流训练；当生成误差函数收敛时，第一深度生成模型训练完成，并将训练完成的第一深度生成模型确定为目标深度生成模型。

其中，图像样本是指用于训练的单目图像。图像样本对应的实际深度图是指图像样本对应的边缘锐化的真实深度图像。第一生成对抗网络是指创建的未经训练的生成对抗网络，第一生成对抗网络的网络结构可以如图3所示。第一生成对抗网络中的第一深度生成模型可以是现有的任意一个用于单目深度估计的神经网络模型。第一深度判别模型也可以是现有的任意一个用于分类的神经网络模型。本实施例对第一深度生成模型和第一深度判别模型的网络结构不做具体限定。

示例性的，图5给出了一种第一深度生成模型的结构示意图。如图5所示，第一深度生成模型可以包括编码器和解码器两部分。编码器可以由多个卷积层和跟随的激活层以及池化层组成。解码器可以由上采样模块和多个卷积层组成。第一深度生成模型的工作流程是：首先编码器通过对输入的图像样本不断的提取特征，利用池化层下采样，使得图像的分辨率不断降低，然后解码器通过反卷积层对图像进行上采样，使得图像分辨率不断增加，最终输出与输入图像分辨率大小相同的深度图。图5中将GoogLeNet网络结构的卷积层作为第一深度生成模型的编码器，其中InceptionV4模块和InceptionV5模块均是GoogLeNet网络结构中由多个卷积层并联的卷积模块。在图5中，输入的图像样本为一个分辨率为240×320的RGB彩色图像，该图像经过Inception模块后，得到分辨率为9×12且通道数为1024的特征图，然后该特征图通过五次反卷积进行上采样，得到一个分辨率为288×384且通道数为64的特征图，最后经过两个卷积层，输出一个分辨率为240×320的深度图。可选的，将编码器经过卷积输出的特征图与解码器中分辨率相同的特征图进行并联，从而构成跨越连接，使得第一深度生成模型为一个“U形”网络。如图5所示，将编码器中的144×192×64的特征图、72×96×192的特征图、36×48×480的特征图和18×24×832的特征图，分别与解码器中144×192×64的特征图、72×96×128的特征图、36×48×256的特征图和18×24×512的特征图进行跨越连接。由于编码器在进行下采样时分辨率不断降低，导致丢失很多细节信息，从而解码器在进行上采样时，可以通过跨越连接获取对应的下采样层的细节信息，进而增加了网络的输出细节，进一步提高了输出深度图的精度。示例性的，将编码器中的144×192×64的特征图与解码器中144×192×64的特征图进行跨越连接后，解码器在进行第5次反卷积时，可以通过该跨越连接获取编码器中的144×192×64的特征图，从而可以同时根据编码器中的144×192×64的特征图与解码器中144×192×64的特征图并联得到144×192×128的特征图，并根据144×192×128的特征图作为第5次反卷积的输入生成288×384×64的特征图，以避免丢失细节信息，使得上采样生成的特征图更加精确。

示例性的，图6给出了一种第一深度判别模型的结构示意图。第一深度判别模型可以是一个简单的二分类卷积神经网络模型(如0-1分类器)。第一深度判别模型的输入为图像样本与深度图组成的图像对，其输出的分类结果可以为一个数值，即判别值，用于判别输入的深度图是真深度图还是假深度图。示例性的，输出的分类结果可以为一个概率值，即根据判别值大于0.5还是小于0.5来判别输入的深度图是真深度图还是假深度图。图6中的第一深度判别模型为包括9层网络的分类器，第一深度判别模型的输入为240×320×3的图像样本与240×320×1的深度图拼接的4通道图像240×320×4，前四层网络利用卷积核大小为4×4且移动跨度为2的卷积层对图像240×320×4进行4次卷积，并且每次卷积后图像的分辨率下降至原来的一半，然后中间三层网络利用卷积核大小为1×1且移动跨度为1的卷积层对图像15×20×512进行3次卷积，最后利用两个全连接层输出一个判别值。

具体的，根据生成误差函数和判别误差函数，对第一深度生成模型和第一深度判别模型进行轮流交替训练，即通过最小化生成误差函数训练第一深度生成模型，并于训练第一深度生成模型后，通过最小化生成判别函数训练第一深度判别模型，并于训练第一深度判别模型后，再次训练第一深度生成模型，依次轮流进行交替训练，使得第一深度生成模型输出的生成深度图更加接近实际深度图。在训练第一深度生成模型时，目标是输出最为接近实际深度图的生成深度图，而在训练第一深度判别模型时，目标是将生成的深度图与实际的深度图区分出来，是一个博弈的训练过程。通过不断的轮流交替训练，直至第一深度生成模型对应的生成误差函数收敛时，即生成误差不再减小保持稳定时，表示第一深度生成模型训练完成。由于第一深度生成模型和第一深度判别模型的训练是一个博弈的过程，从而当生成误差函数收敛时，第一深度判别模型也训练完成，并且整个第一生成对抗网络训练完成，此时将第一生成对抗网络确定为目标生成对抗网络，也就是将训练完成的第一深度生成模型确定为目标生成深度模型。

可选的，第一深度生成模型对应的生成误差函数l^DDP为：

或者

其中，

是第一深度生成模型对应的均方误差函数；

是生成对抗网络误差函数；α是均方误差函数对应的损失系数；β是生成对抗网络误差函数对应的损失系数；I是任意一张图像样本；W和H分别为图像样本I的宽和高；T(I)_x,y是图像样本I对应的实际深度图中像素点(x,y)处的实际深度值；θ_G是第一深度生成模型中的生成参数；

是根据第一深度生成模型确定的图像样本I对应的生成深度图中像素点(x,y)处的生成深度值；

是根据第一深度生成模型确定的图像样本I对应的生成深度图；T(I)是图像样本I对应的实际深度图；θ_D是第一深度判别模型中的判别参数；

是根据第一深度判别模型确定的生成图像对对应的生成判别值，其中生成图像对由图像样本I与生成深度图

组成；

是根据第一深度判别模型确定的实际图像对对应的实际判别值，其中实际图像对由图像样本I与实际深度图T(I)组成。

在本实施例中，第一深度生成模型对应的生成误差函数l^DDP包括均方误差函数

和生成对抗网络误差函数

其中，生成对抗网络误差函数

需要根据第一深度判别模型输出的实际判别值和生成判别值确定，即需要根据第一深度判别模型的输出对第一深度生成模型进行训练，从而可以使得第一深度生成模型的训练更加快速和稳定。若仅利用均方误差函数

来训练第一深度生成模型，则无法得到边缘锐化的深度图；若仅利用生成对抗网络误差函数

来训练第一深度生成模型，则无法得到高精度的深度图。而本实施例利用均方误差函数

与生成对抗网络误差函数

结合得到的生成误差函数l^DDP，即同时最小化均方误差函数

与生成对抗网络误差函数

训练第一深度生成模型，从而可以得到精度高且最优的深度图。

可选的，第一深度判别模型对应的判别误差函数l_dis为：

其中，l_dis是第一深度判别模型对应的判别误差函数；I是任意一张图像样本；T(I)是图像样本I对应的实际深度图；θ_G是第一深度生成模型中的生成参数；θ_D是第一深度判别模型中的判别参数；λ是约束系数，且λ＞0；R(θ_D)是约束项，用于保证1-Lipschitz约束，且∈～U[0,1]。

具体的，由于第一深度生成模型和第一深度判别模型的训练是一个博弈的过程，从而在训练第一深度判别模型时，需要最大化生成对抗网络误差函数

也就是最小化

若在训练第一深度生成模型时最小化

则在训练第一深度判别模型时最小化

即最小化

若在训练第一深度生成模型时最小化

则在训练第一深度判别模型时最小化

即最小化

本实施例在判别误差函数l_dis中加入约束项R(θ_D)，以保证1-Lipschitz约束，进而通过最小化判别误差函数l_dis使得第一深度判别模型的训练更加稳定。

可选的，基于第一深度生成模型对应的生成误差函数和第一深度判别模型对应的判别误差函数，根据各图像样本以及对应的各实际深度图，对第一深度生成模型和第一深度判别模型进行轮流训练，包括：

于每次训练第一深度生成模型时，固定第一深度判别模型中的判别参数，根据第一预设数量的图像样本、与图像样本对应的实际深度图、以及第一深度生成模型对应的生成误差函数训练第一深度生成模型；于每次训练第一深度判别模型时，将第二预设数量的各图像样本作为第一深度生成模型的输入，根据第一深度生成模型的输出确定各图像样本对应的生成深度图，并根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图、以及第一深度判别模型对应的判别误差函数训练第一深度判别模型。

其中，在训练第一深度生成模型时，训练目的是生成的深度图更加接近实际深度图，以使第一深度判别模型无法区分生成的深度图和实际深度图。而在训练第一深度判别模型时，训练目的是可以准确的判别出输入的深度图是为实际深度图(真深度图)还是生成的深度图(假深度图)。

需要注意的是，由于本实施例对第一深度生成模型对应的生成误差函数进行了改进，从而在每轮循环训练中，可以连续训练至少两次第一深度判别模型，并在第一深度判别模型连续训练后再训练一次第一深度生成模型。示例性的，在每轮循环训练中，先连续训练五次第一深度判别模型，再训练一次第一深度生成模型。相对于现有的生成对抗网络中每次循环训练时先训练一次第一深度判别模型，再训练一次第一深度生成模型而言，本案中的训练方式可以减少训练次数，从而加快了训练速度。

可选的，根据第一预设数量的图像样本、与图像样本对应的实际深度图、以及第一深度生成模型对应的生成误差函数训练第一深度生成模型，包括：根据第一深度判别模型、第一预设数量的图像样本、与图像样本对应的实际深度图，确定各图像样本对应的生成深度图、生成判别值以及实际判别值；根据各图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、第一深度生成模型对应的生成误差函数，计算各样本生成误差；根据各样本生成误差和第一预设数量确定平均生成误差，并根据平均生成误差通过预设最优化算法更新第一深度生成模型。

其中，第一预设数量可以是大于等于1的整数值，其可以根据实际情况预先设置。预设最优化算法用于根据平均生成误差对第一深度生成模型进行优化，以获取最优的生成参数。预设最优化算法可以包括但不限于梯度下降法、牛顿法和拟牛顿法、共轭梯度法。

具体的，在每次训练第一深度生成模型时，需要固定第一深度判别模型中的判别参数，以便可以仅通过改变第一生成模型中的生成参数来最小化生成误差函数。本实施例可以从图像样本集中选取第一预设数量的图像样本，以及每个图像样本对应的实际深度图。通过第一深度生成模型和第一深度判别模型确定每个图像样本对应的生成深度图、生成判别值以及实际判别值，并将每个图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值代入生成误差函数l^DDP中，计算每个图像样本对应的样本生成误差。通过将每个图像样本对应的样本生成误差进行相加得到的结果再除以第一预设数量，从而确定平均生成误差。通过预设最优化算法根据平均生成误差更新第一深度生成模型中的生成参数，从而此次第一深度生成模型训练结束。每次训练结束后的第一深度生成模型中的最优生成参数

为：

其中，N是第一预设数量，I_i是第一预设数量的图像样本中第i张图像样本，l^DDP(I_i)是根据生成误差函数l^DDP确定的图像样本I_i对应的样本生成误差。

可选的，根据第一深度判别模型、第一预设数量的图像样本、与图像样本对应的实际深度图，确定各图像样本对应的生成深度图、生成判别值以及实际判别值，包括：将第一预设数量的图像样本中的各图像样本逐个确定为目标图像样本；将目标图像样本作为第一深度生成模型的输入，根据第一深度生成模型的输出确定目标图像样本对应的生成深度图；将目标图像样本与目标图像样本对应的生成深度图确定为生成图像对，将目标图像样本与目标图像样本对应的实际深度图确定为实际图像对；将生成图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的生成判别值；将实际图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的实际判别值。

其中，本实施例可以通过将第一预设数量的图像样本中的所有图像样本逐个确定为目标图像样本，以逐个确定每个图像样本对应的生成深度图、生成判别值以及实际判别值。

可选的，根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图、以及第一深度判别模型对应的判别误差函数训练第一深度判别模型，包括：根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图，确定各图像样本对应生成判别值以及实际判别值；根据各图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、第一深度判别模型对应的判别误差函数，计算各样本判别误差；根据各样本判别误差和第二预设数量确定平均判别误差，并根据平均判别误差通过预设最优化算法更新第一深度判别模型。

其中，第二预设数量可以是大于等于1的整数值，其可以与第一预设数量相同，也可以与第一预设数量不同。预设最优化算法用于根据平均判别误差对第一深度判别模型进行优化，以获取最优的判别参数。预设最优化算法可以包括但不限于梯度下降法、牛顿法和拟牛顿法、共轭梯度法。

具体的，在每次训练第一深度判别模型之前，可以从图像样本集中选取第二预设数量的图像样本，以及每个图像样本对应的实际深度图，并且根据第一深度生成模型确定每个图像样本对应的生成深度图。在训练第一深度判别模型时，通过根据每个图像样本对应的生成深度图和实际深度图确定每个图像样本对应的生成判别值以及实际判别值，并将每个图像样本对应的生成深度图、实际深度图、生成判别值和实际判别值代入判别误差函数l_dis中，计算每个图像样本对应的样本判别误差。通过将每个样本判别误差进行相加得到的结果再除以第二预设数量，从而确定平均判别误差。通过预设最优算法根据平均判别误差更新第一深度判别模型的判别参数，从而此次第一深度判别模型训练结束。每次训练结束后的第一深度判别模型中的最优判别参数

为：

其中，N是第二预设数量，I_i是第二预设数量的图像样本中第i张图像样本，l_dis(I_i)是根据判别误差函数l_dis确定的图像样本I_i对应的样本判别误差。

需要注意的是，每轮循环训练中，当第一深度判别模型需要连续训练多次时，每次连续训练第一深度判别模型时，需要固定第一深度生成模型中的生成参数不变。若第一深度判别模型需要连续训练五次，则将上述第一深度训练模型的训练过程需要重复进行五次，并且每次训练可以使用不同的图像样本，以对第一深度判别模型进行有效训练。

可选的，根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图，确定各图像样本对应生成判别值以及实际判别值，包括：

将第二预设数量的图像样本中的各图像样本逐个确定为目标图像样本；将目标图像样本与目标图像样本对应的生成深度图确定为生成图像对，将目标图像样本与目标图像样本对应的实际深度图确定为实际图像对；将生成图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的生成判别值；将实际图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的实际判别值。

其中，本实施例可以通过将第二预设数量的图像样本中的所有图像样本逐个确定为目标图像样本，以逐个确定每个图像样本对应的生成判别值以及实际判别值。

以下是本发明实施例提供的单目深度估计装置的实施例，该装置与上述实施例的单目深度估计方法属于同一个发明构思，在单目深度估计装置的实施例中未详尽描述的细节内容，可以参考上述单目深度估计方法的实施例。

实施例二

图7为本发明实施例二提供的一种单目深度估计装置的结构示意图，本实施例可适用于获取单目图像对应的高精度深度图的情况，该装置具体包括：单目图像获取模块210和目标深度图确定模块220；

其中，单目图像获取模块210，用于获取待深度估计的单目图像；

目标深度图确定模块220，用于将单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据目标深度生成模型的输出确定单目图像对应的目标深度图，其中，目标深度生成模型根据目标生成对抗网络中的深度判别模型训练得到。

可选的，该装置还包括：

样本获取模块，用于在将单目图像作为目标生成对抗网络中的目标深度生成模型的输入之前，获取多个图像样本以及各图像样本对应的实际深度图；

第一生成对抗网络创建模块，用于创建第一生成对抗网络，其中第一生成对抗网络包括第一深度生成模型和第一深度判别模型；

轮流训练模块，用于基于第一深度生成模型对应的生成误差函数和第一深度判别模型对应的判别误差函数，根据各图像样本以及对应的各实际深度图，对第一深度生成模型和第一深度判别模型进行轮流训练；

目标深度生成模型确定模块，用于当生成误差函数收敛时，第一深度生成模型训练完成，并将训练完成的第一深度生成模型确定为目标深度生成模型。

可选的，轮流训练模块包括：

第一深度生成模型训练单元，用于每次训练第一深度生成模型时，固定第一深度判别模型中的判别参数，根据第一预设数量的图像样本、与图像样本对应的实际深度图、以及第一深度生成模型对应的生成误差函数训练第一深度生成模型；

第一深度判别模型训练单元，用于每次训练第一深度判别模型时，将第二预设数量的各图像样本作为第一深度生成模型的输入，根据第一深度生成模型的输出确定各图像样本对应的生成深度图，并根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图、以及第一深度判别模型对应的判别误差函数训练第一深度判别模型。

可选的，第一深度生成模型训练单元，包括：

第一输出信息确定子单元，用于根据第一深度判别模型、第一预设数量的图像样本、与图像样本对应的实际深度图，确定各图像样本对应的生成深度图、生成判别值以及实际判别值；

样本生成误差计算子单元，用于根据各图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、第一深度生成模型对应的生成误差函数，计算各样本生成误差；

第一深度生成模型更新子单元，用于根据各样本生成误差和第一预设数量确定平均生成误差，并根据平均生成误差通过预设最优化算法更新第一深度生成模型。

可选的，第一输出信息确定子单元，具体用于：

将第一预设数量的图像样本中的各图像样本逐个确定为目标图像样本；

将目标图像样本作为第一深度生成模型的输入，根据第一深度生成模型的输出确定目标图像样本对应的生成深度图；

将目标图像样本与目标图像样本对应的生成深度图确定为生成图像对，将目标图像样本与目标图像样本对应的实际深度图确定为实际图像对；

将生成图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的生成判别值；

将实际图像对作为第一深度判别模型的输入，根据第一深度判别模型的输出确定目标图像样本对应的实际判别值。

可选的，第一深度判别模型训练单元，包括：

第二输出信息确定子单元，用于根据第二预设数量的各图像样本对应的生成深度图、与图像样本对应的实际深度图，确定各图像样本对应生成判别值以及实际判别值；

样本判别误差计算子单元，用于根据各图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、第一深度判别模型对应的判别误差函数，计算各样本判别误差；

第一深度判别模型更新子单元，用于根据各样本判别误差和第二预设数量确定平均判别误差，并根据平均判别误差通过预设最优化算法更新第一深度判别模型。

可选的，第二输出信息确定子单元，具体用于：

将第二预设数量的图像样本中的各图像样本逐个确定为目标图像样本；

可选的，第一深度生成模型对应的生成误差函数l^DDP为：

或者

其中，

是第一深度生成模型对应的均方误差函数；

组成；

可选的，第一深度判别模型对应的判别误差函数l_dis为：

上述单目深度估计装置可执行本发明任意实施例所提供的单目深度估计方法，具备执行单目深度估计方法相应的功能模块和有益效果。

值得注意的是，上述单目深度估计装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

图8是本发明实施例三提供的一种终端的结构示意图。参见图8，该终端包括：

一个或多个处理器310；

存储器320，用于存储一个或多个程序；

输入装置330，用于采集单目图像；

输出装置340，用于显示目标深度图；

当一个或多个程序被一个或多个处理器310执行，使得一个或多个处理器310实现本发明实施例提供的单目深度估计方法，包括：

获取待深度估计的单目图像；

图8显示的终端300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图8中以一个处理器310为例；终端中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的单目深度估计方法对应的程序指令/模块(例如，单目深度估计装置中的单目图像获取模块210和目标深度图确定模块220)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的单目深度估计方法。

存储器320主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据；以及目标生成对抗网络确定的目标深度图等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可包括摄像头等采集设备，用于采集的待深度估计的单目图像，并将采集的单目图像输入到处理器310进行数据处理。

输出装置340可包括显示屏等显示设备，用于显示单目图像对应的目标深度图。

本实施例提出的终端与上述实施例提出的单目深度估计方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行单目深度估计方法相同的有益效果。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的单目深度估计方法，该方法包括：

获取待深度估计的单目图像；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种单目深度估计方法，其特征在于，包括：

获取待深度估计的单目图像；

将所述单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据所述目标深度生成模型的输出确定所述单目图像对应的目标深度图，其中，所述目标深度生成模型根据所述目标生成对抗网络中的深度判别模型训练得到；

其中，所述目标深度生成模型根据所述目标生成对抗网络中的深度判别模型训练得到，包括：

获取多个图像样本以及各所述图像样本对应的实际深度图；

创建第一生成对抗网络，其中所述第一生成对抗网络包括第一深度生成模型和第一深度判别模型；

基于所述第一深度生成模型对应的生成误差函数和所述第一深度判别模型对应的判别误差函数，根据各所述图像样本以及对应的各所述实际深度图，对所述第一深度生成模型和所述第一深度判别模型进行轮流训练；

当所述生成误差函数收敛时，所述第一深度生成模型训练完成，并将训练完成的第一深度生成模型确定为所述目标深度生成模型；

其中，所述第一深度生成模型对应的生成误差函数l^DDP为：

或者

其中，

是所述第一深度生成模型对应的均方误差函数；

是生成对抗网络误差函数；α是所述均方误差函数对应的损失系数；β是所述生成对抗网络误差函数对应的损失系数；I是任意一张图像样本；W和H分别为图像样本I的宽和高；T(I)_x，y是图像样本I对应的实际深度图中像素点(x，y)处的实际深度值；θ_G是所述第一深度生成模型中的生成参数；

是根据所述第一深度生成模型确定的图像样本I对应的生成深度图中像素点(x，y)处的生成深度值；

是根据所述第一深度生成模型确定的图像样本I对应的生成深度图；T(I)是图像样本I对应的实际深度图；θ_D是所述第一深度判别模型中的判别参数；

是根据所述第一深度判别模型确定的生成图像对对应的生成判别值，其中生成图像对由图像样本I与生成深度图

组成；

是根据所述第一深度判别模型确定的实际图像对对应的实际判别值，其中实际图像对由图像样本I与实际深度图T(I)组成。

2.根据权利要求1所述的方法，其特征在于，基于所述第一深度生成模型对应的生成误差函数和所述第一深度判别模型对应的判别误差函数，根据各所述图像样本以及对应的各所述实际深度图，对所述第一深度生成模型和所述第一深度判别模型进行轮流训练，包括：

于每次训练所述第一深度生成模型时，固定所述第一深度判别模型中的判别参数，根据第一预设数量的图像样本、与所述图像样本对应的实际深度图、以及所述第一深度生成模型对应的生成误差函数训练所述第一深度生成模型；

于每次训练所述第一深度判别模型时，将第二预设数量的各图像样本作为所述第一深度生成模型的输入，根据所述第一深度生成模型的输出确定各所述图像样本对应的生成深度图，并根据所述第二预设数量的各图像样本对应的生成深度图、与所述图像样本对应的实际深度图、以及所述第一深度判别模型对应的判别误差函数训练所述第一深度判别模型。

3.根据权利要求2所述的方法，其特征在于，根据第一预设数量的图像样本、与所述图像样本对应的实际深度图、以及所述第一深度生成模型对应的生成误差函数训练所述第一深度生成模型，包括：

根据所述第一深度判别模型、第一预设数量的图像样本、与所述图像样本对应的实际深度图，确定各所述图像样本对应的生成深度图、生成判别值以及实际判别值；

根据各所述图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、所述第一深度生成模型对应的生成误差函数，计算各样本生成误差；

根据所述各样本生成误差和所述第一预设数量确定平均生成误差，并根据所述平均生成误差通过预设最优化算法更新所述第一深度生成模型。

4.根据权利要求3所述的方法，其特征在于，根据所述第一深度判别模型、第一预设数量的图像样本、与所述图像样本对应的实际深度图，确定各所述图像样本对应的生成深度图、生成判别值以及实际判别值，包括：

将所述目标图像样本作为所述第一深度生成模型的输入，根据所述第一深度生成模型的输出确定所述目标图像样本对应的生成深度图；

将所述目标图像样本与所述目标图像样本对应的生成深度图确定为生成图像对，将所述目标图像样本与所述目标图像样本对应的实际深度图确定为实际图像对；

将所述生成图像对作为所述第一深度判别模型的输入，根据所述第一深度判别模型的输出确定所述目标图像样本对应的生成判别值；

将所述实际图像对作为所述第一深度判别模型的输入，根据所述第一深度判别模型的输出确定所述目标图像样本对应的实际判别值。

5.根据权利要求2所述的方法，其特征在于，根据所述第二预设数量的各图像样本对应的生成深度图、与所述图像样本对应的实际深度图、以及所述第一深度判别模型对应的判别误差函数训练所述第一深度判别模型，包括：

根据所述第二预设数量的各图像样本对应的生成深度图、与所述图像样本对应的实际深度图，确定各所述图像样本对应生成判别值以及实际判别值；

根据各所述图像样本对应的实际深度图、生成深度图、生成判别值、实际判别值、所述第一深度判别模型对应的判别误差函数，计算各样本判别误差；

根据所述各样本判别误差和所述第二预设数量确定平均判别误差，并根据所述平均判别误差通过预设最优化算法更新所述第一深度判别模型。

6.根据权利要求5所述的方法，其特征在于，根据所述第二预设数量的各图像样本对应的生成深度图、与所述图像样本对应的实际深度图，确定各所述图像样本对应生成判别值以及实际判别值，包括：

7.根据权利要求1所述的方法，其特征在于，所述第一深度判别模型对应的判别误差函数l_dis为：

其中，l_dis是所述第一深度判别模型对应的判别误差函数；I是任意一张图像样本；T(I)是图像样本I对应的实际深度图；θ_G是所述第一深度生成模型中的生成参数；θ_D是所述第一深度判别模型中的判别参数；λ是约束系数，且λ＞0；R(θ_D)是约束项，用于保证1-Lipschitz约束，∈是随机变量，且∈～U[0，1]。

8.一种单目深度估计装置，其特征在于，包括：

单目图像获取模块，用于获取待深度估计的单目图像；

目标深度图确定模块，用于将所述单目图像作为目标生成对抗网络中的目标深度生成模型的输入，并根据所述目标深度生成模型的输出确定所述单目图像对应的目标深度图，其中，所述目标深度生成模型根据所述目标生成对抗网络中的深度判别模型训练得到；

目标深度生成模型确定模块，用于当生成误差函数收敛时，第一深度生成模型训练完成，并将训练完成的第一深度生成模型确定为目标深度生成模型；

其中，第一深度生成模型对应的生成误差函数l^DDP为：