CN110264505B

CN110264505B - 一种单目深度估计方法、装置、电子设备及存储介质

Info

Publication number: CN110264505B
Application number: CN201910486072.4A
Authority: CN
Inventors: 张渊; 安世杰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-07-30
Anticipated expiration: 2039-06-05
Also published as: CN110264505A

Abstract

本公开关于一种单目深度估计方法、装置、电子设备及存储介质。该方法中，利用深度估计模型对单目视频的视频帧进行深度估计；该深度估计模型，基于预设样本帧、预设样本帧对应的对抗样本帧以及预设样本帧的标注深度数据训练获得；在训练时，基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的深度估计模型是否收敛；如果收敛，完成训练；其中，对抗样本帧为：对预设样本帧进行数据增广处理得到的样本帧。本公开可以在保证准确性的前提下，有效抑制单目深度估计结果中的抖动，且省去了对视频帧进行滤波平滑处理所引入的计算量。

Description

一种单目深度估计方法、装置、电子设备及存储介质

技术领域

本公开涉及深度估计领域，尤其涉及一种单目深度估计方法、装置、电子设备及存储介质。

背景技术

单目深度估计是指通过对单目摄像头拍摄的图片或视频进行处理，得到图片或视频所对应深度数据的过程。其中，利用单目摄像头所拍摄到的视频可以称为单目视频。在拍摄单目视频时，受镜头的晃动、拍摄场景中的物体移动以及噪声等不稳定因素的影响，拍摄得到的单目视频中，相邻的帧之间可能会存在差异。这种差异会导致对单目视频进行单目深度估计时会存在较大的抖动，即相邻两个视频帧的深度数据存在较大差异。

为了抑制这种抖动，相关技术中，对单目视频的视频帧进行滤波平滑处理，以求减弱或消除由上述不稳定因素所带来的相邻的视频帧之间的差异，进而抑制该差异所导致的抖动。

然而，滤波平滑处理会使单目视频的视频帧丢失画面细节，造成图像信息的损失，进而会降低对单目视频的单目深度估计结果的准确性。因此，如何在保证准确性的前提下，有效抑制抖动，是一个亟待解决的问题。

发明内容

本公开提供一种单目深度估计方法、装置、电子设备及存储介质，以提升对深度估计结果中的抖动的抑制效果。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种单目深度估计方法，包括：

获取待估计深度的单目视频；

利用预先训练完成的深度估计模型，分别对所述单目视频中各个视频帧进行深度估计，得到各个所述视频帧的估计深度数据；

将各个所述视频帧的估计深度数据，确定为所述单目视频的单目深度估计结果；

其中，所述训练完成的深度估计模型，基于预设样本帧、所述预设样本帧对应的对抗样本帧以及所述预设样本帧的标注深度数据训练获得；在训练时，基于所述预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及所述预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的所述深度估计模型是否收敛；如果收敛，完成训练；

所述对抗样本帧为：对所述预设样本帧进行数据增广处理得到的样本帧。

可选地，对训练中的所述深度估计模型的每一次训练过程包括：

获得多个所述预设样本帧、每个所述预设样本帧对应的对抗样本帧，以及多个标注深度数据，所述多个标注深度数据至少包括多个所述预设样本帧的标注深度数据；

分别将每个所述预设样本帧，以及每个所述对抗样本帧输入至训练中的所述深度估计模型，得到每个所述预设样本帧的估计深度数据和每个所述对抗样本帧的估计深度数据；

基于每个所述对抗样本帧的估计深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第一类损失值；

基于每个所述标注深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第二类损失值；

基于所述第一类损失值和所述第二类损失值，判断训练中的所述深度估计模型是否收敛，如果收敛，结束训练，得到训练完成的所述深度估计模型。

可选地，对训练中的所述深度估计模型的每一次训练过程还包括：

如果未收敛，调整训练中的所述深度估计模型的模型参数，进入下一次训练。

可选地，所述标注深度数据包括标注深度图，所述估计深度数据包括估计深度图；

所述基于每个所述对抗样本帧的估计深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第一类损失值，包括：

针对每个所述对抗样本帧，计算所述对抗样本帧的估计深度图中像素点的深度，与所对应预设样本帧的估计深度图中像素点的深度的目标误差，所述目标误差为均方根误差或均方误差；

求取计算得到的各个目标误差的平均值，得到所述第一类损失值。

所述基于每个所述标注深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第二类损失值，包括：

将每个所述标注深度图和所对应预设样本帧的估计深度图中，各像素点的深度输入至预设损失函数，计算所述第二类损失值。

可选地，所述预设损失函数为一个预设函数或对多个预设函数进行加权求和后得到函数。

可选地，所述基于所述第一类损失值和所述第二类损失值，判断训练中的所述深度估计模型是否收敛，包括：

将所述第一类损失值和所述第二类损失值进行加权求和，得到求和结果；判断所述求和结果是否小于预设损失值阈值，如果小于，判定训练中的所述深度估计模型收敛；否则，判定训练中的所述深度估计模型未收敛；

或者，

判断所述第一类损失值是否小于第一预设阈值，以及，判断所述第二类损失值是否小于第二预设阈值，如果均小于，判定训练中的所述深度估计模型收敛；否则，判定训练中的所述深度估计模型未收敛。

根据本公开实施例的第二方面，提供一种单目深度估计装置，包括：

获取模块，用于获取待估计深度的单目视频；

估计模块，用于利用预先训练完成的深度估计模型，分别对所述单目视频中各个视频帧进行深度估计，得到各个所述视频帧的估计深度数据；

确定模块，用于将各个所述视频帧的估计深度数据，确定为所述单目视频的单目深度估计结果；

或者，

根据本公开实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的单目深度估计方法。

根据本公开实施例的第四方面，提供一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的单目深度估计方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的单目深度估计方法。

本公开的实施例提供的技术方案至少带来以下有益效果：本公开的实施例在估计单目视频的各个视频帧的深度数据时，所利用的深度估计模型在训练过程中采用了对抗训练的方法，即：使用预设样本帧和对预设样本帧进行数据增广处理得到的对抗样本帧参与训练。并且，本公开中，所使用的深度估计模型在训练时，基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的深度估计模型是否收敛；如果收敛，完成训练。这样，利用训练好的深度估计模型对单目视频进行单目深度估计时，即使连续的视频帧之间因不稳定因素的影响出现了较大的差异，所估计的深度数据之间的差异也比较小。可见，本公开可以在保证准确性的前提下，有效抑制抖动。并且，本公开相较于现有技术的方案，可以省去对视频帧进行滤波平滑处理所引入的计算量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种单目深度估计方法的流程图。

图2是根据一示例性实施例示出的一种单目深度估计装置的框图。

图3是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了在保证准确性的前提下，有效抑制抖动，本公开提供了一种单目深度估计方法、装置及电子设备。

本公开的实施例提供的单目深度估计方法的执行主体，可以为一种单目深度估计装置，该装置可以应用于电子设备中。在具体应用中，该电子设备可以为照相机、摄像机、无人机、游戏机、智能机器人、智能手机、计算机、平板设备、医疗设备、健身设备或个人数字助理等。其中，应用了该装置的设备，可以应用于有单目深度估计需求的系统中，而在具体应用中，该系统可以为三维重建系统、机械臂定位抓取系统、增强现实系统或导航系统等。

另外，该电子设备可以为具有单目视频拍摄功能的设备，当然，该电子设备也可以为不具有单目视频拍摄功能的设备。并且，如果该电子设备不具有单目视频拍摄功能，该电子设备进行单目深度估计时所利用的单目视频，可以是其他具有单目视频拍摄功能的设备所拍摄并传输的视频，也可以是用户输入的单目视频，等等，这都是合理的。

图1是根据一示例性实施例示出的一种单目深度估计方法的流程图，如图1所示，该方法可以包括以下步骤：

S11：获取待估计深度的单目视频。

本公开的实施例中，可以在检测到满足单目视频的估计条件时，获取待估计深度的单目视频。所谓的估计条件可以为检测到估计指令，或者，达到预定的估计时间点，等等。

S12：利用预先训练完成的深度估计模型，分别对单目视频中各个视频帧进行深度估计，得到各个视频帧的估计深度数据。

可以理解的是，将单目视频的各个视频帧输入至训练完成的深度估计模型后，通过该深度估计模型的计算，就可以得到各个视频帧的估计深度数据。

其中，训练完成的深度估计模型，基于预设样本帧、预设样本帧对应的对抗样本帧以及预设样本帧的标注深度数据训练获得；在训练时，基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的深度估计模型是否收敛；如果收敛，完成训练。

这里，对抗样本帧为：对预设样本帧进行数据增广处理得到的样本帧。本公开的实施例中，针对任一预设样本帧，可以进行多次数据增广处理，每次均得到一个对抗样本帧，即每个预设样本帧可以对应多个对抗样本帧。当然，每个预设样本帧也可以唯一对应一个对抗样本帧。为了方案清楚及布局清晰，后续对数据增广处理进行示例性的说明。

本公开中，采用预设样本帧以及对抗样本帧作为训练样本来训练深度估计模型的目的在于，利用预设样本帧以及对抗样本帧来模拟单目视频中，因镜头晃动等不稳定因素所拍摄出的差异较大的相邻的视频帧。

并且，在判断模型是否收敛时，一方面，将预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异考虑在内，这样可以使得训练完成的深度估计模型对于在不稳定因素下拍摄的差异较大的相邻的视频帧，所估计的估计深度数据之间差异较小；另一方面，将预设样本帧的标注深度数据和估计深度数据之间的差异考虑在内，这样可以使得训练完成的深度估计模型对于视频帧所估计的估计深度数据较为准确。

其中，标注深度数据为预先标注的或预先利用深度摄像头拍摄获得的已知深度数据，而估计深度数据则是利用训练完成的深度估计模型所估计的深度数据。

另外，在一种实现方式中，为了进一步提高训练完成的深度估计模型的准确性，可以基于预设样本帧、预设样本帧对应的对抗样本帧、预设样本帧的标注深度数据以及对抗样本帧的标注深度数据来训练深度估计模型。相较于上述的实现方式，该实现方式中，增加了对抗样本帧的标注深度数据。

相应的，在判断训练中的深度估计模型是否收敛时，除了基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及预设样本帧的标注深度数据和估计深度数据之间的差异，还可以将对抗样本帧的标注深度数据和估计深度数据之间的差异也考虑在内。这样，输入到训练中的深度估计模型的每个预设样本帧和每个对抗样本帧，均有标注深度数据，从而增大了准确性方面的训练样本，可以进一步提高训练完成的深度估计模型的准确性。

S13：将各个视频帧的估计深度数据，确定为单目视频的单目深度估计结果。

其中，每个视频帧均对应一个估计深度数据。

本公开的实施例提供的单目深度估计方法中，在估计单目视频的各个视频帧的深度数据时，所利用的深度估计模型在训练过程中采用了对抗训练的方法，即：使用预设样本帧和对预设样本帧进行数据增广处理得到的对抗样本帧参与训练。并且，本公开中，所使用的深度估计模型在训练时，基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的深度估计模型是否收敛；如果收敛，完成训练。这样，利用训练好的深度估计模型对单目视频进行单目深度估计时，即使连续的视频帧之间因不稳定因素的影响出现了较大的差异，所估计的深度数据之间的差异也比较小。可见，本公开可以在保证准确性的前提下，有效抑制抖动。并且，本公开相较于现有技术的方案，可以省去对视频帧进行滤波平滑处理所引入的计算量。

为了更好的描述本公开在保证准确性的前提下抑制抖动的方案，下面对本公开所利用的深度估计模型的训练过程进行示例性的说明。

示例性的，本公开的深度估计模型的训练过程可以包括：

获得多个预设样本帧、每个预设样本帧对应的对抗样本帧，以及多个标注深度数据，所述多个标注深度数据至少包括多个预设样本帧的标注深度数据；

分别将每个预设样本帧，以及每个对抗样本帧输入至训练中的所述深度估计模型，得到每个预设样本帧的估计深度数据和每个对抗样本帧的估计深度数据；

基于每个对抗样本帧的估计深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第一类损失值；

基于每个标注深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第二类损失值；

基于所述第一类损失值和所述第二类损失值，判断训练中的深度估计模型是否收敛，如果收敛，结束训练，得到训练完成的深度估计模型。

其中，所述多个标注深度数据除了可以包括多个预设样本帧的标注深度数据，还可以包括多个对抗样本帧的标注深度数据。此时，在计算第二类损失值时，可以基于每个标注深度数据和所对应预设样本帧或对抗样本帧的估计深度数据之间的差异，计算第二类损失值。

本公开的实施例中，标注深度数据和估计深度数据的数据形式存在多种。示例性的，标注深度数据可以包括标注深度图，估计深度数据可以包括估计深度图，当然并不局限于此。其中，标注深度图可以预先利用深度摄像头拍摄获得，或者在预设样本帧和对抗样本帧上标注获得等等，这都是合理的。本公开对标注深度图的获得方式不做具体限定。可以理解的是，标注深度图和估计深度图中的像素点的像素值均为深度。

另外，在将每个预设样本帧，以及每个对抗样本帧输入至训练中的深度估计模型之前，可以将各个预设样本帧和各个对抗样本帧进行预定的处理，以使各个预设样本帧和各个对抗样本帧的图像参数符合深度估计模型对输入图像的要求。

上述训练过程中，基于每个对抗样本帧的估计深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第一类损失值的具体实现方式可以存在多种。示例性的，在一种实现方式中，

基于每个对抗样本帧的估计深度数据和所对应预设样本帧的估计深度数据之间的差异，计算第一类损失值，可以包括：

针对每个对抗样本帧，计算该对抗样本帧的估计深度图中像素点的深度，与所对应预设样本帧的估计深度图中像素点的深度的目标误差，所述目标误差为均方根误差或均方误差；

在实际应用中，对抗样本帧的估计深度图中像素点的深度，与所对应预设样本帧的估计深度图中像素点的深度的均方误差，可以采用下述公式1进行计算：

或者，可以采用下述公式2进行计算：

公式1和公式2中，

代表对抗样本帧的估计深度图中位置i处的像素点的深度，

代表对抗样本帧所对应预设样本帧的估计深度图中，相同的位置i处的像素点的深度；n代表对抗样本帧的估计深度图所包含的像素点的个数，且对抗样本帧所对应预设样本帧的估计深度图所包含的像素点的个数也等于n；公式1中，MSE为计算得到的均方误差，公式2中，RMSE为计算得到的均方根误差。

另外，第二类损失值的计算方式也存在多种。示例性的，在第一种实现方式中，上述训练过程中，所获得的多个标注深度数据包括多个预设样本帧的标注深度图。此时，第二类损失值的计算方式，可以包括：

将每个标注深度图和所对应预设样本帧的估计深度图中，各像素点的深度输入至预设损失函数，计算第二类损失值。

在第二种实现方式中，所获得的多个标注深度数据包括多个预设样本帧的标注深度图和多个对抗样本帧的标注深度图，此时，第二类损失值的计算方式，可以包括：

将每个标注深度图和所对应预设样本帧或对抗样本帧的估计深度图中，各像素点的深度输入至预设损失函数，计算第二类损失值。

其中，预设损失函数为一个预设函数或对多个预设函数进行加权求和后得到函数。当加权求和时，每个预设函数所对应的权重可以相等，也可以不相等，本公开对每个预设函数所对应的权重不做具体限定。

举例而言，构成预设损失函数的预设函数可以包括以下函数中的一个或多个：Reversed HuBer损失函数、深度H方向和深度V方向梯度函数以及法向量损失函数。当然，并不局限于此。其中，深度H方向和深度V方向分别代表估计深度图和标注深度图中，像素点排列时的横向和纵向。

其中，Reversed HuBer损失函数的表达式如下：

该公式中，y_i代表样任一预设样本帧或对抗样本帧的标注深度图中位置i处的像素点的深度，

代表任一预设样本帧或对抗样本帧的估计深度图中，相同的位置i处的像素点的深度；

loss_a可以代表利用Reversed HuBer损失函数计算得到的一个损失值。

深度H方向和深度V方向梯度函数的表达式如下：

其中，

代表任一预设样本帧或对抗样本帧的估计深度图中，位置i处的像素点的深度在H方向的梯度，

代表任一预设样本帧或对抗样本帧的估计深度图中，位置i处的像素点的深度在V方向的梯度；

代表任一预设样本帧或对抗样本帧的标注深度图中，位置i处的像素点的深度在H方向的梯度，

代表任一预设样本帧或对抗样本帧的标注深度图中，位置i处的像素点的深度在V方向的梯度；

为

的1范数，

为

的1范数；n代表估计深度图和标注深度图各自所包含的像素点的个数；loss_b可以代表利用深度H方向和深度V方向梯度函数所计算得到的一个损失值。

法向量损失函数的表达式如下：

其中，

代表根据任一预设样本帧或对抗样本帧的估计深度图中，位置i处的像素点的深度在H方向和V方向的梯度所计算出的法向量；

代表根据任一预设样本帧或对抗样本帧的标注深度图中，位置i处的像素点的深度在H方向和V方向的梯度所计算出的法向量；

为求

和

的内积；n代表标注深度图和估计深度图各自所包含的像素点的个数，loss_c代表利用法向量损失函数计算得到的一个损失值。

上述训练过程中，基于第一类损失值和第二类损失值，判断训练中的深度估计模型是否收敛的具体实现方式存在多种。示例性的，在一种实现方式中，基于第一类损失值和第二类损失值，判断训练中的深度估计模型是否收敛，可以包括：

将第一类损失值和第二类损失值进行加权求和，得到求和结果；判断求和结果是否小于预设损失值阈值，如果小于，判定训练中的深度估计模型收敛；否则，判定训练中的深度估计模型未收敛。

在另一种实现方式中，基于第一类损失值和第二类损失值，判断训练中的深度估计模型是否收敛，可以包括：

判断第一类损失值是否小于第一预设阈值，以及，判断第二类损失值是否小于第二预设阈值，如果均小于，判定训练中的深度估计模型收敛；否则，判定训练中的深度估计模型未收敛。

其中，第一类损失值和第二类损失值所分别对应的权重可以是相同的，也可以是不同的。本公开对第一类损失值和第二类损失值所分别对应的权重不做具体限定。

可以理解的是，如果训练中的深度估计模型未收敛，那么可以调整训练中的所述深度估计模型的模型参数，进入下一次训练。这里，深度估计模型可调整的模型参数可以第一类损失值和第二类损失值所分别对应的权重，也可以包括在计算第二类损失值时，预设损失函数中的每个预设函数所对应的权重等等，都是合理的。关于深度估计模型其他可调整的模型参数，非本公开的发明点，这里不再赘述。

另外，可选地，本公开的实施例中，深度估计模型可以为一种卷积神经网络模型，当然，并不局限于此。

为了方案清楚及布局清晰，下面对数据增广处理进行示例性的说明。

可选地，对预设样本帧所进行的数据增广处理可以包括以下处理方式中的一种或多种：

移动预设样本帧中像素点的位置、在预设样本帧中增加噪声以及改变预设样本帧的图像参数。

可以理解的是，针对任一预设样本帧，可以对该预设样本帧进行多种方式的数据增广处理。

其中，移动预设样本帧中像素点的位置，诸如对预设样本帧进行平移、对预设样本帧进行旋转以及对预设样本帧进行镜像翻转等等，并不局限于此。另外，所谓的对预设样本帧进行平移是指对预设样本帧中的像素点进行整体平移；所谓的对预设样本帧进行旋转是指对预设样本帧中的像素点进行整体旋转；所谓的对预设样本帧进行镜像翻转是指对预设样本帧中的像素点做整体的镜像翻转。

在预设样本帧中增加噪声，诸如在预设样本帧中增加高斯噪声、在预设样本帧中增加均匀白噪声以及在预设样本帧中增加边界位置的高斯噪声等等。

改变预设样本帧的图像参数，诸如将预设样本帧模糊化、改变预设样本帧亮度以及改变预设样本帧的饱和度等等。

在实际应用中，可以利用python里的imgaug库、matlab或者OpenCV来实现对预设样本帧的数据增广处理。其中，python是一种常见的面向对象的解释型计算机程序设计语言，imgaug是python中封装好的用来进行图像数据增广的库；matlab是一款具有数值分析、数值和符号计算、工程与科学绘图、控制系统的设计与仿真、数字图像处理以及数字信号处理等功能的数学软件；OpenCV是一个跨平台计算机视觉库，可以实现图像处理和计算机视觉方面的很多通用算法。

可以理解的是，这里所示出的数据增广处理的方式，可以模拟拍摄单目视频时所可能发生的不稳定因素。另外，这里所示出的数据增广处理的方式，仅仅作为示例，不应该构成对本公开的限定。

另外，在将各个视频帧的估计深度图，确定为单目视频的单目深度估计结果之后，还可以对单目视频的单目深度估计结果进行测评。这里，可进行单目深度估计结果测评的单目视频，可利用深度摄像头来拍摄获得。在拍摄获得单目视频的同时，也可以拍摄获得单目视频的每个视频帧的深度图，可以将该深度图可以作为单目视频的视频帧的标注深度图。

具体的，在将各个视频帧的估计深度图，确定为单目视频的单目深度估计结果之后，对单目视频的单目深度估计结果进行测评，可以包括：

针对单目视频中的每两个相邻视频帧，计算每两个相邻视频帧的估计深度图之间的第一类深度误差；

求取计算得到的各个第一类深度误差的平均值，得到单目深度估计结果的稳定性测评结果；

针对单目视频中的每个视频帧，计算每个视频帧的标注深度图与估计深度图之间的第二类深度误差；

求取计算得到的各个第二类深度误差的平均值，得到单目深度估计结果的准确性评测结果。

其中，第一类深度误差可以为每两个相邻视频帧的估计深度图中像素点的深度的均方误差或者均方根误差；第二类深度误差可以为标注深度图中像素点的深度，与估计深度图中像素点的深度的均方误差或者均方根误差。关于均方误差或者均方根误差的公式，已经在上述实施例中进行过详细说明，此处不再赘述。

图2是根据一示例性实施例示出的一种单目深度估计装置的框图。参照图2，该装置包括获取模块121、估计模块122以及确定模块123。

获取模块121，用于获取待估计深度的单目视频；

估计模块122，用于利用预先训练完成的深度估计模型，分别对所述单目视频中各个视频帧进行深度估计，得到各个所述视频帧的估计深度数据；

确定模块123，用于将各个所述视频帧的估计深度数据，确定为所述单目视频的单目深度估计结果；

可选地，所述对训练中的所述深度估计模型的每一次训练过程还包括：

或者，

本公开的实施例提供的单目深度估计装置，在估计单目视频的各个视频帧的深度数据时，所利用的深度估计模型在训练过程中采用了对抗训练的方法，即：使用预设样本帧和对预设样本帧进行数据增广处理得到的对抗样本帧参与训练。并且，本公开中，所使用的深度估计模型在训练时，基于预设样本帧的估计深度数据和所对应对抗样本帧的估计深度数据之间的差异，以及预设样本帧的标注深度数据和估计深度数据之间的差异，判断训练中的深度估计模型是否收敛；如果收敛，完成训练。这样，利用训练好的深度估计模型对单目视频进行单目深度估计时，即使连续的视频帧之间因不稳定因素的影响出现了较大的差异，所估计的深度数据之间的差异也比较小。可见，本公开可以在保证准确性的前提下，有效抑制抖动。并且，本公开相较于现有技术的方案，可以省去对视频帧进行滤波平滑处理所引入的计算量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备的框图，如图3所示，该电子设备包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现上述任一所述的单目深度估计方法。

在示例性实施例中，还提供了一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的单目深度估计方法。

可选地，该存储介质可以是非临时性计算机可读存储介质，示例性的，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的单目深度估计方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求书限定。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围由权利要求书来限制。

Claims

1.一种单目深度估计方法，其特征在于，包括：

获取待估计深度的单目视频；

其中，对训练中的所述深度估计模型的每一次训练过程包括：

获得多个预设样本帧、每个所述预设样本帧对应的对抗样本帧，以及多个标注深度数据，所述多个标注深度数据至少包括多个所述预设样本帧的标注深度数据；

针对每个所述对抗样本帧，计算所述对抗样本帧的估计深度图中像素点的深度，与所对应预设样本帧的估计深度图中像素点的深度的目标误差，所述目标误差为均方根误差或均方误差；求取计算得到的各个目标误差的平均值，得到第一类损失值；

将每个所述标注深度图和所对应预设样本帧的估计深度图中，各像素点的深度输入至预设损失函数，计算第二类损失值；

基于所述第一类损失值和所述第二类损失值，判断训练中的所述深度估计模型是否收敛，如果收敛，结束训练，得到训练完成的所述深度估计模型；

2.根据权利要求1所述的方法，其特征在于，对训练中的所述深度估计模型的每一次训练过程还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设损失函数为一个预设函数或对多个预设函数进行加权求和后得到函数。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一类损失值和所述第二类损失值，判断训练中的所述深度估计模型是否收敛，包括：

或者，

5.一种单目深度估计装置，其特征在于，包括：

获取模块，用于获取待估计深度的单目视频；

6.根据权利要求5所述的装置，其特征在于，对训练中的所述深度估计模型的每一次训练过程还包括：

7.根据权利要求5所述的装置，其特征在于，所述预设损失函数为一个预设函数或对多个预设函数进行加权求和后得到函数。

8.根据权利要求7所述的装置，其特征在于，所述基于所述第一类损失值和所述第二类损失值，判断训练中的所述深度估计模型是否收敛，包括：

或者，

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一项所述的方法步骤。

10.一种存储介质，其特征在于，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求1-4任一项所述的方法步骤。