CN109087346A

CN109087346A - 单目深度模型的训练方法、训练装置和电子设备

Info

Publication number: CN109087346A
Application number: CN201811106152.4A
Authority: CN
Inventors: 耿益锋; 胡义涵; 罗恒
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2018-12-25
Anticipated expiration: 2038-09-21
Also published as: CN109087346B

Abstract

公开了一种单目深度模型的训练方法、训练装置和电子设备。该方法包括：获取用于训练单目深度模型的多个双目图像；随机选择多个双目图像中的至少一单目图像；计算多个双目图像中除至少一单目图像之外的每一单目图像对应的第一视差图像以及第一视差图像对应的第一掩码图像；针对至少一单目图像中的每一单目图像，计算每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算第二视差图像对应的第二掩码图像；以及，通过屏蔽第一掩码图像遮挡的第一视差图像的区域的反向梯度，以及第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练单目深度模型。这样，可以有效地解决物体边缘的深度模糊问题，同时提高模型整体的预测精度。

Description

单目深度模型的训练方法、训练装置和电子设备

技术领域

本申请涉及模型训练领域，且更具体地，涉及一种单目深度模型的训练方法、训练装置和电子设备。

背景技术

目前，计算机视觉技术大部分是在二维平面图像的基础上提出的，因此,如何从二维平面图像或者视频序列中提取出深度信息进而预测深度图像重建三维结构是一项非常重要的技术。这对物体尺寸、遮挡关系、形状、分割等应用具有很大的促进，并且可以广泛应用于2D电影转3D电影，智能机器人自主导航，机械臂抓取，增强现实等场景下。

在深度估计技术中，单目深度估计是使用一个摄像头获取的图像来估计图像中各个像素的深度信息，而无监督单目深度估计就是模型的训练不需要像素的深度信息或其它标注信息。

随着基于机器学习的深度估计算法得到越来越广泛的研究，通过单目深度模型进行深度估计能够不受特定的场景条件的限制，具有较好的适用性。因此，期望提供改进的单目深度模型的训练方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种单目深度模型的训练方法、训练装置和电子设备，其通过在模型训练过程中计算遮挡掩码并屏蔽遮挡区域的反向梯度，同时对输入图像进行随机反转然后对预测结果再翻转回来进行梯度的反向传播，可以有效地解决物体边缘的深度模糊问题，同时提高模型整体的预测精度。

根据本申请的一个方面，提供了一种单目深度模型的训练方法，包括：获取用于训练单目深度模型的多个双目图像；随机选择所述多个双目图像中的至少一单目图像；计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

根据本申请的另一方面，提供了一种单目深度模型的训练装置，包括：图像获取单元，用于获取用于训练单目深度模型的多个双目图像；图像选择单元，用于随机选择所述多个双目图像中的至少一单目图像；第一计算单元，用于计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；第二计算单元，用于针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及，模型训练单元，用于通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的单目深度模型的训练方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的单目深度模型的训练方法。

与现有技术相比，本申请的单目深度模型的训练方法、训练装置和电子设备可以获取用于训练单目深度模型的多个双目图像；随机选择所述多个双目图像中的至少一单目图像；计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。这样，通过在模型训练过程中计算遮挡掩码并屏蔽遮挡区域的反向梯度，同时对输入图像进行随机反转然后对预测结果再翻转回来进行梯度的反向传播，可以有效地解决物体边缘的深度模糊问题，同时提高模型整体的预测精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的单目深度模型的训练方法的流程图。

图2图示了根据本申请实施例的视差图像和掩码图像的生成过程的示意图。

图3图示了根据本申请实施例的网络结构的第一示例的示意图。

图4图示了根据本申请实施例的网络结构的第二示例的示意图。

图5图示了根据本申请实施例的单目深度模型的训练方法的效果图。

图6图示了根据本申请实施例的单目深度模型的训练装置的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，单目深度模型在二维图像的深度估计中得到了越来越广泛的应用。

目前的单目深度估计主要有两种实现方式，一种是通过双目的图像来进行模型的训练，主要利用了双目图像之间的物理关系，另外一种是通过单目摄像头的视频，主要利用了前后图像帧的信息。另外，也有同时使用双目图像和视频的方法。

就针对双目图像的非监督训练方法而言，其能够方便地进行深度估计，但是，目前上述估计方法会导致物体的边缘比较模糊。

本申请的发明人经过研究之后发现，这种物体边缘的模糊主要是由于训练过程中图像变换(image warping)无法处理物体遮挡造成的。

针对上述技术问题，本申请的基本构思是在模型训练过程中计算遮挡掩码并屏蔽遮挡区域的反向梯度，同时对输入图像进行随机反转然后对预测结果再翻转会来进行梯度的反向传播。

具体地，本申请提供的单目深度模型的训练方法、训练装置和电子设备可以首先获取用于训练单目深度模型的多个双目图像，然后随机选择所述多个双目图像中的至少一单目图像，计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像，以及针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像，最后通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。这样，可以有效地解决物体边缘的深度模糊问题，同时提高模型整体的预测精度。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

如图1所示，根据本申请实施例的单目深度模型的训练方法包括：S110，获取用于训练单目深度模型的多个双目图像；S120，随机选择所述多个双目图像中的至少一单目图像；S130，计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；S140，针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及S150，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

在步骤S110中，获取用于训练单目深度模型的多个双目图像。也就是说，在根据本申请实施例的单目深度模型的训练方法中，采用基于双目图像的无监督训练方式对单目深度模型进行训练。

这里，每个所述双目图像包括作为单目图像的左眼图像和右眼图像。并且，在模型训练过程中，基于所述左眼图像生成左视差图像，以与所述左眼图像对应的右眼图像合成。同样，基于所述右眼图像生成右视差图像，以与所述右眼图像对应的左眼图像合成。

在步骤S120中，随机选择所述多个双目图像中的至少一单目图像。如上所述，在根据本申请实施例的单目深度模型的训练方法中，随机选择部分输入图像进行翻转，然后对于翻转的图像得到翻转的视差再翻转回去，进行图像的合成和梯度的反向传播。

并且，在本申请实施例中，所选的图像并不需要限于同时选择双目图像中的左眼图像和右眼图像。也就是说，可以仅选择部分双目图像中的左眼图像，或者仅选择部分双目图像中的右眼图像，也可以选择一部分双目图像中的左眼图像以及另一部分双目图像中的右眼图像，等等。当然，在本申请实施例中，也可以随机选择多个双目图像中的至少一个双目图像，并同时将所选的双目图像中的左眼图像和右眼图像作为进行翻转的图像。

也就是，在根据本申请实施例的单目深度模型的训练方法中，随机选择所述多个双目图像中的至少一单目图像包括：随机选择所述多个双目图像中的至少一双目图像以获得所述至少一双目图像中的左眼图像和右眼图像，将所述左眼图像和所述右眼图像作为所述至少一单目图像。

这样，由于同时使用双目图像中的左眼图像和右眼图像进行翻转，在处理时可以基于左眼图像和右眼图像中的一个以类似的方式处理另一个，降低计算的复杂度。并且，由于翻转的图像同时包括左眼图像和右眼图像，提高了翻转后训练的样本的多样性，可以进一步提高模型的预测精度。

在步骤S130中，计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像。下面，将参考图2说明根据本申请实施例的单目深度模型的训练方法中针对不翻转和翻转的图像生成视差图像和生成掩码图像的过程。图2图示了根据本申请实施例的视差图像和掩码图像的生成过程的示意图。

如图2的左半部分所示，针对不需要翻转的输入图像，例如，如图2所示的输入左眼图像，生成与所述左眼图像对应的左视差图像，再生成与左视差图像对应的掩码图像。同样，虽然图2中示出了对输入左眼图像执行的操作，对于输入右眼图像执行的操作也相同。因此，在本申请实施例中，所述第一视差图像指的是对于不经过翻转的输入图像生成的视差图像，且所述第一掩码图像指的是对于不经过翻转的输入图像生成的掩码图像，其既包括针对左眼图像的视差图像和掩码图像，也包括针对右眼图像的视差图像和掩码图像。

在步骤S140中，针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像。

同样，参考图2，如图2的右半部分所示，对于输入图像，例如，如图2的左半部分所示的输入左眼图像，首先进行翻转以获得翻转输入图像，然后计算所述翻转输入图像的视差图像，即如图2所示的翻转图像的视差图像，之后，对翻转图像的视差图像再进行翻转，以获得如图2所示的翻转的视差图像。最后，再针对翻转的视差图像生成相应的掩码图像。

因此，在本申请实施例中，所述第二视差图像指的是对于所选的经过翻转的输入图像生成的视差图像，且所述第二掩码图像指的是对于所选的经过翻转的输入图像生成的掩码图像。并且如上所述，其可以仅包括针对左眼图像的视差图像和掩码图像，也可以仅包括针对右眼图像的视差图像和掩码图像，或者包括针对双目图像中的左眼图像和右眼图像两者的视差图像和掩码图像。

也就是说，在本申请实施例中，是以输入的双目图像中的每一单目图像为单位对输入图像进行划分，一部分直接计算视差图像和相应的掩码图像，即如上所述的第一视差图像和第一掩码图像，另一部分则翻转后计算视差图像和相应的掩码图像，即如上所述的第二视差图像和第二掩码图像。

最后，在步骤S150中，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

这样，通过计算遮挡区域并屏蔽遮挡区域的反向梯度，由于通过掩码图像强化了图像中的物体区域并抑制了非物体区域，可以有效地解决物体边缘的深度模糊问题。

具体地，在根据本申请实施例的单目深度模型的训练方法中，可以采用不同结构的网络模型。图3图示了根据本申请实施例的网络结构的第一示例的示意图。如图3所示，针对输入的左眼图像I^l和右眼图像I^r，分别计算出其左视差图像d^l和右视差图像d^r。这里，本领域技术人员可以理解，左眼图像I^l对应的视差图像d^l可以是如上所述的未翻转的输入图像对应的第一视差图像，也可以是如上所述的翻转的输入图像对应的第二视差图像，同样，右眼图像I^r对应的视差图像d^r也可以是如上所述的第一视差图像和第二视差图像。

接下来，将左视差图像d^l与其对应的右眼图像I^r合成，并且将右视差图像d^r与其对应的左眼图像I^l合成，以生成预测图像和然后，通过计算所述预测图像和与真实图像I^l和I^r之间的差异函数，并以所述差异函数作为损失函数的至少一部分来训练所述单目深度模型。并且，如上所述，在训练过程中，以掩码图像遮挡所述预测图像，并且屏蔽所遮挡的区域的反向梯度。这里，所述差异函数可以是所述预测图像和与真实图像I^l和I^r之间的图像差值，或者所述图像差值的平方和，等。

这里，图3所示的网络结构通过同时针对左眼图像和右眼图像计算视差图像并合成预测图像，可以提高模型的预测精度。

因此，在根据本申请实施例的单目深度模型的训练方法中，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型包括：将所述第一视差图像和所述第二视差图像中的每个视差图像与其相对的单目图像合成为预测图像；计算所述预测图像与真实图像之间的差异函数；以及，以所述差异函数作为损失函数的至少一部分训练所述单目深度模型，在所述训练过程中，屏蔽所述掩码图像所遮挡的所述预测图像的区域的反向梯度。

作为网络结构的另一示例，图4图示了根据本申请实施例的网络结构的第二示例的示意图。如图4所示，本示例的网络结构可以只针对左眼图像I^l和右眼图像I^r之一进行训练。例如，针对左眼图像I^l，首先计算出其左视差图像d^l，然后与对应的右眼图像I^r进行合成以获得预测图像接下来，计算所述预测图像与真实图像I^l之间的差异函数，并以所述差异函数作为损失函数的至少一部分来训练所述单目深度模型。同样地，在训练过程中，以掩码图像遮挡所述预测图像，并且屏蔽所遮挡的区域的反向梯度。

此外，本领域技术人员可以理解，如图4所示的网络结构可以等效地应用于右眼图像I^r。也就是说，针对右眼图像I^r，首先计算出其右视差图像d^r，然后与对应的左眼图像I^l进行合成以获得预测图像接下来，计算所述预测图像与真实图像I^r之间的差异函数，并以所述差异函数作为损失函数的至少一部分来训练所述单目深度模型。同样地，在训练过程中，以掩码图像遮挡所述预测图像，并且屏蔽所遮挡的区域的反向梯度。这里，所述差异函数可以是所述预测图像和与真实图像I^l和I^r之间的图像差值，或者所述图像差值的平方和，等。

这里，图4所示的网络结构仅针对左眼图像和右眼图像之一计算视差图像并合成预测图像，使得计算过程比较简单，同时也可以与目前的一些现有的网络结构兼容。

也就是，在根据本申请实施例的单目深度模型的训练方法中，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型包括：将所述第一视差图像和所述第二视差图像中的对应于所述左眼图像和所述右眼图像之一的每个左视差图像或者每个右视差图像与其相对的右眼图像或者左眼图像合成为预测图像；计算所述预测图像与真实图像之间的差异函数；以及，以所述差异函数作为损失函数的至少一部分训练所述单目深度模型，在所述训练过程中，屏蔽所述掩码图像所遮挡的所述预测图像的区域的反向梯度。

图5图示了根据本申请实施例的单目深度模型的训练方法的效果图。如图5所示，(a)示出了左眼图像I^l，(b)示出了右眼图像I^r，(c)示出了与左眼图像对准的视差图像d^l，(d)示出了重构后的左眼预测图像(e)示出了与视差图像d^l对应的掩码图像，且(f)示出了使用掩码图像遮蔽之后重构的左眼图像。从(d)中可以看到，在重构后的左眼预测图像存在明显的重复和伪影。而通过使用从视差图像(c)生成的掩码图像(e)来屏蔽那些重复和伪影的反向传播，可以看到最终结果(f)中遮挡了白色区域。

示例性装置

如图6所示，根据本申请实施例的单目深度模型的训练装置200包括：图像获取单元210，用于获取用于训练单目深度模型的多个双目图像；图像选择单元220，用于随机选择所述多个双目图像中的至少一单目图像；第一计算单元230，用于计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；第二计算单元240，用于针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及，模型训练单元250，用于通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

在一个示例中，在上述单目深度模型的训练装置200中，所述双目图像包括作为单目图像的左眼图像和右眼图像；所述左眼图像对应的视差图像为左视差图像；以及，所述右眼图像对应的视差图像为右视差图像。

在一个示例中，在上述单目深度模型的训练装置200中，所述图像选择单元220用于：随机选择所述多个双目图像中的至少一双目图像以获得所述至少一双目图像中的左眼图像和右眼图像两者以作为所述至少一单目图像。

在一个示例中，在上述单目深度模型的训练装置200中，所述模型训练单元250用于：将所述第一视差图像和所述第二视差图像中的每个视差图像与其相对的单目图像合成为预测图像；计算所述预测图像与真实图像之间的差异函数；以及，以所述差异函数作为损失函数的至少一部分训练所述单目深度模型，在所述训练过程中，屏蔽所述掩码图像所遮挡的所述预测图像的区域的反向梯度。

在一个示例中，在上述单目深度模型的训练装置200中，所述模型训练单元250用于：将所述第一视差图像和所述第二视差图像中的对应于所述左眼图像和所述右眼图像之一的每个左视差图像或者每个右视差图像与其相对的右眼图像或者左眼图像合成为预测图像；计算所述预测图像与真实图像之间的差异函数；以及，以所述差异函数作为损失函数的至少一部分训练所述单目深度模型，在所述训练过程中，屏蔽所述掩码图像所遮挡的所述预测图像的区域的反向梯度。

这里，本领域技术人员可以理解，上述单目深度模型的训练装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的单目深度模型的训练方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的单目深度模型的训练装置200可以实现在各种终端设备中，例如运行单目深度模型的服务器。在一个示例中，根据本申请实施例的装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该装置200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该装置200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该单目深度模型的训练装置200与该终端设备也可以是分立的设备，并且该装置200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的单目深度模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入双目图像、视差图像、掩码图像等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以包括双目摄像机，用于采集双目图像。此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，例如，其包括显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的单目深度模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的单目深度模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种单目深度模型的训练方法，包括：

获取用于训练单目深度模型的多个双目图像；

随机选择所述多个双目图像中的至少一单目图像；

计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；

针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；以及

通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

2.如权利要求1所述的单目深度模型的训练方法，其中，

所述双目图像包括作为单目图像的左眼图像和右眼图像；

所述左眼图像对应的视差图像为左视差图像；以及

所述右眼图像对应的视差图像为右视差图像。

3.如权利要求2所述的单目深度模型的训练方法，其中，随机选择所述多个双目图像中的至少一单目图像包括：

随机选择所述多个双目图像中的至少一双目图像以获得所述至少一双目图像中的左眼图像和右眼图像，将所述左眼图像和所述右眼图像作为所述至少一单目图像。

4.如权利要求1所述的单目深度模型的训练方法，其中，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型包括：

将所述第一视差图像和所述第二视差图像中的每个视差图像与其相对的单目图像合成为预测图像；

计算所述预测图像与真实图像之间的差异函数；以及

以所述差异函数作为损失函数的至少一部分训练所述单目深度模型，在所述训练过程中，屏蔽所述掩码图像所遮挡的所述预测图像的区域的反向梯度。

5.如权利要求2所述的单目深度模型的训练方法，其中，通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型包括：

将所述第一视差图像和所述第二视差图像中的对应于所述左眼图像和所述右眼图像之一的每个左视差图像或者每个右视差图像与其相对的右眼图像或者左眼图像合成为预测图像；

计算所述预测图像与真实图像之间的差异函数；以及

6.一种单目深度模型的训练装置，包括：

图像获取单元，用于获取用于训练单目深度模型的多个双目图像；

图像选择单元，用于随机选择所述多个双目图像中的至少一单目图像；

第一计算单元，用于计算所述多个双目图像中除所述至少一单目图像之外的每一单目图像对应的第一视差图像以及所述第一视差图像对应的第一掩码图像；

第二计算单元，用于针对所述至少一单目图像中的每一单目图像，计算所述每一单目图像翻转后的视差图像并再翻转作为第二视差图像，以及计算所述第二视差图像对应的第二掩码图像；

模型训练单元，用于通过屏蔽所述第一掩码图像遮挡的所述第一视差图像的区域的反向梯度，以及所述第二掩码图像遮挡的第二视差图像的区域的反向梯度来训练所述单目深度模型。

7.如权利要求6所述的单目深度模型的训练装置，其中，

所述双目图像包括作为单目图像的左眼图像和右眼图像；

所述左眼图像对应的视差图像为左视差图像；以及

所述右眼图像对应的视差图像为右视差图像。

8.如权利要求7所述的单目深度模型的训练装置，其中，所述图像选择单元用于：

随机选择所述多个双目图像中的至少一双目图像以获得所述至少一双目图像中的左眼图像和右眼图像两者以作为所述至少一单目图像。

9.如权利要求6所述的单目深度模型的训练装置，其中，所述模型训练单元用于：

计算所述预测图像与真实图像之间的差异函数；以及

10.如权利要求6所述的单目深度模型的训练装置，其中，所述模型训练单元用于：

计算所述预测图像与真实图像之间的差异函数；以及

11.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的单目深度模型的训练方法。

12.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的单目深度模型的训练方法。