CN113313742A

CN113313742A - 图像深度估计方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113313742A
Application number: CN202110491582.8A
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-08-27

Abstract

本申请实施例公开一种图像深度估计方法、装置、电子设备及计算机存储介质，该方法包括：将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像；通过深度估计模型的一级网络估计所述第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像，所述第一深度图像包括所述第二尺寸的目标图像中各个像素点对应的深度信息；通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；所述第二深度图像包括所述第一尺寸的目标图像中各个像素点对应的深度信息。实施本申请实施例，能够提高图像深度估计的时间效率，还可保持较高的深度估计准确性。

Description

图像深度估计方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及图像深度估计方法、装置、电子设备及计算机存储介质。

背景技术

深度估计是计算机视觉领域的一项基础算法，其目的的是通过计算得到输入图像中每个像素点对应目标物体与拍摄设备之间的距离，即图像深度。为了取得较高的深度估计准确性，目前的深度估计算法往往设计得较为复杂。然而，复杂的深度估计算法在提高估计准确性的同时，往往牺牲了算法的时间效率。

发明内容

本申请实施例公开了一种图像深度估计方法、装置、电子设备及计算机存储介质，能够提高图像深度估计的时间效率，并保证深度估计的准确性。

本申请实施例公开一种图像深度估计方法，所述方法包括：将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像；通过深度估计模型的一级网络估计所述第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像，所述第一深度图像包括所述第二尺寸的目标图像中各个像素点对应的深度信息；通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；所述第二深度图像包括所述第一尺寸的目标图像中各个像素点对应的深度信息。

本申请实施例公开一种深度估计模型的训练方法，所述深度估计模型至少包括：一级网络和二级网络；所述方法包括：将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像；通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；所述第一预测深度图像包括所述第二尺寸的第一样本图像中各个像素点对应的深度信息；通过待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；根据所述第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失；所述第一尺寸的第一参考深度图像包括所述第一尺寸的第一样本图像中各个像素点对应的深度信息；根据所述二级网络的目标损失对所述待训练的二级网络中的参数进行调整。

本申请实施例公开一种图像深度估计装置，包括：缩小模块，用于将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像；第一处理模块，用于通过深度估计模型的一级网络估计所述第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像；第二处理模块，用于通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；所述第二深度图像包括所述第一尺寸的目标图像中各个像素点对应的深度信息。

本申请实施例公开一种深度估计模型的训练装置，所述深度估计模型至少包括：一级网络和二级网络；所述训练装置包括：图像处理模块，用于将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像；第一预测模块，用于通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；第二预测模块，用于通过待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；损失计算模块，用于根据所述第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失；所述第一尺寸的第一参考深度图像包括所述第一尺寸的第一样本图像中各个像素点对应的深度信息；参数调整模块，用于根据所述二级网络的目标损失对所述待训练的二级网络中的参数进行调整。

本申请实施例公开一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一项图像深度估计的方法。

本申请实施例公开一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一项深度估计模型的训练方法。

本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例公开的任意一项图像深度估计的方法。

本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例公开的任意一项深度估计模型的训练方法。

与相关技术相比，本申请实施例具有以下有益效果：

在本申请实施例中，可以先将第一尺寸的目标图像缩小至第二尺寸，以使深度估计模型的一级网络对小尺寸的目标图像进行深度估计，并得到一级网络输出的第二尺寸的第一深度图像。进一步地，将初步估计得出的第一深度图像和第一尺寸的目标图像输入至深度估计模型的二级网络，通过二级网络对小尺寸的第一深度图像和原始尺寸的目标图像进行处理，得到二级网络输出的第一尺寸(即原始尺寸)的第二深度图像。可见，在本申请实施例中，先采用一级网络对尺寸较小的目标图像进行处理，可以减少计算量，有利于提高深度估计的时间效率。在得到一级网络输出的初步估计结果之后，通过二级网络结合原始尺寸的目标图像对一级网络的初步估计结果进行处理，以在第二阶段的计算中加入原始尺寸的目标图像包括的图像信息，从而可以在提高深度估计时间效率的同时保持了较高的深度估计准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种图像深度估计方法的流程示意图；

图2是本申请实施例公开的一种利用深度估计模型进行图像深度估计的流程示意图；

图3是本申请实施例公开的一种二级网络包括的部分模块的结构示意图；

图4是本申请实施例公开的另一种图像深度估计的方法流程示意图；

图5是本申请实施例公开的另一种利用深度估计模型进行图像深度估计的流程示意图；

图6是本申请实施例公开的一种深度估计模型的训练方法的流程示意图；

图7是本申请实施例公开的另一种深度估计模型的训练方法的流程示意图；

图8是本申请实施例公开的一种图像深度估计装置的结构示意图；

图9是本申请实施例公开的一种深度估计模型的训练装置的结构示意图；

图10是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例公开了一种图像深度估计方法、装置、电子设备及计算机存储介质，能够提高图像深度估计的时间效率，并保证深度估计的准确性。以下分别进行详细说明。

请参阅图1，图1是本申请实施例公开的一种图像深度估计方法的流程示意图。该方法可适用于如个人电脑、智能手机等电子设备，但不限于此。如图1所示，该图像深度估计方法可包括以下步骤：

110、将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像。

在本申请实施例中，目标图像可以是需要进行深度估计的二维图像。目标图像的图像尺寸可指目标图像的长度和宽度，图像尺寸可以像素或者厘米为单位，具体不做限定。示例性的，目标图像的尺寸可为720px×1280px，其中，720为图像长度，1280为图像宽度，px为像素单位。一般来说，在拍摄设备的分辨率相同的情况下，目标图像的尺寸越大包含的像素点越多，目标图像中包含的信息越多，对目标图像进行处理时的计算量越大。

在本申请实施例中，电子设备在获取到第一尺寸(即原始尺寸)的目标图像时，可对目标图像进行尺寸缩小，以得到第二尺寸的目标图像，上述的第二尺寸小于第一尺寸。与第一尺寸相比，第二尺寸越小，越有利于提升深度估计的时间效率，但可能会导致深度估计的准确性下降。因此，为了兼顾时间效率和估计准确性，第二尺寸的选取可根据实际的业务经验设置，本申请实施例不做限定。示例性的，第二尺寸可设置为第一尺寸的二分之一，即步骤110可作为对目标图像进行2倍下采样操作，缩小后的目标图像的长度和宽度均为原始尺寸的目标图像的二分之一；或者，第二尺寸可设置为第一尺寸的四分之一，即步骤110可作为对目标图像进行4倍下采样操作，缩小后的目标图像的长度和宽度均为原始尺寸的目标图像的四分之一。

在本申请实施例中，电子设备在执行步骤110时，对目标图像进行尺寸缩小的方式可包括但不限于：采用插值算法将目标图像从第一尺寸缩小至第二尺寸，例如采用双线性插值算法、最邻近插值算法等，但不限于此。或者，采用卷积算法将目标图像从第一尺寸缩小至第二尺寸，例如可通过卷积核为3，卷积步长为2的卷积操作将目标图像的尺寸缩小至原始尺寸的二分之一。

120、通过深度估计模型的一级网络估计第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像。

在本申请实施例中，深度估计模型可包括一级网络。一级网络可以是输入图像的尺寸与输出图像的尺寸相同的任意一种算法模型，本申请实施例对一级网络的结构不做限定。示例性的，一级网络可以是卷积神经网络(Convolutional Neural Networks，CNN)、U型网络(U-net)等，但不限于此。

在本申请实施例中，已训练好的一级网络可具备深度估计能力，一级网络具备的深度估计能力可以是通过监督学习、无监督学习、半监督学习等训练方法进行训练得到的，具体不做限定。一级网络在接收到输入的目标图像时，可对目标图像进行深度估计，并输出与输入的尺寸相同的估计结果，即第二尺寸的第一深度图像。因此，在本申请实施例中，第二尺寸的第一深度图像可包括第二尺寸的目标图像中各个像素点对应的深度信息，例如深度图像可为深度谱。示例性的，若第一尺寸的目标图像的大小为H×W，H为高度，W为宽度，第二尺寸的目标图像的大小为(H/2)×(W/2)。将第二尺寸的目标图像(H/2)×(W/2)输入至一级网络，可得到一级网络输出的(H/2)×(W/2)的深度谱。

130、通过深度估计模型的二级网络对第一尺寸的目标图像和第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像。

在本申请实施例中，深度估计模型还可包括二级网络，二级网络可与一级网络级联，即一级网络的输出图像可作为输入图像，输入至二级网络。除了一级网络输出的小尺寸的第一深度图像，二级网络的输入还可包括原始尺寸的目标图像，即第一尺寸的目标图像。二级网络可对输入的目标图像和第一深度图像执行特征提取、放大、卷积等一种或多种操作，从而得到第一尺寸的第二深度图像，本申请实施例对二级网络的结构不做限定。

在本申请实施例中，二级网络的作用在于结合原始尺寸的目标图像中的图像特征对一级网络输出的第一深度图像包括的深度信息进行调整，相当于一级网络输出了初步的深度估计结果之后，由二级网络对初步的深度估计结果进行精修。输入至一级网络的输入图像尺寸缩小，可以减少一级网络的计算量，相较于直接处理大尺寸输入图像的深度估计方法而言，缩小输入图像的尺寸有利于提高时间效率；通过二级网络结合原始尺寸的目标图像中的图像特征对一级网络的深度估计结果进行调整，可以在提高时间效率的同时兼顾深度估计的准确性，使得深度估计模型可以快速、准确地输出目标图像的深度估计结果。

在本申请实施例中，一级网络的网络层数可大于二级网络的网络层数。一级网络可采用层数较多，较为复杂的网络结构，而二级网络可采用层数较小，较为简单的网络结果。因此，深度估计的大部分计算可以在一级网络中完成，一级网络的层数越多，深度估计的准确性越高。虽然一级网络的层数较多，但一级网络的输入为小尺寸的目标图像，因此也可以兼顾深度估计的准确性和效率。

可见，实施本申请实施例公开的图像深度估计方法，可通过缩小输入的目标图像的尺寸，以减少一级网络的计算量，从而提高深度估计的时间效率。进一步地，二级网络在对一级网络输出的第一深度图像进行处理时，还加入了原始尺寸的目标图像，从而可以在二级网络对第一深度图像的处理中加入原始尺寸的目标图像包括的图像信息，进而可以在提高深度估计时间效率的同时保持了较高的深度估计准确性。

为了更清楚地说明本申请实施例公开的图像深度估计方法，请参阅图2，图2是本申请实施例公开的一种利用深度估计模型进行图像深度估计的流程示意图。如图2所示，深度估计模型可包括：一级网络10和二级网络20。

第一尺寸的目标图像在经过下采样操作后，变成第二尺寸的目标图像。第二尺寸的目标图像作为输入图像输入至深度估计模型的一级网络10，经过一级网络10的深度估输出第二尺寸的第一深度图像。第二尺寸的第一深度图像以及第一尺寸的目标图像均输入至二级网络20，得到二级网络20输出的第一尺寸的第二深度图像。

在一个实施例中，电子设备可通过二级网络提取第一尺寸的目标图像的图像特征，并利用提取出的图像特征对第二尺寸的第一深度图像进行一次或多次放大处理，以得到第一尺寸的第二深度图像。即，二级网络在对第二尺寸的第一深度图像进行放大时，可利用第一尺寸的目标图像的图像特征引导对第一深度图像的放大，以减少放大处理导致的图像模糊、噪声或者网格效应等，有利于在放大后的第二深度图像中保留原始尺寸的目标图像中的边缘特征等图像信息，有利于提高深度估计的准确性。示例性的，二级网络可通过卷积、特征点识别等一种或多种方式提取第一尺寸的目标图像的图像特征，再通过双线性插值、最邻近插值或者卷积等一种或多种方式，利用提取出的图像特征对第一深度图像进行放大处理，具体不做限定。

可选的，当二级网络利用从第一尺寸的目标图像中提取出的图像特征对第二尺寸的第一深度图像进行多次放大处理时，可以在部分或者全部次数的放大处理中加入提取出的图像特征。例如，二级网络可利用上述提取出的图像特征对第二尺寸的第一深度图像进行第一次放大处理，得到第一次放大后的放大深度图像，再单独对第一次放大后的放大图像进行一次或多次放大处理，最终得到第一尺寸的第二深度图像。或者，二级网络可以在对第二尺寸的第一深度图像进行连续多次的放大处理时，均加入提取出的图像特征，最终得到第一尺寸的第二深度图像。若每次放大处理时均加入从第一尺寸的目标图像中提取出的图像特征，则有利于在每次放大处理时均加入目标图像包括的图像信息，进一步降低放大处理导致的图像模糊，有利于提高深度估计的准确性。

在一个实施例中，为了利用提取出的图像特征对第二尺寸的第一深度图像进行一次或多次放大处理，电子设备在通过二级网络提取第一尺寸的目标图像的图像特征，得到第一尺寸的目标特征图之后，可以先对目标特征图进行一次或多次缩小处理，以得到一帧或多帧缩小特征图；其中，存在一帧缩小特征图的尺寸为第二尺寸，即与一级网络输出的小尺寸的第一深度图像的尺寸相同。电子设备可进一步通过二级网络基于上述的一帧或多帧缩小特征图对第二尺寸的第一深度图像进行一次或多次放大处理，从而得到第一尺寸的放大深度图像。也就是说，二级网络在进行放大处理时，可融合一帧或多帧缩小特征图进行放大，以在进行放大处理加入目标图像包括的图像信息。进一步地，第一尺寸的放大深度图像还可进一步融合第一尺寸的目标图像中的图像特征。因此，二级网络在得到第一尺寸的放大深度图像之后，可进一步根据第一尺寸的放大深度图像和第一尺寸的目标特征图生成第一尺寸的第二深度图像。即，二级网络可将网络浅层提取到的图像特征加入至网络深层的放大处理中，降低放大处理导致的图像模糊，提高深度估计的准确性。

请参阅图3，图3是本申请实施例公开的一种二级网络包括的部分模块的结构示意图。如图3所示，二级网络可包括：M个下采样模块210和M个上采样模块220。其中，M为大于或等于1的正整数。

下采样模块210，用于对输入至下采样模块210的输入图像进行缩小处理，以得到尺寸缩小的输出图像。每个下采样模块210的输入图像的尺寸与输出图像的尺寸的比值可为预设的第一比值，即每个下采样模块210的采样率为第一比值，每个下采样模块210可执行一次k倍下采样操作，输出图像的尺寸为输入图像的1/k，k可为大于或等于2的正整数。进一步的，k可为偶数。示例性的，下采样模块210可包括：线性修正单元(ParametricRectified Linear Unit，PReLU)激活函数，以及大小为3×3的卷积核，其中，卷积的步长为1。每个下采样模块210可执行一次2倍下采样操作。

上采样模块220，用于对输入至上采样模块220的输入图像进行放大处理，以得到尺寸放大的输出图像。每个上采样模块220的输出图像的尺寸与输出图像的尺寸的比值也可为上述的第一比值，即每个上采样模块220的采样率也可为第一比值，每个上采样模块220可执行一次k倍上采样操作，输出图像的尺寸为输入图像的k倍，即上采样模块220对输入图像的放大倍数与下采样模块210对输入图像的缩小倍数可以一致。示例性的，上采样模块220可包括：双线性插值模块、PReLU激活函数，以及大小为3×3的卷积核，其中，卷积的步长为2。上采样模块的输入图像依次经过双线性插值模块、PReLU激活函数以及卷积核的卷积计算之后，得到尺寸增大的输出图像，上采样模块220完成一次2倍上采样操作。

在本申请实施例中，可以将一帧或多帧图像输入至上采样模块220。若将两帧图像输入至同一个上采样模块220，则输入至同一个上采样模块的两帧输入图像的尺寸相同，且上采样模块220可根据其中某一帧输入图像的图像特征对另一帧输入图像进行放大处理，使得上采样模块220的输出图像中可以包括两帧输入图像的图像信息。

可选的，M的取值可根据第一尺寸与第二尺寸之间的第二比值n，以及每个下采样模块的输入图像的尺寸与输出图像的尺寸之间的第一比值k确定。示例性的，M＝n/k，k＝2。若第一尺寸为第二尺寸的2倍，则可分别设置1个下采样模块210和1个上采样模块220；若第一尺寸为第二尺寸的4倍，则可分别设置2个下采样模块210和2个上采样模块220。

基于如图3所示的二级网络，请参阅图4，图4是本申请实施例公开的另一种图像深度估计的方法流程示意图。该方法可适用于如个人电脑、智能手机等电子设备，但不限于此。如图4所示，该图像深度估计方法可包括以下步骤：

410、将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像。

420、通过深度估计模型的一级网络估计第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像。

在本申请实施例中，步骤410-步骤420的实施方式请参见前述实施例，以下内容不再赘述。

430、将第一尺寸的目标图像和第二尺寸的第一深度图像输入至二级网络。

440、在二级网络中提取第一尺寸的目标图像的图像特征，得到第一尺寸的目标特征图。

在本申请实施例中，二级网络可通过卷积或者特征点识别等方式提取第一尺寸的目标图像的图像特征，从而得到第一尺寸的目标特征图。示例性的，二级网络还可包括第一卷积模块，第一卷积模块用于对输入至二级网络的第一尺寸的目标图像进行卷积，卷积后得到第一尺寸的目标特征图。第一卷积模块可包括：大小为3×3的第一卷积核、PReLU激活函数、大小为3×3的第二卷积核以及残差连接模块，其中，两个卷积核的步长均可为1。第一尺寸的目标图像输入至第一卷积模块之后，依次经过第一卷积核、PReLU激活函数、第二卷积核以及残差连接模块的计算，得到包括目标图像的图像特征的目标特征图。第一卷积模块不改变输入图像的尺寸，因此输出的目标特征图的尺寸与输入的目标图像的尺寸一致，均为第一尺寸。

在本申请实施例中，由于第一深度图像的尺寸为第二尺寸，而目标特征图的尺寸为第一尺寸。因此，在对二者进行融合之前，可以先执行下述的步骤450，以将目标特征图缩小至第二尺寸。

450、依次使用二级网络中的M个下采样模块连续对目标特征图进行M次下采样，以得到M个下采样模块分别输出的M帧缩小特征图。

在本申请实施例中，结合如图3所示的二级网络结构示意图，第一尺寸的目标特征图输入至第一个下采样模块后，可依次使用M个下采样模块对第一尺寸的目标特征图进行M次下采样。其中，每个下采样模块执行一次下采样操作，输出一个缩小特征图，每个下采样模块输出的缩小特征图的尺寸均不相同，第M个下采样模块(即最后一个下采样模块)输出的缩小特征图为第二尺寸。第一个下采样模块的输入为第一尺寸的目标特征图，除了第一个下采样模块以外，其余各个下采样模块的输入为前一个下采样模块输出的缩小特征图。

也就是说，在M个下采样模块中，第N(1≤N＜M)个下采样模块的输出是第N+1个下采样模块的输入。由于每个下采样模块可执行一次k倍下采样操作，因此，第N个下采样模块输出的缩小特征图的尺寸与第N+1个下采样模块输出的缩小特征图的尺寸的比值为第一比值k。

示例性的，假设需要通过M个下采样模块将目标特征图从第一尺寸(H×W)缩小至第二尺寸(h×w)，其中，H和h均为图像高度，h＝H/4；W和w均为图像宽度，w＝W/4。第一尺寸与第二尺寸之间的第二比值n＝4，上述的第一比值k＝2，则M＝n/k＝2。第一尺寸(H×W)的目标特征图像在经过第一个下采样模块的缩小处理后，得到尺寸为(H/2×W/2)的缩小特征图，将尺寸为(H/2×W/2)的缩小特征图输入至第二个下采样模块，在经过第二个下采样模块的缩小处理后，得到尺寸为(H/4×W/4)的缩小特征图，即第二个下采样模块的缩小特征图为第二尺寸。

460、将第二尺寸的第一深度图像输入第一个上采样模块，并基于M帧缩小特征图，依次使用M个上采样模块连续对第一深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大深度图像。

在本申请实施例中，经过步骤450的下采样操作之后，目标特征图的尺寸缩小至与一级网络输出的第一深度图像的尺寸一致，均为第二尺寸。因此，可以将一级网络输出的第二尺寸的第一深度图像，以及第M个下采样模块输出的第二尺寸的缩小特征图同时输入至第一个上采样模块，以通过M个上采样模块执行的上采样操作，将第一深度图像的尺寸从第二尺寸放大至第一尺寸。

其中，第一个上采样模块在对第一深度图像进行上采样时，可将第一深度图像与第M个下采样模块输出的第二尺寸的缩小特征图进行融合，从而得到第一个上采样模块输出的放大深度图像。融合时，深度图像和特征图在通道维数上可能不相同。示例性的，当深度图像为深度谱时，深度谱的通道数往往为1；当输入的目标图像为基于红绿蓝色彩空间的彩色图像时，对目标图像进行特征提取后得到的目标特征图的通道数往往为3，分别对应红色、绿色和蓝色的通道；下采样模块执行的下采样操作一般不会改变图像的通道维数，下采样模块输出的缩小特征图的通道数也为3。

因此，第一上采样模块可先将第一深度图像和第二尺寸的缩小特征图在通道维度上进行级联，再对级联后生成的图像进行卷积，从而生成包括第一深度图像和缩小特征图的图像信息，且图像尺寸增大的放大深度图像。

示例性的，假设第二尺寸的第一深度图像为(h×w×1)，其中h为图像高度，w为图像宽度，1为第一深度图像的通道数。假设第M个下采样模块输出的第二尺寸的缩小特征图为(h×w×C)，C为第二尺寸的缩小特征图的通道数。第一个上采样模块可将第二尺寸的第一深度图像和第二尺寸的缩小特征图在通道数上进行级联，得到级联结果为(h×w×(1+C))。得到级联结果之后，第一上采样模块可在图像宽度和图像高度两个维度上对级联结果进行上采样操作，从而得到尺寸增大的放大深度图像(H×W×(1+C))。H为图像高度，H大于h；W为图像宽度，W大于w。

第一上采样模块可将生成的放大深度图像输入至下一个上采样模块，以使下一个上采样模块继续对放大深度图像进行上采样。其中，第Y(2≤N≤M)个上采样模块对第Y-1个上采样模块输出的放大图像进行上采样时，可将第Y-1个上采样模块输出的放大深度图像与相同尺寸的缩小特征图进行融合，得到Y个上采样模块输出的放大深度图像。第Y个上采样模块融合第Y-1个上采样模块输出的放大深度图像和同尺寸的缩小特征图生成放大深度图像的方式与第一个上采样模块类似，以下内容不再赘述。

此外，第Y-1个上采样模块输出的放大深度图像与第M-Y+2个下采样模块输出的缩小特征图尺寸相同。示例性的，假设M＝3，则第一个上采样模块输出的放大深度图像与第三个下采样模块输出的缩小特征图尺寸相同，第二个上采样模块输出的放大深度图像与第二个下采样模块输出的缩小特征图尺寸相同，第三个上采样模块输出的放大深度图像与第一个下采样模块输出的缩小特征图尺寸相同。

第Y个上采样模块输出的放大深度图像的尺寸与第Y-1个上采样模块输出的放大深度图像的尺寸的比值为上述的第一比值k。第M个上采样模块输出的放大深度图像的尺寸为第一尺寸。示例性的，第一尺寸为(H×W)，第二尺寸为(h×w)，其中，H和h均为图像高度，h＝H/4；W和w均为图像宽度，w＝W/4，M＝2；则第二尺寸(h×w)的第一深度图像在经过第一个上采样模块的上采样后，得到尺寸为(2h×2w)的放大深度图像；将尺寸为(2h×2w)的放大深度图像输入至第二个上采样模块，在经过第二个上采样模块的上采样后，得到尺寸为(4h×4w)的放大深度图像，即第二个上采样模块输出的放大深度图像的尺寸为第一尺寸。

470、在二级网络中根据第一尺寸的放大深度图像和第一尺寸的目标特征图生成第一尺寸的第二深度图像。

在本申请实施例中，第M个上采样模块(即最后一个上采样模块)可输出第一尺寸的放大深度图像。因此，可进一步对第一尺寸的放大深度图像包括的深度信息和第一尺寸的目标特征图中的图像特征进行融合，得到第一尺寸的融合深度图像。与上采样模块不同，此次融合不涉及图像尺寸的更改，因此可通过卷积的方式进行融合。示例性的，二级网络还可包括第二卷积模块，第M个上采样模块输出的第一尺寸的放大深度图像以及第一卷积模块输出的第一尺寸的目标特征图可输入至第二卷积模块。第二卷积模块的结构可与第一卷积模块类似，可包括：大小为3×3的第一卷积核、PReLU激活函数、大小为3×3的第二卷积核以及残差连接模块，其中，两个卷积核的步长均可为1。假设第一尺寸的放大深度图像为(H×W×(1+C))，第一尺寸的目标特征图为(H×W×C)，其中，H为图像高度，W为图像宽度，1+C为放大深度图像的通道数，C为目标特征图的通道数。第二卷积模块可先将第一放大深度图像和目标特征图在通道数量上进行级联，得到级联结果为(H×W×(1+2C))。然后，再对级联结果依次经过第一卷积核、PReLU激活函数、第二卷积核以及残差连接模块的计算，得到第一尺寸的融合深度图像(H×W×m)，m为融合深度图像的通道数。

此外，在本申请实施例中，二级网络在对一级网络输出的第一深度图像进行放大处理时，融合的图像为步骤440中提取出的包括图像特征的特征图，而非原始输入的目标图像。因此，在得到第一尺寸的融合深度图像之后，可进一步对第一尺寸的融合深度图像中的图像特征进行还原，得到第一尺寸的第二深度图像。其中，待还原的图像特征可包括但不限于图像的通道数。

示例性的，当二级网络包括的上采样模块或者第二卷积模块在对两帧或以上的输入图像进行融合时，往往需要先将输入图像在通道维度上进行级联，再进行输入图像的融合，从而使得上采样模块或者第二卷积模块的输出图像的通道数可能大于1。而实际应用中，深度图像的通道数往往为1。因此，二级网络可进一步利用第二卷积模块对第一尺寸的融合深度图像进行卷积操作，以将第一尺寸的融合深度图像的通道数还原至1，还原后得到第一尺寸的第二深度图像。

可见，在步骤460中，可对第一尺寸的放大深度图像包括的深度信息和第一尺寸的目标特征图中的图像特征进行融合，得到第一尺寸的融合深度图像；以及，对第一尺寸的融合深度图像中的图像特征进行特征还原，得到第一尺寸的第二深度图像。

在前述实施例中，先将大尺寸的目标图像缩小为小尺寸的目标图像，再将小尺寸的目标图像输入至一级网络，以获得一级网络输出的初步估计结果。将一级网络输出的初步深度估计结果以及大尺寸的目标图像输入至二级网络，二级网络先将大尺寸的目标图像缩小至与初步深度估计结果的尺寸一致，以便于融合二者的图像信息，并且二级网络将初步深度估计结果从小尺寸逐步放大至大尺寸，使得深度估计模型最终输出的深度估计结果的尺寸与原始输入的目标图像的尺寸保持一致，从而既可以通过减少图像尺寸提高时间效率，又可以减少对小尺寸的深度估计结果进行放大时的信息丢失，使得最终得到的大尺寸的深度估计结果仍然可以保持较高的准确性。

为了更清楚地说明前述实施例公开的图像深度估计方法，请参阅图5，图5是本申请实施例公开的另一种利用深度估计模型进行图像深度估计的流程示意图。如图5所示，深度估计模型可包括一级网络10和二级网络20。二级网络20可包括：M个下采样模块210、M个上采样模块220、第一卷积模块230、第二卷积模块240和第三卷积模块250。

第一尺寸的目标图像在经过下采样操作后，变成第二尺寸的目标图像。第二尺寸的目标图像输入至一级网络10，经过一级网络10的深度估计后输出第二尺寸的第一深度图像。将第二尺寸的第一深度图像和第一尺寸的目标图像输入至二级网络20。

在二级网络20中，第一卷积模块230提取第一尺寸的目标图像的图像特征，得到第一尺寸的目标特征图，并将第一尺寸的目标特征图输入至第一个下采样模块210。

第一个下采样模块210获取到第一尺寸的目标特征图之后，依次使用M个下采样模块210连续对目标特征图进行M次下采样，得到M帧不同尺寸的缩小特征图。

第M个下采样模块210输出的第二尺寸的缩小特征图和一级网络10输出的第二尺寸的第一深度图像输入至第一个上采样模块220。

第一个上采样模块220获取到第二尺寸的缩小特征图和第二尺寸的第一深度图像之后，基于M个下采样模块220分别输出的M帧缩小特征图，依次使用M个上采样模块220连续对第一深度图像进行M次上采样，得到第M个上采样模块220输出的第一尺寸的放大深度图像。将第M个上采样模块220输出的第一尺寸的放大深度图像以及第一卷积模块输出的第一尺寸的目标特征图输入至第二卷积模块240。

第二卷积模块240对第一尺寸的放大深度图像包括的深度信息和第一尺寸的目标特征图中的图像特征进行融合，得到第一尺寸的融合深度图像，并将第一尺寸的融合深度图像输入至第三卷积模块250。

第三卷积模块250对第一尺寸的融合深度图像中的图像特征进行特征还原，得到第一尺寸的第二深度图像。

可见，深度估计模型最终输出的第二深度图像的尺寸与原始输入的目标图像的尺寸一致。

前述实施例公开的深度估计模型可通过以下方法进行训练得到。

请参阅图6，图6是本申请实施例公开的一种深度估计模型的训练方法的流程示意图，该训练方法可适用于如个人电脑、智能手机等电子设备，具体不做限定。需要说明的是，可以在同一台电子设备上执行本实施例公开的任意一种图像深度估计方法以及深度估计模型的训练方法，也可以在一台电子设备上执行本实施例公开的深度估计模型的训练方法，并将训练好的深度估计模型传输至另一台电子设备，以在另一台电子设备上执行本申请实施例公开的图像深度估计方法。如图6所示，该深度估计模型的训练方法可包括括以下步骤：

610、将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像。

在本申请实施例中，第一样本图像可指对应有第一参考深度图像的样本图像，第一参考深度图像包括第一尺寸的第一样本图像中各个像素点对应的深度信息。需要说明的是，第一参考深度图像的尺寸与第一样本图像的尺寸一致，均为第一尺寸。用于进行深度估计模型训练的样本数据中可包括多个第一样本数据对，每个第一样本数据对可包括一帧第一样本图像以及与该第一样本图像对应的第一参考深度图像。示例性的，样本数据可从纽约大学(New York University，NYU)深度数据集、基于激光雷达采样得到的DIODE(DenseIndoor and Outdoor Depth)数据集等公共数据集中获取。

在本申请实施例中，电子设备可通过插值算法、卷积等方式将第一样本图像的尺寸从第一尺寸缩小至第二尺寸，具体不做限定。

620、通过一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。

在本申请实施例中，一级网络可以是任意一种具有深度估计能力，且输入图像的尺寸与输出图像的尺寸相同的算法模型。通过一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像的实施方式与前述实施例中通过一级网络估计第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像的实施方式类似，以下内容不再赘述。

630、通过待训练的二级网络对第一尺寸的第一样本图像和第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像。

在本申请实施例中，通过待训练的二级网络对第一尺寸的第一样本图像和第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像的实施方式与前述实施例中通过二级网络对第一尺寸的目标图像和第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像的实施方式类似，以下内容不再赘述。

640、根据第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失。

在本申请实施例中，可计算第一尺寸的第二预测深度图像和第一尺寸的第一参考深度图像之间的L1损失、L2损失或者结构相似性(Structural Similarity，SSIM)损失作为二级网络的目标损失，但不限于此。

示例性的，假设第二预测深度图像为Pd2，第一尺寸的第一参考深度图像为D，则第二预测深度图像Pd2和第一参考深度图像D之间的L1损失可通过以下公式计算：

其中，LossL1为L1损失。

第二预测深度图像Pd2和第一参考深度图像D之间的L2损失可通过以下公式计算：

其中，LossL2为L2损失。

第二预测深度图像Pd2和第一参考深度图像D之间的SSIM损失可通过以下公式计算：

其中，Loss_SSIM为SSIM损失，SSIM(·)指SSIM相似性计算操作。

650、根据二级网络的目标损失对待训练的二级网络中的参数进行调整。

在本申请实施例中，对待训练的二级网络进行训练的过程可以看作有监督学习的训练过程。电子设备可将二级网络的目标损失反馈至待训练的二级网络，以根据二级网络的目标损失对二级网络中的参数进行调整，调整的方式可包括但不限于梯度下降更新，直至二级网络的目标损失满足损失期望。其中，损失期望可指训练停止的条件。例如，二级网络的目标损失满足损失期望，可包括：二级网络的目标损失低于损失阈值；或者，二级网络中参数的迭代次数大于迭代阈值，但不限于此。上述的损失阈值和迭代阈值可根据实际经验设置，本申请实施例不做限定。

在一个实施例中，电子设备可分别对一级网络和二级网络进行单独训练。单独训练时，可先通过有监督学习、无监督学习或者半监督学习等方式对一级网络进行训练，得到训练好的一级网络之后，冻结一级网络中的参数。此时，在前述的步骤620中，电子设备通过训练好的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。

可选的，电子设备通过有监督学习的方式对一级网络进行训练，可包括：电子设备获取多个第二样本数据对，每个第二样本数据对可包括一帧第二尺寸的第二样本图像以及与该第二样本图像对应的第二参考深度图像，第二参考深度图像包括第二尺寸的第二样本图像中各个像素点对应的深度信息。即，第二样本数据对包括第二尺寸的图像。第二样本数据对可以从公共数据集中获取；或者，也可以直接由第一样本数据对生成，但不限于此。示例性的，可将第一样本数据对包括的第一尺寸的第一样本图像缩小至第二尺寸，以作为第二尺寸的第二样本图像；将对应的第一尺寸的第一参考深度图像缩小至第二尺寸，以作为第二尺寸的第二参考深度图像。

在获得第二样本数据对之后，电子设备通过待训练的一级网络对第二尺寸的第二样本图像的深度信息进行估计，得到第二尺寸的第三预测深度图像。根据第三预测深度图像，第二尺寸的第二参考深度图像确定一级网络的目标损失。根据一级网络的目标损失调整待训练的一级网络的参数，以得到训练好的一级网络。电子设备计算一级网络的目标损失，并根据一级网络的目标损失调整待训练的一级网络中的参数的实施方式与前述步骤640至步骤650中计算二级网络的目标损失，并根据二级网络的目标损失调整待训练的二级网络中的参数的实施方式类似，以下内容不再赘述。

在前述实施例中，通过对一级网络和二级网络分别进行单独训练，有利于提高深度估计模型包括的单个网络在深度估计任务上的准确性。示例性的，当执行图像深度估计方法的电子设备的计算能力有限，或者当前应用场景对深度估计结果的准确性要求较低时，可将一级网络输出的深度估计结果，即第二尺寸的第一深度图像作为最终的深度估计结果。此时，若一级网络是单独训练得到的，则一级网络输出的深度估计结果可保持较高的准确性。

在一个实施例中，电子设备也可对一级网络和二级网络进行联合训练。在联合训练时，在前述的步骤620中，电子设备通过待训练的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。为了更好地说明联合训练的流程。请参阅图7，图7是本申请实施例公开的另一种深度估计模型的训练方法的流程示意图。如图7所示，该方法可包括以下步骤：

710、将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像。

720、通过待训练的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。

在本申请实施例中，步骤710-步骤720的实施方式可参见前述实施例，以下内容不再赘述。

730、将与第一尺寸的第一样本图像对应的第一尺寸的第一参考图像缩小至第二尺寸，得到第二尺寸的第一参考图像。

在本申请实施例中，电子设备可通过插值算法、卷积等方式将第一参考深度图像D的尺寸从第一尺寸缩小至第二尺寸，以得到第二尺寸的第一参考图像Dd，具体不做限定。

740、根据第二尺寸的第一预测深度图像，以及第二尺寸的第一参考深度图像确定一级网络的目标损失。

在本申请实施例中，电子设备可计算第一预测深度图像Pd1和第二尺寸的第一参考深度图像Dd之间的L1损失、L2损失或者SSIM损失作为一级网络的目标损失，但不限于此。

750、通过待训练的二级网络对第一尺寸的第一样本图像和第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像。

760、根据第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失。

770、根据一级网络的目标损失和二级网络的目标损失确定深度估计模型的总损失。

在本申请实施例中，电子设备可计算一级网络的目标损失和二级网络的目标损失的加权和作为深度估计模型的总损失，但不限于此。

780、根据深度估计模型的总损失分别对待训练的一级网络和待训练的二级网络中的参数进行调整。

在本申请实施例中，电子设备可将总损失反馈至一级网络和二级网络，以根据总损失对一级网络和二级网络中的参数进行进行调整，调整的方式可包括但不限于梯度下降更新。与单独训练不同的是，联合训练时一级网络和二级网络的参数调整均是以总损失为参考，训练的目标是调整一级网络和二级网络中的参数，以使总损失满足损失期望。例如，调整一级网络和二级网络中的参数，以使总损失低于损失阈值。因此，联合训练可使深度估计模型在整体上达到较高的深度估计准确性，使得深度估计模型在处理大尺寸图像的深度估计时，也可以得到较为准确的深度估计结果。

需要说明的是，在前述实施例公开的深度估计模型的训练方法中，步骤630和步骤750通过待训练的二级网络对第一尺寸的第一样本图像和第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像的实施方式与前述实施例公开的图像深度估计方法中，通过训练好的深度估计模型的二级网络对第一尺寸的目标图像和第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像的实施方式类似。以下内容进行简要说明。

在一个实施例中，电子设备可通过待训练的二级网络提取第一尺寸的第一样本图像的图像特征；以及，通过待训练的二级网络根据图像特征对第二尺寸的第一预测深度图像进行一次或多次放大操作，以得到第一尺寸的第二预测深度图像。

在一个实施例中，电子设备可通过待训练的二级网络提取第一尺寸的第一样本图像的图像特征，得到第一尺寸的训练特征图，并对训练特征图进行一次或多次缩小处理，得到一帧或多帧缩小训练特征图。以及，

电子设备可通过待训练的二级网络基于一帧或多帧缩小训练特征图对第二尺寸的第一预测深度图像进行一次或多次放大处理，得到第一尺寸的放大预测深度图像，并根据第一尺寸的放大预测深度图像和第一尺寸的训练特征图生成第一尺寸的第二预测深度图像。

在一个实施例中，待训练的二级网络可如图3所示。电子设备对训练特征图进行一次或多次缩小处理，得到一帧或多帧缩小训练特征图的实施方式可包括：

电子设备依次使用M个下采样模块连续对训练特征图进行M次下采样，以得到M个下采样模块分别输出的M帧的缩小训练特征图，其中，第M个下采样模块输出的缩小训练特征图为第二尺寸，第N个下采样模块输出的缩小训练特征图的尺寸与第N+1个下采样模块输出的缩小训练特征图的尺寸的比值为第一比值，N为大于或等于1，且小于M的正整数。

以及，电子设备通过待训练的二级网络基于一帧或多帧缩小训练特征图对第二尺寸的第一预测深度图像进行一次或多次放大处理，得到第一尺寸的放大预测深度图像的实施方式可包括：

电子设备将第二尺寸的第一预测深度图像输入第一个上采样模块，基于M帧的缩小训练特征图，依次使用M个上采样模块连续对第一预测深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大预测深度图像。

其中，上述的基于M帧的缩小训练特征图，依次使用M个上采样模块连续对第一预测深度图像进行M次上采样，可包括：

在第一个上采样模块对第一预测深度图像进行上采样时，将第一预测深度图像与第M个下采样模块输出的第二尺寸的缩小训练特征图进行融合，以得到第一个上采样模块输出的放大预测深度图像；

在第Y个上采样模块对第Y-1个上采样模块输出的放大预测深度图像进行上采样时，将第Y-1个上采样模块输出的放大预测深度图像与相同尺寸的缩小训练特征图进行融合，得到第Y个上采样模块输出的放大预测深度图像；第Y个上采样模块输出的放大预测深度图像的尺寸与第Y-1个上采样模块输出的放大预测深度图像的尺寸的比值为第一比值，Y为大于或等于2，且小于或等于M的正整数。

在一个实施例中，电子设备在二级网络中根据第一尺寸的放大预测深度图像和第一尺寸的训练特征图生成第一尺寸的第二预测深度图像的实施方式，可包括：

对第一尺寸的放大预测深度图像包括的深度信息和第一尺寸的训练特征图中的图像特征进行融合，得到第一尺寸的融合深度预测图像；对第一尺寸的融合深度预测图像中的图像特征进行特征还原，得到第一尺寸的第二预测深度图像。

前述实施例公开了深度估计模型的训练方法，基于前述的训练方法训练得到的深度估计模型进行图像深度估计，可以提高图像深度估计的时间效率，同时还可以达到较高的深度估计准确性。

请参阅图8，图8是本申请实施例公开的一种图像深度估计装置的结构示意图，该图像深度估计装置可适用于前述实施例中的电子设备。如图8所示，该图像深度估计装置800可包括：缩小模块810、第一处理模块820以及第二处理模块830。

缩小模块810，用于将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像。

第一处理模块820，用于通过深度估计模型的二级网络对第一尺寸的目标图像和第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；第二深度图像包括第一尺寸的目标图像中各个像素点对应的深度信息。

第二处理模块830，用于通过深度估计模型的二级网络对第一尺寸的目标图像和第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；第二深度图像包括第一尺寸的目标图像中各个像素点对应的深度信息。

在一个实施例中，一级网络的网络层数可大于二级网络的网络层数。

在一个实施例中，第二处理模块830，还可用于通过深度估计模型的二级网络提取第一尺寸的目标图像的图像特征；以及，通过二级网络根据图像特征对第二尺寸的第一深度图像进行一次或多次放大处理，以得到第一尺寸的第二深度图像。

在一个实施例中，第二处理模块830，还可用于通过所述深度估计模型的二级网络提取所述第一尺寸的目标图像的图像特征，得到第一尺寸的目标特征图，并对所述目标特征图进行一次或多次缩小处理，得到一帧或多帧缩小特征图；以及，还可用于通过所述二级网络基于一帧或多帧缩小特征图对所述第二尺寸的第一深度图像进行一次或多次放大处理，得到第一尺寸的放大深度图像，并根据所述第一尺寸的放大深度图像和所述第一尺寸的目标特征图生成第一尺寸的第二深度图像。

在一个实施例中，深度估计模型的二级网络可包括：M个下采样模块，以及M个上采样模块，M为大于或等于1的正整数。可选的，M的取值可根据第一尺寸与第二尺寸之间的第二比值，以及下述的第一比值确定。第一比值可为每个上采样模块的输入图像的尺寸与输出图像的尺寸之间的比值。可选的，M个下采样模块中每个下采样模块的采样率，以及所述M个上采样模块中每个上采样模块的采样率可均为第一比值。

第二处理模块830，还可用于依次使用M个下采样模块连续对目标特征图进行M次下采样，以得到M个下采样模块分别输出的M帧缩小特征图，其中，第M个下采样模块输出的缩小特征图为第二尺寸，第N个下采样模块输出的缩小特征图的尺寸与第N+1个下采样模块输出的缩小特征图的尺寸的比值为第一比值，N为大于或等于1，且小于M的正整数；以及，将第二尺寸的第一深度图像输入第一个上采样模块，基于M帧缩小特征图，依次使用M个上采样模块连续对第一深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大深度图像；

其中，在第一个上采样模块对第一深度图像进行上采样时，将第一深度图像与第M个下采样模块输出的第二尺寸的缩小特征图进行融合，以得到第一个上采样模块输出的放大深度图像；在第Y个上采样模块对第Y-1个上采样模块输出的放大深度图像进行上采样时，将第Y-1个上采样模块输出的放大深度图像与相同尺寸的缩小特征图进行融合，得到第Y个上采样模块输出的放大深度图像；第Y个上采样模块输出的放大深度图像的尺寸与第Y-1个上采样模块输出的放大深度图像的尺寸的比值为第一比值，Y为大于或等于2，且小于或等于M的正整数。

以及，第二处理模块830，还可用于根据第一尺寸的放大深度图像和第一尺寸的目标特征图生成第一尺寸的第二深度图像。

在一个实施例中，第二处理模块830，还可用于对第一尺寸的放大深度图像包括的深度信息和第一尺寸的目标特征图中的图像特征进行融合，得到第一尺寸的融合深度图像；以及，对第一尺寸的融合深度图像中的图像特征进行特征还原，得到第一尺寸的第二深度图像。

可见，基于前述实施例公开的图像深度估计装置，可以通过缩小输入的目标图像的尺寸，以减少一级网络的计算量，从而提高深度估计的时间效率。进一步地，通过二级网络在对一级网络输出的第一深度图像进行处理时，加入了原始尺寸的目标图像包括的图像信息，从而可以在提高深度估计时间效率的同时保持了较高的深度估计准确性。

请参阅图9，图9是本申请实施例公开的一种深度估计模型的训练装置的结构示意图，该训练装置可适用于前述实施例中的电子设备，该训练装置训练的深度估计模型至少包括一级网络和二级网络。如图9所示，该训练装置900可包括：图像处理模块910、第一预测模块920、第二预测模块930、损失计算模块940以及参数调整模块950。

图像处理模块910，用于将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像；

第一预测模块920，用于通过一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；

第二预测模块930，用于通过待训练的二级网络对第一尺寸的第一样本图像和第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；

损失计算模块940，用于根据第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失；第一尺寸的第一参考深度图像包括第一尺寸的第一样本图像中各个像素点对应的深度信息；

参数调整模块950，用于根据二级网络的目标损失对待训练的二级网络中的参数进行调整。

在一个实施例中，第一预测模块920还可用于通过训练好的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。以及，在通过训练好的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像之前，通过待训练的一级网络对第二尺寸的第二样本图像的深度信息进行估计，得到第二尺寸的第三预测深度图像。

相应地，上述的损失计算模块940，还可用于根据第三预测深度图像，以及第二尺寸的第二参考深度图像确定一级网络的目标损失。其中，第二尺寸的第二参考深度图像包括第二尺寸的第二样本图像中各个像素点对应的深度信息。

上述的参数调整模块950，还可用于根据一级网络的目标损失调整待训练的一级网络的参数，以得到训练好的一级网络。

在一个实施例中，第一预测模块920还可用于通过待训练的一级网络估计第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。

上述的损失计算模块940，还可用于根据第二尺寸的第一预测深度图像，以及第二尺寸的第一参考深度图像确定一级网络的目标损失；第二尺寸的第一参考深度图像是对第一尺寸的第一参考深度图像进行缩小后得到的。以及，

损失计算模块940，还可用于根据一级网络的目标损失和二级网络的目标损失确定深度估计模型的总损失。

上述的参数调整模块950，还可用于根据总损失分别对待训练的一级网络和待训练的二级网络中的参数进行调整。

在一个实施例中，上述的第二预测模块930，还可用于通过待训练的二级网络提取第一尺寸的第一样本图像的图像特征；以及，通过待训练的二级网络根据图像特征对第二尺寸的第一预测深度图像进行一次或多次放大操作，以得到第一尺寸的第二预测深度图像。

在一个实施例中，上述的第二预测模块930，还可用于通过待训练的二级网络提取所述第一尺寸的第一样本图像的图像特征，得到第一尺寸的训练特征图，并对所述训练特征图进行一次或多次缩小处理，得到一帧或多帧缩小训练特征图；以及，

还可用于通过所述待训练的二级网络基于一帧或多帧缩小训练特征图对所述第二尺寸的第一预测深度图像进行一次或多次放大处理，得到第一尺寸的放大预测深度图像，并根据所述第一尺寸的放大预测深度图像和所述第一尺寸的训练特征图生成第一尺寸的第二预测深度图像。

上述的第二预测模块930，还可用于依次使用M个下采样模块连续对训练特征图进行M次下采样，以得到M个下采样模块分别输出的M帧的缩小训练特征图，其中，第M个下采样模块输出的缩小训练特征图为第二尺寸，第N个下采样模块输出的缩小训练特征图的尺寸与第N+1个下采样模块输出的缩小训练特征图的尺寸的比值为第一比值，N为大于或等于1，且小于M的正整数；以及，

将第二尺寸的第一预测深度图像输入第一个上采样模块，基于M帧的缩小训练特征图，依次使用M个上采样模块连续对第一预测深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大预测深度图像。

其中，在第一个上采样模块对第一预测深度图像进行上采样时，将第一预测深度图像与第M个下采样模块输出的第二尺寸的缩小训练特征图进行融合，以得到第一个上采样模块输出的放大预测深度图像；

以及，上述的第二预测模块930，还可用于根据第一尺寸的放大预测深度图像和第一尺寸的训练特征图生成第一尺寸的第二预测深度图像。

在一个实施例中，上述的第二预测模块930，还可用于对第一尺寸的放大预测深度图像包括的深度信息和第一尺寸的训练特征图中的图像特征进行融合，得到第一尺寸的融合深度预测图像；以及，对第一尺寸的融合深度预测图像中的图像特征进行特征还原，得到第一尺寸的第二预测深度图像。

基于前述实施例公开的深度估计模型的训练装置，可以训练得到兼顾深度估计的时间效率和估计准确性的深度估计模型。

请参阅图10，图10是本申请实施例公开的一种电子设备的结构示意图。如图10所示，该电子设备可以包括：存储有可执行程序代码的存储器1010；与存储器1010耦合的处理器1020；

其中，处理器1020调用存储器1010中存储的可执行程序代码，执行本申请实施例公开的任意一种图像深度估计方法。

本申请实施例公开的另一种电子设备，该电子设备包括存储器及处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器实现本申请实施例公开的任意一种深度估计模型的训练方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序被处理器执行时实现本申请实施例公开的任意一种图像深度估计方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序被处理器执行时实现本申请实施例公开的任意一种深度估计模型的训练方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的任意一种图像深度估计方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的任意一种深度估计模型的训练方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种图像深度估计方法、装置、电子设备及计算机存储介质，以及一种深度估计模型的训练方法、装置、电子设备及计算机存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像深度估计方法，其特征在于，所述方法包括：

将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像；

通过深度估计模型的一级网络估计所述第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像，所述第一深度图像包括所述第二尺寸的目标图像中各个像素点对应的深度信息；所述一级网络的网络层数大于所述二级网络的网络层数；

通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；所述第二深度图像包括所述第一尺寸的目标图像中各个像素点对应的深度信息。

2.根据权利要求1所述的方法，其特征在于，所述通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像，包括：

通过所述深度估计模型的二级网络提取所述第一尺寸的目标图像的图像特征；

通过所述二级网络根据所述图像特征对所述第二尺寸的第一深度图像进行一次或多次放大处理，以得到第一尺寸的第二深度图像。

3.根据权利要求2所述的方法，其特征在于，所述通过所述深度估计模型的二级网络提取所述第一尺寸的目标图像的图像特征，包括：

通过所述深度估计模型的二级网络提取所述第一尺寸的目标图像的图像特征，得到第一尺寸的目标特征图，并对所述目标特征图进行一次或多次缩小处理，得到一帧或多帧缩小特征图；

以及，所述通过所述二级网络根据所述图像特征对所述第二尺寸的第一深度图像进行一次或多次放大处理，以得到第一尺寸的第二深度图像，包括：

通过所述二级网络基于一帧或多帧缩小特征图对所述第二尺寸的第一深度图像进行一次或多次放大处理，得到第一尺寸的放大深度图像，并根据所述第一尺寸的放大深度图像和所述第一尺寸的目标特征图生成第一尺寸的第二深度图像。

4.根据权利要求3所述的方法，其特征在于，所述二级网络至少包括：M个下采样模块，以及M个上采样模块，M为大于或等于1的正整数；

所述对所述目标特征图进行一次或多次缩小处理，得到一帧或多帧缩小特征图，包括：

依次使用所述M个下采样模块连续对所述目标特征图进行M次下采样，以得到所述M个下采样模块分别输出的M帧缩小特征图；

所述通过所述二级网络基于一帧或多帧缩小特征图对所述第二尺寸的第一深度图像进行一次或多次放大处理，以得到第一尺寸的放大深度图像，包括：

将所述第二尺寸的第一深度图像输入第一个上采样模块，基于所述M帧缩小特征图，依次使用所述M个上采样模块连续对所述第一深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大深度图像。

5.根据权利要求4所述的方法，其特征在于，所述基于所述M帧缩小特征图，依次使用所述M个上采样模块连续对所述第一深度图像进行M次上采样，包括：

在所述第一个上采样模块对所述第一深度图像进行上采样时，将所述第一深度图像与所述第M个下采样模块输出的第二尺寸的缩小特征图进行融合，以得到所述第一个上采样模块输出的放大深度图像；

在第Y个上采样模块对第Y-1个上采样模块输出的放大深度图像进行上采样时，将所述第Y-1个上采样模块输出的放大深度图像与相同尺寸的缩小特征图进行融合，得到所述第Y个上采样模块输出的放大深度图像；所述Y为大于或等于2，且小于或等于所述M的正整数。

6.根据权利要求4所述的方法，其特征在于，所述M个下采样模块中每个下采样模块的采样率，以及所述M个上采样模块中每个上采样模块的采样率均为第一比值。

7.根据权利要求6所述的方法，其特征在于，M的取值是根据第一尺寸与第二尺寸之间的第二比值和所述第一比值确定的。

8.根据权利要求3所述的方法，其特征在于，所述根据所述第一尺寸的放大深度图像和所述第一尺寸的目标特征图生成第一尺寸的第二深度图像，包括：

将所述第一尺寸的放大深度图像包括的深度信息和所述第一尺寸的目标特征图中的图像特征进行融合，得到第一尺寸的融合深度图像；

对所述第一尺寸的融合深度图像中的图像特征进行特征还原，得到第一尺寸的第二深度图像。

9.根据权利要求1所述的方法，其特征在于，在所述将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像之前，所述方法还包括：

将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像；

通过深度估计模型中的一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；所述第一预测深度图像包括所述第二尺寸的第一样本图像中各个像素点对应的深度信息；

通过所述深度估计模型中待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；

根据所述第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失；所述第一尺寸的第一参考深度图像包括所述第一尺寸的第一样本图像中各个像素点对应的深度信息；

根据所述二级网络的目标损失对所述待训练的二级网络中的参数进行调整。

10.一种深度估计模型的训练方法，其特征在于，所述深度估计模型至少包括：一级网络和二级网络；所述一级网络的网络层数大于所述二级网络的网络层数；所述方法包括：

通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；所述第一预测深度图像包括所述第二尺寸的第一样本图像中各个像素点对应的深度信息；

通过待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；

11.根据权利要求10所述的方法，其特征在于，在所述通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像之前，所述方法还包括：

通过待训练的一级网络对第二尺寸的第二样本图像的深度信息进行估计，得到第二尺寸的第三预测深度图像；

根据所述第三预测深度图像，以及第二尺寸的第二参考深度图像确定所述一级网络的目标损失，并根据所述一级网络的目标损失调整所述待训练的一级网络的参数，以得到训练好的一级网络；所述第二尺寸的第二参考深度图像包括所述第二尺寸的第二样本图像中各个像素点对应的深度信息；

以及，所述通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像，包括：

通过所述训练好的一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像。

12.根据权利要求10所述的方法，其特征在于，所述通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像，包括：

通过待训练的一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；

在得到所述第二尺寸的第一预测深度图像之后，所述方法还包括：

根据所述第二尺寸的第一预测深度图像，以及第二尺寸的第一参考深度图像确定所述一级网络的目标损失；所述第二尺寸的第一参考深度图像是对第一尺寸的第一参考深度图像进行缩小后得到的；

以及，所述根据所述二级网络的目标损失对待训练的二级网络中的参数进行调整，包括：

根据所述一级网络的目标损失和所述二级网络的目标损失确定所述深度估计模型的总损失，并根据所述总损失分别对待训练的一级网络和待训练的二级网络中的参数进行调整。

13.根据权利要求10-12任一项所述的方法，其特征在于，所述通过待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像，包括：

通过待训练的二级网络提取所述第一尺寸的第一样本图像的图像特征；

通过所述待训练的二级网络根据所述图像特征对所述第二尺寸的第一预测深度图像进行一次或多次放大处理，以得到第一尺寸的第二预测深度图像。

14.根据权利要求13所述的方法，其特征在于，所述通过待训练的二级网络提取所述第一尺寸的第一样本图像的图像特征，包括：

通过待训练的二级网络提取所述第一尺寸的第一样本图像的图像特征，得到第一尺寸的训练特征图，并对所述训练特征图进行一次或多次缩小处理，得到一帧或多帧缩小训练特征图；

以及，所述通过所述待训练的二级网络根据所述图像特征对所述第二尺寸的第一预测深度图像进行一次或多次放大处理，以得到第一尺寸的第二预测深度图像，包括：

通过所述待训练的二级网络基于一帧或多帧缩小训练特征图对所述第二尺寸的第一预测深度图像进行一次或多次放大处理，得到第一尺寸的放大预测深度图像，并根据所述第一尺寸的放大预测深度图像和所述第一尺寸的训练特征图生成第一尺寸的第二预测深度图像。

15.根据权利要求14所述的方法，其特征在于，所述待训练的二级网络至少包括：M个下采样模块，以及M个上采样模块，M为大于或等于1的正整数；

所述对所述训练特征图进行一次或多次缩小处理，得到一帧或多帧缩小训练特征图，包括：

依次使用所述M个下采样模块连续对所述训练特征图进行M次下采样，以得到所述M个下采样模块分别输出的M帧的缩小训练特征图；

所述通过所述待训练的二级网络基于一帧或多帧缩小训练特征图对所述第二尺寸的第一预测深度图像进行一次或多次放大处理，得到第一尺寸的放大预测深度图像，包括：

将所述第二尺寸的第一预测深度图像输入第一个上采样模块，基于所述M帧的缩小训练特征图，依次使用所述M个上采样模块连续对所述第一预测深度图像进行M次上采样，以得到第M个上采样模块输出的第一尺寸的放大预测深度图像。

16.根据权利要求15所述的方法，其特征在于，所述基于所述M帧的缩小训练特征图，依次使用所述M个上采样模块连续对所述第一预测深度图像进行M次上采样，包括：

在所述第一个上采样模块对所述第一预测深度图像进行上采样时，将所述第一预测深度图像与所述第M个下采样模块输出的第二尺寸的缩小训练特征图进行融合，以得到所述第一个上采样模块输出的放大预测深度图像；

在第Y个上采样模块对第Y-1个上采样模块输出的放大预测深度图像进行上采样时，将所述第Y-1个上采样模块输出的放大预测深度图像与相同尺寸的缩小训练特征图进行融合，得到所述第Y个上采样模块输出的放大预测深度图像；所述Y为大于或等于2，且小于或等于所述M的正整数。

17.根据权利要求14所述的方法，其特征在于，所述根据所述第一尺寸的放大预测深度图像和所述第一尺寸的训练特征图生成第一尺寸的第二预测深度图像，包括：

对所述第一尺寸的放大预测深度图像包括的深度信息和所述第一尺寸的训练特征图中的图像特征进行融合，得到第一尺寸的融合深度预测图像；

对所述第一尺寸的融合深度预测图像中的图像特征进行特征还原，得到第一尺寸的第二预测深度图像。

18.一种图像深度估计装置，其特征在于，包括：

缩小模块，用于将第一尺寸的目标图像缩小至第二尺寸，得到第二尺寸的目标图像；

第一处理模块，用于通过深度估计模型的一级网络估计所述第二尺寸的目标图像的深度信息，得到第二尺寸的第一深度图像；所述一级网络的网络层数大于所述二级网络的网络层数；

第二处理模块，用于通过所述深度估计模型的二级网络对所述第一尺寸的目标图像和所述第二尺寸的第一深度图像进行处理，得到第一尺寸的第二深度图像；所述第二深度图像包括所述第一尺寸的目标图像中各个像素点对应的深度信息。

19.一种深度估计模型的训练装置，其特征在于，所述深度估计模型至少包括：一级网络和二级网络；所述一级网络的网络层数大于所述二级网络的网络层数；所述训练装置包括：

图像处理模块，用于将第一尺寸的第一样本图像缩小至第二尺寸，得到第二尺寸的第一样本图像；

第一预测模块，用于通过一级网络估计所述第二尺寸的第一样本图像的深度信息，得到第二尺寸的第一预测深度图像；

第二预测模块，用于通过待训练的二级网络对所述第一尺寸的第一样本图像和所述第二尺寸的第一预测深度图像进行处理，得到第一尺寸的第二预测深度图像；

损失计算模块，用于根据所述第一尺寸的第二预测深度图像，以及第一尺寸的第一参考深度图像确定二级网络的目标损失；所述第一尺寸的第一参考深度图像包括所述第一尺寸的第一样本图像中各个像素点对应的深度信息；

参数调整模块，用于根据所述二级网络的目标损失对所述待训练的二级网络中的参数进行调整。

20.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1至17任一项所述的方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的方法。