CN115049717B

CN115049717B - 一种深度估计方法及装置

Info

Publication number: CN115049717B
Application number: CN202210975505.4A
Authority: CN
Inventors: 张雨帆
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2023-01-06
Anticipated expiration: 2042-08-15
Also published as: CN115049717A

Abstract

本申请实施例提供一种深度估计方法及装置。涉及人工智能领域，具体涉及计算机视觉领域。该方法包括：获取输入图像；将该输入图像输入深度估计模型，得到第一深度值集合；其中，该第一深度值集合中的深度值与输入图像的像素一一对应，该第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，该第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，该第二范围为第一深度空间中除第一范围外的其他范围；将该第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集合；其中，该第二深度空间是均匀量化的。本申请能够提升深度估计模型对图像中处在某一深度范围内的物体的估计精度。

Description

一种深度估计方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种深度估计方法及装置。

背景技术

计算机视觉里的深度是指物体离拍摄源（例如相机）的距离，对图像进行深度估计即是指估计该图像中的每个像素相对拍摄源的距离。通常随着物体深度的增加（即该像素对应物体与拍摄源之间距离的递增），对该像素进行深度估计所需要的图像信息会越多。为了避免因图像信息不足而导致深度估计精度下降的问题，通常以对数空间为深度空间来训练深度估计模型，从而提升深度估计模型的准确度。

通过这样的方法得到深度估计模型对图像中所有的像素都是平等对待，但在对该图像中处于某一深度范围内物体的深度估计精度有较高需求的情况下，通过这样的深度估计模型将不能满足该需求。例如，在移动端（例如手机）通过增强现实（Augmented Reality，AR）技术在近距离建立虚拟物体的业务场景中，首先需要对近距离真实物体（例如距离拍摄源7m内的物体）进行深度估计，才能保证建立的虚拟物体能与近距离真实物体之间具有正确的遮挡关系。在此场景中，若深度估计模型对近距离真实物体的深度估计精度较低，则可能导致创建的虚拟物体与近距离真实物体的遮挡关系发生错误。

可见，如何提升深度估计模型在图像中处于某一深度范围内物体的估计精度，是一个亟待解决的问题。

发明内容

本申请提供一种深度估计方法及装置，可提升深度估计模型对图像中处于某一深度范围内的物体的估计精度。应理解，本申请实施例所提供的方法可以由深度估计装置执行。该深度估计装置可以是终端设备，也可以是该终端设备中的部分器件，例如应用于终端设备中的芯片、处理器等，也可以是服务器，例如本地服务器或云端服务器等，也可以是服务器中的部分器件，例如应用于服务器中的芯片、处理器等，在此不做限制。

第一方面，本申请提供了一种深度估计方法，该方法包括：获取输入图像；将该输入图像输入深度估计模型，得到第一深度值集合；其中，该第一深度值集合中的深度值与输入图像的像素一一对应，该第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，该第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，该第二范围为第一深度空间中出第一范围外的其他范围；将该第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集合；其中，该第二深度空间是均匀量化的。

基于第一方面所提供的方法，本申请所提供的深度估计模型是以第一深度空间为基础对图像中各个像素的深度进行估计的，由于在第一深度空间内更关注第一范围（即期待关注的范围）的图像信息，因此本申请所提供的深度估计模型能提升第一范围（即期待关注的范围）内的深度估计准确度。进一步地，将该深度估计模型的估计结果映射回绝对深度空间（即本申请中的第二深度空间）后，依然可以保证对该输入图像中第一范围内像素的深度估计准确度。

在一种可能的实施方式中，获取训练图像和训练图像对应的训练深度值集合，该训练深度值集合中的深度值与训练图像的像素一一对应，该训练深度值集合中的深度值用于指示对应像素在第二深度空间中的深度。进一步地，将训练深度值集合中的深度值映射于第一深度空间，得到训练图像对应的标签深度值集合，标签深度值集合中的深度值与训练图像的像素一一对应，标签深度值集合中的深度值用于指示对应像素在第一深度空间中的深度；并基于训练图像和标签深度值集合，得到深度估计模型。

通过这样的方法，可以基于更关注第一范围（即期待关注的范围）内图像信息的深度空间训练深度估计模型，从而提升深度估计模型在该第一范围内的估计准确度。

在一种可能的实施方式中，基于第一非线性函数，将训练深度值集合中的深度值映射于第一深度空间。

在一种可能的实施方式中，基于第二函数，将第一深度值集合中的深度值映射于第二深度空间；其中，该第二函数为第一非线性函数的反函数。

在一种可能的实施方式中，第一非线性函数属于S型函数。通过这样的方法，可以利用S型函数中函数的特性，放大第一深度空间中第一范围（即期待关注的范围）内的图像信息，从而使得该深度估计模型可以更关注第一范围（即期待关注的范围），提升了该深度估计模型在该第一范围内的估计准确度。

第二方面，本申请提供了一种深度估计装置，该装置包括：收发单元，用于获取输入图像；处理单元，用于将该输入图像输入深度估计模型，得到第一深度值集合；其中，该第一深度值集合中的深度值与输入图像的像素一一对应，该第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，该第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，该第二范围为第一深度空间中出第一范围外的其他范围；该处理单元，还用于将该第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集；其中，该第二深度空间是均匀量化的。

其中，通过第二方面所提供的装置所达到的有益效果可参见前述第一方面所提供的方法所对应的有益效果，在此不再进行详细描述。

结合第二方面，在一种可能的实施方式中，收发单元，还用于获取训练图像和训练图像对应的训练深度值集合，该训练深度值集合中的深度值与训练图像的像素一一对应，该训练深度值集合中的深度值用于指示对应像素在第二深度空间中的深度。处理单元，还用于将训练深度值集合中的深度值映射于第一深度空间，得到训练图像对应的标签深度值集合，标签深度值集合中的深度值与训练图像的像素一一对应，标签深度值集合中的深度值用于指示对应像素在第一深度空间中的深度；并基于训练图像和标签深度值集合，得到深度估计模型。

结合第二方面，在一种可能的实施方式中，处理单元，还用于基于第一非线性函数，将训练深度值集合中的深度值映射于第一深度空间。

结合第二方面，在一种可能的实施方式中，处理单元，还用于基于第二函数，将第一深度值集合中的深度值映射于第二深度空间；其中，该第二函数为第一非线性函数的反函数。

结合第二方面，在一种可能的实施方式中，第一非线性函数属于S型函数。

第三方面，本申请实施例提供了一种深度估计装置，该装置包括处理器，当处理器调用存储器中的计算机程序时，如第一方面所述的方法被执行，因此也能实现第一方面提供的方法所具备的有益效果。

第四方面，本申请实施例提供了一种深度估计装置，该装置包括处理器和存储器，处理器和存储器耦合；处理器用于实现如第一方面所述的方法，因此也能实现第一方面提供的方法所具备的有益效果。

第五方面，本申请实施例提供了一种深度估计装置，该装置包括处理器、存储器和收发器，处理器和存储器耦合；收发器用于收发数据，处理器用于实现如第一方面所述的方法，因此也能实现第一方面提供的方法所具备的有益效果。

第六方面，本申请实施例提供了一种深度估计装置，该装置包括处理器和接口，该接口用于接收或输出信号，处理器用于实现如第一方面所述的方法，因此也能实现第一方面提供的方法所具备的有益效果。

第七方面，本申请实施例提供了一种芯片（或一组芯片系统），该芯片（或芯片系统）包括处理器与数据接口，该处理器通过数据接口读取存储器上存储的指令，执行第一方面中的方法。

可选地，作为一种实现方式，所述芯片（或芯片系统）还可以包括存储器，该存储器中存储有指令，处理器用于执行该存储器上存储的指令，当指令被执行时，该处理器用于执行第一方面中的方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在终端上运行时，使得终端执行上述第一方面和/或第一方面中任意一种可能的实现方式所提供的深度估计方法，也能实现第一方面提供的方法所具备的有益效果。

第九方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在设备上运行时，使得设备执行上述第一方面提供的方法，能实现第一方面提供的方法所具备的有益效果。

第十方面，提供一种计算机设备，该计算机设备包括上述第二方面至第六方面中的任意一个方面中的深度估计装置。

附图说明

图1是本申请提供的系统架构的结构示意图；

图2是本申请提供的一种深度估计方法的流程示意图；

图3是本申请提供的一种深度估计模型训练方法的流程示意图；

图4是本申请提供的深度估计装置的一结构示意图；

图5是本申请提供的深度估计装置的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供的深度估计方法能够应用在图片分析以及需要对图像中的内容进行三维重建、场景理解、深度感知、图像合成等场景，或者，应用在人机交互、自动驾驶、平安城市、智能家居、AR技术应用场景（例如AR显示、AR交互、虚拟物体合成等场景）等需要对图像场景进行识别或理解的场景。具体而言，本申请实施例的深度估计方法能够应用在AR技术应用场景中，下面以AR技术应用场景中的虚拟物体合成为例进行简单的介绍。

AR技术是一种将虚拟世界和真实世界巧妙集成的技术，是将通过计算机技术生成的虚拟世界与真实世界实时叠加到同一个画面或空间中显示，虚拟世界的信息和真实世界的信息互相补充，从而带来超越现实的感官体验。以AR技术应用场景中的虚拟物体合成为例，其过程可以简单描述为：获取真实环境图像；利用深度估计模型对该真实环境图像中的每个像素进行深度估计，得到该真实环境图像对应的深度图（也可理解为深度值集合），该深度图中的深度值与真实环境图像中的像素一一对应，该深度值用于指示对应像素的深度；根据该深度图，确定虚拟物体在该真实环境图像中的位置（包括但不限于确定虚拟物体的各个像素与该真实环境图像中各个像素的遮挡关系）；根据虚拟物体在该真实环境图像中的位置，在该真实环境图像中创建（或合成）虚拟物体。

可见，在AR技术的应用场景中，对图像进行深度估计的技术是基础技术之一，对图像进行深度估计的准确度会直接影响到后续虚拟世界与真实世界融合效果，若对真实环境图像的深度估计结果不准确，则可能导致虚拟物体与该真实物体之间的遮挡关系错乱(例如本想摆放在桌面上的虚拟杯子，却是镶嵌在了桌面里。通过本申请中所提供的深度估计方法，可以提升对图像深度估计结果的准确度，从而提升虚拟世界与真实世界融合效果。

需要说明的是，为方便描述，以下本申请皆以AR技术应用场景中虚拟物体合成为例进行说明，即以AR技术应用场景中虚拟物体合成中的深度估计模型的训练方法为例进行说明，并不能视为对本申请的具体限定。为了更好地理解本申请所提供的方案，下面先对本申请的系统架构进行介绍。

请参见图1，图1为本申请提供的一种系统架构100。如该系统架构100所示，该系统包括数据采集设备110、数据库120、训练设备130、执行设备140、数据存储系统150和客户设备160。其中：

数据采集设备110，用于采集训练数据，本申请实施例中的训练数据包括环境图像（例如街景图、教室场景图、寝室图像等）；并将训练数据存入数据库120中。

数据库120，用于存储与数据库120具有通信连接的数据采集设备110采集的数据，或者存储除数据库120之外的其他设备（例如云端或其他服务器）分享的数据。

训练设备130，用于根据数据库120中的数据训练得到目标模型/规则，该目标模型/规则能够实现本申请实施例提供的深度估计方法，即可以理解为，后续将本申请所提及的输入图像通过深度估计相关预处理（例如图像归一化等预处理）后，输入该目标模型/规则，即可得到该输入图像对应的深度估计结果。

需要说明的是，通过该训练设备130得到的目标模型/规则可以为深度估计模型（或深度估计网络），在本申请所提供的实施例中，该深度估计模型可以通过训练神经网络、卷积神经网络、深度神经网络、循环神经网络或生成式对抗网络中的一种或多种组合或变形得到。还需要说明的是，训练设备130不一定完全基于数据库120中的数据进行目标模型/规则的训练，也可能从云端或其他设备获取数据进行模型训练，上述描述不应该视为对本申请实施例的限定。又一个需要说明的是，训练设备130可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则，该相应的目标模型/规则即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。又一个需要说明的是，根据训练设备130得到的目标模型/规则可以应用于不同的系统或设备中，如应用于图1所示的执行设备140，在这种情况下，该训练设备130还用于向执行设备140发送该深度估计模型/规则，以使得执行设备140可以通过该目标模型/规则对输入图像进行深度估计。

执行设备140，用于根据目标模型/规则对输入图像进行深度估计。需要说明的是，该执行设备140可以是终端，如手机终端，平板电脑，笔记本电脑，AR设备/虚拟现实（VirtualReality，VR）设备，车载终端等，还可以是服务器或者云端等。下面对执行设备进行深度估计的执行过程进行示例性讲解。

例如，该执行设备140可以配置有I/O接口、预处理模块。其中，该I/O接口用于与外部设备进行数据交互，用户可以通过客户设备160向执行设备140的I/O接口输入数据，所述输入数据在本申请实施例中可以包括环境图像，具体可以是执行设备140获取的用户输入的环境图像，其他设备实时采集到的环境图像或数据库中的环境图像等。该预处理模块用于根据I/O接口接收到的输入数据（如环境图像）进行预处理，在本申请实施例中，预处理包括但不限于用于对该真实环境图像进行灰度处理、剪裁处理或归一化处理中的一种或多种。在执行设备140对输入数据进行预处理，或者在执行设备140的目标模型/规则执行计算等相关的处理过程中，执行设备140可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。最后，I/O接口将处理结果，如上述得到深度估计结果返回给客户设备160。

在附图1中所示情况下，用户可以手动给定输入数据（即环境图像），该手动给定可以通过执行设备140的I/O接口提供的界面进行操作。另一种情况下，客户设备160可以自动地向执行设备140的I/O接口发送输入数据，如果要求客户设备160自动发送输入数据需要获得用户的授权，则用户可以在客户设备160中设置相应权限。用户可以在客户设备160查看执行设备140输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备160也可以作为数据采集端，采集如图所示输入I/O接口的输入数据及输出I/O接口的输出结果作为新的样本数据，并存入数据库120。当然，也可以不经过客户设备160进行采集，而是由I/O接口直接将输入I/O接口的输入数据及输出I/O接口的输出结果，作为新的样本数据存入数据库120。

值得注意的是，附图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备140是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备140中。

本申请实施例提供的方法和装置还可以用于扩充训练数据库，如图1所示执行设备140的I/O接口可以将经执行设备140处理环境图像后得到的结果和用户输入的环境图像一起作为训练数据对发送给数据库120，以使得数据库120维护的训练数据更加丰富，从而为训练设备130的训练工作提供更丰富的训练数据。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面再对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

1、神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以如公式（1）所示：

（1）

其中，s=1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数（activation functions），用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

2、深度神经网络

DNN也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

，其中，x是输入向量，y是输出向量，b是偏移向量，W是权重矩阵（也称系数），

是激活函数。每一层仅仅是对输入向量x经过如此简单的操作得到输出向量y。由于DNN层数多，系数W和偏移向量b的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

。上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L−1层的第k个神经元到第L层的第j个神经元的系数定义为

。

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵（由很多层的向量W形成的权重矩阵）。

3、卷积神经网络（convolutional neuron network，CNN）

CNN是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

4、循环神经网络（recurrent neural networks，RNN）

在现实世界中，很多元素都是有序的、相互连接的，为了让机器像人一样拥有记忆的能力，会根据上下文的内容进行推断，RNN就应运而生了。

RNN是用来处理序列数据的，即一个序列当前的输出与前面的输出也有关，即RNN的输出就需要依赖当前的输入信息和历史的记忆信息。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数（如W）是共享的；而如上举例上述的传统神经网络却不是这样。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法（back propagation through time，BPTT)。

5、生成式对抗网络

生成式对抗网络（generative adversarial networks，GAN）是一种深度学习模型。该模型中至少包括两个模块：一个模块是生成模型（Generative Model），另一个模块是判别模型（Discriminative Model），通过这两个模块互相博弈学习，从而产生更好的输出。生成模型和判别模型都可以是神经网络，具体可以是深度神经网络，或者卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G（Generator）和D（Discriminator），其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就代表100%是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z)) = 0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

6、损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量（当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数），比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数（loss function）或目标函数（objective function），它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值（loss）越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

7、反向传播算法

卷积神经网络可以采用误差反向传播（back propagation，BP）算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

8、像素值

图像的像素值可以是一个红绿蓝（RGB）颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

通常深度估计模型对图像中所有的像素都是平等对待，但在对该图像中处于某一深度范围内物体的深度估计精度有较高需求的情况下，通过这样的深度估计模型将不能满足该需求。

为了满足深度估计模型的应用需求，本申请提供一种深度估计方法，可以提升深度估计模型对图像中处于某一深度范围内物体的估计精度。

下面将结合图2，对本申请中的技术方案进行详细描述。请参见图2，图2是本申请实施例提供的一种深度估计方法的流程示意图。可以理解的是，本申请提供的深度估计方法可由终端设备，或终端设备中的芯片或服务器中的芯片等执行，在此不做限制。为方便描述，以下本申请实施例以终端设备为例进行说明。如图2所示，上述深度估计方法可以包括如下步骤：

S201、获取输入图像。

终端设备通过与其具有通信连接的成像装置（如该终端设备自身的摄像头等）实时采集输入图像，或者终端设备从其具有访问权限的数据库（如终端设备的存储器等）中获取输入图像。其中，该输入图像可以是真实环境图像。

S202、将该输入图像输入深度估计模型，得到第一深度值集合。

换言之，终端设备根据深度估计模型对该输入图像进行深度估计，得到该输入图像对应的第一深度值集合。

其中，该第一深度值集合中的深度值与输入图像中的像素一一对应，该第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，该第一深度空间中的第一范围的量化粒度小于第二范围的量化粒度，该第二范围为第一深度空间中除第一范围外的其他范围。

需要知晓的是，本申请所涉及的量化粒度是以某一个衡量标准进行度量的单位。例如，绝对深度空间（或称为真实深度空间）中的值通常用于指示图像中的像素在真实环境中与拍摄点之间的实际距离，可以理解为是均匀量化的。以绝对深度空间为衡量标准，其他的深度空间可以对绝对深度空间的值基于某种映射关系得到，例如需要估计的真实深度空间的深度范围为0-10m，第一深度空间中第一范围为0-90，该第一范围是通过真实深度空间中0m-7m的范围映射得到的，第一深度空间中第二范围为90-100，该第二范围是通过真实深度空间中7m-10m的范围映射得到的。在这种情况下，对于深度估计模型来说，相当于将真实深度空间中0m-7m的深度范围放大约12.86倍，放大至0-90的范围；将真实深度空间中7m-10m的深度范围放大约3.33倍，放大至90-100的范围。以真实深度空间为量化粒度的衡量标准，计算得到第一范围的量化粒度约等于7（即真实深度空间范围0m-7m的跨度）与90（即第一深度空间中第一范围0m-90m的跨度）之间的比值0.078；第一深度空间中第二范围的量化粒度约等于3（即真实深度空间范围7m-10m的跨度）与10（即第一深度空间中第二范围90m-100m的跨度）之间的比值0.3，可见，第一范围的量化粒度小于第二范围的量化粒度。

需要说明的是，本申请所提的深度空间（包括第一深度空间和后文中的第二深度空间）均用于指示深度值的连续空间范围。并且第一深度空间内第二范围的量化粒度可以是均匀的，也可以是非均匀的，本申请对此不进行具体限定。

S203、将第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集合；其中，该第二深度空间是均匀量化的。

可以理解的是，该第二深度空间可以是绝对深度空间（或称为真实深度空间），也就是说该第二深度空间中的值用于指示图像中的像素在真实环境中与拍摄源之间的实际距离。由于在深度估计结果的应用中（例如对虚拟物体与环境图像进行合成的应用中），均是以图像中各个像素与拍摄源之间的实际距离为基准，因此在深度估计模型以第一深度空间为基准得到图像中各个像素的深度值之后，还需要将各个像素的深度值映射于绝对深度空间（即前述第二深度空间）中。

通过这样的方法，由于第一深度空间中的第一范围的量化粒度小于第二范围的量化粒度，因此深度估计模型基于该第一深度空间进行深度估计，可以提升该深度估计模型在第一范围内像素的估计精确度。

深度估计模型可以基于第一深度空间进行深度估计，则需要根据第一深度空间训练得到该深度估计模型，下面对根据第一深度空间训练得到前述深度估计模型的训练方法进行具体讲解。请参见图3，图3是本申请实施例提供的一种深度估计模型训练方法的流程示意图。可以理解的是，本申请提供的深度估计模型训练方法可由终端设备，或终端设备中的芯片或服务器中的芯片等执行，在此不做限制。并且图3中深度估计模型训练方法的执行设备可以与图2中深度估计方法的执行设备为同一设备，也可以为不同设备，本申请不进行具体限定。为方便描述，以下本申请实施例以终端设备为例进行说明，并且该图3中深度估计模型训练方法的执行设备与图2中深度估计方法的执行设备为同一设备。如图3所示，上述深度估计模型训练方法可以包括如下步骤：

S301、获取训练图像和训练图像对应的训练深度值集合。其中，该训练深度值集合中的深度值与训练图像的像素一一对应，该训练深度值集合中的深度值用于指示对应像素在第二深度空间中的深度。

其中，第二深度空间可以理解为绝对深度空间（或真实深度空间），该第二深度空间中的值用于描述图像中的像素与该图像拍摄源的真实距离。

终端设备获取训练图像的方式包括但不限于以下方式中的一种或多种：方式一、终端设备利用与其具有通信连接的成像装置（如终端设备的摄像头、或其他与终端设备具有通信等）采集训练图像，从而构成训练数据集；方式二、终端设备从自身存储器中获取训练图像，从而构成训练数据集；方式三、终端设备从其具有访问权限的数据库中获取训练图像，从而构成训练数据集。其中，该训练数据集中的每张训练图像对应一个训练深度值集合。在一种可能的实施方式中，该训练图像可以为环境图像（例如街景图、室内环境图等）。

S302、将训练深度值集合中的深度值映射于第一深度空间，得到该训练图像对应的标签深度值集合。其中，标签深度值集合中的深度值与训练图像的像素一一对应，该标签深度值集合中的深度值用于指示对应像素在第一深度空间中的深度。

换言之，终端设备根据第一深度空间以及训练图像对应的训练深度值集合，得到该训练图像对应的标签深度值集合。

在一个可能的实施方式中，终端设备基于第一非线性函数，将该训练深度值集合中的深度值映射于第一深度空间。换言之，第二深度空间中的值与第一深度空间中的值之间是一一对应的，并且第二深度空间中的深度值与对应的第一深度空间的深度值之间的映射关系为非线性映射关系。需要理解的是，该第一非线性函数包括但不限于指数函数、幂函数、对数函数、多项式函数等等基本初等函数以及他们组成的复合函数。

在一个可能的实施方式中，该第一非线性函数属于S型函数。其中，该S型函数中的函数值通常是递增的，有且只有一个拐点（即二阶导数为0的点）。在S型函数的自变量小于或等于该拐点对应的自变量之前，随自变量的增大，S型函数的函数值增长速度越来越快；在S型函数的自变量大于拐点对应的自变量之后，随自变量的增大，其函数值增长速度越来越慢。可以理解的是，该S型函数的函数值随自变量变化的过程体现在函数图像上就是像字母“S”，因此称为“S型函数”。

示例性地，第二深度空间中的值与对应的第一深度空间的值之间的函数映射关系如公式（2）所示。

（2）

其中，F()为第一非线性函数，x为第二深度空间中的深度值，F(x)为第一深度空间中的深度值。

可以理解的是，在可以基于该第一非线性函数将第二深度空间中的深度值映射于第一深度空间的情况下，可以基于该第一非线性函数的反函数将第一深度空间的深度值映射回第二深度空间。也就是说，在这种情况下，在前述步骤S203的一个具体实施方式中，终端设备基于第二函数（即第一非线性函数的反函数），将该第一深度值集合中的深度值映射于第二深度空间。

示例性地，若该第一非线性函数如前述公式（2）所示，则该第二函数可以如公式（3）所示。

（3）

其中，F^-1()为第二函数，y为第一深度空间中的深度值，F^-1(y)为第二深度空间中的深度值。

S303、基于训练图像和标签深度值集合，得到深度估计模型。

终端设备将训练图像输入至初始网络模型中，并根据该初始网络模型的深度值集合、该训练图像对应的深度标签值集合以及该初始网络模型的损失函数，对该初始网络模型的参数进行调整更新，得到深度估计模型。其中，该初始网络模型可以是前述神经网络、DNN、CNN、RNN或GAN中的一种或多种，以及他们变形后的组合。

可理解的，由于第一深度空间中的第一范围的量化粒度小于第二范围的量化粒度，基于该第一深度空间训练得到的深度估计模型的方法，可以提升该深度估计模型在第一范围内像素的估计精确度。

下面将对本申请中的深度估计装置进行说明。

在采用集成的单元的情况下，参见图4，图4是本申请实施例提供的深度估计装置的一结构示意图。图4中该深度估计装置400是图1中的执行设备140和/或训练设备130，其可以为终端设备、终端设备中的芯片、服务器（包括但不限于云端服务器）或服务器中的芯片等，在此不做限制。如图4所示，该深度估计装置400包括处理单元401和收发单元402。其中，收发单元402可以是收发器或者通信接口，处理单元401可以是一个或多个处理器。该深度估计装置可用于实现上述方法实施例中涉及的终端设备、芯片或服务器的功能。

示例性的，该深度估计装置可以为终端设备。该终端设备既可以是硬件设备中的网络元件，也可以是在专用硬件上运行的软件功能，或者是平台(例如，云平台)上实例化的虚拟化功能。可选的，该深度估计装置还可以包括存储单元（图中未示出），用于存储语义理解装置的程序代码和数据。

示例性的，当深度估计装置为芯片时，收发单元402可以是接口、管脚或电路等。接口可用于输入待处理的数据至处理器，并可以向外输出处理器的处理结果。具体实现中，接口可以是通用输入输出（general purpose input output，GPIO）接口，可以和多个外围设备（如显示器（LCD）、摄像头（camera）、射频（radio frequency，RF）模块、天线等等）连接。接口通过总线与处理器相连。

处理单元401可以是处理器，该处理器可以执行存储单元存储的计算机执行指令，以使该芯片执行图2所涉及的方法。

进一步的，处理器可以包括控制器、运算器和寄存器。示例性的，控制器主要负责指令译码，并为指令对应的操作发出控制信号。运算器主要负责执行定点或浮点算数运算操作、移位操作以及逻辑操作等，也可以执行地址运算和转换。寄存器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中，处理器的硬件架构可以是专用集成电路（application specific integrated circuits，ASIC）架构、无互锁管道阶段架构的微处理器（microprocessor without interlocked piped stagesarchitecture，MIPS）架构、进阶精简指令集机器（advanced RISC machines，ARM）架构或者网络处理器（network processor，NP）架构等等。处理器可以是单核的，也可以是多核的。

该存储单元可以为该芯片内的存储单元，如寄存器、缓存等。存储单元也可以是位于芯片外部的存储单元，如只读存储器（Read Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（Random Access Memory，RAM)等。

需要说明的，处理器、接口各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

具体地，在一种设计中，该深度估计装置可用于对获取到的图像数据进行处理，具体地：

收发单元402，用于获取输入图像；

处理单元401，用于将该输入图像输入深度估计模型，得到第一深度值集合；其中，该第一深度值集合中的深度值与输入图像的像素一一对应，该第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，该第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，该第二范围为第一深度空间中出第一范围外的其他范围；

上述处理单元401，还用于将该第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集；其中，该第二深度空间是均匀量化的。

可选的，上述收发单元402还用于：获取训练图像和训练图像对应的训练深度值集合，该训练深度值集合中的深度值与训练图像的像素一一对应，该训练深度值集合中的深度值用于指示对应像素在第二深度空间中的深度；上述处理单元401还用于：将训练深度值集合中的深度值映射于第一深度空间，得到训练图像对应的标签深度值集合，标签深度值集合中的深度值与训练图像的像素一一对应，标签深度值集合中的深度值用于指示对应像素在第一深度空间中的深度；并基于训练图像和标签深度值集合，得到深度估计模型。

可选的，上述处理单元401还用于：基于第一非线性函数，将训练深度值集合中的深度值映射于第一深度空间。

可选的，上述处理单元401还用于：基于第二函数，将第一深度值集合中的深度值映射于第二深度空间；其中，该第二函数为第一非线性函数的反函数。

可选的，第一非线性函数属于S型函数。

应理解，上述深度估计装置可对应执行前述方法实施例的步骤，并且该深度估计装置中的各个单元的上述操作或功能分别为了实现前述方法实施例中终端设备执行的相应操作，其中，相应的有益效果可以参考方法实施例，为了简洁，在此不再赘述。

以上介绍了本申请实施例的深度估计装置，以下介绍深度估计装置可能的产品形态。应理解，但凡具备上述图4上述的深度估计装置的功能的任何形态的产品，都落入本申请实施例的保护范围。还应理解，以下介绍仅为举例，不限制本申请实施例的深度估计装置的产品形态仅限于此。

作为一种可能的产品形态，请参见图5所示，图5是本申请实施例提供的一种深度估计装置的硬件结构示意图。图5所示的深度估计装置500（该装置500具体可以是一种计算机设备）包括存储器501、处理器502、通信接口503以及总线504。其中，存储器501、处理器502、通信接口503通过总线504实现彼此之间的通信连接。

存储器501可以是只读存储器（Read Only Memory，ROM），静态存储设备，动态存储设备或者随机存取存储器（Random Access Memory，RAM）。存储器501可以存储程序，当存储器501中存储的程序被处理器502执行时，处理器502和通信接口503用于执行本申请实施例的分割网络模型训练装置中单元所需执行的功能，或者执行本申请方法实施例的深度估计方法。

处理器502还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的深度估计方法的各个步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502还可以是通用处理器、数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（ASIC）、现成可编程门阵列（Field Programmable GateArray，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501，处理器502读取存储器501中的信息，结合其硬件完成本申请实施例的深度估计装置中包括的单元所需执行的功能，或者执行本申请方法实施例的深度估计方法。

通信接口503使用例如但不限于收发器一类的收发装置，来实现深度估计装置500与其他设备或通信网络之间的通信。例如，可以通过通信接口503获取输入数据（如本申请S201中的输入图像）。

总线504可包括在深度估计装置500各个部件（例如，存储器501、处理器502、通信接口503）之间传送信息的通路。

应理解，深度估计装置400中的收发单元402相当于深度估计装置500中的通信接口503，深度估计装置400中的处理单元401可以相当于深度估计装置500中的处理器502。

应理解，上述各种产品形态的深度估计装置，具有上述方法实施例中终端设备的任意功能，可以对应实现上述方法实施例中的步骤，并且取得相应的技术效果，为了简洁，此处不再赘述。

应注意，尽管图5所示的深度估计装置500仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，深度估计装置500还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，深度估计装置500还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，深度估计装置500也可仅仅包括实现本申请实施例所必须的器件，而不必包括图5中所示的全部器件。

可以理解，所述深度估计装置500相当于图1中的训练设备130和/或执行设备140。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种深度估计方法，其特征在于，所述方法包括：

获取输入图像；

将所述输入图像输入深度估计模型，得到第一深度值集合；其中，所述第一深度值集合中的深度值与所述输入图像的像素一一对应，所述第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，所述第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，所述第二范围为所述第一深度空间中除所述第一范围外的其他范围；所述第一深度空间为深度值的连续空间范围；

将所述第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集合；其中，所述第二深度空间是均匀量化的。

2.根据权利要求1所述方法，其特征在于，所述将所述输入图像输入深度估计模型之前，所述方法还包括：

获取训练图像和所述训练图像对应的训练深度值集合，所述训练深度值集合中的深度值与所述训练图像的像素一一对应，所述训练深度值集合中的深度值用于指示对应像素在所述第二深度空间中的深度；

将所述训练深度值集合中的深度值映射于所述第一深度空间，得到所述训练图像对应的标签深度值集合，所述标签深度值集合中的深度值与所述训练图像的像素一一对应，所述标签深度值集合中的深度值用于指示对应像素在所述第一深度空间中的深度；

基于所述训练图像和所述标签深度值集合，得到所述深度估计模型。

3.根据权利要求2所述方法，其特征在于，所述将所述训练深度值集合中的深度值映射于所述第一深度空间，包括：

基于第一非线性函数，将所述训练深度值集合中的深度值映射于所述第一深度空间。

4.根据权利要求3所述方法，其特征在于，所述将所述第一深度值集合中的深度值映射于第二深度空间，包括：

基于第二函数，将所述第一深度值集合中的深度值映射于所述第二深度空间；其中，所述第二函数为所述第一非线性函数的反函数。

5.根据权利要求4所述方法，其特征在于，所述第一非线性函数属于S型函数。

6.一种深度估计装置，其特征在于，所述装置包括：

收发单元，用于获取输入图像；

处理单元，用于将所述输入图像输入深度估计模型，得到第一深度值集合；其中，所述第一深度值集合中的深度值与所述输入图像的像素一一对应，所述第一深度值集合中的深度值用于指示对应像素在第一深度空间中的深度，所述第一深度空间中第一范围的量化粒度小于第二范围的量化粒度，所述第二范围为所述第一深度空间中除所述第一范围外的其他范围；所述第一深度空间为深度值的连续空间范围；

所述处理单元，还用于将所述第一深度值集合中的深度值映射于第二深度空间，得到第二深度值集合；其中，所述第二深度空间是均匀量化的。

7.根据权利要求6所述装置，其特征在于，

所述收发单元，还用于获取训练图像和所述训练图像对应的训练深度值集合，所述训练深度值集合中的深度值与所述训练图像的像素一一对应，所述训练深度值集合中的深度值用于指示对应像素在所述第二深度空间中的深度；

所述处理单元，还用于将所述训练深度值集合中的深度值映射于所述第一深度空间，得到所述训练图像对应的标签深度值集合，所述标签深度值集合中的深度值与所述训练图像的像素一一对应，所述标签深度值集合中的深度值用于指示对应像素在所述第一深度空间中的深度；

所述处理单元，还用于基于所述训练图像和所述标签深度值集合，得到所述深度估计模型。

8.根据权利要求7所述装置，其特征在于，所述处理单元，还用于：

9.根据权利要求8所述装置，其特征在于，所述处理单元，还用于：

10.根据权利要求9所述装置，其特征在于，所述第一非线性函数属于S型函数。

11.一种计算机设备，其特征在于，所述设备包括处理器、收发器和存储器；

所述处理器和收发器用于与所述存储器耦合，读取并运行所述存储器中的指令，以实现如权利要求1-5任一项所述的方法。

12.一种芯片，其特征在于，包括处理器和接口，所述处理器和所述接口耦合；所述接口用于接收或输出信号，所述处理器用于执行代码指令，以使权利要求1~5中任一项所述的方法被执行。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储程序指令，当所述程序指令运行时，使得如权利要求1-5任一项所述的方法被执行。