CN111508010B

CN111508010B - 对二维图像进行深度估计的方法、装置及电子设备

Info

Publication number: CN111508010B
Application number: CN201910099586.4A
Authority: CN
Inventors: 孟文明; 张学志; 于雷; 张骞; 黄畅
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2023-08-08
Anticipated expiration: 2039-01-31
Also published as: CN111508010A

Abstract

公开了一种对二维图像进行深度估计的方法，包括：确定二维图像的多个语义解码阶段各自对应的语义解码特征数据；从所述多个语义解码阶段各自对应的语义解码特征数据中，确定用于对所述二维图像进行深度估计的语义解码特征数据；基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度。由于基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度，在进行深度估计时可以参考语义分割的信息，可以提高深度估计的精度，提高估计得到的所述二维图像对应的深度的合理性。

Description

对二维图像进行深度估计的方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，具体涉及一种对二维图像进行深度估计的方法、装置及电子设备。

背景技术

近年来，自动驾驶引起了人们的关注，自动驾驶是一项复杂的机器人任务，需要在不断变化的环境中进行感知、规划和执行。目前，自动驾驶的研究基础是单目深度估计和语义分割。

现有的方法中将单目深度估计和语义分割分开处理，分别使用两个模型来进行单目深度估计和语义分割，分别得到深度图像和语义分割结果图像，现有的方法得到的深度图像的精度比较低，数据准确率低。

发明内容

为了解决上述技术问题，本申请实施例提供了一种对二维图像进行深度估计的方法、装置及电子设备。

根据本申请的一个方面，提供了一种对二维图像进行深度估计的方法，包括：确定二维图像的多个语义解码阶段各自对应的语义解码特征数据；从所述多个语义解码阶段各自对应的语义解码特征数据中，确定用于对所述二维图像进行深度估计的语义解码特征数据；基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度。

根据本申请的另一个方面，提供了一种对二维图像进行深度估计的装置，包括：第一确定模块，用于确定二维图像的多个语义解码阶段各自对应的语义解码特征数据；第二确定模块，用于从所述多个语义解码阶段各自对应的语义解码特征数据中，确定用于对所述二维图像进行深度估计的语义解码特征数据；解码模块，用于基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；深度估计模块，用于基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度。

根据本申请的另一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的方法。

根据本申请的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的方法。

本申请实施例提供的对二维图像进行深度估计的方法，由于将语义分割的语义解码特征数据用于对深度估计解码特征数据进行辅助解码，得到语义辅助后的深度估计解码特征数据，基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度，在进行深度估计时可以参考语义分割的信息，可以提高深度估计的精度，提高估计得到的所述二维图像对应的深度的合理性，且只需要一部分语义解码特征数据共享，不需要太多参数共享，可以使模型在训练时能够快速收敛。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的对二维图像进行深度估计的场景示意图。

图2是本申请一示例性实施例提供的对二维图像进行深度估计的场景示意图中的语义信息传播模块的示意图。

图3是本申请另一示例性实施例提供的对二维图像进行深度估计的场景示意图中的语义信息传播模块的示意图。

图4是本申请另一示例性实施例提供的对二维图像进行深度估计的场景示意图。

图5是本申请一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。

图6是本申请另一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。

图7是本申请又一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。

图8是本申请一示例性实施例提供的基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据的的流程示意图。

图9是本申请一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。

图10是本申请另一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。

图11是本申请又一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。

图12是本申请一示例性实施例提供的对二维图像进行深度估计的装置中解码模块的结构示意图。

图13是本申请再一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。

图14是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

目前，采用多任务的学习方法，使用一个编码器-解码器模型，对于输入的二维图像同时估计深度结果和语义结果。语义分割和深度估计两个任务共享参数，降低了计算量。然而，使用一个模型同时进行两个任务只能降低模型的大小，没有考虑两个任务之间的关联性。且由于任务之间的竞争性，过多参数共享导致模型训练时难以收敛。

针对上述技术问题，本申请的基本构思是提出一种对二维图像进行深度估计的方法、装置及电子设备，由于将语义分割的语义解码特征数据用于对深度估计解码特征数据进行辅助解码，得到语义辅助后的深度估计解码特征数据，基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度，在进行深度估计时可以参考语义分割的信息，可以提高深度估计的精度，提高估计得到的所述二维图像对应的深度的合理性，且只需要一部分语义解码特征数据共享，不会导致模型训练时难以收敛。

需要说明的是，本申请的应用范围不局限于车载电子技术领域。例如，本申请实施例提及的技术方案还可以应用于其他智能可移动设备，具体用于对智能可移动设备提供图像技术支持。

下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1是本申请所适用的一个场景示意图，在该场景中语义分割和深度估计在编码阶段共享一个编码器，在解码阶段各自对应一个解码器。如图1所示，第一预设编码器10用于对二维图像(可以是RGB图像或灰度图像等)进行编码，得到深度估计编码特征数据和语义编码特征数据；第一预设解码器20用于对深度估计编码特征数据进行解码，得到多个深度估计解码阶段各自对应的深度估计解码特征数据；第二预设解码器30用于对语义编码特征数据进行解码，得到多个语义解码阶段各自对应的语义解码特征数据；语义信息传播模块(Semantic Information Propagation Module，SIPM)40用于将第二预设解码器30中的至少一个语义解码阶段得到的语义解码特征数据传输到第一预设解码器20；传输到第一预设解码器20的语义解码特征数据与第一预设解码器20中的相应深度估计解码阶段的深度估计解码特征数据进行整合后，得到综合解码特征数据；第一预设解码器20利用综合解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据。

参见图2，为语义信息传播模块40的一种结构图，图2中的结构图可用如下公式表示：

SD_f＝Si[Dr(F(G(C_1×1(S_f))))]*R[B(C_3×3(C_1×1(D_f)+C_1×1(S_f)))]

其中，SD_f表示语义辅助后的深度估计解码特征数据，S_f表示语义解码阶段对应的语义解码特征数据，D_f表示深度估计解码阶段对应的深度估计解码特征数据，G表示全局池化，F表示全连接，C_1×1表示1x1卷积，C_3×3表示3x3卷积，B表示批归一化，R表示Relu(Rectified linear unit，修正线性单元)激活，Dr表示Droupout(随机失活)，Si表示sigmod(逻辑回归激活)，*表示点乘，+表示对应位置相加。

参见图3，为语义信息传播模块40的另一种结构图，图3中的结构图可用如下公式表示：

SD_f＝Si[Dr(F(G(C_1×1(S_f))))]*[C_3x3(R(B(C_1x1(D_f)))+R(B(C_1x1(S_f))))]

其中，SD_f表示语义辅助后的深度估计解码特征数据，S_f表示语义解码阶段对应的语义解码特征数据，D_f表示深度估计解码阶段对应的深度估计解码特征数据，G表示全局池化，F表示全连接，C_1×1表示1x1卷积，C_3×3表示3x3卷积，B表示批归一化，R表示Relu激活，Dr表示Droupout，Si表示sigmod，*表示点乘，+表示对应位置相加。

需要说明的是，语义信息传播模块40的结构图，并不限于上述二种，可以根据实际应用状况设置其他类似的结构。并且，不限于设置一个语义信息传播模块40，可以设置多个语义信息传播模块40。

图4是本申请所适用的另一个场景图，在该场景中语义分割和深度估计在编码阶段各自对应一个编码器，在解码阶段也各自对应一个解码器。如图4所示，第二预设编码器50用于对二维图像(可以是RGB图像或灰度图像等)进行编码，得到语义编码特征数据；第三预设编码器60用于对二维图像(可以是RGB图像或灰度图像等)进行编码，得到深度估计编码特征数据；第三预设解码器70用于对深度估计编码特征数据进行解码，得到多个深度估计解码阶段各自对应的深度估计解码特征数据；第四预设解码器80用于对语义编码特征数据进行解码，得到多个语义解码阶段各自对应的语义解码特征数据；语义信息传播模块90用于将第四预设解码器80中的至少一个语义解码阶段得到的语义解码特征数据传输到第三预设解码器70；传输到第三预设解码器70的语义解码特征数据与第三预设解码器70中的相应深度估计解码阶段的深度估计解码特征数据进行整合后，得到综合解码特征数据；第三预设解码器70利用综合解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据。语义信息传播模块90的具体结构与语义信息传播模块40类似，此处不再赘述。

需要说明的是，在实际应用中，采用本申请的对二维图像进行深度估计的方法建立系统图后，可以采用梯度下降的方法，对系统的参数进行训练，方便后续使用。

示例性方法

图5是本申请一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。本申请实施例提供的对二维图像进行深度估计的方法可应用到汽车的图像处理技术领域，亦可应用到智能机器人的图像处理类功能领域。如图5所示，本申请实施例提供的对二维图像进行深度估计的方法包括如下步骤：

步骤101，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据。

需要说明的是，二维图像可以是RGB图像、灰度图像等，对此不做限定。对二维图像进行语义分割，在进行语义解码时，度估计解码阶段，每个深度估计解码阶段得到一个对应的深度估计解码特会经过多个语义解码阶段，每个语义解码阶段得到一个对应的语义解码特征数据，前一语义解码阶段得到的语义解码特征数据作为后一语义解码阶段的输入，后一语义解码阶段得到的语义解码特征数据作为再后一语义解码阶段的输入，依次得到最终的语义解码特征数据。例如：有5个语义解码阶段，第一语义解码阶段得到的语义解码特征数据作为第二语义解码阶段的输入，第二语义解码阶段得到的语义解码特征数据作为第三语义解码阶段的输入，第三语义解码阶段得到的语义解码特征数据作为第四语义解码阶段的输入，第四语义解码阶段得到的语义解码特征数据作为第五语义解码阶段的输入，第五语义解码阶段得到最终的语义解码特征数据。

步骤102，从多个语义解码阶段各自对应的语义解码特征数据中，确定用于对二维图像进行深度估计的语义解码特征数据。

需要说明的是，可以根据实际应用状况，从多个语义解码阶段各自对应的语义解码特征数据中选择任意一个或者多个用于对二维图像进行深度估计的语义解码特征数据，对此不做具体限定。例如：有5个语义解码阶段，可以选择5个语义解码阶段中的任意一个(比如：选择第一语义解码阶段得到的语义解码特征数据)用于对二维图像进行深度估计的语义解码特征数据；或可以选择5个语义解码阶段中的多个(比如：选择第二语义解码阶段得到的语义解码特征数据和第四语义解码阶段得到的语义解码特征数据)用于对二维图像进行深度估计的语义解码特征数据。

步骤103，基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据。

需要说明的是，基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，即将语义解码特征数据用来辅助深度估计解码特征数据进行解码，可以提高深度估计解码特征数据解码的精度。基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据的具体实现过程可以采用上述语义信息传播模块40的实现方式，此处不再赘述。

步骤104，基于语义辅助后的深度估计解码特征数据，估计二维图像对应的深度。

需要说明的是，基于语义辅助后的深度估计解码特征数据，估计二维图像对应的深度，即将语义分割信息用来辅助深度估计，使得估计得到的二维图像对应的深度更加精确。例如：对于一张内容有天空和道路的二维图像，在对其进行语义分割的结果中，天空和道路的交界处会产生突变，相应地，对其进行深度估计的结果中，天空和道路的交界处也应该产生突变。但是如果只采用深度估计解码特征数据进行深度估计，深度估计的结果中，天空和道路的交界处不一定会产生突变。基于语义辅助后的深度估计解码特征数据，估计二维图像对应的深度时，就可以保证深度估计的结果中，天空和道路的交界处产生突变，提高深度估计的精度。

本申请实施例所提及的对二维图像进行深度估计的方法，由于将语义分割的语义解码特征数据用于对深度估计解码特征数据进行辅助解码，得到语义辅助后的深度估计解码特征数据，基于语义辅助后的深度估计解码特征数据，估计二维图像对应的深度，在进行深度估计时可以参考语义分割的信息，可以提高深度估计的精度，提高估计得到的二维图像对应的深度的合理性，且只需要一部分语义解码特征数据共享，不需要太多参数共享，可以使模型在训练时能够快速收敛。

图6是本申请另一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。在本申请图5所示实施例的基础上延伸出本申请图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图6所示，在本申请实施例提供的对二维图像进行深度估计的方法中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据(即步骤101)之前，还包括：

步骤1010，通过第一预设编码器对二维图像进行编码，得到语义编码特征数据和深度估计编码特征数据。

需要说明的是，在该实施例中语义分割和深度估计在编码阶段共享一个编码器，第一预设编码器可以通过卷积神经网络实现。其中，卷积神经网络中每一个卷积层输出的结果都是高维抽象特征图；分辨率从大到小的过程中称作编码过程，指的是把输入的二维图像编码成高维抽象特征数据(为了便于描述，语义分割编码对应的高维抽象特征数据称为语义编码特征数据、深度估计编码对应的高维抽象特征数据称为深度估计编码特征数据)；分辨率从小到大的过程称作解码过程，解码器对编码阶段得到的高维抽象特征数据进行解码得到相应的高维抽象特征数据(为了便于描述，语义分割解码对应的高维抽象特征数据称为语义解码特征数据、深度估计解码对应的高维抽象特征数据称为深度估计解码特征数据)。

本申请实施例所提及的对二维图像进行深度估计的方法，通过第一预设编码器对二维图像进行编码，得到语义编码特征数据和深度估计编码特征数据，由于语义分割和深度估计共享一个编码器、共享参数，可以降低编码器的计算量、提高计算速度。

图7是本申请又一示例性实施例提供的对二维图像进行深度估计的方法的流程示意图。在本申请图5所示实施例的基础上延伸出本申请图7所示实施例，下面着重叙述图7所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图7所示，在本申请实施例提供的对二维图像进行深度估计的方法中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据(即步骤101)之前，还包括：

步骤1011，通过第二预设编码器对二维图像进行编码，得到语义编码特征数据。

需要说明的是，在该实施例中语义分割和深度估计在编码阶段各自对应一个编码器，第二预设编码器可以通过卷积神经网络实现。其中，卷积神经网络的描述详见步骤1010，此处不再赘述。

步骤1012，通过第三预设编码器对二维图像进行编码，得到深度估计编码特征数据。

需要说明的是，在该实施例中语义分割和深度估计在编码阶段各自对应一个编码器，第三预设编码器可以通过卷积神经网络实现。其中，卷积神经网络的描述详见步骤1010，此处不再赘述。

另需要说明的是，步骤1011和步骤1012并没有先后顺序要求，可以根据实际应用状况，设置先执行哪个步骤、后执行哪个步骤。

本申请实施例所提及的对二维图像进行深度估计的方法，由于语义分割和深度估计各自对应一个编码器，分别得到语义编码特征数据和深度估计编码特征数据，可以为后续解码提供更多数据，提高解码的精度。

图8是本申请一示例性实施例提供的基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据的流程示意图。在本申请图6或5所示实施例的基础上延伸出本申请图8所示实施例，下面着重叙述图8所示实施例与图6或5所示实施例的不同之处，相同之处不再赘述。

如图8所示，在本申请实施例提供的对二维图像进行深度估计的方法中，基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据(即步骤103)，包括：

步骤1031，通过第一预设解码器对深度估计编码特征数据进行解码，得到多个深度估计解码阶段各自对应的深度估计解码特征数据。

需要说明的是，第一预设解码器可以通过卷积神经网络实现。其中，卷积神经网络的描述详见步骤1010，此处不再赘述。

需要说明的是，通过第一预设解码器对深度估计编码特征数据进行解码，会经过多个深度估计解码阶段，前一深度估计解码阶段得到的深度估计解码特征数据作为后一深度估计解码阶段的输入，后一深度估计解码阶段得到的深度估计解码特征数据作为再后一深度估计解码阶段的输入，依次得到最终的深度估计解码特征数据。例如：假设有5个深度估计解码阶段，第一深度估计解码阶段得到的深度估计解码特征数据作为第二深度估计解码阶段的输入，第二深度估计解码阶段得到的深度估计解码特征数据作为第三深度估计解码阶段的输入，第三深度估计解码阶段得到的深度估计解码特征数据作为第四深度估计解码阶段的输入，第四深度估计解码阶段得到的深度估计解码特征数据作为第五深度估计解码阶段的输入，第五深度估计解码阶段得到最终的深度估计解码特征数据。

步骤1032，从多个深度估计解码阶段各自对应的深度估计解码特征数据中，确定使用语义分割信息进行解码的深度估计解码特征数据。

需要说明的是，可以根据实际应用状况，从多个深度估计解码阶段各自对应的深度估计解码特征数据中选择任意一个使用语义分割信息进行解码的深度估计解码特征数据，或选择多个使用语义分割信息进行解码的深度估计解码特征数据。使用语义分割信息进行解码的深度估计解码特征数据与步骤102中的用于对二维图像进行深度估计的语义解码特征数据相对应，只要满足它们之间对应的使用和被使用关系即可，对此不做具体限定。例如：有5个深度估计解码阶段，可以选择5个深度估计解码阶段中的任意一个，比如：确定第一深度估计解码阶段得到的深度估计解码特征数据作为使用语义分割信息进行解码的深度估计解码特征数据，此时相应地，步骤102中确定一个(可以是语义解码阶段中的任意一个阶段，不一定限定为第一语义解码阶段)用于对二维图像进行深度估计的语义解码特征数据，用于第一深度估计解码阶段得到的深度估计解码特征数据。也可以选择5个深度估计解码阶段中的多个，比如：确定第二深度估计解码阶段得到的深度估计解码特征数据和第四深度估计解码阶段得到的深度估计解码特征数据作为使用语义分割信息进行解码的深度估计解码特征数据，此时相应地，步骤102中确定二个(可以是语义解码阶段中的任意二个阶段，不一定限定为第二语义解码阶段和第四语义解码阶段)用于对二维图像进行深度估计的语义解码特征数据，分别用于第二深度估计解码阶段得到的深度估计解码特征数据和第四深度估计解码阶段得到的深度估计解码特征数据。

步骤1033，将用于对二维图像进行深度估计的语义解码特征数据和使用语义分割信息进行解码的深度估计解码特征数据进行整合，得到综合解码特征数据。

需要说明的是，将用于对二维图像进行深度估计的语义解码特征数据和使用语义分割信息进行解码的深度估计解码特征数据进行整合，即将步骤1032中确定的使用语义分割信息进行解码的深度估计解码特征数据和步骤102中确定用于对二维图像进行深度估计的语义解码特征数据分别进行结合，得到综合解码特征数据。

步骤1034，将综合解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据。

需要说明的是，综合解码特征数据中包含语义解码特征数据和深度估计解码特征数据，将综合解码特征数据进行解码，就可以得到语义辅助后的深度估计解码特征数据。

本申请实施例所提及的对二维图像进行深度估计的方法，由于将用于对二维图像进行深度估计的语义解码特征数据和使用语义分割信息进行解码的深度估计解码特征数据进行整合，得到综合解码特征数据，通过将综合解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据，可以将语义分割结合到深度估计中进行解码，提高了解码的精度。

本申请一示例性实施例提供了确定二维图像的多个语义解码阶段各自对应的语义解码特征数据。在本申请图5所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的对二维图像进行深度估计的方法中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据，包括：

通过第二预设解码器对语义编码特征数据进行解码，得到多个语义解码阶段各自对应的语义解码特征数据。

需要说明的是，第二预设解码器可以通过卷积神经网络实现。其中，卷积神经网络的描述详见步骤1010，此处不再赘述。

需要说明的是，通过第二预设解码器对语义编码特征数据进行解码，会经过多个语义解码阶段，前一语义解码阶段得到的语义解码特征数据作为后一语义解码阶段的输入，后一语义解码阶段得到的语义解码特征数据作为再后一语义解码阶段的输入，依次得到最终的语义解码特征数据。例如：假设有5个语义解码阶段，第一语义解码阶段得到的语义解码特征数据作为第二语义解码阶段的输入，第二语义解码阶段得到的语义解码特征数据作为第三语义解码阶段的输入，第三语义解码阶段得到的语义解码特征数据作为第四语义解码阶段的输入，第四语义解码阶段得到的语义解码特征数据作为第五语义解码阶段的输入，第五语义解码阶段得到最终的语义解码特征数据。

本申请实施例所提及的对二维图像进行深度估计的方法，通过第二预设解码器即可以得到多个语义解码阶段各自对应的语义解码特征数据，降低了设备的计算复杂度，提高了计算速度。

本申请再一示例性实施例提供了对二维图像进行深度估计的方法。在本申请上一所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本实施例与上一所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的对二维图像进行深度估计的方法中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据之后，还包括：

根据多个语义解码阶段各自对应的语义解码特征数据，估计二维图像对应的语义。

需要说明的是，通过估计二维图像对应的语义，即可估计出二维图像中包含的物体的物理意义以及该物体在二维图像中的位置。

本申请实施例所提及的对二维图像进行深度估计的方法，由于可以根据多个语义解码阶段各自对应的语义解码特征数据，估计出二维图像对应的语义，从而可以同时得到二维图像对应的深度和语义，实现了深度估计和语义识别之间的相互促进，进而确保后续对二维图像中的物体的定位精度。

示例性装置

图9是本申请一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。本申请实施例提供的对二维图像进行深度估计的装置可应用到汽车的图像处理领域，亦可应用到智能机器人的图像处理类功能领域。如图9所示，本申请实施例提供的对二维图像进行深度估计的装置，包括：

第一确定模块201，用于确定二维图像的多个语义解码阶段各自对应的语义解码特征数据；

第二确定模块202，用于从多个语义解码阶段各自对应的语义解码特征数据中，确定用于对二维图像进行深度估计的语义解码特征数据；

解码模块203，用于基于用于对二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；

深度估计模块204，用于基于语义辅助后的深度估计解码特征数据，估计二维图像对应的深度。

图10是本申请另一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。在本申请图9所示实施例的基础上延伸出本申请图10所示实施例，下面着重叙述图10所示实施例与图9所示实施例的不同之处，相同之处不再赘述。

如图10所示，在本申请实施例提供的对二维图像进行深度估计的装置中，还包括：

第一编码模块2010，用于通过第一预设编码器对二维图像进行编码，得到语义编码特征数据和深度估计编码特征数据。

图11是本申请又一示例性实施例提供的对二维图像进行深度估计的装置的结构示意图。在本申请图9所示实施例的基础上延伸出本申请图11所示实施例，下面着重叙述图11所示实施例与图9所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的对二维图像进行深度估计的装置中，还包括：

第二编码模块2011，用于通过第二预设编码器对二维图像进行编码，得到语义编码特征数据；

第三编码模块2012，用于通过第三预设编码器对二维图像进行编码，得到深度估计编码特征数据。

图12是本申请一示例性实施例提供的对二维图像进行深度估计的装置中解码模块203的结构示意图。在本申请图10或9所示实施例的基础上延伸出本申请图12所示实施例，下面着重叙述图12所示实施例与图10或9所示实施例的不同之处，相同之处不再赘述。

如图12所示，在本申请实施例提供的对二维图像进行深度估计的装置中，解码模块203包括：

第一解码单元2031，用于通过第一预设解码器对深度估计编码特征数据进行解码，得到多个深度估计解码阶段各自对应的深度估计解码特征数据；

确定单元2032，用于从多个深度估计解码阶段各自对应的深度估计解码特征数据中，确定使用语义分割信息进行解码的深度估计解码特征数据；

整合单元2033，用于将用于对二维图像进行深度估计的语义解码特征数据和使用语义分割信息进行解码的深度估计解码特征数据进行整合，得到综合解码特征数据；

第二解码单元2034，用于将综合解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据。

本申请一示例性实施例提供了对二维图像进行深度估计的装置中的第一确定模块201。在本申请图9所示实施例的基础上延伸出本实施例，下面着重叙述本实施例与图9所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的对二维图像进行深度估计的装置中，第一确定模块201，具体用于通过第二预设解码器对语义编码特征数据进行解码，得到多个语义解码阶段各自对应的语义解码特征数据。

图13是本申请再一示例性实施例提供的对二维图像进行深度估计的装置结构示意图。在本申请上一所示实施例的基础上延伸出本申请图13所示实施例，下面着重叙述图13所示实施例与上一所示实施例的不同之处，相同之处不再赘述。

如图13所示，在本申请实施例提供的对二维图像进行深度估计的装置中，还包括：

语义估计模块205，用于根据多个语义解码阶段各自对应的语义解码特征数据，估计二维图像对应的语义。

应当理解，图9至图13提供的对二维图像进行深度估计的装置中的第一确定模块201、第二确定模块202、解码模块203、深度估计模块204、语义估计模块205、第一编码模块2010、第二编码模块2011和第三编码模块2012，以及解码模块203中包括的第一解码单元2031、确定单元2032、整合单元2033和第二解码单元2034的操作和功能可以参考上述图5至图8提供的对二维图像进行深度估计的方法，为了避免重复，在此不再赘述。

示例性电子设备

图14图示了根据本申请实施例的电子设备的框图。

如图14所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的对二维图像进行深度估计的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是摄像头或麦克风、麦克风阵列等，用于捕捉图像或声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从网络处理器接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的对二维图像进行深度估计的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对二维图像进行深度估计的方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种对二维图像进行深度估计的方法，包括：

确定二维图像的多个语义解码阶段各自对应的语义解码特征数据和深度估计编码特征数据；

从所述多个语义解码阶段各自对应的语义解码特征数据中，确定用于对所述二维图像进行深度估计的语义解码特征数据；

基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；

基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度；

其中，基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据，包括：

通过第一预设解码器对所述深度估计编码特征数据进行解码，得到多个深度估计解码阶段各自对应的深度估计解码特征数据；

从所述多个深度估计解码阶段各自对应的深度估计解码特征数据中，确定使用语义分割信息进行解码的深度估计解码特征数据；

将所述用于对所述二维图像进行深度估计的语义解码特征数据和所述使用语义分割信息进行解码的深度估计解码特征数据进行整合，得到综合解码特征数据；将所述综合解码特征数据进行解码，得到所述语义辅助后的深度估计解码特征数据。

2.根据权利要求1所述的方法，其中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据之前，还包括：

通过第一预设编码器对所述二维图像进行编码，得到语义编码特征数据和深度估计编码特征数据。

3.根据权利要求1所述的方法，其中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据之前，还包括：

通过第二预设编码器对所述二维图像进行编码，得到语义编码特征数据；

通过第三预设编码器对所述二维图像进行编码，得到深度估计编码特征数据。

4.根据权利要求1所述的方法，其中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据，包括：

通过第二预设解码器对语义编码特征数据进行解码，得到所述多个语义解码阶段各自对应的语义解码特征数据。

5.根据权利要求4所述的方法，其中，确定二维图像的多个语义解码阶段各自对应的语义解码特征数据之后，还包括：

根据所述多个语义解码阶段各自对应的语义解码特征数据，估计所述二维图像对应的语义。

6.一种对二维图像进行深度估计的装置，包括：

第一确定模块，用于确定二维图像的多个语义解码阶段各自对应的语义解码特征数据和深度估计编码特征数据；

第二确定模块，用于从所述多个语义解码阶段各自对应的语义解码特征数据中，确定用于对所述二维图像进行深度估计的语义解码特征数据；

解码模块，用于基于所述用于对所述二维图像进行深度估计的语义解码特征数据，对深度估计解码特征数据进行解码，得到语义辅助后的深度估计解码特征数据；

深度估计模块，用于基于所述语义辅助后的深度估计解码特征数据，估计所述二维图像对应的深度；

将所述用于对所述二维图像进行深度估计的语义解码特征数据和所述使用语义分割信息进行解码的深度估计解码特征数据进行整合，得到综合解码特征数据，将所述综合解码特征数据进行解码，得到所述语义辅助后的深度估计解码特征数据。

7.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的对二维图像进行深度估计的方法。

8.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-5任一所述的对二维图像进行深度估计的方法。