CN116342677A

CN116342677A - 一种深度估计方法、装置、车辆及计算机程序产品

Info

Publication number: CN116342677A
Application number: CN202310301461.1A
Authority: CN
Inventors: 侯林杰
Original assignee: Beijing Jidu Technology Co Ltd
Current assignee: Beijing Jidu Technology Co Ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-27

Abstract

本申请涉及图像处理技术领域，尤其涉及一种深度估计方法、装置、车辆及计算机程序产品，该方法包括：对待估计图像进行外观特征提取，得到多个尺度的第一特征图；结合图像采集设备的设备参数，分别对所述多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图；分别将相同尺度的第一特征图和第二特征图进行特征融合，获得各尺度各自对应的融合特征图；基于各尺度各自对应的融合特征图进行深度估计，获得用于表示所述待估计图像中各像素深度值的深度图。通过上述方法，可提高基于图像的深度估计的准确性。

Description

一种深度估计方法、装置、车辆及计算机程序产品

技术领域

本申请涉及图像处理技术领域，尤其涉及一种深度估计方法、装置、车辆及计算机程序产品。

背景技术

深度估计是场景重建的关键步骤，是对一张或唯一/多个视角下的三原色图像进行深度估计，进而确定图像中每个像素相对于拍摄源的距离。利用深度学习的方法进行深度估计在不同的场景和不同的光照条件下都有很高的鲁棒性。

然而，目前基于深度学习的三原色(Red-Green-Blue，RGB)图像的深度估计方法，利用合成的深度图进行网络的监督训练，如果车辆在行驶过程中剧烈运动，则会导致将利用摄像头采集的图像输入深度学习网络后，输出的深度值不准确。

综上，如何提高基于RGB图像的深度估计的准确性是亟待解决的。

发明内容

本申请实施例提供了一种深度估计方法、装置、车辆及计算机程序产品，能够有效提高基于RGB图像的深度估计的准确性。

第一方面，本申请实施例提供了一种深度估计方法，所述方法包括：

对待估计图像进行外观特征提取，得到多个尺度的第一特征图；

结合图像采集设备的设备参数，分别对所述多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图；所述图像采集设备为用于拍摄所述待估计图像的设备；

分别将相同尺度的第一特征图和第二特征图进行特征融合，获得各尺度各自对应的融合特征图；

基于所述各尺度各自对应的融合特征图进行深度估计，获得用于表示所述待估计图像中各像素深度值的深度图。

由于车辆在行驶过程中剧烈的运动可能会导致提取的图像特征和深度值在世界坐标系下不匹配，而且，图像采集设备的内参与图像每个像素对应的深度值息息相关，因此，上述实施例将图像采集设备的设备参数(内参和外参)编码进网络，以避免上述问题，进而提高基于RGB图像的深度估计的准确性；另外分别提取了待估计图像的外观特征和语义特征，然后进行特征融合，使得提取的特征包含待估计图像多方面的特征，进一步提高利用融合特征图进行深度估计的准确性。

可选的，所述对待估计图像进行外观特征提取，获得多个尺度的第一特征图，包括：

利用深度估计网络的第一特征提取层对所述待估计图像进行外观特征提取，获得多个尺度的第一特征图；

所述结合图像采集设备的设备参数，分别对所述多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图，包括：

结合所述设备参数，利用所述深度估计网络的第二特征提取层分别对所述多个尺度的第一特征图进行语义特征提取，获得多个尺度的第二特征图；

所述基于所述各尺度各自对应的融合特征图进行深度估计，获得用于表示所述待估计图像中各像素深度值的深度图，包括：

利用所述深度估计网络的分类层对各尺度分别对应的融合特征图进行深度估计，获得所述深度图；

其中，所述深度估计网络是基于多个样本图像，以及每个样本图像对应的样本深度图训练得到的，所述样本图像是基于所述图像采集设备得到的，所述样本深度图是基于通过雷达设备测量的深度真值确定的。

在上述实施例中，采用了端对端的深度学习网络进行深度估计，相比传统的马尔科夫随机场或条件随机场的深度估计方法，在不同场景、不同照明条件下鲁棒性更高；而且用于监督网络训练的样本深度图是基于雷达设备测量的深度真值确定的，相比现有技术合成的样本深度数据更加准确。

可选的，所述设备参数包括所述图像采集设备的内参数据和外参数据；所述结合所述设备参数，利用所述深度估计网络的第二特征提取层分别对所述多个尺度的第一特征图进行语义特征提取，获得多个尺度的第二特征图，包括：

利用所述第二特征提取层分别对所述多个尺度的第一特征图、所述图像采集设备的内参数据和外参数据进行特征提取，得到多个尺度的中间特征图、所述内参数据对应的内参特征向量以及所述外参数据对应的外参特征向量；

将所述内参特征向量和所述外参特征向量拼接到一起，得到所述图像采集设备的内外参特征向量；

利用所述内外参特征向量分别对所述多个尺度的中间特征图进行矫正，得到多个尺度的第二特征图。

在上述实施例中，首先分别对图像采集设备的内参数据和外参数据进行特征提取，得到内外参特征向量和外参特征向量；然后将内外参特征向量和外参特征向量进行拼接得到内外参特征向量；最后利用内外参特征向量对中间特征图进行矫正，即可降低图像采集设备的内外参数对深度值的影响。

可选的，采取如下方式对所述深度估计网络进行训练：

将每个样本图像分别输入所述深度估计网络进行深度估计，获得输出的预测深度图；

基于所述每个样本图像对应的样本深度图以及预测深度图，构建目标损失函数，并基于所述目标损失函数对所述深度估计网络的参数进行调整。

可选的，所述基于所述每个样本图像对应的样本深度图以及预测深度图，构建目标损失函数，包括：

针对每个样本图像，将所述样本图像进行外观特征提取及语义特征提取，得到所述样本图像对应的多个尺度的样本第一特征图，以及与所述多个尺度的样本第一特征图一一对应的样本第二特征图；

分别将所述样本图像对应的样本深度图和预测深度图，按照每个尺度进行尺度变换，得到所述样本图像对应的多个尺度的样本深度图，及多个尺度的预测深度图；

针对每个尺度，基于所述尺度的样本深度图中像素的数量、所述尺度的样本深度图中第i个深度真值、所述尺度的预测深度图中的第i个预测深度值与所述第i个深度真值相匹配的概率，构建所述尺度对应的损失函数；

将各尺度分别对应的损失函数相加得到所述目标损失函数。

在上述实施例中，由于特征图可能是多个尺度的，因此分别将所述样本图像对应的样本深度图和预测深度图，按照每个尺度进行尺度变换，得到所述样本图像对应的多个尺度的样本深度图，及多个尺度的预测深度图，然后利用各尺度的样本深度图和预测深度图构建目标损失函数，使得训练后深度估计网络的提取的特征以及估计的深度值更加准确。

可选的，采取如下方式获取样本深度图：

将所述雷达设备和所述图像采集设备的时钟进行同步，以及将所述雷达设备和所述图像采集设备的坐标系进行配准；

若通过所述雷达设备采集样本雷达数据的采集时间与所述图像采集设备采集样本图像的采集时间相匹配，则利用所述样本雷达数据中包含的深度真值构建所述样本图像对应的样本深度图。

在上述实施例中，基于通过雷达设备测量的深度真值相比合成的深度真值更加准确，而为了保证样本图像与样本雷达数据是关联的，首先将所述雷达设备和所述图像采集设备的时钟进行同步，以及将所述雷达设备和所述图像采集设备的坐标系进行配准，当通过所述雷达设备采集样本雷达数据的采集时间与所述图像采集设备采集样本图像的采集时间相匹配，则所述样本雷达数据与所述样本图像相关联。

可选的，所述利用所述深度估计网络的分类层对各尺度分别对应的融合特征图进行深度估计，获得所述深度图，包括：

按照尺度从小到大的顺序，将任意尺度的融合特征图按照后一尺度的融合特征图的尺度进行上采样后，与所述后一尺度的融合特征图对应位置的像素值相加，直至所述任意尺度的融合特征图没有后一尺度融合特征图为止；

将最后一次对应位置的像素值相加后得到的特征图，按照待估计图像的尺度进行上采样，得到用于表示所述待估计图像中各像素深度值的深度图。

在上述实施例中，不是直接将特征图直接上采样到待估计图像的尺度，而是按照尺度从小到大的顺序，依次进行上采样、对应像素值相加的操作，能够将特征再次利用，进而使得最后得到的深度值更加准确。

第二方面，本申请实施例提供了一种深度估计装置，所述装置包括：

处理器和存储器；其中，所述存储器与所述处理器连接，所述存储器用于存储计算机程序；所述处理器用于执行以下方法：

第三方面，本申请实施例提供了一种车辆，所述车辆包括如上述第二方面的深度估计装置。

第四方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，当所述计算机程序被处理器执行时实现上述第一方面的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行如上述第一方面的方法。

附图说明

图1为本申请实施例提供的一种深度估计应用场景示意图；

图2为本申请实施例提供的一种深度估计方法流程示意图；

图3为本申请实施例提供的一种全卷积网络结构示意图；

图4为本申请实施例提供的一种深度估计网络结构示意图；

图5为本申请实施例提供的一种多层感知器结构示意图；

图6为本申请实施例提供的一种深度估计网络训练流程示意图；

图7为本申请实施例提供的一种深度估计方法功能模块示意图；

图8为本申请实施例提供的一种电子设备示意图；

图9为本申请实施例提供的一种计算装置的一个硬件组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以按不同于此处的顺序执行所示出或描述的步骤。

首先，对本申请实施例中涉及的部分概念进行介绍。

雷达设备：是利用电磁波探测目标的电子设备。雷达发射电磁波对目标进行照射并接收其回波，由此获得目标至电磁波发射点的距离、距离变化率(径向速度)、方位、高度等信息。在本申请中，雷达设备安装在车辆上，用于探测车辆行驶过程中的路况和障碍物。

内参：用于表示所述图像采集设备的自身特性，例如相机的内参包括焦距、像素大小等。

外参：包括图像采集设备的旋转参数和位置参数，其中，位置参数指两坐标系转换时，新坐标系原点在原坐标系中的坐标分量。旋转参数指两坐标系转换时，把原坐标系中的各坐标轴左旋转到与新坐标系相应的坐标轴重合或平行时坐标系各轴依次转过的角度，包括但不限于偏航角(yaw)、俯仰角(pitch)和滚动角(roll)。

参见图1，其为本申请实施例的应用场景示意图，该应用场景中包括部署在车辆上的电子控制单元101、与电子控制单元连接的存储介质102、以及安装在车辆上的至少一个图像采集设备(如图示中图像采集设备103_1、图像采集设备103_2、图像采集设备103_N)。其中，电子控制单元101用于接收至少一个图像采集设备发送的待估计图像，并利用本申请实施例提供的深度估计方法进行深度估计，图像采集设备用于采集待估计图像，存储介质102用于存储电子控制单元101执行深度估计方法所需的数据和程序。

为了解决现有技术中，由于车辆在行驶过程中剧烈运动会导致利用图像采集设备采集的图像得到的深度真值不准确的问题，本申请实施例提供了一种深度估计方法，如图2所示，该方法包括：

S201：对待估计图像进行外观特征提取，得到多个尺度的第一特征图；

其中，外观特征即图像的浅层特征，具体是指图像的像素点信息，包括但不限于图像的颜色、纹理、边缘、棱角、位置和细节等信息。

其中，外观特征提取可基于机器学习的方式实现，如搭建神经网络模型，具体可以通过搭建全卷积网络实现深度估计，全卷积网络的结构如图3所示，也可以使用其它网络结构，此处不进行具体限定。

在本申请实施例中，采取如下实施方式对待估计图像进行外观特征提取：

如图4所示为本申请实施例提供的一种深度估计网络的网络结构(第一特征提取层、第二特征提取层和分类层)，利用深度估计网络的第一特征提取层对待估计图像进行外观特征提取，获得多个尺度的第一特征图，具体为先对待估计图像构造图像金字塔，然后在图像金字塔的每一层提取出不同的特征，得到不同尺度的第一特征图。其中，第一特征提取层可以为编码网络，也可以为其它的网络结构，此处不进行具体限定。

S202：结合图像采集设备的设备参数，分别对多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图；

其中，图像采集设备为用于拍摄待估计图像的设备，例如摄像头、相机等，此处不进行具体限定，设备参数包括图像采集设备的内参和外参，语义特征即待估计图像的深层特征。

为了使得到的特征图包含更全面的特征，不仅通过S201提取待估计图像的浅层特征，还进一步对深层特征进行提取。其中，语义特征提取也可以基于机器学习的方式实现，具体地可以通过构建多个神经网络模块实现，具体实施方式如下：

如图4所示，结合设备参数，利用深度估计网络的第二特征提取层分别对多个尺度的第一特征图、图像采集设备的内参和外参进行语义特征提取，获得多个尺度的第二特征图。其中第二特征提取层的网络结构可以包括多个堆叠的残差块用于对内参数据、外参数据以及多个尺度的第一特征图进行特征提取，得到多个尺度的中间特征图、内参数据对应的内参特征向量以及外参数据对应的外参特征向量；多层感知器，如图5所示，包括：输入层(输入神经元)、至少一个隐藏层(隐含神经元)以及输出层(输出神经元)，用于将内参特征向量和外参特征向量变换到与特征图的尺度相同的尺度，本申请实施例不对多层感知器的隐藏层的数量进行具体限定，具体可以根据实际情况进行设置；然后将内参特征向量和外参特征向量拼接到一起，得到图像采集设备的内外参特征向量。

压缩激励模块用于利用内外参特征向量分别对多个尺度的中间特征图进行矫正，得到多个尺度的第二特征图。压缩激励模块表示建模特征通道之间的相互依赖关系，通过学习的方式获取每个通道的重要程度，然后依照这个重要程度来对各个通道上的特征进行加权，从而突出重要特征，抑制不重要的特征。简单说就是训练一组权重，对各个通道的特征图加权。本质上，压缩激励模块是在通道维度上做注意力操作，这种注意力机制让模型可以更加关注重要的通道的特征。压缩激励模块可以轻松的移植到其他网络架构，能够以轻微的计算性能损失带来极大的准确率提升。而且，利用内外参特征向量对经过特征提取的多个尺度的中间特征图进行矫正，即可降低内外参数对深度值的影响。

上述第二特征提取层的结构仅是本申请实施例提供的一种实施方式，也可以采用其它网络结构，此处不进行具体限定。

由于车辆在行驶过程中剧烈运动会导致标定过的图像采集设备的外参发生变化，进一步导致提取的图像特征和深度真值在世界坐标系下不匹配，当网络的感受野更小时这种不匹配问题表现的更加明显。

为了解决上述问题，本申请实施例通过第二特征提取层将图像采集设备外参数据编码进深度估计网络，通过增大深度估计网络的感受野来解决不匹配的问题；由于在自动驾驶场景下有多个不同视角的图像采集设备，且估计图像上每个像素深度和图像采集设备的内参息息相关，因此本申请实施例把图像采集设备的内参作为第二特征提取层的输入之一。把外参特征向量和内参特征向量拼接到一起，能够提升第二特征提取层对2维特征在自车坐标系下的空间位置的敏感度。

S203：分别将相同尺度的第一特征图和第二特征图进行特征融合，获得各尺度各自对应的融合特征图。

具体地，以3个尺度为例，通过第一特征提取层对待估计图像进行外观特征提取后，得到第一尺度的第一特征图、第二尺度的第一特征图和第三尺度的第一特征图；利用第二特征提取层对多个尺度的第一特征图进行语义特征提取得到第一尺度的第二特征图、第二尺度的第二特征图和第三尺度的第二特征图；然后将第一尺度的第一特征图与第一尺度的第二特征图进行特征融合，将第二尺度的第一特征图与第二尺度的第二特征图进行特征融合，将第三尺度的第一特征图与第三尺度的第二特征图进行特征融合，得到第一尺度的融合特征图、第二尺度的融合特征图、第三尺度的融合特征图。

其中，特征融合可以采用系列特征融合，即直接将两个特征图进行连接，或者可以采用特征融合的算法(多尺度卷积神经网络)，本申请实施例不对特征融合的具体实施方式进行限定。

S204：基于各尺度各自对应的融合特征图进行深度估计，获得用于表示待估计图像中各像素深度值的深度图。

深度估计是场景重建的关键步骤，是对一张或唯一/多个视角下的三原色图像进行深度估计，进而确定图像中每个像素相对于拍摄源的距离，本申请实施例通过构建神经网络的方式进行深度估计，具体实施方式如下：

利用深度估计网络的分类层对各尺度分别对应的融合特征图进行深度估计，获得深度图。如图4所示，分类层可以为解码网络，解码网络具体对各尺度分别对应的融合特征图进行如下操作：

按照尺度从小到大的顺序，将任意尺度的融合特征图按照后一尺度的融合特征图的尺度进行上采样后，与后一尺度的融合特征图对应位置的像素值相加，直至任意尺度的融合特征图没有后一尺度融合特征图为止；

将最后一次对应位置的像素值相加后得到的特征图，按照待估计图像的尺度进行上采样，得到用于表示待估计图像中各像素深度值的深度图。

以3个尺度为例，通过步骤S203中的实施方式得到第一尺度的融合特征图

第二尺度的融合特征图/>

第三尺度的融合特征图/>

后(第一尺度<第二尺度<第三尺度)，将第一尺度的融合特征图按照第二尺度进行上采样得到/>

然后与第二尺度的融合特征图进行融合，融合过程为将对应位置的像素值相加/>

得到/>

将/>

按照第三尺度进行上采样得到/>

将/>

与/>

进行融合得到

最后对/>

按照待估计图像的尺度进行上采样，得到用于表示待估计图像中各像素深度值的深度图。

可选的，为了使预估的深度值更加准确，本申请实施例进一步计算了每个像素对应的所有可能深度值(例如，5～50米)的概率，将概率最大的深度值作为该像素对应的深度值，这种实施方式在一些深度值具有歧义性的像素点上表现的会更好，提高了模型的鲁棒性，不同位置的像素其对应的可能的深度值不同。

如图6所示，步骤S201～S204中的深度估计网络可以通过如下方式训练得到：

S601：利用深度估计网络的第一特征提取层对样本图像进行外观特征提取，得到多个尺度的样本第一特征图；该步骤与上述S201相似，此处不再赘述；

S602：结合图像采集设备的设备参数，利用深度估计网络的第二特征提取层分别对多个尺度的样本第一特征图进行语义特征提取，获得各尺度的样本第一特征图各自对应的样本第二特征图；该过程与上述S202相似，此处不再赘述；

S603：分别将相同尺度的样本第一特征图和样本第二特征图进行特征融合，获得各尺度各自对应的样本融合特征图；该过程与上述S203相似，此处不再赘述；

S604：利用深度估计网络的分类层对各尺度分别对应的样本融合特征图进行深度估计，获得用于表示样本图像中各像素深度值的预测深度图，基于预测的深度图以及样本深度图计算损失函数。

在本申请实施例中，深度估计网络是基于多个样本图像，以及每个样本图像对应的样本深度图训练得到的，样本图像是基于图像采集设备得到的，样本深度图是基于通过雷达设备测量的深度真值确定的。

上述实施例采用了端对端的深度学习网络进行深度估计，相比传统的马尔科夫随机场或条件随机场的深度估计方法，在不同场景、不同照明条件下鲁棒性更高；而且用于监督网络训练的样本深度图是基于雷达设备测量的深度真值确定的，相比现有技术合成的样本深度数据更加准确。

可选的，采取如下方式获取样本深度图：

将雷达设备和图像采集设备的时钟进行同步，以及将雷达设备和图像采集设备的坐标系进行配准。其中，时钟同步可以采用软件同步的方式，只需要将图像采集设备与雷达时钟同步即可，无需与网络标准时间进行同步。例如，网络标准时间为8:00，图像采集设备时钟的时间为7:45，雷达时钟的时间为8:10，则将雷达时钟的时间调整为7:45，或将图像采集设备时钟的时间调整为8:10。坐标系配准的方式为：首先，采用棋盘格标定图像采集设备安装参数，及通过工装支架标定超声波雷达安装参数，然后基于雷达与图像采集设备安装参数配准坐标系，本申请实施例不对时钟同步以及坐标系的方法进行具体限定。时钟同步以及坐标系配准后，当图像采集设备采集到某一障碍物的图像后，与该图像采集时间相匹配的雷达数据中也包含该障碍物的深度信息。

若通过雷达设备采集样本雷达数据的采集时间与图像采集设备采集样本图像的采集时间相匹配，则利用样本雷达数据中包含的深度真值构建样本图像对应的样本深度图，其中样本雷达数据与样本图像中包含相同物体的深度信息。

基于通过雷达设备测量的深度真值相比合成的深度真值更加准确，而为了保证样本图像与样本雷达数据是关联的，首先将雷达设备和图像采集设备的时钟进行同步，以及将雷达设备和图像采集设备的坐标系进行配准，当通过雷达设备采集的样本雷达数据的采集时间与图像采集设备采集样本图像的采集时间相匹配时，则样本雷达数据与样本图像相关联。

得到与图像采集设备采集样本图像的采集时间相匹配的样本雷达数据后，本申请实施例把样本雷达数据由自车坐标系转换到图像采集设备坐标系，(假设雷达设备采集的数据不是自车坐标系下的表示的话，需要把雷达设备的坐标系通过旋转和平移转换到图像采集设备坐标系下)，具体实施方式如下：

雷达用于描述物体与雷达设备的相对位置的表示为(XL,YL,ZL)，图像采集设备用于描述物体与图像采集设备的相对位置标识为(XC,YC,ZC)，二者之间的转换关系如公式：

其中，R为图像采集设备预先标定的旋转矩阵，T为图像采集设备预先标定的平移矩阵，R和T均为外参，0^T表示矩阵转置。

然后再使用图像采集设备的内参把图像采集设备坐标系下的坐标(XC,YC,ZC)转换到图像坐标系下，具体实施方式如下：

图像坐标系指在图像的像素坐标系下建立以物理单位(如毫米)表示的坐标系，使像素尺度具有物理意义，表示为[x,y]，其中原点为图像采集设备的主点，即图像采集设备的光轴与图像平面的交点，二者的转换关系如下述公式：

其中f为图像采集设备的焦距(内参)。

如果一个雷达设备采集的点云数据经过以上转换后没有在图像坐标系内就舍弃该点云数据。最后使用最小池化操作和独热编码对齐经过上述变换后的点云数据与待估计图像的像素。由于雷达设备只有在预设的距离内检测到障碍物时才会有信号，而图像采集设备无论在预设距离内是否检测到障碍物，其图像中都会有像素值，因此经雷达数据测得的深度真值的数量与图像采集设备采集的图像的像素数量不同，本申请实施例通过上述实施方式使得通过雷达设备测量的深度真值构建的深度图与待估计图像的疏密程度相同。通过上述过程，图像坐标系上的第(x,y)个坐标对应的像素就能获取到对应的雷达点云数据的深度真值，使得样本深度图中的深度真值与相关联的样本图像中的像素一一对应。

根据上述实施方式得到样本深度图后，则将每个样本图像分别输入深度估计网络进行深度估计，获得输出的预测深度图；进而，可基于每个样本图像对应的样本深度图以及预测深度图，构建目标损失函数，并基于目标损失函数对深度估计网络的参数进行调整。

其中，构建目标损失函数的具体实施方式如下：

针对每个样本图像，将样本图像进行外观特征提取及语义特征提取，得到样本图像对应的多个尺度的样本第一特征图，以及与多个尺度的样本第一特征图一一对应的样本第二特征图；

分别将样本图像对应的样本深度图和预测深度图，按照每个尺度进行尺度变换，得到样本图像对应的多个尺度的样本深度图，及多个尺度的预测深度图；

针对每个尺度，基于该尺度的样本深度图中像素的数量、该尺度的样本深度图中第i个深度真值、该尺度的预测深度图中的第i个预测深度值与第i个深度真值相匹配的概率，构建该尺度对应的损失函数。

例如，第一尺度对应的损失函数如下公式：

其中，N为第一尺度的样本深度图中深度真值的数量或第一尺度的预测深度图中预测深度值的数量，yi为第一尺度的样本深度图中第i个深度真值，p(yi)为第一尺度的预测深度图中的第i个预测深度值与第一尺度的样本深度图中第i个深度真值相匹配的概率，i表示第一尺度的样本深度图中第i个的深度真值，或第一尺度的预测深度图中的第i个预测深度值，样本深度图中深度真值和预测深度图中预测深度值是数量相同，且位置为一一对应的。

将各尺度分别对应的损失函数相加得到目标损失函数。

以3个尺度为例，利用上述损失函数的公式分别计算得到第一尺度对应的损失函数L1，第二尺度对应的损失函数L2，第三尺度对应的损失函数L3，将各尺度分别对应的损失函数相加得到目标损失函数L1+L2+L3。

目前，仅用3维目标检测的损失对整个网络进行训练的方法无法应用于多目图像(多个图像采集设备)，而在本申请实施例中，如果是多个图像采集设备，只需要把雷达点云投影到对应个图像采集设备视野中，由于多个图像采集设备的安装位置不一样，世界坐标系中的同一物体在不同图像采集设备采集的图像中的距离肯定不一样，通过雷达设备和每个图像采集设备内外参可以算出来同一物体在每个图像采集设备的深度真值，有了真值后，每个图像采集设备对应的图像都利用自己的深度真值计算损失函数，进而可以实现多目图像采集设备的深度估计。

在上述实施例中，由于特征图可能是多个尺度的，因此分别将所述样本图像对应的样本深度图和预测深度图，按照每个尺度进行尺度变换，得到所述样本图像对应的多个尺度的样本深度图，及多个尺度的预测深度图，然后利用各尺度的样本深度图和预测深度图构建目标损失函数，使得利用训练后深度估计网络提取的特征以及估计的深度值更加准确。

为了解决由于车辆剧烈运动导致的外参发生变化，从而导致深度估计网络提取的特征图和深度图在空间不匹配的问题，本申请实施例通过将外参数据编码进深度估计网络来解决该问题，从而大大提高了网络在深度估计上的性能；分别提取待估计图像的浅层特征和深层特征并进行特征融合，使得得到的特征图包含多方面的特征，进而可以提高深度估计的准确性；利用雷达设备构建的样本深度图对深度估计网络进行监督训练，避免了由于合成的深度数据带来的深度估计不准的情况；使用解码网络对多个尺度的特征图进行上采样，从而得到准确的稠密的深度图；目前，仅用3维目标检测的损失对整个网络进行训练的方法无法应用于多目图像(多个图像采集设备)，而在本申请实施例中，如果是多个图像采集设备，只需要把雷达点云投影到对应个图像采集设备视野中，由于多个图像采集设备的安装位置不一样，世界坐标系中的同一物体在不同图像采集设备采集的图像中的距离肯定不一样，通过雷达设备和每个图像采集设备内外参可以算出来同一物体在每个图像采集设备的深度真值，有了真值后，每个图像采集设备对应的图像都利用自己的深度真值计算损失函数，进而可以实现多目图像采集设备的深度估计。利用本申请实施例提供的深度估计方法，对后续3维目标检测的性能有明显的涨点效果，并且能够准确检测环境中的异形障碍物以及悬空的障碍物，大大提升自动驾驶系统整体的感知能力。

基于相同的发明构思，本申请实施例还提供了一种深度估计装置，包括：

可选的，上述处理器执行的方法形成程序后，各个程序功能模块对应的硬件执行模块可包括：第一特征提取模块701，第二特征提取模块702，特征融合模块703和深度估计模块704，如图7所示，其中：

第一特征提取模块701，用于对待估计图像进行外观特征提取，得到多个尺度的第一特征图；

第二特征提取模块702，用于结合图像采集设备的设备参数，分别对所述多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图；所述图像采集设备为用于拍摄所述待估计图像的设备；

特征融合模块703，用于分别将相同尺度的第一特征图和第二特征图进行特征融合，获得各尺度各自对应的融合特征图；

深度估计模块704，用于基于所述各尺度各自对应的融合特征图进行深度估计，获得用于表示所述待估计图像中各像素深度值的深度图。

可选的，第一特征提取模块701用于对待估计图像进行外观特征提取，获得多个尺度的第一特征图，包括：

第二特征提取模块702用于结合图像采集设备的设备参数，分别对所述多个尺度的第一特征图进行语义特征提取，获得各尺度的第一特征图各自对应的第二特征图，包括：

深度估计模块704用于基于所述各尺度各自对应的融合特征图进行深度估计，获得用于表示所述待估计图像中各像素深度值的深度图，包括：

可选的，设备参数包括所述图像采集设备的内参数据和外参数据；第二特征提取模块702用于结合所述设备参数，利用所述深度估计网络的第二特征提取层分别对所述多个尺度的第一特征图进行语义特征提取，获得多个尺度的第二特征图，包括：

可选的，所述装置还包括训练模块，用于采取如下方式对所述深度估计网络进行训练：

可选的，训练模块用于基于所述每个样本图像对应的样本深度图以及预测深度图，构建目标损失函数，包括：

将各尺度分别对应的损失函数相加得到所述目标损失函数。

可选的，训练模块用于采取如下方式获取样本深度图：

可选的，深度估计模块704用于利用所述深度估计网络的分类层对各尺度分别对应的融合特征图进行深度估计，获得所述深度图，包括：

基于相同的发明构思，本申请实施例还提供了一种车辆，该车辆包括：

雷达设备：用于获取用于训练深度估计网络的包含样本深度真值的样本雷达数据；

图像采集设备，用于采集用于训练深度估计网络的样本图像以及用于深度估计的待估计图像；

电子控制单元，部署了深度估计网络，用于接收图像采集设备发送的待估计图像以及对待估计图像进行深度估计；

其中，雷达设备及图像采集设备可安装在车身的前部、顶部、尾部等位置，不做限制。

该车辆还可包括车载显示屏、动力电池等现有的电动汽车或混动汽车的所设置的结构和设备，此处不再赘述。

在介绍了本申请示例性实施方式的深度估计装置和方法之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，电子设备的结构可以如图8所示，包括存储器801，通讯模块803以及一个或多个处理器802。

存储器801，用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器801可以是上述存储器的组合。

处理器802，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等。处理器802，用于在调用存储器801中存储的计算机程序时实现上述深度估计方法。

通讯模块803用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器801、通讯模块803和处理器802之间的具体连接介质。本申请实施例在图8中以存储器801和处理器802之间通过总线804连接，总线804在图8中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线804可以分为地址总线、数据总线、控制总线等。为便于描述，图8中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器801中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的深度估计方法。处理器802用于执行上述如图2所示的深度估计方法。

下面参照图9来描述根据本申请的这种实施方式的计算装置900。图9的计算装置900仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9，计算装置900以通用计算装置的形式表现。计算装置900的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902、连接不同系统组件(包括存储单元902和处理单元901)的总线903。

总线903表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储单元902还可以包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置900也可以与一个或多个外部设备904(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置900交互的设备通信，和/或与使得该计算装置900能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算装置900还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与用于计算装置900的其它模块通信。应当理解，尽管图中未表示出，可以结合计算装置900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁带驱动器以及数据备份存储系统等。

本申请实施例还提供一种计算机程序产品，包括计算机程序，当计算机程序被处理器执行时实现上述任意一种深度估计方法。例如，本申请中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、或者其它可编程装置。

可选的，计算机可读存储介质可以作为上述计算机程序产品的一种实现方式，即本申请实施例还提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序被处理器执行时实现如上述任意一种深度估计方法。

例如，所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种深度估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待估计图像进行外观特征提取，得到多个尺度的第一特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述设备参数包括所述图像采集设备的内参数据和外参数据；所述结合所述设备参数，利用所述深度估计网络的第二特征提取层分别对所述多个尺度的第一特征图进行语义特征提取，获得多个尺度的第二特征图，包括：

4.根据权利要求2所述的方法，其特征在于，采取如下方式对所述深度估计网络进行训练：

5.根据权利要求4所述的方法，其特征在于，所述基于所述每个样本图像对应的样本深度图以及预测深度图，构建目标损失函数，包括：

将各尺度分别对应的损失函数相加得到所述目标损失函数。

6.根据权利要求2所述的方法，其特征在于，采取如下方式获取样本深度图：

7.根据权利要求2任一项所述的方法，其特征在于，所述利用所述深度估计网络的分类层对各尺度分别对应的融合特征图进行深度估计，获得所述深度图，包括：

8.一种深度估计装置，其特征在于，所述装置包括：处理器和存储器；其中，所述存储器与所述处理器连接，所述存储器用于存储计算机程序；所述处理器用于执行以下方法：

9.一种车辆，其特征在于，所述车辆包括如权利要求8所述的深度估计装置。

10.一种计算机程序产品，包括计算机程序，其特征在于，当所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的方法。