CN111428859A

CN111428859A - 自动驾驶场景的深度估计网络训练方法、装置和自主车辆

Info

Publication number: CN111428859A
Application number: CN202010146888.5A
Authority: CN
Inventors: 周作禹; 高红星; 史信楚
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-17

Abstract

本申请公开了一种自动驾驶场景的深度估计网络的训练方法、装置和自主车辆。该方法包括：获取样本图像集合，样本图像的像素点标注有真实深度信息；根据样本图像集合对深度估计网络进行迭代的多轮训练，每轮训练包括：从样本图像集合中选取样本图像输入深度估计网络，得到通过深度估计网络预测的样本图像各像素点的预测深度信息；基于样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差，并基于样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差；基于第一预测误差和第二预测误差，调整深度估计网络的参数。本申请提供的技术方案能够解决现有的针对目标区域的深度估计精度不够准确的问题。

Description

自动驾驶场景的深度估计网络训练方法、装置和自主车辆

技术领域

本申请涉及自动驾驶技术领域，特别是涉及一种自动驾驶场景的深度估计网络的训练方法、装置和自主车辆。

背景技术

随着自动驾驶的发展，场景理解成为其中的重要问题，场景理解(sceneunderstanding)主要关注驾驶场景中的目标检索、检测、场景分割等，对实现自主车辆的自动驾驶具有重要作用，可以将从多个传感器的场景感知数据转化为自主运动的决策依据。而单目景深估计是其中亟待解决的关键技术。在现有的深度学习模型解决方案中，通常是通过特征提取网络，获得图像的局部特征和全局特征，由此预测图像中每个位置的深度值。

然而，深度学习模型中预测得到的各个位置深度是相对独立的。在自动驾驶的许多场景下，更关心整幅图像中重点区域的深度。比如自主车辆采集的道路图像中，障碍物的深度反映出自主车辆与障碍物的距离。而现有技术中深度学习模型无法针对障碍物的实际距离进行有效估计，因而自主车辆无法完成有效的自主决策实现自动驾驶。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种自动驾驶场景的深度估计网络的训练方法、装置和自主车辆。

依据本申请的一个方面，提供了一种自动驾驶场景的深度估计网络的训练方法，包括：

获取样本图像集合，所述样本图像的像素点标注有真实深度信息；

根据所述样本图像集合对深度估计网络进行迭代的多轮训练，每轮训练包括：从样本图像集合中选取样本图像输入深度估计网络，得到通过所述深度估计网络预测的所述样本图像各像素点的预测深度信息；基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差，并基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差；基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。

可选的，所述基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差，包括：

对于所述样本图像的预定区域内的每个像素点，基于各像素点的真实深度信息，计算第一统计分布；以及基于各像素点的预测深度信息，计算第二统计分布；

基于所述第一统计分布和所述第二统计分布之间的距离，计算第二预测误差。

可选的，所述第一统计分布和所述第二统计分布之间的距离包括KL散度距离。

可选的，所述真实深度信息为真实深度图，所述计算第一统计分布包括：

计算所述真实深度图中预定区域内的第一深度均值，并计算所述真实深度图中预定区域内的深度值相对于所述第一深度均值偏差的统计分布；

所述预测深度信息为预测深度图，所述计算第二统计分布包括：

计算所述预测深度图中预定区域内的第二深度均值，并计算所述预测深度图中预定区域内的深度值相对于所述第二深度均值偏差的统计分布。

可选的，所述基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数，包括：

若所述第一预测误差和所述第二预测误差中，至少一个预测误差不收敛，则根据不收敛的预测误差调整所述深度估计网络的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；

或者，

基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差不收敛，则根据所述综合误差调整所述深度估计网络的参数，若所述综合误差收敛，则结束训练。

可选的，所述预定区域通过对所述样本图像采用目标检测算法检测得到。

可选的，所述预定区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

依据本申请的一个方面，提供了一种自动驾驶场景的深度估计网络的训练装置，包括：

获取单元，用于获取样本图像集合，所述样本图像的像素点标注有真实深度信息；

训练单元，用于根据所述样本图像集合对深度估计网络进行迭代的多轮训练，每轮训练包括：从样本图像集合中选取样本图像输入深度估计网络，得到通过所述深度估计网络预测的所述样本图像各像素点的预测深度信息；基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差，并基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差；基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。

可选的，训练单元包括：

真实概率统计子单元，用于对于所述样本图像的预定区域内的每个像素点，基于各像素点的真实深度信息，计算第一统计分布；

预测概率统计子单元，用于基于各像素点的预测深度信息，计算第二统计分布；

计算子单元，用于基于所述第一统计分布和所述第二统计分布之间的距离，计算第二预测误差。

可选的，所述真实深度信息为真实深度图，真实概率统计子单元，用于计算所述真实深度图中预定区域内的第一深度均值，并计算所述真实深度图中预定区域内的深度值相对于所述第一深度均值偏差的统计分布；

所述预测深度信息为预测深度图，预测概率统计子单元，用于计算所述预测深度图中预定区域内的第二深度均值，并计算所述预测深度图中预定区域内的深度值相对于所述第二深度均值偏差的统计分布。

可选的，计算子单元，用于若所述第一预测误差和所述第二预测误差中，至少一个预测误差不收敛，则根据不收敛的预测误差调整所述深度估计网络的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；或者，基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差不收敛，则根据所述综合误差调整所述深度估计网络的参数，若所述综合误差收敛，则结束训练。

可选的，预定区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

依据本申请的一个方面，提供了一种自主车辆，其中，该自主车辆包括：车体，设置在车体内部的处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一项所述的方法。

依据本申请的一个方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述任一项所述的方法。

综上所述，本申请所公开的技术方案，为了提高在自动驾驶场景下对障碍物景深识别的准确性，通过从样本图像集合中获取像素点标注有真实深度信息的样本图像，对自动驾驶场景的深度估计网络的进行训练。样本图像输入深度估计网络，得到通过深度估计网络预测的样本图像各像素点的预测深度信息；基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差，并基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差；基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。即在自动驾驶场景的深度估计网络中在对整个场景采用第一预测误差训练的基础上，结合针对特定目标如障碍物等采用通过对预定区域内的预测深度信息和真实深度信息计算第二预测误差训练的方式，提高对预定区域内中特定目标的景深预测的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练方法的流程图；

图2示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练方法的详细流程图；

图3示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练方法的示意图；

图4示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练装置的结构示意图；

图5示出了根据本申请一个实施例的自主车辆的结构示意图；

图6示出了根据本申请一个实施例的可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请的发明构思为：利用目标检测算法从样本图像进行检测出预定区域，即得到包含目标的掩模或包围框。完成对场景中其它车辆、行人、路障等障碍物的检测。之后分别基于深度估计网络对样本图像进行深度估计，得到对应全图的预测深度信息，和对应预定区域的预测深度信息。基于全图的预测深度信息和真实深度信息，训练基于全图的损失函数，以及基于预定区域的预测深度信息和预定区域的真实深度信息，训练基于预定区域的损失函数。即根据对障碍物等进行目标检测的结果(如掩模或包围框)，对包含障碍物的预定区域额外训练基于预定区域的损失函数，使预定区域的景深预测更加准确。其中，额外增加的基于预定区域的损失函数可以是采用KL散度的损失函数，从而有效利用预定区域的整体结构的深度信息改善预定区域内深度估计精度。

图1示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练方法的流程图；参见图1所示，该方法包括如下步骤：

步骤S110，获取样本图像集合，所述样本图像的像素点标注有真实深度信息。

在步骤S110中，样本图像可以通过实际采集，也可以从预设的样本图像库中选取。其中，在实际采集过程中，针对图像传感器采集的RGB图像，同时通过激光雷达采集相同场景下的点云数据。其中，点云数据指的是当一束激光照射在物体表面，所返回的数据信息中包括该物体表面各个点在三维空间中的坐标信息，这些点的组合就是激光点云，所得到的数据就是点云数据。真实深度信息和点云数据通过坐标变换可以互相转换得到，一般来说真实深度信息可以通过图像坐标系－>世界坐标系的变换，得到点云数据。点云数据可以通过点云库(PCL，Point Cloud Library)，将点云数据转换为真实深度信息，如可以设置真实深度图的宽度/高度/光心坐标/焦距等，将采集的激光点云数据沿圆柱面投影展开，将从一个视点获取的点云转化为2D图像，该2D图像即为真实深度图。在真实深度图中每个像素值代表传感器距离物体的实际距离，即在真实深度图中，用不同的颜色表示不同的距离信息，真实深度图可以是灰度图，也可以为彩图。

步骤S120，根据所述样本图像集合对深度估计网络进行迭代的多轮训练。

其中步骤S120包括如下步骤：

步骤S121，从样本图像集合中选取样本图像输入深度估计网络，得到通过所述深度估计网络预测的所述样本图像各像素点的预测深度信息。

其中，预测深度信息可以为预测深度图，在预测深度图中每个像素点的像素值代表传感器距离物体的预测距离。

步骤S122，基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差。

在本申请的一种实施例中，可以采用将样本图像的预测深度均值和真实深度的均值作差，其差值作为第一预测误差。

步骤S123，基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差。

在本申请的一种实施例中，可以通过激光雷达采集的真实道路场景下的点云数据与单目摄像头采集的图片数据进行对准之后作为样本图像。因此，其中的预定区域可以为其它车辆、行人、沟渠等障碍物所处的区域。在本申请中障碍物是指所有可能会影响到自动驾驶车辆正常行驶的物体或区域。

在本申请的一种实施例中，可以采用将样本图像预定区域内的预测深度均值和真实深度的均值作差，其差值作为第二预测误差。

步骤S124，基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。

可见，在本申请中，所公开的深度估计网络的训练方法，为了提高在自动驾驶场景下对障碍物景深识别的准确性，通过从样本图像集合中获取像素点标注有真实深度信息的样本图像，对自动驾驶场景的深度估计网络的进行训练。在针对全图的第一预测误差进行计算的基础上，额外增加通过对预定区域内的预测深度信息和真实深度信息计算第二预测误差的方式，结合第一预测误差和第二预测误差对深度估计网络的参数进行调整。在自动驾驶场景下，能够有效的提高对预定区域内如障碍物的景深预测的准确性。其中，增加的第二预测误差是基于预定区域深度分布的损失函数。如可以采用将预测深度均值和真实深度的均值作差，其差值作为对应的损失函数。本申请的优点在于，基于对于全图的损失函数以及针对预定区域的损失函数，从而实现了有效利用预定区域内如障碍物等目标的物体具体结构信息，来提高对自动驾驶场景的下，如外卖送餐、快递物流的自动驾驶场景下对障碍物的景深的估计精度。

图2示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练方法的详细流程图；图3示出了根据本申请一个实施例的一种深度估计网络的训练方法的示意图。参见图2所示，该方法包括如下步骤：

步骤S210，获取样本图像集合；所述样本图像的像素点标注有真实深度信息。

在本申请的一种实施例中，真实深度信息为真实深度图(Depth Map)，在真实深度图中每个像素值代表传感器距离物体的实际距离，样本图像和真实深度图之间是配准的，即真实深度图中的每个像素点与对应的样本图像中的每个像素点一一对应。例如：真实深度图为灰度图像，每个像素点的值在0-255，像素点的像素值对应于实际深度。也就是说，像素点的像素值对应该像素点对应于其与传感器之间的实际距离。举例为，样本图像中某个代表汽车的像素点，该像素点在真实深度图中对应的像素值为4，则该汽车所对应的与传感器之间的实际距离为4m。在本申请的其它实施例中，真实深度图还可以为彩图，能够更加充分的表示对应的深度信息。上述仅为举例，并不对本申请的范围进行限制。

在本申请的具体实施例中，真实深度图可以通过激光雷达所拍摄的点云转化而来。具体为：激光雷达采集的点云数据，通过将激光点云沿圆柱面投影展开为深度图，通过特定算法转化为2D图像。

步骤S220，从样本图像集合中选取样本图像输入深度估计网络，得到通过所述深度估计网络预测的所述样本图像各像素点的预测深度信息。

在本申请的一种实施例中，通过深度估计网络选取样本图像集合中的样本图像进行深度估计，得到样本图像中各个像素点的预测深度信息。同样的，该预测深度信息为预测深度图。与真实深度图一样为灰度图，在预测深度图中，每个像素点的像素值为通过深度估计网络估计得到。

步骤S230，通过目标检测算法从样本图像得到的预定区域。

在步骤S230中，预定区域具体为通过目标检测算法得到的掩模或包围框。

包围框是一种求解离散点集最优包围空间的算法，基本思想是用体积稍大且特性简单的几何体(称为包围框)来近似地代替复杂的几何对象。在本申请的一种实施例中，在步骤S230中，其中，目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。针对样本图像中的目标计算出其包围框。

在本申请的一种具体实施例中，还可以是在提供的样本图像中设置预定区域，即在样本图像中就已经针对目标设置了对应的掩模(mask)或者包围框(bounding box)。

本申请的实施例中，对于深度估计网络来说，训练越多的样本图像的，得到的深度估计网络就越准确。因此样本图像集合需要大量的样本图像。然而通过手动设置预定区域的方式无法满足深度估计网络对于样本图像的数量要求。因而，对采集到的实际场景通过目标检测算法计算障碍物所在的预定区域，能够快速的积累样本图像集合，从而能够减少训练所需的样本图像集合收集时间，提高深度估计网络的训练效果。

步骤S240，对于所述样本图像的预定区域内的每个像素点，基于各像素点的真实深度信息，计算第一统计分布。

在本申请的一种实施例中，根据样本图像所对应的真实深度图，计算所述真实深度图中预定区域内的第一深度均值。由于真实深度图中，每个像素点都有对应的像素值，然后计算该预定区域内的所有像素值的均值对应为第一深度均值。并计算真实深度图中预定区域内的各个像素点的深度值相对于所述第一深度均值偏差的统计分布。因此，计算得到了第一深度均值，针对每个像素点的深度值与该第一深度均值之间的偏差，得到第一统计分布。例如，可以根据均方根误差公式、均方差误差公式计算每个像素点的深度值与该第一深度均值之间的偏差，具体采用的计算公式可以根据实际场景设定，此处举例并不是对本申请的限制。

在本申请的其它实施例中，在计算第一统计分布的过程中，还可以基于所述预定区域内的像素点的真实深度信息，确定所述像素点对应于各预定深度信息的多个真实概率；基于所述多个真实概率，统计其概率分布作为第一统计分布。在后续步骤S250中同样以统计得到的预测概率分布作为第二统计分布。

步骤S250，基于各像素点的预测深度信息，计算第二统计分布。

在本申请的一种实施例中，根据针对样本图像进行估计后所输出的预测深度图，计算预测深度图中预定区域内的第二深度均值。并计算预测深度图中预定区域内的深度值相对于所述第二深度均值偏差的统计分布，得到第二统计分布。计算过程与步骤S240中的计算方式相同，在此不重复赘述。

步骤S260，基于所述第一统计分布和所述第二统计分布之间的距离，计算第二预测误差。

参见图3所示，还可以在得到的预设深度图中通过目标检测算法得到对应的预定区域，在对应的真实深度图中通过目标检测算法得到对应的预定区域；通过分别检测到的预定区域的真实深度图和预测深度图计算出对应的第二预测误差。

在本申请的一种实施例中，所述第一统计分布和所述第二统计分布之间的距离包括KL散度距离。较佳的，在步骤S260中，采用KL散度的损失函数来计算第二预测误差，具体公式如下：

其中，其中P(x)为预测深度图中预定区域内的深度值相对于所述第二深度均值偏差的统计分布，Q(x)为真实深度图中预定区域内的深度值相对于所述第一深度均值偏差的统计分布。

在本申请的其它实施例中，还可以采用其它损失函数，在此不再一一举例。

步骤S270，基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差。参见图3所示，通过深度估计网络对图像样本集合中的图像进行深度估计得到预测深度信息，然后与真实深度信息计算出对应的第一预测误差。

在步骤S270中，可以采用从步骤S220到步骤S260之间的方式得到对应的第一预测误差，即将步骤S220中选定的预定区域为全图。在本申请的其它实施例中，还可以根据得到的真实深度信息对应的真实统计分别和预测深度信息对应的预测统计分布，通过预设的损失函数计算出第一预测误差。

在步骤S270中所采用的损失函数可以与步骤S260中的损失函数相同，也可以不相同，具体可以根据实际场景进行选择，在此不做限制。

步骤S280，基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。

在本申请的一种实施例中，步骤S280中调整深度估计网络的参数的过程，具体为：若所述第一预测误差和所述第二预测误差中，至少一个预测误差不收敛，则根据不收敛的预测误差调整所述深度估计网络的参数；若所述第一预测误差和所述第二预测误差均收敛，则结束训练。

在本申请的另一种实施例中，步骤S280中调整深度估计网络的参数的过程，具体为：基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差不收敛，则根据所述综合误差调整所述深度估计网络的参数；若所述综合误差收敛，则结束训练。

可见，在本申请中，在对深度估计网络进行训练时，训练的样本中直接对样本图像中进行包含目标的预定区域的识别划分。在一个样本图像中可以识别出一个也可以识别出多个目标。在对目标所在的预定区域设置对应的第二预测误差对应的KL散度损失函数来提高对预定区域内目标的实际深度识别的准确性。完成训练的深度估计网络在进行深度识别时，能够直接输出深度值，而无需其他的后续融合操作，具有便捷的优点。

并且，本申请中对于预定区域的损失函数的训练，能直接基于在原始的样本图像中通过现有的目标检测算法得到，不需要额外计算，具有对于样本图像集合的要求更低，训练的成本更低，得到的对应于预定区域的损失函数更准确。也就是说，通过在对应于全图的损失函数训练的基础上，通过目标检测算法圈定多个预定区域，对预定区域内的预测深度信息和真实深度信息训练基于预定区域的损失函数，通过将全图的损失函数与预定区域的损失函数同时作用，提高对预定区域内目标的景深的预测的准确性。所增加的第二预测误差是基于目标深度分分布的损失函数。从而实现了有效利用预定区域内目标的物体具体结构信息，来提高对目标区域景深的估计精度。具体而言，就是在基于全图的损失函数下，通过深度估计网络能够输入当前场景下5m处有个汽车；结合了基于预定区域的损失函数下，通过深度估计网络能够输入当前场景下，4m处是汽车的车头，6m处是汽车的车尾。提高场景深度估计的精度的优点在于，能够更好的让自主车辆在自动驾驶时能够做出最佳的驾驶决策，完成对障碍物的闪避，提高对于运送外卖、物流等自主车辆在自动驾驶的安全性。

在本申请的实际应用中，基于所述第一预测误差和所述第二预测误差，训练完成的深度估计网络，在对车辆实际景深的估计场景下，能够减少图像中的目标，如车辆区域的景深预测误差(越小越好)。具体的实验数据，以均方根误差(Root Mean Squared Error)作为误差计算方式，采用本申请的技术方案能够将景深预测的误差从1.685降到1.651。并且，还可以用于对车辆进行检测，具体的实验数据，以平均检测精度(Average precision)作为误差计算方式，采用本申请的技术方案能够将车辆的平均检测精度从27.5％提升到29.4％。

图4示出了根据本申请一个实施例的一种自动驾驶场景的深度估计网络的训练装置的结构示意图，参见图4所示，该装置包括：

获取单元410，用于获取样本图像集合，所述样本图像的像素点标注有真实深度信息。

训练单元420，用于根据所述样本图像集合对深度估计网络进行迭代的多轮训练，每轮训练包括：从样本图像集合中选取样本图像输入深度估计网络，得到通过所述深度估计网络预测的所述样本图像各像素点的预测深度信息；基于所述样本图像各像素点的真实深度信息和预测深度信息，计算第一预测误差，并基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差；基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数。

可见，在本申请中，所公开的深度估计网络的训练装置，在针对全图的第一预测误差进行计算的基础上，额外增加通过对预定区域内的预测深度信息和真实深度信息计算第二预测误差的方式，结合第一预测误差和第二预测误差对深度估计网络的参数进行调整。在对障碍物景深的估计场景下，能够提高对预定区域内如障碍物的景深预测的准确性。其中，增加的第二预测误差是基于预定区域深度分布的损失函数。如可以采用将预测深度均值和真实深度的均值作差，其差值作为对应的损失函数。本申请的优点在于，基于对于全图的损失函数以及针对预定区域的损失函数，从而实现了有效利用预定区域内目标的物体具体结构信息，来提高对目标区域景深的估计精度。

在本申请的一种实施例中，训练单元420包括：

真实概率统计子单元421，用于对于所述样本图像的预定区域内的每个像素点，基于各像素点的真实深度信息，计算第一统计分布。

预测概率统计子单元422，用于基于各像素点的预测深度信息，计算第二统计分布。

计算子单元423，用于基于所述第一统计分布和所述第二统计分布之间的距离，计算第二预测误差。

在本申请的一种实施例中，所述真实深度信息为真实深度图，真实概率统计子单元421，用于计算所述真实深度图中预定区域内的第一深度均值，并计算所述真实深度图中预定区域内的深度值相对于所述第一深度均值偏差的统计分布。

在本申请的一种实施例中，所述预测深度信息为预测深度图，预测概率统计子单元422，用于计算所述预测深度图中预定区域内的第二深度均值，并计算所述预测深度图中预定区域内的深度值相对于所述第二深度均值偏差的统计分布。

在本申请的一种实施例中，计算子单元423，用于若所述第一预测误差和所述第二预测误差中，至少一个预测误差不收敛，则根据不收敛的预测误差调整所述深度估计网络的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；或者，基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差不收敛，则根据所述综合误差调整所述深度估计网络的参数，若所述综合误差收敛，则结束训练。

在本申请的一种实施例中，所述预定区域通过对所述样本图像采用目标检测算法检测得到。预定区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

需要说明的是，上述实施例示出的深度估计网络的训练装置可分别用于执行前述实施例示出的深度估计网络的训练方法，因此具体实现方式和技术效果在此不再重复描述。

本申请还公开了一种自主车辆，图5示出了根据本申请一个实施例的自主车辆的结构示意图。该自主车辆500包括车体，和设置在车体内的处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如，用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。本申请所提供的自主车辆，所包含的深度估计网络能够更好的让自主车辆在自动驾驶时能够做出最佳的驾驶决策，完成对障碍物的闪避，提高对于运送外卖、物流等自主车辆在自动驾驶的安全性。

图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531，可以被自主车辆500上的处理器510读取，当计算机可读程序代码531由自主车辆500上的处理器运行时，导致该自主车辆500执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。

为了便于清楚描述本申请实施例的技术方案，在申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

本文中使用的词语“自主车辆”包括在地面上行驶的车辆(例如汽车，卡车，公交车等)，但也可以包括在空中行驶的车辆(例如无人机，飞机，直升机等)，在水上行驶的车辆(例如船，潜艇等)。此外，本文中讨论的一个或多个“车辆”可以在其中容纳或不容纳一个或多个乘客。本文讨论的车辆也可以应用于无人配送比如快递物流，或外卖送餐等领域。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种自动驾驶场景的深度估计网络的训练方法，包括：

2.根据权利要求1所述的方法，所述基于所述样本图像的预定区域内的像素点的真实深度信息和预测深度信息，计算第二预测误差，包括：

3.根据权利要求2所述的方法，所述第一统计分布和所述第二统计分布之间的距离包括KL散度距离。

4.如权利要求2所述的方法，其特征在于，所述真实深度信息为真实深度图，所述计算第一统计分布包括：

5.根据权利要求1所述的方法，所述基于所述第一预测误差和所述第二预测误差，调整所述深度估计网络的参数，包括：

或者，

6.根据权利要求1-5中任一项所述的方法，所述预定区域通过对所述样本图像采用目标检测算法检测得到。

7.根据权利要求6所述的方法，所述预定区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

8.一种自动驾驶场景的深度估计网络的训练装置，包括：

9.一种自主车辆，其中，该自主车辆包括：车体，设置在车体内部的处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。