CN111680554A

CN111680554A - 自动驾驶场景的深度估计方法、装置和自主车辆

Info

Publication number: CN111680554A
Application number: CN202010354536.9A
Authority: CN
Inventors: 周作禹; 高红星; 史信楚
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-18

Abstract

本申请公开了一种自动驾驶场景的深度估计方法、装置和自主车辆。该方法公开了：获取场景图像；利用深度估计模型的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；利用深度估计模型中与所述深度估计网络级联的偏差估计网络，基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息；根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。本申请提供的技术方案能够解决现有的针对目标区域的深度估计精度不够准确的问题。

Description

自动驾驶场景的深度估计方法、装置和自主车辆

技术领域

本申请涉及自动驾驶技术领域，特别是涉及一种自动驾驶场景的深度估计方法、装置和自主车辆。

背景技术

随着自动驾驶的发展，场景理解成为其中的重要问题，场景理解(sceneunderstanding)主要关注驾驶场景中的目标检索、检测、场景分割等，对实现自主车辆的自动驾驶具有重要作用，可以将多个传感器的场景感知数据转化为自主运动的决策依据。而单目景深估计是其中亟待解决的关键技术。在现有的深度学习模型解决方案中，通常是通过特征提取网络，获得图像的局部特征和全局特征，由此预测图像中每个位置的深度值。

然而，深度学习模型中预测得到的各个位置的深度值是相对独立的。在自动驾驶的许多场景下，更关心整幅图像中重点区域的深度。比如自主车辆采集的道路图像中，障碍物的深度反映出自主车辆与障碍物的距离。而现有技术中深度学习模型无法针对障碍物的实际距离进行有效估计，因而自主车辆无法完成有效的自主决策实现自动驾驶。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种自动驾驶场景的深度估计方法、装置和自主车辆。

依据本申请的一个方面，提供了一种自动驾驶场景的深度估计方法，包括：

获取场景图像；

利用深度估计模型的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；

利用深度估计模型中与所述深度估计网络级联的偏差估计网络，基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息；

根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。

可选的，所述深度估计模型是通过如下方式训练得到的：

获取样本图像，根据所述样本图像对所述深度估计网络进行训练，所述深度估计网络训练结束之后，再根据所述样本图像对所述级联的偏差估计网络进行训练；

或者，

获取样本图像，根据所述样本图像对所述深度估计网络和所述级联的偏差估计网络同时进行训练。

可选的，所述根据所述样本图像对所述深度估计网络进行训练包括：

获取样本图像集合，样本图像的像素点标注有真实深度信息；

根据所述样本图像集合对深度估计网络进行迭代的多轮训练；每轮训练包括：

从样本图像集合中选取样本图像输入所述深度估计网络，通过所述深度估计网络提取样本图像的图像特征，并基于所述图像特征生成所述样本图像的基础深度估计信息；基于所述样本图像的基础深度估计信息和真实深度信息，计算第一预测误差；基于所述第一预测误差，调整所述深度估计网络的参数。

可选的，所述根据所述样本图像对级联的偏差估计网络进行训练包括：

获取通过所述深度估计网络提取的样本图像的图像特征，根据所述样本图像的图像特征对级联的偏差估计网络进行迭代的多轮训练；每轮训练包括：

获取通过所述深度估计网络提取的样本图像的多尺度图像特征信息；根据预设的目标检测算法从所述样本图像中选取目标区域；

基于目标区域的多尺度图像特征信息生成相对于所述基础深度估计信息的目标区域偏差估计信息；基于所述基础深度估计信息和真实深度信息生成偏差真实信息；

基于所述目标区域偏差估计信息和偏差真实信息，计算第二预测误差；基于所述第二预测误差，调整所述级联的偏差估计网络的参数。

可选的，基于所述样本图像的目标区域偏差估计信息和偏差真实信息，计算第二预测误差包括：

基于目标区域偏差真实信息，计算第一统计结果；基于目标区域偏差估计信息，计算第二统计结果；基于所述第一统计结果和所述第二统计结果，计算第二预测误差。

可选的，所述偏差真实信息为偏差真实图，所述计算第一统计结果包括：

计算所述偏差真实图中目标区域内的第一深度均值，并计算所述偏差真实图中目标区域内的深度值相对于所述第一深度均值偏差的统计分布，得到第一统计结果；

所述偏差估计信息为偏差估计图，所述计算第二统计结果包括：

计算所述偏差估计图中目标区域内的第二深度均值，并计算所述偏差估计图中目标区域内的深度值相对于所述第二深度均值偏差的统计分布，得到第二统计结果。

可选的，所述根据所述样本图像对所述深度估计网络和所述级联的偏差估计网络同时进行训练，包括：

若所述第一预测误差和所述第二预测误差中，至少一个预测误差未收敛，则根据未收敛的预测误差调整所述深度估计模型的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；

或者，

基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差未收敛，则根据所述综合误差调整所述深度估计模型的参数，若所述综合误差收敛，则结束训练。

可选的，所述目标区域通过对所述样本图像采用目标检测算法检测得到。

可选的，所述目标区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

依据本申请的一个方面，提供了一种自动驾驶场景的深度估计装置，包括：

获取单元，用于获取场景图像；

深度估计单元，用于提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；

偏差估计单元，与所述深度估计单元级联，用于基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息；

计算单元，用于根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。

可选的，所述深度估计装置还包括训练单元：

所述训练单元，用于获取样本图像，根据所述样本图像对所述深度估计单元进行训练，所述深度估计单元训练结束之后，再根据所述样本图像对所述级联的偏差估计单元进行训练；

或者，获取样本图像，根据所述样本图像对所述深度估计单元和所述级联的偏差估计单元同时进行训练。

可选的，训练单元，用于获取样本图像集合，样本图像的像素点标注有真实深度信息；根据所述样本图像集合对深度估计网络进行迭代的多轮训练；每轮训练包括：从样本图像集合中选取样本图像输入所述深度估计单元，通过所述深度估计单元提取样本图像的图像特征，并基于所述图像特征生成所述样本图像的基础深度估计信息；基于所述样本图像的基础深度估计信息和真实深度信息，计算第一预测误差；基于所述第一预测误差，调整所述深度估计网络的参数。

可选的，训练单元，用于获取通过所述深度估计网络提取的样本图像的图像特征，根据所述样本图像的图像特征对级联的偏差估计单元进行迭代的多轮训练；每轮训练包括：获取通过所述深度估计单元提取的样本图像的多尺度图像特征信息；根据预设的目标检测算法从所述样本图像中选取目标区域；基于目标区域的多尺度图像特征信息生成相对于所述基础深度估计信息的目标区域偏差估计信息；基于所述基础深度估计信息和真实深度信息生成偏差真实信息；基于所述目标区域偏差估计信息和偏差真实信息，计算第二预测误差；基于所述第二预测误差，调整所述级联的偏差估计网络的参数。

可选的，所述训练单元，基于目标区域偏差真实信息，计算第一统计结果；基于目标区域偏差估计信息，计算第二统计结果；基于所述第一统计结果和所述第二统计结果，计算第二预测误差。

可选的，所述偏差真实信息为偏差真实图，所述训练单元，用于计算所述偏差真实图中目标区域内的第一深度均值，并计算所述偏差真实图中目标区域内的深度值相对于所述第一深度均值偏差的统计分布，得到第一统计结果；

所述偏差估计信息为偏差估计图，所述训练单元，用于计算所述偏差估计图中目标区域内的第二深度均值，并计算所述偏差估计图中目标区域内的深度值相对于所述第二深度均值偏差的统计分布，得到第二统计结果。

可选的，所述训练单元，用于若所述第一预测误差和所述第二预测误差中，至少一个预测误差未收敛，则根据未收敛的预测误差调整所述深度估计模型的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；

或者，所述训练单元，用于基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差未收敛，则根据所述综合误差调整所述深度估计模型的参数，若所述综合误差收敛，则结束训练。

可选的，目标区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

依据本申请的一个方面，提供了一种自主车辆，其中，该自主车辆包括：车体，设置在车体内部的处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一项所述的方法。

依据本申请的一个方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述任一项所述的方法。

综上所述，本申请所公开的技术方案，为了提高在自动驾驶场景下对障碍物景深识别的准确性，对获取的场景图像利用深度估计模型中的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；然后利用深度估计模型中与所述深度估计网络级联的偏差估计网络，基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息；根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。即在自动驾驶场景的深度估计模型中在对整个场景图像采用深度估计网络进行深度估计的基础上，针对特定目标如障碍物等目标区域通过目标区域偏差估计信息进行修正，提高对目标区域内特定目标的深度估计的准确性。既可以实现对整个场景图像的深度估计，还可以强化对场景图像中的目标区域的深度估计的精度，从而提高在自动驾驶场景下的安全性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的流程图；

图2示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的详细流程图；

图3示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的示意图；

图4示出了根据本申请一个实施例的深度估计网络的训练流程图；

图5示出了根据本申请一个实施例的偏差估计网络的训练流程图；

图6示出了根据本申请一个实施例的一种自动驾驶场景的深度估计装置的结构示意图；

图7示出了根据本申请一个实施例的自主车辆的结构示意图；

图8示出了根据本申请一个实施例的可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请的发明构思为：利用目标检测算法从样本图像中检测出目标区域，即得到包含目标的掩模或包围框。完成对场景中其它车辆、行人、路障等障碍物的检测。之后利用深度估计模型的深度估计网络对场景图像的进行基础深度估计；然后利用偏差估计网络对目标区域的基础深度估计信息进行偏差估计，根据得到的目标区域偏差估计信息对目标区域的基础深度估计信息进行修正。因为目标区域的偏差估计信息的变化范围相对较小，进行偏差估计的难度降低，从而在不大量增加计算量的情况下，能够对偏差进行准确的估计，从而有效提高了针对目标区域的实际景深估计的精度。

图1示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的流程图；参见图1所示，该方法包括如下步骤：

步骤S110，获取场景图像。

在步骤S110中，可以通过单目摄像头采集场景图像。

步骤S120，利用深度估计模型的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息。

在步骤S120中，用于对场景图像进行深度估计的深度估计模型包含深度估计网络和级联的偏差估计网络。在实际使用过程中，深度估计网络和级联的偏差估计网络都是训练好的卷积神经网络，可以直接使用。即输入场景图片就能直接输入对应的基础深度估计信息。其中，基础深度估计信息可以是预测深度图，图中的每个像素点的像素值对应实际的深度信息。

步骤S130，利用深度估计模型中与所述深度估计网络级联的偏差估计网络，基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息。

在步骤S130中，通过级联的偏差估计网络对所生成基础深度信息中目标区域部分的偏差进行估计。即图像特征输入到级联的偏差估计网络中，能够直接输出通过该深度估计网络进行深度估计时可能存在的偏差。

步骤S140，根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。

在步骤S140中，基于偏差估计网络能够对深度估计网络所估计的基础深度估计信息所存在的偏差进行估计；从而基于该偏差估计网络得到的针对场景图像中目标区域的目标区域偏差估计信息，对目标区域的基础深度估计信息进行修正，从而在深度估计模型在对场景图像进行深度估计时，提高了针对场景图像中目标区域的深度估计的准确性。

综上所述，为了提高在自动驾驶场景下对障碍物景深识别的准确性，在自动驾驶场景的深度估计模型中，在对整个场景图像采用深度估计网络进行景深识别的基础上，针对特定目标如障碍物等目标区域通过目标区域偏差估计信息进行修正，提高对目标区域内中特定目标的景深预测的准确性，从而提高在自动驾驶场景下的安全性。本申请的优点在于，基于深度估计网络对于场景图像的全图进行深度估计的基础上，通过偏差估计网络对深度估计网络的基础深度估计信息进行修正。由于估计的深度与真实的深度之间偏差的范围较小，对偏差进行估计的难度降低，从而有效提高了如外卖送餐、快递物流的自动驾驶场景下对障碍物的景深的估计精度。

图2示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的详细流程图；图3示出了根据本申请一个实施例的一种自动驾驶场景的深度估计方法的示意图。参见图2、3所示，该方法包括如下步骤：

步骤S210，获取场景图像，将所获取的场景图像输入深度估计模型。

在步骤S210中，在本申请的实际应用场景中，如外卖送餐、快递物流的自动驾驶场景下，通过安装在自主车辆上的摄像头采集周围环境的场景图像，将采集的场景图像输入到深度估计模型中，通过该深度估计模型中的深度估计网络和偏差估计网络对场景图像中特定目标区域所存在的障碍物的实际景深进行估计，从而为实现自主车辆的自动驾驶提供驾驶策略。

步骤S220，利用深度估计模型的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；

在申请的一种实施例中，深度估计网络可以为编码器-解码器的结构。其中编码器(encoder)和解码器(decoder)分别对应着输入序列和输出序列的两个循环神经网络(RNN)。编码器的作用是把一个不定长的输入序列转换成一个定长的背景向量c，该背景向量包含了输入序列的信息；解码器的作用是将编码的输入序列进行解码，以输出目标序列。参见图3所示，深度估计网络包含了两个子网络，作为编码器的循环神经网络和作为解码器的循环神经网络。

在步骤S220中，通过编码器循环神经网络和解码器循环神经网络从输入的场景图像中提取图像特征，图像特征为关键的像素点。然后根据提取的图像特征，生成场景图像的基础深度估计信息。基础深度估计信息可以为预测深度图，在预测深度图中每个像素点的像素值代表传感器距离物体的预测距离。也就是说，通过输入场景图像到该深度估计网络中，就能输出场景图像中各像素点的估计景深。

在本申请的具体实现方式中，所使用的深度估计网络是通过样本图像集合训练好的。具体的训练过程在后续进行详细说明。

步骤S230，获取通过所述深度估计网络提取的场景图像的多尺度图像特征信息。

在步骤S230中，多尺度图像特征信息是指，通过深度估计网络提取场景图像在不同分辨率下的图像特征信息。

步骤S240，根据预设的目标检测算法从所述场景图像中选取目标区域。

在步骤S240中，目标区域具体为通过目标检测算法得到的掩模或包围框。包围框是一种求解离散点集最优包围空间的算法，基本思想是用体积稍大且特性简单的几何体(称为包围框)来近似地代替复杂的几何对象。在本申请的一种实施例中，在步骤S240中，目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

通过目标检测算法从场景图像中，检测出障碍物等目标，计算出其包围框，并在选取目标区域之后。较佳的，可以将场景图像的图像特征中不属于该目标区域的包围框内的图像特征置为0，即不考虑包围框之外的图像特征，使得级联的偏差估计网络能够专注于目标区域，从而能够更好的对目标区域的深度估计的偏差进行估计。

在本申请的一种具体实施例中，还可以是在提供的样本图像中设置目标区域，即在样本图像中就已经针对目标设置了对应的掩模(mask)或者包围框(bounding box)。

本申请的实施例中，对于深度估计网络来说，用于训练的样本图像集合中样本图像的数量越多，得到的深度估计网络就越准确。因此，通过手动设置目标区域的方式可能无法满足深度估计网络对于样本图像的数量要求。在实际应用场景中，对采集到的实际场景图像通过目标检测算法计算障碍物所在的目标区域，能够快速的实现对目标区域精度的估计，提高场景深度估计的反应时间。并且，在训练阶段，通过预设的目标检测算法，能够快速的积累样本图像集合，从而能够减少训练所需的样本图像集合收集时间，提高深度估计模型的训练效果。

步骤S250，基于目标区域的多尺度图像特征信息，通过所述与深度估计网络级联的偏差估计网络生成相对于所述基础深度估计信息的目标区域偏差估计信息。

在步骤S250中，将获取的目标区域的多尺度图像特征信息输入到与所述深度估计网络级联的偏差估计网络中，得到针对目标区域的目标区域偏差估计信息。其中，目标区域偏差估计信息是针对场景图片中目标区域的各图像特征的估计深度与实际深度之间差值的估计信息。

在本申请的具体实现方式中，所使用的与所述深度估计网络级联的偏差估计网络是通过样本图像集合训练好的。具体的训练过程在后续进行详细说明。

步骤S260，根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中的目标区域的最终深度估计结果。

在步骤S260中，目标区域基础深度估计信息加上目标区域偏差估计信息即得到目标区域最终深度估计结果。参见图3中所示，将通过深度估计网络得到的基础深度估计信息以及通过级联的偏差估计网络得到的针对目标区域的偏差估计信息进行叠加，通过目标区域的偏差估计信息对基础深度估计信息中的目标区域的实际景深进行修正；即得到的最终深度图中，目标区域以外部分为未修正的基础深度估计信息，目标区域部分为修正之后的最终深度估计结果。相比于仅仅依靠深度估计网络输出的基础深度估计信息，对于场景图像中目标区域的深度预测的精度得到了有效的提升。并且，由于通过基础深度估计信息能够确定出场景图像中各像素点的深度的大致范围，目标区域各像素点的深度的估计偏差的范围通常较小，也就更容易进行偏差估计，因此，在基础深度估计信息的基础上，根据目标区域偏差估计信息，对目标区域的实际景深进行调整，从而得到更加准确的深度信息，提高了对目标区域的深度估计的精度。

此外，在本申请的其它实施例中，目标区域可以扩大到与场景图像相同大小，则目标区域偏差估计信息可以对整个场景图像的基础深度估计信息进行修正，得到对应整个的场景图像的最终深度估计结果。即本申请的所提供的技术方案不仅可以实现对于整个场景图像的基础深度估计信息的修正，也可以仅仅针对特定目标区域的基础深度估计信息进行修正。

可见，在本申请中，在自动驾驶场景的深度估计模型中在对整个场景图像采用深度估计网络进行深度估计的基础上，针对特定目标如障碍物等目标区域通过目标区域偏差估计信息进行修正，提高对目标区域内中特定目标的深度估计的准确性，从而提高在自动驾驶场景下的安全性。本申请的优点在于，基于深度估计网络对于场景图像的全图进行深度估计的基础上，通过偏差估计网络对深度估计网络的基础深度估计信息进行修正。由于估计的深度与真实的深度之间偏差的范围较小，对偏差进行估计的难度降低，从而有效提高了如外卖送餐、快递物流的自动驾驶场景下对障碍物的景深的估计精度。

图4示出了根据本申请一个实施例的深度估计网络的训练流程图；即根据样本图像集合对深度估计网络进行迭代的多轮训练；参见图4所示每轮训练包括如下步骤：

步骤S410，获取样本图像集合；所述样本图像的像素点标注有真实深度信息。

在本申请的一种实施例中，真实深度信息为真实深度图(Depth Map)，在真实深度图中每个像素值代表传感器距离物体的实际距离，样本图像和真实深度图之间是配准的，即真实深度图中的每个像素点与对应的样本图像中的每个像素点一一对应。例如：真实深度图为灰度图像，每个像素点的值在0-255，像素点的像素值对应于实际深度。也就是说，像素点的像素值对应该像素点对应于其与传感器之间的实际距离。举例为，样本图像中某个代表汽车的像素点，该像素点在真实深度图中对应的像素值为4，则该汽车所对应的与传感器之间的实际距离为4m。在本申请的其它实施例中，真实深度图还可以为彩图，能够更加充分的表示对应的深度信息。上述仅为举例，并不对本申请的范围进行限制。

在步骤S410中，样本图像可以通过实际采集，也可以从预设的样本图像库中选取。其中，在实际采集过程中，针对图像传感器采集的RGB图像，同时通过激光雷达采集相同场景下的点云数据。其中，点云数据指的是当一束激光照射在物体表面，所返回的数据信息中包括该物体表面各个点在三维空间中的坐标信息，这些点的组合就是激光点云，所得到的数据就是点云数据。真实深度信息和点云数据通过坐标变换可以互相转换得到，一般来说真实深度信息可以通过图像坐标系－>世界坐标系的变换，得到点云数据。点云数据可以通过点云库(PCL，Point Cloud Library)，将点云数据转换为真实深度信息，如可以设置真实深度图的宽度/高度/光心坐标/焦距等，将采集的激光点云数据沿圆柱面投影展开，将从一个视点获取的点云转化为2D图像，该2D图像即为真实深度图。在真实深度图中每个像素值代表传感器距离物体的实际距离，即在真实深度图中，用不同的颜色表示不同的距离信息，真实深度图可以是灰度图，也可以为彩图。

在本申请的一种实施例中，可以通过激光雷达采集的真实道路场景下的点云数据与单目摄像头采集的图片数据进行对准之后作为样本图像。因此，其中的目标区域可以为其它车辆、行人、沟渠等障碍物所处的区域。在本申请中障碍物是指所有可能会影响到自动驾驶车辆正常行驶的物体或区域。

步骤S420，通过所述深度估计网络提取样本图像的图像特征。

在步骤S420中，深度估计网络中包含多个卷积层构成，每个卷积层包含多个卷积核，用这些卷积核从左向右、从上往下依次扫描整个样本图像，得到样本图像的图像特征。

步骤S430，基于所述图像特征生成所述样本图像的基础深度估计信息。

在本申请的一种实施例中，将生成的图像特征输入深度估计网络进行深度估计，得到样本图像中各个像素点的基础深度估计信息。该基础深度估计信息为预测深度图。与真实深度图一样为灰度图，在预测深度图中，每个像素点的像素值为通过深度估计网络估计得到。

步骤S440，基于所述样本图像的真实深度信息，得到第三统计结果。

在本申请的一种实施例中，根据样本图像所对应的真实深度图，计算所述真实深度图的第三深度均值。由于真实深度图中，每个像素点都有对应的像素值，然后计算所有像素值的均值对应为第三深度均值。并计算真实深度图中各个像素点的深度值相对于所述第三深度均值偏差的统计分布。因此，计算得到了第三深度均值，针对每个像素点的深度值与该第三深度均值之间的偏差，得到第三统计结果。例如，可以根据均方根误差公式、均方差误差公式计算每个像素点的深度值与该第三深度均值之间的偏差，具体采用的计算公式可以根据实际场景设定，此处举例并不是对本申请的限制。

步骤S450，基于所述样本图像的基础深度估计信息，得到第四统计结果。

在本申请的一种实施例中，根据针对样本图像进行估计后所输出的预测深度图，计算预测深度图中第四深度均值。并计算预测深度图中各个像素点的深度值相对于所述第四深度均值偏差的统计分布，得到第四统计结果。计算过程与上述第三统计结果中的计算方式相同，在此不重复赘述。

步骤S460，基于第三统计结果和第四统计结果，计算第一预测误差。

在步骤S460中，基于所述第三统计结果和所述第四统计结果之间的距离，计算第一预测误差。

在本申请的一种实施例中，所述第三统计结果和所述第四统计结果之间的距离包括KL散度距离。在步骤S460中，采用KL散度的损失函数来计算第一预测误差，具体公式如下：

其中，其中P(x)为预测深度图中的深度值相对于所述第四深度均值偏差的统计分布，Q(x)为真实深度图中的深度值相对于所述第三深度均值偏差的统计分布。在本申请的其它实施例中，还可以采用其它损失函数，在此不再一一举例。

步骤S470，基于所述第一预测误差，调整所述深度估计网络的参数。

在本申请的一种实施例中，训练的过程具体为：若所述第一预测误差未收敛，则根据未收敛的预测误差调整所述深度估计模型的参数，若所述第一预测误差收敛，则结束训练。

图5示出了根据本申请一个实施例的偏差估计网络的训练流程图；参见图5所示，该方法包括如下步骤：

步骤S510，获取通过所述深度估计网络提取的样本图像的图像特征。

在步骤S510中，获取通过深度估计网络提取的样本图像的多尺度图像特征信息；具体为通过卷积神经网络提取样本图像的在不同分辨率下的像素点。

步骤S520，根据预设的目标检测算法从所述图像特征中选取目标区域。

在步骤S520中，可以通过快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD或者YOLO等目标检测算法从输入的多尺度图像特征信息中选取目标区域。其中，目标区域可以是包含障碍物的区域。

步骤S530，基于所述基础深度估计信息和真实深度信息生成偏差真实信息。

在步骤S530中，所生成偏差真实信息可以为偏差真实图。具体为：将基础深度估计信息对应预测深度图和真实深度信息对应的真实深度图求差值，得到对应的偏差真实图。在所述偏差真实图中，每个像素点的像素值对应于该像素点的真实偏差。

步骤S540，基于目标区域的偏差真实信息，计算第一统计结果。

在步骤S540中，根据目标区域的偏差真实图，计算所述偏差真实图的第一深度均值。并计算偏差真实图中各个像素点的像素值值相对于所述第一深度均值偏差的统计分布，得到第一统计结果。例如，可以根据均方根误差公式、均方差误差公式计算每个像素点的像素值与该第二深度均值之间的偏差，具体采用的计算公式可以根据实际场景设定，此处举例并不是对本申请的限制。

步骤S550，基于目标区域的多尺度图像特征信息生成相对于所述基础深度估计信息的目标区域偏差估计信息。

在步骤S550中，偏差估计信息可以是偏差估计图，图中的每个像素点的像素值用来表示该像素点的真实深度和估计深度之间的估计差值。

步骤S560中，基于目标区域偏差估计信息，计算第二统计结果。

在步骤S560中，根据偏差估计图，计算所述偏差估计图的第二深度均值。并计算偏差估计图中各个像素点的像素值相对于所述第二深度均值偏差的统计分布，得到第二统计结果。例如，可以根据均方根误差公式、均方差误差公式计算每个像素点的像素值与该第三深度均值之间的偏差，具体采用的计算公式可以根据实际场景设定，此处举例并不是对本申请的限制。

步骤S570，基于所述第一统计结果和所述第二统计结果，计算第二预测误差。

在本申请的一种实施例中，在步骤S570中，可以基于所述第一统计结果和所述第二统计结果之间的距离，计算第二预测误差。具体的，可以采用KL散度公式来计算第二预测误差，可以参见步骤S460中的计算方法，在此不一一赘述。

步骤S580，基于所述第二预测误差，调整级联的偏差估计网络的参数。

在本申请的一种实施例中，训练的过程具体为：若所述第二预测误差未收敛，则根据未收敛的预测误差调整所述深度估计模型的参数，若所述第二预测误差收敛，则结束训练。

在本申请的一种实施例中，所述深度估计模型是通过如下方式训练得到的：获取样本图像，根据所述样本图像，按照图4中所示流程对所述深度估计网络进行训练，所述深度估计网络训练结束之后，再根据所述样本图像按照图5中所示训练流程对所述级联的偏差估计网络进行训练。举例为：采用分别训练时，先用第一预测误差训练深度估计网络，训练好后；再用第二预测误差训练级联的偏差估计网络。

在本申请的另一种实施例中，所述深度估计模型是通过如下方式训练得到的：获取样本图像，根据所述样本图像对所述深度估计网络和所述级联的偏差估计网络同时进行训练。举例为：采用一起训练的方式，根据第一预测误差+alpha*第二预测误差形成一个新的综合预测误差，根据该综合预测误差同时训练深度估计网络和级联的偏差估计网络，alpha为第二预测误差对应的权重，具体数值可以根据实际场景进行调整。

可见，在本申请中，在对深度估计模型进行训练时，训练的样本中直接对样本图像中进行包含目标的目标区域的识别划分。在一个样本图像中可以识别出一个也可以识别出多个目标。通过深度估计网络针对全图的深度估计进行训练，通过设置的偏差估计网络对目标所在的目标区域设置的偏差估计进行训练，从而提高针对目标区域的实际深度识别的准确性。完成训练的深度估计网络在进行深度识别时，能够直接输出深度值，而无需其他的后续融合操作，具有便捷的优点。

并且，本申请中对于目标区域的损失函数的训练，能直接基于在原始的样本图像中通过现有的目标检测算法得到，不需要额外计算，具有对于样本图像集合的要求更低，训练的成本更低，得到的对应于目标区域的损失函数更准确。也就是说，通过在对应于全图的损失函数训练的基础上，通过目标检测算法圈定多个目标区域，对目标区域内的预测深度信息进行修正，来提高对目标区域景深的估计精度。具体而言，就是在基于全图的损失函数下，通过深度估计网络能够输入当前场景下5m处有个汽车；结合了针对目标区域的偏差估计网络，通过偏差估计网络对深度估计网络所估计景深进行修正，如修正之后，4m处是汽车的车头，6m处是汽车的车尾。提高场景深度估计的精度的优点在于，能够更好的让自主车辆在自动驾驶时能够做出最佳的驾驶决策，完成对障碍物的闪避，提高对于运送外卖、物流等自主车辆在自动驾驶的安全性。

在本申请的实际应用中，基于所述第一预测误差和所述第二预测误差，训练完成的深度估计模型，在对车辆实际景深的估计场景下，能够减少图像中的目标，如车辆区域的景深预测误差(越小越好)。具体的实验数据，以均方根误差(Root Mean Squared Error)作为误差计算方式，采用本申请的技术方案能够将景深预测的误差从1.685降到1.651。并且，还可以用于对车辆进行检测，具体的实验数据，以平均检测精度(Average precision)作为误差计算方式，采用本申请的技术方案能够将车辆的平均检测精度从27.5％提升到29.4％。

图6示出了根据本申请一个实施例的一种自动驾驶场景的深度估计装置的结构示意图，参见图6所示，该装置包括：

获取单元610，用于获取场景图像；

深度估计单元620，用于利用深度估计模型的深度估计网络提取场景图像的图像特征，并基于所述图像特征生成所述场景图像的基础深度估计信息；

偏差估计单元630，用于利用深度估计模型中与所述深度估计网络级联的偏差估计网络，基于所述图像特征生成相对于所述基础深度估计信息的目标区域偏差估计信息；

计算单元640，用于根据所述基础深度估计信息和所述目标区域偏差估计信息确定所述场景图像中目标区域的最终深度估计结果。

可见，在本申请中，所公开的深度估计网络的训练装置，在针对全图的深度估计网络的基础上，额外增加级联的偏差估计网络对深度估计网络所估计的目标区域内的基础深度估计信息进行修正。在对障碍物景深的估计场景下，能够提高对目标区域内如障碍物的景深预测的准确性。即在自动驾驶场景的深度估计模型中在对整个场景图像采用深度估计网络进行景深识别的基础上，针对特定目标如障碍物等目标区域通过目标区域偏差估计信息进行修正，提高对目标区域内中特定目标的景深预测的准确性，从而提高在自动驾驶场景下的安全性。

在本申请的一种实施例中，所述深度估计装置还包括训练单元：

在本申请的一种实施例中，训练单元，用于获取样本图像集合，样本图像的像素点标注有真实深度信息；根据所述样本图像集合对深度估计网络进行迭代的多轮训练；每轮训练包括：从样本图像集合中选取样本图像输入所述深度估计单元，通过所述深度估计单元提取样本图像的图像特征，并基于所述图像特征生成所述样本图像的基础深度估计信息；基于所述样本图像的基础深度估计信息和真实深度信息，计算第一预测误差；基于所述第一预测误差，调整所述深度估计网络的参数。

在本申请的一种实施例中，训练单元，用于获取通过所述深度估计网络提取的样本图像的图像特征，根据所述样本图像的图像特征对级联的偏差估计单元进行迭代的多轮训练；每轮训练包括：获取通过所述深度估计单元提取的样本图像的多尺度图像特征信息；根据预设的目标检测算法从所述样本图像中选取目标区域；基于目标区域的多尺度图像特征信息生成相对于所述基础深度估计信息的目标区域偏差估计信息；基于所述基础深度估计信息和真实深度信息生成偏差真实信息；基于所述目标区域偏差估计信息和偏差真实信息，计算第二预测误差；基于所述第二预测误差，调整所述级联的偏差估计网络的参数。

在本申请的一种实施例中，所述训练单元，基于目标区域偏差真实信息，计算第一统计结果；基于目标区域偏差估计信息，计算第二统计结果；基于所述第一统计结果和所述第二统计结果，计算第二预测误差。

在本申请的一种实施例中，所述训练单元，用于若所述第一预测误差和所述第二预测误差中，至少一个预测误差未收敛，则根据未收敛的预测误差调整所述深度估计模型的参数，若所述第一预测误差和所述第二预测误差均收敛，则结束训练；

在本申请的一种实施例中，所述训练单元，用于基于所述第一预测误差和所述第二预测误差的求和结果或者加权求和结果确定综合误差，若所述综合误差未收敛，则根据所述综合误差调整所述深度估计模型的参数，若所述综合误差收敛，则结束训练。

在本申请的一种实施例中，所述目标区域通过对所述样本图像采用目标检测算法检测得到。

在本申请的一种实施例中，目标区域具体为通过目标检测算法得到的掩模或包围框，所述目标检测算法包括以下任一种：快速的基于区域的卷积神经网络Faster-RCNN、基于区域的全卷积网络RFCN,单次多边界框检测器SSD以及YOLO。

需要说明的是，上述实施例示出的深度估计装置可分别用于执行前述实施例示出的深度估计方法，因此具体实现方式和技术效果在此不再重复描述。

本申请还公开了一种自主车辆，图7示出了根据本申请一个实施例的自主车辆的结构示意图。该自主车辆700包括车体，和设置在车体内的处理器710和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器720。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码731的存储空间730。例如，用于存储计算机可读程序代码的存储空间730可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码731。计算机可读程序代码731可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图8所述的计算机可读存储介质。本申请所提供的自主车辆，所包含的深度估计网络能够更好的让自主车辆在自动驾驶时能够做出最佳的驾驶决策，完成对障碍物的闪避，提高对于运送外卖、物流等自主车辆在自动驾驶的安全性。

图8示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质800存储有用于执行根据本申请的方法步骤的计算机可读程序代码731，可以被自主车辆700上的处理器710读取，当计算机可读程序代码731由自主车辆700上的处理器运行时，导致该自主车辆700执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码731可以执行上述任一实施例中示出的方法。计算机可读程序代码731可以以适当形式进行压缩。

为了便于清楚描述本申请实施例的技术方案，在申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

本文中使用的词语“自主车辆”包括在地面上行驶的车辆(例如汽车，卡车，公交车等)，但也可以包括在空中行驶的车辆(例如无人机，飞机，直升机等)，在水上行驶的车辆(例如船，潜艇等)。此外，本文中讨论的一个或多个“车辆”可以在其中容纳或不容纳一个或多个乘客。本文讨论的车辆也可以应用于无人配送比如快递物流，或外卖送餐等领域。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种自动驾驶场景的深度估计方法，包括：

获取场景图像；

2.根据权利要求1所述的方法，其特征在于，所述深度估计模型是通过如下方式训练得到的：

或者，

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本图像对所述深度估计网络进行训练包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本图像对级联的偏差估计网络进行训练包括：

5.根据权利要求4所述的方法，其特征在于，基于所述样本图像的目标区域偏差估计信息和偏差真实信息，计算第二预测误差包括：

6.根据权利要求5所述的方法，其特征在于，所述偏差真实信息为偏差真实图，所述计算第一统计结果包括：

7.根据权利要求2所述的方法，所述根据所述样本图像对所述深度估计网络和所述级联的偏差估计网络同时进行训练，包括：

或者，

8.一种自动驾驶场景的深度估计装置，包括：

获取单元，用于获取场景图像；

9.一种自主车辆，其中，该自主车辆包括：车体，设置在车体内部的处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。