CN110706271A

CN110706271A - 一种车载视觉实时多车载目标横纵向距离估计方法

Info

Publication number: CN110706271A
Application number: CN201910939170.9A
Authority: CN
Inventors: 李克强; 熊辉; 余大蒙; 王建强; 谷子青; 许庆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-17
Anticipated expiration: 2039-09-30
Also published as: CN110706271B

Abstract

本发明公开了一种一种车载视觉实时多车载目标横纵向距离估计方法，该方法包括：步骤1，根据输入自车相机采集到的二维图像，利用纵向距离估计模型，输出所述二维图像中第i个目标框的对应的纵向距离；步骤2，根据输入自车相机采集到的二维图像以及步骤1获得的纵向距离，利用横向距离估计模型，输出所述二维图像中第i个目标框的横向距离；步骤3，按照所述步骤1和步骤2提供的方法，获取所述二维图像中的各个目标框的纵向距离和横向距离，以得到所述二维图像中的所述各个目标框的纵向距离集合和其相应的横向距离集合。本发明能准确实时地估计车载目标在世界坐标系下的横纵向距离，是车载视觉环境下三维车载目标检测的重要支撑技术，可为智能车辆的碰撞预警和路径规划提供依据。

Description

一种车载视觉实时多车载目标横纵向距离估计方法

技术领域

本发明涉及自动驾驶技术领域，特别是关于一种车载视觉实时多车载目标横纵向距离估计方法。

背景技术

近几年来，基于深度学习的车载视觉感知方法也被广泛地研究和探索，相比于传统感知方法取得了较大的进步。然而，在车辆、行人和骑车人等交通参与者同时存在的复杂行驶环境中，一些挑战性的问题依然存在。相比于通用车载目标检测和图像分割感知任务，三维车载目标检测任务中的横纵向距离难以准确估计，特别是纵向距离估计(深度估计)。三维车载目标检测输出是车载目标在真实世界的三维位置、姿态、尺寸及类别。由于二维图像缺少三维感知中最为关键的纵向距离信息，从二维图像中进行三维感知是一个不适定问题。虽然通过单目或双目深度估计可以估计车载目标纵向距离，但不准确的纵向距离估计可能会严重影响模型对三维空间的理解。与二维车载目标检测相比，基于单目视觉的三维车载目标检测研究较少，且由于问题难度较大，检测精度上与二维车载目标检测相比还存在较大差距。

另外，由于自动驾驶车辆的规划和控制都需要在世界坐标系或车辆坐标系下进行，因此视觉感知算法不仅需要得到图像坐标系中的感知结果，还需要提供世界坐标系下的结果。然而，基于单目视觉的三维车载目标检测难度远高于二维车载目标检测，近几年基于深度学习的三维车载目标检测虽然已经取得较大进步，但该任务还远没有被很好地解决。相比于基于激光雷达点云或多源传感器融合的三维车载目标检测方法，基于单目视觉的方法在对车载目标三维位置的准确估计，特别是车载目标纵向距离的准确估计上还存在较大的提高空间。因此，车载目标纵向距离估计的精确性是单目视觉三维检测效果的关键。

对于基于单目视觉三维检测中的深度估计感知任务，现有Deep3Dbox、GS3D等深度网络模型仅采用几何约束的方法来进行深度估计，其定位精度较低，没考虑横向距离估计。现有横向估计方法，将车载目标的二维目标框的中心近似为三维车载目标中心在二维图像中的投影，这种横向估计方法具有一定的系统误差，且在图像中，若车载目标被部分遮挡或截断，此时的二维目标框难以准确估计。另外，在自动驾驶场景中，三维车载目标检测中的车载目标横纵向距离估计方法对实时性要求较高，单帧处理时间通常要求在100ms以下，需占用大量计算资源的方法并不适用。对于742×375像素大小的输入图像，在GPU平台上，Deep MANTA方法在处理时间为0.7s，Deep3DBox方法为1.5s，GS3D方法为2s，都无法满足自动驾驶场景中对感知任务实时性的要求。因此，对于智能车辆而言，为了准确地实时地估计不同车载环境车载目标的横纵向距离，需要专门研究车载视觉环境下的多车载目标横纵向距离估计方法。

发明内容

本发明的目的在于提供一种车载视觉实时多车载目标横纵向距离估计方法来克服或至少减轻现有技术的上述缺陷中的至少一个

为实现上述目的，本发明提供一种车载视觉实时多车载目标横纵向距离估计方法，该方法包括：

步骤1，根据输入自车相机采集到的二维图像，利用下式(1)和式(2)所表示的纵向距离估计模型，输出所述二维图像中第i个目标框的对应的纵向距离

式(1)和式(2)中，

是第i个目标框所处的总深度区间[l_start，l_end]被划分成K个空间递增的纵向子区间对应的序号，

为序号为

的纵向子区间的纵向距离估计值，

为序号为

的纵向子区间的纵向距离估计值，P_i ^k为第i个目标框的深度区间序号为k的概率，

是回归补偿项的估计值；

步骤2，根据输入自车相机采集到的二维图像以及步骤1获得的纵向距离

利用下式(3)所表示的横向距离估计模型，输出所述二维图像中第i个目标框的横向距离X：

式(3)中，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述二维图像的横坐标；s是由所述纵向距离

决定的参数；

步骤3，按照所述步骤1和步骤2提供的方法，获取所述二维图像中的各个目标框的纵向距离和横向距离，以得到所述二维图像中的所述各个目标框的纵向距离集合

和其相应的横向距离集合。

进一步地，所述步骤1中，第i个目标框所处的总深度区间[l_start，l_end]被划分成K个空间递增的纵向子区间len_k由下式(4)表示：

式(4)中，len_k∈len₀,len₁,...,len_K，k∈{0、1、…、K-1}；l_start和l_end的具体数值主要根据自车相机的相关参数确定，K为设定值。

进一步地，所述纵向子区间的纵向距离估计值

使用有序回归技术确定得到。

进一步地，所述步骤1中，第i个目标框的回归补偿项的估计值

用于补偿第i个目标框所处的总深度区间被划分成K个空间递增的纵向子区间len_k带来的划分误差，其获取方法包括：

预先设置如式(5)和式(6)表示的补偿项损失函数L_RF(Θ)，通过迭代优化方法最小化补偿项损失函数L_RF(Θ)，获取

其中，

是第i个目标框的回归补偿项的估计值

的集合：

式(5)和式(6)中，

是第i个目标框的补偿项损失函数，其中：Θ表示需要学习的模型参数，N是迭代优化方法最小化过程中的离线数据集中所有车载目标的数量，D^*是迭代优化方法最小化过程中的离线数据集中车载目标的纵向距离真值集合，是迭代优化方法最小化过程中的离线数据集中车载目标的纵向距离真值集合。

进一步地，所述步骤2中的第i个目标框的三维中心在所述二维图像的横坐标u的获取方法具体包括：

步骤21，通过离线数据集训练YOLOv3车载目标检测模型；

步骤22，将单目单帧图像输入到步骤21离线训练好的YOLOv3车载目标检测模型，得到深度卷积神经网络特征图；

步骤23，根据步骤22输出的深度卷积神经网络特征图，预测输出第i个目标框在所述二维图像中的二维位置和所属类别；

步骤24，根据步骤23输出的第i个目标框在所述二维图像中的二维位置和所属类别，，以及步骤22中的深度卷积神经网络特征图，利用经过训练学习得到的YOLOv3车载目标检测模型，得到第i个目标框的三维中心在所述二维图像的投影位置p(u,v)。

进一步地，所述步骤24中的YOLOv3车载目标检测模型的获得方法包括：

步骤241，通过下式(7)计算出车辆坐标系下离线数据集中的真实车载目标的中心C(X Y Z)^*在自车相机采集到二维图像中的真实投影位置c(u v)^*；

步骤242，根据真实车载目标的中心C(X Y Z)^*，利用未经训练学习的YOLOv3车载目标检测模型，映射输出真实车载目标的中心C(X Y Z)^*的估计投影位置p(u,v)；

步骤243，根据真实投影位置c(u v)^*与估计投影位置p(u,v)的偏差建立损失函数；

步骤244，通过迭代优化方法最小化所述步骤243所建立的损失函数，训练得到YOLOv3车载目标检测模型的相关参数。

本发明能够在车辆行驶过程中准确实时地估计车载目标在世界坐标系下的横纵向距离，是车载视觉多车载目标的三维车载目标检测的重要支撑技术，也为智能车辆的碰撞预警和路径规划提供依据。

附图说明

图1是本发明的多车载目标横纵向距离估计方法框架的示意图。

图2是本发明实施例中基于空间递增离散划分进行深度区间有序回归方法的示意图。

图3是本发明实施例中车载目标横向距离估计方法的示意图；

图4是本发明实施例中目标框的示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本实施例可以为智能车辆提供准确实时的车载目标在自车的车辆坐标系中的横向距离和纵向距离(下文将“横向距离和纵向距离”简称为“横纵向距离”)，其作为车载视觉环境下三维车载目标检测的重要支撑技术，也可以为智能车辆的碰撞预警和路径规划提供依据。其中，车辆坐标系被定义为：以自车外的三维包围框的中心为坐标原点，X轴为自车的横向，且将驾驶员的右侧视为正方向；Z轴为自车的纵向，且将驾驶员的正前方视为正方向；Y轴为高度方向，且将驾驶员的下方视为正方向。

自车相机采集到的图像平面所处的平面为为文中提及的二维坐标系。本实施例中，自车相机采集到的二维图像中的各个车载目标采用目标框的形式进行呈现(如图4所示的方形的目标框A)，该目标框以尽可能紧凑的方式包围在车载目标的外部。

本实施例所提供的车载视觉实时多车载目标横纵向距离估计方法包括：

本步骤利用车辆坐标系映射至二维图像的特点，使得深度估计模型训练收敛更快，深度估计结果更加准确。

式(1)和式(2)中，

是第i个目标框位于总深度区间[l_start，l_end]中的序号，所述总深度区间被划分成K个空间递增的纵向子区间，每一个所述纵向子区间从所述总深度区间的一端到另一端依序编号，该编号即为

为序号为

的纵向子区间的纵向距离估计值，

为序号为

的纵向子区间的纵向距离估计值，P_i ^k为第i个目标框的深度区间序号为k的概率，是回归补偿项的估计值。

本实施例中，将第i个目标框所处的总深度区间[l_start，l_end]划分为K个空间递增的纵向子区间len_k的过程中，考虑到真实世界中同样大小的距离区间内的物体映射到图像中时，近端映射的像素远多于远端的像素，即在二维图像中，相比于中远端映射的像素，近端像素提供的信息更为丰富。采用空间递增离散划分技术来划分纵向距离范围，将近端的纵向距离密集划分，远端的稀疏划。纵向子区间len_k由下式(4)表示，通过这种方式能够更好地采用离线区间的有序回归技术，进行纵向距离区间估计。

式(4)中，len_k∈len₀,len₁,...,len_K是纵向子区间j的纵向距离大小；k∈{0、1、…、K-1}；l_start和l_end的具体数值主要根据自车相机的相关参数确定，比如总的深度区间[l_start，l_end]可以是[0,70]；K也为设定值，比如可以设定为30。

式(3)中，横向距离X指的是第i个目标框的中心在车辆坐标系中沿X轴的分量，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述二维图像的横坐标；s是由所述纵向距离

决定的参数；

和其相应的横向距离集合。

在一个实施例中，使用有序回归技术确定所述纵向子区间的纵向距离估计值

粗略估计有序回归的车载目标值

同时利用回归补偿项

补偿所述纵向子区间划分过程中引起的误差。

如图2所示，将纵向距离值离散划分为若干区间后，由于相邻的纵向距离区间具有连续的相关性，因此更加适合采用有序回归的方式(图b1～图b3)，而不是采用传统的直接多类分类(图a1～图a3)。每一幅图的上侧为真实车载目标的纵向位置，下侧为预测车载目标的纵向位置。对于图a1、图a2和图a3中的多类分类，只在代表某一类的位上置1，其余置0；而对于图b1、图b2和图b3中的有序回归，将在代表该类的位，以及该位之前的所有位上都置1，其余置0。而图a1和图b1对应第一种场景，图a2和图b2对应第二种场景，图a3和图b3对应第三种场景，通过三个场景中，小车的预测位置和真实位置的编码损失(对应位置编码数字不同损失+1)，说明本实施例采用的有序回归的方式进行纵向位置的估计更有效。

举例说明：图2中，若共有K＝5个离散深度区间，当第i个目标框的真实纵向距离位置落在第k＝2个离散深度区间，对于多类分类方法来说，通常使用独热编码(one-hotencoding)的方式，则该样本的编码真值为01000；使用有序回归方式编码时，编码真值为11000。即对于多类分类来说，只在代表某一类的位上置1，其余置0；而对于有序回归，将在代表该类的位，以及该位之前的所有位上都置1，其余置0。图a1～图a3均产生2个单位的预测误差，而图b1～图b3分别产生1、2、3个单位的预测误差。具体如下：

在模型训练时，假设某次前向传播的结果将第i个目标框的纵向距离判断为k＝3，对于多类分类，将使用01000与00100产生损失，此时产生2个单位的损失(如图a1所示)；对于有序回归，将使用11000与11100产生损失，此时产生1个单位的损失(如图b1所示)。而当另一次前向传播的将第i个目标框的纵向距离判断为k＝4，对于多类分类，将使用01000与00010产生损失，损失也同样是2个单位(如图a2所示)，相比于将第i个目标框的纵向距离判断为k＝3，这种情况显然应产生更多的损失。而对于有序回归，将使用11000与11110产生损失，产生2个单位的损失(如图b2所示)，合理描述了两种情况损失的差别。将第i个目标框的纵向距离判断为k＝5的情况类似，对于多类分类k＝3与k＝4的情况一样，依然只产生两个单位损失(如图a2所示)；对于有序回归，将产生3个单位的损失(如图b3所示)。可见，有序回归考虑了邻近深度区间(纵向距离区间)的关联性。

在一个实施例中，所述步骤1中，第i个目标框的回归补偿项的估计值

用于补偿第i个目标框所处的总深度区间被划分成K个空间递增的纵向子区间len_k带来的划分误差。其中，对于二维图像中各个目标框的估计值形成一个集合，该集合表示为回归补偿项估计值

其获取方法包括：

预先设置有由有序回归损失函数L_OR(Θ)和补偿项损失函数L_RF(Θ)构成的损失函数，通过将该损失函数最小化，能够估计第i个目标框的纵向距离

其中，有序回归损失函数L_OR(Θ)定义为式(2)至式(4)：

式(2)至式(4)中，Ψ^OR(Θ)为所有离线数据集中的目标框产生纵向距离估计损失函数的平均值。

为第i个目标框产生纵向距离估计损失函数。Θ＝(θ₀,θ₁,...,θ_2K-1)，θ表示需要学习的模型参数。N是离线数据集中所有目标框的数量。K是设置的区间总数量，本实施例设置K＝30，由于是分类问题，对于K个序数类别，当对每一个类别使用独热编码(One-Hot Encoding)时，需要2位编码，因此共有2K个编码通道。是第i个目标框的深度区间序号估计值，P_i ^k是第i个目标框的深度区间序号为k的概率。

可通过迭代优化方法最小化有序回归的损失函数L_OR(Θ)，将该损失函数对第i通道的权重求偏导，得到式(8)：

而对于每一个i＝2k+1和i＝2k，i∈{0、1、…、K-1}，由于两者为类别序号k的2个编码通道，故有Ψ^OR(Θ)对θ_2k-1和θ_2k的偏导数互为相反数，即有如下关系等式(9)：

式(9)中，

为第j个目标框产生纵向距离估计损失函数。

再根据式(10)，通过反向传播算法优化该模块：

式(10)中，x_j是softmax函数前的特征图中关于第j个目标框的特征描述量。1{·}是指示函数，条件为正，取1，否则为0。m_j是第j个目标框的深度区间序号估计值，

是第j个目标框的深度区间序号为k的概率。

损失函数L_RF(Θ)采用模型训练(学习)阶段的式(5)和式(6)进行定义，具体为所有离线数据集中的与先验框匹配上的预测框产生车载目标纵向距离估计补偿项损失函数Ψ^RF(Θ)的平均值：

式(5)和式(6)中，

是第i个目标框的补偿项损失函数，其中：Θ＝(θ₀,θ₁,...,θ_2K-1)，Θ表示需要学习的模型参数，由于有K个子区间，对于K个序数类别，对每一个类别需要2位编码，因此共有2K个区间编码通道，序号为0～2K-1，N是迭代优化方法最小化过程中的离线数据集中所有车载目标的数量，D^*是迭代优化方法最小化过程中的离线数据集中的车载目标的纵向距离真值集合，

是迭代优化方法最小化过程中的离线数据集中车载目标的纵向距离真值集合。由此，估计得到的纵向距离集合

表示为：

本实施例基于空间递增离散划分的有序回归和补偿项回归的方法，考虑了真实世界与图像的映射特点及邻近纵向距离区间的关联性，提高了基于单目车载视觉的车载目标纵向距离估计的准确性。

在一个实施例中，所述步骤2中的第i个目标框的三维中心在所述二维图像的横坐标u的获取方法具体包括，如图1所示：

步骤21，通过离线数据集(下文均简称为“KITTI”)提供的离线数据集，训练YOLOv3车载目标检测模型(比如：深度卷积主干网络为Darknet-53)，得到训练好的YOLOv3车载目标检测模型。

步骤22，将单目单帧图像输入到步骤21离线训练好的YOLOv3车载目标检测模型，得到深度卷积神经网络特征图，该深度卷积神经网络特征图由YOLOv3卷积网络末端的32/16/8倍下采样的大/中/小三个尺寸的预测端口组成。

步骤23，根据步骤22输出的深度卷积神经网络特征图，预测输出第i个目标框在所述二维图像中的二维位置和所属类别。

步骤24，根据步骤23输出的第i个目标框在所述二维图像中的二维位置和所属类别，以及步骤22中的深度卷积神经网络特征图，利用经过训练学习得到的YOLOv3车载目标检测模型，进行反投影(即从二维坐标系(2D)投影到车辆坐标系(3D))，得到第i个目标框的三维中心在所述二维图像的投影位置p(u,v)。

在一个实施例中，所述步骤24中的YOLOv3车载目标检测模型的获得方法包括：

步骤241，正投影，即从车辆坐标系(3D)投影到二维坐标系(2D)：通过下式(7)计算出车辆坐标系下离线数据集中的真实车载目标的中心C(X Y Z)^*在自车相机采集到二维图像中的真实投影位置c(u v)^*，以排除被图像边缘截断的车载目标：

式(7)中，纵向距离Z指的是第i个目标框的中心在车辆坐标系中沿Z轴的分量，高度Y指的是第i个目标框的中心在车辆坐标系中沿Y轴的分量，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述二维图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述二维图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述二维图像的横坐标；s是由所述纵向距离Z决定的参数。

步骤242，根据真实车载目标的中心C(X Y Z)^*，利用未经训练学习的YOLOv3车载目标检测模型，映射输出真实车载目标的中心C(X Y Z)^*的估计投影位置p(u,v)。

步骤243，根据所有真实车载目标的真实投影位置c(u v)^*与估计投影位置p(u,v)的偏差建立损失函数，通过迭代优化方法最小化该损失函数，训练车辆坐标系中真实车载目标的中心C(X Y Z)^*正投影到二维图像中的估计投影位置p(u,v)，以估计YOLOv3车载目标检测模型的相关参数。这种方式能够避免直接将车载目标的目标框的中心近似为车辆坐标系中第i个车载目标的几何中心在二维图像中的投影而产生的系统误差。

如图3所示，图3示出的是鸟瞰图，O表示自车相机的位置，D_C表示车辆坐标系中真实车载目标的中心C的纵向距离(为所述步骤1中得到的目标三维中心C的纵向距离)，I表示相机的二维成像平面。先估计三维车载目标中心在二维图像中的投影位置p，再由二维图像反投影至三维世界的方法来确定车载目标的横向位置P。避免直接将车载目标的二维目标框的中心b反投影到三维世界的投影位置B产生的系统误差。可见，相比传统方法获得的B点，本实施例获得的P点更接近真实车载目标中心C。

本实施例通过估计车载目标三维中心在二维图像上的投影位置，进而借助车载目标中心纵向距离和相机标定参数来确定车载目标的横向位置p(u,v)的方法，避免了车载目标二维定位不准确及遮挡、截断时引起的反投影误差，实现了车载目标的横向位置的准确估计。

上述各实施例中，“多目标”可以理解为自车在实际行驶过程中，其相机所采集到的图像中除了车载目标之外，还包括行人以及骑车人(包括骑自行车的人和骑电动自行车的人)等，上述方法对于车载目标之外的目标同样适用。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。