CN111310574A

CN111310574A - 一种车载视觉实时多目标多任务联合感知方法和装置

Info

Publication number: CN111310574A
Application number: CN202010054709.5A
Authority: CN
Inventors: 李克强; 余大蒙; 熊辉; 王建强; 许庆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-19
Anticipated expiration: 2040-01-17
Also published as: CN111310574B

Abstract

本发明公开了一种车载视觉实时多目标多任务联合感知方法和装置。所述方法包括下述步骤：步骤S1，利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取；步骤S2，基于步骤S1提取的图像特征，预测各目标的类别及其在图像坐标系中的二维位置；步骤S3，基于步骤S1提取的图像特征以及步骤S2的检测结果，估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息，包括估计各目标三维中心在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值；步骤S4，道路分割：基于步骤S1提取的图像特征，输出所述单帧图像的场景中的道路分割结果。

Description

一种车载视觉实时多目标多任务联合感知方法和装置

技术领域

本发明涉及自动驾驶技术领域，特别是涉及一种车载视觉实时多目标多任务联合感知方法和装置。

背景技术

环境感知系统利用各种车载传感器进行数据采集和处理，为智能车辆提供自车与周围目标的位置和类别信息，以及相对距离、相对速度等信息，进而为上层的决策规划提供信息依据。

视觉传感器作为一种被动传感器，使用一个或多个摄像头捕获道路场景图像，可直接检测前方障碍物并区分目标的类别，应用场景广泛且价格低廉。

现有的车载环境感知算法大多针对单一任务或单一目标，基于深度学习的模型占用计算资源较多，算法运行耗时较长，从而不可能为每一种目标类型，每一项子任务单独设计算法模型。这些针对单一任务/目标的感知算法无法适应多种动静态目标同时存在的复杂行驶环境下的感知需求。

发明内容

本发明的目的在于提供一种车载视觉实时多目标多任务联合感知装置和训练方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

本发明提供一种车载视觉实时多目标多任务联合感知方法，所述车载视觉实时多目标多任务联合感知方法包括下述步骤：

步骤S1，特征提取：利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取；

步骤S2，二维目标检测：基于步骤S1提取的图像特征，预测各目标的类别及其在图像坐标系中的二维位置，所述类别为车辆、骑车人或行人；

步骤S3，三维信息估计：基于步骤S1提取的图像特征以及步骤S2的检测结果，估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息，包括估计各目标三维中心在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值，其中，以下述方法建立世界坐标系：以自车外三维包围框中心为坐标原点；以自车横向为x轴，右为正方向；以自车纵向为z轴，前方为正方向；以高度方向为y轴，下方为正方向；

步骤S4，道路分割：基于步骤S1提取的图像特征，输出所述单帧图像的场景中的道路分割结果，将所述单帧图像的所有像素划分为道路和非道路两类。

优选地，所述深度卷积神经网络特征提取器输出三种不同大小尺寸的预测端口，分别使用所述三种不同大小尺寸的预测端口来预测大、中、小尺寸的目标的类别及其在图像坐标系中的二维位置，其中所述三种预测端口在单帧图像的8、16和32倍下采样，以对大、中、小三种不同尺寸的目标进行检测。每种类别都有大、中、小三种尺寸对应的预测端口(特征图)。此种模型可以检测不同大小尺寸的各类目标。三种不同大小尺寸的预测端口用来检测不同大小尺寸的各类目标，输出目标的类别和表征目标位置和大小的目标矩形框。

优选地，所述车载视觉实时多目标多任务联合感知方法采用端到端的方式进行参数学习，采用的损失函数为：

L＝ω_2d*L_2d+ω_3d*L_3d+ω_r*L_r

其中，

L_2d是二维目标检测分支的损失函数，

L_3d是三维信息估计分支的损失函数，

L_r是道路分割分支的损失函数，

ω_2d是二维目标检测分支的损失函数的权重，

ω_3d是三维信息估计分支的损失函数的权重，

ω_r是道路分割分支的损失函数的权重。

优选地，所述车载视觉实时多目标多任务联合感知方法的参数训练包括依次执行的下述步骤：

步骤S01，网络预训练阶段；

步骤S02，道路分割分支单独训练阶段；

步骤S03，二维检测分支和道路分割分支共同训练阶段；

步骤S04，二维检测分支、道路分割分支和主干网络共同训练阶段；

步骤S05，主干网络和所有分支联合训练阶段

在网络预训练阶段，先由用于通用图像分类的ImageNet数据集进行第一次预训练，再由用于通用二维目标检测的COCO数据集进行第二次预训练，训练主干网络和二维检测分支参数，最后保存预训练的主干网络及二维检测分支的权重；

在道路分割分支单独训练阶段，采用KITTI道路分割数据子集的训练样本和KITTI语义分割数据子集的道路类别训练样本进行训练；在该阶段冻结预训练阶段的主干网络参数，二维检测和三维信息分支产生的损失不进行反向传播更新参数，损失的反向传播仅限定在道路分支的网络层中，设置ω2d＝0，ω3d＝0，ωr＝1，

在二维检测分支和道路分割分支共同训练阶段，冻结预训练阶段的主干网络参数，三维信息分支产生的损失不进行反向传播更新参数，损失的反向传播仅限定在二维检测分支和道路分支的网络层中，设置ω_2d＝1，ω_3d＝0，ω_r＝1，在二维检测分支、道路分割分支和主干网络共同训练阶段，除了三维信息分支产生的损失不进行反向传播更新参数，其他的损失均从网络后端经过主干网络反向传播至了网络前端，

在主干网络和所有分支联合训练阶段，所有的损失都用于反向传播更新网络所有权重参数。

优选地，在道路分割分支单独训练阶段，共训练5轮，每轮训练遍历一次所有的道路分割训练样本；

在二维检测分支和道路分割分支共同训练阶段，对于标注了道路像素的样本和标注了二维目标框的样本，采用随机翻转、随机剪裁和平移的数据增强方式，共训练5轮，每轮训练遍历一次所有的道路分割和二维目标检测训练样本，由于KITTI数据集中，原始数据并不同时含有道路的标注和目标检测的标注，在实际训练中，每一次迭代使用一个批次的同一种标注样本，使用两种标注的样本轮流训练二维检测和道路分割分支，具体地，根据两种标注的总样本数，将ω_2d和ω_r轮流设置为1，

在二维检测分支、道路分割分支和主干网络共同训练阶段，采用与二维检测分支和道路分割分支共同训练阶段相同的数据增强方法，共训练10轮，每轮训练遍历一次所有的道路分割和二维目标检测训练样本，

在主干网络和所有分支联合训练阶段，对于标注了道路像素的样本，采用道路的数据增强方法，对于标注了二维和三维目标信息的样本，只采用随机翻转的数据增强方式，设置ω_2d＝1，ω_3d＝2，ω_r＝1，训练10轮，每轮训练遍历一次所有的道路分割、二维目标检测和三维目标检测训练样本。

优选地，以下述步骤计算纵向距离和横向距离：

步骤S31，利用下式(1)和式(2)所表示的纵向距离估计模型，输出所述单帧图像中第i个目标框的对应的纵向距离

式(1)和式(2)中，

是第i个目标框所处的总深度区间[l_start，l_end]被划分成K个空间递增的纵向子区间对应的序号，

为序号为

的纵向子区间的纵向距离估计值，

为序号为

的纵向子区间的纵向距离估计值，P_i ^k为第i个目标框的深度区间序号为k的概率，

是回归补偿项的估计值；

步骤S32，根据输入自车相机采集到的单帧图像以及步骤S31获得的纵向距离

利用下式(3)所表示的横向距离估计模型，输出所述单帧图像中第i个目标框的横向距离X：

式(3)中，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述单帧图像的横坐标；s是由所述纵向距离

决定的参数；

步骤S33，按照所述步骤S31和步骤S32提供的方法，获取所述单帧图像中的各个目标框的纵向距离和横向距离，以得到所述单帧图像中的所述各个目标框的纵向距离集合

和其相应的横向距离集合。

本发明的实施例还提供一种车载视觉实时多目标多任务联合感知装置，所述车载视觉实时多目标多任务联合感知装置包括：二维检测模块(1)、三维重建模块(2)、道路分割模块(3)和深度卷积神经网络特征提取器(4)，

所述深度卷积神经网络特征提取器(4)从车载单目相机采集的单帧图像(5)提取图像特征，并将所述图像特征输出至所述二维检测模块(1)、三维重建模块(2)和道路分割模块(3)；

所述二维检测模块(1)基于所述深度卷积神经网络特征提取器(4)提取的图像特征，预测各目标的类别及其在图像坐标系中的二维位置，，且将目标类别信息和所述二维位置信息输出至所述三维重建模块(2)，所述类别为车辆、骑车人或行人；

所述三维重建模块(2)基于来自所述卷积神经网络特征提取器(4)的图像特征和来自所述二维检测模块(1)的所述目标类别信息和二维位置信息，估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息，包括估计各目标三维中心在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值，其中，以下述方法建立世界坐标系：以自车外三维包围框中心为坐标原点；以自车横向为x轴，右为正方向；以自车纵向为z轴，前方为正方向；以高度方向为y轴，下方为正方向，

所述道路分割模块(3)基于来自所述卷积神经网络特征提取器(4)的图像特征，输出所述单帧图像的场景中的道路分割结果，将所述单帧图像的所有像素划分为道路和非道路两类。

优选地，所述三维重建模块(2)包括：

纵向距离估计单元(21)，所述纵向距离估计单元(21)估计每个被检测到的目标的纵向距离Z；

投影位置估计单元(22)，所述投影位置估计单元(22)估计每个被检测到的目标的三维中心在图像中的位置，进而利用相机标定参数和目标纵向距离Z估计结果来获得目标的横向位置X；

观测朝向估计单元(23)，所述观测朝向估计单元(23)估计每个被检测到的目标的观测朝向角；以及

尺寸偏差估计单元(24)，所述尺寸偏差估计单元(24)估计每个被检测到的目标的真实尺寸，目标的真实尺寸包括目标长度L和目标宽度W，

其中，

所述纵向距离估计单元(21)通过基于空间递增划分的有序回归及离散划分误差的补偿项，来估计每个目标的中心在三维世界中的纵向距离，纵向距离估计单元(21)的输出为目标的纵向位置Z；所述投影位置估计单元(22)通过估计学习估计投影位置与真实投影位置的偏差损失最小化得到每个目标在图像平面中准确的三维中心投影位置，进而利用相机标定参数和目标纵向距离Z估计结果来获得目标的横向位置X；

所述观测朝向估计单元(23)通过分别回归目标观测朝向角的正弦值、余弦值以及二者的平方和约束，估计每个目标相对自车的朝向角；

所述偏差估计单元(24)在离线数据集(6)中的真实尺寸先验信息的基础上，预测目标真实尺寸与先验尺寸的偏差，以此估计目标的真实尺寸W,L。

优选地，，所述车载视觉实时多目标多任务联合感知装置采用端到端的方式进行参数学习，采用的损失函数为：

L＝ω_2d*L_2d+ω_3d*L_3d+ω_r*L_r

其中，

L_2d是二维目标检测分支的损失函数，

L_3d是三维信息估计分支的损失函数，

L_r是道路分割分支的损失函数，

ω_2d是二维目标检测分支的损失函数的权重，

ω_3d是三维信息估计分支的损失函数的权重，

ω_r是道路分割分支的损失函数的权重。

优选地，所述车载视觉实时多目标多任务联合感知装置的参数训练包括依次执行的下述步骤：

步骤S01，网络预训练阶段；

步骤S02，道路分割分支单独训练阶段；

步骤S03，二维检测分支和道路分割分支共同训练阶段；

步骤S05，主干网络和所有分支联合训练阶段

本发明能够在车辆行驶过程中准确实时地联合感知车辆、行人、骑车人等动态目标和道路可通行区域这一静态目标，可为基于深度学习方法的多目标和多任务的实时感知和联合训练提供方法参考，其多目标三维联合检测结果和道路可通行区域分割结果，也可进一步为智能车辆的碰撞预警和路径规划提供依据。

为了尽量减少计算资源占用，本发明将多类目标、多个任务集成在一个卷积神经网络模型中。而且本发明兼顾感知的各项子任务、不同类别的目标对象(包括动态和静态目标)，从而能够同时保证各项子任务准确性、实时性要求。

本发明不用为每一种目标类型，每一项子任务单独设计算法，而是将单帧图像作为输入，使用共享的主干卷积神经网络实现特征提取，多个分支输出各子任务所需信息，最终输出车辆、行人和骑车人目标的三维位置、姿态和尺寸信息。

附图说明

图1是本发明的车载动静态多目标的联合感知对象。

图2是本发明实施例中多任务联合感知模型总体框架的示意图。

图3是本发明实施例中多任务端对端训练的五阶段流程图。

图4是本发明实施例中基于空间递增离散划分进行深度区间有序回归方法的示意图。

图5是本发明实施例中车载目标横向距离估计方法的示意图；

附图标记：

具体实施方式

在附图中，使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

在本发明实施例中，多目标例如是指包括行人、骑车人和车辆的多种动态目标，以及包括结构化道路和非结构化道路的车辆可通行区域。其中，骑车人例如包括骑自行车和骑电动自行车的人，车辆指的是乘用车。

多任务例如包括动态目标的位置预测、多级分类、深度估计、朝向估计和尺度估计子任务，其中深度估计涉及纵向距离估计和投影位置估计。另外，多任务还可以包括静态目标之结构化和非结构化道路的车辆可通行区域检测任务，也称为“道路分割”，或“车辆可通行区域分割”。

本发明实施例的多目标多任务联合感知装置和训练方法例如包括多任务联合感知装置搭建和多任务端到端训练方法两部分。其中，多任务联合感知装置搭建部分包括：1)确立感知装置的多目标和多任务。多目标包括车载视觉环境下的行人、骑车人和车辆等动态目标，以及结构化道路和非结构化道路这一静态目标，多任务包括动态目标的位置预测、多级分类、深度估计、朝向估计和尺度估计(可统称为三维联合感知)，以及静态目标的可通行区域检测(也可称为道路分割)感知子任务；2)设计多任务联合感知装置的卷积神经网络结构，以全卷积神经网络为共用特征提取器用于实现二维图像特征的编码，同时构建多个独立的解码分支用于各个子任务的预测输出。多任务端到端训练方法部分包括：1)网络预训练阶段；2)道路分割分支单独训练阶段；3)二维检测和道路分割分支共同训练阶段；4)二维检测、道路分割和主干网络共同训练阶段；5)主干网络和所有分支联合训练阶段。本发明提供的多目标联合感知装置和训练方法可为基于深度学习方法的多任务实时联合感知和端到端训练提供方法参考，其多目标三维联合检测结果和道路可通行区域分割结果，也可进一步为智能车辆的碰撞预警和路径规划提供依据。

现有技术的方法和装置不能同时满足智能车辆感知算法对准确性和实时性的高性能要求。

本发明所提供的多目标联合感知装置和训练方法建立了自动驾驶场景中常见动态障碍物目标和静态道路的统一感知装置，可实现各感知子任务间端到端的联合训练，可为基于深度学习方法的多任务实时联合感知和端到端训练提供方法参考。其多目标三维联合检测结果和道路可通行区域分割结果，也可进一步为智能车辆(AD)的碰撞预警和路径规划提供依据。

在本发明的一个实施例中，对于每个目标，其输出信息为：

O＝{C,Z，X，α，L，W}

输出的信息依次为：类别，与自车的纵向距离，横向距离(根据投影位置，纵向距离和相机参数综合获得)，观测朝向，长和宽。

纵向距离Z是指交通参与者目标(行人、骑车人和车辆)与自车在纵向方向上的真实距离，也称为深度(depth)。Z、X都是世界坐标系(或三维世界坐标系)中的位置，单位例如为米。目标的观测朝向角α可最终用于计算目标在世界坐标系中的航向角

共用特征提取器提取的图像特征用于各个感知任务，如用于定位(位置预测)、分类、道路分割。常用的图像特征(本领域通用)有：颜色特征、纹理特征、形状特征、空间关系特征等。深度学习与传统模式识别方法的最大不同在于它是从大数据中自动学习特征，而非采用手工设计的特征。一张图像是一个个像素值组成的矩阵，那么对图像的分析就是对矩阵的数字进行分析，而图像的特征，就隐藏在矩阵的这些数字规律中，可用多维特征向量表示，类似于一个矩阵的特征根和特征向量。

在一个实施例中，如图2和图3所示，本实施所提供的是基于车载视觉的多目标和多任务联合感知装置及相应的方法。

根据本发明实施例的车载视觉实时多目标多任务联合感知装置包括：二维检测模块1、三维重建模块2、道路分割模块3和深度卷积神经网络特征提取器4。

图2中示出的三维检测结果输出单元7用于统一输出三维检测结果。但本发明不限于此，还可以通过二维检测模块1、三维重建模块2各自输出一部分结果，或者通过三维重建模块2直接输出三维检测结果。这都在本发明的保护范围之内。

所述车载视觉实时多目标多任务联合感知装置的工作过程如下：

1)目标识别：图像输入到深度卷积网络特征提取器后，借助大、中、小尺寸目标的三个预测端口分别预测相应尺寸的目标的类别及在图像坐标系中的二维位置。

2)根据预测的目标二维位置，卷积神经网络同时估计该目标中心的在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值(观测朝向)及目标真实三维尺寸偏差值。

3)根据从离线数据集(如KITTI)中离线提取的目标三维尺寸先验信息、车载相机的标定参数及以上估计量，共同恢复出包含目标位置、姿态和尺寸信息的三维表示，最终输出多类目标的三维检测结果。同时，卷积神经网络也输出道路分割结果，将输入图像的所有像素划分为道路和非道路两类。

具体地，所述装置以下述的方法运行。换句话说，根据本发明实施例的车载视觉实时多目标多任务联合感知方法包括下述步骤：

步骤S1，特征提取：利用深度卷积网络特征提取器4对车载单目相机采集的单帧图像5进行图像特征提取；

步骤S4，道路分割：基于步骤S1提取的图像特征，输出所述单帧图像的场景中的道路分割结果，将所述单帧图像的所有像素划分为道路和非道路两类。在图示实施例中，由边缘分割优化单元31与几何变形增强单元32来具体执行道路分割。

本发明实施例的深度卷积神经网络特征提取器4络包括：输入层、卷积层、激活函数、池化层、全连接层和输出层。

输入层：深度卷积神经网络可直接将图片作为网络的输入，通过训练提取特征。为了获得更好的效果，可以对图片进行预处理，例如在图片中预先标记目标(即对应的矩形框)。此外，在样本不足等情况下会需要进行样本增强处理，例如包括旋转、平移、剪切、增加噪声、颜色变换等。

卷积层：进行卷积运算，实质是对输入进行另一种表示，若将卷积层视为黑盒子，那么可以将输出看作是输入的另外一种表示，而整个网络的训练也就是训练出这种表示所需的中间参数。

在卷积层中需要添加激活函数对运算进行非线性化。深度卷积网络能够将小的神经网络串联起来构成深度神经网络。本发明的深度卷积神经网络能够采用以下的两种处理方式。第一种方式，采用局部感受野：神经元仅与其相邻的上一层神经元相连接，通过对学习到的局部特征进行组合形成最后的全局特征。第二种方式，采用权值共享：同一个卷积核在对不同的局部感受野进行操作时，采用相同的权值参数，能够减少网络运行过程中所需的参数计算量。通过每一层的多个卷积核获得图片的不同特征，不需要特意考虑特征在图片中的具体位置，该处理方式使得其在分析和处理图片任务上具有显著优势。

激活函数：网络中卷积操作和池化操作都是线性操作，而生活中的大量样本，在进行分类时并不是线性关系，因而需要在网络中引入非线性元素使得网络能解决非线性问题。

池化层：是卷积神经网络中的一种对数据进行的特殊处理操作，通过池化处理缩小图片特征尺寸，能有效的去除由上一层的结果作为输入而带来的计算量较大的问题。常使用的池化方法包括：平均池化和最大池化。

本发明的激活函数例如可以采用Relu函数及其改进函数。

例如，本发明的深度卷积神经网络特征提取器能够采用YOLOv3模型。从而，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

如图2所示，整个装置的的输入是车载单目相机采集的单帧彩色RGB三通道图像。最终输出道路场景中的多类目标(车辆、行人、骑车人)的三维检测结果及道路分割结果。

深度卷积神经网络特征提取器4的输入即总体方案的输入(例如，车载单目相机采集的单帧彩色RGB三通道图像)。深度卷积神经网络特征提取器4的输出为提取的图像特征。提取特征的深度卷积神经网络采用特征金字塔网络融合不同特征层等方法和结构，使用大中小三个预测端口输出预测结果，优化了对多尺度目标的适应能力。

二维检测模块1的输入为深度卷积神经网络特征提取器4提取的图像特征(例如为特征图形式)。二维检测模块1输出目标在图像坐标系中的二维位置和类别信息。通过K均值算法，采用最大重叠率准则，对所有样本的尺寸进行聚类，选择若干合适的先验框作为预测目标框的基准(K＝9)。

在目标分类方面，采用多级分类策略，解决了行人和骑车人难以区分的问题。在目标定位方面，对于边框的后处理阶段，采用软性非极大值抑制算法改善被遮挡目标的检测效果。二维检测模块需要为后续多个模块提供目标的信息，因此需要保证目标位置和目标类别的准确性。

三维重建模块2的输入是深度卷积神经网络末端的特征图以及二维检测模块的输出结果。三维重建模块2输出目标三维重建所需要的三维位置(涉及纵向距离和投影位置)、观测朝向和尺寸信息。

尺寸信息例如指的是目标长度L，目标宽度W。由于车辆行驶场景中，车辆，行人和骑车人这三类目标的高度H对自车的决策规划影响较小，在本实施例中不考虑。

三维重建模块2包含多个关键功能单元，例如包括目标的纵向距离估计单元21、三维中心的投影位置估计单元22、目标的观测朝向估计单元23和目标真实的尺寸偏差估计单元24。

目标的纵向距离估计单元21用于估计每个被检测到的目标的纵向距离Z。通过基于空间递增划分的有序回归及离散划分误差的补偿项，来估计每个目标的中心在在三维世界中的纵向距离。该模块的输出用于确定目标的纵向位置Z。

目标中心的投影位置估计单元22用于估计每个被检测到的目标的三维中心在图像中的位置。通过学习估计投影位置与真实投影位置的偏差损失最小化得到每个目标在图像平面中准确的三维中心投影位置，进而利用相机标定参数8和目标纵向距离估计结果来获得目标的横向位置X。在图2中，相机标定参数8输入至三维检测结果输出单元7。根据需要相机标定参数8可以输入至三维重建模块2。

车辆坐标系(世界坐标系)被定义为：以自车外的三维包围框的中心为坐标原点，X轴为自车的横向，且将驾驶员的右侧视为正方向；Z轴为自车的纵向，且将驾驶员的正前方视为正方向；Y轴为高度方向，且将驾驶员的下方视为正方向。

自车相机采集到的图像平面所处的平面为二维坐标系平面。自车相机采集到的单帧图像中的各个车载目标采用目标框的形式进行呈现，该目标框以尽可能紧凑的方式包围在车载目标的外部。

本实施例所提供的车载视觉实时多车载目标横纵向距离估计方法包括：

步骤S31，根据输入自车相机采集到的单帧图像，利用下式(1)和式(2)所表示的纵向距离估计模型，输出所述单帧图像中第i个目标框的对应的纵向距离

本步骤利用车辆坐标系映射至单帧图像的特点，使得深度估计模型训练收敛更快，深度估计结果更加准确。

式(1)和式(2)中，

是第i个目标框位于总深度区间[l_start，l_end]中的序号，所述总深度区间被划分成K个空间递增的纵向子区间，每一个所述纵向子区间从所述总深度区间的一端到另一端依序编号，该编号即为

为序号为

的纵向子区间的纵向距离估计值，

为序号为

是回归补偿项的估计值。

本实施例中，将第i个目标框所处的总深度区间[l_start，l_end]划分为K个空间递增的纵向子区间len_k的过程中，考虑到真实世界中同样大小的距离区间内的物体映射到图像中时，近端映射的像素远多于远端的像素，即在二维图像中，相比于中远端映射的像素，近端像素提供的信息更为丰富。采用空间递增离散划分技术来划分纵向距离范围，将近端的纵向距离密集划分，远端的稀疏划。纵向子区间len_k由下式(4)表示，通过这种方式能够更好地采用离线区间的有序回归技术，进行纵向距离区间估计。

式(4)中，len_k∈len₀,len₁,...,len_K是纵向子区间j的纵向距离大小；k∈{0、1、…、K-1}；l_start和l_end的具体数值主要根据自车相机的相关参数确定，比如总的深度区间[l_start，l_end]可以是[0,70]；K也为设定值，比如可以设定为30。

步骤S32，根据输入自车相机采集到的单帧图像以及步骤1获得的纵向距离

式(3)中，横向距离X指的是第i个目标框的中心在车辆坐标系中沿X轴的分量，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述单帧图像的横坐标；s是由所述纵向距离

决定的参数；

步骤S33，按照所述步骤1和步骤2提供的方法，获取所述单帧图像中的各个目标框的纵向距离和横向距离，以得到所述单帧图像中的所述各个目标框的纵向距离集合

和其相应的横向距离集合。

在一个实施例中，使用有序回归技术确定所述纵向子区间的纵向距离估计值

粗略估计有序回归的车载目标值

同时利用回归补偿项

补偿所述纵向子区间划分过程中引起的误差。

如图4所示，将纵向距离值离散划分为若干区间后，由于相邻的纵向距离区间具有连续的相关性，因此更加适合采用有序回归的方式(图b1～图b3)，而不是采用传统的直接多类分类(图a1～图a3)。每一幅图的上侧为真实车载目标的纵向位置，下侧为预测车载目标的纵向位置。对于图a1、图a2和图a3中的多类分类，只在代表某一类的位上置1，其余置0；而对于图b1、图b2和图b3中的有序回归，将在代表该类的位，以及该位之前的所有位上都置1，其余置0。而图a1和图b1对应第一种场景，图a2和图b2对应第二种场景，图a3和图b3对应第三种场景，通过三个场景中，小车的预测位置和真实位置的编码损失(对应位置编码数字不同损失+1)，说明本实施例采用的有序回归的方式进行纵向位置的估计更有效。

举例说明：图4中，若共有K＝5个离散深度区间，当第i个目标框的真实纵向距离位置落在第k＝2个离散深度区间，对于多类分类方法来说，通常使用独热编码(one-hotencoding)的方式，则该样本的编码真值为01000；使用有序回归方式编码时，编码真值为11000。即对于多类分类来说，只在代表某一类的位上置1，其余置0；而对于有序回归，将在代表该类的位，以及该位之前的所有位上都置1，其余置0。图a1～图a3均产生2个单位的预测误差，而图b1～图b3分别产生1、2、3个单位的预测误差。具体如下：

在模型训练时，假设某次前向传播的结果将第i个目标框的纵向距离判断为k＝3，对于多类分类，将使用01000与00100产生损失，此时产生2个单位的损失(如图a1所示)；对于有序回归，将使用11000与11100产生损失，此时产生1个单位的损失(如图b1所示)。而当另一次前向传播的将第i个目标框的纵向距离判断为k＝4，对于多类分类，将使用01000与00010产生损失，损失也同样是2个单位(如图a2所示)，相比于将第i个目标框的纵向距离判断为k＝3，这种情况显然应产生更多的损失。而对于有序回归，将使用11000与11110产生损失，产生2个单位的损失(如图b2所示)，合理描述了两种情况损失的差别。将第i个目标框的纵向距离判断为k＝5的情况类似，对于多类分类k＝3与k＝4的情况一样，依然只产生两个单位损失(如图a2所示)；对于有序回归，将产生3个单位的损失(如图b3所示)。可见，有序回归考虑了邻近深度区间(纵向距离区间)的关联性。

在一个实施例中，所述步骤1中，第i个目标框的回归补偿项的估计值

用于补偿第i个目标框所处的总深度区间被划分成K个空间递增的纵向子区间len_k带来的划分误差。其中，对于单帧图像中各个目标框的估计值

形成一个集合，该集合表示为回归补偿项估计值

其获取方法包括：

预先设置有由有序回归损失函数L_OR(Θ)和补偿项损失函数L_RF(Θ)构成的损失函数，通过将该损失函数最小化，能够估计第i个目标框的纵向距离

其中，有序回归损失函数L_OR(Θ)定义为式(2)至式(4)：

式(2)至式(4)中，Ψ^OR(Θ)为所有离线数据集中的目标框产生纵向距离估计损失函数的平均值。

为第i个目标框产生纵向距离估计损失函数。Θ＝(θ₀,θ₁,...,θ_2K-1)，θ表示需要学习的模型参数。N是离线数据集中所有目标框的数量。K是设置的区间总数量，本实施例设置K＝30，由于是分类问题，对于K个序数类别，当对每一个类别使用独热编码(One-Hot Encoding)时，需要2位编码，因此共有2K个编码通道。

是第i个目标框的深度区间序号估计值，P_i ^k是第i个目标框的深度区间序号为k的概率。

可通过迭代优化方法最小化有序回归的损失函数L_OR(Θ)，将该损失函数对第i通道的权重求偏导，得到式(8)：

而对于每一个i＝2k+1和i＝2k，i∈{0、1、…、K-1}，由于两者为类别序号k的2个编码通道，故有Ψ^OR(Θ)对θ_2k-1和θ_2k的偏导数互为相反数，即有如下关系等式(9)：

式(9)中，

为第j个目标框产生纵向距离估计损失函数。

再根据式(10)，通过反向传播算法优化该模块：

式(10)中，x_j是softmax函数前的特征图中关于第j个目标框的特征描述量。1{·}是指示函数，条件为正，取1，否则为0。m_j是第j个目标框的深度区间序号估计值，

是第j个目标框的深度区间序号为k的概率。

损失函数L_RF(Θ)采用模型训练(学习)阶段的式(5)和式(6)进行定义，具体为所有离线数据集中的与先验框匹配上的预测框产生车载目标纵向距离估计补偿项损失函数Ψ^RF(Θ)的平均值：

式(5)和式(6)中，

是第i个目标框的补偿项损失函数，其中：Θ＝(θ₀,θ₁,...,θ_2K-1)，Θ表示需要学习的模型参数，由于有K个子区间，对于K个序数类别，对每一个类别需要2位编码，因此共有2K个区间编码通道，序号为0～2K-1，N是迭代优化方法最小化过程中的离线数据集中所有车载目标的数量，D^*是迭代优化方法最小化过程中的离线数据集中的车载目标的纵向距离真值集合，

是迭代优化方法最小化过程中的离线数据集中车载目标的纵向距离真值集合。由此，估计得到的纵向距离集合

表示为：

本实施例基于空间递增离散划分的有序回归和补偿项回归的方法，考虑了真实世界与图像的映射特点及邻近纵向距离区间的关联性，提高了基于单目车载视觉的车载目标纵向距离估计的准确性。

在一个实施例中，所述步骤S32中的第i个目标框的三维中心在所述单帧图像的横坐标u的获取方法具体包括：

步骤a1，通过离线数据集(下文均简称为“KITTI”)提供的离线数据集，训练YOLOv3车载目标检测模型(比如：深度卷积主干网络为Darknet-53)，得到训练好的YOLOv3车载目标检测模型。

步骤a2，将单目单帧图像输入到步骤21离线训练好的YOLOv3车载目标检测模型，得到深度卷积神经网络特征图，该深度卷积神经网络特征图由YOLOv3卷积网络末端的32/16/8倍下采样的大/中/小三个尺寸的预测端口组成。

步骤a3，根据步骤a2输出的深度卷积神经网络特征图，预测输出第i个目标框在所述单帧图像中的二维位置和所属类别。

步骤a4，根据步骤a3输出的第i个目标框在所述单帧图像中的二维位置和所属类别，以及步骤a2中的深度卷积神经网络特征图，利用经过训练学习得到的YOLOv3车载目标检测模型，进行反投影(即从二维坐标系(2D)投影到车辆坐标系(3D))，得到第i个目标框的三维中心在所述单帧图像的投影位置p(u,v)。

在一个实施例中，所述步骤a4中的YOLOv3车载目标检测模型的获得方法包括：

步骤a41，正投影，即从车辆坐标系(3D)投影到二维坐标系(2D)：通过下式(7)计算出车辆坐标系下离线数据集中的真实车载目标的中心C(X Y Z)^*在自车相机采集到单帧图像中的真实投影位置c(u v)^*，以排除被图像边缘截断的车载目标：

式(7)中，纵向距离Z指的是第i个目标框的中心在车辆坐标系中沿Z轴的分量，高度Y指的是第i个目标框的中心在车辆坐标系中沿Y轴的分量，f_x是自车相机中心O与主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿X轴的分量，f_y是自车相机中心O与所述主点O₁之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿Y轴的分量，所述主点O₁是自车相机的光轴与其成像平面的交点；p_x是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的横坐标，p_y是所述主点O₁在以像素为单位的所述单帧图像所在的坐标系下的纵坐标；u是第i个目标框的三维中心在所述单帧图像的横坐标；s是由所述纵向距离Z决定的参数。

步骤a42，根据真实车载目标的中心C(X Y Z)^*，利用未经训练学习的YOLOv3车载目标检测模型，映射输出真实车载目标的中心C(X Y Z)^*的估计投影位置p(u,v)。

步骤a43，根据所有真实车载目标的真实投影位置c(u v)^*与估计投影位置p(u,v)的偏差建立损失函数，通过迭代优化方法最小化该损失函数，训练车辆坐标系中真实车载目标的中心C(X Y Z)^*正投影到单帧图像中的估计投影位置p(u,v)，以估计YOLOv3车载目标检测模型的相关参数。这种方式能够避免直接将车载目标的目标框的中心近似为车辆坐标系中第i个车载目标的几何中心在单帧图像中的投影而产生的系统误差。

如图5所示，图5示出的是鸟瞰图，O表示自车相机的位置，D_C表示车辆坐标系中真实车载目标的中心C的纵向距离(为所述步骤1中得到的目标三维中心C的纵向距离)，I表示相机的二维成像平面。先估计三维车载目标中心在单帧图像中的投影位置p，再由单帧图像反投影至三维世界的方法来确定车载目标的横向位置P。避免直接将车载目标的二维目标框的中心b反投影到三维世界的投影位置B产生的系统误差。可见，相比传统方法获得的B点，本实施例获得的P点更接近真实车载目标中心C。

本实施例通过估计车载目标三维中心在单帧图像上的投影位置，进而借助车载目标中心纵向距离和相机标定参数来确定车载目标的横向位置p(u,v)的方法，避免了车载目标二维定位不准确及遮挡、截断时引起的反投影误差，实现了车载目标的横向位置的准确估计。

目标的观测朝向估计单元23用于估计每个被检测到的目标的观测朝向角。通过分别回归目标观测朝向角的正弦值、余弦值以及二者的平方和约束，准确估计每个目标相对自车的朝向角。目标的观测朝向角最终用于计算目标在世界坐标系中的航向角φ。

目标真实尺寸偏差估计单元24用于估计每个被检测到的目标的真实尺寸，包括目标长度L，目标宽度W。在离线统计数据集中真实尺寸先验信息的基础上，预测目标真实尺寸与先验尺寸的偏差，以此估计目标的尺寸(W,L)。

道路分割模块3的输入是深度卷积神经网络末端的特征图，输出是该场景中道路分割结果，将单帧图像的所有像素划分为道路和非道路两类。

针对道路边缘分割粗糙的问题，在一个实施例中，边缘分割优化单元31采用类别重划分的改进方法，将两类分割拓展为四类分割问题，提高边缘区域像素的损失函数权重和采样频率，使得分割参数学习聚焦于道路边缘；几何变形增强单元32使用道路几何形状扭曲变换增强方法，扩充道路的几何形状和类型丰富度。

在一个实施例中，如图3所示，多任务端对端训练用端到端(end-to-end)的方式进行参数学习，整个网络模型的损失函数为：

L＝ω_2d*L_2d+ω_3d*L_3d+ω_r*L_r

其中，ω_2d，ω_3d，ω_r分别是二维目标检测分支，三维信息估计分支和道路分割分支的损失函数的权重。

相对于深度学习，传统机器学习的流程往往由多个独立的模块组成，每个模块是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果，这是非端到端的。而深度学习提供了一种端到端的学习范式，整个学习的流程并不进行人为的子问题划分，而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。

在本发明一实施例中，对于主干网络和多个不同的预测分支，参数的优化顺序不同。具体地，参数训练可以分为以下五个训练阶段：

1)网络预训练阶段。本实施例采用的主干网络先由用于通用图像分类的ImageNet数据集进行第一次预训练，再由用于通用二维目标检测的COCO数据集进行第二次预训练，训练主干网络和二维检测分支参数，最后保存预训练的主干网络及二维检测分支的权重。

2)道路分割分支单独训练阶段。相比于二维目标或三维目标检测的标注样本，道路分割的标注样本数量较少，因此先对道路分割分支进行训练。本实施例共采用了KITTI道路分割数据子集的289张训练样本和KITTI语义分割数据子集的200张训练样本(KITTI语义分割数据子集标注了多个类别的像素标签，本实施例仅使用其中的道路类别)，共计489张道路分割样本用于训练。该阶段冻结了预训练阶段的主干网络参数，二维检测和三维信息分支产生的损失不进行反向传播更新参数，损失的反向传播仅限定在道路分支的网络层中。设置ω_2d＝0，ω_3d＝0，ω_r＝1。共训练5轮，每轮训练遍历一次所有的道路分割训练样本。

3)二维检测分支和道路分割分支共同训练阶段。该阶段同样冻结了预训练阶段的主干网络参数，三维信息分支产生的损失不进行反向传播更新参数，损失的反向传播仅限定在二维检测分支和道路分支的网络层中。设置ω_2d＝1，ω_3d＝0，ω_r＝1。对于标注了道路像素的样本，对于标注了二维目标框的样本，采用随机翻转，随机剪裁和平移的数据增强方式，共训练5轮，每轮训练遍历一次所有的道路分割和二维目标检测训练样本。由于本实施采用的KITTI数据集中，原始数据并不同时含有道路的标注和目标检测的标注，在实际训练中，每一次迭代使用一个批次的同一种标注样本，也就是说，使用两种标注的样本轮流训练二维检测和道路分割分支，具体地，根据两种标注的总样本数，将ω_2d和ω_r轮流设置为1，之后的训练阶段采用同样的策略。

4)二维检测分支、道路分割分支和主干网络共同训练阶段。该阶段中，除了三维信息分支产生的损失不进行反向传播更新参数，其他的损失均从网络后端经过主干网络反向传播至了网络前端。设置ω_2d＝1，ω_3d＝0，ω_r＝1。该阶段采用和上一阶段相同的数据增强方法，共训练10轮，每轮训练遍历一次所有的道路分割和二维目标检测训练样本。

5)主干网络和所有分支联合训练阶段。所有的损失都用于反向传播更新网络所有权重参数。该阶段中，对于标注了道路像素的样本，采用道路的数据增强方法，对于标注了二维和三维目标信息的样本，只采用随机翻转的数据增强方式。设置ω_2d＝1，ω_3d＝2，ω_r＝1，训练10轮，每轮训练遍历一次所有的道路分割、二维目标检测和三维目标检测训练样本。

在网络训练的开始阶段，为了防止训练初始阶段发生梯度爆炸，采用了预热学习率(warm-up learning rate)的策略，即在训练的初期(本实施例选择在训练的前两轮)，使学习率从0线性增长至初始学习率。本实施例的训练从第1阶段的预训练结果开始，例如总共训练30轮：道路分割分支单独训练阶段5轮，二维检测和道路分割分支共同训练阶段5轮，二维检测、道路分割分支和主干网络共同训练阶段10轮，所有分支和主干网络联合训练阶段10轮。初始学习率设置为10^-4，学习率下降采用余弦下降策略。

当训练完的最终模型进行前向推理(在线检测)时，网络模型直接输出的三维信息、二维检测信息，再利用车载相机的标定参数和从数据集中统计的先验目标尺寸重建出目标的三维表示；道路分割结果则直接由网络模型输出。

本发明的实施例实现自动驾驶环境中常见动态障碍物目标和静态道路的统一感知；保障了每项子任务的精度和实时性；而且实现了模型端到端的训练，便于统一优化参数，到达模型性能的最佳。本发明的实施例中，目标检测、深度估计、朝向估计这些子任务可以相互融合，并结合相机标定参数，联合训练优化，从而得到更好的联合感知结果；

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种车载视觉实时多目标多任务联合感知方法，其特征在于，所述车载视觉实时多目标多任务联合感知方法包括下述步骤：

步骤S3，三维信息估计：基于步骤S1提取的图像特征以及步骤S2的检测结果，估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息，包括估计各目标三维中心在世界坐标系中的横纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值，其中，以下述方法建立世界坐标系：以自车外三维包围框中心为坐标原点；以自车横向为x轴，右为正方向；以自车纵向为z轴，前方为正方向；以高度方向为y轴，下方为正方向；

2.如权利要求1所述的车载视觉实时多目标多任务联合感知方法，其特征在于，所述深度卷积神经网络特征提取器(4)输出三种不同大小尺寸的预测端口，分别使用所述三种不同大小尺寸的预测端口来预测大、中、小尺寸的目标的类别及其在图像坐标系中的二维位置，其中所述三种预测端口在单帧图像的8、16和32倍下采样，以对大、中、小三种不同尺寸的目标进行检测。

3.如权利要求1所述的车载视觉实时多目标多任务联合感知方法，其特征在于，所述车载视觉实时多目标多任务联合感知方法采用端到端的方式进行参数学习，采用的损失函数为：

L＝ω_2d*L_2d+ω_3d*L_3d+ω_r*L_r

其中，

L_2d是二维目标检测分支的损失函数，

L_3d是三维信息估计分支的损失函数，

L_r是道路分割分支的损失函数，

ω_2d是二维目标检测分支的损失函数的权重，

ω_3d是三维信息估计分支的损失函数的权重，

ω_r是道路分割分支的损失函数的权重。

4.如权利要求2所述的车载视觉实时多目标联合感知方法，其特征在于，所述车载视觉实时多目标多任务联合感知方法的参数训练包括依次执行的下述步骤：

步骤S01，网络预训练阶段；

步骤S02，道路分割分支单独训练阶段；

步骤S03，二维检测分支和道路分割分支共同训练阶段；

步骤S05，主干网络和所有分支联合训练阶段

在道路分割分支单独训练阶段，采用KITTI道路分割数据子集的训练样本和KITTI语义分割数据子集的道路类别训练样本进行训练；在该阶段冻结预训练阶段的主干网络参数，二维检测和三维信息分支产生的损失不进行反向传播更新参数，损失的反向传播仅限定在道路分支的网络层中，设置ω_2d＝0，ω_3d＝0，ω_r＝1，

5.如权利要求4所述的车载视觉实时多目标联合感知方法，其特征在于，

在道路分割分支单独训练阶段，共训练5轮，每轮训练遍历一次所有的道路分割训练样本；

6.如权利要求1所述的车载视觉实时多目标联合感知方法，其特征在于，以下述步骤计算纵向距离和横向距离：

式(1)和式(2)中，

为序号为

的纵向子区间的纵向距离估计值，

为序号为

是回归补偿项的估计值；

决定的参数；

和其相应的横向距离集合。

7.一种车载视觉实时多目标多任务联合感知装置，其特征在于，所述车载视觉实时多目标多任务联合感知装置包括：二维检测模块(1)、三维重建模块(2)、道路分割模块(3)和深度卷积神经网络特征提取器(4)，

所述二维检测模块(1)基于所述深度卷积神经网络特征提取器(4)提取的图像特征，预测各目标的类别及其在图像坐标系中的二维位置，且将目标类别信息和所述二维位置信息输出至所述三维重建模块(2)，所述类别为车辆、骑车人或行人；

8.如权利要求7所述的车载视觉实时多目标多任务联合感知装置，其特征在于，所述三维重建模块(2)包括：

投影位置估计单元(22)，所述投影位置估计单元(22)估计每个被检测到的目标的三维中心在图像中的位置，进而利用相机标定参数和目标纵向距离Z(单元21)估计结果来获得目标的横向位置X；

其中，

所述纵向距离估计单元(21)通过基于空间递增划分的有序回归及离散划分误差的补偿项，来估计每个目标的中心在三维世界中的纵向距离，纵向距离估计单元(21)的输出为目标的纵向位置Z；所述投影位置估计单元(22)通过学习估计投影位置与真实投影位置的偏差损失最小化得到每个目标在图像平面中准确的三维中心投影位置，进而利用相机标定参数和目标纵向距离Z估计结果来获得目标的横向位置X；

所述偏差估计单元(24)在离线数据集(6)中的真实尺寸先验信息的基础上，预测目标真实尺寸与先验尺寸的偏差，以此估计目标的真实尺寸W，L。

9.如权利要求6所述的车载视觉实时多目标多任务联合感知装置，其特征在于，所述车载视觉实时多目标多任务联合感知装置采用端到端的方式进行参数学习，采用的损失函数为：

L＝ω_2d*L_2d+ω_3d*L_3d+ω_r*L_r

其中，

L_2d是二维目标检测分支的损失函数，

L_3d是三维信息估计分支的损失函数，

L_r是道路分割分支的损失函数，

ω_2d是二维目标检测分支的损失函数的权重，

ω_3d是三维信息估计分支的损失函数的权重，

ω_r是道路分割分支的损失函数的权重。

10.如权利要求9所述的车载视觉实时多目标联合感知装置，其特征在于，所述车载视觉实时多目标多任务联合感知装置的参数训练包括依次执行的下述步骤：

步骤S01，网络预训练阶段；

步骤S02，道路分割分支单独训练阶段；

步骤S03，二维检测分支和道路分割分支共同训练阶段；

步骤S05，主干网络和所有分支联合训练阶段