CN114119749A

CN114119749A - 一种基于密集关联的单目3d车辆检测方法

Info

Publication number: CN114119749A
Application number: CN202111405543.8A
Authority: CN
Inventors: 田炜; 陈涵晟; 黄禹尧; 邓振文; 谭大艺; 韩帅
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-01

Abstract

本发明提供一种基于密集关联的单目3D车辆检测方法，包括以下步骤：通过车载相机采集单张的前视图像；计算前视图像中的各像素点在相机坐标系下的2D坐标；映射并计算前视图像中的各像素点在目标局部坐标系下的3D坐标；通过自下而上的实例分割方法划分前视图像中的各目标车辆在前视图像上所占的2D空间区域，并根据2D空间区域选取各目标车辆的像素点及其对应的2D坐标和3D坐标，并构建密集2D‑3D关联；由密集2D‑3D关联构建PnP问题并求解，获取目标车辆的位置和角度；由网络分支预测车辆的长、宽、高尺寸，并结合获取的目标车辆的位置和角度，获取目标车辆的3D检测框。与现有技术相比，该方法能够精确地对交通场景的车辆进行识别和定位。

Description

一种基于密集关联的单目3D车辆检测方法

技术领域

本发明涉及计算机视觉与智能驾驶汽车领域，尤其是涉及一种基于密集关联的单目3D车辆检测方法。

背景技术

在众多应用于智能汽车的传感器中，相机这一视觉传感器具有分辨率高、成本较低、部署方便等优点。利用相机获得的RGB图像数据进行3D车辆检测，可以成为在精度要求稍低的场合代替基于激光雷达的高成本方案。使用单张图像进行3D车辆检测，即单目3D车辆检测，是其中核心技术之一，在智能汽车领域有着广泛的需求。

单目3D车辆检测的难点在于仅凭2D图像估计车辆的距离。目前，主流的单目3D车辆检测方法有两类，一类是通过深层网络直接估计车辆的距离，另一类是构建2D-3D关联并通过几何推理间接估计车辆的距离。其中，前者往往存在依赖特定场景和相机内参，存在泛化性能差的问题。后者对于不同场景和相机内参下数据的迁移更加稳健，实用性更好，但现有方法仍然存在部分问题，主要体现如下：

第一，部分方法在训练模型时需要用到额外的人工标注，例如关键点、车辆3D模型等，增加了数据标注的成本；

第二，现有方法一般需要单独的目标检测或实例分割模块，先完成检测，再生成2D-3D关联并进行几何推理，未能将二者充分结合；

第三，现有方法往往采用固定数量的关键点或区域栅格形成2D-3D关联，不能自适应地去除车辆被遮挡区域的不可靠关联，易使部分被遮挡车辆的定位精度下降。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密集关联的单目3D车辆检测方法，该方法能够精确地对交通场景的车辆进行识别和定位。

本发明的目的可以通过以下技术方案来实现：

本发明提供一种基于密集关联的单目3D车辆检测方法，用于自动驾驶车辆对交通场景中车辆的识别和定位，包括以下步骤：

S1：通过车载相机采集单张的前视图像；

S2：计算所述前视图像中的各像素点在相机坐标系下的实际2D坐标；

S3：对所述前视图像进行处理，依次获取多尺度特征、高分辨率特征图，以及由高斯混合模型描述的高分辨率特征图上各像素点的3D坐标向量的概率分布，将各像素点的3D坐标向量的概率分布处理为各像素点在各局部坐标系下的动态3D坐标的概率分布，训练时再将3D分布投影为相机坐标系下的2D坐标的概率分布，并采用负对数似然损失函数训练网络以最小化重影误差，使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化，进而使得每一个像素点生成一组2D-3D关联；

S4：设置第一网络分支，根据所述高斯混合模型，判定各像素点对应的唯一目标车辆，并对各像素点对应的唯一目标车辆的中心位置进行聚类，实现自下而上的实例分割，进而使得S3中构建的2D-3D关联被划分为各个车辆的密集2D-3D关联；

S5：由所述密集2D-3D关联构建PnP问题并进行求解，获取所述目标车辆的位置和角度；

S6：根据S4的实例分割结果，设置第二网络分支，获取各像素点对应的唯一目标车辆的尺寸，并结合S5获取的目标车辆的位置和角度，获取包含位置、角度、尺寸信息的车辆3D检测框。

优选地，所述目标局部坐标系为以每个所述目标车辆的底面中心点为原点，以每个所述目标车辆的前方为x轴，以每个所述目标车辆的下方为y轴，以每个所述目标车辆的左方为z轴而建立的坐标系。

优选地，所述S3包括以下步骤：

S3.1：依次通过残差网络和特征金字塔网络对前视图像进行处理，获取前视图像的多尺度特征；

S3.2：对所述多尺度特征依次进行变形卷积、双线性插值重采样和拼接处理，获取多尺度融合的高分辨率特征图；

S3.3：通过由卷积层构成的分支网络输出高分辨率特征图上各像素点的3D坐标向量，并采用高斯混合模型描述各像素点的3D坐标向量的概率分布；

S3.4：从多尺度特征中提取各目标车辆的区域特征，根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布，将各像素点在各局部坐标系下的动态3D坐标的概率分布转换为相机坐标系下的2D坐标的概率分布，采用负对数似然损失函数训练网络以最小化重影误差，即使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化，进而使得每一个像素点生成一组2D-3D关联。

优选地，采用高斯混合模型描述各像素点的3D坐标向量的概率分布具体为：

式中，S为预先设置的高斯混合模型的数量，φ_i为第i个高斯混合模型的混合权重，∑_i为第i个高斯混合模型的协方差矩阵，μ_i为第i个高斯混合模型的均值，φ_i,∑_i,μ_i均为网络所输出的变量，

为x^3D的概率密度估计，x^3D为目标局部坐标系下的一组坐标向量。

优选地，将各像素点在各局部坐标系下的动态3D坐标的概率分布投影为相机坐标系下的2D坐标的概率分布的表达式为：

[x^cam y^cam z^cam]^T＝Rx^3D+t

式中，R和t分别为局部坐标系向相机坐标系转换的旋转矩阵与位移向量，中间变量x^cam,y^cam,z^cam分别为相机坐标系下的3D坐标，x^3D为目标局部坐标系下的一组坐标向量，x^2D为转换后的相机坐标系下的一组坐标向量。

优选地，采用负对数似然损失函数训练网络的公式为：

式中，

为权重归一化参数，满足

用以动态平衡损失函数的权重，

为各像素点实际的2D坐标向量，

为2D坐标真值

在转换后的2D坐标概率分布密度函数下的负对数似然，其中

为第i个2D高斯混合模型的协方差矩阵，

为第i个2D高斯混合模型的均值，φ_i为第i个高斯混合模型的静态混合权重，ψ_i为第i个高斯混合模型的动态混合权重。

优选地，所述S4包括以下步骤：

S4.1：划分前视图像中的各目标车辆在前视图像上所占的2D空间区域，并设置第一网络分支，在高分辨率特征图中回归各像素点所属目标车辆的几何中心点的2D位置相对于像素点位置的偏移量，使得每一个像素点都能定位其所属目标车辆的中心位置；

S4.2：通过最小重投影误差准则判定各高斯混合模型对应的目标车辆，进而获取高斯混合模型对应的目标车辆的实际中心位置

S4.3：计算每一个像素点所属的目标车辆的中心位置和高斯混合模型对应的目标车辆的实际中心位置之间的偏移量，并寻找最小的偏移量，进而判定各像素点对应的唯一目标车辆；并通过平滑L1损失函数训练第一网络分支，使得各像素点对应的唯一目标车辆的中心位置x^ctr与唯一目标车辆的实际中心位置

的偏移量最小；

S4.4：设置前景网络分支用以在高分辨率特征图上分割前景像素，通过交叉熵损失函数训练该网络分支，获取前景网络分支；

S4.5：根据前景网络分支和S3中建立的高斯混合模型，对各像素点对应的唯一目标车辆的中心位置进行聚类，实现自下而上的实例分割，进而使得S3.4中所构建的2D-3D关联被划分为各个车辆的密集2D-3D关联。

优选地，所述S5中获取所述目标车辆的位置和角度的公式为：

式中，β,t分别为经过初始化后的目标车辆的横摆角和位移偏量，μ^2D,

分别为2D高斯混合模型的参数，且为β,t的函数，β^*,t^*分别为由β,t优化后的目标车辆的位置和角度。

优选地，在执行S5之前，采用EPnP算法对目标车辆的横摆角和位移偏量进行初始化。

优选地，所述S6包括以下步骤：

S6.1：设置第二网络分支，按照与S4.2相同的规则寻找各像素点对应的目标车辆的尺寸，通过平滑L1损失函数训练所述第二网络分支，并输出高分辨率特征图的各像素点对应的目标车辆的尺寸；

S6.2：根据S4.4的实例分割结果，确定各像素点对应的唯一目标车辆的尺寸；

S6.3：根据S5中的目标车辆的位置和角度，以及S6.2获取的目标车辆的尺寸，获取包含位置、角度、尺寸信息的车辆3D检测框。

与现有技术相比，本发明具有以下优点：

1、本发明设计的基于密集关联的单目3D车辆检测方法不必采用车辆的包括关键点和3D模型的3D几何信息，而是通过构建2D-3D关联，并通过最小化重投影误差来训练网络，使其预测各像素点所对应的3D坐标，避免了现有技术中在训练模型时需要用到额外的人工标注，增加数据标注成本的问题。

2、本发明通过预测2D-3D关联点对其进行聚类获取物体级别的信息的手段，解决了现有技术中先完成检测，再生成2D-3D关联进行几何推理，无法将二者充分结合的问题。

3、本发明通过聚类划分属于不同目标车辆的2D-3D关联点，每个目标车辆最终获得的关联点数量由实际情况确定，且每个像素点不能同时属于两个目标车辆，因此可以解决现有技术中因不能自适应地去除车辆被遮挡区域的不可靠关联，使得部分被遮挡车辆的定位精度下降的问题。

附图说明

图1为本实施例一种基于密集关联的单目3D车辆检测方法的流程示意图；

图2为本实施例中所用网络结构的一个具体实施例的示意图；

图3为本实施例中目标局部坐标系定义的一个具体实施例的示意图；

图4为本实施例中相机坐标系和目标局部坐标系的关系示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本实施例提供一种基于密集关联的单目3D车辆检测方法，用于自动驾驶车辆对交通场景中车辆的识别和定位，包括以下步骤：

S1：通过车载相机采集单张的前视图像；

S2：通过相机内参矩阵计算所述前视图像中的各像素点在相机坐标系下的实际2D坐标；

式中，

为各像素点在相机坐标系下的实际2D坐标，K为相机内参矩阵，(u,v)为像素索引坐标，即为前视图像中第v行第u列的像素坐标。

S3：对前视图像进行处理，依次获取多尺度特征、高分辨率特征图，以及由高斯混合模型描述的高分辨率特征图上各像素点的3D坐标向量的概率分布，将各像素点的3D坐标向量的概率分布处理为各像素点在各局部坐标系下的动态3D坐标的概率分布，训练时再投影为相机坐标系下的2D坐标的概率分布，并采用负对数似然损失函数训练网络以最小化重影误差，使各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化，进而使得每一个像素点生成一组2D-3D关联。

目标局部坐标系为以自动驾驶车辆为原点而建立的坐标系，参考图3所示，目标局部坐标系为以每个目标车辆的底面中心点为原点，以每个目标车辆的前方为x轴，以每个目标车辆的下方为y轴，以每个目标车辆的左方为z轴而建立的坐标系。

混合密度网络(Mixture Density Networks,MDN)输出的变量为高斯混合模型(Gaussian Mixture Model)的参数，共包括n个高斯混合模型的均值、协方差和其混合权重。

S3.1：依次通过残差网络和特征金字塔网络对前视图像进行处理，获取前视图像的多尺度特征。

将残差网络作为骨干网络提取前视图像的图像特征，并将图像特征经过特征金字塔网络得到多尺度特征；多尺度特征的分辨率分别为原图的1/4、1/8、1/16、1/32，通道维度为256。

S3.2：对多尺度特征依次进行变形卷积、双线性插值重采样和拼接处理，获取多尺度融合的高分辨率特征图。

通过3x3变形卷积对多尺度特征进行处理，将各级特征通过双线性插值重采样为原图1/4的尺寸，并在通道方向拼接，获取多尺度融合后的高分辨率特征图；通道维度为512。

S3.3：通过由卷积层构成的分支网络输出高分辨率特征图上各像素点的3D坐标向量，并采用高斯混合模型描述各像素点的3D坐标向量的概率分布。

采用高斯混合模型描述x^3D的概率分布：

为x^3D的概率分布，x^3D为各像素点在目标局部坐标系下的一组坐标向量[x,y,z]^T。

具体地，x^3D完全是由网络学习而来，不一定具有强烈的物理意义。理想情况下，网络预测的x^3D应满足投影约束，即由S3.4.2步骤得到的x^2D应与其对应的相机坐标系下的实际2D坐标

一致。网络实际预测的不是单个x^3D，而是x^3D的概率分布，该分布可由φ_i,∑_i,μ_i三个参数描述。分支网络由卷积层构成，将高分辨率特征图映射为φ_i,∑_i,μ_i。

由上式可知，分支网络输出S组φ_i,∑_i,μ_i。其中，φ_i需要保证和为1，因此在输出端需要采用softmax层；矩阵∑_i需要保证对称正定，因此，需要对矩阵进行LDL分解：

∑＝LDL^T

D＝exp diag[d₁ d₂ d₃]

式中，D为矩阵∑经LDL分解后的对称正定矩阵，L为单位下三角矩阵，d₁、d₂和d₃分别为矩阵D的对角线上的三个参数，l₁、l₂和l₃分别为L矩阵中的参数。

经LDL分解后，可保证∑对称正定，此时网络只需要输出d₁、d₂、d₃、l₁、l₂和l₃六个参数，因此协方差的输出层维度为6。

S3.4：从多尺度特征中提取各目标车辆的区域特征，根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布，将各像素点在各局部坐标系下的动态3D坐标的概率分布转换为相机坐标系下的2D坐标的概率分布，采用负对数似然损失函数训练网络以最小化重影误差，即使各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化，进而使得每一个像素点生成一组2D-3D关联。

S3.4.1：增加一个区域卷积网络(R-CNN)作为辅助分支，从多尺度特征中提取各目标车辆的区域特征，并输出前视图像中目标车辆的像素框，即目标框，如果目标框之间有重叠，则重叠区域的像素对于每一个目标框都有一个权重，这个权重为动态混合权重ψ_i。通过该分支输出每个目标车辆的区域内各像素点的动态混合权重ψ_i，进而根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布。

为x^3D的概率密度估计，ψ_i为每个目标车辆的区域内各像素点的动态混合权重，x^3D为各像素点在目标局部坐标系下的一组坐标向量[x,y,z]^T。

S3.4.2：将各像素点在各目标局部坐标系下的动态3D坐标的概率分布投影为相机坐标系下的2D坐标的概率分布。

[x^cam y^cam z^cam]^T＝Rx^3D+t

式中，R和t分别为目标局部坐标系向相机坐标系转换的旋转矩阵与位移向量，中间变量x^cam,y^cam,z^cam分别为相机坐标系下的3D坐标。

对于高斯混合分布，采用局部线性化的方法计算变换后的2D高斯混合模型的参数。

具体的参数变换方式为：均值μ_i的变换方式与上式x^3D一致，即先Rμ+t位姿变换得到

再除以Z轴坐标归一化

得到2D高斯混合模型的均值向量μ^2D。2D高斯混合模型的协方差∑^2D的投影变换为：

其中[:2,:2]表示取3×3矩阵的前两行两列。

S3.4.3：采用负对数似然损失函数训练网络以最小化重影误差，即使得各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化，进而获取2D-3D关联。

网络训练的目标是最小化重投影误差，即使得各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化，具体而言，采用负对数似然损失函数训练网络：

式中，

为权重归一化参数，满足

用以动态平衡损失函数的权重，

为各像素点实际的2D坐标向量，

为2D坐标真值

在转换后的2D坐标概率分布密度函数下的负对数似然，其中

为第i个2D高斯混合模型的协方差矩阵，

S4：设置第一网络分支，根据高斯混合模型，判定各像素点对应的唯一目标车辆，并对各像素点对应的唯一目标车辆的中心位置进行聚类，实现自下而上的实例分割，进而使得S3中构建的2D-3D关联转化为密集2D-3D关联。

S4.1：划分前视图像中的各目标车辆在前视图像上所占的2D空间区域，并设置第一网络分支，在高分辨率特征图中回归各像素点所属目标车辆的几何中心点的2D位置相对于像素点位置的偏移量，使得每一个像素点都能定位其所属目标车辆的中心位置。

由于S3.3中的高斯混合模型中的同一个像素点的不同高斯混合模型可能会被分配至不同的目标车辆，对于K个高斯混合模型需要相应地别输出K个中心偏移量，以便区分这些目标车辆；S4.1中每一个像素点对应若干个目标车辆。

的偏移量最小。

S4.4：设置前景网络分支用以在高分辨率特征图上分割前景像素，通过交叉熵损失函数训练该网络分支，获取前景网络分支。

作为一种可选的实施方式，交叉熵损失函数的目标值的获取方式包括：图像的语义分割标注，以及将车辆2D框作为粗略的前景标签；

S4.5：根据前景网络分支和S3.3中建立的高斯混合模型，对各像素点对应的唯一目标车辆的中心位置进行聚类，实现自下而上的实例分割，进而使得S3.4中所构建的2D-3D关联转化为密集2D-3D关联。

具体地，首先通过前景网络分支选取所有前景像素点，取S3.3中混合权重φ_i最大的高斯混合模型参数μ,∑，及各像素点对应的唯一目标车辆的中心位置x^ctr，公式为：

对各像素点对应的唯一目标车辆的中心位置x^ctr进行聚类，实现自下而上的实例分割，进而使得S3.4中所构建的2D-3D关联划分为各个车辆的密集2D-3D关联。

作为一种可选的实施方式，采用DBSCAN算法对所有的前景像素点的中心点进行聚类。

S5：由所述密集2D-3D关联构建PnP问题并求解，获取所述目标车辆的位置和角度；

式中，β,t分别为经过初始化后的目标车辆的横摆角和位移偏量，并根据上式进行优化求解，μ^2D,

分别为2D高斯混合模型的参数，且为β,t的函数，β^*,t^*分别为优化后的目标车辆的位置和角度，由于x^2D在位姿变换时用到了R(β)、t，因此，x^2D是β,t的函数。

该优化问题为寻找马氏距离度量下重投影误差最小的车辆角度和位置，从而实现对车辆的3D定位。

在进行S5之前，采用EPnP算法对目标车辆的横摆角β和位移偏量t进行初始化，然后采用Levenberg-Marquardt算法求解上述公式所描述的非线性最小二乘问题，得到最优解β^*,t^*。

具体地，每个像素点对应若干个目标车辆及目标车辆的尺寸。

S6.2：根据S4.4的实例分割结果，确定各像素点对应的唯一目标车辆的尺寸。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。