CN111046767B

CN111046767B - 一种基于单目图像的3d目标检测方法

Info

Publication number: CN111046767B
Application number: CN201911226974.0A
Authority: CN
Inventors: 李明; 樊一帆; 曹晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-06-07
Anticipated expiration: 2039-12-04
Also published as: CN111046767A

Abstract

本发明涉及一种基于单目图像的3D目标检测方法。首先充分利用标注好的数据集以及标定好的相机投影矩阵，得到2D,3D的先验锚框；利用预训练的深度卷积网络作为基础网络提取图像中的语义信息；利用三路并行的卷积模块，得到2D,3D框的各个成分输出，三路输出使用自学习权重参数进行融合；采用多任务损失函数平衡不同任务以及同一任务中不同成分的损失，得到精确的2D,3D框。该发明仅通过单目图像实现3D目标检测，成本低，效果好，可以广泛应用于无人驾驶领域。

Description

一种基于单目图像的3D目标检测方法

技术领域

本发明涉及的是一种无人驾驶目标检测领域的技术，具体来说是一种基于单目图像的3D目标检测技术。

背景技术

当前基于图像的二维目标检测技术发展相对比较成熟，相较于2D目标检测任务，3D目标检测任务难度更大，复杂度更高，并且意义重大。3D目标检测在无人驾驶领域发挥着非常重要的作用，不仅可以知道目标的大小，位置，运动方向，了解目标当前时刻的状态，同时对目标后续的预测，跟踪，避障，路径规划等具有辅助作用。因此，在无人驾驶领域急需一种精准的3D目标检测算法，确保无人驾驶的安全性和可靠性。

当前已有的3D目标检测技术主要依赖于高线束的激光雷达获取的点云数据，具体方法包括将点云投影到鸟瞰图或者前视图，利用二维图像目标检测技术进行检测以及直接对三维点云进行特征提取并检测。但是由于激光雷达成本高，点云数据量大，难以实际应用。基于单目图像的目标检测技术主要依赖于一些外部的子网络，这些子网络负责执行2D目标检测，深度图估计等任务。这种依赖于自网络的方法会潜在的加入噪声，对整个检测框架的性能产生影响。

发明内容

针对现有方法存在的不足，提出一种基于单目图像的三维目标检测方法，通过一种自上而下的单阶段的三维区域生成网络，输入单目图像及对应的相机投影矩阵，网络同时输出精确的二维和三维目标框，该方法成本低，效果好，实用价值高，可广泛应用在无人驾驶领域。

本发明的上述技术问题主要是通过下述技术方案得以解决的：一种基于单目图像的3D目标检测方法，包括如下步骤：

步骤1，生成2D,3D锚框模板，2D，3D锚框统一定义为[x_p,y_p,w_2D,h_2D,z_3D,w_3D,h_3D,l_3D,θ_3D]；x_p,y_p表示2D锚框的中心坐标点，w_2D,h_2D分别表示2D锚框的宽高，x_p,y_p,z_3D表示3D锚框的中心坐标点，w_3D,h_3D,l_3D分别表示3D锚框的宽、高、长；θ_3D表示3D锚框沿y轴方向的旋转角yaw，即偏航角；

步骤2，利用预训练的DenseNet121网络作为基础网络获取图像的特征图，提取图像中的语义信息；

步骤3，利用三路并行的卷积分支对特征图进行处理，充分提取图像中的深度特征；

步骤4，将三路并行的卷积分支分别通过两个不同的卷积层进行卷积处理，然后对三个分支的每一个输出设置一个网络权重，三路权重之和为1，得到融合后的输出，计算公式如下所示：

output_final＝α*output₁+β*output₁+γ*output₃

α+β+γ＝1

其中，output₁，output₂，output₃分别为三个卷积分支的输出；

步骤5，定义网络的输出，包括2D部分输出的4个2D框的回归值；3D部分输出的7个3D框的回归值；以及框的分类置信度；

2D部分的输出定义为b_{2D_out}＝[dx_2D,dy_2D,dw_2D,dh_2D]，表示为2D框的转换值，预测的2D目标框b_2D＝[x′_2D,y′_2D,w′_2D,h′_2D]通过如下公式获得，

x′_2D＝x_p+dx_2D*t_2D y′_2D＝y_p+dy_2D*t_2D

w′_2D＝exp(dw_2D)*w_2Dh′_2D＝exp(dh_2D)*h_2D

3D部分的输出定义为b_{3D_out}＝[dx_p,dy_p,dz_3D,dw_3D,dh_3D,dl_3D,dθ_3D],表示3D框的转换值，预测的3D目标框b_3D＝[x′_p,y′_p,z′_3D,w′_3D,h′_3D,l′_3D,θ′_3D]由下列公式计算得到，

x′_p＝x_p+dx_p*t_2D y′_p＝y_p+dy_p*t_2D

z′_3D＝z_3D+dz_3D w′_3D＝exp(dw_3D)*w_3D

h′_3D＝exp(dh_3D)*h_3D l′_3D＝exp(dl_3D)*l_3D

θ′_3D＝θ_3D+dθ_3D

其中

步骤6，定义网络的损失函数，该损失函数包括分类损失、2D框损失、3D框损失，其中分类损失Loss_cls使用基于softmax的多项逻辑损失函数，2D框损失Loss_2D采用基于对数的IOU损失，其公式为：

Loss_2D＝-log(IOU(b_2D,g_2D))

其中b_2D为预测的2D目标框，g_2D为真实的2D框；

3D框损失Loss_3D采用smoothl1损失，用于计算网络输出的3D框各个参数与真实值的损失，定义联合3D损失Loss_corner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和，3D框损失Loss_3D公式为：Loss_3D＝λ₁*(smoothl1(dx_p,dx_g)+smoothl1(dy_p,dy_g))+λ₂*smoothl1(dz_3D,dz_g)+λ₃*smoothl1(dw_3D,dw_g)+smoothl1(dh_3D,dh_g)+smoothl1(dl_3D,dl_g)+λ₄*smoothl1(dθ_3D,dθ_g)+λ₅Loss_corner

其中，dx_g、dy_g、dz_g、dw_g、dh_g、dl_g表示3D真实框与3D锚框的偏差值，作为真实的偏差值；dx_p、dy_p、dz_3D、dw_3D、dh_3D、dl_3D、dθ_3D表示预测的偏差值；corner_p_i表示预测的3D目标框的每个顶点的坐标，corner_g_i为真实3D框的每个顶点的坐标；相机坐标系下预测的3D目标框的各个顶点坐标由b_3D计算得到，λ₂、λ₁、λ₃、λ₄、λ₅为常数；

整体损失函数定义为：Loss＝Loss_cls+Loss_2D+Loss_3D；

步骤7，将步骤5中获得的预测的3D目标框中心点转换到相机坐标系，获得相机坐标系下完整的3D框，计算公式如下，

其中P为3*4的相机投影矩阵，z′_p＝z′_3D；

步骤8，设置IOU阈值以及置信度阈值，去除掉置信度低于置信度阈值的框，然后去除掉IOU小于IOU阈值的框；

步骤10，输出在图像坐标系下预测的2D目标框的信息，以及相机坐标系下3D框的信息，得到最终的2D,3D目标框。

进一步的，所述步骤2中所述DenseNet121网络，在传统网络模型的基础上去掉transition中的池化层，使得最终生成的特征图相较于原图下采样16倍；并在denseblock4中使用空洞卷积，交替使用系数为2，3，5的空洞卷积。

进一步的，步骤3中三路并行的卷积分支包括，

分支一采用扩张卷积进行多尺度融合：首先对特征图进行4个子路的处理，第一个子路经过两个串联的3*3卷积；第二至四个子路首先使用3*3，扩张率为分别为2，4，8的空洞卷积，再使用3*3的卷积，然后将4个子路的特征拼接在一起；

分支二采用row bins模块，即将特征图分为多个不同的横条带，对每一个条带采用不同的卷积核进行卷积处理；

分支三的输出即为DenseNet121网络的输出，作为全局特征。

进一步的，步骤8中置信度阈值设置为0.7，设置IOU阈值为0.5。

进一步的，步骤6中λ₄＝λ₂＝1，λ₁＝λ₃＝0.7，λ₅＝0.2。

本发明具有如下优点：1.通过对数据集聚类以及均值统计等方式获得2D,3D先验锚框，能够大大缓解训练难度。2.采用3路并行的分支，并将各路输出结果融合，既保留的全局特征，又能提取网络相对于特定位置的深度特征，同时考虑到多尺度特征融合，能够有效提升检测精度。3.通过学习3D中心点在图像中的投影点，能够更有效的利用图像中的特征。4.通过设置不同的损失函数权重，使网络能从图像中学习到更准确的深度和旋转角度信息。

附图说明

图1是本发明中涉及的网络结构图。

图2是本发明中图1的输出效果图。

图3是本发明中涉及的2D中心，3D中心，以及3D投影中心的示意图。

图4是本发明中涉及的ASPP模块的示意图。

图5是本发明中涉及的row bins模块的示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

如图1所示，本发明提供一种基于单目图像的3D目标检测方法，包括以下步骤：

步骤1，生成2D、3D锚框模板。通过预先对标注好数据集的2D真实框聚类，得到K个大小，尺度不同的锚框，定义为[x_p,y_p,w_2D,h_2D]，x_p,y_p表示2D锚框的中心坐标点，w_2D,h_2D分别表示2D锚框的宽高。3D锚框定义为[x_{p_3D},y_{p_3D},z_3D,w_3D,h_3D,l_3D,θ_3D]，w_3D,h_3D,l_3D分别表示3D框的尺寸，即宽，高，长；θ_3D表示3D框沿y轴方向的旋转角yaw，即偏航角。其具体的值由以下方式获得。

首先[x_{p_3D},y_{p_3D}]表示3D中心点[x_3D,y_3D]在图像的坐标系中的投影点，其中，图像坐标系即(U,V)坐标系，是以图像左上角为原点，图像的两边作为坐标轴。在本发明中，我们用二维锚框的中心点，作为三维锚框中心的投影点，二者公用一个中心点,即[x_{p_3D},y_{p_3D}]＝[x_p,y_p]。2D中心点，3D中心点，3D中心的投影点之间的关系如附图3说明。故而2D，3D锚框可以统一定义为[x_p,y_p,w_2D,h_2D,z_3D,w_3D,h_3D,l_3D,θ_3D]。通过计算K个2D锚框与数据集中所有真实3D框在图像上的投影2D框的交并比(IOU)，设置IOU阈值，将高于阈值的3D真实框[z_{g_3D},w_{g_3D},h_{g_3D},l_{g_3D},θ_{g_3D}]的信息赋予3D锚框并统计均值，得到[z_3D,w_3D,h_3D,l_3D,θ_3D]，生成2D,3D锚框模板。

步骤2，利用预训练的DenseNet121网络作为基础网络获取图像的特征图，提取图像中的语义信息。为了保证最终特征图的大小，本发明去掉transition中的池化层，使得最终生成的特征图相较于原图下采样16倍。为了弥补去掉池化层带来的感受野减小问题，在denseblock4中使用空洞卷积，同时为了避免空洞卷积带来的网格效应，交替使用系数为2，3，5的空洞卷积。

步骤3，三路并行的卷积分支充分提取图像中的深度特征。

分支一采用扩张卷积进行多尺度融合，模块中的ASPP部分采用不同扩张系数的扩张卷积操作，能够在不改变图像分辨率的前提下，有效得到不同感受野大小的卷积操作，进而得到多尺度融合特征，如图4所示，对特征图进行4个子路的处理，第一个子路经过两个串联的3*3卷积；第二至四个子路首先使用3*3，扩张率为分别为2，4，8的空洞卷积，再使用3*3的卷积，然后将4个子路的特征拼接在一起；

分支二将特征图沿横向划分为b个条带，对每一个条带采用不同的卷积核进行卷积，能够为每个条带区域开发特定于位置的特征和偏差。如图5所示，row bins模型是将特征图分为不同的横条带，对每一个条带采用不同的卷积核进行卷积。优选32个条带，卷积核大小为3*3。

分支三作为全局特征，保留由基础网络学习到的特征，分支三的输出即为DenseNet121网络的输出。

步骤4，三路输出结果的融合。三路分支分别通过3*3,1*1的卷积，为了使网络输出充分利用三路特征信息，对每一个输出让网络自学习一个权重，三路权重之和为1，得到融合后的输出。计算公式如下所示

output_final＝α*output₁+β*output₁+γ*output₃

α+β+γ＝1

步骤5，定义网络的输出。网络输出12个值，包括4个2D框的回归值；7个3D框的回归值；以及1个框的分类置信度。2D部分的输出定义为b_{2D_out}＝[dx_2D,dy_2D,dw_2D,dh_2D]，表示为2D框的转换值，预测的2D目标框b_2D＝[x′_2D,y′_2D,w′_2D,h′_2D]通过如下公式获得，

x′_2D＝x_p+dx_2D*t_2D y′_2D＝y_p+dy_2D*t_2D

w′_2D＝exp(dw_2D)*w_2Dh′_2D＝exp(dh_2D)*h_2D

3D部分的输出定义为b_{3D_out}＝[dx_p,dy_p,dz_3D,dw_3D,dh_3D,dl_3D,dθ_3D],表示3D框的转换值，预测3D的目标框b_3D＝[x′_p,y′_p,z′_3D,w′_3D,h′_3D,l′_3D,θ′_3D]由下列公式计算得到

x′_p＝x_p+dx_p*t_2D y′_p＝y_p+dy_p*t_2D

z′_3D＝z_3D+dz_3D w′_3D＝exp(dw_3D)*w_3D

h′_3D＝exp(dh_3D)*h_3D l′_3D＝exp(dl_3D)*l_3D

θ′_3D＝θ_3D+dθ_3D

其中

步骤6：定义网络的损失函数，该损失函数包括分类损失，2D框损失，3D框损失。

分类损失Loss_cls使用基于softmax的多项逻辑损失函数。2D框损失Loss_2D采用基于对数的IOU损失，其公式为

Loss_2D＝-log(IOU(b_2D,g_2D))

其中b_2D为预测的2D目标框，g_2D为真实的2D框。

3D框损失Loss_3D采用smoothl1损失，用于计算网络输出的3D框各个参数与真实值的损失，同时，为提高3D框整体的精度，定义联合3D损失Loss_corner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和。3D框损失Loss_3D公式为：

Loss_3D＝λ₁*(smoothl1(dx_p,dx_g)+smoothl1(dy_p,dy_g))+λ₂*smoothl1(dz_3D,dz_g)+λ₃*smoothl1(dw_3D,dw_g)+smoothl1(dh_3D,dh_g)+smoothl1(dl_3D,dl_g)+λ₄*smoothl1(dθ_3D,dθ_g)+λ₅Loss_corner

其中，dx_g、dy_g、dz_g、dw_g、dh_g、dl_g表示3D真实框与3D锚框的偏差值，作为真实的偏差值；dx_p、dy_p、dz_3D、dw_3D、dh_3D、dl_3D、dθ_3D表示预测的偏差值；corner_p_i表示预测的3D目标框的每个顶点的坐标，corner_g_i为真实3D框的每个顶点的坐标。相机坐标系下预测的3D目标框的各个顶点坐标可由b_3D计算得到，具体计算为现有技术，可参考文献1。

特别的，考虑仅使用单目图像来进行3D目标检测，估计目标的深度以及旋转角的难度要高于其他参数，因此使用不同的权重平衡3D框各个参数的损失，增大深度值以及旋转角的损失函数的权重，使网络更倾向于学习更准确的深度和角度信息。本实施例中设置λ₄＝λ₂＝1，λ₁＝λ₃＝0.7，λ₅＝0.2。

整体损失函数定义为：Loss＝Loss_cls+Loss_2D+Loss_3D。

步骤7，获得相机坐标系下完整的3D框。如步骤1和步骤5中所述，定义的3D锚框以及网络预测值均为3D中心点在图像坐标系下的投影点，通过2D-3D间的投影转换关系计算出相机坐标系下的3D中心。2D-3D投影转换如下公式表示，

其中P为3*4的相机投影矩阵，z′_p＝z′_3D。

步骤8，NMS过滤掉多余的预测2D目标框和3D目标框。设置IOU阈值以及置信度阈值，去除掉置信度低和重复的框。

置信度阈值通常设置为0.7，直接去掉置信度低于该阈值的框，对于置信度高于阈值的框，通常设置IOU阈值为0.5，去除掉重复的框。

步骤9，输出在图像坐标系下预测的2D目标框的信息，以及相机坐标系下3D框的信息，得到最终的2D、3D目标框。

训练过程：输入训练集，根据步骤1得到2D、3D锚框模版；图像经过DenseNet121以及三路并行的分支得到框的分类，2D框，3D框的输出；与真实框的信息做损失函数；反向传播，不断学习网络参数；

测试过程：输入测试集，使用训练过程中的2D,3D锚框作为先验；经过网络输出框的分类，2D框，3D框的信息；进行NMS去除多余的重复的2D和3D框；得到最终的2D,3D框。

在KITTI数据集中，按照KITTI数据集设置的汽车类官方的评估标准IOU>0.7的标准，其中验证集1请参考文献2，验证集2请参考文献3，按照本发明方法进行处理，得到评估汽车类的精度(ap)如表1所示：

表1本发明方法精度

参考文献：

1.https://blog.csdn.net/weizhangyjs/article/details/81020177。

2.X.Chen,K.Kundu,Y.Zhu,A.G.Berneshawi,H.Ma,S.Fidler,and R.Urtasun.3Dobject proposals for accurate object class detection.In NIPS,pages 424–432,2015.1,2,3,6,7,8。

3.Y.Xiang,W.Choi,Y.Lin,and S.Savarese.Subcategory-aware convolutionalneural networks for object proposals and detection.In WACV.IEEE,2017.6。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于单目图像的3D目标检测方法，其特征在于，包括以下步骤：

步骤1，生成2D，3D锚框模板，2D，3D锚框统一定义为[x_p，y_p，w_2D，h_2D，z_3D，w_3D，h_3D，l_3D，θ_3D]；x_p，y_p表示2D锚框的中心坐标点，w_2D，h_2D分别表示2D锚框的宽高，x_p，y_p，z_3D表示3D锚框的中心坐标点，w_3D，h_3D，l_3D分别表示3D锚框的宽、高、长；θ_3D表示3D锚框沿y轴方向的旋转角yaw，即偏航角；

步骤3中三路并行的卷积分支包括，

分支三的输出即为DenseNet121网络的输出，作为全局特征；

output_final＝α*output₁+β*output₁+γ*output₃

α+β+γ＝1

2D部分的输出定义为b_{2D_out}＝[dx_2D，dy_2D，dw_2D，dh_2D]，表示为2D框的转换值，预测的2D目标框b_2D＝[x′_2D，y′_2D，w′_2D，h′_2D]通过如下公式获得，x′_2D＝x_p+dx_2D*t_2D y′_2D＝y_p+dy_2D*t_2D

w′_2D＝exp(dw_2D)*w_2D h′_2D＝exp(dh_2D)*h_2D

3D部分的输出定义为b_{3D_out}＝[dx_p，dy_p，dz_3D，dw_3D，dh_3D，dl_3D，dθ_3D]，表示3D框的转换值，预测的3D目标框b_3D＝[x′_p，y′_p，z′_3D，w′_3D，h′_3D，l′_3D，θ′_3D]由下列公式计算得到，

x′_p＝x_p+dx_p*t_2D y′_p＝y_p+dy_p*t_2D

z′_3D＝z_3D+dz_3D w′_3D＝exp(dw_3D)*w_3D

h′_3D＝exp(dh_3D)*h_3D l′_3D＝exp(dl_3D)*l_3D

θ′_3D＝θ_3D+dθ_3D

其中

Loss_2D＝-log(IOU(b_2D，g_2D))

其中b_2D为预测的2D目标框，g_2D为真实的2D框；

3D框损失LOSs_3D采用smooth11损失，用于计算网络输出的3D框各个参数与真实值的损失，定义联合3D损失Loss_corner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和，3D框损失LOss_3D公式为：LOss_3D＝λ₁*(smoothl1(dx_p，dx_g)+smoothl1(dy_p，dy_g))+λ₂*smoothl1(dz_3D，dz_g)+λ₃*smoothl1(dw_3D，dw_g)+smoothl1(dh_3D，dh_g)+smoothl1(dl_3D，dl_g)+λ₄*smoothl1(dθ_3D，dθ_g)+λ₅Loss_corner

其中，dx_g、dy_g、dz_g、dw_g、dh_g、dl_g表示3D真实框与3D锚框的偏差值，作为真实的偏差值；dx_p、dy_p、dz_3D、dw_3D、dh_3D、dl_3D、dθ_3D表示预测的偏差值；corner_p_i表示预测的3D目标框的每个顶点的坐标，cornerg_i为真实3D框的每个顶点的坐标；相机坐标系下预测的3D目标框的各个顶点坐标由b_3D计算得到，λ₂、λ₁、λ₃、λ₄、λ₅为常数；

整体损失函数定义为：Loss＝LoSs_cls+Loss_2D+Loss_3D；

其中P为3*4的相机投影矩阵，z′_p＝z′_3D；

步骤10，输出在图像坐标系下预测的2D目标框的信息，以及相机坐标系下3D框的信息，得到最终的2D，3D目标框。

2.如权利要求1所述的一种基于单目图像的3D目标检测方法，其特征在于：所述步骤2中所述DenseNet121网络，在传统网络模型的基础上去掉transition中的池化层，使得最终生成的特征图相较于原图下采样16倍；并在denseblock4中使用空洞卷积，交替使用系数为2，3，5的空洞卷积。

3.如权利要求1所述的一种基于单目图像的3D目标检测方法，其特征在于：步骤8中置信度阈值设置为0.7，设置IOU阈值为0.5。

4.如权利要求1所述的一种基于单目图像的3D目标检测方法，其特征在于：步骤6中λ₄＝λ₂＝1，λ₁＝λ₃＝0.7，λ₅＝0.2。