CN110070025A

CN110070025A - 基于单目图像的三维目标检测系统及方法

Info

Publication number: CN110070025A
Application number: CN201910306845.6A
Authority: CN
Inventors: 林巍峣; 陈志明; 朱燕民; 卢宏涛; 熊红凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-30
Anticipated expiration: 2039-04-17
Also published as: CN110070025B

Abstract

一种基于单目图像的三维目标检测系统及方法，将三维目标检测转化到二维图像下的预测，然后应用摄像头标定参数将二维映射到摄像头三维坐标系下，重构出目标的三维目标框，通过对映射出的三维目标框进行进一步修正，得到精确的三维目标框，经两步法训练后进行精确三维目标检测，本发明低成本，高效，具有广泛的实际应用价值。

Description

基于单目图像的三维目标检测系统及方法

技术领域

本发明涉及的是一种自动驾驶领域的技术，具体是一种基于单目图像的三维目标检测系统及方法。

背景技术

目前用于自动驾驶的二维目标检测技术相对成熟，三维目标检测技术成为研究热点，其难度更大，复杂度更高。当前，三维目标检测现有的方法绝大多数基于激光雷达扫描的点云数据，但由于激光雷达的高成本，不能大规模实际落地。现有的一些单目图像的三维目标检测方法，主要集中在车的三维检测，由于车是刚体，可以建立不同类别车的CAD模型，将二维映射为三维，然而要为每一个类别设计对应CAD模型，过程复杂，不具有很好的泛化能力。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于单目图像的三维目标检测系统及方法，通过精确地检测目标的接地点，然后通过摄像头的投影矩阵映射出接地点的真实三维矩阵，最终恢复出目标的真实三维目标框，该方法低成本，高效，具有广泛的实际应用价值。

本发明是通过以下技术方案实现的：

本发明涉及一种基于单目图像的三维目标检测系统，包括：二维框检测模块、二维修正模块以及用于将二维映射三维的标定摄像头投影矩阵模块，三维目标框进一步修正模块，其中：二维框检测模块与深度特征相连进行二维信息预测并传输二维目标框、接地点等信息，二次修正模块与二维框检测模块相连进行进一步修正二维预测信息，投影矩阵映射模块与二次修正模块相连进行将二维点映射到摄像头坐标系下的三维点处理并传输三维目标框信息，三维目标框修正模块与投影矩阵映射模块相连进行三维目标框修正处理，最终系统输出精确的三维目标框。

附图说明

图1为本发明网络训练数据示意图；

图2为本发明网络结构图；

图3为三维目标框修正模块结构图；

图4为本发明实施例效果图；

图5为二维目标信息示意图；

图中：a、b、c分别表示本发明神经网络学习到的二维框信息在图片中的可视化；

图6为三维目标检测框点云示意图；

图中：a、b、c分别表示本发明神经网络学习到的三维目标框在不同时刻点云的可视化。

具体实施方式

如图1所示，为本实施例涉及一种基于单目图像的三维目标检测系统，包括：二维框检测模块、二维修正模块以及用于将二维映射三维的标定摄像头投影矩阵模块，三维目标框进一步修正模块，其中：二维框检测模块与深度特征相连进行二维信息预测并传输二维目标框、接地点等信息，二次修正模块与二维框检测模块相连进行进一步修正二维预测信息，投影矩阵映射模块与二次修正模块相连进行将二维点映射到摄像头坐标系下的三维点处理并传输三维目标框信息，三维目标框修正模块与投影矩阵映射模块相连进行三维目标框修正处理，最终系统输出精确的三维目标框。

本实施例中，所述的三维目标框修正模块首先对深度特征进行ROI匹配(Align)操作，得到每个目标的深度特征，然后送入节点数为4096、1024的两层的全连接层的感知机中，最后输出的节点数为类别数*7。

由于检测的接地点往往会偏离实际的“0”平面，需要回归目标的俯仰角进行补偿，为了精确预测偏离距离，将偏离距离与其图像坐标系下的面积的比值进行编码回归。

本实施例基于上述系统的三维目标检测方法，通过将三维目标检测转化到二维图像下的预测，然后应用摄像头标定参数将二维映射到摄像头三维坐标系下，重构出目标的三维目标框，通过对映射出的三维目标框进行进一步修正，得到精确的三维目标框，经两步法训练后进行精确三维目标检测；所述方法具体包括以下步骤：

第一步：对图1所示的三维目标检测系统，采用现有数据库进行训练，具体为：

本发明采用KITTI数据库进行训练，该数据库包括：汽车、行人、骑自行车的人等目标的二维框和三维框，目标的二维框，即：(c_x，c_y，width，height)，由图像坐标系下的中心点坐标和宽高构成；目标的三维框，即：(x，y，z，l，w，h，yaw)单位为米，其中：x，y，z分别为目标在摄像头坐标系下的其对应的底部中心点的坐标，l，w，h分别为目标的真实的长宽高尺寸，yaw为目标的摄像头坐标系下的航向角。

为了获取目标的底部四个接地点的图像坐标系下的坐标，将三维目标框的底部四个点通过标定摄像头投影矩阵映射到二维图像坐标系下，顺时针方向为当摄像头离地面的固定高度为h，即可得到目标接地点的真实偏移量单位为米。

所述的KITTI数据库，来自Geiger A,Lenz P,Stiller C,et al.Vision meetsrobotics:The KITTI dataset[J].The International Journal of Robotics Research,2013,32(11):1231-1237.

第二步：采用三维目标检测系统中的二维修正模块分别提取第一步训练后的三维目标检测系统中的VGG16网络结构的Conv4层、Conv5层、fc7层、Conv6层的特征，分别用一系列卷积操作直接进行回归图像坐标系下的四个接地点和摄像头坐标系下的离“0”平面的真实偏移量预测。

为了让设计的网络更好地学习目标的(c_x，c_y，width，height)，信息，将其按照以下方式进行编码：其中：p_i表示对应目标信息设置的先验值，o_i表示对应目标信息的真实值。

第三步：采用三维目标检测系统中的二维修正模块分别提取三维目标检测系统中的 RefineDet网络结构的P4层、P5层、P6层、P7层的特征，通过一系列卷积操作直接进行二维框的预测值(c_x，c_y，width，height)、三维目标框的底部四个点的映射值以及目标接地点的真实偏移量的修正，使网络预测的以上目标信息更加准确。

所述的RefineDet网络结构包括：用于滤除负的anchor以减少用于分类器的搜索空间，以及粗调anchor的位置和大小的anchor细化模块和用于改进回归并预测多类标签的对象检测模块(Zhang S,Wen L,Bian X,et al.Single-shot refinement neuralnetwork for object detection[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2018:4203-4212.)

第四步：图像坐标系下的接地点到摄像头坐标系下的映射，得到摄像头坐标系下的三维目标框的信息，具体包括：

4.1)由于网络学习的是编码过后目标的信息，故首先解码目标的二维框的预测值(c_x，c_y，width，height)、三维目标框的底部四个点的映射值以及目标接地点的真实偏移量具体为：

c_x＝predict_x*p_w+p_cx，c_y＝predict_y*p_h+p_cy，

width＝exp(predict_w)*p_w，height＝exp(predict_h)*p_h，

m₁₁w_x+m₁₃w_z-uz＝(-m₁₂w_y-m₁₄)，m₂₁w_x+m₂₃w_z-vz＝(-m₂₂w_y-m₂₄)， m₃₁w_x+m₃₃w_z-z＝(-m₃₂w_y-m₃₄)，

X＝[w_x，w_y，z]^T， B＝[-m₁₂w_y-m₁₄，-m₂₂w_y-m₂₄，-m₂₂w_y-m₂₄]，

X＝A^-1B，其中：m_ij为世界坐标系到图像坐标系下的投影矩阵，有摄像机标定得到，w_i为世界坐标系下的坐标值，有上述公式可以得到每个接地点的在摄像机坐标系三维坐标。

4.2)鉴于三维目标框的8个角点在图像坐标系下投影一定在二维检测框内的先验知识，求出每个目标的真实高度，即当目标的真实高度范围为：[h_min，h_max]，当(|h_max-h_min|＞ 0.01)时，设置y_min1＝Reconstruction(h_mid)，y_min2＝Reconstruction(h_{mid_mid})；当(|y_min1-y_{src_min}|＜|y_min2-y_{src_min}|)时，设置 h_max＝h_{mid_mid}，否则h_max＝h_mid；其中：Reconstruction函数输入一个 h值，重建出新的三维目标框，再将其映射到图像系坐标下，得到三维目标框的8个角点y方向在二维图像坐标系的最小值y_min，初始的h_min，h_max为生活中实际目标的高度的最大和最小先验值。最终重构出摄像头坐标系下的三维目标框的信息：(x，y，z，l，w，h，yaw)。

第五步：修正第四步得到摄像头坐标系下的三维目标框的信息 (x，y，z，l，w，h，yaw)，具体包括：首先将三维目标框(x，y，z，l，w，h，yaw)按以下方式编码： encode_yaw＝sin(o_yaw-p_yaw)，其中：o_i为目标的真实三维信息，p_i为第四步预测出的目标三维信息。如图3所示，三维目标框修正模块首先对深度特征进行ROI降维(Align]操作，得到每个目标的深度特征，然后送入节点数为4096、1024的2层的全连接层的感知机中，最后输出的节点数为：类别数*7。

所述的ROIAlign操作是指：采用双线性插值的方式进行降维处理(He K，GkioxariG， Dollár P，et al.Mask r-cnn[C]//Proceedings of the IEEE internationalconference on computer vision.2017：2961-2969.)

第六步：修正后的三维目标检测系统采用两步方式进行训练，即先训练二维目标信息预测部分，然后二维和三维目标信息整个网络一起训练，具体为：对于一个大小为c*h*w的特征层，在其每个像素位置都设置了不同大小比例的先验框，先验框的中心点作为4个接地点的先验点。使用3*3的卷积核进行回归预测对应维度的目标框的信息，同时预测每个先验框的类别。

如图1所示，三维目标检测系统的损失函数包括定位损失和分类损失，具体为：其中：N为与真实框相匹配的先验框的个数，x，c，l，g分别表示：网络的预测值、目标真实的类别、网络设置的先验二维框，目标的真实位置包括： ( c_x，c_y，width，height，y，z，l，w，h，yaw )。L_loc(x，l，g)为快速区域卷积神经网络(Faster R-CNN〕中Smooth L1 Loss，回归目标的二维框、接地点等信息，L_conf(x，c)为Soft max Loss，输入为每一类的置信度，权重项α，设置为 1；该网络的初始学习率设为0.01，训练集每迭代20epoch，学习率下降10倍，采用随机梯度下降法优化。

第七步：由于三维目标检测系统学习的是编码过后目标的信息，故需要对编码过后的信息进行解码，得到摄像头坐标系下的三维目标框的最终位置，具体为：x＝predict_x*p_d+ p_x，y＝predict_y*pd+p_y，z＝predict_z*p_h+p_z，w＝exp(predict_w)*p_w，l＝exp(predict_l)*p_l，h＝exp(predict_h)*p_h， yaw＝sin^-1predict_yaw+p_yaw，其中：x，y，z分别为目标在摄像头坐标系下的其对应的底部中心点的坐标，l，w，h分别为目标的真实的长宽高尺寸，yaw为目标的摄像头坐标系下的航向角。

第八步：针对两步训练后的三维目标检测系统输入任意一张图片，首先将其调整至 512×512尺寸，然后依次通过多尺度层二维预测、二维修正操作、非极大值抑制(NMS)得当最终每个目标框左上角和右上角坐标、4个接地点坐标、“0”平面的偏移量及其置信度，接着通过标定摄像头的投影矩阵映射到摄像头三维坐标系下，最后进行最后一步三维目标框修正，最终得到如图6所示的精确的三维目标框。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于单目图像的三维目标检测系统，其特征在于，包括：二维框检测模块、二维修正模块以及用于将二维映射三维的标定摄像头投影矩阵模块，三维目标框进一步修正模块，其中：二维框检测模块与深度特征相连进行二维信息预测并传输二维目标框、接地点等信息，二次修正模块与二维框检测模块相连进行进一步修正二维预测信息，投影矩阵映射模块与二次修正模块相连进行将二维点映射到摄像头坐标系下的三维点处理并传输三维目标框信息，三维目标框修正模块与投影矩阵映射模块相连进行三维目标框修正处理，最终系统输出精确的三维目标框。

2.一种根据权利要求1所述系统的目标检测方法，其特征在于，将三维目标检测转化到二维图像下的预测，然后应用摄像头标定参数将二维映射到摄像头三维坐标系下，重构出目标的三维目标框，通过对映射出的三维目标框进行进一步修正，得到精确的三维目标框，经两步法训练后进行精确三维目标检测。

3.根据权利要求2所述的方法，其特征是，所述的将三维目标检测转化到二维图像下的预测是指：采用二维修正模块分别提取训练后的三维目标检测系统中的VGG16网络结构的Conv4层、Conv5层、fc7层、Conv6层的特征，分别用一系列卷积操作直接进行回归图像坐标系下的四个接地点和摄像头坐标系下的离“0”平面的真实偏移量预测。

4.根据权利要求3所述的方法，其特征是，为了让设计的网络更好地学习目标的(c_x，c_y，width，height)，信息，将其按照以下方式进行编码： i＝0，1，2，3，i＝0，1，2，3，其中：p_i表示对应目标信息设置的先验值，o_i表示对应目标信息的真实值。

5.根据权利要求2所述的方法，其特征是，所述的重构出目标的三维目标框是指：采用三维目标检测系统中的二维修正模块分别提取三维目标检测系统中的RefineDet网络结构的P4层、P5层、P6层、P7层的特征，通过一系列卷积操作直接进行二维框的预测值(c_x，c_y，width，height)、三维目标框的底部四个点的映射值以及目标接地点的真实偏移量的修正，使网络预测的以上目标信息更加准确；然后将图像坐标系下的接地点到摄像头坐标系下的映射，得到摄像头坐标系下的三维目标框的信息。

6.根据权利要求5所述的方法，其特征是，所述的映射，具体包括：

c_x＝predict_x*p_w+p_cx，c_y＝predict_y*p_h+p_cy，

width＝exp(predict_w)*p_w，height＝exp(predict_h)*p_h，

m₁₁w_x+m₁₃w_z-uz＝(-m₁₂w_y-m₁₄)，m₂₁w_x+m₂₃w_z-vz＝(-m₂₂w_y-m₂₄)，m₃₁w_x+m₃₃w_z-z＝(-m₃₂w_y-m₃₄)，

X＝[w_x，w_y，z]^T，

B＝[-m₁₂w_y-m₁₄，-m₂₂w_y-m₂₄，-m₂₂w_y-m₂₄]，

X＝A^-1B，其中：m_ij为世界坐标系到图像坐标系下的投影矩阵，有摄像机标定得到，w_i为世界坐标系下的坐标值，有上述公式可以得到每个接地点的在摄像机坐标系三维坐标；

4.2)鉴于三维目标框的8个角点在图像坐标系下投影一定在二维检测框内的先验知识，求出每个目标的真实高度，即

当目标的真实高度范围为：[h_min，h_max]，

当(|h_max-h_min|＞0.01)时，设置

y_min1＝Reconstruction(h_mid)，y_min2＝Reconstruction(h_{mid_mid})；

当(|y_min1-y_{src_min}|＜|y_min2-y_{src_min}|)时，设置h_max＝h_{mid_mid}，否则h_max＝h_mict；其中：Reconstruction函数输入一个h值，重建出新的三维目标框，再将其映射到图像系坐标下，得到三维目标框的8个角点y方向在二维图像坐标系的最小值y_min，初始的h_min，h_max为生活中实际目标的高度的最大和最小先验值，最终重构出摄像头坐标系下的三维目标框的信息：(x，y，z，l，w，h，yaw)。

7.根据权利要求2所述的方法，其特征是，所述的精确的三维目标框，通过以下方式得到：修正第四步得到摄像头坐标系下的三维目标框的信息(x，y，z，l，w，h，yaw)，具体包括：首先将三维目标框(x，y，z，l，w，h，yaw)按以下方式编码：

encode_yaw＝sin(o_yaw-p_yaw)，其中：o_i为目标的真实三维信息，p_i为第四步预测出的目标三维信息，如图3所示，三维目标框修正模块首先对深度特征进行ROI降维(Align)操作，得到每个目标的深度特征，然后送入节点数为4096、1024的2层的全连接层的感知机中，最后输出的节点数为：类别数*7。

8.根据权利要求2所述的方法，其特征是，所述的两步法训练是指：先训练二维目标信息预测部分，然后二维和三维目标信息整个网络一起训练，具体为：对于一个大小为c*h*w的特征层，在其每个像素位置都设置了不同大小比例的先验框，先验框的中心点作为4个接地点的先验点，使用3*3的卷积核进行回归预测对应维度的目标框的信息，同时预测每个先验框的类别。

9.根据权利要求8所述的方法，其特征是，所述的两步法训练的损失函数包括定位损失和分类损失，具体为：其中：N为与真实框相匹配的先验框的个数，x，c,l，g分别表示：网络的预测值、目标真实的类别、网络设置的先验二维框，目标的真实位置包括：

L_loc(x，l，g)为快速区域卷积神经网络中Smooth L1 Loss，回归目标的二维框、接地点信息，L_conf(x，c)为Soft max Loss，输入为每一类的置信度，权重项α，设置为1；该网络的初始学习率设为0.01，训练集每迭代20epoch，学习率下降10倍，采用随机梯度下降法优化；

由于三维目标检测系统学习的是编码过后目标的信息，故需要对编码过后的信息进行解码，得到摄像头坐标系下的三维目标框的最终位置，具体为：x＝predict_x*p_d+p_x，y＝predict_y*p_d+p_y，z＝predict_z*p_h+p_z，w＝exp(predict_w)*p_w，l＝exp(predict_l)*p_l，h＝exp(predict_h)*p_h，yaw＝sin^-1predict_yaw+p_yaw，其中：x，y，z分别为目标在摄像头坐标系下的其对应的底部中心点的坐标，l，w，h分别为目标的真实的长宽高尺寸，yaw为目标的摄像头坐标系下的航向角。

10.根据权利要求8所述的方法，其特征是，所述的精确三维目标检测是指：输入任意一张图片将其调整至512×512尺寸，然后依次通过多尺度层二维预测、二维修正操作、非极大值抑制得当最终每个目标框左上角和右上角坐标、4个接地点坐标、“0”平面的偏移量及其置信度，接着通过标定摄像头的投影矩阵映射到摄像头三维坐标系下，最后进行最后一步三维目标框修正，最终得到精确的三维目标框。