CN110427797B

CN110427797B - 一种基于几何条件限制的三维车辆检测方法

Info

Publication number: CN110427797B
Application number: CN201910452418.9A
Authority: CN
Inventors: 杨万扣; 张弦; 王超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2023-09-15
Anticipated expiration: 2039-05-28
Also published as: CN110427797A

Abstract

本发明公开一种基于几何条件限制的三维车辆检测方法，包括训练和识别阶段；训练阶段的方法为，给定彩色输入图像，首先进行预选框生成，获得可能存在的初始区域，减少搜索范围，然后对每个预选框位置进行特征提取，最终送入不同的分支网络中；测试阶段的方法为，首先利用训练好Region Proposal Network在不同尺度的特征层上生成不同尺度和形状的预选框，然后对预选框对应特征进行RoI‑Pooling，得到对应的三维属性，最终利用透视投影变换公式约束得到完整的车辆三维信息。本发明对图像的噪声具有较强的鲁棒性，可增加车辆检测的鲁棒性，提高三维车辆识别的识别率，大大减少识别所需时间，具有十分重要的实用价值。

Description

一种基于几何条件限制的三维车辆检测方法

技术领域

本发明涉及一种检测方法，具体设计一种基于几何条件限制的三维车辆检测方法，属于检测技术领域。

背景技术

目标检测是自动驾驶中的核心技术之一，通俗的来说就是给定一张图片，从中寻找出人们感兴趣的物体并将其在图片中的位置标注出来。自动驾驶技术的研究越发火热，而该技术的核心之一就是要在行驶过程中，通过对周边物体的精准检测进而指导车辆规划行驶的路径，躲避障碍物，保障行驶安全。通常自动驾驶车辆都会搭载许多类型的传感器，其中与物体检测相关的有激光雷达、摄像头和红外等，利用这些传感器来获取周边场景的信息，再结合人工智能技术分析不同传感器采集到的信号，自动驾驶系统便能够获知当前的路况以及障碍物的位置，控制车辆安全行驶。其中64线激光雷达传感器由于具有响应速度块、探测距离远和可靠性较高等特点，被广泛应用于车辆周边环境感知，但激光雷达传感器造价昂贵，无法普及；毫米波雷达穿透性强且体积小，但是其探测的范围比较小，精度也不如激光雷达；而摄像头成本很低，且相应的检测算法已经非常成熟，尤其是得益于近几年深度学习的发展，从摄像头采集的图像中能够很容易提取出语义级别的信息。

在深度学习流行以前，3D车辆检测主要采用滑动窗口的方式对目标区域进行搜索，然后利用手工设计特征进行特征提取和模板匹配。近年来深度学习算法成为主流，并且不少优秀的车辆检测算法被提出。Chabot等人提出3D车辆检测算法Deep MANTA(见参考文献：《Deep MANTA:基于单目图像由粗到细的二维和三维联合车辆分析的多任务网络》，载《计算机视觉和模式识别会议》(Chabot F,Chaouch M,Rabarisoa J,et al.Deep MANTA:ACoarse-to-Fine Many-Task Network for Joint 2D and 3D Vehicle Analysis fromMonocular Image[C].IEEE Conference on Computer Vision and PatternRecognition,2017.1827-1836))，该算法利用卷积神经网络对输入图片中进行多任务的车辆分析，即同时进行车辆检测、零部件定位、可见部位特征表示和车辆3D尺寸的估计。Chen等人在Faster R-CNN算法基础上将激光雷达点云特征和局部图像特征进行融合，直接回归出车辆的3D位置信息(见参考文献：《针对自主驾驶的多视图三维目标检测网络》，载《计算机视觉和模式识别会议》(Chen X,Ma H,Wan J,et al.Multi-view 3D Object DetectionNetwork for Autonomous Driving[C].IEEE Conference on Computer Vision andPattern Recognition,2017.6526-6534))。Lim等人提出结合CAD模型的几何信息和真实图像中物体的外观信息来训练模型并使其能够准确的估计出图像中物体的姿态信息(见参考文献：《基于三维CAD模型的精细姿态估计模型》，载《欧洲计算机视觉会议》(Lim J J,Khosla A,Torralba A,et al.FPM:Fine Pose Parts-Based Model with 3D CAD Models[C].European Conference on Computer Vision,2014.478-493))。针对实际场景中物体可能出现的遮挡问题，Zia等人根据三维建模应当能够促进遮挡部位推理的直觉，设计了几种常见的几何遮挡模式下的显式表示，从而恢复被遮挡物体完整的3D信息(见参考文献：《三维物体表示的显式遮挡建模》，载《计算机视觉和模式识别会议》(Zia M Z,Stark M,Schindler K,et al.Explicit Occlusion Modeling for 3D Object ClassRepresentations[C].IEEE Conference on Computer Vision and PatternRecognition,2013.3326-3333))。这些方法通常使用需要提供物体的2D边界框和观测角度的信息作为初始化步骤，在这些方法中，3D物体被投影到2D边界框中然后利用卷积神经网络对投影区域进行特征提取并输出相应参数，2D和3D目标检测完全割裂开来。这样做一方面效率很低，因为需要训练两个不同的模型分阶段训练与预测，另一方面也把3D信息与全图信息隔离开来，导致模型的性能很差。现阶段的车辆检测研究一般是在通用目标检测算法基础上进行优化，但这类算法往往对小目标检测效果不佳，而自动驾驶场景下需要对远处驶来的车辆进行检测分析，而远处驶来的车辆由于视觉原因在图像中显示的就非常小。

发明内容

本发明正是针对现有技术的不足，提供一种基于几何条件限制的三维车辆检测方法，该方法充分利用单目彩色图像的特征信息，具有较高的准确率和较低的误检率，同时具有较快的检测速度。

为了实现上述目的，本发明的技术方案如下：一种基于几何条件限制的三维车辆检测方法，针对不同的车辆三维属性训练不同的检测器，不同三维属性检测器的训练方法相同，参数不同，包括训练和检测阶段，具体步骤如下：

(1)训练阶段：给定彩色输入图像，首先训练Region Proposal Network，并生成预选框，获得可能存在的初始区域，然后对每个预选框位置进行特征提取，最终将提取后的特征连同标签送入不同的分支网络中进行训练；

(2)测试阶段：首先利用训练好Region Proposal Network生成预选框，然后对预选框进一步提取特征，并向量化为固定尺度的特征向量，接着将特征利用训练好的模型进行估计，分别获取预选框对应物体类别、预选框微调偏移量、车辆三维尺寸信息、车辆关键点坐标以及角度信息，最终利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息。

所述针对不同的车辆三维信息训练不同的检测器，为针对车辆三维尺寸、角度以及车辆关键点坐标分别训练各自的检测器，其中训练方法相同，参数设置不同，为提高小样本目标的检测率，需要对输入样本在特定范围内进行随机缩放。

作为本发明的一种该机，所述步骤(1)中，给定彩色输入图像，首先训练RegionProposal Network，并生成预选框。先利用ResNet-50对输入图像进行特征提取，然后将不同尺度特征进行融合，在融合后的特征层中采用anchor机制生成初始候选框，接着结合真实标签信息训练检测器，进行候选框的筛选。对每个预选框位置进行特征提取。此时的特征提取指对每个候选框对应特征进行RoI-Align操作，得到固定维度特征。将提取后的特征连同标签送入不同的分支网络中进行训练。针对车辆不同的三维信息训练各自的检测器，其中训练方法相同，参数设置有所不同。

作为本发明的一种该机，所述步骤(2)中，利用训练好Region Proposal Network生成预选框。其中生成预选框是指，先将不同尺度的特征进行融合，然后在融合后的多尺度特征层上分别生成不同尺度和形状的预选框，然后利用检测器对预选框进行打分最终筛选出得分较高的预选框。利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息。一般物体的三维参数可由(w,h,l,θ,X_c,Y_c,Z_c,c)表示，物体坐标系中任意一个三维坐标点X₀＝[X,Y,Z,1]^T映射到图像中的坐标x＝[x,y,1]^T可由透视投影公式得到，其表达如下。

其中K为相机的内部参数矩阵，R为旋转矩阵，T为物体的三维中心点坐标。物体的角度和三维尺寸信息可以直接通过两个子网预测得到，即透视投影公式的等式右侧中，参数R和X₀为已知参数，同时相机内部参数矩阵K也是已知的，那么还剩下x和T两组参数。而x对应的是三维顶点在图像中的投影坐标，因此只需要检测出投影后的点坐标，即可根据透视投影公式约束得到物体的三维中心点坐标T＝(X_c,Y_c,Z_c)。

相对于现有技术，本发明具有如下显著优势：1、该方案充分利用单目彩色图像的特征信息，具有较高的准确率和较低的误检率，同时具有较快的检测速度；2、该方案提出一种利用几何约束来估计车辆三维信息的算法，以解决单目图像中物体三维位置信息缺失的问题；3、该方案借助多任务学习的思想，将二维车辆检测和三维车辆检测融合到同一个框架中进行端到端的学习，直接从单目彩色图像中同时得到物体二维和三维检测结果。本发明不需要提供额外的深度、雷达点云或热力图等信息，仅依靠一张单目图像即可恢复车辆在现实场景中的三维尺寸、角度和坐标等信息；利用神经网络进行特征提取，综合利用图像中纹理、颜色和形状等信息，并且在检测图像较为复杂干扰较多的情况下仍具备较高的准确率和检测速度；利用多尺度特征融合技术，对不同尺度的车辆检测效果很好，误检率低、鲁棒性强。

附图说明

图1是本发明的流程图；

图2是检测网络示意图；

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行详细的叙述。

实施例1：参见图1，一种基于几何条件限制的三维车辆检测方法，针对不同的车辆三维属性训练不同的检测器，不同三维属性检测器的训练方法相同，参数不同，包括训练和检测阶段，具体步骤如下：

其中，所述步骤(1)中，给定彩色输入图像，首先训练Region Proposal Network，并生成预选框。先利用ResNet-50对输入图像进行特征提取，然后将不同尺度特征进行融合，在融合后的特征层中采用anchor机制生成初始候选框，接着结合真实标签信息训练检测器，进行候选框的筛选。对每个预选框位置进行特征提取。此时的特征提取指对每个候选框对应特征进行RoI-Align操作，得到固定维度特征。将提取后的特征连同标签送入不同的分支网络中进行训练。针对车辆不同的三维信息训练各自的检测器，其中训练方法相同，参数设置有所不同。

其中，所述步骤(2)中，利用训练好Region Proposal Network生成预选框。其中生成预选框是指，先将不同尺度的特征进行融合，然后在融合后的多尺度特征层上分别生成不同尺度和形状的预选框，然后利用检测器对预选框进行打分最终筛选出得分较高的预选框。利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息。一般物体的三维参数可由(w,h,l,θ,X_c,Y_c,Z_c,c)表示，物体坐标系中任意一个三维坐标点X₀＝[X,Y,Z,1]^T映射到图像中的坐标x＝[x,y,1]^T可由透视投影公式得到，其表达如下。

应用实施例1：一种基于几何条件限制的三维车辆检测方法，如图1所示，针对不同的车辆三维属性训练不同的检测器，不同三维属性检测器的训练方法相同，参数不同，包括训练和检测阶段。训练阶段的方法为，给定彩色输入图像，首先训练Region ProposalNetwork，并生成预选框，获得可能存在的初始区域，然后对每个预选框位置进行特征提取，最终将提取后的特征连同标签送入不同的分支网络中进行训练。测试阶段的方法为，采首先利用训练好Region Proposal Network生成预选框，然后对预选框进一步提取特征，并向量化为固定尺度的特征向量，接着将特征利用训练好的模型进行估计，分别获取预选框对应物体类别、预选框微调偏移量、车辆三维尺寸信息、车辆关键点坐标以及角度信息，最终利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息。

针对不同的车辆三维信息训练不同的检测器，为针对车辆三维尺寸、角度以及车辆关键点坐标分别训练各自的检测器，其中训练方法相同，参数设置不同，为提高小样本目标的检测率，需要对输入样本在特定范围内进行随机缩放。

训练时，先利用ResNet-50对输入图像进行特征提取，然后将不同尺度特征进行融合，在融合后的特征层中采用anchor机制生成初始候选框，接着结合真实标签信息训练检测器，进行候选框的筛选。对每个预选框位置进行特征提取。此时的特征提取指对每个候选框对应特征进行RoI-Align操作，得到固定维度特征。将提取后的特征连同标签送入不同的分支网络中进行训练。针对车辆不同的三维信息训练各自的检测器，其中训练方法相同，参数设置有所不同。

测试时，利用训练好Region Proposal Network生成预选框。其中生成预选框是指，先将不同尺度的特征进行融合，然后在融合后的多尺度特征层上分别生成不同尺度和形状的预选框，然后利用检测器对预选框进行打分最终筛选出得分较高的预选框。利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息。一般物体的三维参数可由(w,h,l,θ,X_c,Y_c,Z_c,c)表示，物体坐标系中任意一个三维坐标点X₀＝[X,Y,Z,1]^T映射到图像中的坐标x＝[x,y,1]^T可由透视投影公式得到，其表达如下。

图2展示了各分支任务组成的网络，其中三维尺寸估计与角度估计子网络和2D车辆检测共享RoIs，mini-batch位512，其中25％为正样本，75％为负样本。对于原始算法中使用的RoI Pool，这里本章采用了Mask R-CNN算法提出的更能保证定位精度的RoIAlign操作。每一个RoI区域经RoIAlign层后，均输出一个7*7的特征向量，然后将特征向量分别送入三维尺寸估计网络和方向估计网络。三维尺寸估计子网络由两个全连接层组成，第一个全连接层有512个神经元后接一个ReLU激活层，第二个全连接层有三个神经元，输出分别对应车辆的高度、宽度和长度的残差。方向估计网络先用一个256个神经元的全连接层对输入的7*7特征向量进行特征提取，然后接两个子网络，分别输出该感兴趣区域对应角度所属的区间置信度和角度残差。

车辆关键点检测子网络与上述分支网络的输入不同，在对mini-batch中RoIs的选取上，除了依据IoU大于0.5，还额外多了两个条件，即判断该预选框中是否包含了车辆的关键点和包含的关键点是否为可见。如果满足以上三个条件，才有可能被选为正样本。当正样本数量不足128个时，剩余的均选取负样本。该子网络中RoIAlign输出由7*7修改成了14*14，保证一定的分辨率，然后对14*14的特征区域进行两倍的上采样，得到8*56*56的特征图。上采样的因为较高的分辨率可以提高关键点定位的准确率。

为了验证所提出方法的有效性，我们使用了目前最大的自动驾驶场景数据集KITTI进行了相关验证，为了方便与其他算法进行比较，本次实验中所用数据集划分有两种，第一种按照3DVP提出的划分方式，得到3684张图片作为训练集train1，3799张图片作为验证集val1；第二种划分方式得到3712张图片作为训练机train2，3769张图片作为验证集val2。两种数据划分保证了验证集中的图片不会与训练集中任意一张图片出自同一个视频序列。最终将我们提出三维车辆检测算法与主流的同样是基于单目图像的Mono3D算法和两阶段的Deep3Dbox算法进行了比较。另外还选取了基于双目图像的3DOP算法作为参考，其中Mono3D和3DOP提供了val2下的检测结果，Deep3Dbox提供了val1下的检测结果。

表1 val1中鸟瞰图结果

表2 Val2中鸟瞰图结果

表3 Val1中三维车辆检测结果

表4 Val2中三维车辆检测结果

结论：表1至4展示了算法在不同的指标下的检测性能。从中可以看出我们提出的三维车辆检测方法在4个表格中均高于Mono3D算法和Deep3Dbox算法。与Mono3D算法中需要设计大量手工特征来进行空间滑动窗口搜索相比，本章提出的算法要轻量很多，不需要额外的设计特征。而且利用RPN来生成预选框，几乎产生额外的时间消耗，检测的效率也要比Mono3D(4.2s/picture)快很多。本章所提出的算法也是受到Deep3Dbox的启发，利用几何形状作为限制来推导无法直接从图片中估计出的三维中心点坐标信息，而我们提出的以车辆三维box在图像平面内的投影点作为几何限制，较Deep3Dbox中以二维检测框为限制更为合理。

Claims

1.一种基于几何条件限制的三维车辆检测方法，所述方法包括以下步骤：

(2)测试阶段：首先利用训练好Region Proposal Network生成预选框，然后对预选框进一步提取特征，并向量化为固定尺度的特征向量，接着将特征利用训练好的模型进行估计，分别获取预选框对应物体类别、预选框微调偏移量、车辆三维尺寸信息、车辆关键点坐标以及角度信息，最终利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息,

所述步骤(1)中给定彩色输入图像，首先训练Region Proposal Network，并生成预选框，先利用ResNet-50对输入图像进行特征提取，然后将不同尺度特征进行融合，在融合后的特征层中采用anchor机制生成初始候选框，接着结合真实标签信息训练检测器，进行候选框的筛选；

所述步骤(1)中对每个预选框位置进行特征提取，此时的特征提取指对每个候选框对应特征进行RoI-Align操作，得到固定维度特征；

所述步骤(1)中将提取后的特征连同标签送入不同的分支网络中进行训练，针对车辆不同的三维信息训练各自的检测器，其中训练方法相同，参数设置有所不同；

所述步骤(2)中利用训练好Region Proposal Network生成预选框,其中生成预选框是指，先将不同尺度的特征进行融合，然后在融合后的多尺度特征层上分别生成不同尺度和形状的预选框，然后利用检测器对预选框进行打分最终筛选出得分较高的预选框，

所述步骤(2)中利用透视投影变换公式提供的几何约束条件得到完整的车辆三维信息，具体如下，物体的三维参数由(w,h,l,θ,X_c,Y_c,Z_c,c)表示，物体坐标系中任意一个三维坐标点X₀＝[X,Y,Z,1]^T映射到图像中的坐标x＝[x,y,1]^T可由透视投影公式得到，其表达如下，

其中K为相机的内部参数矩阵，R为旋转矩阵，T为物体的三维中心点坐标，物体的角度和三维尺寸信息直接通过两个子网预测得到，即透视投影公式的等式右侧中，参数R和X₀为已知参数，同时相机内部参数矩阵K也是已知的，那么还剩下x和T两组参数，而x对应的是三维顶点在图像中的投影坐标，因此只需要检测出投影后的点坐标，即可根据透视投影公式约束得到物体的三维中心点坐标T＝(X_c,Y_c,Z_c)。