CN111027401B

CN111027401B - 一种摄像头和激光雷达融合的端到端目标检测方法

Info

Publication number: CN111027401B
Application number: CN201911118301.3A
Authority: CN
Inventors: 刘光辉; 孙铁成; 朱志鹏; 李茹; 徐增荣; 廖岳鹏; 朱树元
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2022-05-03
Anticipated expiration: 2039-11-15
Also published as: CN111027401A

Abstract

本发明公开了一种摄像头和激光雷达融合的端到端目标检测方法，属于多传感器三维感知技术。本发明分别基于图像深度学习网络和激光点云深度学习网络进行特征提取，然后根据不同传感器的特性，通过二维图像检测器对图像数据进行感兴趣区域提取，从而降低了点云稀疏和信息不丰富带来的错检。通过共享图像特征和融合单个点云信息，进而给出精确度更高的三维建议框检测结果。

Description

一种摄像头和激光雷达融合的端到端目标检测方法

技术领域

本发明属于多传感器三维感知技术，具体涉及一种摄像头和激光雷达融合的端到端目标检测方法。

背景技术

随着科学技术的发展，自动驾驶、无人车等新兴概念应运而生。辅助驾驶与自动驾驶都依赖一个准确的环境感知，而对障碍物三维建议框的检测则是道路场景分析与环境感知中的重要元素。通过障碍物三维建议框的提取，车辆可以实时获取周围车辆、非机动车、行人等障碍物的位置、基本轮廓、朝向等信息，作为障碍物轨迹预测和车辆自身行为规划的重要依据之一。

在对环境中的障碍物目标进行三维建议框提取的过程中，障碍物感知使用的传感器十分多样，包括摄像头、毫米波雷达、激光雷达等等。而为了提高精度与可靠性，经常需要结合多种传感器的结果，共同做出判断。本发明主要讨论应用广泛的摄像头与测量精度极高的激光雷达的融合。摄像头与人眼原理类似，利用像素信息能准确地提取障碍物在图片中的二维建议框，但无法精确的估计障碍物在三维空间的位置；激光雷达利用激光感知障碍物的存在并给出精确的三维点云信息，有利于提升障碍物在三维空间的检测精度，但由于点云信息的稀疏以及语义表征能力较弱，无法进行准确的分类。

现有的融合检测方案仅基于二维图像信息和投影后的点云信息，例如利用卷积神经网络分别对图像和投影后的点云进行特征提取，并只在地面以上一定距离针对车辆等信息生成三维锚框，在融合特征的基础上对三维锚框进行回归。这些方案都可以实现多传感器的融合，但因为只是将三维的激光点云数据经过投影等同为类似图像数据进行融合，丢失了点云信息的空间维度，并且一定程度上影响了模型的二维检测能力。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种摄像头和激光雷达融合的端到端目标检测方法，以提高对目标的三维检测精度。

本发明的摄像头和激光雷达融合的端到端目标检测方法，通过摄像头和激光雷达同时对待检测区域进行数据采集，并执行下列步骤：

步骤1：对摄像头采集的图像数据进行图像预处理，使得预处理后的图像与预设的图像特征提取网络的输入相匹配；

将预处理后的图像输入到预设的图像特征提取网络，得到图像特征；

其中图像特征提取网络包括但不限于卷积神经网络，优选残差式网络结构。

步骤2：对图像特征进行目标检测处理：

基于所提取的图像特征，在待检测图像帧中确定各类待检测目标的二维建议框(候选目标检测框)，并对二维建议框进行是否为检测目标的二分类处理；

步骤3：对步骤2得到的二维建议框进行感兴趣区域提取处理：

基于预设的第一筛选阈值，将分类伪概率低于第一筛选阈值的二维建议框删除；即滤除多目标检测输出中，各二维建议框所属的检测目标类别的分类伪概率低于第一筛选阈值的二维建议框；

对于每个检测目标类别的各二维建议框，若当前还存在非感兴趣区域的二维建议框，则选取分类伪概率最大的二维建议框作为感兴趣区域并保存，同时将与当前感兴趣区域的IOU值超过第二阈值的二维建议框删除；

继续对每个检测目标类别的各二维建议框进行感兴趣区域的提取，各检测目标类别不存在非感兴趣区域的二维建议框；

其中，

A、B分别表示两个矩形框，对应感兴趣区域和待判别的二维建议框，area(·)表示矩形框的面积；

并对提取出的感兴趣区域进行面积的扩充处理；

步骤4：提取感兴趣区域内的激光雷达数据：

对各感兴趣区域进行编号1,2,...,k，其中k表示提取的感兴趣区域数；

对激光雷达的点云数据进行投影，若某个点云数据(x,y,z,r)经过投影后落在编号为i的感兴趣区域内，则将当前点云数据划分为第i个感兴趣区域的点云数据；其中x,y,z为点云数据的三维坐标，r为点云数据的特征；

从而得到点云数据的k个聚类，并对每个聚类的点云数据的个数进行归一化处理：

基于预设的固定数目n，若当前聚类包括的点云数据个数大于n，则对各点云数据进行随机采样，将当前聚类包括的点云数据个数调整为n；

若当前聚类包括的点云数据个数少于n/2，则删除当前聚类以及对应的感兴趣区域；

若当前聚类包括的点云数据个数大于或等于n/2且小于n，则对其进行不重复的复制，将当前聚类包括的点云数据个数调整为n；

步骤5：对每个感兴趣区域内的点云数据进行特征提取，获取点云特征：

基于预设的点云特征提取网络分别将各点云聚类的n个点作为输入，同时对n个点进行单点属性特征提取，得到各点云聚类的n个单点特征；

再分别基于各一单点编号的属性特征提取的最大值，得到全局点云特征；

步骤6：对当前保存的感兴趣区域进行特征融合处理：

对于图像特征，通过固定大小的池化层，将图像特征转换到一个固定的尺寸；

再依次通过卷积神经网络和全连接层或全局池化层得到一个全局图像特征；

并在每一个单点特征后面级联点云全局特征和全局图像特征，得到单点融合特征；

步骤7：基对融合特征进行三维建议框提取和精细分类：

预置的每个检测目标类型的预配三维锚框信息，包括：中心坐标、尺寸信息和角度；

对待检测的图像的每个像素点，判断当前像素点是否包括单点融合特征，若是，则基于当前像素点坐标，以及当前像素点所对应的二维建议框的检测目标的类别信息，获取匹配的预配三维锚框信息，确定对应当前像素点的三维建议框以及检测目标分类；

若当前像素点不包括单点融合特征，则判断当前像素点的一定邻域范围内的点云密度是否大于或低于预设密度阈值；若是，则对当前像素点进行三维建议框的检测及检测目标的分类处理。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明分别基于图像深度学习网络和激光点云深度学习网络进行特征提取，然后根据不同传感器的特性，通过二维图像检测器对图像数据进行感兴趣区域提取，从而降低了点云稀疏和信息不丰富带来的错检。通过共享图像特征和融合单个点云信息，进而给出精确度更高的三维建议框检测结果。

附图说明

图1为具体实施方式中，本发明的摄像头和激光雷达融合的端到端目标检测基本框架图；

图2为具体实施方式中，本发明的摄像头和激光雷达融合的端到端目标检测实施的基本处理过程图；

图3为具体实施方式中，本发明的摄像头和激光雷达融合的端到端目标检测在自动驾驶场景下的计算机视觉算法评测数据集KITTI上实施的结果图，图中的矩形标注框即为各目标检测结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的摄像头和激光雷达融合的端到端目标检测方法，可以应用于终端、服务器或者二者的结合，例如自动驾驶场景。其中，终端为能够通过任何连接方式(线和/或无线连接，实现与服务器交互的任何用户设备，包括但不限于：智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请中的服务器用于向用户提供信息推荐的应用服务的设备的一个实例。

本发明应用于包含摄像头和激光雷达传感器的多目标检测，该数据融合方法要求传感器数据时间有效，且空间转换关系确定。参见图1，本发明首先通过纹理信息丰富的摄像头数据进行感兴趣区域的提取，相较于传统方法直接等同的融合，极大地提升了检测和分类的准确率。一帧图像通过卷积神经网络和目标检测网络，在图像数据上能对极小的图像目标进行精确的检测。然后，通过一次遍历的点云投影，得到每个感兴趣区域内的原始激光点云数据。本发明直接在点云数据上进行特征提取，并融合之前卷积神经网络提取出来的图像特征，再通过共享图像特征和端到端特征融合方法，极大地提高了传统方法的检测速度和准确度，消除了传统方法数据融合存在的大量冗余。最后，单点特征级联融合特征对目标的三维建议框进行精确的回归和分类。参见图2，其具体处理过具体为：

步骤1：摄像头数据通过卷积神经网络提取特征，从而得到图像特征。

本发明针对的是传感器融合是应用广泛的摄像头与测量精度极高的激光雷达的融合。摄像头数据有着丰富的语义信息，只要不是完全的遮挡，都能从单帧图像中检测目标的二维图像位置。

本具体实施方式中，图像特征提取网络采取残差式网络结构，例如残差式网络结构ResNet50。

此外，在实际应用处理时，基于应用场景的目标检测需求，对目标检测器的速度和精度要求不同，可以对用于提取图像特征的卷积神经网络的深度和降采样倍数进行调整，且在提取图像特征时，不局限于卷积神经网络，也可以采用效果更好的其它网络模型进行替换。

步骤2：对图像特征进行目标检测任务和正负样本分类任务。

首先，对卷积神经网络提取的图像特征进行处理，包括目标检测任务和正负样本分类。

目标检测任务指的是在二维图像上用矩形框将目标标示出来，正负分类任务指的是对矩形框里的目标进行二分类，判断是否为检测目标。

在具体实现时，可通过上采样或下采样的方式获得多分辨率的特征，然后对多分辨率的特征进行目标检测任务和分类任务，因此包括但不限于用以下四种分辨率。

本具体实施方式中，将步骤1最后提取出来的图像特征进行逐级上采样，分别获得2、4、8倍于步骤1最后提取的图像特征，并与步骤1中的卷积神经网络中相同分辨率的特征进行级联，获得了四种不同分辨率的高层特征。

其次，对四种不同分辨率特征中的每一条特征进行分类和二维建议框(目标检测框)提取。对于每一条特征，都是通过层层卷积而来，可以对应到摄像头原始数据中一个矩形位置，即对应感受野的位置。这个矩形的大小表示此层分辨率特征的检测分辨率。假设每条特征对应数个预设好的锚框，锚框的中心是感受野的中心，其边长和大小根据特征分辨率的不同而设立不同的值。

例如，通过两层1×1的卷积，对每个锚框提取它的分类信息，若锚框内包含目标，则对锚框的位置和边长进行修正，进而获得更加精确的二维建议框样本。

步骤3：对摄像头数据检测出来的样本(正负样本)进行感兴趣区域(ROI区域)提取。

由于步骤2提取出来的正样本包含大量的冗余，且有大量的负样本，即背景样本，需要选择分类最为准确的样本作为感兴趣区域。因此，本发明首先对步骤2提取的所有样本框(目标检测框)进行筛选，根据分类召回率和准确率，设立适当的阈值，滤除输出的分类伪概率低于阈值的锚框。其次，对于每一个类别，选取分类伪概率最大的锚框作为感兴趣区域，同时把那些与此感兴趣区域的IOU超过预设阈值的样本框滤除，IOU的计算公式如下：

其中，上式表示两个矩形框的交集除以并集的取值。反复重复感兴趣区域提取，直到没有其他多余的矩形框，则筛选完成。对于这些二维感兴趣区域，本发明对其进行了面积上的扩充，进而在步骤4中对数据较为稀疏的点云提取更多的数量。

步骤4：提取感兴趣区域内的激光雷达数据。

对步骤3提取出来的二维感兴趣区域，计算其对应目标的激光雷达数据。

考虑多个二维感兴趣区域可能会存在交集和目标遮挡等情况，以及激光点云数据和摄像头数据的特性。本发明对激光雷达数据进行预处理，首先对二维图像上的感兴趣区域进行编号1,2,...,k，然后对激光点云数据进行投影，若某个点云数据(x,y,z,r)经过投影后落在编号i的感兴趣区域内，则认为这个点云为编号i感兴趣区域的激光雷达数据，其中x,y,z为点云的三维坐标，r为点云的特征(如激光雷达反射强度等)。经过一次对激光点云数据的投影可以得到点云数据的k个聚类。

对于每个聚类的激光雷达数据，将它们的总数量统一到固定数目n。对于数目多余n的聚类，对其点云进行随机采样；对于数目少于n/2的聚类，则认为太过于稀疏，对其进行剔除；对于数目大于n/2小于n的聚类，对其进行不重复的复制。最后得到数个点云总数为n的聚类。

步骤5：对每个感兴趣区域内的激光雷达原始点云进行特征提取，获取点云特征。

基于预设的点云特征提取网络分别将每个点云聚类的n个点作为输入，并对单点的属性(包括点云的三维坐标及反射强度)进行特征提取。

在具体实施方式中，点云特征提取网络采用深度学习网络。直接从单点点云属性进行特征提取，因此包括但不限于以下网络结构。

首先，每个点云与一个矩阵相乘进行转换(例如3*3的矩阵)，矩阵的每个参数是可以参与训练的。即通过与矩阵相乘实现空间坐标的转换。

然后，对转换后的点云用1×1的卷积进行单点特征提取，每个点云共享相同的卷积核。反复对单点的点云特征进行特征提取和特征转换，进而扩充每个点的特征维度。

最后，通过最大值池化的操作，将由同一卷积核提取出来的单点特征的最大值，作为全局点云特征。将中间层对每个点提取的特征作为单点特征。

例如基于点云神经网络PointNet进行点云特征，因为本申请中需要获取到对应的单点特征(局部信息)，故取消点云神经网络PointNet的批标准化处理，并在每次对单点的点云进行特征提取之前都进特征转换，即与一个矩阵相乘进行转换，矩阵中的每个参数为待学习参数，随机初始化后，基于神经网络的学习来得到最终的参数。

步骤6：融合全局点云特征、单个点云特征和图像特征。

这一步是对多传感器数据进行特征的融合。对于步骤3筛选过的建议框，对应到摄像头数据上，表示检测出来的图像目标及分类，但只是在二维图像上的检测，需要对其进行三维信息的恢复。传统基于图像信息的三维信息恢复，误差极大且需要手动提取特征，适用范围极小。本发明直接利用步骤1提取的图像特征，结合步骤5提取出来的全局特征和单点特征进行三维建议框的检测与分类。

为了避免图像特征的反复提取，在特征融合步骤中，直接共享步骤1所提取的图像特征。对提取出来的感兴趣区域计算其在特征层上的矩形框(目标检测框)，通常得到的矩形框坐标不是整数，一些图像目标检测方法对其特征进行双线性插值。本发明目的是更好的恢复其三维信息，因此对特征层上的感兴趣区域矩形框进行扩充，具体的扩充值基于实际应用需求设定。从而使得扩充后的感兴趣区域矩形框包含更多的背景特征信息。

然后，对感兴趣区域内的三类特征进行融合。对于图像特征，通过固定大小的池化层，把图像特征转换到一个固定的尺寸，然后依次通过卷积神经网络和全连接层或全局池化层得到一个全局图像特征；对于全局点云特征和单点特征，在每一个单点特征后面级联点云全局特征和全局图像特征，得到单点融合特征。即，将全局图像特征与点云全局特征进行级联后，得到全局融合特征，将其复制k(假设当前不存在被删除的聚类)份后，再将全局融合特征分别与单点特征(单个点云特征)级联，从而得到单点融合特征。

步骤7：对融合特征进行三维建议框提取和精细分类。

对于上一步得到的单点融合特征，本发明对其进行三维建议框的提取和分类。在实际的目标检测的过程中，可以只对部分的单点特征进行操作，如对周围点云比较密集的单点特征进行三维建议框的提取和分类。对于一条包含融合特征和单点特征的特征，本发明以这个点的坐标作为三维锚框的中心，根据其二维信息的分类，预先设立锚框的三维中心坐标和长宽高，角度为四个朝向。通过全连接层的级联(MLP)，预测锚框的分类和坐标回归，选择分类分数最高的锚框，然后对其各项属性进行回归修正和精细分类，得到的三维建议框就表示目标在三维空间的位置和大小，例如目标包括：行人、机动车辆、自行车人。

图3给出了本发明的目标检测方法应用在自动驾驶场景下的目标检测结果。KITTI数据集提供了相同时间戳的激光雷达数据和摄像头数据，并给出了两种传感器之间确定的空间转换关系，本发明利用端到端的深度学习网络，实现了这两种数据的深度融合，并生成精确的三维建议框。在进行目标检测时，如何处理多个传感器的数据将很大程度上影响追踪的精度。传统的处理方法是将不同传感器进行等同看待并进行数据的融合，而本发明充分利用了各个传感器的特点，结合摄像头强大的检测能力和激光雷达极高的检测精度，合理的描述了深度学习在中间发挥的作用，对目标的三维建议框和朝向进行预测。本方案分别基于图像深度学习网络和激光点云深度学习网络进行特征提取，然后根据不同传感器的特性，通过二维图像检测器对图像数据进行感兴趣区域提取，从而降低了点云稀疏和信息不丰富带来的错检。通过共享图像特征和融合单个点云信息，进而给出精确的三维建议框检测结果，从而对车辆辅助驾驶以及自动驾驶进行指导。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种摄像头和激光雷达融合的端到端目标检测方法，通过摄像头和激光雷达同时对待检测区域进行数据采集，并执行下列步骤：

其中图像特征提取网络包括卷积神经网络，为残差式网络结构；

步骤2：对图像特征进行目标检测处理：

基于所提取的图像特征，在待检测图像帧中确定各类待检测目标的二维建议框，并对二维建议框进行是否为检测目标的二分类处理；

其中，

并对提取出的感兴趣区域进行面积的扩充处理；

步骤4：提取感兴趣区域内的激光雷达数据：

对激光雷达的点云数据进行投影，若某个点云数据(x,y,z,r)经过投影后落在编号为i的感兴趣区域内，则将当前点云数据划分为第i个感兴趣区域的点云数据；其中x,y,z为点云数据的三维坐标，r表示点云数据的特征；

步骤6：对当前保存的感兴趣区域进行特征融合处理：

步骤7：基对融合特征进行三维建议框提取和精细分类：