CN111209840B

CN111209840B - 一种基于多传感器数据融合的3d目标检测方法

Info

Publication number: CN111209840B
Application number: CN201911423880.2A
Authority: CN
Inventors: 丁勇; 李佳乐; 朱子奇; 罗述杰; 孙阳阳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-02-18
Anticipated expiration: 2039-12-31
Also published as: CN111209840A

Abstract

本发明公开了一种基于多传感器数据融合的3D目标检测方法。首先，分别利用两个神经网络对点云和图像进行逐点和逐像素的特征提取，在点云的前景点上进行区域建议。然后利用传感器的标定矩阵实现两种异质传感器数据的逐点关联，实现最大程度上的关联。最后再利用一个神经网络对每一个区域的联合特征表示进行自适应的融合，并根据融合后的区域特征直接进行进一步得精细化调整。本发明使用神经网络自适应地融合两类传感器数据特征，克服了点云数据稀疏和图像数据没有深度信息等不足，来实现3D目标检测，基于本发明所提出方法的3D目标检测结果具有较高的精准度，优于现有的大多数3D目标检测方法，具有良好的准确性和鲁棒性。

Description

一种基于多传感器数据融合的3D目标检测方法

技术领域

本发明属于计算机技术及图像处理领域，尤其涉及一种一种基于多传感器数据融合的3D目标检测方法。

背景技术

3D目标检测作为一种目标级别的场景感知技术，是自动驾驶系统中感知技术的核心。相比于平面目标检测，它能够直接提供周围环境中物体的真实位置、形状大小、朝向和类别，为决策规划直接提供理论依据，大多数自动驾驶系统都依赖于3D目标检测结果。因此提供更高精度的3D目标检测结果，不仅能够促进对环境感知技术的探索，同时更能够推动自动驾驶技术的发展。

在过去几年中，基于图像的目标检测任务发展迅速，能够有相对成熟的网络设计来获取到描述物体类别的高级特征。但依靠平面图像的目标检测结果无法直接为自动驾驶任务提供有用的决策依据，例如缺失目标的精确位置、形状大小等信息。而在自动驾驶系统中另一种传感器激光雷达的点云数据却能够提供周围3D空间的真实空间信息，例如距离深度、表面形状等信息。但激光雷达的传感特性决定了点云数据的无序性、稀疏性，这种非结构化的数据难以直接应用常规的卷积神经网络结构进行处理。

因此只基于激光雷达的3D目标检测方法通常能够借助点云提供的距离信息能够提供精准的定位，但点云的稀疏特性决定了此类方法只在大体积物体上表现得更好。其中更有一些基于点云体素或投影的处理方法则会丢失更多的细节信息，难以在小物体上表现。而只基于摄像头的方法，虽然能够更好的利用致密的图像数据检测小物体，但深度确实和透视形变却让它们难以在定位和形状上进行抗衡，整体性能存在较大差距。即使是基于融合的算法，大部分也只是视图和区域方框级的融合，不仅有损点云信息而且也没有考虑物体表面结构的细节信息；甚至有些基于融合的检测算法只基于图像上的区域建议框，然后利用对应部分的点云来获取3D信息，这样图像上物体的透视形变、前后遮挡等因素会直接限制区域建议的性能。

发明内容

本发明的目的是针对现有3D目标检测方法的不足，提供一种基于多传感器数据融合的3D目标检测方法，使得对大小物体均有较好的检测性能。

本发明采取的技术方案是：

首先，将激光雷达(LiDAR)产生的360°视角的点云数据根据单目摄像头视角范围进行剪裁，保证处理区域内既有点云数据又有图像数据；然后利用神经网络分别对点云数据进行处理，得到点云的前后景分割结果、空间特征以及区域建议3D框，同时利用另一路神经网络对图像数据进行语义分割，得到图像的前后景分割结果、语义特征。同时利用点云空间里面不存在透视遮挡的特性，在点云的前景点上进行区域建议。接着利用激光雷达和摄像头之间的标定关系进行点和像素的特征关联，得到多传感器数据的联合特征，实现最大程度上的关联。最后将目标区域建议框和对应的联合特征共同送入另一路神经网路进行目标区域的自适应特征融合和3D框优化，从而得到更精准的空间定位(x,y,z)、外形尺寸(w,h,l)、空间朝向θ以及类别。

技术方案具体包括以下步骤：

步骤(1).输入激光雷达点云I_lidar和单目摄像头图像I_img；

步骤(2).利用传感器标定矩阵对输入点云I_lidar进行剪裁，利用传感器标定矩阵将每个点p(x,y,z)投影到图像平面上，只保留图像平面内的点，使得激光雷达和摄像头两个传感器数据具有相同的视场范围，投影公式为：

[u,v,1]^T＝K(Rp+t) (1)

其中，K是摄像头的内参标定矩阵，R和t是描述激光雷达和摄像头位置之间的旋转矩阵和平移向量，(u,v)则是点p(x,y,z)对应的图像坐标；

步骤(3).对剪裁后的点云数据使用点云分割神经网络进行前后景分割，获取到每个点的前景分数Score_FG、每个点的高维点云特征F_point以及区域建议3D框，所述的区域建议3D框由(x,y,z,w,h,l,θ)七个参数确定，(x,y,z)表示区域建议3D框中心点的位置坐标，(w,h,l)表示区域建议3D框的宽高长，θ表示目标的偏航角；根据每个点的前景分数Score_FG，将Score_FG＞Thresh_FG的点作为前景点，反之为背景点，其中Thresh_FG表示前后景分数的分割阈值；然后基于前景点进行候选区域建议，在前景点对应的区域建议3D框中筛选出N_PRE个区域建议3D框，利用非极大值抑制算法去重叠，保留出N_POST个待精细化的区域建议3D框；

步骤(4).对输入图像I_img使用图像分割神经网络进行图像语义分割，以获得图像的前后景分割结果和中间高维特征图H_img，将中间高维特征图H_img上每个像素所在位置处的数值作为该像素的高维图像特征F_pixel；

步骤(5).以点为单位进行高维点云特征F_point和高维图像特征F_pixel的关联：首先按步骤(2)中的方式获取到点p(x,y,z)在图像上的对应像素位置(u,v)，然后再把该像素位置处的由步骤(4)获取到的图像特征F_pixel关联为点p的图像特征，最终利用如下式(2)关系，获得每一个点的多传感器特征F_point-pixel，其中运算符

表示拼接操作；

步骤(6).以步骤(3)得到的待精细化的每一个区域建议3D框为单位，框选出对应的点云子集，然后以每一个点云子集为单位采用特征融合神经网络对其进行多传感器特征F_point-pixel的自适应融合，获取到每一个区域建议3D框的区域特征F_proposal；

步骤(7).以每一个区域建议3D框为单位进行区域建议的精细化调整，将由步骤(6)得到的区域特征F_proposal作为区域建议精细化神经网络的输入，输出一个最终的检测置信度和精细化调整后的3D框；

步骤(8).利用非极大值抑制算法对精细化调整后的3D框进行去重叠后处理，在具有重叠的3D框中保留检测置信度最高的3D框作为最终的检测结果输出。

本发明的有益效果：

第一，直接以点为单位处理点云数据，避免了投影视图、体素等表示方式带来的信息损失。同时在点云空间上以点为单位进行区域建议，避免了基于图像方法的受限于透视变形和遮挡等限制，能够更大程度的覆盖真实目标。

第二，分别利用点云处理神经网络PointNet++(但不限于此)和图像分割神经网络PSPNet(但不限于此)来对激光雷达点云和单目图像这两类异构数据进行独立的特征提取，充分利用了单个传感器的数据优势，使得联合特征既能描述空间信息又能描述类别信息。

第三，再利用一个特征融合神经网络在每个点上自适应的融合两类数据的特征，利用图像上的类别信息来增强点云上的空间信息，优势互补地实现更高精度、更加鲁棒的3D目标检测性能。

第四，各类数据独立地进行特征提取，因此只需要增减相应的特征提取网即可使得本方法实现自由增减传感器数量。

附图说明

图1为特征融合神经网络的示意图；

图2为区域建议精细化神经网络的示意图；

图3为本发明一种基于多传感器数据融合的3D目标检测方法的结构框图。

具体实施方式

下面结合附图对本发明方法作进一步说明。

如图3所示，一种基于多传感器数据融合的3D目标检测方法，其具体实施步骤如下：

步骤(1).输入激光雷达点云I_lidar和单目摄像头图像I_img；

[u,v,1]^T＝K(Rp+t) (1)

步骤(3).对剪裁后的点云数据使用点云分割神经网络进行前后景分割，同时获取到每个点的前景分数Score_FG、每个点的高维点云特征F_point以及区域建议3D框，然后基于前景点进行候选区域建议；

此处，点云分割神经网络采用PointNet++(Qi C R,Yi L,Su H,et al.Pointnet++:Deep hierarchical feature learning on point sets in a metric space[C]//Advances in neural information processing systems.2017:5099-5108.)的结构进行设计，由4层点抽取模块SAs(Set Abstraction module，SA)和4层特征传播模块FPs(Feature Propagation module，FP)组成，实现以点为基本单位对点云进行处理；其中Score_FG越高表示越有可能是目标上的点，将满足下式(2)条件的点当作前景点分割出来，其中Thresh_FG表示前后景分数的分割阈值，Score_FG高于此阈值的将被当作前景点，反之则被当作背景点；区域建议框是一种3D形式的候选框，每个候选区域由(x,y,z,w,h,l,θ)七个参数确定，(x,y,z)表示3D候选框中心点的位置坐标，(w,h,l)表示3D候选框的宽高长，θ表示目标的偏航角；在前景点对应的区域建议3D框中筛选出N_PRE个区域建议3D框，然后利用非极大值抑制算法去重叠，保留出N_POST个待精细化的候选区域3D框；

Score_FG＞Thresh_FG (2)

此处图像分割网络使用金字塔结构的PSPNet(Zhao H,Shi J,Qi X,etal.Pyramid scene parsing network[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2017:2881-2890.)，以保证对于大小物体都有较好的分割性能，并应用公开数据集Cityscapes(Cordts M,Omran M,Ramos S,etal.The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016:3213-3223.)对其进行训练；使用PSPNet倒数第二层的输出作为图像的中间高维特征图H_img，由于H_img和输入图像I_img具有相同分辨率，因此将H_img上每个像素所在位置处的数值作为该像素的高维图像特征F_pixel；

步骤(5).以点为单位进行高维点云特征F_point和高维图像特征F_pixel的关联：按步骤(2)中的方式获取到点p(x,y,z)在图像上的对应像素位置(u,v)，然后再把该像素位置处的由步骤(4)获取到的图像特征F_pixel关联为点p的图像特征，最终利用如下式(3)关系，获得每一个点的多传感器特征F_point-pixel，其中运算符

表示拼接操作；

步骤(6).以步骤(3)得到的待精细化的每一个区域建议3D框为单位，框选出对应的出点云子集，然后以每一个点云子集为单位采用特征融合神经网络对其进行多传感器特征F_point-pixel的自适应融合，获取到每一个区域建议3D框的区域特征F_proposal；

其中每一个区域建议3D框的点云子集通过随机采样或者随机重复的方式保留出相同数量的M个点；如图1所示，特征融合神经网络首先利用n层的多层感知器MLP(Multi-Layer Perceptron，MLP)对每个点的多传感器特征F_point-pixel进行逐点自适应混合得到每个点的联合特征F_mul，然后利用一个小型的PointNet(Qi C R,Su H,Mo K,et al.Pointnet:Deep learning on point sets for 3d classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:652-660.)结构类似的网络对点云子集的联合特征F_mul进行整合以获得区域建议3D框级别的区域特征F_proposal；

步骤(7).以每一个区域建议3D框为单位进行区域建议的精细化调整；将由步骤(6)得到的区域特征F_proposal作为区域建议精细化神经网络的输入，输出一个最终的检测置信度和更贴近真实目标的3D框；

如图2所示，其中区域建议精细化神经网络由两路全连接层FCs(Fully Connectedlayer，FC)构成，一路负责输出检测置信度分数，另一路负责3D框参数(x,y,z,w,h,l,θ)的回归；

步骤(8).利用非极大值抑制算法对精细化调整后的3D框进行去重叠后处理，在具有重叠的3D框中保留检测置信度最高的3D框作为最终的检测结果输出，给出最终的检测结果3D Boxes。

为了验证本发明所述3D目标检测方法的优越性能，我们在KITTI测试平台(GeigerA,Lenz P,Urtasun R.Are we ready for autonomous driving？the kitti visionbenchmark suite[C]//2012 IEEE Conference on Computer Vision and PatternRecognition.IEEE,2012:3354-3361)提供的数据集上进行了实验。

KITTI测试平台中的3D目标检测任务提供的训练数据包括双目摄像头(左、右)彩色图像、64线激光雷达点云数据，共各有7481张。本发明遵循公用的(Chen X,Ma H,Wan J,et al.Multi-view 3d object detection network for autonomous driving[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:1907-1915)划分原则进一步将含有7481个样本的训练数据划分为包含3712个样本的训练集和包含3769个样本的验证集，分别用于模型的训练和验证。本发明所述方法只需使用单目摄像头(双目左摄像头)的彩色图像和点云数据，并提供了在验证集上的实验结果。其中包括车辆(Car)、骑行者(Cyclist)及行人(Pedestrian)等三种类型的目标在3D空间和鸟瞰图(Bird's Eye View，BEV)上的检测平均正确率(Average Precision，AP)，AP越高，代表检测方法性能越好。并且按照目标在空间中的遮挡程度，分为了容易(Easy)、中等(Moderate)和困难(Hard)三种难度等级。

表1给出了本发明所述方法利用KITTI官方测评规则测出的实验结果，即在KITTI3D目标检测验证集上的平均正确率。实验结果表明本发明的检测方法在三种类型上的检测性能都较好，既能兼顾大物体的检测性能，又能有效保证小物体的检测性能。

表1本发明所述方法在KITTI 3D目标检测任务验证集上的实验结果

Claims

1.一种基于多传感器数据融合的3D目标检测方法，其特征在于，包括以下步骤：

步骤(1).输入激光雷达点云I_lidar和单目摄像头图像I_img；

[u,v,1]^T＝K(Rp+t) (1)

表示拼接操作；

2.如权利要求1所述的一种基于多传感器数据融合的3D目标检测方法，其特征在于，步骤(3)所述的点云分割神经网络采用PointNet++，由m层点抽取模块SAs和m层特征传播模块FPs组成。

3.如权利要求1所述的一种基于多传感器数据融合的3D目标检测方法，其特征在于，步骤(4)所述的图像分割神经网络采用预训练好的金字塔结构的PSPNet，使用PSPNet倒数第二层的输出作为图像的中间高维特征图H_img。

4.如权利要求1所述的一种基于多传感器数据融合的3D目标检测方法，其特征在于，所述的步骤(6)具体为：

以待精细化的每一个区域建议3D框为单位，框选出对应的点云子集，其中每一个区域建议3D框的点云子集通过随机采样或者随机重复的方式保留出相同数量的M个点；然后以每一个点云子集为单位采用特征融合神经网络对其进行多传感器特征F_point-pixel的自适应融合，所述的特征融合神经网络包括n层的多层感知器MLP和一个PointNet，首先点云子集中的每一个点输入多层感知器MLP，输出每一个点的联合特征F_mul，然后将一个点云子集中所有点的联合特征F_mul输入到PointNet进行整合，获得区域建议3D框级别的区域特征F_proposal。

5.如权利要求1所述的一种基于多传感器数据融合的3D目标检测方法，其特征在于，所述的步骤(7)具体为：

将步骤(6)得到的区域特征F_proposal输入到区域建议精细化神经网络，所述区域建议精细化神经网络由两个预训练的全连接层组合，其中一个全连接层用于输出检测置信度，另一个全连接层用于输出最终的3D框参数的回归结果，得到精细化调整后的3D框，更加贴近真实目标。