CN112288709B

CN112288709B - 一种基于点云的三维目标检测方法

Info

Publication number: CN112288709B
Application number: CN202011169810.1A
Authority: CN
Inventors: 范赐恩; 邹炼; 金伟正; 李方玉; 李晓鹏; 陈庆生
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29
Anticipated expiration: 2040-10-28
Also published as: CN112288709A

Abstract

本发明公开了一种基于点云的三维目标检测方法，该方法首先裁剪出有效的点云空间，将其划分为均匀的体素后进行特征提取，再使用三维稀疏卷积层将空间下采样八倍，并通过维度整合将稀疏的三维数据转化为二维俯视图，最后使用分裂‑聚合特征金字塔网络作为区域建议网络的骨干网络，实现对物体的精细检测。其中分裂‑聚合特征金字塔网络包含两个分支，粗糙分支提取多尺度俯视图特征用于检测不同尺寸的物体，并利用丰富的上下文信息来减少背景点和噪声点造成的误检，精细分支对粗糙分支的多尺度特征进一步细化，并完成多尺度特征图的交叉融合，实现了高质量的俯视图边界框回归和高精度的三维目标检测。

Description

一种基于点云的三维目标检测方法

技术领域

本发明涉及计算机视觉，自动驾驶技术领域，具体地涉及一种基于点云的三维物体检测方法。

背景技术

基于深度学习的三维目标检测在机器人技术和自动驾驶领域中扮演着重要角色。三维物体检测的任务是找出给定场景中所有感兴趣的物体，并确定其类别，位置，以及朝向。传统彩色相机采集的图像数据由于缺乏了三维物体检测所必需的深度信息，对于遮挡严重的物体常常难以回归得到良好的边界框。随着激光雷达和彩色深度相机的普及，点云数据的获取变得更加方便可行，由于点云数据保留了物体精确的深度信息和几何结构信息，使用点云进行三维物体检测可以达到更高的精度。目前使用点云进行三维目标检测的方法主要分为两类：一类是基于点云和图像融合的方法，主要以MV3D(Multi-view 3DObject Detection Network For Autonomous Driving)为代表，该方法将点云数据投影到前视图和鸟瞰图，再对多视图的点云数据和彩色图像使用二维卷积神经网络提取特征，最后将这些特征进行深度融合，并用于物体检测。这类方法利用鸟瞰图中物体遮挡较少的特点，巧妙地将点云的深度信息和彩色图像进行了融合。由于点云通常是稀疏且分布不均匀的，因此在将点云和图像进行融合的过程中，常常会由于无法精准对齐而对检测结果造成干扰。此外，在将点云数据投影到多视图的过程中，也存在着不可避免的空间结构信息丢失，因此这类方法的检测精度远达不到自动驾驶的技术要求。另一类是基于纯点云的方法，主要以SECOND(Sparsely Embedded Convolutional Detection)为代表，这类方法将点云划分为规则均匀地体素，对每个体素提取特征后，学习三维空间Z轴上的信息，再将空间高度进行压缩形成俯视图伪图像，最后使用区域建议网络处理俯视图特征，实现最终的三维物体检测。这种方法实现了对物体的高精度检测，并且保证了训练和推理速度。由于这类方法将稀疏的三维数据转化为二维伪图像后简单地处理后就用于检测，除了无法避免的体素采样的信息丢失，俯视图特征提取的不充分也丢失了物体的细节信息，因此这类方法预测的边界框不准确，且容易出现误检。

因此，探寻一种兼具速度和精度优势的三维目标检测器是当前自动驾驶领域亟待解决的问题。

发明内容

针对三维目标检测器无法有效地从BEV伪图像中提取有用信息用于3D物体检测的问题，本发明提出了一种融合俯视图多尺度跨层特征的三维物体检测方法，该方法训练及推理速度快，且3D目标检测和BEV目标检测的精度明显高于其它现有方法。

与现有技术不同的是，我们提出了一种深度融合俯视图多尺度特征的三维物体检测方法，整个网络将空间中的三维体素压缩为伪图像后，对俯视图提取多尺度特征，并使用分裂-聚合特征金字塔网络充分融合跨层特征图，最终使用三个 1×1卷积层得到最终的精细检测结果。我们的方法在具有挑战性的KITTI自动驾驶场景的数据集上进行了丰富的实验，结果表明我们的方法对于3D目标检测和BEV(Bird’s Eye View)目标检测的精度均有着显著提升。

为实现上述目的，本发明的技术方案为一种基于点云的三维目标检测方法，包括如下步骤：

步骤S1：将三维空间进行裁剪，保留一定范围内的点云，滤除不包含物体的三维空间，以减少额外的计算量；

步骤S2：点云划分与分组，将裁剪后三维点云空间划分为均匀大小的3D体素；

步骤S3：体素特征提取，对每个体素内包含的点云进行采样，多于N个点的体素，从中随机采样N个点，对于少于N个点的体素，使用0进行填充，以克服不同体素内包含的点云个数极不均匀的问题；然后使用VFE模块对每个体素进行特征提取，以得到逐体素特征；

步骤S4，将逐体素特征作为输入，先使用一个稀疏卷积张量层将体素特征转化为四维张量C×D×H×W，其中C表示通道数，D×H×W表示空间高度、宽度、长度的维度变化，然后使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样；

步骤S5：将下采样后的四维张量进行稠密化操作，并对空间高度进一步进行压缩，再将其重整为(C×D)×H×W的2D俯视图伪图像；

步骤S6：使用分裂-聚合特征金字塔网络作为区域建议网络的骨干网络，实现精细的3D目标检测，包括：

使用一系列卷积层将原尺寸为S的2D俯视图转化为金字塔型特征层级，其中一共包含三个尺度的特征图F₁₁，F₁₂，F₁₃，其尺寸分别为S，S/2，S/4，再将这三个尺度的特征图分别进行池化和反卷积操作，生成三个独立的金字塔型特征层级；然后使用Concat拼接操作和1×1卷积层将它们聚合成全新的金字塔型特征层级，并反卷积到相同大小S的F₂₁，F₂₂，F₂₃；对于三个尺度的F₁₁，F₁₂，F₁₃，使用三个不同步长的反卷积将其分别恢复到大小S，再进行Concat拼接操作得到F_c；最后将F₂₁，F₂₂，F₂₃与F_c进行逐元素相加，融合得到最终用于检测的特征图；最后，使用三个1×1的卷积层分别预测物体的类别，3D边界框，以及朝向。

进一步的，步骤S1中保留高×宽×长在[-3，1]×[-40，40]×[0，70.4]m³范围内的点云。

进一步的，步骤S2中选用0.1×0.05×0.05m³作为体素的尺寸。

进一步的，步骤S3中N取5。

进一步的，步骤S3中使用平均VFE作为体素特征编码器，将每个非空体素内的N个点的信息进行求平均，平均后的结果作为该体素的特征。

进一步的，步骤S6的具体实现方式如下，

步骤S61：使用4个步长为1的3×3卷积得到大小为S的特征图F₁₁，再使用一个步长为2和5个步长为1的3×3卷积处理F₁₁，得到大小为S/2的特征图F₁₂；然后使用一个步长为2和5个步长为1的3×3卷积得到大小为S/4的特征图F₁₃；最后，分别使用步长为1,2,4的反卷积处理F₁₁，F₁₂，F₁₃，得到大小均为S的三个输出，对其进行Concat拼接操作融合后作为粗糙分支的输出F_c；

步骤S62：对于粗糙分支的中间特征图F₁₁，F₁₂，F₁₃，其大小分别为S，S/2， S/4，对大小为S的F₁₁分别使用卷积核为2和4的最大池化，得到大小为S/2，S/4 的新特征图；再对大小为S/2的F₁₂分别使用步长为2的反卷积和卷积核为2的 max-pooling，得到大小为S，S/4的新特征图；最后对大小为S/4的F₁₃分别使用步长为4和2的反卷积，得到大小为S，S/2的新特征图；对于F₁₁，F₁₂，F₁₃以及新生成的6个特征图，将相同大小的特征图进行Concat拼接，使其融合得到新的S，S/2，S/4特征图，再使用1×1卷积层对其分别降维到128,256,256；

步骤S63：对于降维后的三个大小为S，S/2，S/4特征图，分别使用7×7，5×5，3×3的卷积得到高层特征表示F₂₁，F₂₂，F₂₃；分别使用步长为1,2,4的反卷积将其都变为大小为S的特征图，再与粗糙分支的输出F_c逐元素相加，最后分别使用一个3×3卷积处理后，将其结果Concat拼接后作为最后用于检测的精细分支特征F_out；

步骤S64：对于精细分支得到的用于检测的特征F_out，分别使用三个1×1的卷积，得到物体的类别，3D边界框，以及朝向。

与现有技术相比，本发明具有以下创新：

(1)我们提出的方法仅使用点云数据作为输入，利用结构简单的网络将点云体素转化为便于处理的二维图像后，通过分裂-聚合特征金字塔网络提取俯视图的多尺度特征图，并进行跨层交叉融合，在保证了检测速度的前提下，充分利用多尺度特征图丰富的上下文信息，减少背景点和噪声点造成的误检，实现了对多尺寸物体的精准检测。

(2)本发明将区域建议网络分为两个分支，粗糙分支用于提取多尺度特征图用于获得上下文信息和检测不同尺寸的物体，精细分支的分裂-聚合特征金字塔网络对多尺度特征图进行了细化和交叉融合，实现了对边界框的精细回归。该结构对于3D目标检测和BEV目标检测任务均有着显著提升。

附图说明

图1为本发明技术方案的总体框图。

图2为本发明3D稀疏卷积中间提取器及重塑伪图像的网络结构图。

图3为本发明区域建议网络RPN(Region Proposal Network)的结构图。

图4为本发明SA-FPN(分裂-聚合特征金字塔网络)的结构图。

具体实施方式

下面结合附图对本发明所提供的基于纯点云的三维目标检测方法的具体实施方式作详细阐述：

附图1为本发明实施例提供的一种基于纯点云的三维物体检测方法的总体框图。整个网络的具体步骤如下：

步骤S1：对于给定的一个点云空间，我们对原始点云进行裁剪。保留高×宽×长在[-3，1]×[-40，40]×[0，70.4]m范围内的点云，滤除不包含物体的空间，以减少额外的计算量。数据处理后得到的点云空间大小为4×80×70.4m。

步骤S2：点云划分与分组，将裁剪后三维点云空间划分为均匀大小的3D体素；具体实现如下，

步骤S21：将裁剪后的空间划分为均匀大小的体素，分布在对应空间的点云也被相应地分组到各个体素中，为了能够将空间完整地划分为体素，我们选用 0.1×0.05×0.05m作为体素的尺寸，将4×80×70.4m的空间划分为40 1600×1408个体素。

步骤S22：由于40×1600×1408个体素计算量仍然巨大，在网络的训练阶段，我们设置每个场景最多不超过16000个非空体素，多余16000个非空体素的场景我们随机采样16000个非空体素用于检测任务。

步骤S3：体素特征提取，对每个体素内包含的点云进行采样，多于N个点的体素，从中随机采样N个点，对于少于N个点的体素，使用0进行填充，以克服不同体素内包含的点云个数极不均匀的问题；然后使用VFE模块对每个体素进行特征提取，以得到逐体素特征；具体实现如下，

步骤S31：由于点云是稀疏的，分布不均匀的，同一场景的不同位置点云分布数量差异很大。为了均衡体素中包含的点云数目极不均匀的问题，我们对体素中包含的点云个数进行了均衡。我们对多于5个点的体素随机采样5个点，以代表整个体素。对于少于5个点的体素，我们使用0对其进行填充，以确保训练阶段采样的每个非空体素中都有且只有5个点云。

步骤S32：对每个体素内的点云完成采样后，空间内的体素包含的点数已经得到了很好的均匀。我们对每个体素使用VFE(Voxel Feature Encoding)模块对每个体素进行特征提取，以得到逐体素特征。这里我们使用平均VFE作为体素特征编码器，将每个非空体素内的5个点的信息进行求平均，平均后的结果作为该体素的特征。

步骤S4，将逐体素特征作为输入，先使用一个稀疏卷积张量层将体素特征转化为四维张量C×D×H×W，其中C表示通道数，D×H×W表示空间高度、宽度、长度的维度变化，然后使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样；具体实现如下，

步骤S41：将VFE处理体素得到的逐体素特征(Voxel-wise Feature)作为输入，先使用一个稀疏卷积张量层将体素特征转化为四维张量，我们可将其表示为 C×D×H×W，其中C表示通道数，D×H×W表示空间高度、宽度、长度的维度变化。这里我们的得到的初始四维张量大小为16×40×1600×1408。

步骤S42：如图2所示，整个3D空间的信息被表示为C×D×H×W的四维张量后，我们使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样，得到64×5×200×176的输出。

步骤S5：将下采样后的四维张量进行稠密化操作，并对空间高度进一步进行压缩，再将其重整为(C×D)×H×W的2D俯视图伪图像；具体实现如下，

步骤S51：为了将稀疏的3D稀疏数据转化为2D伪图像，我们使用稠密化(dense)操作将稀疏的三维数据稠密化之后，对空间高度进一步进行压缩。这里，我们使用一个步长为(2，1，1)，填充为(3，1，1)的稀疏卷积层将空间压缩为128×2×200×176。

步骤S52：为了得到2D俯视图伪图像，我们将通道数C与高度维度D进行合并重整，得到输出为(C×D)×H×W的2D伪图像。伪图像的通道数为 (C×D)＝256，大小为200×176。

步骤S6：使用分裂-聚合特征金字塔网络(Split and Aggregation FeaturePyramid Network,SA-FPN)作为区域建议网络的骨干网络，实现精细的3D目标检测；具体实现如下，

步骤S61：对于得到的2D俯视图伪图像，我们用S表示其大小。如图3所示，我们使用4个步长为1的3×3卷积得到大小为S的特征图F₁₁，再使用一个步长为 2和5个步长为1的3×3卷积处理F₁₁，得到大小为S/2的特征图F₁₂。然后使用一个步长为2和5个步长为1的3×3卷积得到大小为S/4的特征图F₁₃。最后，分别使用步长为1,2,4的反卷积处理F₁₁，F₁₂，F₁₃，得到大小均为S的三个输出，对其进行Concat拼接操作融合后作为粗糙分支的输出F_c。

步骤S62：对于粗糙分支的中间特征图F₁₁，F₁₂，F₁₃，其大小分别为S，S/2， S/4。我们对大小为S的F₁₁分别使用卷积核为2和4的最大池化(max-pooling)，得到大小为S/2，S/4的新特征图。再对大小为S/2的F₁₂分别使用步长为2的反卷积和卷积核为2的max-pooling，得到大小为S，S/4的新特征图。最后对大小为S/4的F₁₃分别使用步长为4和2的反卷积，得到大小为S，S/2的新特征图。对于F₁₁，F₁₂，F₁₃以及新生成的6个特征图，我们将相同大小的特征图进行Concat 拼接，使其融合得到新的S，S/2，S/4特征图，再使用1×1卷积层对其分别降维到128,256,256。

步骤S63：对于降维后的三个大小为S，S/2，S/4特征图，我们分别使用7×7， 5×5，3×3的卷积得到高层特征表示F₂₁，F₂₂，F₂₃。我们分别使用步长为1,2,4 的反卷积将其都变为大小为S的特征图，再与粗糙分支的输出F_c逐元素相加，最后分别使用一个3×3卷积处理后，将其结果Concat拼接后作为精细分支的输出特征，即最后用于检测的特征F_out。

步骤S64：对于精细分支得到的用于检测的特征F_out，我们分别使用三个 1×1的卷积，得到物体的类别，3D边界框，以及朝向。

以上为本发明的详细步骤，应当理解的是本说明书未详细阐述的部分均属于现有技术。本发明提出了一种基于纯点云的三维目标检测方法，该方法得益于分裂-聚合特征金字塔网络融合的多尺度跨层特征，能够精确地检测遮挡物体并回归得到高质量的边界框，整个网络在保证了训练和推理速度的同时，检测精度远高于其他现有单阶段检测方法。

Claims

1.一种基于点云的三维目标检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于点云的三维目标检测方法，其特征在于：步骤S1中保留高×宽×长在[-3，1]×[-40，40]×[0，70.4]m³范围内的点云。

3.如权利要求1所述的一种基于点云的三维目标检测方法，其特征在于：步骤S2中选用0.1×0.05×0.05m³作为体素的尺寸。

4.如权利要求1所述的一种基于点云的三维目标检测方法，其特征在于：步骤S3中N取5。

5.如权利要求1所述的一种基于点云的三维目标检测方法，其特征在于：步骤S3中使用平均VFE作为体素特征编码器，将每个非空体素内的N个点的信息进行求平均，平均后的结果作为该体素的特征。

6.如权利要求1所述的一种基于点云的三维目标检测方法，其特征在于：步骤S6的具体实现方式如下，

步骤S62：对于粗糙分支的中间特征图F₁₁，F₁₂，F₁₃，其大小分别为S，S/2，S/4，对大小为S的F₁₁分别使用卷积核为2和4的最大池化，得到大小为S/2，S/4的新特征图；再对大小为S/2的F₁₂分别使用步长为2的反卷积和卷积核为2的max-pooling，得到大小为S，S/4的新特征图；最后对大小为S/4的F₁₃分别使用步长为4和2的反卷积，得到大小为S，S/2的新特征图；对于F₁₁，F₁₂，F₁₃以及新生成的6个特征图，将相同大小的特征图进行Concat拼接，使其融合得到新的S，S/2，S/4特征图，再使用1×1卷积层对其分别降维到128,256,256；