CN112200303B

CN112200303B - 基于上下文相关编码器的激光雷达点云3d目标检测方法

Info

Publication number: CN112200303B
Application number: CN202011040602.1A
Authority: CN
Inventors: 伍阔梁; 徐国栋; 刘子立; 刘海风; 蔡登�; 何晓飞; 吴小沛
Original assignee: Hangzhou Fabu Technology Co Ltd
Current assignee: Hangzhou Fabu Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-10-21
Anticipated expiration: 2040-09-28
Also published as: CN112200303A

Abstract

本发明公开了一种基于上下文相关编码器的激光雷达点云3D目标检测方法。激光雷达采集点云数据，将点云数据经点云3d检测模型处理检测3D目标；在点云3d检测模型处理过程中，输出伪图像的像素后连接设置上下文相关编码器，将伪图像的每个像素经由一个上下文相关编码器PointCSE处理获得伪图像像素特征；上下文相关编码器包括上下文相关点云采样网络和深层特征提取网络，通过上下文相关点云采样网络采样伪图像的像素中局部附近的信息点，然后用深层特征提取网络对信息点进行特征学习提取获得伪图像像素特征。本发明能够适用于激光雷达3D场景下的目标检测问题，解决了当下3D目标检测器无法能够同时实现快速运行和高精度的技术问题。

Description

基于上下文相关编码器的激光雷达点云3D目标检测方法

技术领域

本发明属于无人驾驶技术领域的一种激光雷达点云3D处理方法，具体涉及基于高效上下文相关编码器的激光雷达点云3D目标检测方法。

背景技术

3D目标检测旨在定位和识别3D场景中的物体。随着自动驾驶和增强现实等实际场景需求的激增。3D目标检测器需要精确和快速，但是很少有工作能够兼顾。尽管某些方法可以在公开数据集KITTI上以10-20Hz的频率运行，但是在一些实际情况下，它们的运行速度可能会慢很多。这是因为在KITTI数据集上，场景的检测范围缩小到了2D图像空间，但是在大多数现实应用中都需要在整个场景检测，这通常会带来10倍以上的处理时间。

现有3D目标检测器通常直接在原始点云上操作，或者将点云转换为3D形式，然后应用3D卷积。但是这些方法的计算量非常大，存在了效率和精度上的缺陷，而且操作起来很复杂。对于基于2D形式的3D目标检测器，其性能仍然受到限制。

例如最近现有方法常采用PointPillars点云3d检测模型进行处理，旨在在速度和精度之间取得平衡。PointPillars点云3d检测模型是学习无序点云映射到2D伪图像的函数，伪图像的像素称为pillar(俯视图上表示3D空间的垂直列)，并且通过使用点集学习网络PointNet将伪图像的像素pillar中的大部分点映射成矢量来学习每个伪图像的像素pillar的特征。

但是，PointPillars点云3d检测模型它并不考虑pillar的上下文(周围其他像素的信息)，而是使用密集的局部信息来采样一些信息点，这使得多余和嘈杂的点以及周围pillar内的点都包括在内，也使得它不仅导致巨大的计算量和内存开销，而且还妨碍了点集特征的学习，因此存在了效率和精度上的缺陷。

发明内容

为了解决背景技术中存在的问题，本发明提出了一种高效上下文相关编码器，能够适用于激光雷达3D场景下的目标检测问题，解决了当下3D目标检测器无法能够同时实现快速运行和高精度的技术问题。

本发明利用上下文信息(周围的其他像素信息)来实现激光雷达点云的2D表示，以实现具有优越性能的点云3d检测模型(3D目标检测器)。

本发明所采用的技术方案如下：

本发明先通过激光雷达采集点云数据，将点云数据经点云3d检测模型处理检测3D目标；在点云3d检测模型处理过程中，输出伪图像的像素后连接设置上下文相关编码器PointCSE，将伪图像的每个像素pillar经由一个上下文相关编码器PointCSE处理获得伪图像像素特征，并组成特征图进而进行卷积处理。

所述的上下文相关编码器PointCSE包括上下文相关点云采样网络CTRNet和深层特征提取网络CSENet，通过上下文相关点云采样网络CTRNet采样伪图像的像素pillar中局部附近的信息点，然后用深层特征提取网络CSENet对信息点进行特征学习提取获得伪图像像素特征。

对于伪图像的单个像素pillar，提取质心的坐标和质心的偏移；将质心的偏移和质心的坐标相加后输出预测的质心并作为语义点；最后采样离语义点最近邻的k个候选点输出作为信息点。

所述的质心的坐标为选取伪图像的像素pillar中所有候选点的平均坐标。

所述的质心的偏移是对伪图像的像素中所有候选点进行特征提取处理获得特征向量，再经优化模块处理获得。

深层特征提取网络CSENet中，提取粗略全局特征，根据粗略全局特征处理获得精细全局特征，将精细全局特征和粗略全局特征进行拼接操作后传入第三多层感知机MLP的全连接层生成伪图像像素特征。

所述的粗略全局特征是使用第一多层感知机MLP对伪图像的像素pillar对应的信息点进行处理获得每个点的特征，并组成点特征集合，再将点特征集合经过最大池化处理获得。

所述的精细全局特征是将粗略全局特征和点特征集合进行拼接操作，然后再依次经第二多层感知机MLP进行降维处理、最大池化后获得。

所述的第一多层感知机MLP和第三多层感知机MLP均采用单个全连接层，第二多层感知机MLP采用具有两个全连接层。

所述的点云3d检测模型为PointPillars点云3d检测模型。

本发明提出了上下文相关编码器PointCSE来解决现有点云3d检测模型在效率和精度上的缺陷。

所述的上下文相关编码器PointCSE主要分为两个部分：上下文相关点云采样网络CTRNet和深层特征提取网络CSENet。

本发明的上下文相关编码器PointCSE是添加连接在点云3d检测模型中的各个伪图像像素输出后，在伪图像像素特征之前。点云3d检测模型是将点云数据先转换处理成俯视图作为伪图像，伪图像中的各个像素均为由不同候选点构成的柱状，称为Pillar。

1、上下文相关点云采样网络CTRNet

所述的上下文相关点云采样网络CTRNet能够在不增加开销的情况下增强点采样，利用参数化方法用于在训练后辅助构造信息丰富的局部区域。

上下文相关点云采样网络CTRNet的结构如图1所示，对于每个伪图像的像素pillar，在每个pillar使用简化点云特征提取模型PointNet来获取语义信息，然后通过优化模块的全连接层生成质心偏移；然后将质心偏移添加到伪图像的像素pillar的质心p_c，以生成语义点，最后采样pillar中离语义点最近邻的k个候选点进行pillar的特征学习。

具体地来说，伪图像的像素包含有各个候选点，对于每个伪图像的像素pillar中的各个候选点，选取平均坐标作为质心p_c的三维坐标；同时对伪图像的像素中所有候选点使用简化点云特征提取模型PointNet进行特征提取处理获得64维的特征向量，作为语义信息，经优化模块(全连接层)处理获得质心的偏移，将质心的偏移和质心的三维坐标进行向量相加操作后输出预测的质心，作为上下文的语义点；最后采样每个伪图像的像素pillar中离语义点最近邻的k个候选点输出作为信息点，作为采样特征结果，进而后续用用于作为伪图像的像素pillar的特征学习。所述的优化模块由多个全连接层组成。

本发明的上下文相关点云采样网络CTRNet将关注处理放在了上下文周围的局部区域，定位语义点并在语义点局部附近收集一组最近邻点

以有效地定位物体，然后将这些最近邻点用于特征学习。

激光雷达仅捕获物体的表面的点云，通过上述上下文相关点云采样网络CTRNet能在每个pillar采样尽可能少的点，捕捉出现在pillar内的一个小区域中的信息点，而不是随机散布采样，有助于实现更高的精度，同时减少冗余和嘈杂点带来的计算和内存开销。

具体实施中，每个伪图像的像素pillar中的每个候选点的长度为9。

每一个伪图像的像素均具有一个语义点，所有的语义点构成了上下文的语义信息。

2、

本发明设计采用了一个更深的深层特征提取网络CSENet，专门用于pillar特征学习。

伪图像的像素pillar特征学习带来的计算和内存开销随每个伪图像像素pillar的采样点数量线性增长，而上下文相关点云采样网络CTRNet的采样方法减少了采样点数量，从而提高了学习速度并降低了内存占用。同时本发明采用深层特征提取网络CSENet，用更深的网络在延迟和性能之间取得更好的平衡。

深层特征提取网络CSENet的结构如图2所示，深层特征提取网络CSENet以粗略到精细的方式逐步聚集深层的信息。

具体来说，深层特征提取网络CSENet中，对于每个伪图像的像素pillar，首先使用第一多层感知机MLP对上下文相关点云采样网络CTRNet输出的pillar对应的最近邻k个候选点进行处理获得每个点的特征，组成了点特征集合k*64，再经过最大池化获得64维的粗略全局特征；接着将粗略全局特征和点特征集合k*64进行拼接操作，这样将其与各个点的局部特征级联起来，然后再依次经第二多层感知机MLP进行降维处理、最大池化后获得64维的精细全局特征；最后将精细全局特征和粗略全局特征进行拼接操作后传入第三多层感知机MLP的全连接层生成伪图像像素特征。

第一多层感知机MLP和第三多层感知机MLP均采用单个全连接层，第二多层感知机MLP采用具有两个全连接层。

对上下文相关点云采样网络CTRNet输出的各个信息点处理生成粗略全局特征，然后将其与各个点的局部特征级联起来，级联后应用第二多层感知机MLP的两个全连接层和一个最大池化层来聚集信息以产生更深的精细全局特征，最后将精细全局特征和粗略全局特征连接起来并传入全连接层以生成伪图像像素特征。

由此，本发明能够解决PointPillars点云3d检测模型中存在的问题。

与现有技术相比，本发明的有益效果在于：

本发明的上下文相关编码器PointCSE设计和构建能使得点云3d检测模型重量轻，支持TensorRT和TVM等硬件加速，能够同时实现更高的精度和效率，减少冗余和嘈杂点带来的计算和内存开销。

经KITTI数据集在PointPillar上验证实施，上下文相关编码器PointCSE能减少了1.5倍的内存，其性能大大优于当下的实时编码器，并以49FPS的推理速度(与当下最佳方法相比平均提高了4倍)实现了最先进的性能。

附图说明

图1是本发明中CTRNet采样网络的结构图；

图2是本发明中CSENet特征提取网络的结构图；

图3是本发明中上下文相关编码器PointCSE在PointPillar点云3d检测模型上应用的结构图。

具体实施方式

下面结合附图和具体实施对本发明作进一步说明。

如图3所示，具体实施例是在PointPillar点云3d检测模型中应用上下文相关编码器PointCSE，并形成了总体模型的架构，实施具体的流程如下：

图3中，P表示伪图像像素pillar的总数；N表示每个伪图像像素pillar中点的总数；4+5表示每个点的维度；C表示经过了上下文相关编码器PointCSE之后的每个伪图像像素特征的维数，H和W分别表示伪图像的高和宽。

上下文相关编码器PointCSE由上下文相关点云采样网络CTRNet和深层特征提取网络CSENet依次连接构成。

1、上下文相关点云采样网络CTRNet

具体实施的上下文相关点云采样网络CTRNet能够在不增加开销的情况下增强点采样，利用参数化方法用于在训练后辅助构造信息丰富的局部区域。

具体地来说，伪图像的像素包含有各个候选点，对于每个伪图像的像素pillar中的各个候选点，选取平均坐标作为质心p_c的三维坐标；同时对伪图像的像素中所有候选点使用简化点云特征提取模型PointNet进行特征提取处理获得64维的特征向量，作为语义信息，经优化模块(全连接层)处理获得质心的偏移，将质心的偏移和质心的三维坐标进行向量相加操作后输出预测的质心，作为上下文的语义点；最后采样每个伪图像的像素pillar中离语义点最近邻的k个候选点输出作为信息点，作为采样特征结果，进而后续用用于作为伪图像的像素pillar的特征学习。

以有效地定位物体，然后将这些最近邻点用于特征学习。

具体实施中，优化模块由多个全连接层组成，每个伪图像的像素pillar中的每个候选点的长度为9。

2、

具体来说，深层特征提取网络CSENet中，对于每个伪图像的像素pillar，首先使用第一多层感知机MLP对上下文相关点云采样网络CTRNet输出的pillar对应的最近邻k个候选点进行处理获得每个候选点的特征，组成了点特征集合k*64，再经过最大池化获得64维的粗略全局特征；接着将粗略全局特征和点特征集合k*64进行拼接操作，这样将其与各个点的局部特征级联起来，然后再依次经第二多层感知机MLP进行降维处理、最大池化后获得64维的精细全局特征；最后将精细全局特征和粗略全局特征进行拼接操作后传入第三多层感知机MLP的全连接层生成伪图像像素特征。

实施过程

1)激光雷达采集点云并输入，将点云转换并增强为伪图像的像素pillar张量，并每个伪图像的像素pillar输入到上下文相关编码器PointCSE中；

2)上下文相关编码器PointCSE会同时处理大小为N*(4+5)的每个pillar，首先使用上下文相关点云采样网络CTRNet对单个伪图像的像素pillar中的点进行采样，之后使用深层特征提取网络CSENet对上下文相关点云采样网络CTRNet采样后的每个pillar的信息点采样结果进行特征提取学习。

实验表明当N：k为25：4时，能够达到精度和速度的最好折中，k为最近邻的候选点所设定的数量。

具体实施中，上下文相关点云采样网络CTRNet在各个不同图像的像素之间的权值是共享的，即不同图像的像素pillar所采用的上下文相关点云采样网络CTRNet中的网络参数是一致相同的。

同时深层特征提取网络CSENet在各个不同图像的像素之间的权值依然是共享的，即不同图像的像素pillar所采用的深层特征提取网络CSENet中的网络参数是一致相同的。

3、上下文相关编码器PointCSE最终输出N*C大小的伪图像像素特征的特征图，进而生成H*W*C的虚拟图像；

每个像素pillar经过上下文相关编码器PointCSE输出N*C大小的伪图像像素特征，P个像素pillar得到P个伪图像像素特征，P＝H*M，进而生成H*W*C的伪图像特征图(虚拟图像)。

4、最后使用2D卷积对虚拟图像使用进行特征提取，并使2D检测的检测头用SSD对物体进行目标检测。

Claims

1.一种基于上下文相关编码器的激光雷达点云3D目标检测方法，其特征在于：激光雷达采集点云数据，将点云数据经点云3d检测模型处理检测3D目标；在点云3d检测模型处理过程中，输出伪图像的像素后连接设置上下文相关编码器PointCSE，将伪图像的每个像素pillar经由一个上下文相关编码器PointCSE处理获得伪图像像素特征，并组成特征图进而进行卷积处理；

所述的上下文相关编码器PointCSE包括上下文相关点云采样网络CTRNet和深层特征提取网络CSENet，通过上下文相关点云采样网络CTRNet采样伪图像的像素pillar中局部附近的信息点，具体对于伪图像的单个像素pillar，提取质心的坐标和质心的偏移，将质心的偏移和质心的坐标相加后输出预测的质心并作为语义点，然后采样离语义点最近邻的k个候选点输出作为信息点；最后用深层特征提取网络CSENet对信息点进行特征学习提取获得伪图像像素特征；

所述的质心的坐标为选取伪图像的像素pillar中所有候选点的平均坐标；

所述的质心的偏移是对伪图像的像素中所有候选点进行特征提取处理获得特征向量，再经优化模块处理获得；

深层特征提取网络CSENet中，提取粗略全局特征，根据粗略全局特征处理获得精细全局特征，将精细全局特征和粗略全局特征进行拼接操作后传入第三多层感知机MLP的全连接层生成伪图像像素特征；

所述的粗略全局特征是使用第一多层感知机MLP对伪图像的像素pillar对应的信息点进行处理获得每个点的特征，并组成点特征集合，再将点特征集合经过最大池化处理获得；所述的精细全局特征是将粗略全局特征和点特征集合进行拼接操作，然后再依次经第二多层感知机MLP进行降维处理、最大池化后获得。

2.根据权利要求1所述的一种基于上下文相关编码器的激光雷达点云3D目标检测方法，其特征在于：所述的第一多层感知机MLP和第三多层感知机MLP均采用单个全连接层，第二多层感知机MLP采用具有两个全连接层。

3.根据权利要求1所述的一种基于上下文相关编码器的激光雷达点云3D目标检测方法，其特征在于：所述的点云3d检测模型为PointPillars点云3d检测模型。