CN114627183A

CN114627183A - 一种激光点云3d目标检测方法

Info

Publication number: CN114627183A
Application number: CN202210178373.2A
Authority: CN
Inventors: 黄刚; 许翔
Original assignee: Zhejiang Zero Run Technology Co Ltd
Current assignee: Zhejiang Zero Run Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-14

Abstract

本发明公开了一种激光点云3D目标检测方法，包括以下步骤：步骤S1）激光雷达传感器采集点云数据并标注障碍物真值；步骤S2）基于神经网络构建3D多任务算法模型；步骤S3）对标注好的点云数据进行在线预处理、体素化、语义真值获取，以及数据增强；步骤S4）用步骤S3处理后的标注好的点云数据及其对应的语义真值训练3D多任务算法模型；步骤S5）利用训练好的3D多任务算法模型对点云数据进行检测任务的前向推理。本发明在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，利用体素化后生成的语义真值训练语义分割分支，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作，提高检测精度。

Description

一种激光点云3D目标检测方法

技术领域

本发明涉及3D目标检测技术领域，具体涉及一种激光点云3D目标检测方法。

背景技术

3D目标检测任务是指对3D成像传感器获得的点云数据进行目标定位与分类，是3D场景分析中的一个基本任务，随着激光雷达传感器的发展以及智能驾驶技术的进步，基于点云数据的3D目标检测任务越来越受到关注。3D目标检测方法目前主要有两种，一种是通过聚类的方式将点云中的点云簇聚类为多个目标对象，例如K-means、DBSCAN等经典算法；另一种是以近几年迅速发展的神经网络为基础的深度学习方法，该方法可以分为三类，分别是基于点的3D检测方法、基于体素的3D检测方法，以及基于投影的3D检测方法。传统的基于点云处理的检测方法不够稳定，性能对场景变化十分敏感，而且目标分类不够准确，同时误检严重；在深度学习分支领域，基于点的检测方法能够充分利用点云结构信息进行检测，但是无法通过卷积操作获得高层语义信息，只能通过多层感知机(MLP)获得全局信息进行检测；基于体素的检测方法可以通过3D卷积操作充分获得点云的语义信息进行定位和分类，但是速度慢，而且3D卷积操作不易部署在车载GPU硬件平台，此类方法还有另外一种方式，在体素化时将某一维度体素化为单位1，生成伪图像，然后基于伪图像进行2D卷积，提取特征，检测目标，此方式速度快，但是精度较低；基于投影的检测方法可以像2D检测一样对点云投影出的图像进行特征提取，进而回归出目标，此类方法丢失了一个维度信息，速度虽然提升明显，但是回归精度往往不够。

发明内容

本发明主要是为了解决现有的3D目标检测技术不能同时兼顾速度和精度的问题，提出了一种激光点云3D目标检测方法，在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，利用体素化后生成的语义真值训练语义分割分支，提炼语义分割分支的中间特征约束检测分支的检测工作，提高检测精度。

为了实现上述目的，本发明采用以下技术方案：

一种激光点云3D目标检测方法，包括以下步骤：步骤S1)激光雷达传感器采集点云数据并标注障碍物真值；步骤S2)基于神经网络构建3D多任务算法模型；步骤S3)对标注好的点云数据进行在线预处理、体素化、语义真值获取，以及数据增强；步骤S4)用步骤S3处理后的标注好的点云数据及其对应的语义真值训练3D多任务算法模型；步骤S5)利用训练好的3D多任务算法模型对点云数据进行检测任务的前向推理。本发明提出了一种激光点云3D目标检测方法，具体过程为：1)使用激光雷达传感器采集点云数据，并用障碍物真值标注点云数据，障碍物真值包括目标尺寸、位置和方向等信息，具体的，障碍物真值对应的属性为点云外接矩形体的长、宽、高，中心点在激光雷达坐标系下的坐标(x、y、z)、航向角、类别；2)对标注好障碍物信息的点云数据(即点云数据及其对应的障碍物真值)进行在线预处理、体素化、语义真值获取，以及数据增强，预处理包括但不限于点云数据的乱序处理、兴趣域的裁剪，体素化是指将裁剪后的点云数据在x、y、z方向上按一定的步长进行量化，其中z轴的步长为本身，x、y轴的步长为S_x、S_y，量化后：W＝Y/S_y；L＝X/S_x；Z＝1；数据增强包括但不限于真值重采样、随机翻转、随机仿射变换、随机缩放等数据增强常规操作；3)点云数据体素化后，根据每个体素内是否存在点云生成一张W*L大小的值为0或1的图S；然后初始化一张同样大小的值全为0的图S₀，将障碍物真值投影到图S₀，即图S₀中障碍物矩形框内对应的值全置为1至n的常数，不同数字表示不同类别，得到图S₁；将图S与图S₁进行与操作获得图S₂；将图S中的数值1变换为数值n+1，0表示没有点云，n+1表示有点云，n为障碍物的类别数，然后与图S₂进行异或操作获得语义真值，最终语义图的数值0表示可忽略的像素，1至n表示不同类别的障碍物像素，n+1表示背景像素；4)基于神经网络构建3D多任务算法模型，包括主干网络、语义分割分支和检测分支，语义分割分支包括语义分割头，检测分支包括检测头，主干网络的输出端分别与语义分割头和检测头连接，用标注好障碍物信息的点云数据及其对应的语义真值训练3D多任务算法模型，点云数据及其对应的障碍物真值输入到主干网络，语义真值输入到语义分割头，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作；5)利用训练好的3D多任务算法模型对新的点云数据进行检测任务的前向推理。本发明在体素化时将z维度体素化为单位1，生成伪图像，然后基于伪图像进行2D卷积，提取特征，检测目标，加快检测速度；利用体素化过程生成语义真值，不需要额外标注语义真值，节省研发成本；在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，利用生成的语义真值训练语义分割分支，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作，提高检测精度。

作为优选，步骤S3中获取语义真值的具体过程，包括以下步骤：步骤A1)点云数据体素化后，根据每个体素内是否存在点云生成W*L大小的值为0或1的图S；步骤A2)初始化W*L大小的值均为0的图S₀，将障碍物真值投影到图S₀获得图S₁；步骤A3)将图S与图S₁进行与操作获得图S₂；步骤A4)将图S中的数值1变换为数值n+1；步骤A5)将变换数值后的图S与图S₂进行异或操作获得语义真值。本发明利用体素化过程生成语义真值，用于训练语义分割分支，不需要额外标注语义真值，节省研发成本，具体过程为：点云数据体素化后，根据每个体素内是否存在点云生成一张W*L大小的值为0或1的图S；然后初始化一张同样大小的值全为0的图S₀，将障碍物真值投影到图S₀，即图S₀中障碍物矩形框内对应的值全置为1至n的常数，不同数字表示不同类别，得到图S₁；将图S与图S₁进行与操作获得图S₂；将图S中的数值1变换为数值n+1，0表示没有点云，n+1表示有点云，n为障碍物的类别数，然后与图S₂进行异或操作获得语义真值，最终语义图的数值0表示可忽略的像素，1至n表示不同类别的障碍物像素，n+1表示背景像素。

作为优选，所述3D多任务算法模型包括主干网络、语义分割分支和检测分支，所述语义分割分支包括语义分割头，所述检测分支包括检测头，所述主干网络的输出端分别与语义分割头和检测头连接。本发明在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，用体素化后生成的语义真值训练语义分割分支，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作。

作为优选，所述语义分割分支的中间特征输出给所述检测分支以约束检测分支的检测工作。本发明将语义分割分支的中间特征提炼出来约束检测分支的检测工作，提高检测精度。

作为优选，所述约束的具体过程为：语义分割头的中间特征F_seg经过Sigmoid激活后，与主干网络的输出F_rpn进行点乘获得F_det，将F_det输入到检测头进行3D目标框的分类与回归。F_rpn为3D多任务算法模型主干网络的输出，假设输出为主干网络输入的1/2，F_rpn的尺寸为W/2*L/2，F_seg为语义分割头的中间特征，尺寸与F_rpn一致，经过Sigmoid激活后与F_rpn进行点乘，点乘是为了在F_rpn中加入分割注意力，激发检测分支对潜在对象的位置进行关注，将点乘后的特征F_det输入到检测头进行3D目标框的分类和回归。

作为优选，所述主干网络的输入为经过步骤S3处理后的点云数据及点云数据对应的障碍物真值。

作为优选，所述语义分割头的监督信号为步骤S3获取的语义真值。训练语义分割头时，用语义真值作为监督信号，采用SGD优化器和交叉熵分类损失函数进行训练，语义分割头最终上采样到W*L上进行预测。

因此，本发明的优点是：

(1)基于伪图像进行2D卷积操作提取特征，提高检测速度；

(2)利用体素化过程生成语义真值，不需要额外标注语义真值，节省研发成本；

(3)在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作，提高检测精度。

附图说明

图1是本发明实施例中一种激光点云3D目标检测方法的流程图。

图2是本发明实施例中3D多任务算法模型的结构示意图。

图3是本发明实施例中约束过程的示意图。

1、主干网络 2、语义分割头 3、检测头。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

如图1所示，一种激光点云3D目标检测方法，包括以下步骤：步骤S1)激光雷达传感器采集点云数据并标注障碍物真值；步骤S2)基于神经网络构建3D多任务算法模型；步骤S3)对标注好的点云数据进行在线预处理、体素化、语义真值获取，以及数据增强；步骤S4)用步骤S3处理后的标注好的点云数据及其对应的语义真值训练3D多任务算法模型；步骤S5)利用训练好的3D多任务算法模型对点云数据进行检测任务的前向推理。本实施例提出了一种激光点云3D目标检测方法，具体过程为：1)使用激光雷达传感器采集点云数据，并用障碍物真值标注点云数据，障碍物真值包括目标尺寸、位置和方向等信息，具体的，障碍物真值对应的属性为点云外接矩形体的长、宽、高，中心点在激光雷达坐标系下的坐标(x、y、z)、航向角、类别；2)对标注好障碍物信息的点云数据(即点云数据及其对应的障碍物真值)进行在线预处理、体素化、语义真值获取，以及数据增强，预处理包括但不限于点云数据的乱序处理、兴趣域的裁剪，体素化是指将裁剪后的点云数据在x、y、z方向上按一定的步长进行量化，其中z轴的步长为本身，x、y轴的步长为S_x、S_y，量化后：W＝Y/S_y；L＝X/S_x；Z＝1；数据增强包括但不限于真值重采样、随机翻转、随机仿射变换、随机缩放等数据增强常规操作；3)点云数据体素化后，根据每个体素内是否存在点云生成一张W*L大小的值为0或1的图S；然后初始化一张同样大小的值全为0的图S₀，将障碍物真值投影到图S₀，即图S₀中障碍物矩形框内对应的值全置为1至n的常数，不同数字表示不同类别，得到图S₁；将图S与图S₁进行与操作获得图S₂；将图S中的数值1变换为数值n+1，0表示没有点云，n+1表示有点云，n为障碍物的类别数，然后与图S₂进行异或操作获得语义真值，最终语义图的数值0表示可忽略的像素，1至n表示不同类别的障碍物像素，n+1表示背景像素；4)基于神经网络构建3D多任务算法模型，包括主干网络1、语义分割分支和检测分支，语义分割分支包括语义分割头2，检测分支包括检测头3，主干网络1的输出端分别与语义分割头2和检测头3连接，用标注好障碍物信息的点云数据及其对应的语义真值训练3D多任务算法模型，点云数据及其对应的障碍物真值输入到主干网络1，语义真值输入到语义分割头2，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作；5)利用训练好的3D多任务算法模型对新的点云数据进行检测任务的前向推理。

步骤S3中获取语义真值的具体过程，包括以下步骤：步骤A1)点云数据体素化后，根据每个体素内是否存在点云生成W*L大小的值为0或1的图S；步骤A2)初始化W*L大小的值均为0的图S₀，将障碍物真值投影到图S₀获得图S₁；步骤A3)将图S与图S₁进行与操作获得图S₂；步骤A4)将图S中的数值1变换为数值n+1；步骤A5)将变换数值后的图S与图S₂进行异或操作获得语义真值。本发明利用体素化过程生成语义真值，用于训练语义分割分支，不需要额外标注语义真值，具体过程为：点云数据体素化后，根据每个体素内是否存在点云生成一张W*L大小的值为0或1的图S；然后初始化一张同样大小的值全为0的图S₀，将障碍物真值投影到图S₀，即图S₀中障碍物矩形框内对应的值全置为1至n的常数，不同数字表示不同类别，得到图S₁；将图S与图S₁进行与操作获得图S₂；将图S中的数值1变换为数值n+1，0表示没有点云，n+1表示有点云，n为障碍物的类别数，然后与图S₂进行异或操作获得语义真值，最终语义图的数值0表示可忽略的像素，1至n表示不同类别的障碍物像素，n+1表示背景像素。

如图2所示，3D多任务算法模型包括主干网络1、语义分割分支和检测分支，语义分割分支包括语义分割头2，检测分支包括检测头3，主干网络1的输入为标注好障碍物信息的点云数据，即经过步骤S3处理后的点云数据及标注点云数据的障碍物真值；主干网络1的输出端分别与语义分割头2和检测头3连接，语义分割头2的监督信号为步骤S3获取的语义真值，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作。本发明在3D目标检测算法模型中加入语义分割分支得到3D多任务算法模型，用体素化后生成的语义真值训练语义分割分支，提炼语义分割分支的中间特征输出给检测分支以约束检测分支的检测工作，约束过程如图3所示，F_rpn为3D多任务算法模型主干网络1的输出，假设输出为主干网络1输入的1/2，F_rpn的尺寸为W/2*L/2，F_seg为语义分割头2的中间特征，尺寸与F_rpn一致，经过Sigmoid激活后与F_rpn进行点乘，点乘是为了在F_rpn中加入分割注意力，激发检测分支对潜在对象的位置进行关注，将点乘后的特征F_det输入到检测头3进行3D目标框的分类和回归，F_pre为语义分割头2的预测图。

主干网络1包括全连接层、Scatter层和上采样层，全连接层用于提取全局信息；Scatter层用于将全局信息重排列为伪鸟瞰图像。主干网络1首先用全连接层提取全局信息(也可以用1*1的卷积层替代)，然后用Scatter层重排列为伪鸟瞰图像，最后卷积层、归一化层、激活层、反卷积层或者其它上采样层提取伪鸟瞰图的特征作为主干网络1的输出，主干网络1的输出最终可为输入尺寸的1/8、1/4、1/2、1，也可以输出多尺寸，尺寸越大对应的计算量越大。

语义分割头2包含少数卷积层、归一化层、激活层和dropout层，语义分割头2的类别输出N与检测头3的保持一致，监督信号为语义真值，采用SGD优化器和交叉熵分类损失函数进行训练，语义分割头2最终上采样到W*L上做预测。

检测头3包含两个分支，分类分支和回归分支，分类分支对3D目标框进行分类，输出通道为M*N，回归分支的输出通道为M*7，M为特征点生成的候选框数量，7为(x、y、z、w、l、h、heading)七个维度。检测头3的分类损失函数为Focal Loss，回归损失函数为SmoothL1Loss。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种激光点云3D目标检测方法，其特征在于，包括以下步骤：

步骤S1：激光雷达传感器采集点云数据并标注障碍物真值；

步骤S2：基于神经网络构建3D多任务算法模型；

步骤S3：对标注好的点云数据进行在线预处理、体素化、语义真值获取，以及数据增强；

步骤S4：用步骤S3处理后的标注好的点云数据及其对应的语义真值训练3D多任务算法模型；

步骤S5：利用训练好的3D多任务算法模型对点云数据进行检测任务的前向推理。

2.根据权利要求1所述的一种激光点云3D目标检测方法，其特征在于，步骤S3中获取语义真值的具体过程，包括以下步骤：

步骤A1：点云数据体素化后，根据每个体素内是否存在点云生成W*L大小的值为0或1的图S；

步骤A2：初始化W*L大小的值均为0的图S₀，将障碍物真值投影到图S₀获得图S₁；

步骤A3：将图S与图S₁进行与操作获得图S₂；

步骤A4：将图S中的数值1变换为数值n+1；

步骤A5：将变换数值后的图S与图S₂进行异或操作获得语义真值。

3.根据权利要求1所述的一种激光点云3D目标检测方法，其特征在于，所述3D多任务算法模型包括主干网络、语义分割分支和检测分支，所述语义分割分支包括语义分割头，所述检测分支包括检测头，所述主干网络的输出端分别与语义分割头和检测头连接。

4.根据权利要求3所述的一种激光点云3D目标检测方法，其特征在于，所述语义分割分支的中间特征输出给所述检测分支以约束检测分支的检测工作。

5.根据权利要求4所述的一种激光点云3D目标检测方法，其特征在于，所述约束的具体过程为：语义分割头的中间特征F_seg经过Sigmoid激活后，与主干网络的输出F_rpn进行点乘获得F_det，将F_det输入到检测头进行3D目标框的分类与回归。

6.根据权利要求3所述的一种激光点云3D目标检测方法，其特征在于，所述主干网络的输入为经过步骤S3处理后的点云数据及点云数据对应的障碍物真值。

7.根据权利要求3所述的一种激光点云3D目标检测方法，其特征在于，所述语义分割头的监督信号为步骤S3获取的语义真值。