CN112052860B

CN112052860B - 一种三维目标检测方法及系统

Info

Publication number: CN112052860B
Application number: CN202010954115.XA
Authority: CN
Inventors: 赵楠翔; 胡以华; 李敏乐; 钱其姝; 董骁; 骆盛; 方佳节; 雷武虎; 魏硕
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2023-12-01
Anticipated expiration: 2040-09-11
Also published as: CN112052860A

Abstract

本发明公开了一种三维目标检测方法及系统，属于目标检测技术领域，包括：获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；利用三维主干网络对体素进行特征提取，得到体素特征图；根据原始图像和体素特征图，得到浅融合特征图；根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框。本发明基于注意力机制的激光雷达点云和图像多模态融合进行三维目标检测，提高目标检测的准确率。

Description

一种三维目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，特别涉及一种三维目标检测方法及系统。

背景技术

在目标自动检测领域，已有方法大多采用单一光学传感器采集数据来进行，常见的有利用带有相机/摄像头等获取图像数据完成检测，这部分的研究由来已久，随着深度学习的快速发展，基于深度神经网络的方法取得了检测精度和实时性的双重飞跃，已经在多个领域获得重要应用。然而在机器人、无人驾驶等多种实际应用场景中，更关心的是物体的三维位置信息，因此需要发展三维目标检测方法。

为此，研究人员利用激光雷达采集点云数据，获得目标精确三维信息，激光雷达具有不受外界光照影响以及精度高的优点，但是分辨率远远低于光学传感器获得的图像。将激光雷达与光学传感器融合起来进行三维目标检测，能够达到优势互补的效果，因此受到研究人员的关注。

在三维目标检测方面，目前准确率高的检测方法都是基于两阶段的，例如VoxelNet、MV3D等，VoxelNet直接对点云进行处理，通过网格化，将各区域内的点云利用级联的VFE层进行特征提取，然后采用RPN构造两阶段网络进行目标检测；但是其没有使用图像，因此没有充分利用信息，检测准确率不够高。MV3D是最早提出用统一的网络架构将图像和点云进行融合的，其思路是通过提取某些特征将点云表达成二维的数据形式，仍然保留一定的三维信息，从而利用统一的网络结构将点云和图片进行融合处理；但其虽然对点云和图像进行了融合，但是将点云处理成二维鸟瞰图，损失了较多的空间信息，因此检测效果也有待提升。

发明内容

本发明的目的在于克服现有技术存在的缺陷，以提高三维目标检测的准确性。

为实现以上目的，本发明采用一种三维目标检测方法，包括如下步骤：

获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；

利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；

利用三维主干网络对体素进行特征提取，得到体素特征图；

根据原始图像和体素特征图，得到浅融合特征图；

根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框。

进一步地，所述利用三维主干网络对体素进行特征提取，得到体素特征图，包括：

利用由三维卷积核构造的三维主干网络学习所述体素内部特征和局部特征，并逐层降低特征图的尺寸在高度维上为1，得到三维特征图；

将三维特征图的高度维去掉，将三维特征图转换为二维的体素特征图。

进一步地，所述根据原始图像和体素特征图，得到浅融合特征图，包括：

利用VGG网络对所述原始图像进行特征提取，得到图像特征图；

将图像特征图与所述体素特征图按位进行拼接，得到所述浅融合特征图。

进一步地，所述根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框，包括：

将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框；

利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框。

进一步地，所述将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框，包括：

利用特征金字塔网络学习所述浅融合特征图的底层几何特征和高层语义特征；

对高层语义特征进行反卷积操作，使得高层语义特征与底层几何特征的尺寸相同；

将高层语义特征和底层几何特征分别输入到两个全连接网络中进行包围框的分类和回归，得到所述初始目标包围框。

进一步地，所述利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框，包括：

将所述初始目标包围框投影到鸟瞰图中，以对所述浅融合特征图进行切割，得到切割特征；

利用切割特征与初始目标包围框中点云对应的点云高维局部特征进行拼接，得到拼接后的特征；

利用MLP将切割后的浅融合特征图进行降维后输入到激活函数，得到注意力权值；

将拼接后的特征与注意力权值相乘，得到高维复合特征；

利用两层MLP对高维复合特征进行处理，得到所述待检测目标的包围框。

另一方面，采用一种三维目标检测系统，其特征在于，包括：获取模块、第一提取模块、第二提取模块、处理模块和目标检测模块；

获取模块用于获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；

第一提取模块用于利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；

第二提取模块用于利用三维主干网络对体素进行特征提取，得到体素特征图；

处理模块用于根据原始图像和体素特征图，得到浅融合特征图；

目标检测模块用于根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框。

进一步地，所述第二提取模块包括三维特征图提取单元和转换单元；

三维特征图提取单元用于利用由三维卷积核构造的三维主干网络学习所述体素内部特征和局部特征，并逐层降低特征图的尺寸在高度维上为1，得到三维特征图；

转换单元用于将三维特征图的高度维去掉，将三维特征图转换为二维的体素特征图。

进一步地，所述目标检测模块包括初始目标包围框估计单元和目标检测单元；

初始目标包围框估计单元用于将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框；

目标检测单元用于利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框。

进一步地，所述目标检测单元包括切割子单元、拼接子单元、注意力权值计算子单元、乘积子单元和目标检测子单元；

切割子单元用于将所述初始目标包围框投影到鸟瞰图中，以对所述浅融合特征图进行切割，得到切割特征；

拼接子单元用于利用切割特征与初始目标包围框中点云对应的点云高维局部特征进行拼接，得到拼接后的特征；

注意力权值计算子单元用于利用MLP将切割后的浅融合特征图进行降维后输入到激活函数，得到注意力权值；

乘积子单元用于将拼接后的特征与注意力权值相乘，得到高维复合特征；

目标检测子单元利用两层MLP对高维复合特征进行处理，得到所述待检测目标的包围框。

与现有技术相比，本发明存在以下技术效果：本发明通过将原始点云转换成体素形态，并利用三维骨干网网络对体素化的点云进行处理，得到二维的体素特征图，以能够方便的与原始图像的特征图进行融合；同时利用带有注意力机制的精细回归网络，提取丰富有效的目标特征，从而提高了目标检测的准确率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种三维目标检测方法的流程示意图；

图2是三维目标检测原理框图；

图3是本实施例所使用的目标检测网络结构图；

图4是一种三维目标检测系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1至图3所示，本实施例公开了一种三维目标检测方法，包括如下步骤S1至S5：

S1、获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；

需要说明的是，本实施例中所述的原始点云数据是利用激光雷达获取的，所述的原始图像是利用摄像机拍摄得到。原始点云是由无序点云坐标信息按行排列构成的数据，体素形态是按照固定网格对点云进行划分，对每个网格内用有和无进行标记的一种数据形态。转换成体素形态可以很方便地提取点云的邻域特征，同时便于经过三维主干网处理成二维特征图。

需要说明的是，网格的具体尺寸会影响分辨率和运算复杂度，因此要根据计算机性能来确定，本实施例不做具体限定。

需要说明的是，本实施例中将原始点云数据转换成体素形态可采用现有技术实现，如原始空间的x,y,z三个轴分别长[10，10，10]，点云散乱地分布其中。按照0.1米的单位进行划分，则可以得到100*100*100个小的长方体。对于每个小长方体，如果有点云则标记为1，反之标记为0。最后得到的100*100*100的数据就是体素。

S2、利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；

需要说明的是，本实施例所采用的多层感知机是深度学习中的一种技术，能够在不改变数据尺寸的基础上，对维度进行改变。例如一张彩色图片的尺寸为100*100，包含RGB三个维度，可以用多层感知机把它升高到20个维度，同时保持尺寸不变。

S3、利用三维主干网络对体素进行特征提取，得到体素特征图；

S4、根据原始图像和体素特征图，得到浅融合特征图；

S5、根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框。

需要说明的是，本实施例通过利用基于注意力机制的激光雷达点云和图像多模态融合三维目标检测，能够提取丰富有效的目标特征，从而提高目标检测的准确率。

进一步地，上述步骤S3：利用三维主干网络对体素进行特征提取，得到体素特征图，包括如下细分步骤S31至S32：

S31、利用由三维卷积核构造的三维主干网络学习所述体素内部特征和局部特征，并逐层降低特征图的尺寸在高度维上为1，得到三维特征图；

需要说明的是，本实施例利用三维卷积核构造6层的神经网络，学习体素内部特征和局部特征，通过逐层处理，降低特征图的尺寸，并在最后一层将Z轴上的维度降低到1，获得三维特征图。

需要说明的是，此处的维度指的是数据的长宽高，并未包括通道数。每一个卷积层的具体步长、卷积核数目应该具体设定，本发明不做具体限定。

S32、将三维特征图的高度维去掉，将三维特征图转换为二维的体素特征图。

需要说明的是，由于三维特征图在高度上维度是1，因此通过数据维度调整和重新排列，把高度维去掉，将三维特征图转换成二维体素特征图。

进一步地，上述步骤S4：所述根据原始图像和体素特征图，得到浅融合特征图，包括如下细分步骤S41至S42：

S41、利用VGG网络对所述原始图像进行特征提取，得到图像特征图；

S42、将图像特征图与所述体素特征图按位进行拼接，得到所述浅融合特征图。

需要说明的是，图像特征图与体素特征图的尺寸和特征层数相同，通过将图像特征图与体素特征图拼接起来，为后面的深度融合做准备。

进一步地，上述步骤S5：所述根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框，包括如下细分步骤S51至S52：

S51、将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框；

S52、利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框。

具体地，上述步骤S51：将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框，包括如下细分步骤S511至S513：

S511、利用特征金字塔网络学习所述浅融合特征图的底层几何特征和高层语义特征；

S512、对高层语义特征进行反卷积操作，使得高层语义特征与底层几何特征的尺寸相同；

S513、将高层语义特征和底层几何特征分别输入到两个全连接网络中进行包围框的分类和回归，得到所述初始目标包围框。

具体地，上述步骤S52：利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框，具体包括如下细分步骤S521至S525：

S521、将所述初始目标包围框投影到鸟瞰图中，以对所述浅融合特征图进行切割，得到切割特征；

S522、利用切割特征与初始目标包围框中点云对应的点云高维局部特征进行拼接，得到拼接后的特征；

S523、利用多层感知机(Multilayer perceptron，MLP)将切割后的浅融合特征图进行降维后输入到激活函数，得到注意力权值；

S524、将拼接后的特征与注意力权值相乘，得到高维复合特征；

S525、利用两层MLP对高维复合特征进行处理，得到所述待检测目标的包围框。

本实施例通过利用精细回归网络对待检测目标的包围框进行提取，使得数据融合的更充分，检测结果更加准确。

如图4所示，本实施例公开了一种三维目标检测系统，包括获取模块10、第一提取模块20、第二提取模块30、处理模块40和目标检测模块50；

获取模块10用于获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；

第一提取模块20用于利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；

第二提取模块30用于利用三维主干网络对体素进行特征提取，得到体素特征图；

处理模块40用于根据原始图像和体素特征图，得到浅融合特征图；

目标检测模块50用于根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框。

其中，第二提取模块30包括三维特征图提取单元和转换单元；

其中，所述目标检测模块50包括初始目标包围框估计单元和目标检测单元；

其中，所述目标检测单元包括切割子单元、拼接子单元、注意力权值计算子单元、乘积子单元和目标检测子单元；

需要说明的是，本实施例所提供的一种三维目标检测系统对应与上述实施例中的一种三维目标检测方法，具有相同或相应的技术特征，以及实现相同的技术效果，该处不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维目标检测方法，其特征在于，包括：

S1：获取待检测目标的原始点云和原始图像，并将原始点云转换成体素形态；

S2：利用多层感知机对原始点云进行特征提取，得到点云高维局部特征；

S3：利用三维主干网络对体素进行特征提取，得到体素特征图；

S31：利用由三维卷积核构造的三维主干网络学习所述体素内部特征和局部特征，并逐层降低特征图的尺寸在高度维上为1，得到三维特征图；

S32：将三维特征图的高度维去掉，将三维特征图转换为二维的体素特征图；

S4：根据原始图像和体素特征图，得到浅融合特征图；

S41：利用VGG网络对所述原始图像进行特征提取，得到图像特征图；

S42：将图像特征图与所述体素特征图按位进行拼接，得到所述浅融合特征图；

S5：根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框；

S51：将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框；

S511：利用特征金字塔网络学习所述浅融合特征图的底层几何特征和高层语义特征；

S512：对高层语义特征进行反卷积操作，使得高层语义特征与底层几何特征的尺寸相同；

S513：将高层语义特征和底层几何特征分别输入到两个全连接网络中进行包围框的分类和回归，得到所述初始目标包围框；

S52：利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框；

S521：将所述初始目标包围框投影到鸟瞰图中，以对所述浅融合特征图进行切割，得到切割特征；

S522：利用切割特征与初始目标包围框中点云对应的点云高维局部特征进行拼接，得到拼接后的特征；

S523：利用MLP将切割后的浅融合特征图进行降维后输入到激活函数，得到注意力权值；

S524：将拼接后的特征与注意力权值相乘，得到高维复合特征；

S525：利用两层MLP对高维复合特征进行处理，得到所述待检测目标的包围框。

2.一种三维目标检测系统，其特征在于，包括：获取模块、第一提取模块、第二提取模块、处理模块和目标检测模块，第二提取模块包括三维特征图提取单元和转换单元，目标检测模块包括初始目标包围框估计单元和目标检测单元，目标检测单元包括切割子单元、拼接子单元、注意力权值计算子单元、乘积子单元和目标检测子单元；

处理模块用于根据原始图像和体素特征图，得到浅融合特征图，处理模块具体用于：利用VGG网络对所述原始图像进行特征提取，得到图像特征图，将图像特征图与所述体素特征图按位进行拼接，得到所述浅融合特征图；

目标检测模块用于根据浅融合特征图和点云高维局部特征，得到待检测目标的包围框；

转换单元用于将三维特征图的高度维去掉，将三维特征图转换为二维的体素特征图；

初始目标包围框估计单元用于将所述浅融合特征图输入至区域提议网络中进行处理，获得初始目标包围框，初始目标包围框估计单元具体用于：利用特征金字塔网络学习所述浅融合特征图的底层几何特征和高层语义特征；对高层语义特征进行反卷积操作，使得高层语义特征与底层几何特征的尺寸相同；将高层语义特征和底层几何特征分别输入到两个全连接网络中进行包围框的分类和回归，得到所述初始目标包围框；

目标检测单元用于利用初始目标包围框对所述点云高维局部特征和所述浅融合特征图进行裁剪，并输入到精细回归网络中，提取所述待检测目标的包围框；