CN113095172A

CN113095172A - 一种基于深度学习的点云三维物体检测方法

Info

Publication number: CN113095172A
Application number: CN202110334132.8A
Authority: CN
Inventors: 雷建军; 于传波; 彭勃; 王梦园; 刘秉正
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-09
Anticipated expiration: 2041-03-29
Also published as: CN113095172B

Abstract

本发明公开了一种基于深度学习的点云三维物体检测方法，包括：通过分层体素编码模块提取点云场景中点稀疏、点密集区域中非空体素的特征表示；通过注意力模块融合组合的体素特征以有效的获得体素的特征表示点云场景；通过高度信息补充模块引入点云BEV图以补偿体素特征图高度信息；通过通道注意力模块提取掩模处理后的特征图中有用的信息以提高几何结构感知能力；构建一特征学习网络用于挖掘特征图中的高级语义特征，在输出端增加了一个体素分割任务来判断非空的体素是否属于目标物体，并基于多任务检测头，设计了一个总体的损失约束网络；将训练后的损失约束网络用于三维物体的检测任务。

Description

一种基于深度学习的点云三维物体检测方法

技术领域

本发明涉及三维物体检测领域，尤其涉及一种基于深度学习的点云三维物体检测方法。

背景技术

三维物体检测旨在定位和识别三维场景中的物体，在智能驾驶、虚拟现实、机器人等领域有着广泛的应用。点云是三维物体检测中的一种常见的数据形式，可以精确地描述真实场景中三维物体的周围环境。然而，点云具有稀疏、无序且不规则的特点。因此，如何有效地处理点云数据、实现精确地三维物体检测是计算机视觉领域中一个热门研究方向。

得益于计算机视觉领域的快速发展，近年来提出了许多基于点云的三维物体检测方法。基于点云鸟瞰图的检测方法能够借助二维物体检测器中的特征提取模块实现快速的物体检测，但未能很好地解决鸟瞰图中存在的点云数据几何信息丢失的情况。基于点的检测方法能有效的挖掘点云数据的几何结构信息，然而这类方法通过点云特征提取网络提取点云的点级特征表示，计算复杂度较高，难以达到实时检测的要求。

基于体素的检测方法在检测性能和检测速度上达到了较好的平衡，可以有效地提取点云数据的几何结构信息且实时地检测点云场景中的物体。Lang等人提出了一种柱体体素的检测方法，该方法将点云划分为柱体体素，并将学习到的离散体素的特征直接转成图像特征表示，实现了高效的三维物体检测。Liu等人提出了点级注意力、通道级注意力、体素级注意力组成的模块以提取柱体体素特征，从而增强物体的关键信息，提高体素特征的鲁棒性。

然而，上述检测方法没有考虑到点云的不均匀分布特点对体素特征提取的影响，不能同时有效地提取点稀疏和点密集区域体素的特征表示。此外，柱体体素的检测方法在高度轴上没有对点云划分，虽然能够较快地检测物体，但难以有效获得点云场景丰富的特征表示。

发明内容

为了进一步探索基于体素的三维物体检测，提取不均匀分布的点云场景丰富的特征表示，本发明提出了一种基于深度学习的点云三维物体检测方法，其利用分层体素编码模块有效提取体素的特征，并设计了高度信息补充模块增强体素特征图的高度信息，从而提高基于体素的三维物体检测方法的检测性能，详见下文描述：

一种基于深度学习的点云三维物体检测方法，所述方法包括：

通过分层体素编码模块提取点云场景中点稀疏、点密集区域中非空体素的特征表示；

通过注意力模块融合组合的体素特征以有效的获得体素的特征表示点云场景；

通过高度信息补充模块引入点云BEV图以补偿体素特征图高度信息；

通过通道注意力模块提取掩模处理后的特征图中有用信息以提高几何结构感知能力；

构建一特征学习网络用于挖掘特征图中的高级语义特征，在输出端增加了一个体素分割任务来判断非空的体素是否属于目标物体，并基于多任务检测头，设计了一个总体的损失约束网络；

将训练后的损失约束网络用于三维物体的检测任务。

所述分层体素编码模块为：

其中，[.]表示级联操作，

和

均为体素特征，ψ表示全连接层，

表示的是注意力模块和元素级最大池化的组合操作，F_k表示分层体素编码模块输出的体素特征。

其中，所述注意力模块为：

其中，φ表示通道级最大池化，mlp表示多层感知器，σ表示非线性激活，

表示元素级相乘操作，f表示

和

级联后的特征，Att为注意力模块函数。

所述高度信息补充模块为：

利用由卷积组成的卷积块分别提取体素特征图和点云BEV图的特征，以通道级联的方式融合特征，并经掩模处理：

其中，F_m为掩模处理后的特征图，

表示元素级相乘，τ表示卷积，M为掩模图，F_S为融合的特征图。

本发明提供的技术方案的有益效果是：

1、本发明充分挖掘了点云的几何结构信息，从不均匀分布的点云场景中有效地提取体素特征有利于挖掘点云数据的几何结构信息，有效地感知和检测三维物体，并达到了实时检测的目的；

2、考虑到点云分布的不均匀性，本发明提出分层体素编码模块，有效地提取了点稀疏、点密集区域中非空体素的特征表示；

3、为了增强体素级特征的高度信息，本发明设计了一种简单有效的高度信息补充模块，通过引入点云的BEV图(鸟瞰图)进行特征补充，并通过通道注意力模块有效地挖掘了点云场景的结构信息，从而提高三维物体的检测性能。

附图说明

图1为一种基于深度学习的点云三维物体检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于深度学习的点云三维物体检测方法，参见图1，该方法包括以下步骤：

一、设计分层体素编码模块

为了有效地提取点云场景中点稀疏、点密集区域中非空体素(本领域公知的技术术语，在此不做赘述)的特征表示，设计了分层体素编码模块。首先，将给定的点云场景P划分为两种尺度大小的柱体体素

和

其中，v表示体素，i和j表示尺度索引，k和t表示第k和第t个体素，体素

和体素

的长、宽、高分别表示为w_i、l_i、h_i和w_j、l_j、h_j。尺度i体素的宽和长的大小为尺度j体素的宽和长的两倍，两种尺度体素的高度均等于点云场景的高度。然后，分别提取两种尺度体素的特征表示。

采用相同的特征提取器独立的提取两种尺度非空体素(non-empty voxel或nonempty voxel)的特征。特征提取器利用多层感知器提取非空体素内每个点的特征，以获得更高维度的点级特征，并采用非线性激活函数和最大池化得到非空体素特征的特征表示。

其中，

和

分别表示体素

和

内的点集，mlp表示多层感知器，σ表示非线性激活，Maxp表示元素级最大池化，N_i为尺度i体素中点的个数，N_j为尺度j体素中点的个数，c为点的特征维度。

和

为体素

和

的特征表示，C为体素特征的维度。

获得两种尺度体素的特征表示后，根据体素在点云空间中的位置关系，将对应

位置的尺度j体素特征

进行组合。组合后的体素特征表示为

具有和

相同的物理空间。

其中，由于尺度i的体素长、宽是尺度j的体素长、宽的两倍。所以1个尺度i体素可以由4个尺度j体素表示。

本发明实施例设计了一个注意力模块融合组合的体素特征

和体素特征

以有效的获得体素的特征表示点云场景，分层体素编码模块的公式如下：

其中，[.]表示级联操作，旨在以通道连接的方式融合

和

的特征。ψ表示全连接层，用来提取组合的体素特征以获得与

相同的感受野范围。

表示的是注意力模块和元素级最大池化的组合操作。F_k表示分层体素编码模块输出的体素特征。

注意力模块Att公式如下：

表示元素级相乘操作，f表示

和

级联后的特征。

二、设计高度信息补充模块

获得点云的体素特征表示后，根据体素划分时相应的索引，将离散体素的特征F_k分散回相应的点云空间位置，以得到点云的体素特征图表示。为了补充F_v损失的高度信息，设计了高度信息补充模块，以更好地感知三维场景中的物体。

首先，采用基于点云鸟瞰图检测方法中映射点云的相同操作以得到点云的BEV图。点云的BEV图很好地保留了点云的高度信息，有效从而增强柱体体素的特征图结构特征。然后，利用由4个3×3大小的卷积组成的卷积块分别提取体素特征图和点云BEV图的特征F_v和F_b。以通道级联的方式融合F_v和F_b，融合的特征图表示为F_S。考虑到点云的稀疏性，F_S经过掩模处理：

其中，F_m为掩模处理后的特征图，

表示元素级相乘，τ表示一个步长为2的3×3卷积，M为掩模图。掩模图根据体素是否为空得到。

为了充分提取F_m中有用的信息以提高其几何结构感知能力，设计了一个通道注意力模块。结构信息增强后的特征图

的提取过程表示如下：

其中，C_a表示通道注意力模块，注意力计算公式为：

C_a(.)＝σ[mlp(Maxp(.))+mlp(Avgp(.))] (7)

其中，Maxp和Avgp分别表示元素级最大池化和平均池化，mlp为多层感知器，非线性激活函数σ被用来计算特征图的通道注意力值。通过通道注意力，有效地挖掘了融合特征图中的有效信息，增强了结构信息。

三、构建高级语义特征学习网络

为了进一步挖掘特征图

中的高级语义特征，构建了一个特征学习网络。该网络包含两个卷积块，每个卷积块由6个3×3卷积组成，且第一个卷积的步长设置为2(步长的数值可以根据实际应用中的需要设定，本发明实施例对此不做赘述)，以降低特征图的分辨率，从而获得更大感受野范围的特征。高级语义特征学习网络输入为

自底向上学习不同分辨率的特征，然后自顶向下逐步融合各分辨率的特征图，特征提取过程如公式所示：

其中，F为网络学到的高级语义特征，

和

为两个卷积块输出的特征图，D表示反卷积操作，ρ是一个1×1卷积。通过高级语义特征学习网络进一步提取语义信息，有利于更好地感知点云场景中的三维物体。

四、设计多任务检测头

三维检测任务的目的是输出带朝向角的三维框，以及三维框对应的物体类别。为了更好地学习点云空间的特征表示，本发明实施例在网络的输出端增加了一个体素分割任务(本领域技术人员所公知)来判断非空的体素是否属于目标物体，从而使学到的体素特征具有判别性。

基于多任务检测头，设计了一个总体的损失约束网络，公式如下：

其中，

为正样本的个数，

为前景非空体素个数，β₀、β₁、β₂、β₃的权重分别设置为1、2、0.2、1，L_c为分类损失，L_l为回归损失，L_d为方向损失，L_s为体素分割损失。

表示正样本(也就是positive anchor)的个数。同理

表示前景非空体素的个数，因此p、a、v和f没有单独的含义。

五、训练检测网络

本发明提出的基于深度学习的点云三维物体检测方法包括分层体素编码模块、高度信息补充模块、高级语义特征学习网络和多任务检测头。网络输入点云数据，通过约束多任务损失端到端的训练整体网络，直至收敛。

六、三维物体检测

检测网络训练完成后即可用于三维物体的检测任务。检测时，首先输入传感器获得的点云，通过提出的网络进行处理，网络输出三维检测框以及相应的物体得分。然后，利用非极大值抑制(Non-Maximum Suppression,NMS)过滤掉冗余的三维检测框，保留的三维检测框即为点云中检测到的三维物体。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。