CN115909034A

CN115909034A - 基于场景密度感知的点云目标识别方法和装置、存储介质

Info

Publication number: CN115909034A
Application number: CN202211509809.8A
Authority: CN
Inventors: 李雪梅; 王思鸥; 王刚; 陈冲; 刘雪莲
Original assignee: Baicheng Normal University
Current assignee: Baicheng Normal University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-04

Abstract

本发明公开一种基于场景密度感知的点云目标识别方法和装置、存储介质，包括：获取目标点云数据；根据所述目标点云数据，基于场景密度感知网络进行目标检测。采用本发明的技术方案，解决在大扫描视场下目标识别高精度与实时性的问题。

Description

基于场景密度感知的点云目标识别方法和装置、存储介质

技术领域

本发明属于计算机视觉技术领域，尤其涉及提供一种基于场景密度感知的点云目标识别方法和装置、存储介质。

背景技术

点云是指由目标探测成像系统获取的用来表征成像目标表面三维几何结构等信息的海量点的集合，三维点云数据处理是三维视觉领域的重要环节。由于探测成像系统获取的环境场景复杂，难以将目标从复杂背景中有效分离出来，同时受到识别精度与实时性的约束，这对后续点云处理提出了更高的要求。因此，基于深度学习网络的点云目标识别方法研究成为三维视觉领域的研究重点之一。

目前，基于深度学习的激光雷达三维点云目标识别方法，点云目标识别精度在不断提升，但识别速度较慢，无法满足车载激光雷达目标识别实时性的需求。

发明内容

本发明要解决的技术问题是，提供一种基于场景密度感知的点云目标识别方法和装置、存储介质，解决在大扫描视场下目标识别高精度与实时性的问题，能够提升目标识别精度与识别速度。

为实现上述目的，本发明采用如下的技术方案：

基于场景密度感知的点云目标识别方法，包括以下步骤：

步骤S1、获取目标点云数据；

步骤S2、根据目标点云数据，基于场景密度感知网络进行目标检测。

作为优选，还包括：采用AP值和识别时间对目标检测结果进行评价。

作为优选，步骤S2包括：

将目标点云数据进行体素化处理，得到体素柱；

根据所述体素柱，利用语境柱特征网络得到(M,F)维特征，其中，M表示体素柱数的最大值，F表示64维特征长度；

根据(M,F)维特征，得到BEV柱特征图；

将目标点云数据的密度特征融入BEV特征图，得到BEV密度图；

在所述BEV密度图中添加注意力机制，得到BEV密度注意力特征图；

根据BEV密度注意力特征图和BEV柱特征图，得到消融的BEV特征图。

将消融的BEV特征图送入RPN网络后，得到共享的BEV特征图；

将所述共享的BEV特征图送至多头检测器进行对目标中心点、目标尺寸大小和目标朝向回归，以实现目标检测。

作为优选，根据所述(M,F)维特征，通过scatter算子转换回原始的体素柱坐标，构成所述BEV柱特征图。

作为优选，将目标点云数据的密度特征，按照BEV视角投影到二维网格中，统计生成所述BEV密度图。

本发明还提供一种基于场景密度感知的点云目标识别装置，包括：

获取模块，用于获取目标点云数据；

检测模块，用于根据目标点云数据，基于场景密度感知网络进行目标检测。

作为优选，还包括：评价模块，用于采用AP值和识别时间对目标检测结果进行评价。

本发明还提供一种存储介质，所述存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现基于场景密度感知的点云目标识别方法。

与现有的深度学习的点云目标识别相比，本发明基于场景密度感知网络的点云目标识别方法，提升了点云目标的检测精度与检测速度。

附图说明

图1为本发明实施例基于场景密度感知的点云目标识别方法的流程图；

图2为场景密度感知网络的示意图；

图3为语境柱特征网络示意图；

图4为注意力机制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，本发明实施例提供一种基于场景密度感知的点云目标识别方法，包括以下步骤：

步骤S1、获取KITTI数据集上的目标点云数据P＝{P∈R ^N×4}，所述目标点云数据为激光雷达点云数据；

步骤S2、根据目标点云数据，基于场景密度感知网络进行目标检测，场景密度感知网络如图2所示，具体包括：

步骤(21)、将目标点云数据P＝{P∈R^N×4}进行体素化处理，并在空间形成M＝X×Y个体素柱。具体为：

设待识别场景的空间尺寸为[(x_min,x_max),(y_min,y_max),(z_min,z_max)]，将xy平面均匀划分为等间距的网格，沿z轴拉长形成柱体。设每个柱体的长、宽分别为p_L和p_W，则待识别目标在xy平面投影被划分为：

X＝|x_max-x_min|/p_L

Y＝|y_max-y_min|/p_W

目标点云在空间形成M＝X×Y个体素柱。

步骤(22)、由步骤(21)得到的体素柱，设柱体中体素点数阈值为C＝3，形成体素柱V∈R^M×3×4。

步骤(23)、将步骤(22)柱中的每个点进行数据增强，由原来的4维增强到具有9维特征F，即

F＝[x,y,z,r,x_m,y_m,z_m,x_o,y_o]

其中，x,y,z分别表示点坐标，r表示反射强度，x_m,y_m,z_m分别表示该点相对柱中所有点的中心点的距离，x_o,y_o分别表示该点离柱中心点的偏移量。

步骤(24)、将步骤(21)得到的M个体素柱和步骤(23)得到的9维特征F，如图3所示，利用语境柱特征网络，学习其对应的语义编码，得到(M,64)维特征。

设一个体素柱内有三个体素，每个体素为V_i，将每个体素特征逐一输入给全连接层，并做归一化处理，以此提取到每个体素特征为f_i ¹，再使用最大池化，得到全局特征为f_c，将全局特征f_c与每一个体素柱特征相连接得到

再经过第二次的全连接层和归一化处理，再提取到体素柱特征为

再经过第二次最大池化处理，得到语境柱特征。对于一个体素柱的特征记为B∈R^M×64。

步骤(25)、将步骤(24)得到的(M,64)维特征，通过一个scatter算子转换回原始的体素柱坐标，构成一个尺寸为(X,Y,64)的BEV柱特征图Q∈R^X×Y×64。

步骤(26)、将步骤S1的目标点云数据的密度特征，按照BEV视角投影到二维网格中，统计生成BEV密度图E∈R^X×Y×1，其中，X表示x轴网格数，Y表示x轴网格数。将网格内点的数目作为点云密度，其为：

其中，D_ensity表示点云密度，N表示网格内点的数目。

步骤(27)、在步骤(26)得到的BEV密度图中，如图4所示，添加注意力机制，得到BEV密度注意力特征图U∈R^X×Y×K，其中，K代表注意力机制网输出的特征通道数。

将U∈R^X×Y×K特征分别经过最大值池化F_{max_p}和平均值池化F_{avg_p}后，将两者拼接组成特征图，再通过一个CNN层学习得到F_conv，生成一个2D空间注意力M_st图，最后通过sigmoid函数进行标准化得到最终注意力图。其中，F_{max_p}∈R^1×H×W，F_{avg_p}∈R^1×H×W，H、W分别表示图像的高度与宽度。

步骤(28)、将步骤(27)得到的BEV密度注意力特征U∈R^X×Y×K和(25)得到的BEV特征Q∈R^X×Y×64组合在一起，生成消融的BEV特征图T∈R^X×Y×(64+K)。

步骤(29)、将步骤(28)得到的消融的BEV特征图T∈R^X×Y×(64+K)送入RPN网络后，生成共享的BEV特征图J∈R^{X/2×Y/2×6(64+K)}。

步骤(210)、将步骤(29)得到的共享的BEV特征图J∈R^{X/2×Y/2×6(64+K)}，送至多头检测器。每个检测头内的结构是相同的，能够实现对目标中心点、目标尺寸大小和目标朝向的回归，并采用损失函数进行监督，损失函数为焦点损失函数和SmoothL1损失函数。

中心点回归的焦点损失的公式如下：

其中，N代表热图中目标的数目，c代表通道数，L和W表示图像长度和宽度，α和β调整每个点贡献的权重，p_i为预测热图中(i，j)位置的概率，g_ij为非标准化高斯增强的真实框热图。

步骤S3、输出目标检测的结果，并采用AP值和识别时间作为评价指标，当交并比为0.7时在KITTI数据集上3D目标检测AP值如表1所示；当交并比为0.7时在KITTI数据集上BEV目标检测AP值如表1所示。

表1

表2：

实施例2：

获取模块，用于获取目标点云数据；

检测模块，用于根据目标点云数据，基于场景密度感知网络进行目标检测；

评价模块，用于采用AP值和识别时间对目标检测结果进行评价。

实施例3：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，在任何熟悉本技术领域的技术人员在本发明所述的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于场景密度感知的点云目标识别方法，其特征在于，包括以下步骤：

步骤S1、获取目标点云数据；

2.如权利要求1所述的基于场景密度感知的点云目标识别方法，其特征在于，还包括：采用AP值和识别时间对目标检测结果进行评价。

3.如权利要求2所述的基于场景密度感知的点云目标识别方法，其特征在于，步骤S2包括：

将目标点云数据进行体素化处理，得到体素柱；

根据(M,F)维特征，得到BEV柱特征图；

将目标点云数据的密度特征融入BEV特征图，得到BEV密度图；

将消融的BEV特征图送入RPN网络后，得到共享的BEV特征图；

4.权利要求3所述的基于场景密度感知的点云目标识别方法，其特征在于，根据所述(M,F)维特征，通过scatter算子转换回原始的体素柱坐标，构成所述BEV柱特征图。

5.权利要求4所述的基于场景密度感知的点云目标识别方法，其特征在于，将目标点云数据的密度特征，按照BEV视角投影到二维网格中，统计生成所述BEV密度图。

6.基于场景密度感知的点云目标识别装置，其特征在于，包括：

获取模块，用于获取目标点云数据；

7.如权利要求6所述的基于场景密度感知的点云目标识别装置，其特征在于，还包括：评价模块，用于采用AP值和识别时间对目标检测结果进行评价。

8.一种存储介质，其特征在于，所述存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1至5任一项所述的基于场景密度感知的点云目标识别方法。