CN116797907A

CN116797907A - 基于注意力机制和多尺度检测的点云目标检测方法

Info

Publication number: CN116797907A
Application number: CN202310662931.7A
Authority: CN
Inventors: 薛磊; 胡亚山; 翟晓萌; 仓敏; 程曦; 王静怡; 吴霜; 诸德律; 王球; 武永宝; 贾玉斌; 刘剑
Original assignee: Southeast University; Economic and Technological Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Southeast University; Economic and Technological Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-22

Abstract

本发明公开了一种基于注意力机制和多尺度检测的点云目标检测方法。本方法在点云目标检测任务中，将点云数据映射到二维网格中编码成体素柱体的形式，再通过基于点网的卷积网络和注意力机制聚合体素柱体的特征，接着将其编码成伪稀疏图的形式，而后基于特征金字塔网络和注意力机制获得不同尺度的伪稀疏图特征图，最后在不同尺度的特征图中定位目标和辨别目标的类别。本发明通过注意力机制方法增强了网络提取点云空间语义信息的能力，从而增强了网络的检测性能。本发明基于特征金字塔网络在不同尺度的特征图上进行检测，增强了网络识别不同尺度目标的能力。

Description

基于注意力机制和多尺度检测的点云目标检测方法

技术领域

本发明涉及基于深度学习的点云研究领域，尤其涉及一种基于注意力机制和多尺度检测的点云目标检测方法。

背景技术

无人机激光雷达在环境检测中扮演着重要角色。它们能够快速、高效地扫描大面积地形，获取精确的三维点云数据，帮助人类了解地形的变化和环境的变化。相比于其他传感器，激光雷达不受光照条件限制，在恶劣天气环境中也能正常工作，采集环境信息。点云数据由激光雷达采集获得，可以提供深度信息和物体的结构信息，能辅助计算机更好地理解环境。因此基于点云数据的三维目标检测方法成为了环境检测任务中重要的方法。将不规则的点云数据编码成规则的体素数据，从而应用深度学习方法，是现下基于深度学习的点云方法常用的做法。然而基于体素的点云目标检测方法，存在着将点云数据离散成三维体素引起的信息损失和受限于体素设置等问题。体素设置过小，会导致算法开销增加，影响检测速度，体素设置过大，会引起细节信息损失，影响检测精度。

发明内容

发明目的：针对现有技术的不足，本发明提出基于注意力机制和多尺度检测的点云目标检测方法，注意力机制方法能提升网络聚合点云空间语义信息的能力，多尺度检测方法可以提高网络对于不同尺度目标的检测能力，从而提高网络的检测性能。

技术方案：为了实现上述发明目的，本发明提出基于动态角色目标分配的多智能体追逐方法，该方法具体包括以下步骤：

(1)构建基于注意力机制和点柱网络的体素柱体编码层，其中输入是点云数据，输出是编码后的伪稀疏图特征；

(2)构建基于注意力机制和特征金字塔网络的中间卷积层，其中输入是伪稀疏图特征，输出是带有注意力权重的多尺度的特征图；

(3)根据步骤(2)输出的多尺度特征构建多尺度检测层，其中输入是多尺度的特征，输出是不同尺度的特征图中的检测结果包括目标的类别和边界框信息；

(4)定义损失函数和优化器，为(3)中的检测结果分配标签值，从而应用损失函数和优化器训练由步骤(1)、(2)、(3)构建的检测网络，更新检测网络的参数；

(5)根据非极大值抑制方法输出最终的检测结果。

进一步地，该方法还包括首先对点云数据进行预处理的步骤，所述点云数据预处理包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。

进一步地，步骤(1)中，构建基于注意力机制和点柱网络的体素柱体编码层的具体形式为：

首先将N×4的点云数据映射到XY平面中的网格中，计算出非空网格中的中心点，从而将点云数据编码成N₁×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系，其中N₁为非空体素柱体的个数，P为体素柱体中点的数目，C为点集的特征通道；接着用基于点网的点集特征提取层，提取每个非空体素的特征，输出N₁×C₁；而后基于之前记录的哈希表将非空体素特征编码成X×Y×C₁的伪稀疏图特征；最后用基于高效通道注意力网络和条形池化网络的通道空间注意力机制方法对伪稀疏图特征进行增强，其中通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成，空间注意力模块采用了条形池化的方法给予特征图权重。

进一步地，步骤(2)中构建基于注意力机制和特征金字塔网络的中间卷积层的具体方法为：

首先分别通过卷积层和反卷积层对步骤(1)中得到的特征图进行下采样和上采样操作，再结合残差连接，生成不同尺度的特征图；而后将特征图输入到步骤(2)中提到的注意力机制模块中生成带有权重的特征图，从而使得网络聚合特征语义信息的能力增强，其中卷积层由卷积模块、批处理归一化层和激活函数层构成，反卷积层由反卷积模块、批处理归一化层和激活函数层构成。

进一步地，步骤(3)中构建多尺度检测层的具体方法为：

对于不同尺度的特征图，检测层的权值是共享的；检测层采用的是基于锚框的检测方法，因此需要在不同尺度的特征图中生成锚框；检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成；分类多层感知机层输入是C×H×W的特征图，输出是C₁*H*W的类别分数，其中C₁是生成的锚框数量与类别数目的乘积；回归多层感知机层输入是C×H×W的特征图,输出是C₂×H×W的边界框参数，其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角，C₂是边界框参数个数与锚框数目的乘积。

进一步地，步骤(4)中为检测结果分配标签值的具体方法为：

将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配；实验中采用的是KITTI数据集，它的场景中包括汽车、行人和骑行者三类目标；汽车检测的正阈值和负阈值分别被设置为0.6和0.45，行人和骑行者的正阈值和负阈值被设置为0.5和0.35；

步骤(4)中损失函数被设定为：

其中N_pos为锚框被标记为正类样本的数目，超参数β_loc＝2，β_cls＝1，β_dir＝0.2；

L_cls＝-α_a(1-p^a)^γlogp^a

其中p^a是锚框对应的物体类别概率，超参数α＝0.25，γ＝2；

步骤(4)中优化器采用的是Adam优化器，学习率为0.001；

步骤(4)中训练由步骤(1)、(2)、(3)、构建的检测网络的方法为：

先通过损失函数计算检测结果与其分配的边界框的差值，再通过梯度反馈和优化器更新检测网络的参数，总共训练80个轮次。

本发明还提供一种基于注意力机制和多尺度检测的点云目标检测装置，该装置包括：存储器，用于存储计算机可读指令；还包括，与所述存储器耦合的处理器，用于执行所述存储器中的计算机可读指令从而执行如上述的方法。

本发明另外提供一种计算机可读存储介质，当指令在计算机上运行时，使得所述计算机执行上述的方法。

与现有技术相比，本发明的有益效果在于：

1、本发明在体素特征编码层和中间卷积层都引入了通道空间注意力机制，使得网络更关注于重要的特征和区域，增强了网络提取点云空间语义信息的能力和检测性能。

2、本发明引入了多尺度检测方法，提高了对于不同尺度目标的检测能力。

附图说明

图1是基于注意力机制和多尺度检测的点云目标检测方法的整体方案图；

图2是基于高效通道注意力网络和条形池化网络的注意力模块图；

图3是基于高效通道注意力网络的通道注意力模块图；

图4是基于条形池化网络的空间注意力模块图；

图5是中间卷积层；

图6是点云检测方法的检测精度对比；

图7是点云目标检测方法在KITTI数据集中等难度下的检测效果对比。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

基于注意力机制和多目标检测的整体方案图如图1所示，先对点云数据进行预处理，然后通过体素柱体特征编码层，将点云数据编码成二维伪稀疏图，再通过中间卷积层将伪稀疏图特征处理成不同尺度的特征图，而后在不同尺度的特征图中生成锚框并通过检测模块输出检测结果，接着通过交并比将预测的检测结果与标签值匹配，通过损失函数和优化器对神经网络进行梯度更新，最后用训练好的检测网络预测检测结果并通过非极大值抑制方法输出最终的检测结果。

首先给出网络结构图中模块的定义，如表1所示：

表1

基于注意力机制和多尺度检测的点云目标检测方法，具体包括以下步骤：

(1)点云数据预处理，包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。

(2)构建基于注意力机制和点柱网络的体素柱体编码层，其中输入是点云数据，输出是编码后的伪稀疏图特征；

首先将N×4的点云数据映射到XY平面中的网格中，计算出非空网格中的中心点(x_c,y_c,z_c)，从而将点云数据编码成N₁×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系。

其中N₁为非空体素柱体的个数，P为体素柱体中点的数目，C由(x,y,z,r,x_c,y_c,z_c,x-x_c,y-y_c)构成。

接着用基于点网的点集特征提取层，提取每个非空体素的特征，输出N₁×C₁。

而后基于之前记录的哈希表将非空体素特征编码成X×Y×C₁的伪稀疏图特征。

最后用基于高效通道注意力网络和SPNet的通道空间注意力机制方法对伪稀疏图特征进行增强。其中通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成，结构如图3，空间注意力模块采用了条形池化的方法给予特征图权重，结构如图4。注意力模块总体结构如图2，将通道注意力图和空间注意力图通过残差连接拼接到一起。

(3)构建基于注意力机制和特征金字塔网络的中间卷积层：

中间卷积层由上采样层、下采样层和注意力机制模块组成，其结构如图5。

上采样层由反卷积层、批处理归一化层和激活函数层构成，下采样层由卷积层、批处理归一化层和激活函数层构成。注意力机制模块同(2)。中间卷积层首先分别通过卷积层和反卷积层对步骤(2)中得到的特征图进行下采样和上采样操作，再结合残差连接，生成不同尺度的特征图，最后将特征图输入到步骤(3)中提到的注意力机制模块中生成带有权重的特征图，从而使得网络聚合特征语义信息的能力增强。

(4)构建多尺度检测层：

对于不同尺度的特征图，检测层的权值是共享的。检测层采用的是基于锚框的检测方法，因此需要在不同尺度的特征图中生成锚框。检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成。分类多层感知机层输入是C×H×W的特征图，输出是C₁*H*W的类别分数，其中C₁是生成的锚框数量与类别数目的乘积。回归多层感知机层输入是C×H×W的特征图,输出是C₂×H×W的边界框参数，其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角，C₂是边界框参数个数与锚框数目的乘积。

(5)步骤(5)中为检测结果分配标签值的具体方法为：

将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配。实验中采用的是KITTI数据集，它的场景中包括汽车、行人和骑行者三类目标。汽车检测的正阈值和负阈值分别被设置为0.6和0.45，行人和骑行者的正阈值和负阈值被设置为0.5和0.35。

步骤(5)中损失函数被设定为：

其中N_pos为锚框被标记为正类样本的数目，超参数β_loc＝2，β_cls＝1，β_dir＝0.2。

L_cls＝-α_a(1-p^a)^γlogp^a

其中p^a是锚框对应的物体类别概率，超参数α＝0.25，γ＝2。

优化器采用的是亚当优化器，也称为Adam优化器，学习率为0.001。

步骤(5)中训练由(2)(3)(4)构建的检测网络的方法为：

先通过损失函数计算检测结果与其分配的边界框的差值，再通过梯度反馈和优化器更新检测网络的参数。

(6)通过非极大值抑制方法筛选网络的预测结果，输出最终的检测结果。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。硬件包括存储器，用于存储计算机可读指令；还包括，与所述存储器耦合的处理器，用于执行所述存储器中的计算机可读指令从而执行如上述的方法。软件包括计算机可读存储介质，当指令在计算机上运行时，使得所述计算机执行上述的方法。

验证效果

为了验证基于注意力机制和多尺度检测的点云目标检测方法的效果，本发明在KITTI数据集上做了验证。KITTI数据集是经典的室外目标检测数据集，是由卡尔斯鲁厄理工学院和丰田技术研究所联合提供的自动驾驶数据集，场景中目标包括行人、汽车和骑行车，提供了目标检测的衡量标准。

本方法通过对比经典点云目标检测方法在KITTI数据集上的检测精度与推理速度，验证本方法的有效性。

图6是不同点云目标检测方法在KITTI数据集中的检测精度，可以看出本方法比基于点的检测方法在行人检测上更有优势，比基于体素的检测方法在车辆和骑行者检测上更有优势。

图7是不同点云目标检测方法在KITTI数据集中的中等难度下的推理速度与检测精度，可以看出本方法实现了检测精度与推理速度的平衡。

本发明提出了基于注意力机制和多尺度检测的点云目标检测方法，通过注意力机制增强了网络提取点云语义信息的能力以及使得网络更关注与点云数据中更重要的特征和区域，从而增强了网络的检测性能，通过多尺度检测方法增强了网络检测不同尺度目标。

以上所述仅为本发明的实施例而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.基于注意力机制和多尺度检测的点云目标检测方法，其特征在于，该方法包括以下步骤：

(2)构建基于注意力机制和特征金字塔网络的中间卷积层，其中输入是伪稀疏图特征，输出是带有注意力权重的不同尺度的特征图；

(3)根据步骤(2)输出的多尺度特征图，构建多尺度检测层，其中输入是不同尺度的特征，输出是不同尺度的特征图中的检测结果，包括目标的类别和边界框信息；

(4)定义损失函数和优化器，为步骤(3)中的检测结果分配标签值，从而应用所述损失函数和优化器训练由步骤(1)、(2)、(3)构建的检测网络，更新检测网络的参数；

(5)根据非极大值抑制方法输出最终的检测结果。

2.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法，其特征在于：该方法还包括首先对点云数据进行预处理的步骤，所述点云数据预处理包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。

3.如权利要求1注意力机制和多尺度检测的点云目标检测方法，其特征在于：

步骤(1)中构建基于注意力机制和点柱网络的体素柱体编码层的具体形式为：

首先将N×4的点云数据映射到XY平面中的网格中，计算出非空网格中的中心点，从而将点云数据编码成N₁×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系；其中N₁为非空体素柱体的个数，P为体素柱体中点的数目，C为点集的特征通道；

接着用基于点网的点集特征提取层，提取每个非空体素的特征，输出N₁×C₁；

而后基于之前记录的哈希表将非空体素特征编码成X×Y×C₁的伪稀疏图特征；

最后用基于高效通道注意力网络和条形池化网络的通道空间注意力机制方法对伪稀疏图特征进行增强，其中，通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成，空间注意力模块采用了条形池化的方法给予特征图权重。

4.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法，其特征在于：

步骤(2)中构建基于注意力机制和特征金字塔网络的中间卷积层的具体方法为：

首先分别通过卷积层和反卷积层对步骤(1)中得到的特征图进行下采样和上采样操作，再结合残差连接，生成不同尺度的特征图，最后将特征图输入到步骤(2)中提到的注意力机制模块中生成带有权重的特征图，从而使得网络聚合特征语义信息的能力增强。

5.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法，其特征在于：

步骤(3)中构建多尺度检测层的具体方法为：

对于不同尺度的特征图，检测层的权值是共享的；

检测层采用的是基于锚框的检测方法，因此需要在不同尺度的特征图中生成锚框；

检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成；

分类多层感知机层输入是C×H×W的特征图，输出是C₁*H*W的类别分数，其中C₁是生成的锚框数量与类别数目的乘积；

回归多层感知机层输入是C×H×W的特征图,输出是C₂×H×W的边界框参数，其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角，C₂是边界框参数的个数与锚框数目的乘积。

6.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法，其特征在于：

步骤(4)中为检测结果分配标签值的具体方法为：

将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配；

实验中采用的是KITTI数据集，它的场景中包括汽车、行人和骑行者三类目标；

步骤(4)中损失函数被设定为：

其中N_pos为锚框被标记为正类样本的数目，超参数β_loc＝2，β_cls＝1，β_dir＝0.2。；

L_cls＝-α_a(1-p^a)^γlogp^a

其中p^a是锚框对应的物体类别概率，超参数α＝0.25，γ＝2。；

步骤(4)中优化器采用的是亚当优化器；

步骤(4)中训练由步骤(1)、(2)、(3)构建的检测网络的方法为：

7.一种基于注意力机制和多尺度检测的点云目标检测装置，该装置包括：存储器，用于存储计算机可读指令；还包括，与所述存储器耦合的处理器，用于执行所述存储器中的计算机可读指令从而执行如权利要求1至6中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，当指令在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述的方法。