CN116152622A

CN116152622A - 基于多尺度特征融合的点云目标检测方法、装置和设备

Info

Publication number: CN116152622A
Application number: CN202310213950.1A
Authority: CN
Inventors: 石志广; 张勇; 张焱; 沈奇; 张宇; 凌峰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-23

Abstract

本申请涉及一种基于多尺度特征融合的点云目标检测方法、装置和设备，包括：将原始点云数据对应的伪图像输入主干网络，并对最后一个选定特征提取层输出的特征图进行反卷积得到多组反卷积特征图；将选定特征提取层输出的特征图与对应的反卷积特征图进行级联融合得到多组初始融合特征图并进行划分，得到不包括第一个选定特征提取层对应的初始融合特征图的第一特征图集合以及不包括除去最后一个选定特征提取层对应的初始融合特征图的第二特征图集合，分别将第一和第二特征图集合中的初始融合特征图进行级联融合得到第一和第二融合特征图，将第一和第二融合特征图进行级联融合得到目标特征图进行检测。采用本方法能够提高点云目标检测的准确性。

Description

基于多尺度特征融合的点云目标检测方法、装置和设备

技术领域

本申请涉及点云目标检测领域，特别是涉及一种基于多尺度特征融合的点云目标检测方法、装置和设备。

背景技术

随着激光雷达扫描技术和人工智能技术的不断发展，点云目标检测近年来成为机器人和自动驾驶领域的研究热点，是机器人和自动驾驶环境下障碍物检测的关键技术之一。与图像数据相比，点云数据受光照和天气情况影响小，在三维空间中含有准确的深度信息，可以更好的表征目标的三维空间几何信息。因此，对基于点云数据的目标检测的研究具有重要意义。

点云目标检测是点云数据处理中最基本的任务之一。当前点云目标检测方法可以分为四大类：基于原始点的云目标检测方法、基于体素的点云目标检测方法、基于数据降维的点云目标检测方法、基于点云和体素混合的点云目标检测方法。基于原始点的点云目标检测方法通过在原始点云数据上进行数据处理、分析，从而判断目标类别并回归目标边界框。该类方法的主要优势在于充分利用了点云数据的所有信息，使得提取的点特征能够有效表征目标的三维空间结构，检测效果好，但内存占用高、计算量大。基于体素的点云目标检测方法通过将不规则的点云在三维空间上划分为大小一样的、规则的体素，通过对体素进行处理、提取体素特征进行目标检测。该类方法的三维空间特征表征能力有限，相对于基于原始点的方法来说计算成本小，但使用的三维卷积和稀疏卷积仍需耗费大量算力。基于数据降维的点云目标检测方法通过将点云转换为二维图像，然后利用现有成熟的图像目标检测算法进行检测。该类方法相对于上述三类方法计算成本小、推理速度快、易于部署，但由于数据降维过程中信息丢失导致检测效果相对较差。基于混合原始点云与体素的点云目标检测方法在一个网络中同时利用点云与体素进行目标检测，保留了点特征和体素特征，综合了基于原始点云和基于体素两种方法的优点。该类方法在充分保留三维空间结构的前提上减少计算成本，但其计算成本仍高于基于数据降维的方法。

近年来，随着高性能计算设备和深度学习技术的发展，基于深度学习的点云目标检测技术得到广泛研究。PointPillar是一种经典的基于数据降维的点云目标检测算法，由于其良好的实时性和可部署性在学术界和工业界被广泛研究和应用。但是，PointPillar存在三个局限性：第一，检测性能受柱体尺寸影响大，柱体尺寸越大，生成的伪图像分辨率越小，网络运行速度高，但检测效果差；柱体尺寸小，生成的伪图像分辨率越高，网络运行速度低，但检测效果好。第二，伪图像通过特征编码网络生成，生成的伪图像质量直接影响检测结果。第三，主干网络输出的三层特征图均为高层特征，高层特征直接馈入检测头，包含了大量的冗余信息和噪声。因此，PointPillar对于行人和骑行者等小目标的检测效果差。

发明内容

基于此，有必要针对上述技术问题，提供基于多尺度特征融合的点云目标检测方法、装置和设备，以便提高点云目标检测的准确性。

一种基于多尺度特征融合的点云目标检测方法，包括：

根据原始点云数据生成伪图像；

将伪图像输入主干网络后，对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图；其中反卷积的次数与选定特征提取层的层数相同；

将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图；

对多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合；

将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图；

将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图；

根据目标特征图进行点云目标检测。

一种基于多尺度特征融合的点云目标检测装置，包括：

伪图像生成模块，用于根据原始点云数据生成伪图像；

反卷积模块，用于将伪图像输入主干网络后，对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图；其中反卷积的次数与选定特征提取层的层数相同；

第一融合模块，用于将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图；

特征图划分模块，用于对多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合；

第二融合模块，用于将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图；

第三融合模块，用于将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图；

目标检测模块，用于根据目标特征图进行点云目标检测。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据原始点云数据生成伪图像；

根据目标特征图进行点云目标检测。

上述基于多尺度特征融合的点云目标检测方法、装置和设备，首先将原始点云数据对应的伪图像输入主干网络，并对最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图，其中反卷积的次数与选定特征提取层的层数相同；接着将各个选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图，可以知道，按照前述对应关系进行级联融合，相当于增强了特征图中的目标信息，使得得到的初始融合特征图中的目标特征更加明显；然后对多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合，将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图，将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图。这样划分后再进行融合使得第一融合特征图包含丰富空间信息，第二融合特征图包含丰富语义信息，目标特征图既含有丰富的空间信息又含有丰富的语义信息；最后根据目标特征图进行点云目标检测。综上，采用本方法能够提高点云目标检测的准确性。

附图说明

图1为一个实施例中基于多尺度特征融合的点云目标检测方法的流程示意图；

图2为一个实施例中卷积注意力模块的结构；

图3为一个实施例中卷积残差块的结构；

图4为一个实施例中主干网络的结构；

图5为一个实施例中基于多尺度特征融合的点云目标检测方法的网络结构和工作示意图；

图6为一个实施例中基于多尺度特征融合的点云目标检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于多尺度特征融合的点云目标检测方法，包括以下步骤：

步骤102，根据原始点云数据生成伪图像。

其中，伪图像是通过将原始点云数据柱状化后进行特征编码而得到的，将三维点云数据通过编码方式转换为二维伪图像，可以大大减少后续需要处理的数据量。

步骤104，将伪图像输入主干网络后，对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图。

其中反卷积的次数与选定特征提取层的层数相同。

考虑到最后一个特征提取层输出的特征图中包含最为丰富的高层语义信息，将其进行与选定特征提取层数相同次数的反卷积，对应得到多组反卷积特征图。

步骤106，将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图。

前述选定特征提取层的确定需满足一个原则：选定特征提取层输出的特征图尺寸与对应的反卷积特征图尺寸保持一致，以便进行后续的级联融合。

其中，特征图与反卷积特征图的对应关系为：特征图对应的选定特征提取层编号顺序与反卷积特征图对应的反卷积次序相反，即满足前述原则。例如，假设存在4个选定特征提取层，依次对应R_out1、R_out2、R_out3和R_out4这4组特征图，4次反卷积后依次得到T₁、T₂、T₃、T₄，于是将R_out1与T₄进行级联融合得到S₁，R_out2与T₃进行级联融合得到S₂，R_out3与T₂进行级联融合得到S₃，R_out4与T₁进行级联融合得到S₄，得到对应的4组初始融合特征图。

按照前述对应关系将各组反卷积特征图与对应的特征图进行级联融合，相当于增强了特征图中的目标信息，使得目标特征更加明显。

步骤108，对多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合。

步骤110，将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图。

以步骤106中4个选定特征提取层的情况为例说明步骤108中的特征图划分方式对级联融合的有益效果：S₂和S₃作为四组初始融合特征图中的公共部分，S₁为低层特征，包含丰富的空间信息，S₄为高层特征，包含丰富的语义信息；低层特征对小目标检测有利，高层特征对大目标检测有利。将S₁、S₂和S₃进行融合得到的特征图包含更多的空间信息，对小目标检测更加有利；将S₂、S₃和S₄进行融合得到的特征图包含更多的语义信息，对大目标检测更加有利。

步骤112，将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图。

将包含丰富空间信息的第一融合特征图与包含丰富语义信息的第二融合特征图进行级联融合，使得目标特征图中既含有丰富的空间信息又含有丰富的语义信息。

步骤114，根据目标特征图进行点云目标检测。

所述多尺度特征融合的点云目标检测方法中，首先将原始点云数据对应的伪图像输入主干网络，并对最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图，其中反卷积的次数与选定特征提取层的层数相同；接着将各个选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图，可以知道，按照前述对应关系进行级联融合，相当于增强了特征图中的目标信息，使得得到的初始融合特征图中的目标特征更加明显；然后对多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合，将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图，将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图。这样划分后再进行融合使得第一融合特征图包含丰富空间信息，第二融合特征图包含丰富语义信息，目标特征图既含有丰富的空间信息又含有丰富的语义信息；最后根据目标特征图进行点云目标检测。综上，采用本方法能够提高点云目标检测的准确性。

在一个实施例中，根据原始点云数据生成伪图像，包括：

获取原始点云数据，设置点云数据检测范围，将原始点云数据在点云数据检测范围内在X-Y平面上进行柱状化，得到柱状化点云，将柱状化点云输入预先构建的特征编码网络，得到伪图像。

在一个实施例中，将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图，包括：

将主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块，得到对应的多组注意力特征图，将各组注意力特征图分别与对应的反卷积特征图进行级联融合，得到多组初始融合特征图。

在一个实施例中，将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块，得到对应的多组注意力特征图，包括：

将主干网络中的选定特征提取层输出的特征图F∈R^C×H×W进行通道拆分，得到对应的第一通道特征图F₁∈R^(C/2)×H×W和第二通道特征图F₂∈R^(C/2)×H×W；

将第一通道特征图F₁∈R^(C/2)×H×W馈入平均池化层得到平均池化特征图F₁'∈R^(C ^/2)×1×1，将平均池化特征图F₁'∈R^(C/2)×1×1进行1×1卷积后输入sigmoid函数，输出平均池化特征图的第一权重值β，将第一通道特征图F₁∈R^(C/2)×H×W与第一权重值β相乘得到第一通道初始注意力图F₁″，将第一通道初始注意力图F₁″与第一通道特征图F₁∈R^(C/2)×H×W相加得到第一通道注意力图F₁ ^out：

F₁ ^out＝S(Conv(Avgpool(F₁)))×F₁+F₁

将第二通道特征图F₂∈R^(C/2)×H×W馈入最大池化层得到最大池化特征图F₂'∈R^(C ^/2)×1×1；将最大池化特征图F₂'∈R^(C/2)×1×1进行1×1卷积后输入sigmoid函数，输出最大池化特征图的第二权重值α，将第二通道特征图F₂∈R^(C/2)×H×W与第二权重值α相乘得到第二通道初始注意力图F₂″，将第二通道初始注意力图F₂″与第二通道特征图F₂∈R^(C/2)×H×W相加得到第二通道注意力图F₂ ^out：

F₂ ^out＝S(Conv(Maxpool(F₂)))×F₂+F₂

将第一通道注意力图F₁ ^out和第二通道注意力图F₂ ^out相加后进行1×1卷积，得到对应的多组注意力特征图：

其中，S(·)表示sigmoid函数，Conv(·)表示1×1卷积，Avgpool(·)表示平均池化，Maxpool(·)表示最大池化。

卷积神经网络每层都会生成一批含有丰富细节信息的多维特征图，但每个特征图中所表征的信息不一样，其重要性也不一样，某些特征对于目标的检测识别更重要。因此，为了能充分的利用网络中重要特征，抑制网络中对任务无关的冗余特征，设计了前述卷积注意力模块，其结构如图2所示。

在一个实施例中，主干网络中的特征提取网络为卷积残差块；通过各个卷积残差块进行特征提取的步骤包括：

获取当前卷积残差块输入的特征图，将特征图依次进行1个1×1卷积、1个步长为t的3×3卷积和1个1个1×1卷积得到第一分支特征图；将特征图经过1个3×3卷积得到第二分支特征图；将第一分支特征图和第二分支特征图进行级联融合后进行1个1×1卷积，得到当前卷积残差块输出的特征图。

本实施例将伪图像馈入由卷积残差块构建而成的主干网络，来提取特征图中的低层空间信息和高层语义信息。卷积残差块的结构如图3所示，包含两个3×3卷积和三个1×1卷积，每个卷积后包含一个BN层和一个ReLU层。对于一个残差块，假设输入特征图为F∈R^C ^×H×W，输出特征图为F_out。第一个分支由1个3×3卷积和2个1×1卷积构成，F首先经过1个1×1卷积将数据降维为F₁'∈R^(C/2)×H×W，F₁'经过1个步长为t的3×3卷积输出特征F₁″∈R^(C ^{/2)×(H/t)×(W/t)}，F₁″经过1个1×1卷积将数据增维为F₁″′∈R^{C×(H/t)×(W/t)}；第二个分支由1个3×3卷积构成，，输出特征F₂'∈R^{C×(H/t)×(W/t)}；将第一个分支的输出F₁″′和第二个分支的输出F₂'级联得到F₃∈R^{2C×(H/t)×(W/t)}，再将F₃经过一个1×1卷积输出F_out∈R^{C×(H/t)×(W/t)}。因此，本实施例的卷积残差块可以表示为：

F₁″＝f₁(f₃(f₁(F)))；

F₂'＝f₃(F)；

其中，f₁(·)、f₃(·)分别表示1×1卷积和3×3卷积。

在一个实施例中，主干网络包含17个卷积残差块，其结构如图4所示。以KITTI数据集为例，，选定特征提取层的层数为4，输入主干网络的特征图M∈R^496×432×64，M经过2个步长为1的卷积残差块，生成特征图R_out1∈R^496×432×64；R_out1经过1个步长2的卷积残差块和2个步长为1的卷积残差块，生成特征图R_out2∈R^248×216×64；R_out2经过1个步长2的卷积残差块和5个步长为1的卷积残差块，生成特征图R_out3∈R^{124×108×128}；R_out3经过1个步长2的卷积残差块和5个步长为1的卷积残差块，生成特征图R_out4∈R^62×54×256。R_out1、R_out2、R_out3和R_out4是主干网络输出的4个不同尺寸的特征图。

在一个实施例中，将第一融合特征图和第二融合特征图进行级联融合，得到目标特征图，包括：

将第一融合特征图输入第一卷积注意力模块，得到第一融合注意力特征图，将第二融合特征图输入第二卷积注意力模块，得到第二融合注意力特征图；对第一融合注意力特征图和第二融合注意力特征图进行上采样后再进行级联融合得到初始目标特征图；将初始目标特征图输入第三卷积注意力模块，得到目标特征图。

在一个实施例中，在根据目标特征图进行点云目标检测之前，包括：

获取预先构建的目标检测模型；

将训练点云数据集输入目标检测模型，计算并优化损失函数得到训练好的目标检测模型；模型损失函数包括边界框回归损失函数和分类损失函数。

边界框回归损失函数为：

L_θ＝SmoothL1(sin(Δθ-θ'))；

Δθ＝θ^gt-θ；

其中，L_loc为边界框回归损失函数，SmoothL1为SmoothL1损失函数，(x,y,z,w,l,h,θ)为点云目标的三维先验框，x、y、z为点云目标的三维先验中心坐标，w、l、h分别为三维先验框的宽、长、高，θ为点云目标的先验偏转角，(x^gt,y^gt,z^gt,w^gt,l^gt,h^gt,θ^gt)为点云目标的真实边界框，x^gt、y^gt、z^gt为点云目标的真实中心坐标，w^gt、l^gt、h^gt分别为三维先验框的宽、长、高，θ^gt为点云目标的真实偏转角，(x',y',z',w',l',h',θ')为点云目标的预测边界框，x'、y'、z'为点云目标的预测中心坐标，w'、l'、h'分别为预测边界框的宽、长、高，θ'为目标的预测偏转角；

分类损失函数为：

L_cls＝-α_a(1-p^a)^γlogp^a；

其中，L_cls为分类损失函数，α_a为分类损失函数的权重因子，用于控制样本间类别不平衡问题，p^a为锚框的类别概率，γ为可调节因子，用于区分困难样本；

模型损失函数为：

其中，L为模型损失函数，N_pos为正锚框的数量，β_loc为边界框回归损失函数的权重，β_cls为分类损失函数的权重，β_dir为偏转角损失函数的权重，L_dir为偏转角损失函数。

以主干网络包括4个特征提取层为例，提供基于多尺度特征融合的点云目标检测方法的网络结构和工作示意图如图5所示。检测头的输入为主干网络输出的4组不同尺寸的特征图R_out1、R_out2、R_out3和R_out4，输出为检测框位置、尺寸、偏转角和目标类别。首先，R_out4经过4个反卷积生成四组特征图，其尺寸分别为62×54×256、124×108×128、248×216×64、496×432×64，将R_out1、R_out2、R_out3和R_out4经过卷积注意力后分别与其进行级联融合生成四组特征图S₁、S₂、S₃和S₄，将S₁、S₂、S₃进行级联融合生成特征图I₁，将S₂、S₃、S₄进行级联融合生成特征图I₂。然后将I₁、I₂分别经过卷积注意力模块后进行级联融合生成最终的特征图I，将I馈入两个1×1卷积分别进行目标分类和边界框回归。

接下来以实验数据对本方案的效果进行证明：

实验设置：为了方便后续各个模块进行数据处理，首先需要对原始点云数据进行预处理。首先，对于KITTI数据集，设置点云数据检测范围为x∈[0,69.12m]、y∈[-39.68m,39.68m]、z∈[-3m,1m]；对于DAIR-V2X-I数据集，设置点云数据检测范围为x∈[0,99.84m]、y∈[-39.68m,39.68m]、z∈[-3m,1m]。本发明将原始点云数据P在设置的数据范围内在X-Y平面上进行规则的柱状化，得到柱状化点云P'，每个柱状体的尺寸设置为[0.16m,0.16m,4m]，整个三维空间包含的最大柱体数量为12000，每个柱体中的最多包含的点数为100。

评价指标：对于汽车类，本文设置当IoU≥0.7时检测正确；对于行人类和骑行者类，本文设置当IoU≥0.5时检测正确。同时，按照KITTI官方的标准，根据目标的大小、遮挡和截断情况将三类待检测目标的检测难度分为三种：简单、中等和困难。本申请在这三种不同检测难度下评估算法性能。

1、定量分析

对比PointPillar和Pillar-FFNet(本方案)，在三维目标检测上采用三种不同检测难度的AP、AOS和中等难度下的mAP、mAOS进行定量分析。表1为KITTI验证集上的三维检测AP值，表2为KITTI验证集上的三维检测AOS值，表3为在DAIR-V2X-I验证集上的三维检测AP值，表4为在DAIR-V2X-I验证集上的三维检测AOS值。

表1KITTI验证集上三维检测的mAP

表2KITTI验证集上三维检测的mAOS

表3DAIR-V2X-I验证集上三维检测mAP

表4DAIR-V2X-I验证集上三维检测mAOS

根据表1—表4中的实验结果可知：在本文的实验数据集上，Pillar-FFNet对于汽车、行人和骑行者的检测性能在三个不同检测难度下均高于PointPillar。在KITTI验证集上，汽车、行人和骑行者的检测平均精度在简单检测难度下分别提高了0.84％、1.81％、4.02％，在中等检测难度下分别提高了0.62％、2.13％、2.39％，在困难检测难度下分别提高了0.8％、1.16％、1.58％；在DAIR-V2X-I验证集上，汽车、行人和骑行者的检测平均精度在简单检测难度下分别提高了0.33％、2.09％、4.71％，在中等检测难度下分别提高了0.17％、0.17％、1.84％，在困难检测难度下分别提高了0.17％、0.17％、1.82％。

在点云数据中，行人类目标小，可以用来表征行人的点少，因此检测困难。与PointPillar相比，本申请提出的Pillar-FFNet可以在不影响汽车类别检测性能的前提下有效提高行人和骑行者这类小目标检测性能，主要原因有三点：首先，本申请设计的卷积注意力模块可以有效抑制网络中的冗余信息，增强网络中的有效信息；其次，高层特征有利于大目标检测，低层特征有利小目标检测，本申请设计的基于多尺度特征融合策略的检测头充分融合了各个不同尺度特征的语义信息和空间信息。最后，基于残差的主干网络可以有效提取高层细粒特征。综合以上三点，Pillar-FFNet可以在不影响汽车检测性能的前提下有效提升行人和骑行者的检测性能。

2、消融实验

本小节利用不同的卷积注意力以及不同的特征融合策略在KITTI数据集上进行实验验证。

首先进行五组消融实验来测试检测头的不同融合方式对检测性能的影响：实验一将原始PointPillar中的SSD结构的检测头替代Pillar-FFNet中的检测头；实验二将本文设计的检测头中的S₁和S₂融合、S₃和S₄融合；实验三将本文设计的检测头中的S₁、S₂、S₃、S₄直接融合；实验四将本文设计的检测头中的S₁、S₃、S₄融合，S₂、S₃、S₄融合；实验五将本文设计的检测头中替换为FPN结构。在KITTI验证集上进行实验验证，实验结果如表5和表6所示。

表5 Pillar-FFNet不同检测头在KITTI验证集上的mAP

方法	汽车	行人	骑行者	mAP
					本方法	78.17	51.44	65.55	65.05
实验一	77.30	52.83	61.69	63.94
					实验二	78.21	52.76	62.98	64.65
实验三	78.07	48.08	61.23	62.46
					实验四	74.13	46.86	52.34	57.78
实验五	77.31	49.19	62.83	63.24

表6 Pillar-FFNet不同检测头在KITTI验证集上的mAOS

方法	汽车	行人	骑行者	mAOS
					本方法	89.87	55.07	71.89	72.28
实验一	89.48	57.29	69.44	72.07
					实验二	89.79	56.91	70.95	72.55
实验三	89.72	53.43	72.22	71.79
					实验四	86.38	52.85	59.85	66.36
实验五	89.44	53.43	72.30	71.48

其次进行五组实验来测试注意力模块对检测性能的影响：实验六将本文设计的卷积注意力模块用SE模块代替；实验七将本文设计的卷积注意力模块用CBAM模块代替；实验八将本文设计的卷积注意力模块用ECA模块代替；实验九将本文设计的卷积注意力模块用3×3卷积代替。在KITTI验证集上进行实验验证，实验结果如表7和表8所示。

表7 Pillar-FFNet不同注意力模块在KITTI验证集上的mAP

方法	汽车	行人	骑行者	mAP
					实验六	77.98	49.86	60.59	62.81
实验七	77.73	51.35	63.63	64.23
					实验八	77.75	47.04	63.21	62.67
实验九	77.53	51.41	63.86	64.27

表8 Pillar-FFNet不同注意力模块在KITTI验证集上的mAOS

方法	汽车	行人	骑行者	mAOS
					实验六	89.77	51.49	71.79	71.02
实验七	89.64	50.67	73.87	71.39
					实验八	89.69	52.88	70.06	70.88
实验九	89.66	49.29	70.31	69.75

综合表5～表8可知，对于检测头中不同的融合策略和不同的卷积注意力机制，本申请设计的最为有效。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于多尺度特征融合的点云目标检测装置，包括：

伪图像生成模块，用于根据原始点云数据生成伪图像；

反卷积模块，用于将所述伪图像输入主干网络后，对所述主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图；其中反卷积的次数与选定特征提取层的层数相同；

第一融合模块，用于将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合，得到多组初始融合特征图；

特征图划分模块，用于对所述多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合；

第二融合模块，用于将所述第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将所述第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图；

第三融合模块，用于将所述第一融合特征图和所述第二融合特征图进行级联融合，得到目标特征图；

目标检测模块，用于根据所述目标特征图进行点云目标检测。

关于基于多尺度特征融合的点云目标检测装置的具体限定可以参见上文中对于基于多尺度特征融合的点云目标检测方法的限定，在此不再赘述。上述基于多尺度特征融合的点云目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储点云等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多尺度特征融合的点云目标检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synch link)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多尺度特征融合的点云目标检测方法，其特征在于，所述方法包括：

根据原始点云数据生成伪图像；

将所述伪图像输入主干网络后，对所述主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积，得到对应的多组反卷积特征图；其中反卷积的次数与选定特征提取层的层数相同；

将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合，得到多组初始融合特征图；

对所述多组初始融合特征图进行划分，得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合，以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合；

将所述第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图，将所述第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图；

将所述第一融合特征图和所述第二融合特征图进行级联融合，得到目标特征图；

根据所述目标特征图进行点云目标检测。

2.根据权利要求1所述的方法，其特征在于，将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合，得到多组初始融合特征图，包括：

将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块，得到对应的多组注意力特征图；

将各组注意力特征图分别与对应的所述反卷积特征图进行级联融合，得到多组初始融合特征图。

3.根据权利要求2所述的方法，其特征在于，将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块，得到对应的多组注意力特征图，包括：

将所述主干网络中的选定特征提取层输出的特征图进行通道拆分，得到对应的第一通道特征图和第二通道特征图；

将所述第一通道特征图馈入平均池化层得到平均池化特征图，将所述平均池化特征图进行1×1卷积后输入sigmoid函数，输出所述平均池化特征图的第一权重值，将第一通道特征图与第一权重值相乘得到第一通道初始注意力图，将所述第一通道初始注意力图与第一通道特征图相加得到第一通道注意力图；

将所述第二通道特征图馈入最大池化层得到最大池化特征图，将所述最大池化特征图进行1×1卷积后输入sigmoid函数，输出所述最大池化特征图的第二权重值，将第二通道特征图与第二权重值α相乘得到第二通道初始注意力图，将所述第二通道初始注意力图与第二通道特征图相加得到第二通道注意力图；

将所述第一通道注意力图和第二通道注意力图相加后进行1×1卷积，得到对应的多组注意力特征图。

4.根据权利要求1所述的方法，其特征在于，将所述第一融合特征图和所述第二融合特征图进行级联融合，得到目标特征图，包括：

将所述第一融合特征图输入第一卷积注意力模块，得到第一融合注意力特征图，将所述第二融合特征图输入第二卷积注意力模块，得到第二融合注意力特征图；

对所述第一融合注意力特征图和所述第二融合注意力特征图进行上采样后再进行级联融合得到初始目标特征图；

将所述初始目标特征图输入第三卷积注意力模块，得到目标特征图。

5.根据权利要求1所述的方法，其特征在于，所述主干网络中的特征提取网络为卷积残差块；

通过各个所述卷积残差块进行特征提取的步骤包括：

获取当前卷积残差块输入的特征图；

将所述特征图依次进行1个1×1卷积、1个步长为t的3×3卷积和1个1×1卷积得到第一分支特征图；

将所述特征图经过1个3×3卷积得到第二分支特征图；

将所述第一分支特征图和所述第二分支特征图进行级联融合后进行1个1×1卷积，得到当前卷积残差块输出的特征图。

6.根据权利要求5所述的方法，其特征在于，所述选定特征提取层的层数为4；

所述主干网络中的选定特征提取层输出特征图的步骤包括：

所述伪图像经过2个步长为1的卷积残差块，生成第一选定特征图；

所述第一选定特征图依次经过1个步长2的卷积残差块和2个步长为1的卷积残差块，生成第二选定特征图；

所述第二选定特征图依次经过1个步长2的卷积残差块和5个步长为1的卷积残差块，生成第三选定特征图；

所述第三选定特征图依次经过1个步长2的卷积残差块和5个步长为1的卷积残差块，生成第四选定特征图。

7.根据权利要求1至6任一项所述的方法，其特征在于，根据原始点云数据生成伪图像，包括：

获取原始点云数据，设置点云数据检测范围；

将所述原始点云数据在所述点云数据检测范围内在X-Y平面上进行柱状化，得到柱状化点云；

将所述柱状化点云输入预先构建的特征编码网络，得到伪图像。

8.根据权利要求7所述的方法，其特征在于，在根据所述目标特征图进行点云目标检测之前，包括：

获取预先构建的目标检测模型；

将训练点云数据集输入所述目标检测模型，计算并优化损失函数得到训练好的目标检测模型；所述模型损失函数包括边界框回归损失函数和分类损失函数。

所述边界框回归损失函数为：

L_θ＝SmoothL1(sin(Δθ-θ'))；

/>

Δθ＝θ^gt-θ；

所述分类损失函数为：

L_cls＝-α_a(1-p^a)^γlog p^a；

其中，L_cls为分类损失函数，α_a为分类损失函数的权重因子，p^a为锚框的类别概率，γ为可调节因子；

所述模型损失函数为：

9.一种基于多尺度特征融合的点云目标检测装置，其特征在于，所述装置包括：

伪图像生成模块，用于根据原始点云数据生成伪图像；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。