CN116310552B

CN116310552B - 一种基于多尺度特征融合的三维目标检测方法

Info

Publication number: CN116310552B
Application number: CN202310261872.2A
Authority: CN
Inventors: 朱仲杰; 靳忆雯; 白永强; 王玉儿; 张磊; 李沛
Original assignee: Zhejiang Wanli University
Current assignee: Zhejiang Wanli University
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2026-01-02
Anticipated expiration: 2043-03-13
Also published as: CN116310552A

Abstract

本发明公开了一种基于多尺度特征融合的三维目标检测方法，特点是获取待检测目标物体的点云数据；将点云数据输入至目标检测模型中，目标检测模型包括特征编码模块、特征融合模块和检测头；特征编码模块包括3D Swin transformer模块、多尺度特征融合模块和降维模块；3D Swin transformer模块包括依次连接的3D分区、阶段1、阶段2、阶段3和阶段4；检测头包括RPN网络和RoI Pooling层；将目标检测模型的输出输入至全连接层，全连接层后连接有两个并行的分类分支和识别分支，最终完成检测；优点是增强特征提取能力；不但提高三维目标检测的准确率，而且弥补了二维数据损失的问题，减少点云特征和二维特征信息的丢失，增加目标的特征描述，提高了三维目标检测的精准度。

Description

一种基于多尺度特征融合的三维目标检测方法

技术领域

本发明涉及三维目标检测领域，尤其是一种基于多尺度特征融合的三维目标检测方法。

背景技术

三维目标检测是根据二维或三维的传感器信息，基于几何分析和数学统计方法对目标的空间信息进行解析，获取目标的位置、边界、类别、方向等信息。因为激光雷达扫描仪产生的三维点云数据具有极高还原目标三维几何、表面和尺度信息的能力，所以在获取场景语义信息与空间信息中发挥重要作用，但三维点云数据具有无序性、非结构化、稀疏性的特征，容易出现点云三维特征丢失的情况。

现有的激光点云的三维目标检测方法一般基于点云投影进行检测，通过将点云投影为不同角度的二维视图，再利用成熟的二维目标检测网络实现目标检测，但是投影操作不可避免地会丢失点云的高度信息，导致检测准确率的降低。

发明内容

本发明所要解决的技术问题是提供一种基于多尺度特征融合的三维目标检测方法，不但增强了对点云的三维特征提取能力，而且提高了检测的精准度。

本发明解决上述技术问题所采用的技术方案为：一种基于多尺度特征融合的三维目标检测方法，包括以下步骤：

①通过激光雷达扫描仪对待检测目标物体进行扫描获取待检测目标物体的点云数据；

②将待检测目标物体的点云数据输入至目标检测模型中，得到待检测目标物体的候选框；

③将待检测目标物体的候选框输入至全连接层，通过全连接层后并行连接的分类分支和识别分支，由分类分支得到待检测目标物体的类别，由识别分支得到待检测目标物体的坐标、大小和方向，完成检测；

所述的目标检测模型包括特征编码模块、特征融合模块和检测头；所述的特征编码模块包括3D Swin transformer模块、多尺度特征融合模块和降维模块；所述的3D Swintransformer模块包括依次连接的3D分区、阶段1、阶段2、阶段3和阶段4；所述的检测头包括RPN网络和RoI Pooling层，得到待检测目标物体的候选框的具体步骤如下：

②-1将待检测目标物体的点云数据输入至3D分区，由阶段1、阶段2、阶段3和阶段4输出并得到不同尺度大小的3D特征图；

②-2将不同尺度大小的3D特征图输入至多尺度特征融合模块中进行特征融合，得到融合后的3D特征图；

②-3将融合后的3D特征图输入至降维模块中进行降维操作，得到BEV视角的2D特征图；

②-4将不同尺度大小的3D特征图与2D特征图输入至特征融合模块中，得到融合后的特征图；

②-5将融合后的特征图输入至RPN网络中，得到存在潜在待检测目标物体的ROI；

②-6将ROI输入至RoI Pooling层中提取ROI的特征，得到待检测目标物体的候选框。

与现有技术相比，本发明的优点在于通过3D Swin Transforme模块能够提取不同尺度大小的3D特征图，以提供精确的细节特征，将待检测目标物体的语义信息构建到特征图中，增强三维特征提取能力；利用多尺度特征融合模块对不同尺度大小的3D特征图进行融合得到融合后的3D特征图，提高三维目标检测的准确率，通过降维模块将融合后的3D特征图降为2D特征图；通过特征融合模块对不同尺度大小的3D特征图和2D特征图进行融合，弥补了二维数据损失的问题，减少点云特征和二维特征信息的丢失，增加待检测目标物体的特征描述，提高了三维目标检测的精准度。在KITTI数据集上进行验证得到，对于汽车类别，本发明在简单等级下的3D AP_R40为93.20，在中等等级下的3D AP_R40为86.15，在困难等级下的3D AP_R40为84.2，在3种难度等级下的3DAP_R40为87.85，相较于Voxel-RCNN方法，分别提高了0.82％、0.86％、1.34％和1.01％，本发明在中等难度汽车上的3D AP_R11为86.93％，相较于Voxel-RCNN方法，提高了2.41％，因此本发明能够提升三维目标检测的精准度。

进一步的，所述的步骤②-1的具体操作过程如下：

通过激光雷达扫描仪对待检测目标物体进行扫描获取待检测目标物体的点云数据的RGB通道数为3，设定3D分区中的块大小为2×3×3，3D分区将输入的待检测目标物体的点云数据进行划分，输出的向量并作为阶段1的输入，其中，D表示输入的待检测目标物体的点云数据的空间维度，H表示输入的待检测目标物体的点云数据的高度维度，W表示输入的待检测目标物体的点云数据的宽度维度；

阶段1包括一个线性嵌入层和两个连续的Point Swin Transformer Block，输出特征图并作为阶段2的输入，其中C表示3D特征图的特征维度；

阶段2包括一个区域合并层和两个连续的Point Swin Transformer Block，输出的3D特征图并作为阶段3的输入；

阶段3包括一个区域合并层和六个连续的Point Swin Transformer Block，输出的3D特征图并作为阶段4的输入；

阶段4包括一个区域合并层和两个连续的Point Swin Transformer Block，输出的3D特征图；

最终得到的3D特征图、的3D特征图、的3D特征图和的3D特征图。

进一步的，所述的步骤②-2中得到融合后的3D特征图的具体操作过程如下：将阶段1输出的3D特征图记为C1，将阶段2输出的3D特征图记为C2，将阶段3输出的3D特征图记为C3，将阶段4输出的3D特征图记为C4，对C4进行1×1卷积操作得到特征图P4，将经过上采样后的特征图P4与经过1×1卷积操作的C3进行融合得到特征图P3，将经过上采样后的特征图P3与经过1×1卷积操作的C2进行融合得到特征图P2，将经过上采样后的特征图P2与经过1×1卷积操作的C1进行融合得到特征图P1并作为融合后的3D特征图，其中上采样的步长均为2。

进一步的，所述的步骤②-3中得到BEV视角的2D特征图的具体操作过程为：压缩融合后的3D特征图在z轴方向的数据，得到只有x轴方向的数据和y轴方向的数据的BEV视角的2D特征图。

进一步的，所述的步骤②-4中得到融合后的特征图的具体操作过程为：通过concat函数将阶段1输出的3D特征图与2D特征图进行融合得到特征图Z1，通过concat函数将阶段2输出的3D特征图与特征图Z1进行融合得到特征图Z2，通过concat函数将阶段3输出的3D特征图与特征图Z2进行融合得到特征图Z3，通过concat函数将阶段4输出的3D特征图与特征图Z3进行融合得到融合后的特征图。

进一步的，所述的RPN网络的损失函数由分类损失和回归损失组成，其中，N_fg表示候选框的数量，表示第j个候选框的分类分支的输出，表示第j个候选框的识别分支的输出，表示第j个候选框的分类类别，表示第j个候选框的识别目标，L_cls表示Focal loss函数，L_reg表示HuberLoss函数，j表示第j个候选框的分类，j∈[0，b]，b表示待检测目标的总数，表示仅使用候选框计算的识别损失。

附图说明

图1为本发明的总体流程示意图；

图2为本发明中3D Swin transformer模块的架构示意图；

图3为本发明与Voxel-Rcnn方法的可视化结果对比示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示，一种基于多尺度特征融合的三维目标检测方法，包括以下步骤：

目标检测模型包括特征编码模块、特征融合模块和检测头；特征编码模块包括3DSwin transformer模块、多尺度特征融合模块和降维模块；3D Swin transformer模块包括依次连接的3D分区(3D Patch Partition)、阶段(Stage)1、阶段2、阶段3和阶段4；检测头包括RPN网络和RoI Pooling层，得到待检测目标物体的候选框的具体步骤如下：

②-1将待检测目标物体的点云数据输入至3D分区，由阶段1、阶段2、阶段3和阶段4输出并得到不同尺度大小的3D特征图；如图2所示；

步骤②-1的具体操作过程如下：

通过激光雷达扫描仪对待检测目标物体进行扫描获取待检测目标物体的点云数据的RGB通道数为3，设定3D分区中的块大小为2×3×3，3D分区将输入的待检测目标物体的点云数据(Point Cloud)进行划分，输出的向量并作为阶段1的输入，其中，D表示输入的待检测目标物体的点云数据的空间维度，H表示输入的待检测目标物体的点云数据的高度维度，W表示输入的待检测目标物体的点云数据的宽度维度；

阶段1包括一个线性嵌入层(Linear Embedding)和两个连续的Point SwinTransformer Block，输出的3D特征图并作为阶段2的输入，其中C表示3D特征图的特征维度；

阶段2包括一个区域合并层(Patch Merging)和两个连续的Point SwinTransformer Block，输出的3D特征图并作为阶段3的输入；区域合并层用于改变特征图的shape；

最终得到的3D特征图、的3D特征图、的3D特征图和的3D特征图；

步骤②-2中得到融合后的3D特征图的具体操作过程如下：将阶段1输出的3D特征图记为C1，将阶段2输出的3D特征图记为C2，将阶段3输出的3D特征图记为C3，将阶段4输出的3D特征图记为C4，对C4进行1×1卷积操作得到特征图P4，将经过上采样后的特征图P4与经过1×1卷积操作的C3进行融合得到特征图P3，将经过上采样后的特征图P3与经过1×1卷积操作的C2进行融合得到特征图P2，将经过上采样后的特征图P2与经过1×1卷积操作的C1进行融合得到特征图P1并作为融合后的3D特征图，其中上采样的步长均为2；

步骤②-3中得到BEV视角的2D特征图的具体操作过程为：压缩融合后的3D特征图在z轴方向的数据，得到只有x轴方向的数据和y轴方向的数据的BEV视角的2D特征图；

步骤②-4中得到融合后的特征图的具体操作过程为：通过concat函数将阶段1输出的3D特征图与2D特征图进行融合得到特征图Z1，通过concat函数将阶段2输出的3D特征图与特征图Z1进行融合得到特征图Z2，通过concat函数将阶段3输出的3D特征图与特征图Z2进行融合得到特征图Z3，通过concat函数将阶段4输出的3D特征图与特征图Z3进行融合得到融合后的特征图；

concat函数的定义为：其中Z_concat表示输出通道，X_i表示第i层第一特征图的输入通道，Y_i表示第i层第二特征图的输入通道，K_i表示第i层的通道数，K_i+c表示第i+c层的通道数，i∈[1，c]，c表示对应的特征图的通道总数；第一特征图依次为阶段1输出的3D特征图、阶段2输出的3D特征图、阶段3输出的3D特征图、阶段4输出的3D特征图，第二特征图依次为2D特征图、特征图Z1、特征图Z2、特征图Z3；

融合后的特征图在RPN网络中提取待检测目标物体的特征，设定ROI，根据待检测目标物体的特征对ROI的尺寸和位置进行修改，得到存在潜在待检测目标物体的ROI；

②-6将ROI输入至RoI Pooling层中提取ROI的特征，得到待检测目标物体的候选框；

将ROI映射到特征图上的对应区域位置，最终将尺寸不一的ROI变为固定的7×7大小，于是将ROI平均划分为7×7个区域，取每个划分区域的最大像素值作为该区域的输出，得到待检测目标物体的候选框；

在本实施例中，RPN网络的损失函数由分类损失和回归损失组成，其中，N_fg表示候选框的数量，表示第i个候选框的分类分支的输出，表示第j个候选框的识别分支的输出，表示第j个候选框的分类类别，表示第j个候选框的识别目标，L_cls表示Focal loss函数，L_reg表示Huber Loss函数，j表示第j个候选框的分类，j∈[0，b]，b表示待检测目标的总数，表示仅使用候选框计算的识别损失；

为了验证本发明的有效性，在公共数据集KITTI和nuScences上进行了实验，并将实验结果和其他现有方法进行对比。实验设备为Ubuntul8.04操作系统，NVIDIA GeForceRTX3090 GPU的服务器，通过python3.7、Pytorch 1.6.0和CUDNN 8.1.0框架实现，其中目标检测模型训练时批尺寸设置为4，学习率设置为0.01。

其中训练过程中，定义检测头的损失函数为：其中N_s表示训练阶段的候选框数量，表示第n个候选框与真实框的置信度，n∈[0，d]，d表示训练阶段检测目标的总数，表示第n个候选框的识别分支的输出，表示第n个候选框的识别目标，I(IOU_n≥θ_reg)表示仅有分类置信度IOU大于等于θ_reg的候选框才进行识别损失计算，检测头的分类置信度IOU使用Entropy Loss进行计算；

实验一，在KITTI数据集进行3D目标检测：KITTI数据集是目前三维目标检测和分割领域使用最为广泛的数据集。该数据集包含7481个训练样本，本实验将训练样本按大约1：1的比例分成训练集和测试集，其中训练集包含3712个样本数据，测试集有3769个样本数据。本实验在测试集上对目标检测模型训练的三个类别(包括汽车(Car)、行人(Ped.)和骑自行车者(Cyc.))进行评估。对于每个类别，在40个召回阈值(R40)下使用AP对汽车、行人和骑自行车者进行检测，根据3D对象的大小和遮挡程度分为三个难度级别：简单(Easy)、中等(Mod.)、困难(Hard)，以及在11个召回阈值(R11)下中等难度汽车物体的3DAP用作实验结果的评估度量。本实验采用官方评估指标，将汽车的交并比(IOU)阈值设置为0.7，将行人和骑自行车者的IOU阈值均设置为0.5。

表1本发明与现有方法在KITTI数据集进行测试的对比结果

如表1所示，相较于Voxel-RCNN方法，本发明汽车类别的3种难度等级检测精度分别提升了0.82％、0.86％和1.34％，行人和骑自行车者两种类别中3种难度等级检测精度均有提升，并且本发明在中等难度汽车上的3D AP_R11的性能比Voxel-RCNN高2.41％。

如图3所示，一共处理了3组场景，每组场景分别由RGB图像、Ground Truth(地面实况)、Voxel-Rcnn和本发明可视化结果4组图像组成；从图3a的点云可视化实例分析可知，本发明很好的学习到汽车类别信息，并有效提升了汽车精度；图3b场景中，Voxel-Rcnn方法出现大量的误检结果，如图3b中矩形框所示，将杂物识别成汽车行人等类别，而本发明误检结果精准；图3c场景下，本发明能够很好的检测汽车目标，且遮挡问题情况下，依然能够正确定位汽车目标，而Voxel-Rcnn网络定位目标位置不准确。以上可视化结果可直观表明本发明的有效性。

在KITTI数据集上进行消融实验，将多尺度特征融合模块(Multi-scalefeatures)和特征融合模块(Features fusion)这两个模块组合实验，使用中等难度汽车上的3D AP_R11的性能进行评估，如表2所示。将实验分成(a)、(b)、(c)、(d)、(e)五组进行训练。其中，(a)是基础模型，仅对点云数据进行线性变换，未使用多尺度提取特征，且只使用了2D特征生成检测框候选区。(b)、(c)、(d)，在(a)的基础上依次增加了一个stage、两个stage、三个stage，每增加一个stage特征图的分辨率减半，通道数加倍，采用多尺度提取特征的方式，有更大的感受野，对不同尺寸的目标提取能力更好，(b)、(c)、(d)在3D AP_R11上依次提升2.13％、3.84％和4.04％。(e)为在(d)的基础上添加了特征融合模块，是本发明提出的完整网络架构，通过多尺度提取特征后，将BEV特征和多尺度特征的数据进行融合，增强检测框候选区的精确性。

表2本发明的消融实验

实验二，在nuScences(mini)数据集进行3D目标检测：nuScenes数据集包括1000个场景，其中包含来自6个摄像头的图像。它是基于视觉的3D物体检测和BEV语义分割的最新流行基准。由于nuScences数据集过大，所以本实验选用nuScences mini版数据集，内含10个场景。官方的评估指标包括平均精度(mAP)、平均平移误差(mATE)、平均标度误差(mASE)、平均角度误差(mAOE)、均值速度误差(mAVE)、均分属性误差(mAAE)和NuScenes检测分数(NDS)。mAP是基于地平面上2D中心距离的匹配。NDS是综合判断检测能力的其他指标的组合。其余指标用于计算相应方面(例如平移、缩放、方向、速度和属性)的结果精度。↑表示数值越高越好，↓表示数值越小越好。

表3本发明与现有方法在nuScences(mini)数据集进行测试的对比结果

方法	mATE↓	mASE↓	mAOE↓	mAVE↓	mAAE↓	mAP↑	NDS↑
								PP-MH	0.6339	0.5367	1.3782	1.3903	0.5340	0.1075	0.1833
S-MH	0.7366	0.5380	1.0812	1.5363	0.5401	0.1001	0.1686
								CP-PP	0.6130	0.5306	1.1604	0.9568	0.3921	0.1467	0.2241
CP(0.1)	0.6105	0.5215	1.1065	1.1405	0.3390	0.1487	0.2272
								CP(0.075)	0.4943	0.5076	1.0510	0.5977	0.3237	0.2546	0.3350
本发明	0.5013	0.5081	1.0322	0.5939	0.3129	0.2637	0.3425

如表3所示，本发明在mATE、mASE、mAOE、mAVE和mAAE这五个评估指标上数值均有下降，在mAP和NDS，这两个指标上均有提升。其中PP-MH方法为设置有多种检测头的PointPillar方法，S-MH方法为设置有多种检测头的SECOND方法，CP-PP方法为CenterPoint-PointPillar方法，CP(0.1)方法为设置划分体素网格大小为0.1的CenterPoint-PointPillar方法，CP(0.075)方法为设置划分体素网格大小为0.075的CenterPoint-PointPillar方法。

Claims

1.一种基于多尺度特征融合的三维目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多尺度特征融合的三维目标检测方法，其特征在于所述的步骤②-1的具体操作过程如下：

阶段1包括一个线性嵌入层和两个连续的Point Swin Transformer Block，输出的3D特征图并作为阶段2的输入，其中C表示3D特征图的特征维度；

3.根据权利要求1所述的一种基于多尺度特征融合的三维目标检测方法，其特征在于所述的步骤②-2中得到融合后的3D特征图的具体操作过程如下：将阶段1输出的3D特征图记为C1，将阶段2输出的3D特征图记为C2，将阶段3输出的3D特征图记为C3，将阶段4输出的3D特征图记为C4，对C4进行1×1卷积操作得到特征图P4，将经过上采样后的特征图P4与经过1×1卷积操作的C3进行融合得到特征图P3，将经过上采样后的特征图P3与经过1×1卷积操作的C2进行融合得到特征图P2，将经过上采样后的特征图P2与经过1×1卷积操作的C1进行融合得到特征图P1并作为融合后的3D特征图，其中上采样的步长均为2。

4.根据权利要求1所述的一种基于多尺度特征融合的三维目标检测方法，其特征在于所述的步骤②-3中得到BEV视角的2D特征图的具体操作过程为：压缩融合后的3D特征图在z轴方向的数据，得到只有x轴方向的数据和y轴方向的数据的BEV视角的2D特征图。

5.根据权利要求1所述的一种基于多尺度特征融合的三维目标检测方法，其特征在于所述的步骤②-4中得到融合后的特征图的具体操作过程为：通过concat函数将阶段1输出的3D特征图与2D特征图进行融合得到特征图Z1，通过concat函数将阶段2输出的3D特征图与特征图Z1进行融合得到特征图Z2，通过concat函数将阶段3输出的3D特征图与特征图Z2进行融合得到特征图Z3，通过concat函数将阶段4输出的3D特征图与特征图Z3进行融合得到融合后的特征图。

6.根据权利要求1所述的一种基于多尺度特征融合的三维目标检测方法，其特征在于所述的RPN网络的损失函数由分类损失和回归损失组成，其中，N_fg表示候选框的数量，P_j ^a表示第j个候选框的分类分支的输出，表示第j个候选框的识别分支的输出，表示第j个候选框的分类类别，表示第j个候选框的识别目标，L_cls表示Focal loss函数，L_reg表示HuberLoss函数，j表示第j个候选框的分类，j∈[0，b]，b表示待检测目标的总数，表示仅使用候选框计算的识别损失。