CN115115917A

CN115115917A - 基于注意力机制和图像特征融合的3d点云目标检测方法

Info

Publication number: CN115115917A
Application number: CN202210659670.9A
Authority: CN
Inventors: 戚云鹏; 孙畅; 徐睿哲; 杜松林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-27

Abstract

本发明公开了一种基于注意力机制和图像特征融合的3D点云目标检测方法，涉及计算机视觉技术领域，解决了3D目标检测算法不够准确的技术问题，其技术方案要点是以图像数据和激光点云数据作为输入，分别输入图像特征提取网络和点云特征编码器，在图像特征提取骨干网络中基于注意力机制学习重要信息，然后将提取到的特征图与点云伪图像进行特征融合。最后将生成的融合特征送入特征金字塔，并将最终的融合特征图作为2D‑3D检测器的输入，预测得到的2D、3D框坐标值，然后经过非极大值抑制和数据转换来完成2D、3D框回归以得到最终结果。本发明利用基于注意力机制的图像特征提取网络弥补了点云信息的缺陷，提高了3D目标检测的精度。

Description

基于注意力机制和图像特征融合的3D点云目标检测方法

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于注意力机制和图像特征融合的3D点云目标检测方法。

背景技术

目标检测作为计算机视觉中的重要任务之一，是人工智能体系中一个具有重要研究价值的技术分支，它的主要任务是从图像中精确且高效地识别、定位出大量预定义类别的物体实例，并给出每个目标的边界框。近年来,随着深度学习的发展,3D图像的目标检测研究取得了巨大的突破。与2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的位置、方向和大小等空间场景信息,在自动驾驶和机器人领域发展迅速。

3D视觉中的点云数据提供了精确的结构和深度信息，但是却具有稀疏性，无序性和对噪声敏感等缺点，所以二维检测中研究成熟的CNN不能直接用于处理点云。此外，点云的表示形式直接影响模型的性能，对于目标检测带来了巨大的挑战。根据输入数据的类型，3D目标检测框架可分为三大类：

(1)基于单目相机的3D目标检测方法：单目摄像机采集的RGB图像含有丰富的纹理信息和高分辨率，但是缺少深度信息，所以2D目标检测无法提供感知环境所需要的全部信息。由于没有深度信息可用，大多数方法首先检测2D候选对象，然后使用神经网络、几何约束或3D模型匹配预测包含对象的3D边界框。3DOP在网络结构上扩展FastR-CNN,在最后一层卷积层增加一个上下文分支和方向回归损失以联合学习目标的位置和方向。该工作考虑了深度图像，以在类似的框架中生成建议。Mono3D模型只使用单目图像，略微改善了使用深度图像获得的性能，利用上下文、语义、手工设计的形状特征和位置先验，将每个候选框投射到图像中,对其进行评分。由于图像特征缺乏深度信息，降低了检测和定位的准确性，特别是对遥远和遮挡的物体，以及对光线和天气条件的敏感性，限制了这些方法在白天的使用。

(2)基于点云的3D目标检测方法：激光雷达采集的点云数据是自动驾驶汽车获取周围场景信息的重要来源，可以在夜间等场景产生精确的深度估计，能提高自动驾驶汽车的安全性。但是，点云的稀疏性、无序性和局部敏感性，计算量大等问题造成了它在实际应用方面上的困难。PointNet可以直接处理点云数据,该结构提出空间变换网络解决旋转问题及应用最大池化解决无序性问题。分割的3DPCLs用作输入，以执行对象分类和零件分割。该网络使用全连接层执行逐点转换，并通过最大池层聚合全局特征，确保点顺序的独立性。VoxelNet提出把点云在空间中划分成体素，然后对每个体素多次使用PointNet的结构(MLP，maxpooling，concat)，之后使用3DCNN的卷积操作获得稀疏体素之间的交互，最后加上RPN网络来做3D物体检测任务。在自动驾驶等应用中，3D场景中的点云数据中垂直方向(z轴)相对另外两个轴的信息量更低，基于此，PointPillars在xy平面上划分网格，然后把垂直方向的点云压到网格上，使用2DCNN方法进行物体检测。

(3)基于融合信息的3D目标检测方法：不同类型的传感器各有优劣,单一传感器无法实现精确高效的检测。例如图像特征的优点是含有丰富的纹理信息和高分辨率，但缺点就是缺少深度信息，而点云数据提供了精确的结构和深度信息，但却具有稀疏性，无序性和局部敏感性等缺点。为此，将具有互补特性的多种传感器融合以增强感知能力，成为新兴的研究主题。目前，三维目标检测领域常用的融合数据有图像和点云。MVX-Net网络为了融合RGB图像和点云数据信息，首先利用二维检测网络提取特征，在ImageNet上进行预训练，然后对2D目标检测任务进行微调,编码语义信息，作为先验知识，助推断目标的存在。针对点云，通过VoxelNet提取特征,融合图像特征和点云特征,得到最终的检测结果。

上述现有的3D目标检测方法对于未知场景的适应性较差，由于点云是不规则、无序的，而图像是规则、有序的，导致图像和点云处理方式有巨大差异，特征融合困难。此外，点云的稀疏性与无序性也导致现有方法无法很好地预测远距离、小物体，且计算量大，实时检测困难。

发明内容

本申请提供了一种基于注意力机制和图像特征融合的3D点云目标检测方法，其技术目的是提高3D目标检测算法的准确度，使得3D检测能够感知色彩、语义和纹理信息等。

本申请的上述技术目的是通过以下技术方案得以实现的：

一种基于注意力机制和图像特征融合的3D点云目标检测方法，包括：

S1：对3D目标检测数据集中的RGB图像和点云数据进行数据增强；

S2：将增强后的RGB图像输入到图像特征提取网络，所述图像特征提取网络结合注意力机制对增强后的RGB图像进行特征提取，得到表示图像信息的第一特征；

S3：将增强后的点云数据输入到点云特征编码器进行特征提取，得到点云特征，将点云特征处理成伪图像；

S4：将所述第一特征和所述伪图像在通道维度进行拼接后输入到特征金字塔进行特征提取，得到融合特征；

S5：对所述融合特征进行2D检测框和3D检测框的预测，得到预测结果，对预测结果进行数据转换与指标分析，得到最终的3D目标检测结果。

进一步地，所述图像特征提取网络主干为残差结构，包括依次设置的堆叠下采样层、注意力机制模块和SPPF模块；所述注意力机制模块基于CBAM注意力机制和坐标注意力机制。

进一步地，所述点云特征编码器通过基于PointPillars的点云特征进行特征提取。

进一步地，所述RGB图像的数据增强包括HSV色调变换、仿射变换和马赛克操作。

本申请的有益效果在于：本申请所述的3D点云目标检测方法能够同时利用图像信息和点云信息，从而使3D目标检测达到更好的效果；同时通过注意力机制RGB图像进行特征提取，得到表示图像信息的特征图，使得检测速度较快，实时性好。

附图说明

图1为本申请所述方法的流程图；

图2为本申请所述方法的整体网络架构图；

图3为本申请方法使用的CBAM注意力机制结构示意图；

图4为本申请方法使用的坐标注意力机制结构示意图；

图5为本申请方法使用的特征金字塔的结构示意图；

图6为本申请方法与现有方法得到的AP_BEV与AP_3D对比结果示意图；

图7为本申请方法与只使用点云特征方法在Cyclists类别得到的AP_BEV与AP_3D对比结果示意图。

具体实施方式

下面将结合附图对本申请技术方案进行详细说明。

如图1和图2所示，本申请所述的3D点云目标检测方法具体包括以下步骤：

步骤1，将3D目标检测数据集中的RGB图像经过HSV色调变换、仿射变换和马赛克操作等数据增强方式后调整为1024×1024大小，作为图像特征提取网络的输入。

具体地，选用KITTI数据集的3D目标检测数据集，KITTI数据集总共包含7481张训练图像和7518张测试图像，以及相应的点云和标定参数；它包括80256个2D和3D标记的三种类型的对象，即汽车、行人和自行车。根据物体的遮挡和截断程度，每个3D地面实况分为三个难度类别：简单、中等和困难。我们在此将7481张训练图像分为由3712张训练集和3769张验证集组成数据集，输入图像的大小均为375×1242。

步骤2，将3D目标检测数据集中的激光雷达点云数据经过随机采样、旋转、平移，沿x轴翻转和随机缩放等数据增强操作后送入点云特征编码器。

在此处，我们确保点云数据的训练集和验证集划分与图像数据保持一一对应，其中，每个点云数据的维度是(x,y,z,r)，(x,y,z)表示该点的坐标，r表示该点的反射强度(与物体材质和激光入射角度等有关)，KITTI数据集截取的点云范围是[0,-39.68,-3,69.12,39.68,1]。点云特征编码器以[0.16,0.16,4]大小，将至多32个点一组划分为pillar。在进行数据增强时，将每个pillar中的点增加至6个维度的数据，表示为：(x_c,y_c,z_c,x_p,y_p,z_p)，下标c表示每个点云到该点所对应pillar中所有点平均值的偏移量，下标p表示该点距离所在pillar中心点的x轴、y轴、z轴的偏移量。此时点云被表示为大小是[D,P,N]的张量，D表示每个点云的10个特征，P表示所有非空的pillar，N表示每个pillar中最多会有多少个点。之后通过1×1卷积层、一维批量归一化层和ReLu激活函数提取点的特征，之后为了简化计算，使用最大池化操作提取每个pillar中最能代表该pillar的点。

步骤3，图像特征提取网络结合注意力机制，将输入的图像数据提取为表示图像信息的特征图(即第一特征)。

图像特征提取网络的框架包括依次设置的堆叠下采样层+注意力机制模块+SPPF模块。注意力机制基于CBAM注意力机制(如图3所示)和坐标注意力机制(如图4所示)，图像特征提取网络的主干为残差结构，在提取特征后经过空间金字塔池化得到表示图像信息的特征图。其输入为3通道大小1024×1024的图像数据，输出为通道数256，大小为192×192的特征图。

步骤4，点云特征编码器提取输入的点云特征后，将特征按照其索引重新放置回其原来的坐标分布形成伪图像表示。

点云特征编码器基于PointPillars的点云特征提取部分。

步骤5，将步骤3中得到的图像信息特征图(第一特征)与步骤4中得到的伪图像在通道维度进行拼接后输入至深度神经网络得到最终的融合特征。

将图像信息特征图经过转置卷积调整为496×432大小，在经过1×1卷积后将通道数调整为与伪图像表示的点云信息相同；之后将二者在通道维度上拼接，然后输入到特征金字塔进行特征提取，得到融合特征。融合特征提取网络为3层的特征金字塔，其结构如图5所示。

步骤6，对最终的融合特征进行2D检测框和3D检测框的预测，对预测结果进行数据转换与指标分析，并输出最终的3D目标检测结果。

作为具体实施例地，每个标注框都包含了(x,y,z,ω,l,h,θ)这7个参数，其中，(x,y,z)表示预测一个标注框的中心坐标在点云中的位置，ω、l、h分别预测了一个标注框的长、宽、高数据，θ预测了标注框的旋转角度，定位任务的回归残差表示为：

其中x^gt表示标注框的x长度，x^a表示先验框的长度信息，d^a表示先验框长度和宽度的对角线距离，且

y^gt、z^gt、ω^gt、l^gt、h^gt、θ^gt均表示标注框的参数；y^a、z^a、h^a、ω^a、l^a、θ^a均表示先验框的参数。

因此得到的总回归损失表示为：

L_loc＝∑_{b∈(x,y,x,z,ω,l,h,θ)}SmoothL1(Δb)

对于每个先验框的物体类别分类，使用了focalloss来完成调节正负样本均衡，类别损失记为L_cls，表示为:

L_cls＝-α_a(1-p^a)^γlogp^a；其中α＝0.25,γ＝2，p^a表示先验框在car、pedestrians、cyclists三个类别的分类概率。

由于在角度回归的时候，不可以完全区分两个方向完全相反的预测框，所以在实现的时候，要使用Softmax函数预测先验框的方向：

其中β_loc＝2,β_cls＝1,β_dir＝0.2；

L_dir表示方向损失，N_ops表示预测的正样本标注框数量。

为说明本申请效果起见，提供以下实验对比：

实验在IoU(交并比，反映预测检测框与真实检测框的检测效果)阈值为0.7下评估，学习率选择0.003，其随训练衰减，动量法的权值为0.9，优化器选择Adam算法，Batch大小为4，训练执行80轮。

AP(Average precision)表示平均精度，是主流的目标检测模型的评价指标；AP_BEV表示BEV视图下检测框的准确率；AP_3D表示3D检测框的准确率，采用AP|R11标准来进行计算。AP值越大，说明目标检测的准确率越高。本申请方法与上文所提到的基于点云特征的方法得到的AP_3D值对比如图6所示。本申请方法与使用点云特征的方法在Cyclists类别的简单、中等和困难三种难度下分别提高了2.13、1.51和1.47，如图7所示。实验结果证明了本申请所述的引入注意力机制的图像特征提取网络能够有效提高3D目标检测的精度。

显然，上述实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于注意力机制和图像特征融合的3D点云目标检测方法，其特征在于，包括：

2.如权利要求1所述的3D点云目标检测方法，其特征在于，所述图像特征提取网络主干为残差结构，包括依次设置的堆叠下采样层、注意力机制模块和SPPF模块；所述注意力机制模块基于CBAM注意力机制和坐标注意力机制。

3.如权利要求1所述的3D点云目标检测方法，其特征在于，所述点云特征编码器通过基于PointPillars的点云特征进行特征提取。

4.如权利要求1所述的3D点云目标检测方法，其特征在于，所述RGB图像的数据增强包括HSV色调变换、仿射变换和马赛克操作。