CN115238758A

CN115238758A - 一种基于点云特征增强的多任务三维目标检测方法

Info

Publication number: CN115238758A
Application number: CN202210383330.8A
Authority: CN
Inventors: 秦华标; 王妍
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-10-25

Abstract

本发明公开了一种基于点云特征增强的多任务三维目标检测方法。所述方法构建以三维目标检测为主任务，二维目标检测为辅助任务的多任务三维目标检测网络，并利用图像特征增强点云特征，包括以下步骤：构建三维目标检测模型，包括图像分支、点云分支、特征增强模块、二维目标检测头和三维目标检测头；获取训练数据，对三维目标检测模型进行训练，得到训练好的三维目标检测模型；对训练好的三维目标检测模型进行调整，输入待检测数据，得到三维目标检测框。本发明能够在完成二维目标检测时有效提升三维目标检测网络的准确率。

Description

一种基于点云特征增强的多任务三维目标检测方法

技术领域

本发明属于目标检测领域，具体是一种基于点云特征增强的多任务三维目标检测方法。

背景技术

目标检测算法一直是最近几年计算机视觉领域的重要研究方向之一，在智慧城市、自动驾驶等领域都有非常广泛的应用。相较于二维目标检测，三维目标检测可以获得被检测目标在真实世界坐标系中的位置以及尺寸信息，具有更广阔的发展前景及应用价值。

目前，三维目标检测主要分为基于体素的三维目标检测算法，基于原始点云的三维目标检测算法以及基于图像点云融合的三维目标检测算法。基于体素的三维目标检测算法将原始点云数据转化为体素网格的形式或其他二维特征来表征点云特征，再利用深度神经网络模型学习该表征获得检测结果；基于原始点云的三维目标检测算法则是直接对原始点云数据进行处理，并采用深度神经网络如多层感知机提取点云特征，获得三维检测结果；基于图像点云融合的三维目标检测算法则是同时对图像与点云数据进行处理，融合不同模态信息，获得新的特征表示从而获得三维检测结果。

相较于图像数据，点云数据具有无序性、稀疏性、分布不均等特点，纯点云检测方法需要对点云数据进行体素化或采样，导致部分信息的损失。因此，纯点云检测方法在小目标检测上存在一定的局限性。相较于点云数据，图像数据在小目标上拥有更丰富的纹理信息。然而，图像数据缺少尺寸以及位置信息，单纯依赖图像数据并不能获得可靠的三维信息。因此，点云与图像融合的三维目标检测算法获得了更多的关注。

基于融合的目标检测算法可以分为数据层融合，特征层融合以及决策层融合。数据层融合将传感器的观测数据融合，然后从融合的数据中提取特征向量，并进行判断识别；特征层融合则是先从每种传感器提供的观测数据中提取对应的特征，将这些特征融合成单一的特征向量，利用深度学习方法获得最终检测结果；决策层融合则是分别对每种传感器提供的观测数据进行检测，对检测结果进行目标级的融合。

MV3D、AVOD利用点云的鸟瞰图或前视图来生成3D候选框，再将3D目标候选从鸟瞰图投影到图像特征图来提取区域特征，并设计一种深度融合方法，以实现来自不同视图的中间特征层的交互，但是点云数据与图像数据视角的不一致会导致信息的损失。EPNet为图像点云双流网络，同时提取图像与原始点云特征，并通过融合模块融合中间层特征，但是图像特征的提取不受显式约束，不能有效提取图像特征。华炜等人在专利一种基于点云与图像数据的三维目标检测中提出一种决策层融合方法，将基于点云的三维检测的输出结果和基于图像的二维检测的结果进行融合，再对融合结果进行分类与后处理，但是两种检测任务在训练过程中独立，不能有效利用点云与图像数据的互补性。

发明内容

为了解决上述问题，本发明提供了一种基于点云特征增强的多任务三维目标检测方法，利用辅助任务引导图像特征提取，有效融合中间层图像特征与点云特征，充分利用图像数据与点云数据的互补性，提升了三维目标检测的精度。

本发明的目的至少通过如下技术方案之一实现。

一种基于点云特征增强的多任务三维目标检测方法，构建以三维目标检测为主任务，二维目标检测为辅助任务的多任务三维目标检测网络，并利用图像特征增强点云特征，如图3所示，包括以下步骤：

S1、构建三维目标检测模型，包括图像分支、点云分支、特征增强模块、二维目标检测头和三维目标检测头；

S2、获取训练数据，对三维目标检测模型进行训练，得到训练好的三维目标检测模型；

S3、对训练好的三维目标检测模型进行调整，输入待检测数据，得到三维目标检测框。

进一步地，步骤S1中，所述图像分支包括顺次连接的图像预处理模块、图像特征提取模块和图像特征融合模块；

图像分支的输入为二维图像数据，通过图像预处理模块获得尺寸为H×W的输入图像，将输入图像输入图像特征提取模块获得四个不同尺寸的图像特征，再通过图像特征融合模块对不同尺寸的图像特征进行反卷积，最终得到尺寸为H×W的融合图像特征。

进一步地，所述图像特征提取模块包括顺次连接的第一卷积块、第二卷积块、第三卷积块和第四卷积块，其中，第一卷积块的输入为图像预处理模块输出的尺寸为H×W的输入图像，输出为尺寸为H/2×W/2的第一图像特征，依次类推，第二卷积块、第三卷积块和第四卷积块分别得到尺寸为H/4×W/4、H/8×W/8和H/16×W/16的第二图像特征、第三图像特征和第四图像特征；

所述图像特征融合模块对第一图像特征、第二图像特征、第三图像特征和第四图像特征分别采用不同参数的反卷积得到四个尺寸为H×W的反卷积特征图，再将四个尺寸为H×W的反卷积特征图进行拼接，最后输入3×3卷积，获得尺寸为H×W融合图像特征。

进一步地，步骤S1中，所述点云分支包括顺次连接的点云预处理模块、点云特征提取模块和点云特征传播模块；点云分支的输入为三维点云坐标数据，通过点云预处理模块对输入的三维点云坐标数据进行预处理获得N个特征点坐标，得到包括N个特征点坐标的特征点集合，将特征点集合输入点云特征提取模块得到包括不同数量特征点的第一点云特征、第二点云特征、第三点云特征和第四点云特征，再通过点云特征传播模块进行上采样得到N个特征点的上采样点云特征。

进一步地，所述点云特征提取模块包括顺次连接的第一多层感知模块、第二多层感知模块、第三多层感知模块和第四多层感知模块；

所述特征增强模块包括第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块和第五特征融合模块；

第一多层感知模块的输入为N个特征点坐标的特征点集合，输出为N/4个点的第一点云特征及对应坐标；

第一特征融合模块接收第一卷积块和第一多层感知模块输出的第一图像特征和第一点云特征，进行特征融合，输出第一融合特征至第二多层感知模块；

第二多层感知模块的输入为N/4个特征点坐标的特征点集合以及第一融合特征，输出为N/16个点的第二点云特征及对应坐标；

第二特征融合模块接收第二卷积块和第二多层感知模块输出的第二图像特征和第二点云特征，进行特征融合，输出第二融合特征至第三多层感知模块；

第三多层感知模块的输入为N/16个特征点坐标的特征点集合以及第二融合特征，输出为N/64个点的第三点云特征及对应坐标；

第三特征融合模块接收第三卷积块和第一多层感知模块输出的第三图像特征和第三点云特征，进行特征融合，输出第三融合特征至第四多层感知模块；

第四多层感知模块的输入为N/64个特征点坐标的特征点集合以及第三融合特征，输出为N/256个点的第四点云特征及对应坐标；

第四特征融合模块接收第四卷积块和第四多层感知模块输出的第四图像特征和第四点云特征，进行特征融合，输出第四融合特征至点云特征传播模块；

第五特征融合模块接收图像特征融合模块和点云特征传播模块输出的融合图像特征和上采样点云特征，进行特征融合，输出第五融合特征至三维目标检测头。

进一步地，第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块和第五特征融合模块中，特征融合具体包括以下操作：

S1.1、根据雷达与相机坐标系之间的转换关系，将点云特征中的三维特征点投影到图像特征的图像上，获得点云特征中的三维特征点对应的二维图像点坐标；

S1.2、使用图像采样器对二维图像点周围的点进行采样，得到图像特征点集合；

S1.3、使用双线性插值获得图像特征点集合对应的图像特征集合，对图像特征集合中的图像特征进行加权求和，得到三维特征点的图像语义特征；

S1.4、利用全连接层将点云特征与对应的图像语义特征映射到相同通道，逐点相加，再通过激活函数得到图像特征权重W；

S1.5、将点云特征与带权重的图像特征拼接获得融合后的特征，将融合后的特征输入全连接层，获得最终的融合特征。

进一步地，步骤S1中，所述二维目标检测头的输入为图像分支输出的尺寸为H×W的融合图像特征，然后利用3×3卷积对融合图像特征进行降采样，获得尺寸为H/4×W/4的降采样图像特征，再将降采样图像特征分别送入三个相同结构的检测头，三个检测头的输出分别为尺寸为C×H/4×W/4、2×H/4×W/4和2×H/4×W/4的中心点特征图、中心点偏移量特征图和目标尺寸特征图，其中，C为检测目标种类数量；对中心点特征图、中心点偏移量特征图和目标尺寸特征图进行编码得到最终的二维检测框；

中心点特征图上每个点的值代表该点为目标中心点的概率，每个类别对应一个中心点特征图；中心点偏移量特征图上每个点的值代表该点为目标中心点时由于图像尺寸降采样导致的坐标偏移量；目标尺寸特征图上每个点的值代表该点为目标中心点时被检测目标的宽高；对于中心点特征图，使用3×3最大池化获得局部峰值点坐标，对局部峰值点的值排序，获得值最大的K个点，即为目标中心点；最后，根据中心点坐标，获得该点的偏移量以及对应目标的宽高，获得最终的二维检测结果。

进一步地，步骤S1中，所述三维目标检测头将点云特征传播模块得到的N个特征点的上采样点云特征输入三维检测头，得到最终三维预测框。

进一步地，步骤S2中，三维目标检测模型训练过程包括如下步骤：

S2.1、对于图像分支进行单独训练，输入图像及二维标签，二维目标检测头回归二维检测框，获得图像分支初始权重；

S2.2、对于点云分支进行单独训练，输入点云及三维标签，三维目标检测头回归三维检测框，获得点云分支初始权重；

S2.3、三维目标检测模型加载图像分支初始权重和点云分支初始权重，增加特征融合模块，将点云特征传播模块输出的上采样点云特征输入三维目标检测头，对图像数据和点云数据进行联合训练，同时回归三维检测框与二维检测框，获得三维目标检测模型最终权重。

进一步地，步骤S3中，关闭训练好的三维目标检测模型的二维目标检测头，提高三维目标检测模型的检测速率。

与现有技术相比，本发明至少具有以下技术效果：

本发明充分利用图像数据与点云数据的互补特性，构建一个以三维目标检测为主，二维目标检测为辅的多任务网络，通过图像分支引导图像特征提取并增强点云特征，在提高三维目标检测方法性能的同时可以获得二维目标检测结果。

附图说明

图1为本发明实施例中三维目标检测模型的结构示意图。

图2为本发明实施例中的图像分支卷积块结构示意图。

图3为本发明实施例中一种基于点云特征增强的多任务三维目标检测方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，下面结合本申请实施示例附图对本发明的具体实施方式做进一步说明。所描述的实施例仅是本申请的一部分实施例，不是全部的实施例。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明采用KITTI数据集作为实验数据集，该数据集包括7481组数据，每一组数据包含该场景的图像数据，点云数据，标注信息以及相机雷达标定参数，检测目标为汽车，行人以及骑车的人三大类别。

实施例1：

一种基于点云特征增强的多任务三维目标检测方法，构建以三维目标检测为主任务，二维目标检测为辅助任务的多任务三维目标检测网络，并利用图像特征增强点云特征，包括以下步骤：

所述图像分支包括顺次连接的图像预处理模块、图像特征提取模块和图像特征融合模块；

本实施例中，图像分支的输入为二维图像数据，图像预处理模块对图像数据进行尺寸统一，归一化处理以及标签制作；图像标签包含目标中心点热图，其尺寸为H/4×W/4×C，C代表类别个数；目标中心点热图利用高斯函数生成，被检测目标标签的中心点设置为1，中心点周围像素点的值呈现高斯分布。

通过图像预处理模块获得尺寸为H×W×3的输入图像，H为图像高度，W为图像宽度，将输入图像输入图像特征提取模块获得四个不同尺寸的图像特征，再通过图像特征融合模块对不同尺寸的图像特征进行反卷积，最终得到尺寸为H×W的融合图像特征。

所述图像特征提取模块包括顺次连接的第一卷积块、第二卷积块、第三卷积块和第四卷积块，本实施例中，如图2所示，所述图像特征提取模块包括顺次连接的第一卷积块、第二卷积块、第三卷积块和第四卷积块，每个卷积块由两个基础卷积模块构成，每个基础卷积模块由两个3×3卷积，批归一化层以及LeakyRelu层构成。其中，第一个3×3卷积的步长为1，保持输入特征图尺寸不变；第二个3×3卷积的步长为2，输出特征图尺寸为输入特征图尺寸的1/2；

第一卷积块的输入为图像预处理模块输出的尺寸为H×W的输入图像，输出为尺寸为H/2×W/2的第一图像特征，依次类推，第二卷积块、第三卷积块和第四卷积块分别得到尺寸为H/4×W/4、H/8×W/8和H/16×W/16的第二图像特征、第三图像特征和第四图像特征；

所述点云分支包括顺次连接的点云预处理模块、点云特征提取模块和点云特征传播模块；点云分支的输入为三维点云坐标数据，每一帧原始点云包含10W以上的点。为了提升网络的运行速率，需要对点云数据进行预处理；点云预处理模块首先对原始点云数据进行筛选，保留规定范围的点云。在雷达坐标系下，该范围为x方向0到70.4米，y方向-40到40米，z方向-3到1米。接下来，将三维雷达点P投影到图像上获得其对应点P′，P′需要在1280*384的图像范围内。点云投影公式如下所示：

P′＝P₂*R₀*Tr_velo2cam*P

其中，P₂是相机参数矩阵，R₀是矫正后的相机旋转矩阵，Tr_velo2cam为雷达坐标系到相机坐标系的旋转矩阵。

对于筛选后的点，点云预处理模块再进行降采样，保存40米以外的所有点，对近距离的点进行随机采样，获得16384个点及其对应的图像点坐标。

点云预处理模块对点云数据进行数据增强，数据增强方法包括全局翻转，全局旋转以及全局缩放。

通过点云预处理模块对输入的三维点云坐标数据进行预处理获得N个特征点坐标，得到包括N个特征点坐标的特征点集合，将特征点集合输入点云特征提取模块得到包括不同数量特征点的第一点云特征、第二点云特征、第三点云特征和第四点云特征，再通过点云特征传播模块进行上采样得到N个特征点的上采样点云特征。

所述点云特征提取模块包括顺次连接的第一多层感知模块、第二多层感知模块、第三多层感知模块和第四多层感知模块；

本实施例中，每一个多层感知模块由最远点采样，多层感知机以及池化层构成，依次可以得到4096，1024，256，64个特征点的点云特征。接下来，利用特征传播模块对点云特征进行上采样，得到16384个特征点的上采样点云特征。

第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块和第五特征融合模块中，特征融合具体包括以下操作：

本实施例中，对于每一个点P，通过透视投影关系投影到图像上，获得该点对应的坐标P′，将P′坐标归一化到[-1，1]之间。

本实施例中，图像采样器输入为采样位置P′，对图像点P′周围的4个点进行采样，获得一个包含5个点的图像特征集合。

本实施例中，对上述图像特征进行拼接，获得每个点的图像语义特征V，可公式化如下：

V(P)＝C(F(B(P′))

其中V(P)是点P的区域图像特征，B(P′)表示采样位置P′的相邻像素集合，F表示输入图像特征，C表示对图像特征进行拼接。相机图像受到许多因素的挑战，包括照明、遮挡等。在这些情况下，逐点引入图像特征的同时也会引入干扰信息。因此，采用了多特征点融合层，通过多个特征点图像特征，减少噪声数据干扰。

本实施例中，将点云特征F_P和图像特征F_I分别输入到全连接层，将它们映射到同一通道中。然后，将它们进行逐点相加，获得一个全新的特征表示，再通过全连接层以及激活函数获得一个归一化到[0，1]的范围内的权重表示，可用以下公式表示：

W＝sigmod(tanh(F_P+F_I))；

S1.5、将点云特征与带权重的图像特征拼接获得融合后的特征，将融合后的特征输入全连接层，获得最终的融合特征；

本实施例中，将点云特征F_P和图像特征wF_I进行拼接即可获得融合后的点云特征，融合后的特征如下所示：

F_fusion＝F_P+wF_I。

所述二维目标检测头的输入为图像分支输出的尺寸为H×W的融合图像特征，然后利用3×3卷积对融合图像特征进行降采样，获得尺寸为H/4×W/4的降采样图像特征，再将降采样图像特征分别送入三个相同结构的检测头，三个检测头的输出分别为尺寸为C×H/4×W/4、2×H/4×W/4和2×H/4×W/4的中心点特征图、中心点偏移量特征图和目标尺寸特征图，其中，C为检测目标种类数量；对中心点特征图、中心点偏移量特征图和目标尺寸特征图进行编码得到最终的二维检测框；

本实施例中，所述三维目标检测头将点云特征传播模块得到的N个特征点的上采样点云特征输入经典网络PointRCNN的三维检测头，得到最终三维预测框。

S2、获取训练数据，对三维目标检测模型进行训练，得到训练好的三维目标检测模型，包括如下步骤：

本实施例中，图像分支采取Focal Loss损失函数回归中心点坐标，采用L1损失函数回归中心点偏移量以及检测框尺寸，损失函数权重分别为1、1以及0.1。

联合训练时，为了保持点云数据与图像数据的一致性，不对点云数据以及图像数据进行数据增强。联合训练三维目标检测模型的损失函数为图像分支与点云分支损失函数的加权和，该公式如下所示：

Loss＝αLoss_3D+βLoss_2D

其中，Loss为总损失，Loss_3D为点云分支损失，Loss_2D为图像分支损失，α，β分别为两个分支的损失函数权重，分别取1。对总损失进行反向传播，并更新三维目标检测模型的总体权重；反复执行上述过程，直到总损失不再降低时完成训练。

S3、对训练好的三维目标检测模型进行调整，关闭训练好的三维目标检测模型的二维目标检测头，提高三维目标检测模型的检测速率，入待检测数据，得到三维目标检测框。

实施例2：

本实施例中，与实施例1不同，本实施例设置了不同的损失函数权重，从而使网络具有不同的学习能力。

网络的整体损失函数包括点云分支损失函数以及图像分支损失函数。在本实施例中，将点云分支损失函数设置为1，图像分支损失函数设置为5。图像分支损失函数占比越大，图像分支特征提取能力越强。相应的，点云分支损失函数占比较小，点云分支特征提取能力越弱。

实施例3：

本实施例中，与实施例1不同，在特征融合模块中，本实施例中提供针对KITTI数据集多分类目标检测的图像采样器参数：

根据P′所在位置，使用图像特征采样器采样该点周围的4个邻域点坐标及其对应的图像特征。将采样点记为P₁、P₂、P₃、P₄，采样点的坐标公式如下所示。

其中，u_x、v_y为特征图采样尺寸，与实验数据集分布密切相关。在KITTI数据集中，目标的平均宽度与原图的宽度比例约为0.08，目标的平均高度与原图的高度比例约为0.20。根据被检测目标的平均尺寸，将参数u_x、v_y设置为0.08以及0.2。

本实施例提供的一种基于图形特征增强的多任务三维目标检测方法，利用图像数据与点云数据的互补特性，有效提取图像特征提取，并利用多点图像特征融合对应点云特征，减少噪声点带来的误差，有效融合图像特征与点云特征。在网络联合训练时，添加点云形状增强，在不破坏图像与点云数据的一致性下有效增强点云数据，提升三维目标检测性能。此外，在网络推理时，关闭辅助任务检测头，加速网络推理速率。

Claims

1.一种基于点云特征增强的多任务三维目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S1中，所述图像分支包括顺次连接的图像预处理模块、图像特征提取模块和图像特征融合模块；

3.根据权利要求2所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，所述图像特征提取模块包括顺次连接的第一卷积块、第二卷积块、第三卷积块和第四卷积块，其中，第一卷积块的输入为图像预处理模块输出的尺寸为H×W的输入图像，输出为尺寸为H/2×W/2的第一图像特征，依次类推，第二卷积块、第三卷积块和第四卷积块分别得到尺寸为H/4×W/4、H/8×W/8和H/16×W/16的第二图像特征、第三图像特征和第四图像特征；

4.根据权利要求3所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S1中，所述点云分支包括顺次连接的点云预处理模块、点云特征提取模块和点云特征传播模块；点云分支的输入为三维点云坐标数据，通过点云预处理模块对输入的三维点云坐标数据进行预处理获得N个特征点坐标，得到包括N个特征点坐标的特征点集合，将特征点集合输入点云特征提取模块得到包括不同数量特征点的第一点云特征、第二点云特征、第三点云特征和第四点云特征，再通过点云特征传播模块进行上采样得到N个特征点的上采样点云特征。

5.根据权利要求4所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，所述点云特征提取模块包括顺次连接的第一多层感知模块、第二多层感知模块、第三多层感知模块和第四多层感知模块；

6.根据权利要求5所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，第一特征融合模块、第二特征融合模块、第三特征融合模块、第四特征融合模块和第五特征融合模块中，特征融合具体包括以下操作：

7.根据权利要求1所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S1中，所述二维目标检测头的输入为图像分支输出的尺寸为H×W的融合图像特征，然后利用3×3卷积对融合图像特征进行降采样，获得尺寸为H/4×W/4的降采样图像特征，再将降采样图像特征分别送入三个相同结构的检测头，三个检测头的输出分别为尺寸为C×H/4×W/4、2×H/4×W/4和2×H/4×W/4的中心点特征图、中心点偏移量特征图和目标尺寸特征图，其中，C为检测目标种类数量；对中心点特征图、中心点偏移量特征图和目标尺寸特征图进行编码得到最终的二维检测框；

8.根据权利要求1所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S1中，所述三维目标检测头将点云特征传播模块得到的N个特征点的上采样点云特征输入三维检测头，得到最终三维预测框。

9.根据权利要求1所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S2中，三维目标检测模型训练过程包括如下步骤：

10.根据权利要求1～9任一项所述的一种基于点云特征增强的多任务三维目标检测方法，其特征在于，步骤S3中，关闭训练好的三维目标检测模型的二维目标检测头，提高三维目标检测模型的检测速率。