CN113159151B

CN113159151B - 面向自动驾驶的多传感器深度融合3d目标检测方法

Info

Publication number: CN113159151B
Application number: CN202110391620.2A
Authority: CN
Inventors: 张燕咏; 祝含颀; 吉建民; 张昱
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-09-06
Anticipated expiration: 2041-04-12
Also published as: CN113159151A

Abstract

本发明公开了一种面向自动驾驶的多传感器深度融合3D目标检测方法，通过边缘校准技术，有效解决了传感器时空不同步的问题，通过目标中心数据增强，有效解决了标注不足时的深度估计模型训练问题，通过不确定性估计技术、场景关联损失函数，有效提高了深度估计模型在场景变化条件下的鲁棒性和精度。通过2D‑3D无损信息转化、体素转换为点技术、由粗到细的深度对齐、多分支监督流，有效的解决了不同模态特征空间不一致且转换有信息损失问题，最终的架构可以在自动驾驶场景中，增强多模态信息的互补作用，降低多模态信息相互之间的干扰，在遮挡、点云稀疏、光照变化等场景下均取得良好表现。

Description

面向自动驾驶的多传感器深度融合3D目标检测方法

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种面向自动驾驶的多传感器深度融合3D目标检测方法。

背景技术

3D目标检测在无人驾驶、机器人、增强现实等场景具有广泛应用。相比普通的2D检测，3D检测额外提供了目标物体的长宽高和偏转角信息。是三维场景理解、自主决策规划的重要感知基础。目前存在以下几种代表性的融合方案。

MV3D是第一个融合LiDAR BEV特征和相机前视图特征的工作，但是由于特征未对齐，效果并不好。

多任务多传感器融合技术(Ming Liang,Bin Yang,Yun Chen,Rui Hu,RaquelUrtasun；Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),2019,pp.7345-7353)利用多任务学习(2D和3D目标检测、地面估计和深度估计)，将多层次的图像和LiDAR3D特征在各自的特征空间分别提取特征，在多任务多传感器融合技术中，深度估计只是在多传感器功能图之间建立密集对应关系的辅助任务，没有显式的进行对齐，而是直接拼接融合多模态特征。

PointPainting方案(Alex H.Lang,SourabhVora,Holger Caesar,Lubing Zhou,Jiong Yang,Oscar Beijbom；PointPainting:Sequential Fusion for 3D ObjectDetection；Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),2019,pp.12697-12705)将LiDAR点投影到图像平面，并将投影的LiDAR点与从图像语义分割中获得的分类信息融合，采用了从3D到2D的简单的特征对齐方法，但是，仅利用密集图像中包含的稀疏信息产生了信息损失。

F-ConvNet使用2D检测器生成2D区域提议，将其投影到3D视锥，并使用PointNet获得3Dbox。因此，其性能受到2D检测器的限制。

3D-CVF(3D-CVF:Generating Joint Camera and LiDAR Features Using Cross-view Spatial Feature Fusion for 3D Object Detection ECCV 2020pp 720-736)提取2D图像特征，将其投影到3D LiDAR空间，通过自适应注意力网络融合这两个特征，最后通过基于3D兴趣区域(ROI)对结果进行两阶段的优化，采用了从2D到3D的对齐方法，由于在3D空间中对齐，因此效果较好，但是图像特征在投影到LiDAR空间之前会先进行多倍下采样，并且会丢失密集2D像素和3D空间之间的细粒度空间对应。

CLOCS(CLOCs:Camera-LiDAR Object Candidates Fusion for 3D ObjectDetection，IROS 2020pp 1250-1256)将现有点云检测器和图像检测器的输出结果进行后融合，通过2D边框和3D边框的一致性进行置信度重打分。EPNet使用两个流RPN来编码LiDAR点和图像特征，并增强点特征通过将LiDAR点投影到像平面来具有语义图像特征，但是，该方案依然仅利用了密集图像中包含的稀疏信息。

以上方法显示了多传感器融合的可行性。但是，它们中的许多融合模块紧耦合于特定的LiDAR检测网络，无法在应用时根据需要进行裁剪，而且由于它们在不同空间之间的投影过程中经常会丢失信息，且没有细粒度的像素级对齐，上述融合网络的性能会受到限制。

发明内容

本发明的目的是提供一种面向自动驾驶的多传感器深度融合3D目标检测方法，以深度估计为桥梁进行图像-激光雷达的在3D空间中的特征融合和对齐，提高了感知精度和鲁棒性，提升了目标检测效果。

本发明的目的是通过以下技术方案实现的：

一种面向自动驾驶的多传感器深度融合3D目标检测方法，包括：

通过训练阶段优化得到的深度估计模型对当前双目图像进行估计，得到深度估计结果，再转换为3D空间中的伪点云数据；

伪点云数据和点云数据通过体素化方法分别得到体素化特征网格，通过稀疏卷积网络之后得到下采样后的稀疏特征，通过将3D的稀疏特征在z轴方向拍平并拼接，得到2D的鸟瞰图特征；

将两类2D的鸟瞰图特征作为输入，进入堆叠可形变卷积校准模块；通过堆叠可形变卷积校准模块，将点云数据的鸟瞰图特征和伪点云数据的鸟瞰图特征在特征通道维度拼接，进入卷积层产生2D偏移量，对伪点云数据的鸟瞰图特征以该2D偏移量作为指导提取点云指导的特征，即从伪点云数据的鸟瞰图特征中提取对齐后的特征，最后通过直接拼接的方式融合对齐后的特征与点云数据的鸟瞰图特征，结合融合特征实现目标检测。

由上述本发明提供的技术方案可以看出，通过边缘校准技术，有效解决了传感器时空不同步的问题，通过目标中心数据增强，有效解决了标注不足时的深度估计模型训练问题，通过不确定性估计技术、场景关联损失函数，有效提高了深度估计模型在场景变化条件下的鲁棒性和精度。通过2D-3D无损信息转化、体素转换为点技术、由粗到细的深度对齐、多分支监督流，有效的解决了不同模态特征空间不一致且转换有信息损失问题，最终的架构可以在自动驾驶场景中，增强多模态信息的互补作用，降低多模态信息相互之间的干扰，在遮挡、点云稀疏、光照变化等场景下均取得良好表现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种面向自动驾驶的多传感器深度融合3D目标检测方法的框架图；

图2为本发明实施例提供的边缘修正的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

多模态融合是提高感知精度和鲁棒性的一个未来方向，然而多传感器时空不同步、不同模态特征空间不一致且转换有信息损失等问题，使得在自动驾驶场景感知中多模态融合的结果并不能超出单一模态的最好结果。针对以上问题，本发明提供了一种面向自动驾驶的多传感器深度融合3D目标检测方法，该方法采用了一种新颖的深度中心融合架构，将深度估计为桥梁进行图像-激光雷达的在3D空间中的特征融合和对齐，如图1所示，为整个方案的框架图，该方法包括：训练阶段与测试阶段，训练阶段主要是针对图1所示的框架进行训练，之后，通过训练的网络推理得到3D目标检测结果；具体来说：

训练阶段：通过一个预训练的深度估计网络得到当前双目图像的深度估计结果(也即，稠密深度图)；同时，使用预训练的语义分割模型对当前双目图像进行处理，得到语义分割结果(也即，前景物体的掩码)；

利用语义分割结果与所述深度估计结果结合，得到前景物体的中心深度分布，再通过激光雷达采集的点云数据中前景物体的3D包围盒对所述深度估计结果进行边缘修正，并通过相机矩阵和2D-3D无损信息转化技术转换为3D空间中的伪点云数据；

伪点云数据和点云数据通过体素化方法分别得到体素化特征网格，通过稀疏卷积网络之后得到下采样后的稀疏特征，通过将3D的稀疏特征在z轴方向拍平并拼接，得到2D的鸟瞰图特征；将两类2D的鸟瞰图特征作为输入，进入堆叠可形变卷积校准模块；通过堆叠可形变卷积校准模块，将点云数据的鸟瞰图特征和伪点云数据的鸟瞰图特征在特征通道维度拼接，进入卷积层产生2D偏移量，对伪点云数据的鸟瞰图特征以该2D偏移量作为指导提取点云指导的特征，即从伪点云数据的鸟瞰图特征中提取对齐后的特征，最后通过直接拼接的方式融合对齐后的特征与点云数据的鸟瞰图特征，结合融合特征实现目标检测；其中，对于融合特征，以及对齐后的特征，通过分别设置的监督分支和相应真值进行比较产生监督信息回传网络进行训练，并按照实际效果设定权重参数。

可选的，可以进一步通过ROI Head(兴趣区域检测头)得到细化的检测结果，如图1所示，将点云数据的体素化特征网格，采用体素转化为点技术变换为三维点云形式，再与之前得到的融合特征进行特征聚合得到3D结果，从而获得更为细化的目标检测结果。通常一阶段速度更快，两阶段精度更高(一阶段是ROIhead之前，二阶段指的是ROIhead这一部分)，可以根据实际需求替换。

优选的，训练阶段，还通过深度估计网络估计深度估计结果各深度的不确定度，并将不确定度s作为一个特征通道添加在伪点云上(即xyz+s)，不确定度在体素化网络中被处理，将体现在体素网格特征中。

优选的，训练阶段，还利用伪点云数据与点云数据进行数据增强：将伪点云数据与点云数据，通过点云数据中前景物体的3D包围盒截取其中的点云和伪点云并保存入数据库，在训练阶段粘贴到对应场景中，从而扩充了训练阶段的数据。本领域技术人员可以理解，场景等同于训练阶段的数据(即点云数据与伪点云数据)，相应的，增加了数据等同于扩充了场景。

优选的，训练阶段，对深度估计的真值(3D边框的人工标注)的损失函数，按照语义分割结果中不同类别属性进行加权约束，从而对预训练的深度估计网络进行优化。

测试阶段与训练结果的主要过程类似，但无需使用预训练的语义分割模型及相关的语义分割结果，包括：通过训练阶段优化得到的深度估计模型对当前双目图像进行估计，得到深度估计结果，再转换为3D空间中的伪点云数据；伪点云数据和点云数据通过体素化方法分别得到体素化特征网格，通过稀疏卷积网络之后得到下采样后的稀疏特征，通过将3D的稀疏特征在z轴方向拍平并拼接，得到2D的鸟瞰图特征；将两类2D的鸟瞰图特征作为输入，进入堆叠可形变卷积校准模块；通过堆叠可形变卷积校准模块，将点云数据的鸟瞰图特征和伪点云数据的鸟瞰图特征在特征通道维度拼接，进入卷积层产生2D偏移量，对伪点云数据的鸟瞰图特征以该2D偏移量作为指导提取点云指导的特征，即从伪点云数据的鸟瞰图特征中提取对齐后的特征，最后通过直接拼接的方式融合对齐后的特征与点云数据的鸟瞰图特征融合，结合融合特征实现目标检测。

类似的，测试阶段，也可以通过ROI Head(兴趣区域检测头)得到细化的检测结果。

本发明实施例提供的面向自动驾驶的多传感器深度融合3D目标检测方法中，核心主要包括：场景关联损失函数、目标中心数据增强、不确定性估计技术、边缘校准技术、2D-3D无损信息转化、体素转换为点技术、由粗到细的深度对齐、多分支监督流；

下面针对以上八个部分做详细的介绍。

一、边缘修正。

由于深度估计不正确，深度图像通常包含错误。如图2所示，为边缘修正前后的示例，其中的(a)和(c)两部分中的两个典型示例图像都有错误(左侧的两个图片)。仔细检查了深度估计误差的空间分布，发现物体边界上的误差通常高于内部位置的误差。

本发明实施例中，将双目图像分别输入至预训练的语义分割模型与预训练的双目深度估计网络，生成语义分割掩码和深度估计结果。双目深度估计网络可使用PSMNet作为backbone(骨干网络)，使用激光雷达投影点作为Ground truth(真值)。

本发明实施例中，边缘修正的优选实施方式包括：选择在KITTI数据集深度估计任务预训练的双目深度估计模型，以及coco数据集预训练的语义分割模型；所述深度估计结果为双目图像对应的深度图，先根据数据集的3D标注，可以得到点云中的前景物体的3DBox(3D包围盒)；将3DBox中心的X轴坐标投影到2D平面。这样就可以得到三种不同的数据：3DBox的3D空间距离(垂直于相机视平面)、深度图(X轴深度)，以及2D空间中的前景掩码，进一步得到掩码中的前景点和背景点。之后，设定一个阈值B，剔除前景掩码中，所有3D包围盒中心X坐标和深度图中X坐标距离大于阈值B的点，从而纠正相机与雷达视角不一致产生的误差，时避免了使用更多的标注。再根据不同的类别(人，车，自行车等)，可以设置不同的阈值范围。

if P-Depth_Center＞B∶P∈outlier

最后，通过相机矩阵结合2D-3D无损信息转化技术转换为3D空间中的伪点云数据。

二、目标中心数据增强。

本发明实施例中，对于伪点云数据，扣取设定范围内(例如，20m)的物体存入数据库，同时存储相应3D包围盒真值，由于近距离处的物体点云密集，且形状准确，可以插入到场景中的任意距离作为增强的数据。且能够提供密集的真值作为训练监督，用来反向增强深度估计网络的性能。数据增强使用数据库内的物体3D包围盒真值，设定全局旋转、全局缩放和/或全局反转操作的范围。全局的旋转范围为[-pi/4～pi/4],缩放范围为[0.95～1.05]。

三、场景关联损失函数。

本发明实施例中，利用语义分割结果对深度估计的损失函数进行约束，使深度估计网络更关注前景物体的检测精度，表示为：

Loss₁＝α*L_Foreground+β*L_background

其中，L_Foreground、L_background分别表示语义分割得到的前景物体(人车)、背景物体(树木，建筑等)；α与β为设置的比例系数，例如，α设置为0.1，β设置为1。

本发明实施例中，前景物体使用的类别可以包括：车辆、行人、自行车、道路等；背景物体使用的类别可以包括：建筑物、天空、草地、植被、交通标志等。

本发明实施例中，对于有稀疏的LiDAR(点云数据)的部分，使用点云数据作为Ground truth(真值)，没有LiDAR的部分，使用预训练的深度估计模型产生的结果作为伪Ground truth(真值)。深度设定为最大值80m。如果不使用伪GT作为监督的一部分，会由于天空部分缺乏纹理信息，出现错误深度估计，干扰投影到BEV鸟瞰图(见上文)后的伪点云质量。同时由于动态物体的存在，还需要对运动过程中产生的校准误差进行补偿，按车辆速度进行筛选训练样本，将速度小于8m/s的样本剔除训练集之外，可以有效避免动态物体的影响。

同时，由于数据增强我们可以得到生成点云object level(物体级别)的掩码，可以对物体内部形状的学习进行进一步的约束，使用中心距离损失估计物体真实分布和估计分布之间的形态学距离。对于一个数据分布，求得一个均值中心位置Z，则其他所有位置相对中心位置的距离即反映该物体的形状。smooth_L1为一种计算估计-真值损失的函数。

Loss₂＝smooth_L1(D_估计-Z_估计,D_真值-Z_真值)

其中，D_估计、D_真值分别为前景物体A的掩码的每个像素的估计深度、真实深度；Z_估计、Z_真值分别为前景物体A的估计的中心深度、真实中心深度。

综合上述两类损失函数，得到场景关联损失函数为：

Loss＝Loss₁+Loss₂

通过场景关联损失函数对深度估计网络进行优化后，可以得到更加精确的深度估计结果，深度估计网络进入流程大循环可以二次迭代得到相比预训练深度估计网络更加准确的3D结果。

四、不确定性估计。

双目深度估计目前普遍使用的网络PSMNet是一个基于代价体的方法，每一个估计的深度是代价体的加权平均。例如一个代价体宽度为40，代表0～80m，每格2m，则d表示当前格的距离大小，sigmoid(-c)表示网络对当前深度的置信度。通过加权得到最终的平均置信深度作为预测深度。

代价体代表了估计深度的一种分布，分布往往集中在某一个确定的峰值，但是如果出现两个峰值，说明存在一定的不确定性。因此，需要在训练阶段对代价体中存在的这种不确定性进行定量的估计，例如边缘部分的不确定性很大，但是网络依然会对不确定的深度输出一个值。显然这个值是不正确的，但是如果直接将不正确的深度转换成伪点云，会使得鸟瞰图上物体的形状出现很大的噪声，进一步的导致融合效果变差。通过计算分布的TopK个最大峰值的距离和幅度差异，得到不确定度。

uncertainty＝variancecd1，c_d2…c_dk)

其中，variance表示方差。

所得的不确定度作为一个特征通道，添加在伪点云上。即xyz+s。

五、2D-3D无损信息转化技术。

本发明实施例中，利用相机参数将2D像素点投影到3D空间，可以将深度图像中的像素(u,v)映射到3D空间，转换后的三维坐标表示为：

z＝D(u,v)

其中，(C_u,C_v)表示相机坐标的中心，也即相机参数；f_U表示水平焦距，f_V表示垂直焦距。

本发明实施例中，可以使用KITTI数据集提供的相机矩阵。基于相机矩阵，可以将2D像素投影到3D点，并以基于点或基于体素的方式对其进行处理以进行后续检测。

六、由粗到细的深度对齐。

本发明实施例中，通过2D-3D无损信息转化，深度图被转化成了3D坐标点(即伪点云数据)。对于转换得到的伪点云数据与激光雷达采集的点云数据，进一步转化为体素，并使用稀疏卷积进行特征提取。示例性的，体素的分辨率为[0.05m,0.05m,0.05m]，每个体素单元最大容纳5个点。每个体素网格内点的特征可以改写为[xyz，cluster(xyz),center(xyz)]。其中xyz为点的绝对三维坐标，cluster(xyz)为三维坐标到5个点的聚类中心的偏移量。center(xyz)为三维坐标到体素网格中心的偏移量。特征共九维。所有体素[Batch，长*宽*高，5*9]被输入一个共享权重的全连接层，输出[Batch，长*宽*高，16]的聚合后的特征。这个特征进一步被输入稀疏卷积网络，提取得到3D的稀疏特征，并进一步的在Z轴方向压缩特征通道大小，拍平得到2D的鸟瞰图特征。

对于伪点云体素网络的每个体素网格，使用可形变卷积在鸟瞰图特征上学习一个偏移量，即通过点云指导伪点云的自适应采样，偏移量可以以端到端的方式训练，达到pixel level(像素级)对齐的效果，通过下一步的体素转化为点技术和ROI pooling(兴趣区域池化)操作进行refine(精炼)。

可形变卷积操作需要在二维空间中进行。普通的卷积操作分为两部分，第一部分为：在输入的特征图(即鸟瞰图特征)上使用规则网格R进行采样。网格的尺寸为设计者定义的大小，通常大小为3x3。即卷积核的窗口大小。规则网格R定义了感受野的大小；

R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}

第二部分为：对第一部分每个位置p₀输出的特征，将其窗口内的所有特征值和卷积核的权重相乘，进行加权运算，通过下列式子进行计算。其中，p_n是对规则网格R中所列位置的枚举。

其中，w为权重。

可形变卷积的操作是不同的，在可形变网络的操作中，规则网格R通过增加一个偏移量Δp_n进行扩张，同样的位置p₀变为：

由于采样的位置变成了不规则位置，且偏移量Δp_n通常是小数，因此通过双线性插值法进行实现，具体的，通过双线性插值法在x方向与y方向进行插值，得到双线性插值之后的结果，最终可以得到偏移的采样，使得特征得到对齐。

上述在可形变卷积中，x(.)为伪点云的鸟瞰图特征，y(.)为伪点云的对齐后的特征，括号中的参数为特征中的位置点；Δp_n是利用点云的鸟瞰图特征与伪点云的鸟瞰图特征，学出来的偏移量，示例性的，可以直接拼接两个特征，用一个卷积层输出每个位置的[Δp_x、Δp_y]。

示例性的，如果要得到函数f在点P＝(x,y)的值，假设已知函数f在Q₁₁＝(x₁,y₁)、Q₁₂＝(x₁,y₂),Q₂₁＝(x₂,y₁)以及Q₂₂＝(x₂,y₂)四个点的值，最常见的情况，f就是一个像素点的像素值。

首先在x方向进行线性插值，得到x方向的插值后的结果，

用同样的方法可以在y方向上进行插值，得到双线性插值之后的结果。

考虑到实际应用中对精度和效率的平衡，可以堆叠不同数量的可形变卷积模块。经过实验观察，在4倍鸟瞰图下采样特征下(鸟瞰图分辨率为1.6m，1.6m)时堆叠3个模块，提取粗粒度的特征对齐信息，在正常鸟瞰图下采样特征下(鸟瞰图分辨率为0.4m，0.4m)时堆叠1个模块，提取细粒度的特征对齐信息之后，将其凭借在一起进入后续网络，可以较好的平衡时间和精度。

七、多分支监督流。

在训练阶段的多个阶段对不同模态分别添加监督可以有效促进特征融合，模态包括：点云伪点云融合的鸟瞰图特征、对齐后的单独的伪点云鸟瞰图特征。

这两类监督分支所执行的任务均为常规技术。示例性的：任务主要是3D包围盒的分类和回归；其中分类指的是输出3D包围盒的类别和置信度，本实例中的类别主要有车、行人、骑车的人，置信度是一个0～1之间的浮点数；回归的输出格式也是一个(一些)浮点数，浮点数的值跟真值越接近越好；进一步的，回归可以细化为回归位置(xyz)、回归旋转(r)、回归包围盒大小(whl)；由于伪点云参与分类容易导致过拟合，导致精度反而下降，因此点云分类权重为1，伪点云分类权重为0，具体权重可以根据实际情况调整；例如回归中，融合特征的所有回归权重可以设定为1，而伪点云所有回归权重可以设定为较小的值，例如0.3。多分支监督是必须的步骤，因为如果没有此环节，伪点云信息在融合过程中会被精度更高的点云分支占据主导，导致整个梯度优化过程逐步偏离伪点云的全局最优方向，最终导致融合效果不如单模态。

八、体素转换为点技术。

本发明实施例中，通过point(点云)生成的Voxel(体素)可以通过每个体素网格的下标索引，以及网络下采样的倍率，逆向转换回点云坐标，经过点云聚合网络(pointnet++)进行聚合，由于体素本身就是经过卷积网络处理过的。这样可以避免重复对原始点云提取特征，保证了检测器的效率。此外还可以通过多尺度的特征聚合，即将不同分辨率的体素转换为点，例如选取4倍下采样和8倍下采样的特征。提高点云聚合网络的上下文信息，提高检测精度。

应用体素转换为点技术后，将与之前的融合特征拼接，再通过ROIhead做细化的检测；流程如下：使用双线性插值将鸟瞰图特征拼接到体素转化为点云特征上作为增强后的体素转化为点云特征，在ROIhead(兴趣区域检测头)之中，使用点云聚合网络pointnet++，将一阶段产生的数量众多的ROI区域的3D包围盒通过NMS(非极大值抑制)，选取出不相交的若干最大置信度包围盒。将选取出的包围盒按长宽高划分为6*6*6个网格点，用这些网格点作为查询点，设定一定的查询半径，对增强后的体素转化为点云特征进行查询。(4倍下采样和8倍下采样分别为(0.4m，0.8m)，(0.8，1.6m))，最终聚合得到每个ROI前景兴趣区域的全连接特征，输出最终的检测结果。

本发明实施例上述方案中，通过边缘校准技术，有效解决了传感器时空不同步的问题，通过目标中心数据增强，有效解决了标注不足时的深度估计模型训练问题，通过不确定性估计技术、场景关联损失函数，有效提高了深度估计模型在场景变化条件下的鲁棒性和精度。通过2D-3D无损信息转化、体素转换为点技术、由粗到细的深度对齐、多分支监督流，有效的解决了不同模态特征空间不一致且转换有信息损失问题，最终的架构可以在自动驾驶场景中，增强多模态信息的互补作用，降低多模态信息相互之间的干扰，在遮挡、点云稀疏、光照变化等场景下均取得良好表现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种面向自动驾驶的多传感器深度融合3D目标检测方法，其特征在于，包括：

将两类2D的鸟瞰图特征作为输入，进入堆叠可形变卷积校准模块；通过堆叠可形变卷积校准模块，将点云数据的鸟瞰图特征和伪点云数据的鸟瞰图特征在特征通道维度拼接，进入卷积层产生2D偏移量，对伪点云数据的鸟瞰图特征以该2D偏移量作为指导提取点云指导的特征，即从伪点云数据的鸟瞰图特征中提取对齐后的特征，最后通过直接拼接的方式融合对齐后的特征与点云数据的鸟瞰图特征，结合融合特征实现目标检测；

训练阶段：通过场景关联损失函数预训练的深度估计网络得到当前双目图像的深度估计结果；同时，使用预训练的语义分割模型对当前双目图像进行处理，得到语义分割结果；利用语义分割结果与所述深度估计结果结合，得到前景物体的中心深度分布，再通过激光雷达采集的点云数据中前景物体的3D包围盒对所述深度估计结果进行边缘修正，并通过相机矩阵和2D-3D无损信息转化技术转换为3D空间中的伪点云数据；

伪点云数据和点云数据通过体素化方法分别得到体素化特征网格，通过稀疏卷积网络之后得到下采样后的稀疏特征，通过将3D的稀疏特征在z轴方向拍平并拼接，得到2D的鸟瞰图特征；将两类2D的鸟瞰图特征作为输入，进入堆叠可形变卷积校准模块；通过堆叠可形变卷积校准模块，将点云数据的鸟瞰图特征和伪点云数据的鸟瞰图特征在特征通道维度拼接，进入卷积层产生2D偏移量，对伪点云数据的鸟瞰图特征以该2D偏移量作为指导提取点云指导的特征，即对齐后的特征，最后通过直接拼接的方式进行特征融合，结合融合特征实现目标检测；其中，对于融合特征，以及对齐后的特征，通过分别设置的监督分支和相应真值进行比较产生监督信息回传网络进行训练，并按照实际效果设定权重参数；

所述边缘修正的步骤包括：根据数据集的3D标注，得到点云数据中的前景物体的3D包围盒；将3D包围盒中心的X轴坐标投影到2D空间，根据3D包围盒的3D空间距离、深度估计结果，以及2D空间中的前景掩码，掩码中的前景点和背景点；之后，设定一个阈值B，剔除前景掩码中，所有3D包围盒中心X坐标和深度估计结果中X坐标距离大于阈值B的点；

训练阶段，深度估计网络还输出深度估计结果各深度的不确定度；将不确定度s作为一个特征通道添加在伪点云上，不确定度在体素化网络中被处理，将体现在体素网格特征中。

2.根据权利要求1所述的一种面向自动驾驶的多传感器深度融合3D目标检测方法，其特征在于，该方法还包括：

将点云数据的体素化特征网格，采用体素转化为点技术变换为三维点云形式，再与融合特征进行特征聚合得到3D结果，最终通过ROI Head获得更为细化的目标检测结果。

3.根据权利要求1所述的一种面向自动驾驶的多传感器深度融合3D目标检测方法，其特征在于，训练阶段，利用伪点云数据与点云数据进行数据增强：将伪点云数据与点云数据，通过点云数据中前景物体的3D包围盒截取其中的点云和伪点云并保存入数据库，从而扩充了训练阶段的数据。

4.根据权利要求1所述的一种面向自动驾驶的多传感器深度融合3D目标检测方法，其特征在于，训练阶段，设置了场景关联损失函数，包括：

利用语义分割结果对深度估计的损失函数进行约束，从而对预训练的深度估计网络进行优化，损失函数表示为：

Loss₁＝α*L_Foreground+β*L_background

其中，L_Foreground、L_background分别表示语义分割得到的前景物体、背景物体；α与β为设置的比例系数；

同时，对物体内部形状的学习进行进一步的约束，使用中心距离损失估计物体真实分布和估计分布之间的形态学距离，损失函数表示为：

Loss₂＝smooth_L1(D_估计-Z_估计,D_真值-Z_真值)

其中，D_估计、D_真值分别为前景物体A的掩码的每个像素的估计深度、真实深度；Z_估计、Z_真值分别为前景物体A的估计的中心深度、真实中心深度；

综合上述两类损失函数，得到场景关联损失函数为：

Loss＝Loss₁+Loss₂。

5.根据权利要求1所述的一种面向自动驾驶的多传感器深度融合3D目标检测方法，其特征在于，堆叠可形变卷积校准模块中堆叠了若干可形变卷积模块；

对于伪点云体素网络的每个体素网格，使用可形变卷积模块在2D的鸟瞰图特征上学习一个2D偏移量，即通过点云数据指导伪点云数据的自适应采样，2D偏移量能够以端到端的方式训练，达到像素级对齐的效果；

可形变卷积模块在二维空间中进行，包括如下两个部分：

第一部分为：对于伪点云体素网络的每个体素网格，在输入的2D鸟瞰图特征上使用规则网格R进行采样，规则网格R定义了感受野的大小；

R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}

第二部分为：对第一部分每个位置p₀输出的特征进行加权运算，表示为：

其中，p_n是对规则网格R中所列位置的枚举，w为权重，x(.)就是伪点云的鸟瞰图特征，y(.)为伪点云的对齐后的特征，Δp_n为利用点云的鸟瞰图特征与伪点云的鸟瞰图特征学习得到的2D偏移量。