CN115880662A

CN115880662A - 利用异类传感器的协同作用进行自主驾驶的3d目标检测方法

Info

Publication number: CN115880662A
Application number: CN202211163805.9A
Authority: CN
Inventors: R·V·罗梅罗; H·权; R·巴特查里亚; M·J·戴利; G·D·霍兰德
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2021-09-28
Filing date: 2022-09-23
Publication date: 2023-03-31
Also published as: DE102022120332A1; US20230109712A1

Abstract

一种在自主驾驶期间执行目标检测的方法，包括：在3D目标检测段中执行3D目标检测；将与该3D目标检测段进行通信的多个传感器的输出上传到多个点云中；将该多个点云的点云数据传输到区域候选网络(RPN)；在2D目标检测器中独立执行2D目标检测，在该3D目标检测段中并行执行该3D目标检测；以及获取给定的输入图像并同时学习2D目标检测网络中的框坐标和类标签概率，该2D目标检测网络操作为将目标检测视为回归问题进行处理。

Description

利用异类传感器的协同作用进行自主驾驶的3D目标检测方法

技术领域

本公开涉及自主运行车辆在运行期间的目标检测。

背景技术

自主驾驶中最关键的组成部分之一是3D目标检测。自主驾驶汽车需要准确地在3D空间中检测和定位其他车辆和行人以安全行驶。近来，2D目标检测技术取得了很大的进展。虽然2D检测算法已经很成熟，但3D目标的检测仍然面临着巨大的挑战。在当前的自主驾驶中，3D目标检测主要基于摄像头或3D传感器。最常用的3D传感器是激光成像探测和测距(Laser Imaging Detecting And Ranging，LIDAR)传感器，其生成3D点云来捕捉场景的3D结构。

基于图像的方法能够使用单目图像或立体图像。仅仅建立在2D目标检测上的方法施加附加几何约束来创建3D候选。由于缺乏深度信息，这些方法只能生成粗略的3D检测结果，并且会大大受到外观变化的影响。其他方法应用基于单目或立体的深度估计来获取每个像素的3D坐标。这些3D坐标作为附加输入通道输入到2D检测流水线中，或者用于提取手工制作的特征。

因此，现有的自主驾驶方法主要依靠LiDAR传感器进行精确的3D目标检测。虽然近来，伪LiDAR作为一种有希望的替代方案被引入，但仍然存在显著的性能差距，并且在其他数据集(不同于KITTI)中进行测试时，这个差距会增加。这表明伪LiDAR在泛化方面仍然不准确。

因此，虽然当前的车辆自主驾驶方法达到了其预期的目的，但仍需要一种新型改进的方法以在自主驾驶期间进行目标检测。

发明内容

根据几个方面，一种在自主驾驶期间执行目标检测的方法包括：在3D目标检测段中执行3D目标检测；将与3D目标检测段进行通信的多个传感器的输出上传到多个点云；将多个点云的点云数据传输到区域候选网络(RPN)；在2D目标检测器中独立执行2D目标检测，并且在3D目标检测段中并行执行3D目标检测；以及在2D目标检测网络中获取给定的输入图像并同时学习框坐标和类标签概率，2D目标检测网络操作为将目标检测视为回归问题进行处理。

在本公开的另一方面，该方法还包括在3D目标检测段中操作多个激光成像探测和测距(LIDAR)传感器以生成多个传感器的输出，从而进一步生成3D点云以捕捉一组车辆可见场景中的3D结构。

在本公开的另一方面，该方法还包括操作RPN以在3D点云分割构件中将多个点云的数据分配给点云中的各个点，并分配代表真实世界实体的标签。

在本公开的另一方面，该方法还包括将RPN的输出传输到基于区域的卷积神经网络(RCNN)。

在本公开的另一方面，该方法还包括：应用3D框估计器来生成一个或多个边界框(BB)；以及将3D框估计器的输出与2D目标检测器的2D目标输出融合在一起，传递给框一致性和过滤单元。

在本公开的另一方面，该方法还包括通过将一阶段2D目标检测和二阶段实例分割相结合来增强2D检测。

在本公开的另一方面，该方法还包括在实例分割网络中为图像中的每个目标自动分割和构建像素级掩码。

在本公开的另一方面，该方法还包括：生成图像中可能包含目标的区域；根据确定区域中的任何一个区域可能包含该目标的可能性的评分对区域进行排序；以及保留前“N”个置信度最高的评分区域。

在本公开的另一方面，该方法还包括：将摄像头的图像输出传递到实例分割深度神经网络(DNN)，该实例分割深度神经网络具有实例分割装置，其中，目标的不同实例接收不同的标签；以及将实例分割装置的输出移动到实例掩码检测器，其中，分割装置输出为区域的二进制掩码。

在本公开的另一方面，该方法还包括：将定义摄像头的图像的数据的2D目标检测段的2D数据传输到2D目标检测器；将2D目标检测器的输出与实例掩码检测器的输出一起传输到约束装置；以及将约束装置和DNN的输出发送到增强2D检测器。

根据几个方面，一种在自主驾驶期间执行目标检测的方法包括：接收来自多个传感器的传感器数据，并应用传感器数据以生成3D点云来捕捉3D结构；在3D目标检测器中执行3D目标检测，包括直接从点云中识别多个3D目标；与3D目标检测段并行进行增强2D目标检测，以使用增强2D目标检测器识别2D目标；在2D和3D协同段中对2D目标和3D目标进行协同处理；以及生成用于聚合感知的最终3D目标检测。

在本公开的另一方面，该方法还包括将3D目标的数据输入到3D框估计器中。

在本公开的另一方面，该方法还包括将3D框估计器的输出和增强2D检测器的输出传递到框一致性和过滤单元中以便生成多个边界框(BB)。

在本公开的另一方面，该方法还包括在投影到用作过滤器的多幅图像上后基于与高置信度2D候选的高度重叠过滤多个边界框(BB)，从而减少在点云中错误地检测到的误报目标。

在本公开的另一方面，该方法还包括：生成多个图像的区域；根据确定区域中的任何一个区域可能包含多个3D目标之一的可能性的评分对区域进行排序；以及保留前“N”个置信度最高的评分区域；通过实例分割网络的三个并行分支，发送N个置信度最高的评分区域中的单个区域，其中，该三个并行分支定义标签预测、BB预测和掩码预测；以及为N个置信度最高的评分区域中的每一个计算二进制掩码，并为图像中的每个目标自动分割和构建像素级掩码；以及使用置信度评分和基于IoU_t的非最大值抑制(NMS)去除冗余候选。

在本公开的另一方面，该方法还包括通过与2D目标检测器一起应用实例分割来增强2D目标检测。

在本公开的另一方面，该方法还包括：融合图像数据和传感器数据；以及保留2D目标和3D目标中在3D目标检测段和2D目标检测段中一致的单个目标。

一种在自主驾驶期间执行目标检测的系统，包括执行3D目标检测的3D目标检测段。多个传感器与3D目标检测段进行通信，多个传感器各自具有上传到多个点云中的一个点云的输出。从多个点云将点云数据传输到区域候选网络(RPN)。2D目标检测器独立执行2D目标检测，并与3D目标检测段中的3D目标检测并行执行。2D目标检测网络操作为将目标检测视为回归问题进行处理，获取给定的输入图像，并同时学习框坐标和类标签概率。

在本公开的另一方面，多个传感器分别定义了激光成像探测和测距(LIDAR)传感器，用于捕捉一组车辆可见场景中的3D结构。

在本公开的另一方面，摄像头输出图像。一种实例分割深度神经网络(DNN)具有实例分割装置，其中，目标的不同实例接收不同的标签。实例掩码检测器接收实例分割装置的输出，其中，实例分割装置的输出定义了车辆可见场景的区域的二进制掩码。

进一步的适用领域将从本文提供的描述中变得显而易见。应当理解，描述和具体示例仅用于说明的目的，并不旨在限制本公开的范围。

附图说明

本文所描述的附图仅用于说明目的，并不旨在以任何方式限制本公开的范围。

图1是根据示例性方面的自主驾驶3D目标检测方法和系统的流程图；

图2是图1的方法中的2D和3D协同部分的流程图。

具体实施方式

下述描述本质上仅仅是示例性的，并不旨在限制本公开、应用或使用。

参阅图1，一种自主驾驶3D目标检测方法10在3D目标检测段12中提供3D目标检测，并在2D目标检测段14中独立提供2D目标检测。如算法1所述，应用了伪代码算法。3D目标检测段12从一个或多个激光成像探测和测距(LIDAR)传感器16接收数据，以生成3D(3Dimensional，3维)点云来捕捉一组车辆可视场景中的3D结构。LIDAR传感器16的输出上传到多个点云18中。从点云18开始，点云数据被传输到区域候选网络(Region ProposalNetwork，RPN)20，其中，数据在3D点云分割构件22中产生作用，3D点云分割构件22执行一项任务，在该任务中，点云中的每个点都被分配有代表真实世界实体的标签，并且数据由3D候选生成器24执行。

RPN 20的输出被传输到基于区域的卷积神经网络(Region-based ConvolutionalNeural Network，RCNN)26，其中，应用3D框估计器28生成一个或多个边界框(Bounding-Box，BB)。RCNN 26首先使用选择性搜索(Selective Search)在兴趣区域(Region ofInterest，ROI)识别数量可控的边界框或BB目标区域候选。然后RCNN 26从搜索到的场景的独立区域中提取卷积神经网络(Convolutional Neural Network，CNN)特征进行分类。通过3D目标检测段12的3D检测器29传递RCNN 26的输出，3D目标检测段12的输出与下面讨论的2D目标检测段14的增强2D检测器46的输出融合传递到框一致性和过滤单元30。

在并行进行3D目标检测的同时，执行2D目标检测，概括如下。通过将一阶段(one-stage)2D目标检测和二阶段(two-stage)实例分割相结合来增强2D检测。2D目标检测网络视目标检测为回归问题，获取给定的输入图像，并同时学习BB坐标以及相应的类标签概率。然后，实例分割网络针对图像中的每个目标自动分割和构建像素级掩码。还采用相同的二阶段程序，其中，第一阶段为RPN，以生成图像中可能包含目标的区域(RPN)。根据确定给定区域可能潜在地包含目标的可能性的评分对区域中的每一个进行排序，然后为第二阶段保留前“N”个置信度最高的评分区域。

在并行操作3D目标检测段12的同时，2D目标检测段14设有摄像头32，摄像头32的图像输出被传递给具有实例分割装置36的实例分割深度神经网络(deep neural network，DNN)34，其中，给定目标的每个实例接收不同的标签。实例分割装置36的输出被传递给实例掩码检测器38，该实例分割装置36产生的输出是每个区域的二进制掩码，而不是边界框。在DNN34内对实例分割装置36进行并行操作的同时，2D目标检测器DNN 40将摄像头32图像的2D数据传递给2D目标增强器42。2D目标增强器42的输出与实例掩码检测器38的输出一并传输到约束装置44中。由于一致性约束，作为2D目标增强器42的基于深度学习的目标检测输出的2D BB也与作为DNN 34输出的相应实例掩码高度重叠，从而提供了置信度较高的组合2D目标候选。约束装置44与DNN 34的输出传递给增强2D检测器46。

除了3D框估计器28的输出之外，增强2D检测器46的输出也被传递给2D和3D协同段48的框一致性和过滤单元30。在投射到图像上后，框一致性和过滤单元30根据与相应的高置信度2D候选的高度重叠来过滤预测的3D BB。该功能用于过滤，即减少在点云18中被错误地检测到的误报目标，并包括图像中未从点云18检测到的检测目标，以减少漏报率。由3D协同段48产生的最终结果是用于聚合感知52的最终3D目标检测50。

因此，综上所述，自主驾驶3D目标检测方法10可以分为3个步骤：步骤1)3D目标检测段12中的3D目标检测；步骤2)2D目标检测段14中的增强2D目标检测；以及步骤3)2D与3D协同段48中的2D和3D检测的协同。直接从点云18执行3D目标检测，并且2D目标检测利用2D目标检测器和实例分割来增强2D检测。最后，将图像数据与LIDAR传感器数据进行融合，并保留在3D和2D检测器中一致的目标，以提高性能，并使结果在不同数据集上更加可靠。

该架构的伪代码如下述算法1所示。

算法1：

算法1object_detection3D(image,lidar,calibration_file)

输入：image,lidar,calibration_file

输出：针对每个对象的(3D_detection,class_type,scores,2D_detection)

3D_detection包括:3D_location(x,y,z),3D_bbs_sizes(h,w,l),

和object orientation(θ).(x,y,z,h,w,l,θ)

-加载已训练的模型

model_3D←加载已训练的3D目标检测模型

model_2D←加载已训练的2D目标检测模型

model_mask←加载已训练的实例分割模型

lidar←pre_process_lidar(lidar,calibration_file)

image←pre_process_image(image,calibration_file)

-步骤1 3D目标检测

rpn_output_3D←rpn_3D(model_3D,lidar)//RPN,阶段1

rpn_filtered←filter_rpn(rpn_output_3D)

rcnn_output_3D←rcnn_network_3D(rpn_filtered,model_3D,lidar)//RCNN,阶段2

pred_boxes_3D,class_type_3D,scores_3D←rcnn_output_3D

pred_boxes3d_final←filter_by_scores_3D(pred_boxes_3D,

scores_3D,scores_threshold_3D)

-步骤2增强2D目标检测

//并行执行阶段1 2D目标检测

pred_boxes_2D,class_type_2D,scores_2D←network_2D(model_3D,image)

pred_boxes_2D_final←filter_by_scores(pred_boxes_2D,scores_2D,scores_threshold_2D,IoU_t)//算法2

//并行执行实例分割

mask,pred_boxes_mask,class_type_mask,scores_mask←mask_network(model_mask,image)

pred_mask_final←filter_by_scores(pred_boxes_mask,scores_mask,scores_threshold_mask,IoU_t)//算法2

//增强2D目标检测

combined_2D_detection←combine_2D_detection(pred_boxes_2D_final,pred_mask_final,IoU_t)

//算法3

-步骤3 2D和3D检测的协同

/>

本公开的构架的最终输出为每个目标的3D_detection、class_type、scores和2D_detection，包括：3D_detection：3D_bbs_sizes(3D目标尺寸：高度、宽度、长度(单位为米))，3D_location(摄像头坐标中的3D目标位置x、y、z(单位为米)))以及θ是目标方向；class_type是目标的类别类型；scores是检测置信度；2D_detection是图像(以0为基础的索引)中的目标的2D BB，包含左像素坐标、顶部像素坐标、右像素坐标和底部像素坐标。

在步骤2中，N个选定区域中的每一个都经历实例分割网络的三个并行分支：标签预测、BB预测和掩码预测。在该步骤中，并行预测类偏移和框偏移，并为每个区域计算二进制掩码，从而为图像中的每个目标自动分割和构建像素级掩码。使用置信度评分和基于IoU_t的非最大值抑制(Non-Maximum Suppression，NMS)去除冗余候选(参见下方的算法2)。

参阅图2，并再次参阅图1，参阅图1中所述的3D检测器29和增强2D检测器46的信号通过框一致性和过滤单元30。在框一致性和过滤单元30内，3D BB 58的2D投影和带有像素掩码60的增强2D BB通过第一过滤器62并到最终3D BB过滤器64，以生成最终3D目标检测50。在增强2D检测过程中，考虑了BB一致性约束，其中，选择2D BB作为基于深度学习的2D目标检测器的输出，该2D BB与定义实例分割网络输出的相应实例掩码高度重叠(IoU>IoU_t)。因此，还使用算法3获得具有较高置信度的组合2D目标候选。

因此，增加了2D检测器的置信度，仅保留了在两个检测器中一致的检测目标，以实现2D目标检测器的协同。在最后一步中，使用增强2D BB，根据投影到图像上后与其相应的增强2D候选的高度重叠(IoU>IoU_t)来过滤预测的3D BB。

基于评分和非最大抑制的从2D检测中过滤2D BB的伪代码如下述算法2所示。

算法2：

算法2filter_by_scores(BBs,Scores,S_t,IoU_t):

输入：BBs＝{bb1,…bbm},Scores＝{s1,…sm}

BBs是检测框列表

Scores包括检测评分

IoU_t是IoU阈值

S_t是评分阈值

将实例分割和2D目标检测的2D BB相结合的伪代码如下述算法3所示。

算法3：

算法3combine_2D_detectionpred_boxes2d_final,pred_mask_final

,IoU_t

输入：B2D＝{b2D1,…b2Dm},Bmask＝{bmask1,…bmaskm}

B2D是2D检测框列表

Bmask是掩码检测框列表

IoU_t是IoU阈值

为了从点云18中进行3D目标检测，直接对3D中无序点云进行操作，这与其他使用投影点云到电动汽车(Battery Electric Vehicle，BEV)或对量化的3D张量数据(体素)进行操作的方法不同。例如，可以使用视觉基准对3D检测网络进行训练，该基准可以使每张图像显示多达15辆汽车和30名行人。本公开的RCNN网络包括两个可单独训练的子网络，即区域候选网络RPN 20，和区域CNN或RCNN 26。首先对RPN 20进行训练，并且在对RCNN 26进行在线训练后，使用真值(Ground Truth)框扩充，其将目标框和内部点从一个3D点云场景复制到另一个3D点云场景中的相同位置。对于训练集中的每个3D点云场景，每个3D点云场景中的点都作为输入进行二次采样，因此输入的大小始终为相同的n_points。对于点数少于n_points的3D点云场景，随机重复以获得精确为n_points的点数。还使用基于来自BEV的定向IoU的NMS将冗余候选删除，以生成少量的高质量候选。例如，使用带有IoU阈值IoU_tx的定向NMS，并且只保留排名靠前的候选用于细化二阶段子网络。3D BB在LiDAR坐标系中表示为(x、y、z、h、w、l、θ)，其中，(x、y、z)是目标中心位置，(h、w、l)是目标大小，θ是BEV的目标方向。

在最终的3D检测中，并在投影到图像上后使用相应的增强2D候选，根据定义为IoU>IoU_t的高度重叠对预测的3D BB进行过滤。因此过滤了在点云18中被错误地检测到的目标，这减少了误检率，并包括图像中未从点云18检测到的检测目标，以减少漏报率。最终的结果包括异类传感器的2D BB和3D BB的协同。

本公开的一种自主驾驶3D目标检测方法10提供了几个优势。这些优势包括一种混合、聚合的感知方法，该方法同时利用了2D目标检测器和增强3D目标检测而非仅依赖于3D候选。利用在原始点云中直接接收的学习，即使在强遮挡或非常稀疏的点的场景下，也能精确地估计出3D BB，并进一步应用2D目标检测。由于点云不考虑任何也与检测相关的视觉信息，故一并过滤噪声与点云产生的错误检测。为了从点云中进行3D目标检测，直接对3D中无序点云进行操作，这与使用投影点云到BEV或对量化的3D张量数据(体素)进行操作的已知方法形成对比。通过将一阶段2D目标检测(将目标检测视为回归问题)和二阶段实例分割相结合来增强2D检测。第一阶段是区域候选网络(RPN)，并且在第二阶段中，并行预测类偏移和框偏移，并为每个区域计算二进制掩码，从而为图像中的每个目标自动分割和构建像素级掩码。此外，保留两个检测器中一致的目标。最终的结果是通过异类传感器的2D BB和3DBB的协同，改进了当前的感知流水线。

本公开提供了一种组合方法来改进3D目标检测结果。

本公开的描述本质上仅仅是示例性的，并且不脱离本公开的主旨的变化旨在落入本公开的范围内。这种变化不应被视为背离本公开的精神和范围。

Claims

1.一种在自主驾驶期间执行目标检测的方法，包括：

在3D目标检测段中执行3D目标检测；

将与所述3D目标检测段通信的多个传感器的输出上传到多个点云；

将所述多个点云的点云数据传输到区域候选网络(RPN)；

在2D目标检测段中独立执行2D目标检测，并在所述3D目标检测段中并行执行所述3D目标检测；以及

在2D目标检测网络中获取给定的输入图像并同时学习框坐标和类标签概率，所述2D目标检测网络操作为将目标检测视为回归问题进行处理。

2.根据权利要求1所述的方法，还包括在所述3D目标检测段中操作多个激光成像探测和测距(LIDAR)传感器以生成所述多个传感器的输出，从而进一步生成3D点云以捕捉一组车辆可见场景中的3D结构。

3.根据权利要求2所述的方法，还包括操作所述RPN以在3D点云分割构件中将所述多个点云的数据分配给点云中的各个点，并分配代表真实世界实体的标签。

4.根据权利要求3所述的方法，还包括将所述RPN的产物传输到基于区域的卷积神经网络(RCNN)。

5.根据权利要求4所述的方法，还包括：

应用3D框估计器来生成一个或多个边界框(BB)；以及

将所述3D框估计器的工作产物与所述2D目标检测器的2D目标输出融合在一起，传递给框一致性和过滤单元。

6.根据权利要求1所述的方法，还包括通过将一阶段2D目标检测和二阶段实例分割相结合来增强2D检测。

7.根据权利要求6所述的方法，还包括在实例分割网络中针对图像中的每个目标自动分割和构建像素级掩码。

8.根据权利要求7所述的方法，还包括：

生成所述图像中可能包含目标的区域；

根据生成评分区域的评分对所述区域进行排序，所述评分确定所述区域中的任何一个区域可能包含所述目标的可能性；以及

保留所述评分区域中前“N”个置信度最高的评分区域。

9.根据权利要求1所述的方法，还包括：

将摄像头的图像输出传递到实例分割深度神经网络(DNN)，所述实例分割深度神经网络具有实例分割装置，其中，所述目标的不同实例接收不同的标签；以及

将所述实例分割装置的实例输出移动到实例掩码检测器，其中，分割装置输出为所述区域的二进制掩码。

10.根据权利要求9所述的方法，还包括：

将定义所述摄像头的图像的数据的2D目标检测段的2D数据传输到2D目标检测器；

将所述2D目标检测器的输出与所述实例掩码检测器的输出一起传输到约束装置；以及

将所述约束装置和所述DNN的输出发送到增强2D检测器。