CN113888458A

CN113888458A - 用于对象检测的方法和系统

Info

Publication number: CN113888458A
Application number: CN202110511342.XA
Authority: CN
Inventors: J·德比斯
Original assignee: Aptiv Technologies Ltd
Current assignee: Aptiv Technologies Ltd
Priority date: 2020-06-17
Filing date: 2021-05-11
Publication date: 2022-01-04
Also published as: EP3926360A1; US20210397907A1

Abstract

本发明涉及用于对象检测的方法和系统。一种用于对象检测的计算机实现方法包括由计算机硬件部件执行的以下步骤：从激光雷达传感器获取多个激光雷达数据集；从雷达传感器获取多个雷达数据集；从摄像头获取至少一个图像；基于将多个激光雷达数据集和多个雷达数据集投射到至少一个图像来确定连结数据；以及基于连结数据来检测对象。

Description

用于对象检测的方法和系统

技术领域

本公开涉及用于对象检测(例如，用于边界框检测)的方法和系统。

背景技术

对象检测是各种任务的必要先决条件，尤其是在自主驾驶车辆中。

因此，需要提供有效且可靠的对象检测。

发明内容

本公开提供了计算机实现方法、计算机系统、车辆和非暂时性计算机可读介质。在说明书和附图中给出了实施方式。

在一个方面，本公开涉及一种用于对象检测的计算机实现方法，所述计算机实现方法包括由计算机硬件部件进行(换言之：执行)的以下步骤：从激光雷达传感器获取多个激光雷达数据集；从雷达传感器获取多个雷达数据集；从摄像头获取至少一个图像；基于将多个激光雷达数据集和多个雷达数据集投射(换言之：投影)到至少一个图像来确定连结数据；以及基于连结数据来检测对象。对数据进行连结可以包括：将来自若干先前传感器读数的传感器数据增加到随后投射到单个摄像头帧上的一个帧中。

如本文所使用的，“投射(casting)”和“投影(projecting)”(以及同样地“投射(cast)”和“投影(projection)”)可以互换地使用。例如，将点投射到2D摄像头空间上可以理解为将点投影到(2D摄像头空间的)摄像头平面上。例如，可以使用针孔摄像头模型来执行投影。

根据另一方面，所述计算机实现方法还包括由计算机硬件部件执行的以下步骤：确定多个摄像头残差块。残差块可以是人工神经网络的一部分，即，ResNet架构中引入的具有跳跃连接(skip connection)的神经网络层，该人工神经网络对数据进行变换，旨在获得适用于预测的特征。这里，所述块包括2D卷积层、批归一化和Leaky ReLu激活函数。

根据另一方面，摄像头数据可以是使用第一人工神经网络来处理的。第一人工神经网络可以是对摄像头数据进行变换的ResNet型卷积神经网络架构。

根据另一方面，投射包括对准激光雷达数据集的多个扫描。例如，将若干先前激光雷达扫描与最新扫描对准，以增加激光雷达点数，就好像它是具有更密集激光雷达的单个扫描一样。与nuScenes Open API方法一样地执行对准，所述nuScenes Open API方法返回聚集多个扫描的点云。预定数量的先前帧(例如，10个先前帧)可以被映射至单个参考帧，在这种情况下，所述单个参考帧可以是“当前的”(或“当前帧”)。可以使用考虑到本车(egocar)的平移和旋转差异的齐次变换矩阵来将先前帧与参考帧对准。

根据另一方面，所述计算机实现方法还包括由计算机硬件部件执行的以下步骤：执行激光雷达数据集的线性深度补全。可以使用线性深度补全来进一步增加激光雷达点密度。线性深度补全是对已经投影到2D摄像头平面上的激光雷达点进行的。之后，各个2D平面点的深度都是根据距点最近的激光雷达深度来线性估计的。这样的深度补全是快速的并且允许获得“深度图像”，即使仅来自激光雷达，其也允许利用例如与图像处理一起使用的卷积神经网络。

根据另一方面，所述计算机实现方法还包括由计算机硬件部件执行的以下步骤：基于经线性深度补全的激光雷达数据来确定多个激光雷达残差块。在具有“深度图像”的情况下，可以利用与摄像头数据的情况相同类型的残差块。

根据另一方面，激光雷达数据集是使用第二人工神经网络处理的。第二人工神经网络可以是ResNet型人工神经网络架构，正如针对摄像头那样，其可以对“深度图像”进行变换。

根据另一方面，投射的步骤包括：对准多个雷达数据集的多个扫描。雷达数据集的对准可以类似于激光雷达数据集的对准。

根据另一方面，所述计算机实现方法还包括由计算机硬件部件执行的以下步骤：确定多个雷达残差块。所述残差块可以与在摄像头数据下的情况相似。

根据另一方面，雷达数据是使用第三人工神经网络处理的。第三人工神经网络可以是ResNet型卷积神经网络架构，正如针对摄像头那样，其可以对“速度图像”进行变换。

根据另一方面，所述计算机实现方法还包括由计算机硬件部件执行的以下步骤：将多个摄像头残差块、多个激光雷达残差块和多个雷达残差块进行连结(例如，以获得连结数据)。

利用根据各个方面的方法，可以使用摄像头-激光雷达-雷达融合数据通过神经网络进行准确的3d和2d边界框检测，其中，可以在将激光雷达和雷达投射到前摄像头上的nuScenes数据集上、在所准备的并且由单独场景组成的经训练和验证/测试集上测试我们的解决方案的KPI(关键性能指标)度量。

在另一方面，本公开涉及一种计算机系统，所述计算机系统包括多个计算机硬件部件，所述多个计算机硬件部件被配置成执行本文所述的计算机实现方法的若干或全部步骤。所述计算机系统可以是车辆的一部分。

所述计算机系统可以包括多个计算机硬件部件(例如处理器，例如处理单元或处理网络、至少一个存储器，例如存储器单元或存储器网络以及至少一个非暂时性数据存储部)。将理解，可以提供另外的计算机硬件部件并将其用于在计算机系统中执行所述计算机实现方法的步骤。非暂时性数据存储部和/或存储器单元可以包括计算机程序，所述计算机程序用于指示计算机例如使用处理单元和至少一个存储器单元来进行本文所述的计算机实现方法的若干或全部步骤或方面。

在另一方面，本公开涉及一种车辆，所述车辆包括雷达传感器、激光雷达传感器和摄像头，其中，所述车辆被配置成根据本文所述的计算机实现方法来检测对象。

在另一方面，本公开涉及一种非暂时性计算机可读介质，所述非暂时性计算机可读介质包括用于执行本文所述的计算机实现方法的若干或全部步骤或方面的指令。计算机可读介质可以被配置成：光学介质，诸如光盘(CD)或数字通用盘(DVD)；磁性介质，诸如硬盘驱动器(HDD)；固态驱动器(SSD)；只读存储器(ROM)，诸如闪存存储器等。此外，计算机可读介质可以被配置成可经由诸如互联网连接之类的数据连接访问的数据存储部。计算机可读介质可以例如是在线数据存储库或云存储部。

本公开还涉及一种计算机程序，所述计算机程序用于指示计算机进行本文所述的计算机实现方法的若干或全部步骤或方面。

附图说明

在此结合以下附图描述本公开的示例性实施方式和功能，附图示意性示出了：

图1是根据各种实施方式的用于2d和3d对象检测任务的摄像头、激光雷达和雷达融合的架构的例示图；

图2是根据中间融合和后期融合的各种实施方式的实现的hl视图的例示图；

图3是具有根据各种实施方式获得的各种3d边界框的场景的例示图；

图4是例示了根据各种实施方式的用于对象检测的方法的流程图；以及

图5是根据各种实施方式的具有多个计算机硬件部件的计算机系统，所述多个计算机硬件部件被配置成执行用于对象检测的计算机实现方法的步骤。

具体实施方式

神经网络可以用于对象检测任务，例如用于汽车行业中，其中，边界框可以位于属于某些关注类(诸如汽车、行人或交通标志)的对象周围。

针对2d(二维)边界框检测，使用单个摄像头可能就足够了。针对3d(三维)边界框检测，可能期望确定关注对象距本车(ego vehicle)的距离。例如，激光雷达(光检测和测距)传感器可以例如与其它传感器结合使用。激光雷达传感器可以直接提供3d坐标空间中的点云。为了进一步提高对象检测任务的安全性和准确性，可以对来自若干传感器的输出进行融合，以提供要找到的对象的类的有用信息/特征。

根据各种实施方式，针对2d和3d对象检测任务，可以以有效的方式将激光雷达传感器数据、雷达传感器数据和摄像头数据融合在一起，并且可以提供神经网络架构来实现这种融合(fusion)。

图1示出了根据各种实施方式的针对2d和3d对象检测任务的摄像头、激光雷达和雷达融合的系统(换言之：架构)的例示图100。

对系统的输入是适当准备的若干传感器帧，例如来自历时长达0.5秒的若干传感器帧，可以将所述若干传感器帧视为W×H×C维的输入帧(其中，W是宽度，H是高度，并且C是特征数量(例如，相比于针对RGB(红-绿-蓝)图像的W×H×3))，并且可以对所述若干传感器帧进行变换并将其用于进一步处理，例如，在人工神经网络(例如卷积神经网络)中进行进一步处理。

如下面将描述的，可以对摄像头数据102(包括摄像头帧)、激光雷达数据106(包括激光雷达点云帧)和雷达数据114(包括雷达帧)进行处理。可以将所有雷达点云帧和激光雷达点云帧投射到大小为W×H的最新(“当前”)摄像头帧上。针对激光雷达数据106，可以执行对准投射108(例如，10个扫描的对准投射)。激光雷达帧可以是经线性深度补全的(如框110所示)。针对雷达数据114，可以执行对准投射116(例如，6个扫描的对准投射)。

针对单帧输入，可以使用RGB摄像头通道以及来自先前扫描的激光雷达投射和雷达投射的通道，这些通道形成了W×H×C输入帧中的C个通道。根据各种实施方式，代替使用单个最新摄像头帧，可以使用来自对C个通道有贡献的先前0.5秒时间戳的摄像头帧。总之，输入由针对摄像头的W×H×3(或者在使用CO个先前摄像头帧情况下的3*CO)、针对C1个准备的激光雷达投射的W×H×C1、针对C2个准备的雷达投射的W×H×C2组成。

根据各种实施方式，人工神经网络可以用于对这样的输入进行变换，以在输出处获得3d和/或2d对象检测。可以使用SSD(单步多框检测器)型神经网络，其能够生成检测对象的3d边界框。例如，可以使用yolo V3和SSD网络，所述yolo V3和SSD网络仅对输出2d边界框的单个2d图像输入起作用。根据各种实施方式，可以引入真值标记和底层架构，以能够推断出对象在3d空间中的距离和大小(宽度，长度，高度)以及对象的偏航-俯仰-翻滚角度。

根据各种实施方式，可以采用以下标记：(左，下，右，上，center_x，center_y，center_z，宽度，长度，高度，q1，q2，q3，q4)，其中(左，下，右，上)是对象在2d摄像头图像空间中的2d边界框坐标。(center_x，center_y，center_z，宽度，长度，高度，q1，q2，q3，q4)可以在3d摄像头坐标系中提供，并且q1、q2、q3、q4可以是描述偏航-俯仰-横滚角度的四元数。

网络可以被分成与处理时间有关的三个阶段。第一阶段可以由对摄像头数据102、激光雷达数据106和雷达数据114进行变换的残差块104、112、120的三个单独子网组成。在第二阶段，在获得残差块104、112、120之后，可以将各个网络以这种方式提取的特征连结(concatenate)(如框122所示)至单个特征帧。第二阶段包括使用残差块对结合(joint)数据进行进一步变换。122中的连结适用于对来自先前3个残差神经网络子网的结果进行连结，所述先前3个残差神经网络子网对1)摄像头2)激光雷达3)雷达进行变换。之后，在残差块124中，具有来自所述3个传感器的特征的这种“结合”图像(其可以具有128*3个通道，其中可以存在128个通道子网输出)可以由残差网络进行进一步变换。第三(或最后)阶段可以包括输出类得分(class score)和候选区域。输出类得分和候选区域可以与Yolo v3中类似，但是可以利用3D部分(其暗示对象在3D坐标中的定位及其旋转)来改善输出；因此，2D网格的各个点连同其相关联的2D锚框接收概率得分，该概率得分指示对象存在于这样的区域内的概率；然后，该方法正在预测的各个类的对象接收得分，该得分指示对象属于这样的类的概率。与这样的2D网格点相对应的候选区域可以由指示对象位置的坐标(左，下，右，上，center_x，center_y，center_z，宽度，长度，高度，q1，q2，q3，q4)组成。因此，(左，下)、(右，上)可以暗示对象在图像空间中的最可能的位置，(center_x，center_y，center_z，宽度，长度，高度，q1，q2，q3，q4)可以暗示对象在3D空间中的位置，并且q坐标指示旋转。可以包括上述标记形式的检测，其可以添加3维部分。对象检测器126可以基于残差块124执行2d对象检测128和3d对象检测130。

取决于(针对摄像头数据、激光雷达数据和雷达数据的)前三个子网何时联合(join)在一起，可以将中间融合或后期融合提供为两个单独的架构。在中间融合的情况下，创建3尺度检测时可以使用已经联合的特征。后期融合和中间融合以及3尺度检测的详细信息可以与Yolo v3架构相似。最终预测可以取决于来自3个不同2D网格粒度(“尺度”)的结合预测结果。在中间情况下，在仅若干残差块最初准备了分别来自摄像头、激光雷达和雷达的特征后，可以将输出进行联合，并且网络的其余部分可以如在标准的3通道图像的情况下那样对具有由子网准备的特征的“结合图像”起作用。在后期融合的情况下，可以存在3个子网络流，好像利用(来自3种传感器类型)的单独的3个图像工作一样，并仅在对各个粒度尺度做出最终预测之前融合网络。

图2示出了根据中间融合(在左侧)和后期融合(在右侧)的各种实施方式的实现的hl(隐藏层或高层(high level))视图的例示图200。中间融合的hl数据202可以包括由虚线204指示的处理点之后的结合特征，并且后期融合的hl数据206可以包括由虚线208指示的处理点之后的结合特征。hl数据是按照从上到下的处理(或时间)顺序例示的。

在后期融合的情况下，所有三个处理流水线是分开进行的，仅是正好在针对各个尺度使用联合之后的最后残差块进行每次检测之前，对特征进行连结。

根据各种实施方式，可以使用yolo V3损失和附加的3d坐标之间的加权L2距离，以及用于获知偏航-俯仰-翻滚的四元数角度损失来引入损失函数。

图3示出了具有根据各种实施方式获得的各种3d边界框302、304的场景的例示图300。

图4示出了例示了根据各种实施方式的用于对象检测的方法的流程图400。在402，可以从激光雷达传感器获取多个激光雷达数据集。在404，可以从雷达传感器获取多个雷达数据集。在406，可以从摄像头获取至少一个图像。在408，可以基于将多个激光雷达数据集和多个雷达数据集投射到至少一个图像来确定连结的数据。在410，可以基于连结的数据来检测对象。

根据各种实施方式，可以确定多个摄像头残差块。

根据各种实施方式，摄像头数据可以是使用第一人工神经网络处理的。

根据各种实施方式，投射可以包括对准激光雷达数据集的多个扫描。

根据各种实施方式，可以执行激光雷达数据集的线性深度补全。

根据各种实施方式，可以基于经线性深度补全的激光雷达数据来确定多个激光雷达残差块。

根据各种实施方式，激光雷达数据集可以是使用第二人工神经网络处理的。

根据各种实施方式，投射可以包括对准多个雷达数据集的多个扫描。

根据各种实施方式，可以确定多个雷达残差块。

根据各种实施方式，雷达数据可以是使用第三人工神经网络处理的。

根据各种实施方式，可以将多个摄像头残差块、多个激光雷达残差块和多个雷达残差块进行连结。

步骤402、步骤404、步骤406、步骤408、步骤410中的每一者以及上述另外步骤可以由计算机硬件部件执行。

图5示出了具有多个计算机硬件部件的计算机系统500，所述多个计算机硬件部件被配置成执行根据各种实施方式的用于对象检测的计算机实现方法的步骤。计算机系统500可以包括处理器502、存储器504和非暂时性数据存储部506。至少一个摄像头508、至少一个激光雷达传感器510和至少一个雷达传感器512可以提供为计算机系统500的一部分(如图5所示)，或者可以设置在计算机系统500的外部。

处理器502可以执行在存储器404中提供的指令。非暂时性数据存储部506可以存储计算机程序，所述计算机程序包括可以被传送至存储器504然后由处理器502执行的指令。

处理器502、存储器504和非暂时性数据存储部506可以例如经由电连接514(诸如电缆或计算机总线)或经由任何其它合适的电连接彼此联接，以交换电信号。至少一个摄像头508、至少一个激光雷达传感器510和/或至少一个雷达传感器512可以例如经由外部接口联接至计算机系统500，或者可以被提供为计算机系统的一部分(换言之：在计算机系统内部，例如经由电连接514联接)。

术语“联接”或“连接”旨在分别包括直接“联接”(例如经由物理链路)或直接“连接”，以及间接“联接”或间接“连接”(例如经由逻辑链路)。

将理解，已针对以上方法中的一者描述的内容可以类似地适用于计算机系统400。

附图标记列表

100 根据各种实施方式的针对2d和3d对象检测任务的摄像头、激光雷达和雷达融合的架构的例示图

102 摄像头数据

104 残差块

106 激光雷达数据

108 对准投射

110 线性深度补全

112 残差块

114 雷达数据

116 对准投射

120 残差块

122 连结

124 残差块

126 对象检测器

128 2d对象检测

130 3d对象检测

200 根据中间融合和后期融合的各种实施方式的实现的hl视图的例示图

202 hl数据

204 虚线

206 hl数据

208 虚线

300 具有根据各种实施方式获得的各种3d边界框的场景的例示图

302 3d边界框

304 3d边界框

400 例示了根据各种实施方式的用于对象检测的方法的流程图

402 从激光雷达传感器获取多个激光雷达数据集的步骤

404 从雷达传感器获取多个雷达数据集的步骤

406 从摄像头获取至少一个图像的步骤

408 基于将多个激光雷达数据集和多个雷达数据集投射到至少一个图像来确定连结数据的步骤

410 基于连结数据来检测对象的步骤

500 根据各种实施方式的计算机系统

502 处理器

504 存储器

506 非暂时性数据存储部

508 摄像头

510 激光雷达传感器

512 雷达传感器

514 连接。

Claims

1.一种用于对象检测的计算机实现方法，所述计算机实现方法包括由计算机硬件部件执行的以下步骤：

从激光雷达传感器获取多个激光雷达数据集；

从雷达传感器获取多个雷达数据集；

从摄像头获取至少一个图像；

基于将所述多个激光雷达数据集和所述多个雷达数据集投射到所述至少一个图像来确定连结数据；以及

基于所述连结数据来检测对象。

2.根据权利要求1所述的计算机实现方法，所述计算机实现方法还包括由所述计算机硬件部件执行的以下步骤：

确定多个摄像头残差块。

3.根据权利要求1或2所述的计算机实现方法，其中，摄像头数据是使用第一人工神经网络处理的。

4.根据权利要求1至3中任一项所述的计算机实现方法，其中，所述投射的步骤包括对准所述激光雷达数据集的多个扫描。

5.根据权利要求1至4中任一项所述的计算机实现方法，所述计算机实现方法还包括由所述计算机硬件部件执行的以下步骤：

执行所述激光雷达数据集的线性深度补全。

6.根据权利要求1至5中任一项所述的计算机实现方法，所述计算机实现方法还包括由所述计算机硬件部件执行的以下步骤：

基于经线性深度补全的激光雷达数据来确定多个激光雷达残差块。

7.根据权利要求1至6中任一项所述的计算机实现方法，其中，所述激光雷达数据集是使用第二人工神经网络处理的。

8.根据权利要求1至7中任一项所述的计算机实现方法，其中，所述投射的步骤包括对准所述多个雷达数据集的多个扫描。

9.根据权利要求1至8中任一项所述的计算机实现方法，所述计算机实现方法还包括由所述计算机硬件部件执行的以下步骤：

确定多个雷达残差块。

10.根据权利要求1至9中任一项所述的计算机实现方法，其中，所述雷达数据是使用第三人工神经网络处理的。

11.根据权利要求1至10中任一项所述的计算机实现方法，所述计算机实现方法还包括由所述计算机硬件部件执行的以下步骤：

将多个摄像头残差块、多个激光雷达残差块和多个雷达残差块进行连结。

12.一种计算机系统，所述计算机系统包括多个计算机硬件部件，所述多个计算机硬件部件被配置成执行根据权利要求1至11中任一项所述的计算机实现方法的步骤。

13.一种车辆，所述车辆包括雷达传感器、激光雷达传感器和摄像头，其中，所述车辆被配置成根据权利要求1至11中任一项所述的计算机实现方法来检测对象。

14.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质包括用于执行根据权利要求1至11中任一项所述的计算机实现方法的指令。