CN109948448A

CN109948448A - 用于3d障碍物的检测方法、装置、系统及计算机存储介质

Info

Publication number: CN109948448A
Application number: CN201910127900.5A
Authority: CN
Inventors: 杜新新
Original assignee: Suzhou Wind Map Intelligent Technology Co Ltd
Current assignee: Suzhou Wind Map Intelligent Technology Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-28
Anticipated expiration: 2039-02-20
Also published as: CN109948448B

Abstract

本发明提供了用于3D障碍物的检测方法、装置、系统及计算机存储介质。该检测方法，包括：对2D图像执行2D障碍物识别以获得2D图像中障碍物的2D边界框；对每个2D边界框在3D点云中对应的每个3D点云子集执行几何分析以确定障碍物的3D边界框；对各个3D边界框所含的点云数据执行特征计算以提取每一3D边界框所对应的3D特征向量；对每个3D边界框在2D图像中对应的每个2D图像区执行特征提取以生成各2D图像区所对应的2D特征向量；将各个3D边界框和对应2D图像区的相应3D特征向量和2D特征向量融合以生成融合特征向量；以及基于融合特征向量执行3D障碍物识别以获得各3D边界框的分类信息。

Description

用于3D障碍物的检测方法、装置、系统及计算机存储介质

技术领域

本发明涉及障碍物检测技术，尤其涉及一种用于3D障碍物的检测方法、一种用于3D障碍物的检测装置、一种用于3D障碍物的检测系统，以及一种计算机存储介质。

背景技术

现有的障碍物检测技术主要基于摄像头来进行2D障碍物检测，或者单纯地基于3D激光雷达进行3D障碍物检测。

在自动驾驶车辆的应用中，2D边界框只能为规划单元和决策单元提供有限的信息，然而对于自动驾驶车辆来说，还需要包括车辆尺寸、行驶方向，以及其他车辆与自车的相对位置等详细和准确的车辆3D信息，以进行决策制定。

摄像机和激光雷达(Light Detection and Ranging，LiDAR)扫描仪是自动驾驶车辆感测系统中最常用的两种传感器。由于透视失真，仅使用摄像机无法获取自动驾驶车辆系统需要使用的准确3D信息。即使采用立体摄像系统，所获取图像的景深估算仍然无法达到令人满意的性能水平。

常见的64光束激光雷达每次扫描可以轻松生成超过100000个点，以获取准确的3D信息。然而随着检测空间的扩大，所需激光雷达点云的规模和分辨率会呈三次方增长。由于存储器和计算时间的限制，通过整个点云彻底应用搜索算法或卷积运算是不可行的，追踪准确率受到极大限制，从而导致漏检误检。因此，处理激光雷达点云的主要挑战在于减少计算负担的同时，保持3D空间图案和信息的准确。

综上，本领域亟需一种能够高效地获取高质量的3D空间图案和信息的障碍物检测技术，以提高自动驾驶车辆的障碍物检测效率和准确率。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

为了能够高效地获取高质量的3D空间图案和信息，以提高自动驾驶车辆的障碍物检测效率和准确率，本发明提供了一种用于3D障碍物的检测方法、一种用于3D障碍物的检测装置、一种用于3D障碍物的检测系统，以及一种计算机存储介质。

本发明提供的上述用于3D障碍物的检测方法，用于基于3D点云和2D图像执行3D障碍物检测，该检测方法包括：

对所述2D图像执行2D障碍物识别以获得所述2D图像中至少一个潜在障碍物的2D边界框；

对每个2D边界框在所述3D点云中对应的每个3D点云子集执行几何分析以确定多个潜在障碍物的3D边界框；

对各个3D边界框所含的点云数据执行特征计算以提取每一3D边界框所对应的3D特征向量；

对每个3D边界框在所述2D图像中对应的每个2D图像区执行特征提取以生成各2D图像区所对应的2D特征向量；

将各个3D边界框和对应2D图像区的相应3D特征向量和2D特征向量融合以生成融合特征向量；以及

基于所述融合特征向量执行3D障碍物识别以获得各3D边界框的分类信息。

优选地，在本发明提供的上述检测方法中，所述对所述2D图像执行2D障碍物识别可以包括：

基于R-Cnn深度学习框架或MS-Cnn深度学习框架执行所述2D障碍物识别。

可选地，在本发明提供的上述检测方法中，所述针对每个3D点云子集执行几何分析可以包括：

在该点云子集中确定垂直于地面且包含最多点云数据的平面；以及

在所述平面两侧根据检测目标的尺寸设置多个所述3D边界框，其中每个3D边界框的底与该点云子集的最低点在同一水平面且具有与所述平面重合的竖直面。

可选地，在本发明提供的上述检测方法中，所述对各个3D边界框所含的点云数据执行特征计算可以包括：

将该3D边界框所含的点云数据输入3D特征提取卷积神经网络以生成该3D边界框的深度特征层；以及

对该3D边界框的深度特征层执行ROI池化操作以生成该3D边界框的3D特征向量。

优选地，在本发明提供的上述检测方法中，所述3D特征提取卷积神经网络可以包括：

分别由两层卷积层和一层最大池化层构成的第一层和第二层、由三层卷积层和一层最大池化层构成的第三层、以及由三层卷积层构成的第四层。

可选地，在本发明提供的上述检测方法中，对每个2D图像区执行特征提取可以包括：

在2D障碍物识别的深度学习框架的图像整体深度特征层针对每个2D图像区执行ROI池化操作以生成每个2D图像区对应的2D特征向量。

可选地，在本发明提供的上述检测方法中，所述将3D特征向量和2D特征向量融合可以包括：

将该3D特征向量和2D特征向量的对应维度求取平均数以生成平均特征向量以作为所述融合特征向量。

可选地，在本发明提供的上述检测方法中，所述基于所述融合特征向量执行3D障碍物识别可以包括：

将所述融合特征向量输入融合卷积神经网络以获得各3D边界框的分类信息。

优选地，在本发明提供的上述检测方法中，所述基于融合卷积神经网络可以包括：两层串联的全联层，以及另外两层并联的全联层。

可选地，在本发明提供的上述检测方法中，每个3D边界框的分类信息可以包括该3D边界框为何种障碍物及其概率。

根据本发明的另一方面，本文还提供了一种用于3D障碍物的检测装置。

本发明提供的上述检测装置，用于基于3D点云和2D图像执行3D障碍物检测，该检测装置包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器配置用于：

可选地，在本发明提供的上述检测装置中，所述处理器可以进一步配置成：基于R-Cnn深度学习框架或MS-Cnn深度学习框架执行所述2D障碍物识别。

可选地，在本发明提供的上述检测装置中，所述处理器可以进一步配置成：

优选地，在本发明提供的上述检测装置中，所述3D特征提取卷积神经网络可以包括：分别由两层卷积层和一层最大池化层构成的第一层和第二层、由三层卷积层和一层最大池化层构成的第三层、以及由三层卷积层构成的第四层。

可选地，在本发明提供的上述检测装置中，所述处理器可以进一步配置成：将该3D特征向量和2D特征向量的对应维度求取平均数以生成平均特征向量以作为所述融合特征向量。

可选地，在本发明提供的上述检测装置中，所述处理器可以进一步配置成：将所述融合特征向量输入融合卷积神经网络以获得各3D边界框的分类信息。

优选地，在本发明提供的上述检测装置中，所述基于融合卷积神经网络可以包括：两层串联的全联层，以及另外两层并联的全联层。

可选地，在本发明提供的上述检测装置中，每个3D边界框的分类信息可以包括该3D边界框为何种障碍物及其概率。

根据本发明的另一方面，本文还提供了一种用于3D障碍物的检测系统，上述检测系统包括：

图像捕捉装置，用于获取2D图像；

点云数据捕捉装置，用于获取3D点云；以及

上述任意一种检测装置。

根据本发明的另一方面，本文还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，可以实现上述任意一种用于3D障碍物的检测方法的步骤。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是本发明的一个实施例提供的用于3D障碍物的检测方法的流程示意图。

图2是本发明的一个实施例提供的对每个3D点云子集执行几何分析的流程示意图。

图3A是本发明的一个实施例提供的定垂直于地面且包含最多点云数据的平面的示意图。

图3B是本发明的一个实施例提供的在每个检测点上设置8个3D边界框的示意图。

图4是本发明的一个实施例提供的用于3D障碍物的检测装置的结构示意图。

图5是本发明的一个实施例提供的用于3D障碍物的检测系统的结构示意图。

附图标记

101-106 用于3D障碍物的检测方法的步骤；

1021-1022 对每个3D点云子集执行几何分析的步骤；

31-38 3D边界框；

40 用于3D障碍物的检测装置；

41 存储器；

42 处理器；

50 用于3D障碍物的检测系统；

51 图像捕捉装置；

52 点云数据捕捉装置。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解，以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外，为了避免混乱或模糊本发明的重点，有些具体细节将在描述中被省略。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用，其并不代表其所叙述的装置需以特定方位来制造或运作，因此不应理解为对本发明的限制。

能理解的是，虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分，这些组件、区域、层和/或部分不应被这些用语限定，且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此，以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。

为了能够高效地获取高质量的3D空间图案和信息，以提高自动驾驶车辆的障碍物检测效率和准确率，本发明提供了用于3D障碍物的检测方法的实施例、用于3D障碍物的检测装置的实施例、用于3D障碍物的检测系统的实施例，以及计算机存储介质的实施例。

如图1所示，本实施例提供的上述用于3D障碍物的检测方法，可以用于基于3D点云和2D图像执行3D障碍物检测，该检测方法可以包括：

101：对2D图像执行2D障碍物识别，以获得2D图像中至少一个潜在障碍物的2D边界框。

在自动驾驶车辆的应用中，上述障碍物可以包括但不限于道路上的其他车辆。上述障碍物的2D图像可以通过使用摄像头拍照采集来获得。

如表1所示，通过将2D图像输入到2D障碍物检测深度学习框架，可以对该2D图像执行2D障碍物识别，从而输出获得该2D图像中可能出现的障碍物的2D边界框，以及每一个2D边界框所对应的障碍物具体是何种障碍物的可能性。当然，也可通过深度学习框架之外的任何其它识别手段来获得这些2D边界框。

本领域的技术人员可以理解，上述2D障碍物检测深度学习框架可以包括但不限于：R-Cnn深度学习框架，或者其类似的变化(例如：MS-Cnn深度学习框架)。

上述R-Cnn深度学习框架是本领域的技术人员习知的技术手段，可以进一步包括fast rcnn深度学习框架和faster rcnn深度学习框架。在Ren,S.,He,K.,Girshick,R.,&Sun,J.(2015).Faster r-cnn:Towards real-time object detection with regionproposal networks.In Advances in neural information processing systems(pp.91-99).中，记载了上述faster rcnn深度学习框架具体的相关描述。

上述MS-Cnn深度学习框架是本领域的技术人员习知的技术手段。在Cai,Z.,Fan,Q.,Feris,R.S.,&Vasconcelos,N.(2016,October).A unified multi-scale deepconvolutional neural network for fast object detection.In European Conferenceon Computer Vision(pp.354-370).Springer,Cham.中，记载了上述MS-Cnn深度学习框架具体的相关描述。

引用上述两篇文献只是为了让本领域的技术人员可以更清晰地了解上述2D障碍物检测深度学习框架的工作原理，而不是为了限制其保护范围。上述2D障碍物检测深度学习框架还可以包括：除R-Cnn深度学习框架和MS-Cnn深度学习框架以外的其他具有图像整体深度特征层(例如：faster rcnn中的conv5_3层)的深度学习框架。

作为示例，这里可采用Faster-Rcnn框架，并且设置参数如下表所示：

表1

102：对每个2D边界框在3D点云中对应的每个3D点云子集执行几何分析，以确定多个潜在障碍物的3D边界框。

上述3D点云可以通过在使用摄像头拍照的同时，使用激光雷达扫描汽车周边环境来获得。根据激光雷达和摄像头的相对位置关系，以及摄像头的内部参数(焦距，焦点位置等)，每一个激光雷达扫描到的点都可以在上述2D图像中找到对应的像素点。

上述3D点云子集是由对应于2D边界框的3D点云中的点所组成的集合，可以通过将上述3D点云向2D图像投射来获得，投影落在每个2D边界框中的3D点构成与该2D边界框对应的3D点云子集。通过将上述3D点云向2D图像投射以获得上述3D点云子集的方式，可以有效减少对3D点云应用搜索算法或卷积运算的运算量，从而大幅提升障碍物检测的效率。

如图2所示，以平均长宽高为3.5m×1.7m×1.5m的汽车障碍物为例，上述对每个3D点云子集执行几何分析可以进一步地包括：

1021：如图3A所示，通过随机样本共识(Random sample consensus,RANSAC)算法，在该点云子集中确定垂直于地面且包含最多点云数据的平面，该垂直于地面的平面从俯瞰角度观察可以等效为的一条的线段。

本领域的技术人员可以理解，上述RANSAC算法是根据一组包含异常数据的样本数据集计算出数据的数学模型参数，从而得到有效样本数据的算法。该算法是本领域的技术人员习知的技术手段，具体记载于Fischler,M.A.,&Bolles,R.C.(1981).Random sampleconsensus:a paradigm for model fitting with applications to image analysisand automated cartography.Communications of the ACM,24(6),381-395.。

上述RANSAC算法只是一种用于确定垂直于地面且包含最多点云数据的平面的具体方案。在其他实施例中，本领域的技术人员也可以采用其他方案来确定垂直于地面且包含最多点云数据的平面。

通过RANSAC算法获得的垂直于地面且包含最多点云数据的平面可能是汽车障碍物的四个侧面(前、后、左、右)中的任意一个。

1022：如图3B所示，在该平面两侧，根据汽车障碍物(检测目标)的尺寸，每间隔每个预设距离设置若干3D边界框。例如，0.3米设置8个3D边界框31-38。

上述每个3D边界框31-38的底与该点云子集的最低点可以处于同一水平面，以使3D边界框31-38与汽车障碍物处于同一高度。每个3D边界框31-38的长宽高都可以为3.5m×1.7m×1.5m，跟汽车障碍物的平均大小一样，以模拟该汽车障碍物。3D边界框31-38中的箭头指示汽车障碍物的前方。

上述每个3D边界框31-38都具有与上述平面重合的竖直面，该重合竖直面可以对应于汽车障碍物的四个侧面(前、后、左、右)中的任意一个。

如图3B所示，在同一水平面内，每个3D边界框的任一竖直面都可以在相对的两个方向上分别与上述平面重合。例如：3D边界框31与3D边界框35都是以其后侧面与上述平面重合。因此，可以在每个检测点上分别设置8(即4×2)个3D边界框，以确定8个潜在障碍物的3D边界框。

在本实施例中，若每隔0.3米设置一个检测点，共设置n个检测点，则对于每个3D点云子集，总计可以获取8n个潜在障碍物的3D边界框。

本领域的技术人员可以理解，上述对每个3D点云子集执行几何分析的方案，只是针对平均长宽高为3.5m×1.7m×1.5m的汽车的具体案例。在其他实施例中，本领域的技术人员也能够以其他间隔，设置任意多个3D边界框，以执行上述几何分析。

103：对各个3D边界框所含的点云数据执行特征计算，以提取每一3D边界框所对应的3D特征向量。

每一个3D边界框可以包含多个不同的点组成的点云数据。上述对各个3D边界框所含的点云数据执行特征计算可以进一步包括首先将该3D边界框所含的点云数据输入3D特征提取卷积神经网络(3D feature extraction,CNN)，以生成该3D边界框的深度特征层，然后对该3D边界框的深度特征层执行ROI(Region of Interest)池化操作，以生成该3D边界框的3D特征向量。

表2

优选地，上述3D特征提取卷积神经网络可以包括分别由两层卷积层和一层最大池化层构成的第一层和第二层、由三层卷积层和一层最大池化层构成的第三层，以及由三层卷积层构成的第四层。作为示例，表2中列出了该3D特征提取卷积神经网络的设置参数。

上述卷积层(convolution layer)可以由若干卷积单元组成，每个卷积单元的参数都可以通过反向传播算法最佳化得到。卷积运算的目的包括但不限于提取输入的不同特征。第一层卷积层可能只能提取一些低级的特征(例如：边缘、线条和角等层级)，而更多卷积层所组成的3D特征提取卷积神经网络则能从低级特征中迭代提取更复杂的特征。

上述池化层(pooling layer)也称为取样层，通常紧跟在卷积层之后，同样由多个特征面组成。池化层的每一个特征面对应于其上一层的一个特征面，不会改变特征面的个数。

上述ROI池化操作，可以具体地包括以下步骤：

1)输入C×H×W的特征地图(实质为一个3D矩阵，其中C为层数，H为行数，W为列数)，以表示ROI的边界框；

2)在输入端的特征地图的行维度和列维度上，找到边界框所对应的区域；

3)在特征地图中的该区域的每一层，沿着行和列的方向，将其等分成pool_h和pool_w份，每一层生成总共pool_h×pool_w个小格子；

4)在每一层的每一个小格子内找到最大值，并放到输出矩阵的对应位置，以生成一个C×pool_h×pool_w的特征向量(实质为一个3D矩阵，其中C为与输入一致的层数，pool_h和pool_w分别为提前设置的参数)。

通过上述ROI池化操作，可以生成该3D边界框的3D特征向量。上述3D特征向量是一个多维度向量，用于表征包括车辆尺寸、行驶方向，以及其他车辆与自车的相对位置等详细和准确的车辆3D信息。

104：对每个3D边界框在上述2D图像中对应的每个2D图像区执行特征提取，以生成各2D图像区所对应的2D特征向量。

可以将上述3D点云中的点向上述2D图像中映射以生成与每个3D边界框对应的2D图像区。例如，可将3D边界框的每一个顶点按照点云到图像中的方法，投射到2D图像中，以确定2D图像区的轮廓。以此方式，对应于每个3D点云子集的8n个3D边界框，找到8n个对应的2D图像区。

基于上述映射，对每个2D图像区执行特征提取可包括在2D障碍物识别的深度学习框架的图像整体深度特征层(例如：faster rcnn中的conv5_3层)，针对每个2D图像区执行ROI池化操作，以生成每个2D图像区对应的2D特征向量。

上述图像整体深度特征层可以是一种深度学习层，是本领域的技术人员习知的技术手段，详细记载于http://caffe.berkeleyvision.org/tutorial/layers.html。

上述2D特征向量是一个与上述3D特征向量维度数量相同的多维度向量，可以用于表征汽车障碍物在2D图像中的相关信息。

本领域的技术人员可以理解，上述conv5_3层只是一种具体的图像整体深度特征层。在其他实施例中，相应于采用其他深度学习框架，本领域的技术人员也可以在其他图像整体深度特征层，针对每个2D图像区执行ROI池化操作，以生成每个2D图像区对应的2D特征向量。

105：将各个3D边界框和对应2D图像区的相应3D特征向量和2D特征向量融合以生成融合特征向量。

上述将3D特征向量和2D特征向量融合可以包括但不限于将该3D特征向量和2D特征向量的对应维度求取平均数，并以生成的平均特征向量作为上述融合特征向量。

上述融合特征向量既包含3D点云信息，也包含2D图像信息，可以更准确的表征汽车障碍物的具体状态。

本领域的技术人员可以理解，上述求取平均数的融合方式，只是一种生成融合特征向量的具体方案。在其他实施例中，本领域的技术人员也可以求取加权平均数或采用其他算法，以生成融合特征向量。

106：基于融合特征向量执行3D障碍物识别，以获得各3D边界框的分类信息。

在本案中，上述基于融合特征向量执行3D障碍物识别，可以包括将融合特征向量输入融合卷积神经网络(Fusion CNN)，以获得各3D边界框的分类信息。

较优地，该融合卷积神经网络可以包括两层串联的全联层(Fullyconnectedlayer)，以及另外两层并联的全联层。上述并联的全联层，其中一层用于预测概率，另一层用作3D边界框的回归(regression)。作为示例，表3中列出了该融合卷积神经网络的设置参数。

表3

输入	特征向量
					全联层+线性整流层	fc_fuse1+relu	channel 1024
全联层+线性整流层	fc_fuse2+relu	channel 1024
					全联层	fc_bbox_pred	channel 14	全联层	fc_cls_score	channel 2
输出1	bbox_pred		输出2	cls_score

上述分类信息可以包括该3D边界框为何种障碍物及其概率。例如，可以将概率超过阈值的3D边界框视为检测到的障碍物。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

根据本发明的另一方面，本文还提供了一种用于3D障碍物的检测装置40的实施例。

如图4所示，本实施例提供的上述检测装置40，用于基于3D点云和2D图像执行3D障碍物检测。该检测装置40可以包括存储器41，以及耦接至该存储器41的处理器42。该处理器42可以配置用于实现上述任意一种用于3D障碍物的检测方法。

根据本发明的另一方面，本文还提供了一种用于3D障碍物的检测系统50的实施例。

如图5所示，上述检测系统50可以包括用于获取2D图像的图像捕捉装置51；用于获取3D点云的点云数据捕捉装置52；以及上述任意一种检测装置40。

上述图像捕捉装置51可以包括但不限于相机和摄像机。上述点云数据捕捉装置52可以包括但不限于激光雷达。

根据本发明的另一方面，本文还提供了一种计算机存储介质的实施例。

该计算机存储介质上存储有计算机程序。该计算机程序被处理器执行时，可以实现上述任意一种用于3D障碍物的检测方法的步骤。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

本案描述的处理器可使用电子硬件、计算机软件或其任何组合来实现。此类处理器是实现为硬件还是软件将取决于具体应用和加诸于系统的整体设计约束。作为示例，本公开中呈现的处理器、处理器的任何部分、或处理器的任何组合可用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立的硬件电路、以及配置成执行贯穿本公开描述的各种功能的其他合适的处理组件来实现。本公开中呈现的处理器、处理器的任何部分、或处理器的任何组合的功能性可用由微处理器、微控制器、DSP或其他合适的平台执行的软件来实现。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种用于3D障碍物的检测方法，用于基于3D点云和2D图像执行3D障碍物检测，所述检测方法包括：

2.如权利要求1所述的检测方法，其特征在于，所述对所述2D图像执行2D障碍物识别包括基于R-Cnn深度学习框架或MS-Cnn深度学习框架执行所述2D障碍物识别。

3.如权利要求1所述的检测方法，其特征在于，所述针对每个3D点云子集执行几何分析包括：

4.如权利要求1所述的检测方法，其特征在于，所述对各个3D边界框所含的点云数据执行特征计算包括：

5.如权利要求4所述的检测方法，其特征在于，所述3D特征提取卷积神经网络包括分别由两层卷积层和一层最大池化层构成的第一层和第二层、由三层卷积层和一层最大池化层构成的第三层、以及由三层卷积层构成的第四层。

6.如权利要求1所述的检测方法，其特征在于，对每个2D图像区执行特征提取包括：

7.如权利要求1所述的检测方法，其特征在于，所述将3D特征向量和2D特征向量融合包括将该3D特征向量和2D特征向量的对应维度求取平均数以生成平均特征向量以作为所述融合特征向量。

8.如权利要求1所述的检测方法，其特征在于，所述基于所述融合特征向量执行3D障碍物识别包括将所述融合特征向量输入融合卷积神经网络以获得各3D边界框的分类信息。

9.如权利要求8所述的检测方法，其特征在于，所述基于融合卷积神经网络包括两层串联的全联层以及另外两层并联的全联层。

10.如权利要求8所述的检测方法，其特征在于，每个3D边界框的分类信息包括该3D边界框为何种障碍物及其概率。

11.一种用于3D障碍物的检测装置，用于基于3D点云和2D图像执行3D障碍物检测，所述检测装置包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器配置用于：

12.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成基于R-Cnn深度学习框架或MS-Cnn深度学习框架执行所述2D障碍物识别。

13.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成：

14.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成：

15.如权利要求14所述的检测装置，其特征在于，所述3D特征提取卷积神经网络包括分别由两层卷积层和一层最大池化层构成的第一层和第二层、由三层卷积层和一层最大池化层构成的第三层、以及由三层卷积层构成的第四层。

16.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成：

17.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成将该3D特征向量和2D特征向量的对应维度求取平均数以生成平均特征向量以作为所述融合特征向量。

18.如权利要求11所述的检测装置，其特征在于，所述处理器进一步配置成将所述融合特征向量输入融合卷积神经网络以获得各3D边界框的分类信息。

19.如权利要求18所述的检测装置，其特征在于，所述基于融合卷积神经网络包括两层串联的全联层以及另外两层并联的全联层。

20.如权利要求18所述的检测装置，其特征在于，每个3D边界框的分类信息包括该3D边界框为何种障碍物及其概率。

21.一种用于3D障碍物的检测系统，包括：

图像捕捉装置，用于获取2D图像；

点云数据捕捉装置，用于获取3D点云；以及

如权利要求11-20中任一项所述的检测装置。

22.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。