CN113228043A

CN113228043A - 移动平台基于神经网络的障碍物检测及关联的系统和方法

Info

Publication number: CN113228043A
Application number: CN201980087253.8A
Authority: CN
Inventors: 陈晓智; 张磊杰; 赵丛
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2021-08-06
Also published as: WO2020150904A1

Abstract

本文公开了检测与移动平台相邻的环境中的障碍物及相关联的系统和方法。代表性的方法包括：从由移动平台承载的一个或多个传感器获得指示环绕移动平台的环境的至少一部分的传感器数据；至少部分地基于传感器数据确定深度信息、特征图和多个候选区域，其中，每个候选区域指示所述环境内的障碍物的至少一部分；以及，将所述深度信息、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。

Description

移动平台基于神经网络的障碍物检测及关联的系统和方法

技术领域

本公开的技术大致针对检测与移动平台相邻的三维(3D)环境中的障碍物，例如，一个或多个行人、运载工具、建筑物或其他障碍物类型。

背景技术

通常可以使用一个或多个传感器扫描或以其他方式检测环绕移动平台的环境。例如，移动平台可以配备有立体视觉系统(例如，“立体相机”)以感测其周围环境。立体相机通常是具有均具有单独的成像传感器或胶片帧的两个或更多个镜头的相机类型。当同时利用两个或更多个镜头但从不同角度拍摄照片/视频时，对应的照片/视频之间的差异提供用于计算深度信息(例如，场景中的物体与该立体相机的距离)的基础。作为另一个示例，移动平台可以配备有一个或多个光雷达传感器，其通常向外发射脉冲信号(例如，激光信号)，检测脉冲信号反射，并且确定关于环境的深度信息，以促进物体检测和/或识别。自动或无人导航通常需要确定障碍物的各种属性，例如，位置、定向或大小。仍然存在对于更高效的障碍物检测技术的需要，所述技术可以帮助改善各种更高级应用的性能。

发明内容

以下发明内容是为了读者的方便而提供，并且指出所公开的技术的一些代表性实施例。

在一个方面，一种用于使用由移动平台承载的一个或多个传感器检测障碍物的计算机实现的方法包括：从所述一个或多个传感器获得指示环绕所述移动平台的环境的至少一部分的传感器数据；至少部分地基于所述传感器数据确定深度信息、特征图和多个候选区域，其中，每个候选区域指示所述环境内的障碍物的至少一部分；将所述深度信息、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。

在一些实施例中，所述一个或多个传感器包括光雷达、雷达、飞行时间(ToF)相机、立体相机或单目相机中的至少一个。

在一些实施例中，所述深度信息包括点云。

在一些实施例中，所述点云基于由光雷达、雷达、飞行时间(ToF)相机、立体相机或单目相机中的至少一个生成的传感器数据获得。

在一些实施例中，所述深度信息包括至少部分地基于直接或间接从立体相机或单目相机中的至少一个生成的视差数据所确定的深度地图。

在一些实施例中，通过将所述特征图馈送到与所述障碍物检测神经网络分开的深度估计神经网络来生成所述深度信息。

在一些实施例中，所述传感器数据包括图像数据，并且其中，至少通过将所述图像数据馈送到与所述障碍物检测神经网络分开的基础神经网络来生成所述特征图。

在一些实施例中，所述传感器数据包括点云，并且其中，至少部分地基于将所述点云投影到根据所述图像数据定义的2D网格上来生成所述特征图。

在一些实施例中，所述投影至少部分地基于关于生成所述图像数据的至少一个传感器的非固有校准参数和/或固有校准参数。

在一些实施例中，投影后的数据包括用于所述2D网格的各个网格块的高度、距离或角度测量中的至少一项。

在一些实施例中，还通过将投影后的数据馈送到所述基础神经网络来生成所述特征图。

在一些实施例中，所述特征图在大小上小于所述图像数据。

在一些实施例中，所述基础神经网络或所述障碍物检测神经网络中的至少一个包括一个或多个卷积层和/或池化层。

在一些实施例中，所述方法还包括：将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

在一些实施例中，每个候选区域是包括所述图像数据的相应目标像素的二维(2D)区域。

在一些实施例中，所述相应目标像素与指示所述环境内的所述障碍物的至少一部分的概率相关联。

在一些实施例中，基础神经网络、中间神经网络和障碍物检测神经网络中的至少两项被联合训练。

在一些实施例中，所述障碍物检测神经网络包括第一子网络，所述第一子网络被配置为，至少部分地基于所述深度信息和所述多个候选区域的所述至少一个子集，确定所述子集中的每个候选区域的障碍物的初始3D位置。

在一些实施例中，所述障碍物检测神经网络包括第二子网络，所述第二子网络被配置为，至少部分地基于所述多个候选区域的所述至少一个子集和所述特征图，针对所述子集中的每个候选区域生成一个或多个区域特征。

在一些实施例中，所述障碍物检测神经网络包括第三子网络，所述第三子网络被配置为，至少部分地基于所述初始3D位置和所述一个或多个区域特征，针对所述子集中的每个候选区域预测与所述候选区域相对应的障碍物的类型、姿态、定向、3D位置或3D大小中的至少一项。

在一些实施例中，移动平台包括以下中的至少一项：无人驾驶飞行器(UAV)、有人驾驶航空器、自主汽车、自平衡运载工具、机器人、智能可穿戴装置、虚拟现实(VR)头戴式显示器或增强现实(AR)头戴式显示器。

在一些实施例中，所述方法还包括：至少部分地基于控制命令控制移动平台的移动性功能。

在一些实施例中，所述方法还包括：至少部分地基于所预测的一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。

在另一个方面，一种存储计算机可执行指令的非暂时性计算机可读介质，所述指令当被执行时，使与移动平台相关联的一个或多个处理器执行包括以下的动作：从由所述移动平台承载的一个或多个传感器获得指示环绕所述移动平台的环境的至少一部分的传感器数据；至少部分地基于所述传感器数据确定深度信息、特征图和多个候选区域，其中，每个候选区域指示所述环境内的障碍物的至少一部分；以及，将所述深度信息、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。

在一些实施例中，所述深度信息包括所述点云。

在一些实施例中，所述特征图在大小上小于所述图像数据。

在一些实施例中，所述动作还包括：将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

在一些实施例中，移动平台包括无人驾驶飞行器(UAV)、有人驾驶航空器、自主汽车、自平衡运载工具或机器人中的至少一项。

在一些实施例中，所述动作还包括：至少部分地基于所预测的所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。

在另一个方面，一种包括被编程控制器的移动平台，所述被编程控制器至少部分地控制所述移动平台的一个或多个运动，其中，所述被编程控制器包括一个或多个处理器，所述一个或多个处理器被配置为：从一个或多个传感器获得指示环绕所述移动平台的环境的至少一部分的传感器数据；至少部分地基于所述传感器数据确定深度信息、特征图和多个候选区域，其中，每个候选区域指示所述环境内的障碍物的至少一部分；将所述深度信息、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。

在一些实施例中，所述深度信息包括所述点云。

在一些实施例中，所述特征图在大小上小于所述图像数据。

在一些实施例中，所述一个或多个处理器还被配置为，将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

在一些实施例中，所述一个或多个处理器还被配置为，至少部分地基于所预测的所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。

附图说明

图1是具有根据本公开的技术的一些实施例所配置的元件的代表性系统100的示意图。

图2是示出根据本公开的技术的一些实施例的将人工神经网络(ANN)的分级结构用于为移动平台检测障碍物的方法的流程图。

图3是示出根据本公开的技术的一些实施例的将ANN的分级结构用于为移动平台检测障碍物的另一种方法的流程图。

图4A和图4B示出根据本公开的技术的一些实施例的2D网格和在其上识别的候选区域的示例。

图5是示出根据本公开的技术的一些实施例的使用障碍物检测网络的障碍物检测过程的流程图。

图6示出根据本公开的技术的各种实施例所配置的移动平台的示例。

图7是示出可以用于实现本公开的技术的各个部分的计算机系统或其他控制装置的架构的示例的框图。

图8是示出根据本公开的技术的一些实施例的使用候选区域网络的候选区域确定过程的流程图。

图9示出根据本公开的技术的一些实施例的使用由移动平台承载的一个或多个传感器检测障碍物的示例过程。

图10示出根据本公开的技术的一些实施例的生成特征图的示例过程。

图11A和图11B示出根据本公开的技术的一些实施例的基础神经网络中所使用的级联卷积和池化层及其所涉及的示例数据的示例。

图12示出根据本公开的技术的一些实施例的生成特征图的示例实现。

具体实施方式

1、概述

障碍物检测是自动或无人驾驶导航技术的重要方面。由移动平台承载(例如，无人驾驶汽车、船舶或航空器)的传感器(例如，相机或光雷达传感器)所收集的图像数据和/或点云数据可以用作检测环绕移动平台或从移动平台以其他方式可观察的环境中的障碍物的基础。障碍物的2D位置(例如，图像上的)、定向、姿态、3D位置和大小和/或其他属性在各种高级导航应用中可以是有用的。障碍物检测和3D定位的精度和效率在某种程度上可以确定对应的导航系统的安全性和可靠性。

通常，从立体相机数据(例如，图像)重构的3D信息比由光雷达或其他发射/检测传感器所产生的3D点云更不精确。因此，使用由光雷达所产生的点云的障碍物检测方法可能不适用于立体相机数据。另一方面，基于图像的障碍物检测方法通常仅输出障碍物的2D位置，并且不能够确定障碍物在物质世界中的精确3D位置。本公开的技术的方面基于从传感器所收集的各种数据使用人工神经网络(ANN)的分级结构和基于区域的方法来检测障碍物并确定它们的状态属性(例如，定位信息)。在一些实施例中，使输入和输出被专门定义的多个ANN互连的ANN分级结构的特定结构尤其对本公开的技术的各种优点和改进(例如，计算效率、检测准确性，系统鲁棒性等)做出贡献等。如本领域技术人员将了解的，ANN是通过考虑示例来″学习″任务(即，在其上逐渐地提高性能)的计算系统，一般无需任务特定的编程。例如，在图像识别中，ANN可以通过以下来学习识别包含猫的图像：分析被人工标记为″猫″或″非猫″的示例图像，并且使用所述结果来识别其他图像中的猫。

ANN通常基于被连接的被称作人工神经元的单元或节点的集合。人工神经元之间的每个连接可以从一个人工神经元向另一个人工神经元发送信号。接收信号的人工神经元可以处理该信号并且随后发信号通知连接到它的人工神经元。通常，在ANN实现中，在人工神经元之间的连接处的信号是实数，并且每个人工神经元的输出通过其输入总和的非线性函数来计算。人工神经元和连接通常具有随学习进行而调整的权重。所述权重增大或减小在连接处的信号的强度。人工神经元可以具有阈值，使得只有在聚合信号越过该阈值才发送信号。通常，人工神经元按层组织。不同的层可以在它们的输入上执行不同种类的变换。信号可能在多次穿过各层之后从第一个(输入)层行进到最后一个(输出)层。

在一些实施例中，由本公开的技术所使用的一个或多个ANN包括卷积神经网络(CNN或ConvNet)。通常，CNN使用被设计成需要最小预处理的多层感知器的变体。CNN还可以是基于其共享权重架构和平移不变特性的平移不变或空间不变人工神经网络(SIANN)。作为说明，CNN受到生物过程的启示，其中的神经元之间的连接模式与动物视皮层的组织相似。各个皮层的神经元响应于仅在被称为感受域的视场的受限区域中的激励。不同神经元的感受域部分重叠，从而使它们覆盖整个视场。

在一些实施例中，本公开的技术以分级结构实现各种ANN并且互连所述ANN，以实现更精确和/或高效的障碍物检测。在一些方面，基础神经网络可以接收3D点云数据、立体相机图像数据和/或单目图像数据，并且生成用于馈送到一个或多个其他神经网络中的中间特征(例如，特征图)。在一些方面，候选区域神经网络可以至少接收所述中间特征并且确定指示所述环境内的障碍物的至少一部分的2D候选区域。在一些方面，障碍物检测神经网络可以接收环境深度信息(例如，3D点云或深度地图数据)、中间特征、以及候选区域，并且预测所检测的障碍物的各种属性。

为了清楚起见，在以下描述中没有阐述如下描述结构和/或过程的若干细节：这些结构或过程是公知的且普遍与移动平台(例如，UAV、汽车或其他类型的移动平台)以及对应的系统和子系统相关联，但可能不必要地使本公开的技术的一些重要方面变得模糊。此外，尽管以下公开内容阐述了本公开的技术的不同方面的若干实施例，但是一些其它实施例可以具有与本文中所描述的不同的配置或不同的组件。相应地，本公开的技术可以具有其他实施例，这些实施例具有附加元件和/或不具有以下参考图1至图9描述的若干元件。

提供了图1至图9以示出本公开的技术的代表性实施例。除非另有规定，否则附图不旨在限制本申请中权利要求的范围。

以下描述的本技术的许多实施例可以采取计算机或控制器可执行指令的形式，包括由可编程计算机或控制器执行的例程。可编程计算机或控制器可以或可以不驻留在相应移动平台上。例如，可编程计算机或控制器可以是移动平台的机载计算机，或者是与移动平台相关联的单独但专用的计算机，或者是基于网络或基于云的计算服务的一部分。相关领域技术人员将会理解，除了下文所示和所述的那些之外，还可以在计算机或控制器系统上实施该技术。该技术可以体现在被专门编程、配置或构造为执行下文所述的一个或多个计算机可执行指令的专用计算机或数据处理器中。因此，本文中通常使用的术语“计算机”和“控制器”指任何数据处理器，并且可以包括互联网装置和手持装置(包括掌上计算机、可穿戴计算机、蜂窝或移动电话、多处理器系统、基于处理器的或可编程的消费电子产品、网络计算机、微型计算机等)。由这些计算机和控制器处理的信息可以呈现在包括LCD(液晶显示器)的任何适当的显示介质上。用于执行计算机或控制器可执行任务的指令可以存储在任何合适的计算机可读介质中或其上，包括硬件、固件、或硬件和固件的组合。指令可以被包含在任何合适的存储装置中，包括例如闪存驱动器、通用串行总线(USB)装置和/或其他合适的介质。在特定实施例中，指令相应地是非暂时性的。

2、代表性实施例

图1是具有根据本公开的技术的一些实施例所配置的元件的代表性系统100的示意图。系统100包括移动平台110(例如，自动运载工具)和控制系统120。移动平台110可以是可以在各个实施例中使用的任何合适类型的可移动物体，例如，无人驾驶飞行器、有人驾驶航空器、自动运载工具、自平衡运载工具或机器人。

移动平台110可以包括可以承载负载114的主体112。根据本文描述的实施例可以使用许多不同类型的负载。在一些实施例中，负载包括一个或多个传感器，例如，成像装置或光电扫描装置。例如，负载114可以包括光雷达、雷达、飞行时间(ToF)相机、立体相机、单目相机、摄像机和/或静物相机。相机可以对任何各种合适的波段(包括可视光、紫外线、红外线和/或其他波段)中的波长敏感。负载114也可以包括其他类型的传感器和/或其他类型的货物(例如包裹或其他可配送物)。在一些实施例中，利用承载机构116(例如，万向支架、行李架或撑杆)相对于主体112支撑负载114。承载机构116可以允许负载114相对于主体112被独立定位。

移动平台110可以被配置为从控制系统120接收控制命令和/或向控制系统120发送数据。在图1中示出的实施例中，控制系统120包括在移动平台110上承载的一些组件和/或定位在移动平台110外的一些组件。例如，控制系统120可以包括由移动平台110承载的第一控制器122和/或定位为远离移动平台110并且经由通信链路128(例如，诸如基于射频(RF)的链路之类的无线链路)连接的第二控制器124(例如，人工操作的遥控器)。第一控制器122可以包括执行引导移动平台110的动作的指令的计算机可读介质126，包括但不限于包括负载162(例如，相机)的移动平台的各种组件的操作。第二控制器124可以包括一个或多个输入/输出装置，例如，显示按钮和控制按钮。在一些实施例中，操作者至少部分地操纵第二控制器124，以远程控制移动平台110，并且经由第二控制器124上的显示接口和/或其他接口从移动平台110接收反馈。在一些实施例中，移动平台110自动操作，在这种情况下第二控制器124可以被消除或仅被操作者用于无效功能。

为了提供安全和高效的操作，能够自动或半自动地检测障碍物和/或参与用于避免障碍物的回避机动对于自动运载工具、UAV和其他类型的无人驾驶运载工具可以是有益的。另外，特别是当移动平台以半自动方式或全自动方式操作时，感测环境物体对于诸如导航、目标跟踪和地图绘制之类的移动平台功能可以是有用的。

因此，本文描述的移动平台可以包括被配置为检测环绕移动平台的环境中的物体的一个或多个传感器(例如，与负载类型传感器分离且独立于负载类型传感器)。在一些实施例中，移动平台包括被配置为测量物体和移动平台之间的距离的一个或多个传感器(例如，图1的距离测量装置140)。距离测量装置可以由移动平台以各种方式承载，例如，在移动平台的主体上方、下方、侧面上或在其内。可选地，距离测量装置可以经由万向支架或允许装置相对于移动平台平移和/或旋转的其他承载机构耦接至移动平台。在一些实施例中，距离测量装置是使用光来测量到物体的距离的光学距离测量装置。光学距离测量装置可以是光雷达系统或激光测距仪。在一些实施例中，距离测量装置是可以成像数据的相机，从其可以确定深度信息。相机可以是立体相机或单目相机。

图9示出根据本公开的技术的一些实施例的使用由移动平台承载的一个或多个传感器检测障碍物的示例过程900。在框910处，过程900包括：从一个或多个传感器(例如，光雷达、雷达、飞行时间(ToF)相机、立体相机、单目相机等)获得指示环绕移动平台的环境的至少一部分的传感器数据(例如，点云、深度地图、图像等)。在框920处，过程900包括：至少部分地基于传感器数据确定深度信息(例如，深度地图、点云等)、特征图(例如，基于2D网格的特征)和多个候选区域(例如，在诸如图像之类的2D网格上定义的区域)。作为说明，每个候选区域指示所述环境内的障碍物的至少一部分。

在框910和框920的背景下，图12示出根据本公开的技术的一些实施例的生成特征图的示例实现。参考图12，图像和从点云导出的初步特征可以被馈送到基础神经网络。如上文所讨论的，图像和点云可以在过程900的框910处获得。如将在下文参考图2详细讨论的，预处理模块(例如，与移动平台相关联的控制器的一部分)可以将点云中的3D点投影到根据图像定义的2D网格(例如，2D平面)上，由此生成包括例如高度值、角度值和/或距离值的基于2D网格的初步特征的集合。如将在下文参考图2、图10、图11A和图11B详细讨论的，基础神经网络可以包括多个变换层，其可以将图像和初步特征变换成用于进一步处理的一个或多个特征图。在一些实施例中，如将在下文参考图3、图10、图11A和图11B详细讨论的，基础神经网络可以包括多个变换层，变换层可以将图像变换成用于进一步处理的一个或多个特征图。

回去参考图9，在框930处，过程900包括：将深度信息、特征图、以及所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。所述状态属性包括所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项。

更具体地，图2是示出根据本公开的技术的一些实施例的将ANN的分级结构用于为移动平台检测障碍物的方法200的流程图，。方法200可以由控制器(例如，移动平台的板载计算机、相关联的计算装置和/或相关联的计算服务)实现。

参考图2，控制器可以使用由移动平台承载的一个或多个传感器来获得点云数据202(或另一种形式的深度信息)和图像数据204。如上文所讨论的，立体相机、光雷达、雷达、飞行时间(ToF)相机、立体相机或单目相机或其他传感器可以提供用于获得环绕或以其他方式相邻于移动平台但是不必邻接移动平台的环境的深度信息(例如，场景的不同部分和传感器之间的距离测量)的数据。点云数据202可以直接从深度检测传感器(例如，光雷达、雷达或飞行时间(ToF)相机)获得或直接根据使用立体相机或单目相机的重构获得。作为说明，基于由光雷达、雷达或飞行时间(ToF)相机、立体相机、单目相机等生成的传感器数据来获得点云数据(或另一种形式的深度信息)。在一些实施例中，深度信息可以包括至少部分地基于直接或间接地从图像数据204生成的视差数据所确定的深度地图。

作为说明，图像数据204可以由立体相机或由单目相机提供。在一些实施例中，控制器获得时间连续的一系列点云和图像(例如，点云帧和图像帧)。在一些实施例中，在方法200中使用与相同时刻相对应的点云和图像。

控制器将点云数据202馈送到预处理模块210(例如，一个或多个层的神经网络)，其输出基于2D网格的初步特征212。作为说明，预处理模块210可以被实现为，将点云数据202投影到根据图像数据所定义的2D网格，以获得投影后的数据，所述2D网格具有与所获得的图像数据204相同的大小。图4A示出这种2D网格的示例。投影点云数据202可以基于与生成了图像数据204的相机相关联的非固有校准参数和/或固有校准参数来执行。例如，如果图像数据204具有720x1280像素的大小，则预处理模块210可以将点云的扫描点投影到与图像数据204的像素相对应的720x1280各个网格块402上。换言之，每个像素可以与2D网格的网格块402相对应。可以基于将点云数据202投影到根据图像数据所定义的2D网格上来针对各个网格块计算诸如高度(例如，3D坐标的z坐标)、深度(例如，到移动平台的距离)、角度(例如，法向量)等之类的特征。以这种方式，基于2D网格的初步特征212可以具有720x1280网格块，并且每个网格块可以包括从点云数据导出的一个或多个特征(例如，高度、距离或角度测量)。

根据示例实现，点云数据202从与生成了图像数据204的相机相关联的3D坐标系统被投影到图像数据204的2D网格。如果点云数据202中的点数是N，并且各个点的3D坐标是p＝(x，y，z)，则可以基于以下来投影点：

其中，f_x，f_y是焦距，c_x，c_y是光学中心坐标(例如，f_x，f_y和c_x，c_y可以从与相机相关联的固有校准参数获得)，且(u，v)是点被投影之后的像素坐标。因此，建立三维点(x，y，z)和像素坐标(u，v)之间的对应或映射。

对于每个像素坐标(u，v)，为了生成初步特征212，控制器可以基于其对应的3D坐标(x，y，z)执行特征编码。例如，根据一些编码方案，控制器可以将点云编码成3通道初步特征的集合。3通道的特征可以分别表示距离、高度和角度。特征编码可以基于：

其中，c1，c2，c3分别是距离值、高度值和角度值，且α_z，α_y是归一化系数(其可以被预先确定)。因此，点云数据202的投影可以生成均包括相应距离值、高度值和角度值的基于2D网格的初步特征的集合。

回去参考图2，控制器可以将初步特征212(例如，投影后的数据)和图像数据204馈送到基础神经网络220(例如，包括一个或多个CNN)。在各个实施例中，基础神经网络220可以包括一个或多个卷积操作层和/或池化(例如，下采样)操作层。作为说明，利用多个特征变换的层，基础神经网络220可以基于初步特征212和图像数据204输出特征图222。在一些实施例中，特征图222可以采用在大小上小于初步特征212的基于2D网格的特征图的形式。例如，基础神经网络可以包括依次级联的多个模块(例如，均包括一个或多个卷积层和/或池化层)，所述多个模块中的每个模块对输入特征(初步特征212和图像数据204)执行非线性特征变换(例如，卷积)和/或池化(例如，下采样)。在多个级别的特征变换和/或池化操作之后，基础神经网络可以输出比初步特征212更小的大小的特征图222。

在这个方面，图10示出用于生成特征图的示例过程。通常，CNN可以包括两种主要类型的网络层，即卷积层和池化层。卷积层可以用于将各种特征从输入(例如，图像)提取到卷积层。池化层可以用于压缩被输入到池化层的特征，由此减少神经网络的训练参数的数量和减轻模型过拟合的程度。根据图10，如果输入初步特征在大小上是32*32，那么在卷积操作之后，初步特征可以被变换成6个特征图的第一集合。这个特征图的第一集合均具有28*28的大小。在对特征图的第一集合执行池化操作之后，生成6个特征图的第二集合。该特征图的第二集合均具有14*14的大小。

图11A示出根据本公开的技术的一些实施例的基础神经网络中所使用的级联卷积层和池化层的示例。如图所示，基础神经网络包括具有以级联方式彼此串联的3个卷积层(例如，分别导致C1、C3和C5的操作)和3个池化层(例如，分别导致S2、S4和S6的操作)的网络。使用级联的卷积层和池化层，输入(64*64大小)被变换成6个特征图(60*60大小)的第一集合(C1)，并且进而变换成6个特征图(30*30大小)的第二集合(S2)、16个特征图(26*26大小)的第三集合(C3)、16个特征图(13*13大小)的第四集合(S4)、特征图(10*10大小)的第五集合(C5)、以及作为输出的特征图(5*5大小)的第六集合(C6)。在一些实施例中，特征图的第六集合(C6)还可以被全连接层和/或高斯层变换成例如作为来自基础神经网络的输出的向量。图11b示出涉及图11A的级联结构的输入和特征图集合的示例。

回去参考图2，特征图222可以是根据本公开的技术的各个实施例的用于实现障碍物检测和/或3D定位的到多个神经网络或可应用组件的公共输入。继续参考图2，控制器可以将特征图222馈送到候选区域神经网络230(例如，包括一个或多个CNN)，以生成根据图像数据定义的多个候选区域204。在各个实施例中，候选区域神经网络230可以包括卷积和/或池化操作的一个或多个层。

图8是示出根据本公开的技术的一些实施例的使用候选区域神经网络830(例如，与图2中的候选区域神经网络230相对应)的候选区域确定过程800的流程图。参考图8，候选区域神经网络830可以包括用于特征变换、可能性估计、2D网格回归(regression)和/或冗余过滤的一个或多个模块840-870。

作为说明，特征变换模块840接收特征图822作为输入，其被进一步变换，以馈送到(a)可以预测图像数据204(或对应2D网格中的每个网格块)中的每个像素“属于”障碍物的概率的可能性估计模块850，(b)可以确定表示像素(或网格块)“所属”的障碍物的对应2D区域的2D网格回归模块860。来自可能性估计模块850和2D网格回归模块860的输出被馈送到可以根据所预测的概率和/或2D区域的重叠滤除冗余的2D区域的冗余过滤模块870。冗余过滤模块870随后可以输出要被包括在候选区域数据832(例如，候选区域数据232)中的更少数量的候选区域。

回去参考图2，作为说明，候选区域神经网络230可以包括一个或多个CNN。候选区域神经网络230可以输出包括或指示候选区域的候选区域数据232。每个候选区域可以指示环境内的障碍物的至少一部分(例如，示出障碍物的至少某个部分的图像的部分)。例如，图4B示出在2D网格上识别的示例候选区域410。作为说明，2D网格可以根据图像数据204定义(例如，在大小上更小)，在一些实施例中，用于识别候选区域的2D网格可以是图像数据204。

候选区域可以是包括具有基础块412的一组连接或不连接的网格块的2D区域。每个网格块可以与图像数据204中的像素的各个像素或块(例如，3x3的大小)相对应。使用2D网格的每个网格块作为基础块412，候选区域神经网络230可以输出(1)基础块412指示障碍物的某个部分的可能性(例如，所估计的概率)、以及(2)包括基础块412且可能与障碍物的至少一部分相对应的候选区域410。在一些实施例中，各种标准可以应用于候选区域和/或与其相关联的用于通过滤除冗余的候选来选择用于输出的数据的子集的可能性。例如，超过与一个或多个其他候选区域重叠的阈值水平的候选区域可以从输出中被排除。作为另一个示例，如果候选区域的相应基础块属于障碍物的可能性落在阈值以下，则可以滤除它们。

根据上文大致描述的上下文，本公开的技术可以包括(1)数据获取和预处理方面、以及(2)特征图和候选区域确定方面。通过实现示例，数据获取和预处理方面可以包括：获得通过由运动中的移动平台承载的立体相机获取的立体彩色图像(例如，具有720*1280的分辨率)；经由基于立体图像的3D重构生成3D点云；以及，基于3D点云和图像确定输入特征。

为了确定输入特征，可以从3D点云获得初步特征。作为说明，使用立体相机的校准参数将点云投影到图像的2D网格(例如，平面)上。投影可以导致与图像相同大小(例如，720*1280)的初步特征(例如，投影后的数据)。对于2D网格的每个网格块，可以基于实际需要和/或计算效率计算各种特征(例如，高度、距离或角度测量)。例如，可以计算与每个网格块相关联的3个特征(例如，高度、距离和角度)，因此初步特征具有720*1280*3的维度。

接着，(a)初步特征(例如，具有720*1280*3的维度)和(b)立体图像的左眼(或右眼)图像可以被拼接或以其他方式组合。作为说明，左眼图像是也具有720*1280*3的维度的RGB图像。(a)和(b)的组合因此生成具有720*1280*6的维度的输入特征，其可以用作用于确定特征图和候选区域的输入。

根据特定的示例，特征图和候选区域确定方面可以包括基础神经网络和候选神经网络的使用。基于实际需要和/或计算效率，神经网络可以包括卷积操作和池化操作的层。

作为说明，基础神经网络接收输入特征(例如，具有720*1280*6的维度)作为输入。基础神经网络可以包括依次级联的4个模块，所述模块中的每个模块执行非线性特征变换和2x下采样。因此，在4轮下采样之后，基础神经网络可以输出具有45*80的分辨率的特征图。候选区域神经网络接收该特征图作为输入，预测左眼图像中的每个像素“属于”障碍物且对应2D区域表示或指示该障碍物的概率。基于所预测的概率，候选区域神经网络滤除冗余的2D区域并且输出剩余的2D区域作为表示或指示障碍物的候选区域。候选区域的数量可以为几百，例如，500、400、300或更少。

回去参考图2，控制器可以将点云数据202、特征图222和候选区域数据232馈送到障碍物检测神经网络240(例如，包括一个或多个CNN)。如将在下文参考图5更详细地讨论的，障碍物检测神经网络240可以输出包括类型、姿态、定向、3D位置、3D大小的预测的已检测到的障碍物的一个或多个状态属性242和/或环境内的一个或多个障碍物中的已检测到的障碍物的其他属性。控制器可以基于已检测到的障碍物的状态属性242输出命令或指令，以控制移动平台的至少某种运动(例如，加速、减速、转向等)以避免接触已检测到的障碍物。

图3是示出根据本公开的技术的一些实施例的将ANN的分级结构用于为移动平台检测障碍物的方法300的流程图。方法300可以由控制器(例如，移动平台的板载计算机、相关联的计算装置和/或相关联的计算服务)实现。在一些实施例中，方法300可以在ANN的分级结构的不同的层或级处使用由立体相机或单目相机获得的数据的各种组合，以实现障碍物检测和3D定位。

参考图3，控制器可以使用由移动平台承载的相机或其他视觉传感器获得图像数据302。如上文所讨论的，由相机生成的图像数据可以提供用于获得环绕移动平台或以其他方式与移动平台相邻但是不必邻接移动平台的环境的深度信息(例如，场景的不同部分和传感器之间的距离的测量)的基础。在各个实施例中，图像数据302可以由立体相机和/或单目相机提供。在一些实施例中，控制器获得与特定时刻相对应的立体图像和/或单目图像。在一些实施例中，控制器获得时间连续的一系列图像(例如，帧图像)。

更具体地，控制器可以将图像数据302馈送到基础神经网络320中(例如，包括一个或多个CNN)。基础神经网络320可以在结构上等价于、类似于或不类似于在参考图2在上文描述的方法200中使用的基础神经网络220。在各个实施例中，基础神经网络320可以包括卷积和/或池化操作的一个或多个层。作为说明，利用卷积和/或池化操作的多个层，基础神经网络320可以基于图像数据302输出特征图322。特征图322可以采用大小上小于图像数据302中包括的各个图像的基于2D网格的特征图的形式。

继续参考图3，控制器可以将特征图322馈送到深度估计神经网络310中(例如，包括一个或多个CNN)中，其输出深度信息312(例如，深度地图)。作为说明，深度估计神经网络310可以被实现为估计与图像数据302内所定义的不同位置相对应的深度信息。例如，对于图像数据302中所包括的目标图像，深度估计神经网络310可以分析在目标图像之前和/或之后的图像的多个帧，并且输出包括目标图像的每个像素的已估计深度值(例如，与移动平台的距离)的深度信息312。备选地，深度信息(例如，深度地图)可以基于直接或间接地从立体相机或单目相机中的至少一个生成的视差数据来确定。

控制器可以将特征图322馈送到诸如候选区域神经网络330(例如，可以包括一个或多个CNN的候选区域神经网络830)之类的中间神经网络。候选区域神经网络330可以在结构上等同于、类似于或不类似于在参考图2在上文描述的方法200中使用的候选区域神经网络230。在各个实施例中，候选区域神经网络330可以包括卷积和/或池化操作的一个或多个层。例如，各个神经元可以对它们的输入应用相应卷积操作，并且，在一个层处的一簇神经元的输出可以被组合为下一个层的单个神经元。作为说明，候选区域神经网络330可以输出包括或指示候选区域的候选区域数据332。每个候选区域可以指示环境内的障碍物的至少一部分。

如上文参考图4B所讨论的，候选区域可以是包括基础块412的一组连接的或不连接的网格块。每个网格块可以与所获得的图像中的各个像素或像素的块(例如，2x4的大小)相对应。使用2D网格的每个网格块作为基础块412，候选区域神经网络330可以输出(1)基础块412指示障碍物的至少某个部分的可能性(例如，所估计的概率)、以及(2)包括基础块412并且可能指示障碍物的至少一部分的对应候选区域410。如上文参考图4B所讨论的，各种标准可以应用于候选区域、其相关联的基础块和/或用于选择用于输出的数据的子集的可能性。

通过参考图8的实现示例，所获得的图像具有100*50的分辨率(即，图像具有5000像素)且该图像包括包含障碍物A的一个或多个障碍物的2D表示。参考图8，特征变换模块840接收与所获得的图像相对应的特征图822作为输入，并且对其进行变换，以馈送到(a)可以预测图像中的每个像素“属于”障碍物的概率的可能性估计模块850。作为说明，可能性估计模块850预测图像中的100个像素以相应概率“属于”障碍物。

继续参考图8，特征变换模块840还将经变换的特征图馈送到可以确定表示像素(或网格块)“所属”的障碍物的对应2D区域的2D网格回归模块860。作为说明，因为100个像素“属于”障碍物A，所以2D网格回归模块860可以确定表示或指示障碍物A的100个对应2D区域(例如，2D帧)。

基于已估计的100个像素中的每个像素“属于”障碍物A的概率，非最大值抑制方法(或其他合适的过滤方法)可以用于从100个2D区域去除区域的子集(例如，彼此重叠超过阈值程度的那些)。剩余的2D区域可以被保留为障碍物A的输出候选区域。

回去参考图3，控制器可以将深度信息312、特征图322和候选区域数据332馈送到障碍物检测神经网络340(例如，包括一个或多个CNN)中。障碍物检测神经网络340可以在结构上等同于、类似于或不类似于在参考图2在上文描述的方法200中使用的障碍物检测神经网络240。如将在下文更详细地讨论的，障碍物检测神经网络340可以输出包括类型、姿态、定向、3D位置、3D大小的预测在内的已检测到的障碍物的一个或多个状态属性342和/或已检测到的障碍物的其他属性。控制器可以基于已检测到的障碍物的状态属性342输出命令或指令，以控制移动平台的至少某种运动(例如，加速、减速、转向等)以避免接触已检测到的障碍物。

图5是说明根据本公开的技术的一些实施例的使用(例如，与在参考图2在上文描述的方法200中使用的障碍物检测神经网络240或在参考图3在上文描述的方法300中使用的障碍物检测神经网络340相对应的)障碍物检测神经网络540的障碍物检测过程500的流程图。参考图5，障碍物检测神经网络540可以包括初始位置子网络510(例如，包括一个或多个ANN的第一子网络)、区域特征子网络520(例如，包括一个或多个ANN的第二子网络)、以及3D预测子网络530(例如，包括一个或多个ANN)。

初始位置子网络510可以接收深度信息502(例如，如方法200中的点云数据202或如方法300中的深度信息312)和候选区域数据504(例如，如方法200中的候选区域数据232或如方法300中从候选区域神经网络330输出的候选区域数据332)作为输入。如果深度信息502不是点云的形式，那么本公开的技术的实施例包括；例如基于相关联的生成了图像数据204或302的相机的非固有校准参数和/或固有校准参数将深度信息502转换成点云数据。对于候选区域数据504中所包括的每个候选区域(例如，所获得的图像上的2D区域或相关联的2D网格)，初始位置子网络510可以(a)使用深度信息312识别与候选区域相对应的3D区域(例如，点云的子集)，以及(b)基于表征3D区域的各种统计量(例如，对应扫描点的3D坐标的中间值的均值)计算并输出包括所识别的3D区域的可能的障碍物的初始3D位置。

区域特征子网络520(例如，全连接的神经网络)可以接收候选区域数据504(例如，如方法200中的候选区域数据232或如方法300中的候选区域数据332)和特征图506(例如，如方法200中的特征图222或如方法300中的特征图322)作为输入；执行一个或多个层的线性和/或非线性特征变换；以及，输出候选区域数据504中所包括的各个候选区域的区域特征。每个候选区域的区域特征的大小可以基于实际需要和/或计算资源限制来确定。作为示例，候选区域被归一化为固定大小，随后在执行多层特征变换以获得每个候选区域的区域特征之前，基于一个或多个池化操作获得固定长度的特征向量。

作为说明，每个候选区域可以与原始图像中的相应2D区域相对应，原始图像用作生成特征图506的基础。使用原始图像的大小和特征图的大小之间的关系(例如，比率)，控制器可以识别与每个候选区域相对应的特征图上的相应减小的2D区域。可以在减小的2D区域中的特征图上执行各种操作，以生成区域特征。在各个实施例中，所述操作可以包括池化和/或特征变换(例如，全连接和/或卷积)。作为示例，每个减小的2D区域可以被归一化，因此每个区域特征可以是基于在特征图上所识别的相应减小的2D区域所计算的固定长度的特征向量。

3D预测子网络530可以接收来自初始位置子网络510和区域特征子网络520的输出，并且输出已检测到的障碍物的状态属性542。例如，3D预测子网络530可以预测和输出已检测到的障碍物的类型、姿态、定向、3D位置、3D大小和/或其他属性。3D预测子网络530可以确定和输出用于指示候选区域属于障碍物的概率的每个候选区域的置信水平。在一些实施例中，基于置信水平过滤输出。例如，置信水平落在阈值以下的候选区域可以从输出中排除。作为说明，移动平台的一个或多个控制器可以使用已检测到的障碍物的各种状态属性来执行自动或半自动地图绘制、导航、紧急机动或控制移动平台的某些运动的其他动作。

在一些实施例中，3D预测子网络530包括预测以下中的至少一项的一个或多个子模块(例如，神经网络支路)：语义类别(例如，障碍物的类型)、2D区域(例如，图像数据的2D区域)、定向、3D大小、以及障碍物的3D位置。每个子模块可以包括将区域特征子网络520的输出(例如，各个候选区域的区域特征)映射到子模块输出的相应维度。

作为说明，语义类别预测子模块可以预测指示候选区域“属于”语义类别的概率(例如，“属于”运载工具、行人、自行车或背景的概率)的置信水平。

作为说明，2D区域预测子模块可以将中心点、长度和宽度用于表示对应障碍物的2D区域。2D区域预测子模块可以估计从每个候选区域到对应的障碍物的2D区域的偏差，由此获得指示障碍物的2D区域的位置。

作为说明，定向预测子模块可以将从-180度至+180度的范围划分成多个间隔(例如，[-180°，0°]和[0°，180°]的两个间隔)，并且计算每个间隔的中心。定向预测子模块可以预测障碍物的定向角所属的具体间隔，并且计算障碍物的定向角与其所属的间隔的中心之间的差，由此获得障碍物的定向角。

作为说明，3D大小预测子模块可以使用每个语义类别的障碍物的3D表示(例如，帧)的平均长度、宽度和高度(或与3D大小有关的其他测量)来执行预测。可以从离线收集的训练数据获得平均测量。在预测过程中，3D大小预测子模块可以预测障碍物的3D大小和对应类别的平均3D大小的比率，由此获得障碍物的3D大小属性。

作为说明，3D位置预测子模块可以预测障碍物的3D位置与对应输入候选区域的初始3D位置之间的偏差，由此获得障碍物的3D位置。

在一些实施例中，基于所预测的语义类别的置信水平，3D预测子网络530还可以过滤其输出，以仅保留具有大于某个阈值的置信水平的那些输出。可以基于实际需要和/或计算效率使用各种合适的过滤方法(例如，非最大值抑制)。

根据上述描述，可以获得诸如移动平台当前道路场景中的障碍物的语义类别、2D区域、定向、3D大小和3D位置之类的状态属性。这个输出可以被提供给移动平台的下游应用，例如，路线规划和控制，以促进自动导航、自动驾驶或其他功能。

在根据本公开的技术的实施例中所使用的各种ANN组件可以以本领域技术人员认为适当的各种方式训练。作为说明，可以预先收集训练样本，每个样本包含输入数据(例如，用于方法200的点云和对应的图像、用于方法300的立体图像)和其相关联的被人工识别为表示障碍物的3D区域。神经网络的参数可以通过足够大的数量的训练样本来学习。

作为说明，基础神经网络220、候选区域神经网络230、以及障碍物检测神经网络240可以被单独或联合训练。当被单独训练时，用于不同神经网络的训练数据可以彼此独立(例如，基于不同的时间和上下文)。当被联合训练时，用于不同神经网络的训练数据彼此相对应(例如，与相同系列的点云和/或图像帧相关联)。在一些实施例中，方法200中所使用的ANN分级结构的一部分(例如，基础神经网络220和候选区域神经网络230)被联合训练，而ANN分级结构的至少另一部分(例如，障碍物检测神经网络240)被单独训练。

类似地，深度估计神经网络310、基础神经网络320、候选区域神经网络330、以及障碍物检测神经网络340可以被单独或联合训练。例如，合适的训练方法可以包括收集不同的图像和与作为训练数据的图像相对应的光雷达点云。因为光雷达点云提供由图像描绘的环境的深度测量，所以基础神经网络320和深度估计神经网络310可以基于图像(作为对基础神经网络320的输入)和其相关联的深度测量(作为来自深度估计神经网络310的输出)被联合训练。当在足够的数据样本上执行训练时，可以获得适当的网络参数。

而且，障碍物检测神经网络540可以被单独训练或与本文所公开的其他神经网络联合训练。例如，可以收集不同的图像和与图像相对应的光雷达点云。光雷达点云可以包括表示障碍物的人工标记的3D区域。方法200的神经网络的联合训练可以基于图像及其对应光雷达点云(作为输入)、以及对应被标记的3D区域的各种属性(作为输出)。当在足够的数据样本上执行训练时，可以获得适当的网络参数。

图6示出根据本公开的技术的各个实施例所配置的移动平台的示例。如图所示，如本文所公开的代表性移动平台可以包括以下中的至少一项：无人驾驶飞行器(UAV)602、有人驾驶航空器604、自主汽车606、自平衡运载工具608、地面机器人610、智能可穿戴装置612、虚拟现实(VR)头戴式显示器614或增强现实(AR)头戴式显示器616。

图7是示出可以用于实现本公开的技术的各个部分的计算机系统700或其他控制装置的架构的示例的框图。在图7中，计算机系统700包括一个或多个处理器705和经由互连725连接的存储器710。互连725可以表示通过适当的桥接器、适配器或控制器连接的任何一个或多个单独的物理总线、点对点连接或两者。因此，互连725可以包括例如系统总线、外围组件互连(PCI)总线、超传输(HyperTransport)或工业标准体系结构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)总线、或电气电子工程师协会(IEEE)标准674总线(有时称为“火线”)。

处理器705可以包括中央处理单元(CPU)，以控制例如主计算机的整体操作。在某些实施例中，处理器705通过执行被存储在存储器710中的软件或固件来实现这一点。处理器705可以是或可以包括一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑器件(PLD)等或这些装置的组合。

存储器710可以是或包括计算机系统的主存储器。存储器710表示任何适当形式的随机存取存储器(RAM)、只读存储器(ROM)、闪存等，或这些装置的组合。在使用时，存储器710可以包含机器指令集，当由处理器705执行时，该机器指令集使处理器705执行操作以实现本公开的技术的实施例。在一些实施例中，存储器710可以包含管理计算机硬件和软件资源并且为计算机程序提供公共服务的操作系统(OS)730。

通过互连725还连接到处理器705的是(可选的)网络适配器715。网络适配器715向计算机系统700提供与诸如存储客户端和/或其他存储服务器之类的远程装置通信的能力，并且可以是例如以太网适配器或光纤通道适配器。

本文描述的技术可以通过例如用软件和/或固件编程的可编程电路(例如，一个或多个微处理器)来实现，或者完全在专用硬连线电路中，或者以这些形式的组合来实现。专用硬连线电路可以是例如一个或多个专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)等形式。

用于实现这里介绍的技术的软件或固件可以存储在机器可读存储介质上，并且可以由一个或多个通用或专用可编程微处理器来执行。本文使用的术语“机器可读存储介质”包括可以存储机器(机器可以是例如计算机、网络装置、蜂窝电话、个人数字助理(PDA)、制造工具、具有一个或多个处理器的任何装置等)可访问的形式的信息的任何机制。例如，机器可访问的存储介质包括可记录/不可记录的介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存装置等等)等。

本文使用的术语“逻辑”可以包括例如用特定软件和/或固件编程的可编程电路、专用硬连线电路或其组合。

除了上述内容之外或代替上述内容，本公开的一些实施例具有其他方面、元件、特征和/或步骤。在本说明书的其余部分中描述了这些潜在的附加和替换。在本说明书中对“各个实施例”、“某些实施例”的引用表示结合实施例描述的特定特征、结构或特性被包括在本公开的至少一个实施例中。这些实施例，甚至备选实施例(例如，称为“其他实施例”)不与其他实施例互斥。此外，描述了可以由一些实施例而不是由其他实施例展现的各种特征。类似地，描述了各种要求，这些要求可以是一些实施例的要求但不是其他实施例的要求。例如，一些实施例使用由立体相机生成的深度信息，而其他实施例可以使用由光雷达、3D-ToF或RGB-D生成的深度信息。又一些实施例可以使用由传感器的组合生成的深度信息。如本文所使用的，如“A和/或B”中的短语“和/或”指的是单独的A、单独的B、以及A和B二者。

就本文通过引用并入的任何材料与本公开相冲突的方面而言，以本公开为准。

Claims

1.一种计算机实现的方法，所述方法用于使用由普通自动运载工具承载的激光单元和相机单元二者检测障碍物，所述方法包括：

至少部分地基于将由所述激光单元获得的点云投影到与由所述相机获得的图像相对应的二维网格上来确定初步特征，其中，所述点云包括环绕所述自动运载工具的环境的至少一部分的三维测量，并且其中，所述图像包括环绕所述自动运载工具的所述环境的所述部分的二维表示；

将所述初步特征和所述图像馈送到基础神经网络，以生成特征图；

将所述特征图馈送到中间神经网络，以生成对环绕所述自动运载工具的所述环境内的障碍物的至少一部分加以指示的所述图像的多个候选区域；

将所述点云、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项；以及

至少部分地基于所预测的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述自动运载工具的导航。

2.一种计算机实现的方法，所述方法用于使用由自动运载工具承载的立体相机单元检测障碍物，所述方法包括：

将由所述立体相机单元获得的图像数据馈送到基础神经网络，以生成特征图，其中，所述图像数据包括环绕所述自动运载工具的环境的至少一部分的二维表示；

将所述特征图馈送到深度估计神经网络，以生成与所述图像数据相对应的深度图；

将所述深度图、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项；以及

3.一种计算机实现的方法，所述方法用于使用由移动平台承载的一个或多个传感器检测障碍物，所述方法包括：

从所述一个或多个传感器获得指示环绕所述移动平台的环境的至少一部分的传感器数据；

至少部分地基于所述传感器数据确定深度信息、特征图和多个候选区域，其中，每个候选区域指示所述环境内的障碍物的至少一部分；以及

将所述深度信息、所述特征图和所述多个候选区域的至少一个子集馈送到障碍物检测神经网络，以预测所述环境内的一个或多个障碍物的至少一个状态属性。

4.根据权利要求3所述的方法，其中，所述一个或多个传感器包括光雷达、雷达、飞行时间ToF相机、立体相机或单目相机中的至少一个。

5.根据权利要求3所述的方法，其中，所述深度信息是至少部分地基于点云确定的。

6.根据权利要求5所述的方法，其中，所述点云是基于由光雷达、雷达、飞行时间ToF相机、立体相机或单目相机中的至少一个生成的传感器数据获得的。

7.根据权利要求3所述的方法，其中，所述深度信息包括深度图，所述深度图是至少部分地基于直接或间接从立体相机或单目相机中的至少一个生成的视差数据所确定的。

8.根据权利要求3所述的方法，其中，所述深度信息是通过将所述特征图馈送到与所述障碍物检测神经网络分开的深度估计神经网络来生成的。

9.根据权利要求3所述的方法，其中，所述传感器数据包括一个或多个图像，并且其中，所述特征图是至少通过将所述一个或多个图像馈送到与所述障碍物检测神经网络分开的基础神经网络来生成的。

10.根据权利要求9所述的方法，其中，所述传感器数据包括点云，并且其中，所述特征图是至少部分地基于将所述点云投影到根据所述一个或多个图像中的至少一个图像所定义的2D网格上来生成的。

11.根据权利要求10所述的方法，其中，所述投影至少部分地基于关于生成所述一个或多个图像的至少一个传感器的非固有校准参数和/或固有校准参数。

12.根据权利要求10所述的方法，其中，投影后的数据包括用于所述2D网格的各个网格块的高度、距离或角度测量中的至少一项。

13.根据权利要求10所述的方法，其中，所述特征图是通过进一步将投影后的数据馈送到所述基础神经网络来生成的。

14.根据权利要求9所述的方法，其中，所述特征图的大小小于所述一个或多个图像中的至少一个图像的大小。

15.根据权利要求9所述的方法，其中，所述基础神经网络或所述障碍物检测神经网络中的至少一个包括一个或多个卷积层和/或池化层。

16.根据权利要求9所述的方法，还包括：将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

17.根据权利要求16所述的方法，其中，每个候选区域是包括所述图像数据的相应目标像素的二维2D区域。

18.根据权利要求17所述的方法，其中，所述相应目标像素与指示所述环境内的所述障碍物的至少一部分的概率相关联。

19.根据权利要求16所述的方法，其中，所述基础神经网络、所述中间神经网络和所述障碍物检测神经网络中的至少两项被联合训练。

20.根据权利要求3所述的方法，其中，所述障碍物检测神经网络包括第一子网络，所述第一子网络被配置为：至少部分地基于所述深度信息和所述多个候选区域的所述至少一个子集，针对所述子集中的每个候选区域确定障碍物的初始3D位置。

21.根据权利要求20所述的方法，其中，所述障碍物检测神经网络包括第二子网络，所述第二子网络被配置为：至少部分地基于所述多个候选区域的所述至少一个子集和所述特征图，针对所述子集中的每个候选区域生成一个或多个区域特征。

22.根据权利要求21所述的方法，其中，所述障碍物检测神经网络包括第三子网络，所述第三子网络被配置为：至少部分地基于所述初始3D位置和所述一个或多个区域特征，针对所述子集中的每个候选区域预测与所述候选区域相对应的障碍物的类型、姿态、定向、3D位置或3D大小中的至少一项。

23.根据权利要求3所述的方法，其中，所述移动平台包括无人驾驶飞行器UAV、有人驾驶航空器、自主汽车、自平衡运载工具或机器人中的至少一项。

24.根据权利要求3所述的方法，还包括：至少部分地基于所预测的所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。

25.一种存储计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在被执行时使与移动平台相关联的一个或多个处理器执行动作，所述动作包括：

从由所述移动平台承载的一个或多个传感器获得指示环绕所述移动平台的环境的至少一部分的传感器数据；

26.根据权利要求25所述的计算机可读介质，其中，所述一个或多个传感器包括光雷达、雷达、飞行时间ToF相机、立体相机或单目相机中的至少一个。

27.根据权利要求25所述的计算机可读介质，其中，所述深度信息是至少部分地基于点云确定的。

28.根据权利要求27所述的计算机可读介质，其中，所述点云是基于由光雷达、雷达、飞行时间ToF相机、立体相机或单目相机中的至少一个生成的传感器数据获得的。

29.根据权利要求25所述的计算机可读介质，其中，所述深度信息包括深度图，所述深度图是至少部分地基于直接或间接从立体相机或单目相机中的至少一个生成的视差数据所确定的。

30.根据权利要求25所述的计算机可读介质，其中，所述深度信息是通过将所述特征图馈送到与所述障碍物检测神经网络分开的深度估计神经网络来生成的。

31.根据权利要求25所述的计算机可读介质，其中，所述传感器数据包括一个或多个图像，并且其中，所述特征图是至少通过将所述一个或多个图像馈送到与所述障碍物检测神经网络分开的基础神经网络来生成的。

32.根据权利要求31所述的计算机可读介质，其中，所述传感器数据包括点云，并且其中，所述特征图是至少部分地基于将所述点云投影到根据所述一个或多个图像中的至少一个图像所定义的2D网格上来生成的。

33.根据权利要求32所述的计算机可读介质，其中，所述投影至少部分地基于关于生成所述一个或多个图像的至少一个传感器的非固有校准参数和/或固有校准参数。

34.根据权利要求32所述的计算机可读介质，其中，投影后的数据包括用于所述2D网格的各个网格块的高度、距离或角度测量中的至少一项。

35.根据权利要求32所述的计算机可读介质，其中，所述特征图是通过进一步将投影后的数据馈送到所述基础神经网络来生成的。

36.根据权利要求31所述的计算机可读介质，其中，所述特征图的大小小于所述一个或多个图像中的至少一个图像的大小。

37.根据权利要求31所述的计算机可读介质，其中，所述基础神经网络或所述障碍物检测神经网络中的至少一个包括一个或多个卷积层和/或池化层。

38.根据权利要求31所述的计算机可读介质，其中，所述动作还包括：将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

39.根据权利要求38所述的计算机可读介质，其中，每个候选区域是包括所述图像数据的相应目标像素的二维2D区域。

40.根据权利要求39所述的计算机可读介质，其中，所述相应目标像素与指示所述环境内的所述障碍物的至少一部分的概率相关联。

41.根据权利要求38所述的计算机可读介质，其中，所述基础神经网络、所述中间神经网络和所述障碍物检测神经网络中的至少两项被联合训练。

42.根据权利要求25所述的计算机可读介质，其中，所述障碍物检测神经网络包括第一子网络，所述第一子网络被配置为：至少部分地基于所述深度信息和所述多个候选区域的所述至少一个子集，针对所述子集中的每个候选区域确定障碍物的初始3D位置。

43.根据权利要求42所述的计算机可读介质，其中，所述障碍物检测神经网络包括第二子网络，所述第二子网络被配置为：至少部分地基于所述多个候选区域的所述至少一个子集和所述特征图，针对所述子集中的每个候选区域生成一个或多个区域特征。

44.根据权利要求43所述的计算机可读介质，其中，所述障碍物检测神经网络包括第三子网络，所述第三子网络被配置为：至少部分地基于所述初始3D位置和所述一个或多个区域特征，针对所述子集中的每个候选区域预测与所述候选区域相对应的障碍物的类型、姿态、定向、3D位置或3D大小中的至少一项。

45.根据权利要求25所述的计算机可读介质，其中，所述移动平台包括无人驾驶飞行器UAV、有人驾驶航空器、自主汽车、自平衡运载工具或机器人中的至少一项。

46.根据权利要求25所述的计算机可读介质，其中，所述动作还包括：至少部分地基于所预测的所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。

47.一种包括被编程的控制器的移动平台，所述被编程的控制器至少部分地控制所述移动平台的一个或多个运动，其中，所述被编程的控制器包括一个或多个处理器，所述一个或多个处理器被配置为：

48.根据权利要求47所述的移动平台，其中，所述一个或多个传感器包括光雷达、雷达、飞行时间TOF相机、立体相机或单目相机中的至少一个。

49.根据权利要求47所述的移动平台，其中，所述深度信息是至少部分地基于点云确定的。

50.根据权利要求49所述的移动平台，其中，所述点云是基于由光雷达、雷达、飞行时间ToF相机、立体相机或单目相机中的至少一个生成的传感器数据获得的。

51.根据权利要求47所述的移动平台，其中，所述深度信息包括深度图，所述深度图是至少部分地基于直接或间接从立体相机或单目相机中的至少一个生成的视差数据所确定的。

52.根据权利要求47所述的移动平台，其中，所述深度信息是通过将所述特征图馈送到与所述障碍物检测神经网络分开的深度估计神经网络来生成的。

53.根据权利要求47所述的移动平台，其中，所述传感器数据包括一个或多个图像，并且其中，所述特征图是至少通过将所述一个或多个图像馈送到与所述障碍物检测神经网络分开的基础神经网络来生成的。

54.根据权利要求53所述的移动平台，其中，所述传感器数据包括点云，并且其中，所述特征图是至少部分地基于将所述点云投影到根据所述一个或多个图像中的至少一个图像所定义的2D网格上来生成的。

55.根据权利要求54所述的移动平台，其中，所述投影至少部分地基于关于生成所述一个或多个图像的至少一个传感器的非固有校准参数和/或固有校准参数。

56.根据权利要求54所述的移动平台，其中，投影后的数据包括用于所述2D网格的各个网格块的高度、距离或角度测量中的至少一项。

57.根据权利要求54所述的移动平台，其中，所述特征图是通过进一步将投影后的数据馈送到所述基础神经网络来生成的。

58.根据权利要求53所述的移动平台，其中，所述特征图的大小小于所述一个或多个图像中的至少一个图像的大小。

59.根据权利要求53所述的移动平台，其中，所述基础神经网络或所述障碍物检测神经网络中的至少一个包括一个或多个卷积层和/或池化层。

60.根据权利要求53所述的移动平台，其中，所述一个或多个处理器还被配置为将所述特征图馈送到中间神经网络，以生成根据所述图像数据定义的所述多个候选区域。

61.根据权利要求60所述的移动平台，其中，每个候选区域是包括所述图像数据的相应目标像素的二维2D区域。

62.根据权利要求61所述的移动平台，其中，所述相应目标像素与指示所述环境内的所述障碍物的至少一部分的概率相关联。

63.根据权利要求60所述的移动平台，其中，所述基础神经网络、所述中间神经网络和所述障碍物检测神经网络中的至少两项被联合训练。

64.根据权利要求47所述的移动平台，其中，所述障碍物检测神经网络包括第一子网络，所述第一子网络被配置为：至少部分地基于所述深度信息和所述多个候选区域的所述至少一个子集，针对所述子集中的每个候选区域确定障碍物的初始3D位置。

65.根据权利要求64所述的移动平台，其中，所述障碍物检测神经网络包括第二子网络，所述第二子网络被配置为：至少部分地基于所述多个候选区域的所述至少一个子集和所述特征图，针对所述子集中的每个候选区域生成一个或多个区域特征。

66.根据权利要求65所述的移动平台，其中，所述障碍物检测神经网络包括第三子网络，所述第三子网络被配置为：至少部分地基于所述初始3D位置和所述一个或多个区域特征，针对所述子集中的每个候选区域预测与所述候选区域相对应的障碍物的类型、姿态、定向、3D位置或3D大小中的至少一项。

67.根据权利要求47所述的移动平台，其中，所述移动平台包括无人驾驶飞行器UAV、有人驾驶航空器、自主汽车、自平衡运载工具或机器人中的至少一项。

68.根据权利要求47所述的移动平台，其中，所述一个或多个处理器还被配置为：至少部分地基于所预测的所述环境内的所述一个或多个障碍物的类型、姿态、定向、三维位置或三维大小中的至少一项，实现所述移动平台的导航。