CN114387322A

CN114387322A - 用于运载工具的方法、运载工具和存储介质

Info

Publication number: CN114387322A
Application number: CN202111227016.2A
Authority: CN
Inventors: V·E·B·里昂; T·T·N·阮
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2020-10-21
Filing date: 2021-10-21
Publication date: 2022-04-22
Also published as: US20220122363A1; GB202115014D0; KR20220052846A; DE102021127118A1; GB2608201A

Abstract

本发明涉及一种用于运载工具的方法、运载工具和存储介质。描述了用于使用控制电路来控制使用LiDAR所识别的基于运载工具的对象的运动的技术。例如，确定点云的点的各个类，并且基于点云的点的所确定的各个类来识别运载工具附近的对象。

Description

用于运载工具的方法、运载工具和存储介质

技术领域

本说明书涉及使用光检测和测距(“LiDAR”)来识别对象。

背景技术

LiDAR是使用光来获得与光发射器的视线中的物理对象有关的数据的技术。LiDAR数据通常采用用于构建周围环境的表示的点集合(也称为点云)的形式。LiDAR可用于检测运载工具附近的对象。

发明内容

根据本发明的第一方面，一种用于运载工具的方法，包括：使用至少一个处理器，接收与点云中的多个点相关联的LiDAR点云数据；使用所述至少一个处理器，基于所述点云中的所述多个点来生成所述点云的第一视图和所述点云的第二视图，其中所述第二视图不同于所述第一视图；使用所述至少一个处理器，将所述第一视图作为输入提供至第一视图神经网络并且将所述第二视图作为输入提供至第二视图神经网络，所述第二视图神经网络不同于所述第一视图神经网络；使用所述至少一个处理器，针对所述点云中的各点，使用所述第一视图神经网络来生成指示对象类的第一组类得分并且使用所述第二视图神经网络来生成指示所述对象类的第二组类得分，其中第一组类得分和第二组类得分是并行地生成的；使用所述至少一个处理器，确定所述点云中的至少一个点的最终确定的标签，其中该确定是基于所述至少一个点的第一组类得分和所述至少一个点的第二组类得分；使用所述至少一个处理器，至少部分地基于所述至少一个点的最终确定的标签来识别所述运载工具附近的至少一个对象；以及使用所述至少一个处理器，基于所述至少一个对象来控制所述运载工具的运动。

根据本发明的第二方面，一种运载工具，包括：至少一个LiDAR装置，其能够生成包括多个LiDAR数据点的LiDAR扫描点云；以及处理电路，其耦接至所述LiDAR装置，所述处理电路被配置用于进行上述方法。

根据本发明的第三方面，一种非暂时性计算机可读存储介质，其包括用于由第一装置的至少一个处理器执行的至少一个程序，所述至少一个程序包括指令，所述指令在由所述至少一个处理器执行时，使所述第一装置进行上述方法。

附图说明

图1示出具有自主能力的自主运载工具的示例。

图2示出示例“云”计算环境。

图3示出计算机系统。

图4示出自主运载工具的示例架构。

图5示出感知模块可以使用的输入和输出的示例。

图6示出LiDAR系统的示例。

图7示出操作中的LiDAR系统。

图8示出LiDAR系统的操作的附加细节。

图9示出用于对LiDAR点进行分类的示例处理的流程图。

图10示出示例分类网络的框图。

图11示出示例视图网络的表示。

图12示出示例融合网络的表示。

图13示出用于基于经分类的LiDAR点来操作运载工具的示例处理的流程图。

具体实施方式

在以下描述中，为了解释的目的，阐述了许多具体细节，以便提供对本发明的透彻理解。然而，本发明可以在没有这些具体细节的情况下实施将是明显的。在其它实例中，众所周知的构造和装置是以框图形式示出的，以避免不必要地使本发明模糊。

在附图中，为了便于描述，示出了示意要素(诸如表示装置、模块、指令块和数据要素的那些要素)的具体排列或次序。然而，本领域技术人员应当理解，附图中示意要素的具体次序或排列并不意在意味着要求特定的处理次序或序列、或处理过程的分离。此外，在附图中包含示意要素并不意在意味着在所有实施例中都需要这种要素，也不意在意味着由这种要素表示的特征不能包括在一些实施例中或不能在一些实施例中与其它要素结合。

此外，在附图中，连接要素、诸如实线或虚线或箭头用于例示两个或更多个其它示意要素之间的连接、关系或关联，没有任何此类连接要素并不意在意味着不能存在连接、关系或关联。换句话说，一些要素之间的连接、关系或关联未在附图中示出，以便不使本公开内容模糊。此外，为了便于例示，使用单个连接要素来表示要素之间的多个连接、关系或关联。例如，如果连接要素表示信号、数据或指令的通信，本领域技术人员应理解，这种要素表示影响通信可能需要的一个或多个信号路径(例如，总线)。

现在将详细参考实施例，其示例在附图中例示出。在以下的详细描述中，阐述了许多具体细节，以便提供对所描述的各种实施例的透彻理解。然而，对于本领域的普通技术人员来说将明显的是，可以在没有这些具体细节的情况下实施所描述的各种实施例。在其它情况下，没有详细描述众所周知的方法、程序、组件、电路和网络，以便不会不必要地使实施例的方面模糊。

下面描述的若干特征各自可以彼此独立地使用，也可以与其它特征的任何组合一起使用。然而，任何个别特征可能不能解决以上所讨论的任何问题，或者只能解决以上所讨论的问题之一。以上所讨论的一些问题可能不能通过本文所描述的任何一个特征得到充分解决。虽然提供了标题，但在本说明书的其它地方也可以找到与具体标题有关但在具有该标题的部分中未找到的信息。本文根据以下概要描述实施例：

1.总体概述

2.系统概述

3.自主运载工具架构

4.自主运载工具输入

5.自主运载工具规划

6.自主运载工具控制

7.使用多视图融合来识别对象

总体概述

并行处理LiDAR扫描的多个视图，并且将结果组合以生成针对LiDAR点云中所包括的点簇的语义标签。例如，比较并组合(即，“融合”)来自鸟瞰视图(BeV)神经网络的输出和来自范围视图(RV)神经网络的输出，以生成最终确定的一组标签。然后，例如为了导航的目的，使用经标记的点云来识别运载工具附近的对象。

新方法的一些优点包括：使用并行训练并且部署单独视图网络(也称为视图神经网络(例如，上述的BeV网络和RV网络))，以减少识别运载工具附近的对象所需的计算资源量。附加地或可选地，该方法使得即使在单独视图网络的子集未按预期提供输出时网络也能够起作用。为了消除边界误差并提高准确度，将用于空间平滑的递归层添加到各个视图网络以学习对象之间的空间关系。来自单次LiDAR扫描的数据增强增加了可用训练样本的数量，以便更好地训练整个网络。与在独立考虑视图的情况相比，将视点网络的输出融合生成点的更准确的分类结果。

系统概述

图1示出具有自主能力的自主运载工具100的示例。

如本文所使用的，术语“自主能力”是指一种功能、特征或设施，该功能、特征或设施使运载工具能够部分地或完全地操作，而无需实时的人类干预，包括但不限于完全自主运载工具、高度自主运载工具和有条件自主运载工具。

如本文所使用的，自主运载工具(AV)是一种具有自主能力的运载工具。

如本文所使用的，“运载工具”包括货物或人员的运输方式。例如，小汽车、公共汽车、火车、飞机、无人机、卡车、船只、舰艇、潜水器、飞船等。无人驾驶的小汽车是运载工具的示例。

如本文所使用的，“轨迹”是指将AV从第一时空地点导航到第二时空地点的路径或路线。在实施例中，第一时空地点被称为初始地点或起始地点，第二时空地点被称为目的地、最终地点、目标、目标位置或目标地点。在一些示例中，轨迹由一个或多个路段(例如，道路的数段)组成，并且各路段由一个或多个块(例如，车道或交叉口的一部分)组成。在实施例中，时空地点对应于真实世界地点。例如，时空地点是上车或下车地点，以使人员或货物上车或下车。

如本文所使用的，“(一个或多个)传感器”包括一个或多个硬件组件，用于检测与传感器周围环境有关的信息。一些硬件组件可包括感测组件(例如，图像传感器、生物特征传感器)、传输和/或接收组件(例如，激光或射频波发射器和接收器)、电子组件(诸如，模数转换器)、数据存储装置(诸如，RAM和/或非易失性存储器)、软件或固件组件和数据处理组件(诸如，专用集成电路)、微处理器和/或微控制器。

如本文所使用的，“场景描述”是一种数据结构(例如，列表)或数据流，其包括由AV运载工具上的一个或多个传感器检测到的一个或多个分类或标记的对象，或由AV外部的源提供的一个或多个分类或标记的对象。

如本文所使用的，“道路”是一个可以被运载工具穿过的物理区域，并且可以对应于已命名的通道(例如，城市街道、州际高速公路等)或可对应于未命名的通道(例如，房屋或办公楼内的行车道、停车场的一段、空置停车场的一段、乡村区域的污物通道等)。因为有些运载工具(例如，四轮驱动的小卡车、越野车(SUV)等)能够穿过各种不特别适合运载工具行驶的物理区域，因此“道路”可以是任何市政当局或其它政府或行政机构没有正式定义为一条通道的物理区域。

如本文所使用的，“车道”是道路的可被运载工具穿越的部分。有时基于车道标记来识别车道。例如，车道可对应于车道标记之间的大部分或全部空间，或仅对应于车道标记之间的部分空间(例如，小于50％)。例如，具有相距很远的车道标记的道路可能容纳两个或两个以上的运载工具，使得一个运载工具可以在不穿过车道标记的情况下超过另一个运载工具，因此可被解释为车道比车道标记之间的空间窄，或车道之间有两个车道。在没有车道标记的情况下，也可以对车道进行解释。例如，可以基于环境的物理特征(例如，农村地区的岩石和沿着大道的树木、或者例如在欠发达地区应避免的自然障碍物)来定义车道。也可以独立于车道标记或物理特征来解释车道。例如，可以基于原本缺少将会被解释为车道边界的特征的在区域中无障碍物的任意路径来解释车道。在示例情景中，AV可以解释通过田野或空地的无障碍物部分的车道。在另一示例情景中，AV可以解释通过不具有车道标记的宽(例如，足够两个或更多个车道宽)道路的车道。在该情景中，AV可以将与车道有关的信息通信至其它AV，使得其它AV可以使用相同的车道信息来协调AV之间的路径规划。

术语“空中下载(OTA)客户端”包括任何AV，或者嵌入在AV中、耦接至AV或与AV进行通信的任何电子装置(例如，计算机、控制器、IoT装置、电子控制单元(ECU))。

术语“空中下载(OTA)更新”意味着对使用专有和/或标准化的无线通信技术递送至OTA客户端的软件、固件、数据或配置设置或者它们的任何组合的任何更新、改变、删除或添加，其中该专有和/或标准化的无线通信技术包括但不限于：蜂窝移动通信(例如，2G、3G、4G、5G)、无线电无线区域网络(例如，WiFi)和/或卫星因特网。

术语“边缘节点”是指耦接至网络的一个或多个边缘装置，这些装置提供与AV进行通信所用的门户并且可以与其它边缘节点和基于云的计算平台进行通信，以调度OTA更新并将OTA更新递送至OTA客户端。

术语“边缘装置”是指实现边缘节点并提供向企业或服务提供商(如VERIZON、AT&T)核心网的物理无线接入点(AP)的装置。边缘装置的示例包括但不限于：计算机、控制器、发送器、路由器、路由交换机、综合接入装置(IAD)、多路复用器、城域网(MAN)和广域网(WAN)接入装置。

“一个或多个”包括由一个要素执行的功能、由多个要素例如以分布式的方式执行的功能、由一个要素执行的若干功能、由若干要素执行的若干功能、或上述的任何组合。

还将理解的是，尽管在一些情况下，术语“第一”、“第二”等在本文中是用来描述各种要素的，但这些要素不应受到这些术语的限制。这些术语仅用于区分一个要素与另一个要素。例如，在未背离各种所描述的实施例的范围的情况下，第一触点可被称为第二触点，并且类似地，第二触点可被称为第一触点。第一触点和第二触点两者都是触点，但它们不是相同触点。

在本文所描述的各种实施例的说明书中使用的术语仅用于描述特定实施例的目的，而不是意在限制。如在所描述的各种实施例的说明书和所附权利要求书中所使用的，单数形式“a”、“an”和“the”也意在包括复数形式，除非上下文另有明确说明。还将理解的是，如本文所使用的“和/或”是指并且包括一个或多个相关清单项目的任何和所有可能的组合。还将理解的是，当在本说明书中使用术语“包括”、“包含”、“具备”和/或“具有”时，具体说明存在所陈述的特征、整数、步骤、操作、要素和/或组件，但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、要素、组件、和/或其群组。

如本文所使用的，取决于上下文，术语“如果”可选地被理解为意指“当”或“在当时”或“响应于确定为”或“响应于检测到”。类似地，取决于上下文，短语“如果已确定”或“如果[所陈述的条件或事件]已被检测到”可选地被理解为意指“在确定时”或“响应于确定为“或”在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

如本文所使用的，AV系统是指AV以及支持AV操作的硬件、软件、存储的数据和实时生成的数据的阵列。在实施例中，AV系统并入在AV内。在实施例中，AV系统跨若干地点分布。例如，AV系统的一些软件是在类似于下面关于图2描述的云计算环境200的云计算环境上实现的。

一般而言，本文件描述了适用于任何具有一种或多种自主能力的运载工具的技术，包括完全自主运载工具、高度自主运载工具和有条件自主运载工具，诸如分别为所谓的第5级、第4级和第3级运载工具(见SAE国际标准J3016：道路上机动车自动驾驶系统相关术语的分类和定义，通过引用将其全部内容并入本文件，用于了解运载工具自主权等级的更多详细信息)。本文件所描述的技术也适用于部分自主运载工具和驾驶员辅助运载工具，诸如所谓的第2级和第1级运载工具(见SAE国际标准J3016：道路上机动车自动驾驶系统相关术语的分类和定义)。在实施例中，一个或多个第1级、第2级、第3级、第4级和第5级运载工具系统可基于对传感器输入的处理，在某些操作条件下自动执行某些运载工具操作(例如，转向、制动和使用地图)。本文件中所描述的技术可以使从完全自主运载工具到人类操作的运载工具范围内的任何级别的运载工具受益。

自主运载工具与需要人类驾驶员的运载工具相比存在优势。一个优势是安全性。例如，在2016年，美国经历了600万起汽车事故、240万人受伤、40000人死亡和1300万辆运载工具碰撞事故，估计社会成本为9100亿美元多。从1965年到2015年，每行驶1亿英里的美国交通事故死亡人数已从约6人减少到约1人，部分是由于运载工具中所部署的附加安全措施。例如，认为与将发生碰撞有关的额外半秒的警告减轻了60％的前后碰撞。然而，被动安全特征(例如，安全带、安全气囊)在改进该数字方面有可能已达到它们的极限。因而，诸如运载工具的自动控制等的主动安全措施是改进这些统计数据的可能的下一步。由于在95％的碰撞中认为人类驾驶员是造成严重碰撞前事件的原因，因此自动驾驶系统例如通过以下操作，有可能实现更好的安全结果：比人类更好地可靠地识别和避免紧急情况；做出比人类更好的决策，比人类更好地遵守交通法规，并且比人类更好地预测将来事件；并且比人类更好地可靠地控制运载工具。

参考图1，AV系统120使运载工具100沿着轨迹198操作，穿过环境190至目的地199(有时称为最终地点)，同时避开对象(例如，自然障碍物191、运载工具193、行人192、骑车者和其它障碍物)和遵守道路规则(例如，操作规则或驾驶偏好)。

在实施例中，AV系统120包括用于从计算机处理器146接收操作命令并对其进行操作的装置101。使用术语“操作命令”来表示使得运载工具进行动作(例如，驾驶机动动作)的可执行指令(或指令集)。操作命令可以非限制性地包括用于使运载工具开始向前移动、停止向前移动、开始向后移动、停止向后移动、加速、减速、进行左转和进行右转的指令。在实施例中，计算机处理器146与下面参考图3描述的处理器304相似。装置101的示例包括转向控制器102、制动器103、挡位、加速踏板或其它加速控制机构、挡风玻璃雨刮器、侧门锁、窗控器和转向指示器。

在实施例中，AV系统120包括用于测量或推断运载工具100的状态或条件的属性的传感器121，这些属性诸如是AV的位置、线速度和角速度及线加速度和角加速度、以及航向(例如，运载工具100的前端的方向)。传感器121的示例是GPS、测量运载工具线加速度和角速率两者的惯性测量单元(IMU)、用于测量或估计轮滑移率的轮速率传感器、轮制动压力或制动扭矩传感器、引擎扭矩或轮扭矩传感器以及转向角度和角速率传感器。

在实施例中，传感器121还包括用于感测或测量AV的环境的属性的传感器。例如，可见光、红外或热(或两者兼有)光谱的单目或立体摄像机122，LiDAR 123，RADAR，超声波传感器，飞行时间(TOF)深度传感器，速率传感器，温度传感器，湿度传感器和降水传感器。

在实施例中，AV系统120包括数据存储单元142和存储器144，用于存储与计算机处理器146相关联的机器指令或由传感器121收集的数据。在实施例中，数据存储单元142与以下关于图3描述的ROM 308或存储装置310类似。在实施例中，存储器144与下面描述的主存储器306类似。在实施例中，数据存储单元142和存储器144存储有关环境190的历史、实时和/或预测性信息。在实施例中，存储的信息包括地图、驾驶性能、交通拥堵更新或天气条件。在实施例中，与环境190有关的数据从远程数据库134通过通信信道传输到运载工具100。

在实施例中，AV系统120包括通信装置140，用于将对其它运载工具的状态和条件(诸如位置、线速度和角速度、线加速度和角加速度、以及线航向和角航向)测量或推断的属性传送到运载工具100。这些装置包括运载工具到运载工具(V2V)和运载工具到基础设施(V2I)通信装置以及用于通过点对点或自组织(ad hoc)网络或两者进行无线通信的装置。在实施例中，通信装置140跨电磁频谱(包括无线电和光通信)或其它介质(例如，空气和声介质)进行通信。运载工具对运载工具(V2V)和运载工具对基础设施(V2I)通信(以及在一些实施例中为一种或多种其它类型的通信)的组合有时被称为运载工具对所有事物(V2X)通信。V2X通信通常符合一个或多个通信标准，用于与自主运载工具进行的和在自主运载工具之间的通信。

在实施例中，通信装置140包括通信接口。例如，有线、无线、WiMAX、Wi-Fi、蓝牙、卫星、蜂窝、光、近场、红外或无线电接口。通信接口将数据从远程数据库134传输到AV系统120。在实施例中，远程数据库134嵌入在如图2中所描述的云计算环境200中。通信装置140将从传感器121收集的数据或与运载工具100操作有关的其它数据传输到远程数据库134。在实施例中，通信装置140向运载工具100传输与遥操作有关的信息。在一些实施例中，运载工具100与其它远程(例如，“云”)服务器136通信。

在实施例中，远程数据库134还存储和传输数字数据(例如，存储诸如道路和街道地点的数据)。这些数据存储在运载工具100上的存储器144中，或者通过通信信道从远程数据库134传输到运载工具100。

在实施例中，远程数据库134存储和传输与以前在一天中类似时间沿着轨迹198行驶的运载工具的驾驶属性有关的历史信息(例如，速率和加速度分布)。在一个实现中，这种数据可以存储在运载工具100上的存储器144中，或者通过通信信道从远程数据库134传输到运载工具100。

位于运载工具100上的计算机处理器146基于实时传感器数据和先验信息两者以算法方式生成控制动作，允许AV系统120执行其自主驾驶能力。

在实施例中，AV系统120包括耦接到计算机处理器146的计算机外围设备132，用于向运载工具100的用户(例如，乘员或远程用户)提供信息和提醒并接收来自该用户的输入。在实施例中，外围设备132类似于下面参考图3讨论的显示器312、输入装置314和光标控制器316。耦接是无线的或有线的。任意两个或更多个的接口装置可以集成到单个装置中。

在实施例中，AV系统120接收并强制执行例如由乘员指定的或者存储在与乘员相关联的简档中的乘员的隐私级别。乘员的隐私级别确定了如何许可使用存储在乘员简档中的以及/或者存储在云服务器136上且与乘员简档相关联的、与乘员相关联的特定信息(例如，乘员舒适度数据、生物测量数据等)。在实施例中，隐私级别指定了一旦搭乘完成则被删除的与乘员相关联的特定信息。在实施例中，隐私级别指定了与乘员相关联的特定信息，并且标识被授权访问该信息的一个或多个实体。被授权访问信息的所指定的实体的示例可以包括其它AV、第三方AV系统、或者可以潜在地访问该信息的任何实体。

可以在一个或多个粒度级别指定乘员的隐私级别。在实施例中，隐私级别标识要存储或共享的特定信息。在实施例中，隐私级别适用于与乘员相关联的所有信息，使得乘员可以指定不存储或共享她的个人信息。被许可访问特定信息的实体的指定也可以在各种粒度级别指定。被许可访问特定信息的各种实体集例如可以包括其它AV、云服务器136、特定第三方AV系统等。

在实施例中，AV系统120或云服务器136确定AV 100或另一实体是否可访问与乘员相关联的某些信息。例如，试图访问与特定时空地点有关的乘员输入的第三方AV系统必须例如从AV系统120或云服务器136获得授权，以访问与乘员相关联的信息。例如，AV系统120使用乘员的指定隐私级别来确定是否可以将与时空地点有关的乘员输入呈现给第三方AV系统、AV 100或另一AV。这使得乘员的隐私级别能够指定允许哪些其它实体接收与乘员的动作有关的数据或与乘员相关联的其它数据。

图2示出示例“云”计算环境。云计算是一种服务交付模式，用于使得能够方便、按需地在网络上访问可配置计算资源(例如网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)的共享池。在典型的云计算系统中，一个或多个大型云数据中心容纳用于交付云所提供的服务的机器。现在参考图2，云计算环境200包括通过云202互连的云数据中心204a、204b和204c。数据中心204a、204b和204c为连接到云202的计算机系统206a、206b、206c、206d、206e和206f提供云计算服务。

云计算环境200包括一个或多个云数据中心。一般而言，云数据中心(例如图2中所示的云数据中心204a)是指构成云(例如图2中所示的云202或云的特定部分)的服务器的物理排列。例如，服务器在云数据中心中物理排列成房间、组、行和机架。云数据中心有一个或多个区域，其中包括一个或多个服务器房间。每个房间有一行或多行服务器，并且每行包括一个或多个机架。每个机架包括一个或多个单独的服务器节点。在一些实现中，区域、房间、机架和/或行中的服务器基于数据中心设施的物理基础设施要求(包括电力、能源、热力、热源和/或其它要求)被排列成若干组。在实施例中，服务器节点类似于图3中描述的计算机系统。数据中心204a具有许多分布在多个机架上的计算系统。

云202包括云数据中心204a、204b和204c以及用于连接云数据中心204a、204b和204c并有助于促进计算系统206a-f对云计算服务的访问的网络和网络资源(例如，网络设备、节点、路由器、交换机和网络电缆)。在实施例中，该网络表示一个或多个本地网络、广域网或通过使用地面或卫星连接部署的有线或无线链路耦接的网际网络的任意组合。通过网络交换的数据使用多种网络层协议(诸如，因特网协议(IP)、多协议标签交换(MPLS)、异步传输模式(ATM)、帧中继(Frame Relay)等)进行传输。此外，在网络表示多个子网络的组合的实施例中，在每个底层子网络上使用不同的网络层协议。在一些实施例中，网络表示一个或多个互连网际网络(诸如公共因特网等)。

计算系统206a-f或云计算服务消费者通过网络链路和网络适配器连接到云202。在实施例中，计算系统206a-f被实现为各种计算装置，例如服务器、台式机、膝上型计算机、平板电脑、智能手机、物联网(IoT)装置、自主运载工具(包括小汽车、无人机、航天飞机、火车、公共汽车等)和消费电子产品。在实施例中，计算系统206a-f在其它系统中实现或作为其它系统的一部分实现。

图3示出计算机系统300。在实现中，计算机系统300是一种专用计算装置。专用计算装置被硬连线以执行这些技术，或包括诸如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)的被持久编程为执行上述技术的数字电子装置，或可包括一个或多个通用硬件处理器，这些硬件处理器经编程以根据固件、存储器、其它存储器、或者组合中的程序指令执行这些技术。这种专用的计算装置还可以将定制的硬线逻辑、ASIC或FPGA与定制的编程相结合来完成这些技术。在各种实施例中，专用计算装置是台式计算机系统、便携式计算机系统、手持装置、网络装置或包含硬线和/或程序逻辑以实现这些技术的任何其它装置。

在实施例中，计算机系统300包括总线302或用于传达信息的其它通信机制、以及与总线302耦接以处理信息的处理器304。处理器304是例如通用微处理器。计算机系统300还包括主存储器306，诸如随机存取存储器(RAM)或其它动态存储装置，该主存储器306耦接到总线302以存储信息和指令，该信息和指令由处理器304执行。在一个实现中，主存储器306用于在执行要由处理器304执行的指令期间存储临时变量或其它中间信息。当这些指令存储在处理器304可访问的非暂时性存储介质中时，使计算机系统300变成一个专用机器，该机器被定制以执行指令中指定的操作。

在实施例中，计算机系统300还包括只读存储器(ROM)308或耦接到总线302的其它静态存储装置，用于存储处理器304的静态信息和指令。提供诸如磁盘、光盘、固态驱动器或三维交叉点存储器的存储装置310，并且该存储装置310耦接到总线302以存储信息和指令。

在实施例中，计算机系统300通过总线302耦接到诸如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、发光二极管(LED)显示器或用于向计算机用户显示信息的有机发光二极管(OLED)显示器的显示器312。包括字母数字键和其它键的输入装置314耦接到总线302，用于向处理器304传送信息和命令选择。另一种类型的用户输入装置是光标控制器316，诸如鼠标、轨迹球、触控显示器或光标方向键，用于将方向信息和命令选择传送到处理器304，并用于控制光标在显示器312上的移动。这种输入装置通常具有两个轴(第一轴(例如，x轴)和第二轴(例如，y轴))上的两个自由度，这两个轴允许装置指定平面上的位置。

根据一个实施例，本文的技术由计算机系统300响应于处理器304执行主存储器306中包含的一个或多个指令的一个或多个序列而执行。这些指令从诸如存储装置310的另一存储介质读入主存储器306。执行主存储器306中包含的指令序列使处理器304执行本文所描述的过程步骤。在替代实施例中，使用硬连线电路代替或与软件指令结合使用。

如本文所使用的术语“存储介质”是指存储数据和/或指令的任何非暂时性介质，这些数据和/或指令使机器以特定方式操作。这种存储介质包括非易失性介质和/或易失性介质。非易失性介质例如包括诸如存储装置310的光盘、磁盘、固态驱动器或三维交叉点存储器。易失性介质包括动态存储器，诸如主存储器306。存储介质的常见形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其它磁数据存储介质、CD-ROM、任何其它光数据存储介质、任何具有孔型的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NV-RAM、或任何其它存储芯片或存储盒。

存储介质有别于传输介质，但可以与传输介质相结合使用。传输介质参与存储介质之间的信息传输。例如，传输介质包括同轴电缆、铜线和光纤，其包括具备总线302的电线。传输介质也可以采取声波或光波的形式，诸如在无线电波和红外数据通信过程中产生的声波或光波。

在实施例中，各种形式的介质涉及将一个或多个指令的一个或多个序列承载到处理器304以供执行。例如，这些指令最初是在远程计算机的磁盘或固态驱动器上执行的。远程计算机将指令加载到其动态存储器中，并使用调制解调器通过电话线路发送指令。计算机系统300的本地调制解调器接收电话线路上的数据，并使用红外发射器将数据转换为红外信号。红外检测器接收红外信号中承载的数据，并且适当的电路将数据放置在总线302上。总线302将数据承载到主存储器306，处理器304从主存储器306检索并执行指令。主存储器306接收的指令可以可选地在处理器304执行之前或之后存储在存储装置310上。

计算机系统300还包括耦接到总线302的通信接口318。通信接口318提供耦接到连接至本地网络322的网络链路320的双向数据通信。例如，通信接口318是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或用以提供与相应类型电话线路的数据通信连接的调制解调器。作为另一示例，通信接口318是局域网(LAN)卡，用于提供与兼容LAN的数据通信连接。在一些实现中，无线链路也被实现。在任何这种实现中，通信接口318发送和接收承载表示各种类型的信息的数字数据流的电、电磁或光信号。

网络链路320通常通过一个或多个网络向其它数据装置提供数据通信。例如，网络链路320通过本地网络322提供与主计算机324或与由因特网服务提供商(ISP)326运营的云数据中心或设备的连接。ISP 326又通过现在通常称为“因特网”328的世界范围分组数据通信网络来提供数据通信服务。本地网络322和因特网328两者都使用承载数字数据流的电、电磁或光信号。通过各种网络的信号以及网络链路320上并通过通信接口318的信号是传输介质的示例形式，其中这些信号承载了进出计算机系统300的数字数据。在实施例中，网络320包含上述云202或云202的一部分。

计算机系统300通过(一个或多个)网络、网络链路320和通信接口318发送消息和接收包括程序代码的数据。在实施例中，计算机系统300接收用于处理的代码。接收到的代码在接收到时由处理器304执行，和/或存储在存储装置310中，或存储在其它非易失性存储装置中以便以后执行。

自主运载工具架构

图4示出用于自主运载工具(例如，图1所示的运载工具100)的示例架构400。架构400包括感知模块402(有时称为感知电路)、规划模块404(有时称为规划电路)、控制模块406(有时称为控制电路)、定位模块408(有时称为定位电路)和数据库模块410(有时称为数据库电路)。各模块在运载工具100的操作中发挥作用。共同地，模块402、404、406、408和410可以是图1所示的AV系统120的一部分。在一些实施例中，模块402、404、406、408和410中的任何模块是计算机软件(例如，计算机可读介质上所存储的可执行代码)和计算机硬件(例如，一个或多个微处理器、微控制器、专用集成电路[ASIC]、硬件存储器装置、其它类型的集成电路、其它类型的计算机硬件、或者这些硬件中的任何或所有的组合)的组合。模块402、404、406、408和410各自有时被称为处理电路(例如，计算机硬件、计算机软件、或者这两者的组合)。模块402、404、406、408和410中的任何或全部的组合也是处理电路的示例。

在使用中，规划模块404接收表示目的地412的数据，并且确定表示运载工具100为了到达(例如，抵达)目的地412而可以行驶的轨迹414(有时称为路线)的数据。为了使规划模块404确定表示轨迹414的数据，规划模块404从感知模块402、定位模块408和数据库模块410接收数据。

感知模块402使用例如也如图1所示的一个或多个传感器121来识别附近的物理对象。将对象分类(例如，分组成诸如行人、自行车、汽车、交通标志等的类型)，并且将包括经分类的对象416的场景描述提供至规划模块404。

规划模块404还从定位模块408接收表示AV位置418的数据。定位模块408通过使用来自传感器121的数据和来自数据库模块410的数据(例如，地理数据)以计算位置来确定AV位置。例如，定位模块408使用来自GNSS(全球导航卫星系统)传感器的数据和地理数据来计算AV的经度和纬度。在实施例中，定位模块408所使用的数据包括具有行车道几何属性的高精度地图、描述道路网络连接属性的地图、描述行车道物理属性(诸如交通速率、交通量、运载工具和自行车车道的数量、车道宽度、车道交通方向、或车道标记类型和地点，或者它们的组合)的地图、以及描述道路特征(诸如十字路口、交通标志或各种类型的其它行驶信号等)的空间地点的地图。在实施例中，高精度地图是通过将数据经由自动或手动标注添加到低精度地图所构建的。

控制模块406接收表示轨迹414的数据和表示AV位置418的数据，并且以将使得运载工具100行驶轨迹414到达目的地412的方式来操作AV的控制功能420a～420c(例如，转向、油门、制动、点火)。例如，如果轨迹414包括左转，则控制模块406将以如下方式操作控制功能420a～420c：转向功能的转向角度将使得运载工具100左转，并且油门和制动将使得运载工具100在进行转弯之前暂停并等待经过的行人或运载工具。

自主运载工具输入

图5示出感知模块402(图4)所使用的输入502a-502d(例如，图1中所示的传感器121)和输出504a-504d(例如，传感器数据)的示例。一个输入502a是LiDAR(光检测和测距)系统(例如，图1所示的LiDAR 123)。LiDAR是使用光(例如，诸如红外光等的一道光)来获得与其视线中的物理对象有关的数据的技术。LiDAR系统产生LiDAR数据作为输出504a。例如，LiDAR数据是用于构造环境190的表示的3D或2D点(也称为点云)的集合。

另一输入502b是RADAR(雷达)系统。RADAR是使用无线电波来获得与附近的物理对象有关的数据的技术。RADAR可以获得与不在LiDAR系统的视线内的对象有关的数据。RADAR系统产生RADAR数据作为输出504b。例如，RADAR数据是用于构造环境190的表示的一个或多个射频电磁信号。

另一输入502c是照相机系统。照相机系统使用一个或多个照相机(例如，使用诸如电荷耦接器件[CCD]等的光传感器的数字照相机)来获取与附近的物理对象有关的信息。照相机系统产生照相机数据作为输出504c。照相机数据通常采用图像数据(例如，诸如RAW、JPEG、PNG等的图像数据格式的数据)的形式。在一些示例中，照相机系统具有例如为了立体影像(立体视觉)的目的的多个独立照相机，这使得照相机系统能够感知深度。尽管照相机系统所感知的对象在这里被描述为“附近”，但这是相对于AV而言的。在一些实施例中，照相机系统被配置为“看见”远处的(例如，AV前方的远至1公里或更远的)对象。因此，在一些实施例中，照相机系统具有为了感知遥远的对象而优化的诸如传感器和镜头等的特征。

另一输入502d是交通灯检测(TLD)系统。TLD系统使用一个或多个照相机来获得与交通灯、街道标志和提供视觉导航信息的其它物理对象有关的信息。TLD系统产生TLD数据作为输出504d。TLD数据经常采用图像数据(例如，诸如RAW、JPEG、PNG等的图像数据格式的数据)的形式。TLD系统与包含照相机的系统的不同之处在于：TLD系统使用具有宽视场(例如，使用广角镜头或鱼眼镜头)的照相机，以获得与尽可能多的提供视觉导航信息的物理对象有关的信息，使得运载工具100能够访问这些对象所提供的所有相关导航信息。例如，TLD系统的视角为约120度或更大。

在一些实施例中，使用传感器融合技术来组合输出504a-504d。因而，将个体输出504a-504d提供至运载工具100的其它系统(例如，提供至如图4所示的规划模块404)，或者可以采用相同类型的单个组合输出或多个组合输出(例如，使用相同组合技术或组合相同输出或者这两者)或不同类型的单个组合输出或多个组合输出(例如，使用不同的各个组合技术或组合不同的各个输出或者这两者)的形式，将组合输出提供至其它系统。在一些实施例中，使用早期融合技术。早期融合技术的特征在于：在将一个或多个数据处理步骤应用到组合输出之前，将输出组合。在一些实施例中，使用后期融合技术。后期融合技术的特征在于：在将一个或多个数据处理步骤应用到个体输出之后，将输出组合。

图6示出LiDAR系统602的示例(例如，图5所示的输入502a)。LiDAR系统602从发光器606(例如，激光发射器)发射光604a-604c。LiDAR系统所发射的光通常不在可见光谱中；例如，经常使用红外光。所发射的光604b中的一些光遇到物理对象608(例如，运载工具)并且反射回到LiDAR系统602。(从LiDAR系统发射的光通常不会穿透物理对象，例如，实心形式的物理对象。)LiDAR系统602还具有用于检测反射光的一个或多个光检测器610。在实施例中，与LiDAR系统相关联的一个或多个数据处理系统生成表示LiDAR系统的视场614的图像612。图像612包括表示物理对象608的边界616的信息。这样，图像612用于确定AV附近的一个或多个物理对象的边界616。

图7示出操作中的LiDAR系统602。在该图所示的情境中，运载工具100接收采用图像702的形式的照相机系统输出504c和采用LiDAR数据点704的形式的LiDAR系统输出504a两者。在使用中，运载工具100的数据处理系统将图像702与数据点704进行比较。特别地，在数据点704中也识别在图像702中识别出的物理对象706。这样，运载工具100基于数据点704的轮廓和密度来感知物理对象的边界。

图8示出LiDAR系统602的操作的附加细节。如上所述，运载工具100基于LiDAR系统602所检测到的数据点的特性来检测物理对象的边界。如图8所示，诸如地面802等的平坦对象将以一致的方式反射从LiDAR系统602发射的光804a-804d。换句话说，由于LiDAR系统602使用一致的间隔发射光，因此地面802将以相同的一致间隔将光反射回到LiDAR系统602。在运载工具100在地面802上行驶时，在没有东西阻挡道路的情况下，LiDAR系统602将继续检测到由下一个有效地面点806反射的光。然而，如果对象808阻挡道路，则LiDAR系统602所发射的光804e-804f将以与预期一致方式不一致的方式从点810a-810b反射。根据该信息，运载工具100可以确定存在对象808。

使用多视图融合来识别对象

图9示出用于对LiDAR点进行分类的处理900的流程图。如以上针对图6所述，运载工具100基于由LiDAR系统602检测到的点云形式的数据点704的特性来检测物理对象。在一些实施例中，数据点由一个或多个神经网络处理以识别由这些数据点表示的对象。例如，点云由神经网络处理以生成针对点云中所包括的点簇的语义标签。语义标签用于区分点云中的对象。此外，在一些示例中，并行地处理并且融合点云的多个视图以生成最终确定的一组标签。

在处理900期间，从LiDAR装置502a(图5)生成点云数据。在一些示例中，从LiDAR502a和照相机装置502c(图5)的组合生成点云数据。在实施例中，所接收到的点云数据包括点云中的各点的三维位置信息。在实施例中，点云数据包括点强度数据。点强度数据表示点云中的点的光强度。在实施例中，点强度数据是实值数。在利用LiDAR 502a和照相机装置502c的组合的实施例中，点云数据包括点云中的至少一个点的颜色数据。颜色数据表示点云中的点的颜色信息。在实施例中，颜色数据被表示为包括RGB数据的张量。收集(902)包括点云数据或照相机数据的可用传感器数据。

然后，将点云数据投影到两个二维面上以生成(904)视图数据。视图数据是三维点云数据在两个二维面上的投影。例如，将点云数据投影到鸟瞰视图(BeV)和范围视图(RV)上。以下根据图10和图11来详细说明视图数据。

视图数据被提供给视图网络。视图网络是用于基于所输入的视图数据来生成分类度量的一种编码器-解码器神经网络(例如，具有或不具有点级编码)。在所输入的视图数据是图像的实施例中，视图网络输出该图像的分割图。分割图是由标签构成的矩阵，使得分割图的各元素是针对所输入的视图图像数据中的相应像素的标签。各个视图网络采用视图数据作为输入，并且针对点云数据中的各点计算(906)一组类得分。一组类得分是n维向量，其中n是预定义类的数量，以及其中向量的各元素表示该点所属的类的似然得分。类反映对象类型(例如，植被、运载工具或行人)。以下根据图11得到与视图网络有关的更多细节。

获得并比较点云数据中的点的不同组的类得分。基于比较的结果，然后该点被确定(910)为不确定点950或经分类的点960。以下根据图10找出与比较处理有关的细节。

最终确定(914)的标签是指派给点云中的点以指示该点是点的对象(例如，植被、运载工具或行人)的一部分的标签。在大多数情况下，经分类的点960示出来自不同组的类得分的相同主导类，因此经分类的点960的最终确定的标签是来自一组类得分的主导类。然而，不确定点950通常没有示出来自不同组的类得分的相同主导类，并且需要附加的处理来确定不确定点的最终确定的标签。

融合网络(也称为融合神经网络)采用不确定点，并且通过融合(912)生成针对该不确定点的新的一组类得分。融合网络是针对点云中的点将视图网络的最终或中间输出融合以生成更准确结果的一种神经网络。在实施例中，该新的一组类得分示出了用作不确定点950的最终确定(914)的标签的主导类。以下根据图12找出与比较处理有关的细节。

在实施例中，点云中的点的最终确定的标签然后被传递到图4所示的感知电路402，以用于诸如对象识别等的任务。以下根据图10找出与后续任务有关的细节。

图10示出用于对LiDAR扫描点进行分类的分类网络1000的框图。分类网络1000将从LiDAR装置1001(例如，图5所示的LiDAR 502a)获得的点云数据1003作为输入，并且生成针对点云数据1003中的各点的最终确定的标签1060。最终确定的标签1060是指派给点云中的如下点的标签，该点是对象(例如，植被、运载工具或行人)的一部分。

基于所进行的后续任务的顺序，使用作为定位电路408(图4)或感知电路402(图4)的处理电路1002来接收并处理点云数据。使用处理电路1002将三维点云数据1003投影到两个二维面上。类似于地球在世界地图上的投影，一个投影是仿佛将点云从球面展开到平面上一样，这被称为范围视图(RV)数据1020。换句话说，范围视图(RV)数据1020是映射到xy坐标系上的球面坐标系中的三维点云数据，其中各x坐标表示各

角度。另一投影是仿佛从上方观看点云一样，这被称为鸟瞰视图(BeV)数据1030。换句话说，鸟瞰视图(BeV)数据1030是映射到z轴被移除的xy坐标系上的xyz坐标系中的三维点云数据。RV数据1020和BeV数据1030采用多个格式。在示例中，RV数据1020和BeV数据1030采用图像的格式。在另一示例中，RV数据1020和BeV数据1030采用矩阵的格式。

将RV数据1020作为输入提供至范围视图网络1004或RV网络，并且将BeV数据1030作为输入提供至鸟瞰视图网络1006或BeV网络。在实施例中，RV网络1004和BeV网络1006这两者都是视图网络。在图11中示出代表RV网络1004和BeV网络1006的视图网络的详细架构。RV网络1004针对点云中的各点计算第一组类得分1040。同样地，BeV网络1006针对点云中的各点计算第二组类得分1050。

RV网络1004和BeV网络1006是针对输入或计算彼此不依赖的独立神经网络。在实施例中，使用两个不同的处理器来并行地评估RV网络1004和BeV网络1006。在实施例中，所使用的两个不同的处理器中的一个处理器是图3所示的处理器304，而所使用的另一处理器是图2所示的云202的一部分。在另一实施例中，这两个处理器都位于云202中、或者作为AV的元件。在计算资源有限的实施例中，顺次评估RV网络1004和BeV网络1006，使得利用能够同时评估RV网络1004和BeV网络1006中的仅一个的计算资源来评估这两者。

将点的第一组类得分1040和点的第二组类得分1050作为输入提供至得分比较器1008。如果两组得分1040和1050相差了阈值，则该点被视为不确定点950。否则，该点被视为经分类的点960。两组类得分1040和1050的阈值差取决于所选择的评估度量。如上所述，第一组类得分1040和第二组类得分1050各自由n维向量表示。在实施例中，根据两个向量之间的余弦距离来计算两组类得分1040和1050的差。在实施例中，根据两个向量之间的欧几里德距离或L2范数距离来计算两组类得分1040和1050的差。在实施例中，根据两个向量之间的曼哈顿距离或L1范数距离来计算两组类得分1040和1050的差。

融合网络1010采用不确定点950作为输入，并且考虑到两组类得分1040和1050之间的差满足阈值差，基于第一组类得分1040和第二组类得分1050来生成针对不确定点950的新的一组类得分1220。基于该新的一组类得分1220来确定不确定点的预测类。在实施例中，不确定点950的预测类是与该新的一组类得分1220中的最大似然得分相对应的主导类。预测类被视为不确定点950的最终确定的标签1060。根据图12来说明与融合网络和融合网络的示例实现有关的细节。

在实施例中，融合网络1010被扩展为包括最终确定模块。对于经分类的点，最终确定模块采用第一组类得分1040和第二组类得分1050中的任一组，并且确定主导类。在实施例中，主导类与第一组类得分1040或第二组类得分1050中的最大似然得分相对应。然后，为经分类的点指派主导类，该主导类用作该经分类的点的最终确定的标签1060。对于不确定点，该不确定点的最终确定的标签1060被确定为来自从新的一组类得分的主导类。

在实施例中，将点云中的点的最终确定的标签1060提供至例如感知模块402，以用于诸如对象识别等的任务。例如，感知模块402应用基于点云的对象识别算法(诸如VoxelNet等)，以检测点云中的对象。在实施例中，基于所检测到的对象，规划模块404(图4)输出用以跟随道路或避免与附近的运载工具发生碰撞的策略。

图11示出代表RV网络1004和BeV网络1006这两者的视图网络1100。视图网络1100采用代表RV数据1020或BeV数据1030的视图数据1120作为输入，并且将一组类得分1110作为输出。在实施例中，使视图数据1120通过连续的卷积层1102。卷积层是神经网络中的对向该层的输入进行卷积的层。卷积是将卷积核(例如，5×5矩阵)与输入张量进行卷积以产生新张量的运算。在实施例中，卷积层被转置卷积层替代。转置卷积层是神经网络中的用于对向该层的输入进行使用转置卷积的上采样的层。转置卷积可以使用对具有填充边框的输入的卷积来进行。

在实施例中，在连续的卷积层1102之间嵌入有多个最大池化层，各最大池化层提取向各个层的输入的主导特性。最大池化层是神经网络中的用于对向该层的输入进行最大池化的层。最大池化是计算各分块(patch)(例如，输入张量的各层的输入的3×3区域)中的最大值的池化运算。

在实施例中，在一些卷积层1102中包括激活函数。激活函数是修正层的输出的函数。例如，激活函数是S型函数或修正线性单元(ReLU)函数。

在连续的卷积层1102之间嵌入有使用递归层或多个连续的递归层实现的空间平滑层1104。递归层是具有内部存储器的神经网络层。每当存在新的输入时，更新存储器。使用当前输入和内部存储器来计算输出。结果，递归层能够学习输入中的顺序关系。

在训练期间，在实施例中，对所生成的RV数据1020或BeV数据1030进行数据增强。数据增强是基于现有训练样本来生成更多训练样本的处理。例如，对RV数据1020的数据增强包括将RV数据切分成多个较小片段。这些较小片段帮助网络在小对象上表现得更好。另外，数据增强增加了可用的训练样本的数量。

在实施例中，在视图网络1100中，在所输出的一组类得分1110之前包括一个或多个连续的全连接层1106。全连接层是神经网络中的层，其中在该层中，全连接层中的神经元具有与前一层中的所有输出的全连接。神经网络中的神经元是具有可学习的权重和偏置的组件。在另一实施例中，全连接层1106被卷积层1102替代。在训练期间，更新神经网络中的各神经元的权重和偏置，使得神经网络的实际输出收敛到神经网络的期望输出。在实施例中，该更新经由反向传播来进行。反向传播是实际输出和期望输出之间的差相对于神经网络的各个权重的梯度传播的处理。根据损失函数来计算实际输出和期望输出之间的差。损失函数是被设计为计算实际输出和期望输出之间的误差的度量。

针对点所输出的一组类得分1110包括诸如以下等的不同类的似然得分：植被得分1112，即该点属于某些植被的一部分的似然得分；运载工具得分1114，即该点属于某些运载工具的一部分的似然得分；行人得分1116，即该点属于某些行人的一部分的似然得分；以及路面得分1118，即该点属于某些路面的一部分的似然得分；等等。

图12示出融合网络1200的表示。融合网络1200采用不确定点950作为输入，并且输出针对不确定点950的新的一组类得分1220。

在训练期间，使用采样器1202来过滤不确定点950，使得仅评估不确定点950的一部分。这提高了训练速度。在实施例中，使用概率函数来实现采样器1202。在实施例中，使用过滤函数来实现采样器1202。采样器1202用于指定两组类得分1040和1050的差的阈值。在部署期间，考虑所有的不确定点950。

在实施例中，K维树(K-D树)1204选择不确定点950的相邻点1230。K-D树是用于在k维空间中组织点的多维二叉搜索树结构，其对于最近邻搜索是有用的。将相邻点1230作为输入提供至特征提取器和级联器1206。不确定点950的相邻点1230是不确定点950附近的点。在实施例中，K-D树被另一最近邻搜索算法(诸如线性搜索等)替代。

将特征定义为来自视图网络1100的层的输出。在实施例中，特征提取器和级联器1206采用不确定点950作为输入，并且从相应的视图网络1100提取相邻点1230和不确定点950的特征，以形成级联特征作为向点神经网络1210或点网络的输入。在实施例中，特征是来自视图网络1100的中间层的输出。在实施例中，来自视图网络1100的中间层的输出是张量。在实施例中，特征是来自视图网络1100的最终层的输出、或者所输出的一组类得分1110。在实施例中，特征包括从LiDAR装置读取的未处理的点云数据、相邻点的三维位置信息或相邻点的点强度信息。

在实施例中，来自相邻点的级联特征1240包括原始点云数据、相邻点相对于不确定点的三维位置信息或相邻点的点强度信息。在实施例中，来自不确定点的级联特征1242包括原始点云数据、不确定点的三维位置信息或不确定点的点强度信息。

点网络1210采用来自相邻点的级联特征1240和来自不确定点的级联特征1242作为输入。在实施例中，来自相邻点的级联特征1240由多层感知器1212作为输入，该多层感知器1212输出来自不确定点的级联特征1242的某种浓缩形式的特征。多层感知器1212是神经网络的每个节点都是感知器的神经网络。感知器是用于学习二进制分类器的算法。在实施例中，多层感知器1212被卷积神经网络替代。在实施例中，多层感知器1212被变换器替代。变换器是将输入序列变换为输出序列的一种神经网络。

然后将来自多层感知器1212的输出提供至最大池化层1214。最大池化层1214从相邻点提取主导特性。在实施例中，然后经由级联层1216将主导特性与来自不确定点的级联特征1242级联在一起。来自级联层1216的输出被馈送到全连接层1218。在实施例中，级联层1216被进行连接或堆叠的层替代。在实施例中，全连接层1218被卷积层替代。

全连接层的输出是针对不确定点950的新的一组类得分1220。该新的一组类得分1220包括诸如以下等的不同类的似然得分：植被得分1222，即该点属于某些植被的一部分的似然得分；运载工具得分1224，即该点属于某些运载工具的一部分的似然得分；行人得分1226，即该点属于某些行人的一部分的似然得分；以及路面得分1228，即该点属于某些路面的一部分的似然得分；等等。

通常，基于诸如余弦距离或欧几里德距离等的所选择的距离度量，不确定点950的新的一组类得分1220与不确定点950的第一组类得分1040或不确定点950的第二组类得分1050显著不同。因此，可以基于该新的一组类得分1220来为不确定点950指派最终确定的标签1060。在实施例中，不确定点950的最终确定的标签1060是与该新的一组类得分1220中的最大似然得分相对应的类。

图13示出用于基于经分类的LiDAR点来操作运载工具的处理1300的流程图。在实施例中，运载工具是图1所示的AV 100。在实现中，处理1300由诸如图3所示的处理器304等的处理器来执行。在实现中，处理1300由图4所示的感知模块402、规划模块404、控制模块406或定位模块408来执行。

处理器接收(1302)点云数据。在实现中，点云数据是如图10所示从LiDAR装置1001所生成的点云数据1003。在实现中，LiDAR点云数据包括与同点云中所包括的至少一个点相关联的颜色有关的信息。在实现中，LiDAR点云数据包括点强度信息。

处理器基于点云中的多个点来生成(1304)点云的第一视图和点云的第二视图，其中第二视图不同于第一视图。在实现中，点云的第一视图是图10所示的范围视图(RV)数据1020。在实现中，点云的第二视图是图10所示的鸟瞰视图(BeV)数据1040。

处理器将第一视图作为输入提供(1306)至第一视图神经网络，并且将第二视图作为输入提供(1306)至第二视图神经网络，第二视图神经网络不同于第一视图神经网络。在实现中，第一视图是范围视图(RV)数据1020，并且第一视图神经网络是图10所示的范围视图(RV)网络1004。在实现中，第二视图是鸟瞰视图(BeV)数据1040，并且第二视图神经网络是图10所示的范围视图(RV)网络1006。在实现中，第一视图神经网络或第二视图神经网络包括至少一个递归层，诸如图11所示的空间平滑层1104等。在实现中，在训练第一视图神经网络或第二视图神经网络期间，如针对图11所述，至少部分地基于数据增强来生成第一视图数据或第二视图数据。

处理器针对点云中的各点，使用第一视图神经网络来生成(1308)指示对象类的第一组类得分，并且使用第二视图神经网络生成(1308)指示对象类的第二组类得分，其中第一组类得分和第二组类得分是并行地生成的。在实施例中，第一组类得分是图10所示的来自RV的第一组类得分1040。在实施例中，第二组类得分是图10所示的来自BeV的第二组类得分1050。在实现中，特定点的第一组类得分或第二组类得分中所包括的至少一个类得分与对象的预定义类相对应。

处理器确定(1310)点云中的至少一个不确定点，其中该确定是基于至少一个不确定点的第一组类得分和至少一个不确定点的第二组类得分。在实现中，在图10所示的得分比较器1008中比较第一组类得分和第二组类得分。在实现中，至少一个不确定点是图9所示的不确定点950。在实现中，如针对图10所述，不确定点是相对于类得分的阈值差来确定的，其中阈值差是基于概率函数和过滤函数中的至少一个或这两者来确定的。在实现中，被确定为并非不确定点的点是经分类的点960。

处理器使用融合神经网络，基于至少一个不确定点的第一组类得分和至少一个不确定点的第二组类得分至少之一来生成(1312)第三组类得分，其中该第三组类得分是基于至少一个不确定点的相邻点的特性。在实施例中，至少一个不确定点的第三组类得分是图12所示的新的一组类得分1220。在实现中，至少一个不确定点的第三组类得分中的至少一个类得分与对象的预定义类相对应。在实现中，融合神经网络包括至少一个递归层。在实现中，融合神经网络包括多层感知器和卷积层(诸如图12所示的多层感知器1212和图11所示的卷积层等)中的至少一个。

处理器基于第三组类得分来确定(1314)至少一个不确定点的最终确定的标签。在实现中，最终确定的标签是与新的一组类得分1220中的元素(诸如图12所示的植被得分1222、运载工具得分1224、行人得分1226或路面得分1228等)相关联的对象类(例如，植被、运载工具、行人或路面)。在实现中，基于至少一个不确定点的相邻点的级联特征(诸如针对图12所述的级联特征等)来确定至少一个不确定点的类得分。在实现中，级联特征包括第一视图神经网络和第二视图神经网络的中间层的中间输出，诸如来自如针对图11所述的视图网络1100的中间层的输出等。在实现中，级联特征包括从第一视图神经网络和第二视图神经网络的至少一个输出的类得分，诸如图11所示的所输出的一组类得分1110等。在实现中，还使用针对图10所述的最终确定模块来确定至少一个经分类的点的最终确定的标签。

处理器至少部分地基于至少一个不确定点的最终确定的标签来识别(1316)运载工具附近的至少一个对象。在实现中，该对象是如与新的一组类得分1220中的元素(诸如图12所示的植被得分1222、运载工具得分1224、行人得分1226或路面得分1228等)相关联的植被、运载工具、行人或路面的一部分。在实现中，该识别是至少部分地基于至少一个经分类的点的最终确定的标签。

处理器控制(1318)运载工具的运动。在实现中，处理器是用于控制运载工具跟随该运载工具的计划路径以避免与已知对象发生碰撞的规划模块404、控制模块406或定位模块408。

在先前描述中，已经参考许多具体细节描述了本发明的实施例，这些具体细节可因实现而不同。因此，说明书和附图应被视为说明性的，而非限制性意义的。本发明范围的唯一且排他的指示、以及申请人期望是本发明范围的内容是以发布权利要求书的具体形式从本申请发布的权利要求书的字面和等同范围，包括任何后续修正。本文中明确阐述的用于被包括在此类权利要求中的术语的任何定义应当以此类术语如在权利要求书中所使用的意义为准。另外，当在先前的说明书或所附权利要求书使用术语“还包括”时，该短语的下文可以是附加的步骤或实体、或先前所述的步骤或实体的子步骤/子实体。

Claims

1.一种用于运载工具的方法，包括：

使用至少一个处理器，接收与点云中的多个点相关联的LiDAR点云数据；

使用所述至少一个处理器，基于所述点云中的所述多个点来生成所述点云的第一视图和所述点云的第二视图，其中所述第二视图不同于所述第一视图；

使用所述至少一个处理器，将所述第一视图作为输入提供至第一视图神经网络并且将所述第二视图作为输入提供至第二视图神经网络，所述第二视图神经网络不同于所述第一视图神经网络；

使用所述至少一个处理器，针对所述点云中的各点，使用所述第一视图神经网络来生成指示对象类的第一组类得分并且使用所述第二视图神经网络来生成指示所述对象类的第二组类得分，其中第一组类得分和第二组类得分是并行地生成的；

使用所述至少一个处理器，确定所述点云中的至少一个点的最终确定的标签，其中该确定是基于所述至少一个点的第一组类得分和所述至少一个点的第二组类得分；

使用所述至少一个处理器，至少部分地基于所述至少一个点的最终确定的标签来识别所述运载工具附近的至少一个对象；以及

使用所述至少一个处理器，基于所述至少一个对象来控制所述运载工具的运动。

2.根据权利要求1所述的方法，其中，确定所述点云中的至少一个点的最终确定的标签包括：

确定所述点云中的至少一个不确定点，其中该确定是基于所述至少一个不确定点的第一组类得分和所述至少一个不确定点的第二组类得分；

使用融合神经网络，基于所述至少一个不确定点的第一组类得分和所述至少一个不确定点的第二组类得分至少之一来生成所述至少一个不确定点的第三组类得分，其中第三组类得分是基于所述至少一个不确定点的相邻点的特性；以及

基于第三组类得分，使用所述至少一个处理器来确定所述至少一个不确定点的最终确定的标签。

3.根据权利要求1或2所述的方法，其中，所述LiDAR点云数据包括与同所述点云中所包括的至少一个点相关联的颜色有关的信息。

4.根据权利要求1或2所述的方法，其中，所述第一视图和所述第二视图中的至少一个包括鸟瞰视图即BeV或范围视图即RV。

5.根据权利要求1或2所述的方法，其中，所述LiDAR点云数据包括点强度信息。

6.根据权利要求1或2所述的方法，其中，特定点的第一组类得分、第二组类得分或第三组类得分中所包括的至少一个类得分与对象的预定义类相对应。

7.根据权利要求1或2所述的方法，其中，所述第一视图神经网络、所述第二视图神经网络和融合神经网络中的至少一个包括至少一个递归层。

8.根据权利要求1或2所述的方法，其中，将所述第一视图数据作为输入提供至第一视图神经网络并且将所述第二视图数据作为输入提供至第二视图神经网络包括：

将所述第一视图数据作为输入提供至第一视图神经网络并且将所述第二视图数据作为输入提供至第二视图神经网络，所述第一视图数据或所述第二视图数据至少部分是基于数据增强所生成的。

9.根据权利要求1或2所述的方法，其中，所述不确定点是相对于类得分的阈值差所确定的，其中所述阈值差是基于概率函数和过滤函数中的至少一个或者这两者来确定的。

10.根据权利要求1或2所述的方法，其中，所述至少一个不确定点的类得分是基于所述至少一个不确定点的相邻点的级联特征来确定的。

11.根据权利要求10所述的方法，其中，所述级联特征包括所述第一视图神经网络和所述第二视图神经网络的中间层的中间输出。

12.根据权利要求10所述的方法，其中，所述级联特征包括从所述第一视图神经网络和所述第二视图神经网络中的至少一个输出的类得分。

13.根据权利要求1或2所述的方法，其中，所述融合神经网络包括多层感知器和卷积层中的至少一个。

14.一种运载工具，包括：

至少一个LiDAR装置，其能够生成包括多个LiDAR数据点的LiDAR扫描点云；以及

处理电路，其耦接至所述LiDAR装置，所述处理电路被配置用于进行根据权利要求1所述的方法。

15.一种非暂时性计算机可读存储介质，其包括用于由第一装置的至少一个处理器执行的至少一个程序，所述至少一个程序包括指令，所述指令在由所述至少一个处理器执行时，使所述第一装置进行根据权利要求1所述的方法。