CN116265862A

CN116265862A - 运载工具、用于运载工具的系统和方法以及存储介质

Info

Publication number: CN116265862A
Application number: CN202210131673.5A
Authority: CN
Inventors: S·A·维德贾亚; D·夏尔玛; V·E·B·里昂
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2021-12-16
Filing date: 2022-02-14
Publication date: 2023-06-20
Also published as: GB2614090A; KR102595886B1; DE102022102189A1; GB202200907D0; KR20230092673A; KR20230152643A; US20230260298A1; US11527085B1

Abstract

本发明提供了一种运载工具、用于运载工具的系统和方法以及存储介质。提供了利用语义标注系统的地图构建中的增强语义标注的方法，该方法可以包括：从运载工具的LiDAR传感器接收包括点的至少一个原始点特征的LiDAR点云信息，从运载工具的照相机接收与使用该照相机捕获到的图像相关联的图像数据，基于该图像数据来生成点的至少一个丰富点特征，使用LiDAR分割神经网络并基于至少一个原始点特征和至少一个丰富点特征来预测点的点级语义标签，以及将该点级语义标签提供至地图构建引擎以基于该点级语义标签来生成地图。还提供了系统和计算机程序产品。

Description

运载工具、用于运载工具的系统和方法以及存储介质

技术领域

本发明涉及用于地图构建中的增强语义标注的多模态分割网络。

背景技术

自主运载工具能够感测其周围的环境并且在没有人类输入的情况下进行导航。运载工具可以生成并使用各种类型的地图，以使运载工具沿着所选路径安全导航从而避开障碍物。这样做，运载工具可以依赖应用于这些地图的语义标签来区分位于运载工具周围的环境中的不同类型的对象。一些语义标签可以仅使用从运载工具的至少一个LiDAR传感器检测到的信息来生成。

发明内容

根据本发明的一个方面，提供一种用于运载工具的方法，包括：利用至少一个处理器并且从所述运载工具的LiDAR传感器接收包括点的至少一个原始点特征的LiDAR点云信息；利用所述至少一个处理器并且从所述运载工具的照相机接收与使用所述照相机捕获到的图像相关联的图像数据；利用所述至少一个处理器，基于所述图像数据来生成所述点的至少一个丰富点特征；利用所述至少一个处理器，使用LiDAR分割神经网络并且基于所述至少一个原始点特征和所述至少一个丰富点特征来预测所述点的点级语义标签；以及利用所述至少一个处理器，将所述点级语义标签提供至地图构建引擎以基于所述点级语义标签来生成地图。

根据本发明的另一方面，提供一种运载工具，包括：照相机，其被配置为捕获接近所述运载工具的对象的图像；LiDAR传感器，其被配置为检测从接近所述运载工具的对象所反射的光并且基于所检测到的光来生成LiDAR点云信息，所述LiDAR点云信息包括点的至少一个原始点特征；至少一个处理器，其通信地耦接到所述照相机和所述LiDAR传感器；以及至少一个存储器，其上存储有指令，所述指令在由所述至少一个处理器执行时使得所述至少一个处理器进行前述的方法。

根据本发明的另一方面，提供一种用于运载工具的系统，包括：至少一个处理器；以及至少一个存储器，其上存储有指令，所述指令在由所述至少一个处理器执行时使得所述至少一个处理器进行前述的方法。

根据本发明的另一方面，提供一种非暂时性存储介质，其存储有指令，所述指令在由至少一个处理器执行时使得所述至少一个处理器进行前述的方法。

附图说明

图1是可以实现包括自主系统的一个或多于一个组件的运载工具的示例环境；

图2是包括自主系统的运载工具的一个或多于一个系统的图；

图3是图1和图2的一个或多于一个装置和/或一个或多于一个系统的组件的图；

图4A是自主系统的某些组件的图；

图4B是神经网络的实现的图；

图5是用于地图构建中的增强语义标注的处理的实现的图；

图6是用于地图构建中的增强语义标注的处理的实现的图；

图7是用于地图构建中的增强语义标注的处理的实现的图；以及

图8是用于地图构建中的增强语义标注的处理的流程图。

具体实施方式

在以下描述中，为了解释的目的，阐述了许多具体细节，以便提供对本公开的透彻理解。然而，本公开所描述的实施例可以在没有这些具体细节的情况下实施将是明显的。在一些实例中，众所周知的构造和装置是以框图形式例示的，以避免不必要地使本公开的方面模糊。

在附图中，为了便于描述，例示了示意要素(诸如表示系统、装置、模块、指令块和/或数据要素等的那些要素等)的具体布置或次序。然而，本领域技术人员将要理解，除非明确描述，否则附图中示意要素的具体次序或布置并不意在意味着要求特定的处理次序或序列、或处理的分离。此外，除非明确描述，否则在附图中包含示意要素并不意在意味着在所有实施例中都需要这种要素，也不意在意味着由这种要素表示的特征不能包括在一些实施例中或不能在一些实施例中与其他要素结合。

此外，在附图中，连接要素(诸如实线或虚线或箭头等)用于例示两个或多于两个其他示意要素之间或之中的连接、关系或关联，没有任何此类连接要素并不意在意味着不能存在连接、关系或关联。换句话说，要素之间的一些连接、关系或关联未在附图中例示，以便不使本公开内容模糊。此外，为了便于例示，可以使用单个连接要素来表示要素之间的多个连接、关系或关联。例如，如果连接要素表示信号、数据或指令(例如，“软件指令”)的通信，本领域技术人员应理解，这种要素可以表示影响通信可能需要的一个或多于一个信号路径(例如，总线)。

尽管使用术语“第一”、“第二”和/或“第三”等来描述各种要素，但这些要素不应受这些术语的限制。术语“第一”、“第二”和/或第三”仅用于区分一个要素与另一要素。例如，在没有背离所描述的实施例的范围的情况下，第一触点可被称为第二触点，并且类似地，第二触点可被称为第一触点。第一触点和第二触点这两者都是触点，但它们不是相同的触点。

在本文所描述的各种实施例的说明书中使用的术语仅是为了描述特定实施例的目的而包括的，而不是意在限制。如在所描述的各种实施例的说明书和所附权利要求书中所使用的，单数形式“a”、“an”和“the”也意在包括复数形式，并且可以与“一个或多于一个”或者“至少一个”互换使用，除非上下文另有明确说明。还将理解的是，如本文所使用的术语“和/或”是指并且包括关联的列出项中的一个或多于一个的任何和所有可能的组合。还将理解的是，当在本说明书中使用术语“包括”、“包含”、“具备”和/或“具有”时，具体说明存在所陈述的特征、整数、步骤、操作、要素和/或组件，但并不排除存在或添加一个或多于一个其他特征、整数、步骤、操作、要素、组件和/或其群组。

如本文所使用的，术语“通信”和“进行通信”是指信息(或者由例如数据、信号、消息、指令和/或命令等表示的信息)的接收、收到、传输、传送和/或提供等中的至少一者。对于要与另一单元进行通信的一个单元(例如，装置、系统、装置或系统的组件、以及/或者它们的组合等)而言，这意味着该一个单元能够直接地或间接地从另一单元接收信息和/或向该另一单元发送(例如，传输)信息。这可以是指本质上为有线和/或无线的直接或间接连接。另外，即使可以在第一单元和第二单元之间修改、处理、中继和/或路由所传输的信息，两个单元也可以彼此进行通信。例如，即使第一单元被动地接收信息并且不主动地向第二单元传输信息，第一单元也可以与第二单元进行通信。作为另一示例，如果至少一个中介单元(例如，位于第一单元和第二单元之间的第三单元)处理从第一单元接收到的信息、并将处理后的信息传输至第二单元，则第一单元可以与第二单元进行通信。在一些实施例中，消息可以是指包括数据的网络分组(例如，数据分组等)。

如本文所使用的，取决于上下文，术语“如果”可选地被解释为意指“当…时”、“在…时”、“响应于确定为”和/或“响应于检测到”等。类似地，取决于上下文，短语“如果已确定”或“如果检测到[所陈述的条件或事件]”可选地被解释为意指“在确定…时”、“响应于确定为“或”在检测到[所陈述的条件或事件]时”和/或“响应于检测到[所陈述的条件或事件]”等。此外，如本文所使用的，术语“有”、“具有”或“拥有”等旨在是开放式术语。此外，除非另有明确说明，否则短语“基于”意在是意味着“至少部分基于”。

现在将详细参考实施例，其示例在附图中例示出。在以下的详细描述中，阐述了许多具体细节，以便提供对所描述的各种实施例的透彻理解。然而，对于本领域的普通技术人员来说将明显的是，可以在没有这些具体细节的情况下实施所描述的各种实施例。在其他情况下，尚未详细描述众所周知的方法、过程、组件、电路和网络，以便不会不必要地使实施例的方面模糊。

总体概述

在一些方面和/或实施例中，本文所述的系统、方法和计算机程序产品包括和/或实现语义标注系统。运载工具(例如，自主运载工具)包括用于监控与运载工具相关联的各种参数的传感器。例如，诸如照相机和LiDAR传感器等的一些传感器检测在运载工具的环境中的对象(诸如其他运载工具、行人、路灯、地标和可驾驶路面等)的存在。各个传感器将所收集的数据传输到运载工具的监控器和/或(一个或多于一个)控制系统。使用从这些传感器的组合接收到的数据，(一个或多于一个)控制系统可以预测所检测到的对象的标签，这些标签可以用于生成或更新运载工具的环境的地图。例如，可以与从LiDAR传感器记录的原始数据结合来增强并使用来自照相机的图像，以预测用于地图生成的语义标签。

借助本文所述的系统、方法和计算机程序产品的实现，提供了用于地图构建中的增强语义标注的多模态分割网络的技术。所描述的技术的一些优点包括使用诸如LiDAR传感器和照相机等的多个传感器模态以提供稳健的语义标签预测。例如，来自LiDAR传感器的原始点特征可以与基于增强照相机图像所生成的丰富点特征进行组合。基于原始点特征和丰富点特征的组合所预测的语义标签可以进而用于生成更清晰、更高效的地图或LiDAR点云信息。

现在参考图1，例示示例环境100，在该示例环境100中，包括自主系统的运载工具以及不包括自主系统的运载工具进行操作。如所例示的，环境100包括运载工具102a-102n、对象104a-104n、路线106a-106n、区域108、运载工具到基础设施(V2I)装置110、网络112、远程自主运载工具(AV)系统114、队列管理系统116、V2I系统118和语义标注系统600。运载工具102a-102n、运载工具到基础设施(V2I)装置110、网络112、语义标注系统600、自主运载工具(AV)系统114、队列管理系统116和V2I系统118经由有线连接、无线连接、或者有线或无线连接的组合互连(例如，建立用于通信的连接等)。在一些实施例中，对象104a-104n经由有线连接、无线连接、或者有线或无线连接的组合与运载工具102a-102n、运载工具到基础设施(V2I)装置110、网络112、自主运载工具(AV)系统114、队列管理系统116和V2I系统118中的至少一者互连。

运载工具102a-102n(单独称为运载工具102且统称为运载工具102)包括被配置为运输货物和/或人员的至少一个装置。在一些实施例中，运载工具102被配置为与V2I装置110、远程AV系统114、队列管理系统116和/或V2I系统118经由网络112进行通信。在一些实施例中，运载工具102包括小汽车、公共汽车、卡车和/或火车等。在一些实施例中，运载工具102与本文所述的运载工具200(参见图2)相同或类似。在一些实施例中，一组运载工具200中的运载工具200与自主队列管理器相关联。在一些实施例中，如本文所述，运载工具102沿着相应的路线106a-106n(单独称为路线106且统称为路线106)行驶。在一些实施例中，一个或多于一个运载工具102包括自主系统(例如，与自主系统202相同或类似的自主系统)。

对象104a-104n(单独称为对象104且统称为对象104)例如包括至少一个运载工具、至少一个行人、至少一个骑车者和/或至少一个构造物(例如，建筑物、标志、消防栓等)等。各对象104(例如，位于固定地点处并在一段时间内)是静止的或(例如，具有速度且与至少一个轨迹相关联地)移动。在一些实施例中，对象104与区域108中的相应地点相关联。

路线106a-106n(单独称为路线106且统称为路线106)各自与连接AV可以导航所沿着的状态的一系列动作(也称为轨迹)相关联(例如，规定该一系列动作)。各个路线106始于初始状态(例如，与第一时空地点和/或速度等相对应的状态)，并且结束于最终目标状态(例如，与不同于第一时空地点的第二时空地点相对应的状态)或目标区(例如，可接受状态(例如，终止状态)的子空间)。在一些实施例中，第一状态包括一个或多于一个个体将要搭载AV的地点，并且第二状态或区包括搭载AV的一个或多于一个个体将要下车的一个或多于一个地点。在一些实施例中，路线106包括多个可接受的状态序列(例如，多个时空地点序列)，这多个状态序列与多个轨迹相关联(例如，限定多个轨迹)。在示例中，路线106仅包括高级别动作或不精确的状态地点，诸如指示在车行道交叉口处转换方向的一系列连接道路等。附加地或可替代地，路线106可以包括更精确的动作或状态，诸如例如车道区域内的特定目标车道或精确地点以及这些位置处的目标速率等。在示例中，路线106包括沿着具有到达中间目标的有限前瞻视界的至少一个高级别动作的多个精确状态序列，其中有限视界状态序列的连续迭代的组合累积地与共同形成在最终目标状态或区处终止的高级别路线的多个轨迹相对应。

区域108包括运载工具102可以导航的物理区域(例如，地理区)。在示例中，区域108包括至少一个州(例如，国家、省、国家中所包括的多个州中的单独州等)、州的至少一部分、至少一个城市、城市的至少一部分等。在一些实施例中，区域108包括至少一个已命名干道(本文称为“道路”)，诸如公路、州际公路、公园道路、城市街道等。附加地或可替代地，在一些示例中，区域108包括至少一个未命名道路，诸如行车道、停车场的一段、空地和/或未开发地区的一段、泥路等。在一些实施例中，道路包括至少一个车道(例如，道路的运载工具102可以穿过的部分)。在示例中，道路包括与至少一个车道标记相关联的(例如，基于至少一个车道标记所识别的)至少一个车道。

运载工具到基础设施(V2I)装置110(有时称为运载工具到万物(Vehicle-to-Everything)(V2X)装置)包括被配置为与运载工具102和/或V2I基础设施系统118进行通信的至少一个装置。在一些实施例中，V2I装置110被配置为与运载工具102、远程AV系统114、队列管理系统116和/或V2I系统118经由网络112进行通信。在一些实施例中，V2I装置110包括射频识别(RFID)装置、标牌、照相机(例如，二维(2D)和/或三维(3D)照相机)、车道标记、路灯、停车计时器等。在一些实施例中，V2I装置110被配置为直接与运载工具102进行通信。附加地或可替代地，在一些实施例中，V2I装置110被配置为与运载工具102、远程AV系统114和/或队列管理系统116经由V2I系统118进行通信。在一些实施例中，V2I装置110被配置为与V2I系统118经由网络112进行通信。

网络112包括一个或多于一个有线和/或无线网络。在示例中，网络112包括蜂窝网络(例如，长期演进(LTE)网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网(例如，公共交换电话网(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络、云计算网络等、以及/或者这些网络中的一部分或全部的组合等。

远程AV系统114包括被配置为与运载工具102、V2I装置110、网络112、队列管理系统116和/或V2I系统118经由网络112进行通信的至少一个装置。在示例中，远程AV系统114包括服务器、服务器组和/或其他类似装置。在一些实施例中，远程AV系统114与队列管理系统116位于同一位置。在一些实施例中，远程AV系统114参与运载工具的组件(包括自主系统、自主运载工具计算和/或由自主运载工具计算实现的软件等)中的一部分或全部的安装。在一些实施例中，远程AV系统114在运载工具的寿命期间维护(例如，更新和/或更换)这些组件和/或软件。

队列管理系统116包括被配置为与运载工具102、V2I装置110、远程AV系统114和/或V2I基础设施系统118进行通信的至少一个装置。在示例中，队列管理系统116包括服务器、服务器组和/或其他类似装置。在一些实施例中，队列管理系统116与拼车公司(例如，用于控制多个运载工具(例如，包括自主系统的运载工具和/或不包括自主系统的运载工具)的操作等的组织)相关联。

在一些实施例中，V2I系统118包括被配置为与运载工具102、V2I装置110、远程AV系统114和/或队列管理系统116经由网络112进行通信的至少一个装置。在一些示例中，V2I系统118被配置为与V2I装置110经由不同于网络112的连接进行通信。在一些实施例中，V2I系统118包括服务器、服务器组和/或其他类似装置。在一些实施例中，V2I系统118与市政当局或私营机构(例如，用于维护V2I装置110的私营机构等)相关联。

提供图1所例示的要素的数量和布置作为示例。与图1例示的要素相比，可以存在附加的要素、更少的要素、不同的要素和/或不同布置的要素。附加地或可替代地，环境100的至少一个要素可以进行被描述为由图1的至少一个不同要素进行的一个或多于一个功能。附加地或可替代地，环境100的至少一组要素可以进行被描述为由环境100的至少一个不同组的要素进行的一个或多于一个功能。

现在参考图2，运载工具200包括自主系统202、动力总成控制系统204、转向控制系统206和制动系统208。在一些实施例中，运载工具200与运载工具102(参见图1)相同或类似。在一些实施例中，运载工具200具有自主能力(例如，实现如下的至少一个功能、特征和/或装置等，该至少一个功能、特征和/或装置使得运载工具200能够在无人类干预的情况下部分地或完全地操作，其包括但不限于完全自主运载工具(例如，放弃依赖人类干预的运载工具)和/或高度自主运载工具(例如，在某些情形下放弃依赖人类干预的运载工具)等)。对于完全自主运载工具和高度自主运载工具的详细描述，可以参考SAE国际标准J3016:道路上机动车自动驾驶系统相关术语的分类和定义(SAE International's standard J3016:Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle AutomatedDriving Systems)，其全部内容通过引用而被包含。在一些实施例中，运载工具200与自主队列管理器和/或拼车公司相关联。

自主系统202包括传感器套件，该传感器套件包括诸如照相机202a、LiDAR传感器202b、雷达(radar)传感器202c和麦克风202d等的一个或多于一个装置。在一些实施例中，自主系统202可以包括更多或更少的装置和/或不同的装置(例如，超声波传感器、惯性传感器、(以下论述的)GPS接收器、以及/或者用于生成与运载工具200已行驶的距离的指示相关联的数据的里程计传感器等)。在一些实施例中，自主系统202使用自主系统202中所包括的一个或多于一个装置来生成与本文所述的环境100相关联的数据。由自主系统202的一个或多于一个装置生成的数据可以由本文所述的一个或多于一个系统使用以观测运载工具200所位于的环境(例如，环境100)。在一些实施例中，自主系统202包括通信装置202e、自主运载工具计算202f和安全控制器202g。

照相机202a包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如，与图3的总线302相同或类似的总线)进行通信的至少一个装置。照相机202a包括用以捕获包括物理对象(例如，小汽车、公共汽车、路缘和/或人员等)的图像的至少一个照相机(例如，使用诸如电荷耦合器件(CCD)等的光传感器的数字照相机、热照相机、红外(IR)照相机和/或事件照相机等)。在一些实施例中，照相机202a生成照相机数据作为输出。在一些示例中，照相机202a生成包括与图像相关联的图像数据的照相机数据。在该示例中，图像数据可以指定与图像相对应的至少一个参数(例如，诸如曝光、亮度等的图像特性、以及/或者图像时间戳等)。在这样的示例中，图像可以采用格式(例如，RAW、JPEG和/或PNG等)。在一些实施例中，照相机202a包括配置在(例如，定位在)运载工具上以为了立体影像(立体视觉)的目的而捕获图像的多个独立照相机。在一些示例中，照相机202a包括生成图像数据并将该图像数据传输到自主运载工具计算202f、语义标注系统(例如，与图5至图7中的语义标注系统600相同或类似的语义标注系统)和/或队列管理系统(例如，与图1的队列管理系统116相同或类似的队列管理系统)的多个照相机。在这样的示例中，自主运载工具计算202f基于来自至少两个照相机的图像数据来确定多个照相机中的至少两个照相机的视场中的到一个或多于一个对象的深度。在一些实施例中，照相机202a被配置为捕获在相对于照相机202a的距离(例如，高达100米和/或高达1千米等)内的对象的图像。因此，照相机202a包括为了感知在相对于照相机202a一个或多于一个距离处的对象而优化的诸如传感器和镜头等的特征。

在实施例中，照相机202a包括被配置为捕获与一个或多于一个交通灯、街道标志和/或提供视觉导航信息的其他物理对象相关联的一个或多于一个图像的至少一个照相机。在一些实施例中，照相机202a生成与一个或多于一个图像相关联的交通灯数据。在一些示例中，照相机202a生成与包括格式(例如，RAW、JPEG和/或PNG等)的一个或多于一个图像相关联的TLD数据。在一些实施例中，生成TLD数据的照相机202a与本文所述的包含照相机的其他系统的不同之处在于：照相机202a可以包括具有宽视场(例如，广角镜头、鱼眼镜头、以及/或者具有约120度或更大的视角的镜头等)的一个或多于一个照相机，以生成与尽可能多的物理对象有关的图像。

激光检测和测距(LiDAR)传感器202b包括被配置为与通信装置202e、自主运载工具计算202f、安全控制器202g和/或语义标注系统600经由总线(例如，与图3的总线302相同或类似的总线)进行通信的至少一个装置。LiDAR传感器202b包括被配置为从发光器(例如，激光发射器)发射光的系统。由LiDAR传感器202b发射的光包括在可见光谱之外的光(例如，红外光等)。在一些实施例中，在操作期间，由LiDAR传感器202b发射的光遇到物理对象(例如，运载工具)并被反射回到LiDAR传感器202b。在一些实施例中，由LiDAR传感器202b发射的光不会穿透该光遇到的物理对象。LiDAR传感器202b还包括至少一个光检测器，该至少一个光检测器在从发光器发射的光遇到物理对象之后检测到该光。在一些实施例中，与LiDAR传感器202b相关联的至少一个数据处理系统生成表示LiDAR传感器202b的视场中所包括的对象的图像(例如，点云和/或组合点云等)。在一些示例中，与LiDAR传感器202b相关联的至少一个数据处理系统生成表示物理对象的边界和/或物理对象的表面(例如，表面的拓扑结构)等的图像。在这样的示例中，该图像用于确定LiDAR传感器202b的视场中的物理对象的边界。

无线电检测和测距(雷达)传感器202c包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如，与图3的总线302相同或类似的总线)进行通信的至少一个装置。雷达传感器202c包括被配置为发射(脉冲的或连续的)无线电波的系统。由雷达传感器202c发射的无线电波包括预先确定的频谱内的无线电波。在一些实施例中，在操作期间，由雷达传感器202c发射的无线电波遇到物理对象并被反射回到雷达传感器202c。在一些实施例中，由雷达传感器202c发射的无线电波未被一些对象反射。在一些实施例中，与雷达传感器202c相关联的至少一个数据处理系统生成表示雷达传感器202c的视场中所包括的对象的信号。例如，与雷达传感器202c相关联的至少一个数据处理系统生成表示物理对象的边界和/或物理对象的表面(例如，表面的拓扑结构)等的图像。在一些示例中，该图像用于确定雷达传感器202c的视场中的物理对象的边界。

麦克风202d包括被配置为与通信装置202e、自主运载工具计算202f和/或安全控制器202g经由总线(例如，与图3的总线302相同或类似的总线)进行通信的至少一个装置。麦克风202d包括捕获音频信号并生成与该音频信号相关联(例如，表示该音频信号)的数据的一个或多于一个麦克风(例如，阵列麦克风和/或外部麦克风等)。在一些示例中，麦克风202d包括变换器装置和/或类似装置。在一些实施例中，本文所述的一个或多于一个系统可以接收由麦克风202d生成的数据，并基于与该数据相关联的音频信号来确定对象相对于运载工具200的位置(例如，距离等)。

通信装置202e包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、自主运载工具计算202f、安全控制器202g和/或线控(DBW)系统202h进行通信的至少一个装置。例如，通信装置202e可以包括与图3的通信接口314相同或类似的装置。在一些实施例中，通信装置202e包括运载工具到运载工具(V2V)通信装置(例如，用于实现运载工具之间的数据的无线通信的装置)。

自主运载工具计算202f包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、通信装置202e、安全控制器202g和/或DBW系统202h进行通信的至少一个装置。在一些示例中，自主运载工具计算202f包括诸如客户端装置、移动装置(例如，蜂窝电话和/或平板电脑等)和/或服务器(例如，包括一个或多于一个中央处理单元和/或图形处理单元等的计算装置)等的装置。在一些实施例中，自主运载工具计算202f与本文所述的自主运载工具计算400相同或类似。附加地或可替代地，在一些实施例中，自主运载工具计算202f被配置为与自主运载工具系统(例如，与图1的远程AV系统114相同或类似的自主运载工具系统)、队列管理系统(例如，与图1的队列管理系统116相同或类似的队列管理系统)、V2I装置(例如，与图1的V2I装置110相同或类似的V2I装置)和/或V2I系统(例如，与图1的V2I系统118相同或类似的V2I系统)进行通信。

安全控制器202g包括被配置为与照相机202a、LiDAR传感器202b、雷达传感器202c、麦克风202d、通信装置202e、自主运载工具计算202f和/或DBW系统202h进行通信的至少一个装置。在一些示例中，安全控制器202g包括被配置为生成和/或传输控制信号以操作运载工具200的一个或多于一个装置(例如，动力总成控制系统204、转向控制系统206和/或制动系统208等)的一个或多于一个控制器(电气控制器和/或机电控制器等)。在一些实施例中，安全控制器202g被配置为生成优先于(例如，覆盖)由自主运载工具计算202f生成和/或传输的控制信号的控制信号。

DBW系统202h包括被配置为与通信装置202e和/或自主运载工具计算202f进行通信的至少一个装置。在一些示例中，DBW系统202h包括被配置为生成和/或传输控制信号以操作运载工具200的一个或多于一个装置(例如，动力总成控制系统204、转向控制系统206和/或制动系统208等)的一个或多于一个控制器(例如，电气控制器和/或机电控制器等)。附加地或可替代地，DBW系统202h的一个或多于一个控制器被配置为生成和/或传输控制信号以操作运载工具200的至少一个不同的装置(例如，转向信号灯、前灯、门锁和/或挡风玻璃雨刮器等)。

动力总成控制系统204包括被配置为与DBW系统202h进行通信的至少一个装置。在一些示例中，动力总成控制系统204包括至少一个控制器和/或致动器等。在一些实施例中，动力总成控制系统204从DBW系统202h接收控制信号，并且动力总成控制系统204使运载工具200开始向前移动、停止向前移动、开始向后移动、停止向后移动、沿某方向加速、沿某方向减速、进行左转和/或进行右转等。在示例中，动力总成控制系统204使提供至运载工具的马达的能量(例如，燃料和/或电力等)增加、保持相同或减少，由此使运载工具200的至少一个轮旋转或不旋转。

转向控制系统206包括被配置为使运载工具200的一个或多于一个轮旋转的至少一个装置。在一些示例中，转向控制系统206包括至少一个控制器和/或致动器等。在一些实施例中，转向控制系统206使运载工具200的两个前轮和/或两个后轮向左或向右旋转，以使运载工具200左转或右转。

制动系统208包括被配置为使一个或多于一个制动器致动以使运载工具200减速和/或保持静止的至少一个装置。在一些示例中，制动系统208包括被配置为使与运载工具200的一个或多于一个轮相关联的一个或多于一个卡钳在运载工具200的相应转子上闭合的至少一个控制器和/或致动器。附加地或可替代地，在一些示例中，制动系统208包括自动紧急制动(AEB)系统和/或再生制动系统等。

在一些实施例中，运载工具200包括用于测量或推断运载工具200的状态或条件的性质的至少一个平台传感器(未明确例示出)。在一些示例中，运载工具200包括诸如全球定位系统(GPS)接收器、惯性测量单元(IMU)、轮速率传感器、轮制动压力传感器、轮转矩传感器、引擎转矩传感器和/或转向角传感器等的平台传感器。

现在参考图3，例示装置300的示意图。如所例示的，装置300包括处理器304、存储器306、存储组件308、输入接口310、输出接口312、通信接口314和总线302。如图3所示，装置300包括总线302、处理器304、存储器306、存储组件308、输入接口310、输出接口312和通信接口314。

总线302包括许可装置300的组件之间的通信的组件。在一些实施例中，处理器304以硬件、软件、或者硬件和软件的组合来实现。在一些示例中，处理器304包括处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)和/或加速处理单元(APU)等)、麦克风、数字信号处理器(DSP)、以及/或者可被编程为进行至少一个功能的任意处理组件(例如，现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)等)。存储器306包括随机存取存储器(RAM)、只读存储器(ROM)、以及/或者存储供处理器304使用的数据和/或指令的另一类型的动态和/或静态存储装置(例如，闪速存储器、磁存储器和/或光存储器等)。

存储组件308存储与装置300的操作和使用相关的数据和/或软件。在一些示例中，存储组件308包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘等)、紧凑盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带、CD-ROM、RAM、PROM、EPROM、FLASH-EPROM、NV-RAM和/或另一类型的计算机可读介质、以及相应的驱动器。

输入接口310包括许可装置300诸如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风和/或照相机等)等接收信息的组件。附加地或可替代地，在一些实施例中，输入接口310包括用于感测信息的传感器(例如，全球定位系统(GPS)接收器、加速度计、陀螺仪和/或致动器等)。输出接口312包括用于提供来自装置300的输出信息的组件(例如，显示器、扬声器和/或一个或多于一个发光二极管(LED)等)。

在一些实施例中，通信接口314包括许可装置300与其他装置经由有线连接、无线连接、或者有线连接和无线连接的组合进行通信的类似收发器那样的组件(例如，收发器和/或单独的接收器和发射器等)。在一些示例中，通信接口314许可装置300从另一装置接收信息和/或向另一装置提供信息。在一些示例中，通信接口314包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、

接口和/或蜂窝网络接口等。

在一些实施例中，装置300进行本文所述的一个或多于一个处理。装置300基于处理器304执行由诸如存储器305和/或存储组件308等的计算机可读介质所存储的软件指令来进行这些处理。计算机可读介质(例如，非暂时性计算机可读介质)在本文被限定为非暂时性存储器装置。非暂时性存储器装置包括位于单个物理存储装置内的存储空间或跨多个物理存储装置分布的存储空间。

在一些实施例中，经由通信接口314从另一计算机可读介质或从另一装置将软件指令读取到存储器306和/或存储组件308中。存储器306和/或存储组件308中所存储的软件指令在执行时，使处理器304进行本文所述的一个或多于一个处理。附加地或可替代地，代替软件指令或与软件指令组合使用硬连线电路以进行本文所述的一个或多于一个处理。因此，除非另外明确说明，否则本文所描述的实施例不限于硬件电路和软件的任何特定组合。

存储器306和/或存储组件308包括数据存储部或至少一个数据结构(例如，数据库等)。装置300能够从存储器306或存储组件308中的数据存储部或至少一个数据结构接收信息，将信息存储在该数据存储部或至少一个数据结构中，将信息通信至该数据存储部或至少一个数据结构，或者搜索该数据存储部或至少一个数据结构中所存储的信息。在一些示例中，该信息包括网络数据、输入数据、输出数据或其任何组合。

在一些实施例中，装置300被配置为执行存储在存储器306和/或另一装置(例如，与装置300相同或类似的另一装置)的存储器中的软件指令。如本文所使用的，术语“模块”是指存储器306和/或另一装置的存储器中所存储的至少一个指令，该至少一个指令在由处理器304和/或另一装置(例如，与装置300相同或类似的另一装置)的处理器执行时，使装置300(例如，装置300的至少一个组件)进行本文所述的一个或多于一个处理。在一些实施例中，模块以软件、固件和/或硬件等来实现。

提供图3所例示的组件的数量和布置作为示例。在一些实施例中，与图3所例示的组件相比，装置300可以包括附加的组件、更少的组件、不同的组件或不同布置的组件。附加地或可替代地，装置300的一组组件(例如，一个或多于一个组件)可以进行被描述为由装置300的另一组件或另一组组件进行的一个或多于一个功能。

现在参考图4A，例示出自主运载工具计算400(有时称为“AV堆栈”)的示例框图。如所例示的，自主运载工具计算400包括感知系统402(有时称为感知模块)、规划系统404(有时称为规划模块)、定位系统406(有时称为定位模块)、控制系统408(有时称为控制模块)和数据库410。在一些实施例中，感知系统402、规划系统404、定位系统406、控制系统408和数据库410包括在运载工具的自动导航系统(例如，运载工具200的自主运载工具计算202f)中和/或在该自动导航系统中实现。附加地或可替代地，在一些实施例中，感知系统402、规划系统404、定位系统406、控制系统408和数据库410包括在一个或多于一个独立系统(例如，与自主运载工具计算400相同或类似的一个或多于一个系统等)中。在一些示例中，感知系统402、规划系统404、定位系统406、控制系统408和数据库410包括在位于运载工具中的一个或多于一个独立系统以及/或者如本文所述的至少一个远程系统中。在一些实施例中，自主运载工具计算400中所包括的系统中的任意和/或全部以软件(例如，存储器中所存储的软件指令)、计算机硬件(例如，通过微处理器、微控制器、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)等)、或者计算机软件和计算机硬件的组合来实现。还将理解，在一些实施例中，自主运载工具计算400被配置为与远程系统(例如，与远程AV系统114相同或类似的自主运载工具系统、与队列管理系统116相同或类似的队列管理系统116、以及/或者与V2I系统118相同或类似的V2I系统等)进行通信。

在一些实施例中，感知系统402接收与环境中的至少一个物理对象相关联的数据(例如，感知系统402检测至少一个物理对象所使用的数据)，并对该至少一个物理对象进行分类。在一些示例中，感知系统402接收由至少一个照相机(例如，照相机202a)捕获到的图像数据，该图像与该至少一个照相机的视场内的一个或多于一个物理对象相关联(例如，表示该一个或多于一个物理对象)。在这样的示例中，感知系统402基于物理对象(例如，自行车、运载工具、交通标志和/或行人等)的一个或多于一个分组来对至少一个物理对象进行分类。在一些实施例中，基于感知系统402对物理对象进行分类，感知系统402将与物理对象的分类相关联的数据传输到规划系统404。

在一些实施例中，规划系统404接收与目的地相关联的数据，并且生成与运载工具(例如，运载工具102)可以朝向目的地行驶所沿着的至少一个路线(例如，路线106)相关联的数据。在一些实施例中，规划系统404定期地或连续地从感知系统402接收数据(例如，上述的与物理对象的分类相关联的数据)，并且规划系统404基于感知系统402所生成的数据来更新至少一个轨迹或生成至少一个不同轨迹。在一些实施例中，规划系统404从定位系统406接收与运载工具(例如，运载工具102)的更新位置相关联的数据，并且规划系统404基于定位系统406所生成的数据来更新至少一个轨迹或生成至少一个不同轨迹。

在一些实施例中，定位系统406接收与运载工具(例如，运载工具102)在区域中的地点相关联(例如，表示该地点)的数据。在一些示例中，定位系统406接收与至少一个LiDAR传感器(例如，LiDAR传感器202b)所生成的至少一个点云相关联的LiDAR数据。在某些示例中，定位系统406从多个LiDAR传感器接收与至少一个点云相关联的数据，并且定位系统406基于各个点云来生成组合点云。在这些示例中，定位系统406将该至少一个点云或组合点云与数据库410中所存储的区域的二维(2D)和/或三维(3D)地图进行比较。然后，基于定位系统406将至少一个点云或组合点云与地图进行比较，定位系统406确定运载工具在区域中的位置。在一些实施例中，地图包括运载工具的导航之前生成的该区域的组合点云。在一些实施例中，地图包括但不限于车行道几何性质的高精度地图、描述道路网连接性质的地图、描述车行道物理性质(诸如交通速率、交通流量、运载工具和自行车交通车道的数量、车道宽度、车道交通方向或车道标记的类型和地点、或者它们的组合等)的地图、以及描述道路特征(诸如人行横道、交通标志或各种类型的其他行驶信号灯等)的空间地点的地图。在一些实施例中，基于感知系统所接收到的数据来实时地生成地图。

在另一示例中，定位系统406接收由全球定位系统(GPS)接收器所生成的全球导航卫星系统(GNSS)数据。在一些示例中，定位系统406接收与运载工具在区域中的地点相关联的GNSS数据，并且定位系统406确定运载工具在区域中的纬度和经度。在这样的示例中，定位系统406基于运载工具的纬度和经度来确定运载工具在区域中的位置。在一些实施例中，定位系统406生成与运载工具的位置相关联的数据。在一些示例中，基于定位系统406确定运载工具的位置，定位系统406生成与运载工具的位置相关联的数据。在这样的示例中，与运载工具的位置相关联的数据包括与对应于运载工具的位置的一个或多于一个语义性质相关联的数据。

在一些实施例中，控制系统408从规划系统404接收与至少一个轨迹相关联的数据，并且控制系统408控制运载工具的操作。在一些示例中，控制系统408从规划系统404接收与至少一个轨迹相关联的数据，并且控制系统408通过生成并传输控制信号以使动力总成控制系统(例如，DBW系统202h和/或动力总成控制系统204等)、转向控制系统(例如，转向控制系统206)和/或制动系统(例如，制动系统208)进行操作，来控制运载工具的操作。在示例中，在轨迹包括左转的情况下，控制系统408传输控制信号以使转向控制系统206调整运载工具200的转向角，由此使运载工具200左转。附加地或可替代地，控制系统408生成并传输控制信号以使运载工具200的其他装置(例如，前灯、转向信号灯、门锁和/或挡风玻璃雨刮器等)改变状态。

在一些实施例中，感知系统402、规划系统404、定位系统406、控制系统408和/或语义标注系统600(参见图5至图7)实现至少一个机器学习模型(例如，至少一个多层感知器(MLP)、至少一个卷积神经网络(CNN)、至少一个递归神经网络(RNN)、至少一个自动编码器和/或至少一个变换器等)。在一些示例中，感知系统402、规划系统404、定位系统406、控制系统408和/或语义标注系统600单独地或与上述系统中的一个或多于一个结合地实现至少一个机器学习模型。在一些示例中，感知系统402、规划系统404、定位系统406、控制系统408和/或语义标注系统600实现至少一个机器学习模型作为管道(例如，用于识别位于环境中的一个或多于一个对象的管道等)的一部分。以下关于图4B包括机器学习模型的实现的示例。

数据库410存储传输至感知系统402、规划系统404、定位系统406、控制系统408和/或语义标注系统600的、从其接收到的、以及/或者由其更新的数据。在一些示例中，数据库410包括用于存储与操作相关的数据和/或软件、并使用自主运载工具计算400的至少一个系统的存储组件(例如，与图3的存储组件308相同或类似的存储组件)。在一些实施例中，数据库410存储与至少一个区域的2D和/或3D地图相关联的数据。在一些示例中，数据库410存储与城市的一部分、多个城市的多个部分、多个城市、县、州和/或国家(State)(例如，国家)等的2D和/或3D地图相关联的数据。在这样的示例中，运载工具(例如，与运载工具102和/或运载工具200相同或类似的运载工具)可以沿着一个或多于一个可驾驶区(例如，单车道道路、多车道道路、高速公路、偏僻道路和/或越野道路等)驾驶，并且使至少一个LiDAR传感器(例如，与LiDAR传感器202b相同或类似的LiDAR传感器)生成与表示该至少一个LiDAR传感器的视场中所包括的对象的图像相关联的数据。

在一些实施例中，数据库410可以跨多个装置来实现。在一些示例中，数据库410包括在运载工具(例如，与运载工具102和/或运载工具200相同或类似的运载工具)、自主运载工具系统(例如，与远程AV系统114相同或类似的自主运载工具系统)、队列管理系统(例如，与图1的队列管理系统116相同或类似的队列管理系统)中和/或V2I系统(例如，与图1的V2I系统118相同或类似的V2I系统)等中。

现在参考图4B，例示机器学习模型的实现的图。更具体地，例示卷积神经网络(CNN)420的实现的图。为了说明的目的，CNN 420的以下说明将关于通过感知系统402实现CNN 420。然而，将理解，在一些示例中，CNN 420(例如，CNN 420的一个或多于一个组件)由不同于感知系统402的或除感知系统402之外的其他系统(诸如规划系统404、定位系统406、控制系统408和/或语义标注系统600等)来实现。尽管CNN 420包括如本文所述的某些特征，但这些特征是为了说明的目的而提供的，并且不旨在限制本公开。

CNN 420包括包含第一卷积层422、第二卷积层424和卷积层426的多个卷积层。在一些实施例中，CNN 420包括子采样层428(有时称为池化层)。在一些实施例中，子采样层428和/或其他子采样层具有比上游系统的维度(即，节点的量)小的维度。借助于具有比上游层的维度小的维度的子采样层428，CNN 420合并与上游层的初始输入和/或输出相关联的数据量，由此减少CNN420进行下游卷积运算所需的计算量。附加地或可替代地，借助于子采样层428与至少一个子采样函数相关联(例如，被配置为进行至少一个子采样函数)，CNN420合并与初始输入相关联的数据量。

基于感知系统402提供与第一卷积层422、第二卷积层424和卷积层426各自相关联的相应输入和/或输出以生成相应输出，感知系统402进行卷积运算。在一些示例中，基于感知系统402将数据作为输入提供至第一卷积层422、第二卷积层424和卷积层426，感知系统402实现CNN 420。在这样的示例中，基于感知系统402从一个或多于一个不同系统(例如，与运载工具102相同或相似的运载工具的一个或多于一个系统、与远程AV系统114相同或相似的远程AV系统、与队列管理系统116相同或相似的队列管理系统、以及/或者与V2I系统118相同或相似的V2I系统等)接收数据，感知系统402将数据作为输入提供至第一卷积层422、第二卷积层424和卷积层426。

在一些实施例中，感知系统402将与输入(称为初始输入)相关联的数据提供至第一卷积层422，并且感知系统402使用第一卷积层422生成与输出相关联的数据。在一些实施例中，感知系统402将由卷积层生成的输出作为输入提供至不同的卷积层。例如，感知系统402将第一卷积层422的输出作为输入提供至子采样层428、第二卷积层424和/或卷积层426。在这样的示例中，第一卷积层422被称为上游层，并且子采样层428、第二卷积层424和/或卷积层426被称为下游层。类似地，在一些实施例中，感知系统402将子采样层428的输出提供至第二卷积层424和/或卷积层426，并且在该示例中，子采样层428将被称为上游层，并且第二卷积层424和/或卷积层426将被称为下游层。

在一些实施例中，在感知系统402向CNN 420提供输入之前，感知系统402对与提供至CNN 420的输入相关联的数据进行处理。例如，基于感知系统402对传感器数据(例如，图像数据、LiDAR数据和/或雷达数据等)进行归一化，感知系统402对与提供至CNN 420的输入相关联的数据进行处理。

在一些实施例中，基于CNN 420进行与各个卷积层相关联的卷积运算，感知系统402生成输出。在一些示例中，基于感知系统402进行与各个卷积层和初始输入相关联的卷积运算，CNN 420生成输出。在一些实施例中，感知系统402生成输出并将该输出提供至全连接层430。在一些示例中，感知系统402将卷积层426的输出提供至全连接层430，其中全连接层430包括与被称为F1、F2、...、FN的多个特征值相关联的数据。在该示例中，卷积层426的输出包括与表示预测的多个输出特征值相关联的数据。

在一些实施例中，基于感知系统402识别与作为多个预测中的正确预测的最高可能性相关联的特征值，感知系统402从这多个预测中识别预测。例如，在全连接层430包括特征值F1、F2、...、FN并且F1是最大特征值的情况下，感知系统402将与F1相关联的预测识别为多个预测中的正确预测。在一些实施例中，感知系统402训练CNN 420以生成预测。在一些示例中，基于感知系统402将与预测相关联的训练数据提供至CNN 420，感知系统402训练CNN 420以生成预测。

现在参考图5至图7，例示用于地图构建中的增强语义标注的处理的实现601的图。在一些实施例中，实现601包括语义标注系统600、运载工具102a-102n和/或运载工具200、对象104a-104n、路线106a-106n、区域108、运载工具到基础设施(V2I)装置110、网络112、远程自主运载工具(AV)系统114、队列管理系统116和/或V2I系统118。在一些实施例中，语义标注系统600包括、形成以下的一部分、耦接到和/或使用：运载工具102a-102n和/或运载工具200、对象104a-104n、路线106a-106n、区域108、运载工具到基础设施(V2I)装置110、网络112、远程自主运载工具(AV)系统114、队列管理系统116和/或V2I系统118。

图5是实现601的图。如图5所示，语义标注系统600包括LiDAR分割网络614。LiDAR分割网络基于(例如，使用)多个模态来生成点级语义标签(point-level semantic label)650。多个模态包括来自照相机(例如，照相机202a)的图像数据和来自LiDAR传感器(例如，LiDAR传感器202b)的点云信息。多个模态可以附加地或可替代地包括来自耦接到运载工具的其他源和/或传感器的数据。基于多个模态所生成的点级语义标签650用于生成诸如LiDAR点云等的更清晰且更高效的地图。点级语义标签650包括接近运载工具的对象或环境的特定几何点的标签。点级语义标签650可以包括诸如路缘、人行横道、可驾驶路面、小汽车或其他运载工具、行人、路灯、地标、建筑物和/或人行道等的装置(furniture)标签。

语义标注系统600将点级语义标签650提供至地图构建引擎502。地图构建引擎502包括同步定位与地图构建(SLAM)引擎。换句话说，地图构建引擎502在跟踪运载工具(例如，运载工具200)在地图内的地点的同时构建和/或更新该地图。地图可以由LiDAR点云表示，该LiDAR点云具有与接近运载工具的对象有关的度量(例如，地点、方位等)信息和语义(例如，诸如小汽车、行人、自行车、路缘、可驾驶路面等的类别)信息。

地图包括高清(HD)地图504和语义地图506。HD地图504是示出运载工具(例如，运载工具200)周围的区域(例如，区域108)中的对象(例如，对象104)的几何地图。例如，几何地图可以示出路缘、交叉口、可驾驶路面、地标等。语义地图506包括诸如加阴影的或彩色多边形等的覆盖HD地图504的几何对象的语义多边形层(polygon layer)。语义多边形层将上下文(context)添加到HD地图504的几何形状，以辅助本文所描述的一个或多于一个系统检测并区分区域中的可驾驶路面与其他对象。

返回参考图5，地图构建引擎502使用点级语义标签650以在652处确定输入以高效且准确地生成HD地图504和语义地图506。在HD地图504和语义地图506的生成期间，地图构建引擎502将输入654提供(例如，传输)至HD地图504，并且将输入656提供(例如，传输)至语义地图506。输入654、656可以包括用以生成HD地图504和语义地图506的数据或由地图构建引擎502进行的动作。

例如，输入654、656可以包括从先前所生成的地图(诸如HD地图504或语义地图506等)中移除对象。从先前所生成的地图中移除对象可以包括从HD地图504和/或语义地图506中过滤出诸如运载工具等的动态对象。由于自主运载工具计算(例如，自主运载工具计算400)、远程AV系统114、队列管理系统116和/或V2I系统118等可能不使用动态对象来导航运载工具，因此可以移除动态对象。

附加地或可替代地，输入654、656可以包括检测HD地图504和/或语义地图506中的地标。在HD地图504和/或语义地图506的生成或更新期间，检测地标辅助环路闭合(loopclosure)。换句话说，检测诸如建筑物、交通标志和/或交通灯等的位于特定地点处的地标可以有助于确认出已经捕获到运载工具周围的和/或沿着路线的整个区域。

附加地或可替代地，输入654、656可以包括：在当前地图(诸如当前的HD地图504或语义地图506等)与先前地图(诸如先前的HD地图504或语义地图506等)之间进行语义一致性的比较。该比较确认语义(诸如语义多边形层等)在HD地图504和语义地图506的先前版本与当前版本之间是否一致。所检测到的在先前地图和当前地图之间的变化可以触发被配置为引起对数据库410中所存储的区域地图的更新的警报或信号。

附加地或可替代地，输入654、656可以包括对诸如HD地图504和/或语义地图506等的地图(例如，半自动地或自动地)进行注释。例如，地图构建引擎502可以基于(例如，使用)点级语义标签650来对地图中所示的点进行注释。

图6是包括用于地图构建中的增强语义标注的处理的实现601的另一图。语义标注系统600包括图像分割网络604、LiDAR点云612、点绘制(point painting)系统606、后处理系统610和LiDAR分割网络614。因此，如图6所示，语义标注系统600包括序列神经网络(例如，图像分割网络604和LiDAR分割网络614)，以预测点级语义标签650，从而高效且准确地生成地图。

参考图6，图像分割网络604接收与至少一个图像相关联的图像数据660。如关于图2所述，照相机202a(也在图6中示出)包括至少一个照相机(例如，使用诸如电荷耦合器件(CCD)等的光传感器的数字照相机、热照相机、红外(IR)照相机和/或事件照相机等)以捕获包括诸如小汽车、公共汽车、路缘、人员、路灯、地标和/或可驾驶路面等的对象(例如，至少一个对象)的图像(例如，至少一个图像)。在一些实施例中，照相机202a生成照相机数据作为输出。在一些示例中，照相机202a生成包括与图像相关联的图像数据的照相机数据。在该示例中，图像数据可以指定与图像相对应的至少一个参数(例如，诸如曝光、亮度等的图像特性和/或图像时间戳等)。在这样的示例中，图像可以采用格式(例如，RAW、JPEG和/或PNG等)。在一些示例中，图像数据附加地或可替代地包括与所捕获到的图像中的像素相关联的像素值或二维空间信息(诸如，x坐标和y坐标以及/或者至少一个颜色等)。照相机202a将图像数据提供(例如，传输)至图像分割网络604。例如，图像数据可以包括简化表示(诸如所捕获到的图像中的像素的坐标的向量等)。图像数据660的像素包括照相机220a所捕获到的图像的最小单位。

在662处，图像分割网络604从照相机202a接收图像数据660。图像分割网络604基于(例如，使用)图像数据660来生成(例如，预测)逐像素分割标签(Pixel-wisesegmentation label)664(例如，至少一个逐像素分割标签)。逐像素分割标签664包括针对图像数据660的像素的预测标签(诸如，小汽车、行人、自行车、路缘、可驾驶路面、颜色和/或掩蔽物等)。

在一些示例中，逐像素分割标签664表示为具有应用于与所捕获到的图像中的特定特征或对象相关联的像素的颜色的掩码(mask)。例如，逐像素分割标签664可以表示为具有应用于与第一对象类型(例如，小汽车、行人、自行车、路缘、可驾驶路面等)相关联的第一像素的第一颜色的掩码。其他逐像素分割标签664可以表示为具有应用于与第二对象类型(例如，小汽车、行人、自行车、路缘、可驾驶路面等)相关联的第二像素的第二颜色的掩码。在第二对象类型与第一对象类型不同的一些示例中，第一颜色可以与第二颜色不同。

再次参考图6，图像分割网络604包括诸如神经网络(例如，CNN 420和/或编码-解码神经网络等)、回归模型、基于实例的模型、正则化模型、决策树、随机森林、贝叶斯模型、聚类模型、关联性模型、降维模型和/或集成模型等的机器学习模型(例如，至少一个机器学习模型)。在图像分割网络604包括神经网络的示例中，神经网络可以包括经训练以从一个或多于一个先前层中提取特征作为数值的多个层。神经网络包括经训练以检测与像素相关联的对象类型的特征的一个或多于一个层。当图像通过足够的层时，神经网络可以最终输出逐像素分割标签664。

可以对图像分割网络604进行训练，以通过例如检测与图像数据的像素相关联的对象类型(例如，对象的类型)来分析来自照相机202a的图像和/或图像数据，从而生成逐像素分割标签664。可以对图像分割网络604进行训练，以通过至少使图像分割网络604经过监督学习来进行图像分析任务。

例如，可以对图像分割网络604进行训练以进行图像分类，该图像分类可以包括：将与图像所描绘的对象的像素的对象类型相对应的一个或多于一个标签(例如，逐像素分割标签664)分配给图像(例如，照相机所捕获到的图像)或图像的一部分(诸如像素等)。在一些示例中，对象类型包括小汽车、行人、自行车、路缘和/或驾驶路面。可以使用加标签的训练样本的训练集来训练图像分割网络604以获得最佳性能，加标签的训练样本各自包括图像以及与该图像所描绘的对象的像素的正确标签相对应的至少一个标签。此外，可以基于(例如，使用)从现实世界设置收集到的数据来更新图像分割网络604，该数据包括例如具有被指示为正确识别对象的对象类型的标签的图像。因此，可以对图像分割网络604进行训练来进行包括例如图像分割、回归和/或标注等的图像分析任务。如图6所示，图像分割网络604将至少一个图像(例如，照相机202a所捕获到的图像)和所生成的逐像素分割标签664提供(例如，传输)至点绘制系统606。

再次参考图6，与LiDAR传感器(例如，包括LiDAR传感器202b的至少一个LiDAR传感器)相关联的至少一个数据处理系统生成诸如LiDAR点云612等的图像。LiDAR点云612包括表示LiDAR传感器的视场中所包括的对象的点云和/或组合点云等。例如，LiDAR传感器检测从接近运载工具(例如，运载工具200)的对象(例如，至少一个对象)所反射的光(例如，紫外线、红外线或激光光谱的电磁辐射或者任何其他种类的电磁辐射)，并且基于所检测到的光来生成包括LiDAR点云信息674的LiDAR点云612。对象可以是照相机202a所捕获到的图像所描绘的对象。例如，对象包括其他运载工具、行人、路灯、地标、可驾驶路面、小汽车、行人、自行车、路缘。

LiDAR点云信息674包括诸如接近运载工具的对象或环境的几何点等的点的原始点特征(例如，至少一个原始点特征)。原始点特征由以下向量表示：<x坐标，y坐标，z坐标，强度，深度>。例如，原始点特征包括向量，该向量包括诸如x、y和z坐标等的空间信息、诸如所检测到的光的回波强度等的强度信息以及诸如距LiDAR传感器的距离等的深度信息。换句话说，原始点特征包括具有与如下项其中至少之一相对应的向量值的向量：与该点相关联的空间信息、与该点相关联的强度信息以及与该点相关联的深度信息。

返回参考图6，将包括该点的原始点特征的点云信息674提供(例如，传输)至点绘制系统606和/或LiDAR分割网络614。例如，点绘制系统606可以从LiDAR传感器接收该点的原始点特征。

点绘制系统606可以包括在自主运载工具计算400中。点绘制系统606以软件(例如，以存储器中所存储的软件指令)、计算机硬件(例如，通过微处理器、微控制器、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)等)或者计算机软件和计算机硬件的组合来实现。

在666处，点绘制系统606基于(例如使用)来自照相机202a的图像数据和/或该点的原始点特征来生成该点的丰富点特征(例如，至少一个丰富点特征)668。丰富点特征668可以表示为矩阵或向量。点绘制系统606可以使用丰富点特征生成工作流700(参见图7)来生成丰富点特征668。

参考图7，在702处，点绘制系统606接收与来自照相机202a的至少一个图像相关联的图像数据660以及LiDAR点云612的点云信息674。在704处，点绘制系统606将LiDAR点云信息674投影到像素(例如，由图像分割网络604预测逐像素分割标签664所针对的像素)上以生成增强像素676。将LiDAR点云信息674投影到像素上向照相机202a所捕获到的图像提供了附加的上下文，并且可以有助于以提高的准确度产生对象的标签。例如，图像包括二维图像。将LiDAR点云信息674投影到图像的像素上向图像中所描绘的对象提供了深度和空间信息。

在706处，点绘制系统606将来自图像分割网络604的逐像素分割标签664应用于增强像素676。通过将逐像素分割标签664应用于增强像素676，点绘制系统606可以确定逐像素分割标签664准确表示点的可能性。

例如，基于(例如，使用)逐像素分割标签664向增强像素676的应用，点绘制系统606可以生成丰富点特征668，如上所述，该丰富点特征668可以由具有与增强像素676和所应用的逐像素分割标签664相对应的向量值的向量来表示。向量值包括应用于增强像素676的逐像素分割标签664的预测评分。预测评分指示逐像素分割标签664与该点相对应的可能性。预测评分可以包括多个预测评分，并且在一些示例中，逐像素分割标签664包括多个逐像素分割标签664。在该示例中，多个预测评分中的各个预测评分表示多个逐像素分割标签中的关联逐像素分割标签与点相对应的可能性。

预测评分包括指示所预测的逐像素分割标签664正确识别对象类型(例如，0＝肯定不是特定对象类型，以及10＝肯定是特定对象类型)的确定性的例如0到10之间的概率。换句话说，预测评分包括指示所预测的逐像素分割标签664与特定对象类型相关联的确定性的概率(例如，至少一个概率)。例如，向量的向量值可以包括五个对象类型(例如，第一对象类型、第二对象类型、第三对象类型、第四对象类型和第五对象类型)的概率。在其他示例中，向量包括其他数量的对象类型(诸如，1、2、3、4、5、6、7、8、9或10个或多于10个对象类型等)的概率。

作为示例，向量的向量值可以指示所预测的逐像素分割标签664与小汽车、行人、自行车、路缘和驾驶路面的对象类型相关联的确定性。在该示例中，向量将是：<逐像素分割标签与对象类型“小汽车”相对应的概率，逐像素分割标签与对象类型“行人”相对应的概率，逐像素分割标签与对象类型“自行车”相对应的概率，逐像素分割标签与对象类型“路缘”相对应的概率，逐像素分割标签与对象类型“驾驶路面”相对应的概率>。作为进一步示例，所输出的向量(例如，丰富点特征668)可以是：<0.0,0.6,0.8,1.0,9.0>。在该向量中，逐像素分割标签与对象类型“小汽车”相对应的概率为0.0，逐像素分割标签与对象类型“行人”相对应的概率为0.6，逐像素分割标签与对象类型“自行车”相对应的概率为0.8，逐像素分割标签与对象类型“路缘”相对应的概率为1.0，并且逐像素分割标签与对象类型“驾驶路面”相对应的概率为9.0。

再次参考图6，点绘制系统606可以将丰富点特征668传输到LiDAR分割网络614。在实施例中，在670处，点绘制系统606将后处理技术(例如，至少一个后处理技术)应用于增强像素676以生成更新后的丰富点特征672。后处理技术可以包括对增强像素676进行过滤和/或增强等。后处理技术可以减少来自照相机202a的再投影误差，以提高增强像素676和所生成的丰富点特征668的质量。在该实施例中，点绘制系统606将更新后的丰富点特征672传输至LiDAR分割网络614。在另一实施例中，点绘制系统606将增强像素676和所生成的丰富点特征668传输至后处理系统610，该后处理系统610在670处应用后处理技术以生成更新后的丰富点特征672。在该实施例中，后处理系统610将更新后的丰富点特征672传输至LiDAR分割网络614。

在676处，LiDAR分割网络614可以基于原始点特征和所生成的丰富点特征668(或更新后的丰富点特征672)来预测该点的点级语义标签650(例如，至少一个点级语义标签)。例如，LiDAR分割网络614可以从LiDAR点云612接收LiDAR点云信息674的原始点特征。LiDAR分割网络614还可以从点绘制系统606(或后处理系统610)接收丰富点特征668或更新后的丰富点特征672。

在实施例中，LiDAR分割网络614将原始点特征和丰富点特征668作为向量和/或矩阵一起接收。例如，向量和/或矩阵可以包括10个维度：点的x坐标、点的y坐标、点的z坐标、点的强度、点的深度、逐像素分割标签与第一对象类型(例如，对象类型“小汽车”)相对应的概率、逐像素分割标签与第二对象类型(例如，对象类型“行人”)相对应的概率、逐像素分割标签与第三对象类型(例如，对象类型“自行车”)相对应的概率、逐像素分割标签与第四对象类型(例如，对象类型“路缘”)相对应的概率、以及逐像素分割标签与第五对象类型(例如，对象类型“驾驶路面”)相对应的概率。

LiDAR分割网络614包括诸如神经网络(例如，CNN 420、基于体素的分割网络、范围视图(range-view)分割网络和/或鸟瞰图(BEV)点云分割网络等)、回归模型、基于实例的模型、正则化模型、决策树、随机森林、贝叶斯模型、聚类模型、关联性模型、降维模型和/或集成模型等的机器学习模型(例如，至少一个机器学习模型)。在LiDAR分割网络614包括神经网络的示例中，神经网络可以包括经训练以从一个或多于一个先前层提取特征作为数值和/或图示值(pictorial value)的多个层。神经网络包括经训练以检测与该点相关联的对象类型的特征的一个或多于一个层。当图像的增强像素676、与该点相关联的原始点特征和/或与该点相关联的丰富点特征通过足够的层时，神经网络可以最终输出点级语义标签650。

可以对LiDAR分割网络614进行训练，以分析增强像素676、LiDAR点云信息674的原始点特征和/或所生成的丰富点特征668，从而预测点级语义标签650。可以对LiDAR分割网络614进行训练，以通过至少使LiDAR分割网络614经过监督学习来进行图像分析任务。

例如，可以对LiDAR分割网络614进行训练以进行图像分类，该图像分类可以包括：将与图像所描绘的对象的增强像素676的对象类型相对应的一个或多于一个标签(例如，点级语义标签650)分配给图像(例如，照相机所捕获到的图像)或图像的一部分(诸如，增强像素676等)。在一些示例中，对象类型包括小汽车、行人、自行车、路缘和/或驾驶路面。可以使用加标签的训练样本的训练集来训练LiDAR分割网络614以获得最佳性能，加标签的训练样本各自包括图像以及与该图像所描绘的对象的增强像素的正确标签相对应的至少一个标签。此外，可以基于(例如，使用)从现实世界设置收集到的数据来更新LiDAR分割网络614，该数据包括例如具有被指示为正确识别对象的对象类型的点级语义标签的图像。因此，可以对LiDAR分割网络614进行训练以进行包括例如图像分割、回归和/或语义标注等的图像分析任务。

如图6所示并针对图5所描述的，LiDAR分割网络614将至少一个图像(例如，照相机202a所捕获到的图像和/或增强像素676等)和所预测的点级语义标签650提供(例如，传输)至地图构建引擎502，以基于该点级语义标签650来生成地图。

因此，语义标注系统600可以通过例如应用至少两个神经网络(例如，图像分割网络604和LiDAR分割网络614)以预测点级语义标签、以及/或者基于如本文所述检测到的原始点特征和所生成的丰富点特征来以提高的准确度预测稳健的点级语义标签650。例如，如下面的表1所示，语义标注系统600在准确预测点级语义标签(例如，点级语义标签650)方面表现出了改进。

表1

如上面的表1所示，与使用用于仅基于LiDAR点云信息(例如，仅原始点特征)来生成点级语义标签的系统所实现的仅仅62.59％的均值交并比(MIoU)和88.04％的频数加权交并比(FWIoU)相比，语义标注系统600在MIoU方面实现了64.88％并且在FWIoU方面实现了88.43％。因此，与用于仅基于LiDAR点云信息(例如，仅原始点特征)来生成点级语义标签的系统相比，语义标注系统600实现了增加约3.65％的MIoU以及增加约0.44％的FWIoU。

现在参考图8，例示用于地图构建中的增强语义标注的处理800的流程图。在一些实施例中，通过语义标注系统600来(例如，完全地和/或部分地等)进行关于处理800所描述的步骤中的一个或多于一个步骤。附加地或可替代地，在一些实施例中，通过与语义标注系统600分离或包括语义标注系统600的其他装置或装置组来(例如，完全地和/或部分地等)进行关于处理800所描述的步骤中的一个或多于一个步骤。

在802处，至少一个处理器(例如，语义标注系统600)从运载工具(例如，运载工具200)的LiDAR传感器(例如，LiDAR传感器202b)接收包括点的至少一个原始点特征的LiDAR点云信息(例如，LiDAR点云信息674)。该至少一个原始点特征包括具有与如下项其中至少之一相对应的向量值的向量：与该点相关联的空间信息、与该点相关联的强度信息以及与该点相关联的深度信息。例如，向量包括该点的x坐标、y坐标、z坐标、强度和深度。

在804处，至少一个处理器从照相机(例如，照相机202a)接收与使用照相机所捕获的图像相关联的图像数据(例如，图像数据660)。图像数据可以指定与图像相对应的至少一个参数(例如，诸如曝光、亮度等的图像特性、以及/或者图像时间戳等)。在这样的示例中，图像可以采用格式(例如，RAW、JPEG和/或PNG等)。在一些示例中，图像数据附加地或可替代地包括与所捕获的图像中的像素相关联的像素值或二维空间信息(诸如x坐标和y坐标以及/或者至少一个颜色(例如，RGB颜色模型中的颜色)等)。

在806处，至少一个处理器基于图像数据来生成该点的至少一个丰富点特征(例如，丰富点特征668)。该至少一个丰富点特征包括具有与预测评分相对应的向量值的向量。可以基于逐像素分割标签(例如，逐像素分割标签664)向增强像素(例如，增强像素676)的应用来生成预测评分，该增强像素是通过将LiDAR点云信息投影到图像数据的像素上所生成的。通过将图像数据提供至图像分割神经网络(例如，图像分割神经网络604)以使得图像分割神经网络生成逐像素分割标签来预测逐像素分割标签。作为示例，图像分割神经网络可以从照相机接收图像数据。图像分割神经网络基于图像数据来预测逐像素分割标签。

为了生成增强像素，处理器可以将LiDAR点云信息投影到图像数据的像素上。处理器可以将来自图像分割神经网络的所预测的逐像素分割标签应用于增强像素。处理器还可以基于逐像素分割标签向增强像素的应用来生成指示逐像素分割标签与该点相对应的可能性的预测评分。在实施例中，预测评分包括多个预测评分，并且逐像素分割标签包括多个逐像素分割标签。在该实施例中，多个预测评分中的各个预测评分表示多个逐像素分割标签中的关联逐像素分割标签与该点相对应的可能性。

然后，处理器可以将具有与增强像素和所应用的逐像素分割标签相对应的向量值的向量传输至LiDAR分割神经网络。向量值可以包括由处理器通过将所预测的逐像素分割标签应用于增强像素所生成的预测评分。

在实施例中，在将向量传输至LiDAR分割神经网络之前，处理器基于应用用以减少来自照相机的再投影误差的至少一个后处理技术来生成至少一个丰富点特征。例如，处理器可以应用至少一个后处理技术以减少来自照相机的再投影误差。

在808处，至少一个处理器使用LiDAR分割神经网络(例如，LiDAR分割网络614)基于至少一个原始点特征和至少一个丰富点特征来预测点的点级语义标签(例如，点级语义标签650)。照此，处理器可以顺次应用至少两个神经网络(例如，图像分割网络604和LiDAR分割网络614)来预测点级语义标签。例如，可以基于诸如图像分割网络等的第一神经网络来生成至少一个丰富点特征，并且LiDAR分割神经网络是与第一神经网络不同的第二神经网络。

在810处，至少一个处理器将点级语义标签提供至地图构建引擎(例如，地图构建引擎502)以基于该点级语义标签来生成地图。例如，处理器可以从先前地图中移除对象，检测地标，在该地图与先前地图之间进行语义一致性的比较，并且对该地图进行注释。该地图可以包括LiDAR点云信息的LiDAR点云以及与LiDAR点云中的至少一个点相关联的至少一个点级语义标签。该至少一个点级语义标签可以包括所预测的点级语义标签。

在先前描述中，已经参考许多具体细节描述了本公开的方面和实施例，这些具体细节可因实现而不同。因此，说明书和附图应被视为说明性的，而非限制性意义的。本发明范围的唯一且排他的指示、以及申请人期望是本发明范围的内容是以发布权利要求书的具体形式从本申请发布的权利要求书的字面和等同范围，包括任何后续修正。本文中明确阐述的用于被包括在此类权利要求中的术语的任何定义应当以此类术语如在权利要求书中所使用的意义为准。另外，当在先前的说明书或所附权利要求书使用术语“还包括”时，该短语的下文可以是附加的步骤或实体、或先前所述的步骤或实体的子步骤/子实体。

Claims

1.一种用于运载工具的方法，包括：

利用至少一个处理器并且从所述运载工具的LiDAR传感器接收包括点的至少一个原始点特征的LiDAR点云信息；

利用所述至少一个处理器并且从所述运载工具的照相机接收与使用所述照相机捕获到的图像相关联的图像数据；

利用所述至少一个处理器，基于所述图像数据来生成所述点的至少一个丰富点特征；

利用所述至少一个处理器，使用LiDAR分割神经网络并且基于所述至少一个原始点特征和所述至少一个丰富点特征来预测所述点的点级语义标签；以及

利用所述至少一个处理器，将所述点级语义标签提供至地图构建引擎以基于所述点级语义标签来生成地图。

2.根据权利要求1所述的方法，其中，所述至少一个原始点特征包括具有与如下项其中至少之一相对应的向量值的向量：与所述点相关联的空间信息、与所述点相关联的强度信息以及与所述点相关联的深度信息。

3.根据权利要求1或2所述的方法，其中，所述至少一个丰富点特征包括具有与预测评分相对应的向量值的向量，所述预测评分是基于逐像素分割标签向增强像素的应用所生成的，所述增强像素是通过将所述LiDAR点云信息投影到所述图像数据的像素上所生成的。

4.根据权利要求3所述的方法，其中，通过将所述图像数据提供至图像分割神经网络以使所述图像分割神经网络生成所述逐像素分割标签来预测所述逐像素分割标签。

5.根据权利要求3所述的方法，其中，所述预测评分表示所述逐像素分割标签与所述点相对应的可能性。

6.根据权利要求5所述的方法，其中，所述预测评分包括多个预测评分；其中，所述逐像素分割标签包括多个逐像素分割标签；以及其中，所述多个预测评分中的各个预测评分表示所述多个逐像素分割标签中的关联逐像素分割标签与所述点相对应的可能性。

7.根据权利要求3至6中任一项所述的方法，其中，基于应用用以减少来自所述照相机的再投影误差的至少一个后处理技术来生成所述至少一个丰富点特征。

8.一种运载工具，包括：

照相机，其被配置为捕获接近所述运载工具的对象的图像；

LiDAR传感器，其被配置为检测从接近所述运载工具的对象所反射的光并且基于所检测到的光来生成LiDAR点云信息，所述LiDAR点云信息包括点的至少一个原始点特征；

至少一个处理器，其通信地耦接到所述照相机和所述LiDAR传感器；以及

至少一个存储器，其上存储有指令，所述指令在由所述至少一个处理器执行时使得所述至少一个处理器进行权利要求1至7中任一项所述的方法。

9.根据权利要求8所述的运载工具，其中，使得所述至少一个处理器生成所述地图的所述指令使得所述至少一个处理器进行以下操作其中至少之一：从先前地图移除对象；检测地标；在所述地图与所述先前地图之间进行语义一致性的比较；以及对所述地图进行注释。

10.根据权利要求8或9所述的运载工具，其中，所述地图包括所述LiDAR点云信息的LiDAR点云以及与所述LiDAR点云中的至少一个点相关联的至少一个点级语义标签，所述至少一个点级语义标签包括所预测的点级语义标签。

11.根据权利要求8所述的运载工具，其中，所述指令使得基于第一神经网络来生成所述至少一个丰富点特征；以及其中，所述LiDAR分割网络与所述第一神经网络不同。

12.根据权利要求8所述的运载工具，其中，所述方法还包括：

通过图像分割神经网络并且从所述照相机接收所述图像数据；以及

基于所述图像数据来预测逐像素分割标签。

13.根据权利要求12所述的运载工具，其中，所述方法还包括：

将所述LiDAR点云信息投影到所述图像数据的像素上，以生成增强像素；以及

将来自所述图像分割神经网络的逐像素分割标签应用于所述增强像素。

14.根据权利要求13所述的运载工具，其中，所述方法还包括：

将具有与所述增强像素和所应用的逐像素分割标签相对应的向量值的向量传输至所述LiDAR分割神经网络。

15.根据权利要求14所述的运载工具，其中，所述向量值包括应用于所述增强像素的逐像素分割标签的预测评分，所述预测评分指示所述逐像素分割标签与所述点相对应的可能性。

16.根据权利要求13至15中任一项所述的运载工具，其中，所述方法还包括：

将被配置为减少来自所述照相机的再投影误差的至少一个后处理技术应用于所述增强像素。

17.一种用于运载工具的系统，包括：

至少一个处理器；以及

18.一种非暂时性存储介质，其存储有指令，所述指令在由至少一个处理器执行时使得所述至少一个处理器进行权利要求1至7中任一项所述的方法。