CN114245885A

CN114245885A - 基于动作数据的自上而下场景预测

Info

Publication number: CN114245885A
Application number: CN202080049024.XA
Authority: CN
Inventors: G·加利梅拉; M·科比拉罗夫; A·G·莫拉莱斯莫拉莱斯; 王凯振宇
Original assignee: Zoox Inc
Current assignee: Zoox Inc
Priority date: 2019-07-05
Filing date: 2020-07-02
Publication date: 2022-03-25
Also published as: US20210004611A1; US20210271901A1; EP3994539A1; WO2021007106A1; US11023749B2; JP2022539245A; US11631200B2; EP3994539A4

Abstract

本文讨论了用于基于车辆动作来确定环境的自上而下表示的预测的技术。第一车辆(例如，自主车辆)的传感器可以捕获环境的传感器数据，该环境可以包括与第一车辆分开的对象(例如，车辆或行人)。可以基于传感器数据、地图数据和/或动作数据来生成表示对象和环境的自上而下视图的多通道图像。可以在图像中对环境数据(对象范围、速度、车道位置、人行横道等)进行编码。动作数据可以表示第一车辆的目标车道、轨迹等。可以生成表示环境随时间推移的多个图像并将其输入到预测系统中，该预测系统被配置为可以基于自主车辆的动作来输出与对象在未来的可能的位置相关联的预测概率。

Description

基于动作数据的自上而下场景预测

技术领域相关申请的交叉引用

本专利申请要求享有于2019年7月5日所提交的序列号为16/504,147的美国实用新型专利申请的优先权。序列号为16/504,147的申请通过引用完整地并入本文。

背景技术

预测技术可用于确定环境中实体的未来状态。即，预测技术可用于确定特定实体在未来可能会如何表现。现有的预测技术通常涉及基于物理的建模或道路规则模拟，以预测环境中实体的未来状态。

附图说明

参考附图描述了具体实施方式。在附图中，附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的组件或特征。

图1是根据本公开的示例的用于接收对象数据和动作数据、将表示环境的多通道图像输入到机器学习模型中、并且基于对象数据和动作数据接收预测概率的示例过程的图示流程图。

图2A描绘了用于实现本文所描述的技术的示例系统的框图。

图2B描绘了用于训练机器学习模型以实现本文所描述的技术的示例训练组件的框图。

图3描绘了根据本公开的示例的预测系统的输入和用于训练预测系统的训练数据的示例图示。

图4是根据本公开的示例的包括两个并排停放(double parked)车辆的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图5是根据本公开的示例的包括并排停放车辆的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图6是根据本公开的示例的包括对象在自主车辆前方转弯的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图7是根据本公开的示例的包括自主车辆穿越交叉口的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图8是根据本公开的示例的包括自主车辆进入阻塞的交叉口的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图9是根据本公开的示例的包括自主车辆穿越另一交叉口的场景的第一预测概率和第二预测概率的图示，其中第二预测概率部分地基于动作数据。

图10描绘了根据本公开的示例的用于接收传感器数据和动作数据、生成多通道图像、评估预测概率并且基于预测概率来控制车辆的示例过程。

具体实施方式

本文讨论了用于基于环境和车辆动作的自上而下表示来确定预测的技术。第一车辆(例如，自主车辆)的传感器可以捕获环境的传感器数据，该环境可以包括诸如第二车辆或行人之类的与车辆分开的对象。可以基于传感器数据、地图数据和/或动作数据来生成对在自上而下视图中的对象和/或环境的各种参数进行编码的多通道图像(其贯穿本文可以被简称为图像)。传感器数据可用于生成表示与对象相关联的边界框和速度信息、地图数据和其他语义信息(例如，速度限制、车道宽度、车道终点、停止线、交通灯、交通灯状态等)的多通道图像的一个或多个通道。动作数据可用于生成表示第一车辆的目标车道、轨迹等(例如，其可能对应于包括车辆前进通过十字路口、改变车道、转弯等动作)的多通道图像的一个或多个通道。可以生成表示环境随时间推移的多个图像，并将其输入到被配置为输出与未来的对象的可能位置相关联的预测概率预测系统。可基于特定候选动作生成或确定预测概率，并且可对预测概率进行评估以选择和确定用于控制自主车辆的候选动作。

因为通常用于解决对象之间的多向交互的推理过程是复杂的，所以在拥挤的市区环境中的自主驾驶是具有挑战性的。这种推理可能是时间紧迫的，并且可以不断演进。本文所描述的技术针对在驾驶期间的场景，其可以包括但不限于没有交通灯的市区十字路口。在这些交叉口处，多个对象(车辆、行人、骑行者等)经常竞争同一个共享空间，使得预测对象的意图以便成功通过路口是有用的。本文所讨论的技术针对在给定环境的历史的若干快照的情况下预测穿越通过交叉口的对象的驾驶行为。一些技术使用语义分割方式的方法来制定深度卷积神经网络(CNN)架构，该CNN架构可将未来预测为预测概率(例如，热图)，如本文所讨论的。

在某些示例中，与对象相关联的预测概率可能并不限于在不同动机(maneuver)集合上的高斯分布，而是可以包括以对象在未来随时间的推移所处的位置为索引的热图(例如，具有任意分布)。在某些示例中，热图的强度可以表示单元或像素将在指定的时刻被任何对象所占用(例如，占用网格)的概率。在某些实例中，热图既可以捕获每个对象的任意轨迹分布，也可以捕获不同动机集合(如，候选动作)上的分布，而不使用明确的动机规范。在某些示例中，这种方法自然地将许多未来模式折叠为单个热图。在某些示例中，可以使用关于自主车辆的意图的多个信号来解决这种多模态。在这种示例(例如，其中以动作意图为条件的示例)中，这样的热图可以包括更密集地聚类的概率分布。

为了使车辆(例如，自主车辆或自主机器人)安全地驾驶通过十字路口，该车辆应对世界上其他对象的行为进行推理。在下面结合图1所讨论的示例中，自主车辆可以穿越通过十字路口。如果自主车辆可以推断迎面而来的对象是否礼让，则此自主车辆可以安全地通过交叉口。在一些示例中，本文所讨论的技术可以包括根据自主车辆的意图(表示为动作数据)调节预测概率(例如，热图)。通过根据自主车辆的意图调节热图，本文所讨论的技术可以包括使预测热图的多模态最大化。即，对环境中对象的预测可基于提议要由自主车辆执行的候选动作，并且这种预测可以包括关于附加对象的改进预测。规划系统可以使用机器学习模型的输出，以确定基于热图输出的成本函数并针对自主车辆搜索使热图输出的成本最小化的最佳动作。

如上面所指出的，技术可以包括生成表示环境随时间推移的多个多通道图像。可以将图像或多个图像输入到预测系统(例如，机器学习模型)中，该预测系统被配置为输出与对象在未来的可能位置相关联的预测概率。预测概率可以与多个候选动作中的候选动作相关联。可对各个候选动作进行评估，以确定与候选动作相关联的风险、成本和/或回报，并且可以至少部分地基于对候选动作的评估来选择或确定候选动作。可以至少部分地基于选定的或确定出的候选动作来控制自主车辆。

自主车辆所捕获的传感器数据可以包括激光雷达数据、雷达数据、图像数据、飞行时间数据、声纳数据等。在一些情况下，可以将传感器数据提供给感知系统，该感知系统被配置为确定环境中的对象的类型(例如，车辆、行人、自行车、动物、停放的汽车、树木、建筑物等)。此外，感知系统可以基于传感器数据来确定关于环境中对象的移动信息。传感器数据和基于传感器数据的任何数据可以在环境的自上而下视图中表示。例如，图像可以将对象表示为二维边界框，这种二维边界框表示环境中对象的位置以及对象的范围(例如，对象的长度和宽度)，并且表示了对象的分类对象(例如，车辆、行人等)。尽管预期了其他表示，但是诸如速度信息之类的移动信息也可以被表示为与边界框相关联的速度向量。

在一些情况下，要被输入到预测系统中的图像可以由多通道图像的各个通道表示，其中每个通道表示关于对象和对象所位于的环境的不同信息。例如，通道可以表示但不限于以下各项中的一项或多项：可基于传感器数据确定或以其他方式在系统可用的地图数据中被接收/编码的道路网络信息(例如，指示车道、人行横道、停止线、车道分隔线、停止标志、十字路口、交通灯等的语义标签)、交通灯状态(例如，红灯、黄灯、绿灯等)、与对象相关联的边界框、对象在x方向和y方向上的速度、对象在x方向和y方向上的加速度、对象的闪光灯状态(例如，左转、右转、制动、倒车、危险、未发光等)等。

在一些示例中，规划系统可以生成或以其他方式确定自主车辆要在环境中执行的一个或多个候选动作。例如，第一候选动作可以包括保持在当前车道中，而第二候选动作可以包括向当前车道的左侧或右侧改变车道。通过另一示例的方式，第三候选动作可以包括穿越通过交叉口，而第四候选动作可以包括在交叉口处左转或右转。在一些示例中，候选动作可以在多通道图像中被表示为突出显示、说明、注释或以其他方式指示车辆在环境中遵循的目标车道或候选轨迹。

在一些示例中，候选动作可以与一个或多个子目标相关联。例如，子目标可以包括速度信息或加速度信息，例如，目标速度或目标加速度、平均速度或平均加速度、最大或最小速度、最大或最小加速度等。在一些示例中，子目标可以包括但不限于转向角度、距对象的距离、距参考线的距离等。在一些示例中，子目标可以表示为多通道图像的通道。

在一些示例中，多个通道可以被输入到预测系统以生成预测概率。在一些示例中，图像可以被直接输入到预测系统(例如，不基于图像生成多个通道)以生成预测概率。

在一些示例中，通道的数量可以减少为更少通道。作为非限制性示例，可以使用简单的3通道(例如，RGB)图像来表示多条语义信息。例如，在这样的示例中，红色通道可以用于表示边界框并且红色值的强度可以与速度、加速度等相关联。在这样的示例中，第二通道可以利用指示速度限制等的强度对车道宽度进行编码。此外，在这样的示例中，第三通道可以通过识别与特定候选动作相关联的目标车道来对候选动作进行编码。

在一些示例中，预测系统可以包括机器学习模型，该机器学习模型被训练以输出可以用于生成一个或多个预测轨迹的数据。例如，机器学习模型可以输出与对象(例如，第三方车辆)在未来的一个或多个时间(例如，1秒、2秒、3秒等)时相关联的坐标(例如，x坐标和y坐标)。在一些示例中，机器学习模型可以输出与对象相关联的坐标以及与每个坐标相关联的概率信息。在一些示例中，机器学习模型可以包括卷积神经网络(CNN)，其可以包括一个或多个循环神经网络(RNN)层，例如但不限于长短期记忆(LSTM)层。在一些示例中，机器学习模型可以输出与预测概率相关联的热图。在一些示例中，可以至少部分地基于热图来确定至少一个预测轨迹。

热图可以表示接近自主车辆的环境的离散区域。例如，热图可以表示一个64×64的网格(或J×K大小的网格)，从而表示自主车辆周围100米×100米的区域。当然，热图可以表示任何大小的区域，并且可以表示该区域的任何数量的离散部分。在某些情况下，热图的一部分可以被称为热图的单元。每个单元可以包括预测概率，该预测概率表示在对应于热图的时间时，对象将位于环境中的对应位置处的概率。在一些实例中，机器学习模型可以输出多个热图，其中多个热图中的热图可以表示在未来的特定时间(例如，0.5秒、1秒、3秒、5秒、10秒等)时与环境(例如，对象和/或自主车辆)相关联的概率。

在一些实例中，与将至少一个预测轨迹提供给规划系统相反或除了该至少一个预测轨迹之外，可以将一个或多个热图提供给规划系统。

在一些示例中，本文讨论的技术可以包括将可能的场景生成作为一个或多个概率图，该概率图用于对树搜索的可解释边际成本的交互与产生进行说明。在一些示例中，该技术包括通过网络输入调节自主车辆的意图(例如，作为多通道图像的一个或多个通道而不约束自主车辆的轨迹)。此外，本公开的方面包括机器学习算法(例如，卷积神经网络)，该机器学习算法可以预测自主车辆周围对象的未来状态以及自主车辆自身作为随时间叠加的热图。如上面所指出的，从机器学习模型输出的热图(或预测概率)可以以自主车辆的一个或多个候选动作为条件。此外，技术可以包括使自主车辆的意图离散化为目标和子目标，从而允许规划词干(planning stem)针对自主车辆搜索最佳(或最优)候选行为。此外，本公开的方面包括示出环境中的自主车辆与其他对象之间不同类型交互的数据。

本文讨论的技术可以以多种附加方式改进计算设备的功能。在某些情况下，出于生成预测概率和/或在候选动作之间进行选择的目的，将环境和环境中的对象表示为自上而下视图可以表示环境的简化表示。在某些情况下，图像可以表示环境，而不提取环境的特定特征，这可以简化预测系统的生成和至少一个预测轨迹的后续生成。在某些情况下，评估预测概率可以允许自主车辆生成用于自主车辆穿越环境的更准确和/或更安全的轨迹。例如，可以对与第一候选动作相关联的预测概率进行评估，以确定发生碰撞或接近碰撞的可能性，并且可以允许自主车辆选择或确定另一候选动作(例如，改变车道、停止等)以便安全地穿越环境。在本文所描述的至少一些示例中，除了预期动作之外，基于环境的自上而下编码来调节预测可以最小化(改进)与对象相关联的概率分布函数的扩展，从而产生更安全的系统决策。本文讨论了对计算机功能的这些和其他改进。

本文所描述的技术可以以多种方式实现。下面参考以下附图提供示例实现方式。尽管在自主车辆的上下文中进行了讨论，但是本文所描述的方法、装置和系统可以应用于各种系统(例如，传感器系统或机器人平台)，并且不限于自主车辆。在一个示例中，可以在驾驶员控制的车辆中利用类似的技术，其中这种系统可以提供执行各种动机是否安全的指示。在另一示例中，可以在航空或航海上下文中利用这些技术，或者在涉及可以与系统未知的行为相关联的对象或实体的任何系统中利用这些技术。此外，传感器数据可以包括任何二维数据、三维数据或多维数据，例如，图像数据(例如，立体相机、飞行时间数据等)、激光雷达数据、雷达数据、声纳数据等。另外，本文所描述的技术可以与真实数据(例如，使用传感器捕获的数据)、模拟数据(例如，由模拟器生成的数据)或两者的任何组合一起使用。

图1是根据本公开的示例的用于接收对象数据和动作数据、将表示环境的多通道图像输入到机器学习模型中、并且基于对象数据和动作数据接收预测概率的示例过程100的图示流程图。

在操作102处，该过程可以包括接收表示环境中对象的对象数据。在一些示例中，可以从自主车辆的感知系统接收对象数据。例如，对象数据可以包括但不限于与环境相关联的边界框、速度和/或加速度信息、分类信息等中的一个或多个。在一些示例中，操作102可以包括捕获环境的传感器数据。在一些示例中，传感器数据可以由自主车辆上的一个或多个传感器捕获。例如，传感器数据可以包括由激光雷达传感器、雷达传感器、图像传感器、飞行时间传感器、声纳传感器等中的一个或多个捕获的数据。在至少一些示例中，可以接收附加的环境数据(例如，环境编码部分的地图数据，例如，车道、参考线、人行横道、交通设备和/或标志等)。

示例104示出了其中自主车辆106正在穿越环境的环境。在一些示例中，自主车辆106可以执行过程100的操作，过程100可以包括捕获环境的传感器数据。出于讨论的目的，捕获(或利用)传感器数据的车辆可以是自主车辆，其被配置为根据美国国家公路交通安全管理局发布的5级分类操作，该5级分类描述了能够在整个行程中执行所有安全关键功能的车辆，其中不期望驾驶员(或乘员)在任何时候控制车辆。在这样的示例中，因为车辆可以被配置为控制从开始到停止的所有功能(包括所有停车功能)，因此该车辆可以是无人驾驶的。这仅是示例，并且本文所描述的系统和方法可以并入任何地面、空中或水上交通工具中，包括从需要一直由驾驶员手动控制的交通工具到部分或完全自主控制的交通工具。贯穿本公开描述与车辆相关联的附加细节。

对象108也位于环境中。在一些示例中，对象108可以表示车辆、行人、自行车、动物等。示例104中所示的环境可以包括可驾驶区域和不可驾驶区域。在一些示例中，操作102可以包括在环境中定位自主车辆106并且访问与环境相关联的地图数据。例如，地图数据可以包括地图元素，例如，车道标记、车道边界、一个或多个车道参考110(例如，示出与车道相关联的中心线和/或可用(例如，合法)车道之间的路线)。地图的附加示例元素可以包括但不限于以下各项中的一个或多个：车道元素、自行车道元素、人行横道元素、十字路口元素、车道分隔线元素、交通灯元素、停止标志元素、停止线元素、让行标志元素、让行线元素、停车道元素、行驶车道元素、减速带元素、横穿马路(jay walking)区域(例如，虚拟人行横道)、轨迹航点(例如，已知轨迹)、乘客上车点、标志位置元素、地理围栏元素等。

在一些实例中，在操作102中捕获的传感器数据可用于确定关于对象108的信息，这些信息包括但不限于对象的类型(例如，指示对象的分类的语义信息，例如，车辆、行人、自行车、动物等)。在一些实例中，操作102可以包括确定对象108的类型、与对象108相关联的边界框和/或与对象相关联的移动信息，如本文所讨论的。

在操作112处，该过程可以包括接收与环境中自主车辆的候选动作相关联的动作数据。示例114图示了候选动作116(例如，第一候选动作，例如，礼让动作)和候选动作118(例如，第二候选动作，例如，“通过十字路口”动作)。

即，候选动作116可以包括来自自主车辆106的规划系统的指令，以礼让对象108并且避免穿越通过十字路口，直到对象108已经穿越通过十字路口(或某种其他触发条件，例如，经过了一段时间)为止。

候选动作118可以包括在允许对象108穿越通过交叉口之前穿越通过示例104中所示的交叉口。

在一些示例中，动作数据可以以各种方式表示。在一些实例中，示例104将动作数据图示为当前车道120和目标车道122。在一些示例中，并且如本文所讨论的，与候选动作116和118相关联的信息可以经由当前车道120和/或目标车道122，以及速度简档和/或加速度简档(例如，子目标)表示。

在操作124处，该过程可以包括：将表示环境的自上而下视图的多通道图像输入到机器学习模型中，多通道图像是基于对象数据和动作数据的。这种多通道图像的示例在示例126和示例128中进行说明。

示例126表示与第一候选动作116相关联的第一多通道图像。例如，示例126包括：第一通道132、第二通道134和第三通道136。在一些示例中，第一通道132可以表示环境中的自主车辆106和/或对象108的边界框、位置、范围(例如，长度和宽度)等。在一些示例中，第二通道134可以表示与候选动作116相关联的动作数据。例如，第二通道134可以示出与候选动作116相关联的当前车道120和/或目标车道122。在一些示例中，第三通道136可以表示附加动作数据，在这种情况下，该附加动作数据对应于与实现候选动作116的自主车辆106相关联的速度信息140(例如，V₁)。在一些示例中，速度信息140可以包括瞬时速度、平均速度等。例如，当候选动作116指示礼让动作时，速度信息140可以表示相对低的速度(或者可以表示停止的速度，在这时自主车辆106礼让对象108)。尽管在速度的上下文中进行了讨论，但速度信息140可表示与加速度(例如，动作的平均、与动作相关联的最大加速度等)、转向角度、距参考线或障碍物的距离等相关联的信息。

示例128表示与第二候选动作118相关联的第二多通道图像。在一些示例中，示例128的方面可以类似于示例126的一些方面。例如，示例128可以包括第一通道132、第二通道134和第三通道142。在一些示例中，第三通道可以包括可以与第二候选动作118相关联的速度信息144。例如，因为第二候选动作118可以表示自主车辆106在对象108之前穿越通过交叉口时，速度信息144(例如，V₂)可以表示比与第一候选动作116相关联的第二速度信息140更高的平均速度(或速度简档)。如上面所指出的，尽管在速度的上下文中进行了讨论，但速度信息144可表示与加速度(例如，动作的平均、与动作相关联的最大加速度等)、转向角度、距参考线或障碍物的距离等相关联的信息。

当然，在第二候选动作118表示与第一候选动作116不同的位置的情况下(例如，如果第一候选动作116表示直行，并且第二候选动作118表示左转或右转)，示例128可以包括与第二通道134中表示的动作数据不同的动作数据。

在一些实例中，(例如，经由通道134)对自主车辆106的意图进行编码可以作为部分未来信息提供，而不指定自主车辆106的精确轨迹。在一些示例中，意图可以通过以下方式被编码：1)绘制或以其他方式指示进入车道(例如，当前车道120)和离开车道(例如，目标车道122)；以及2)提供指示高和低的未来平均加速度和速度的离散斑点(blob)(例如，作为通道136和/或142)。

上面讨论的第一意图信号(例如，第二通道134)使用与特定候选动作相关联的目标车道122。通过提供目标车道122，技术可基于与自主车辆106相关联的规划的轨迹为每个交叉口出口移除多个多模态输出，以支持一个多模态输出。

以上所讨论的第二意图(例如，通道136和142)表示子目标并且可以包括自主车辆106的预期速度和/或加速度简档。在一些情况下，该子目标意图提供自主车辆106在未来达到指定的预测位置的平均加速度的离散值。在某些情况下，子目标意图描绘自主车辆在不久的将来要做什么。例如，高的减速暗示自主车辆正在因为其他对象而进行制动。高的加速度暗示对象正在加速穿过交叉口。类似的意图也适用于自主车辆106的速度维度。意图被设计为移除多模态输出，但同时不将自主车辆106和/或对象108的输出限制到单个轨迹。

可以理解的是，示例126和示例128可以包括表示在环境中各个时间点处的环境的多个多通道图像。例如，尽管任何数量的实例及时间段可用于表示环境，示例126和/或示例128可以表示自主车辆106和对象108(以及其他对象，例如，行人和车辆等)在过去4秒内以0.5秒为间隔的历史。

在一些实例中，示例126和/或示例128可以包括通道，该通道表示针对最新的时间步骤(例如，时间t₀)和/或随着时间的推移(例如，时间t_-m到时间t₀)的辅助输入(例如，转向指示器、制动灯、危险灯等)。附加通道可以包括但不限于自主车辆106和/或对象108的运动学信息(也称为运动学数据、运动信息或运动数据)(例如，一段时间内的平均速度或加速度、先前时刻的瞬时速度或瞬时加速度、车轮角度、转向速率、偏摆、俯仰、侧倾等)、语义信息(例如，车辆分类、转向信号指示器、制动灯指示器、双闪停车指示等)、遮挡网格(例如，指示对自主车辆106的一个或多个传感器不可见的环境区域，或预测将被遮挡的区域等)等。

可以理解的是，操作124可以包括生成或确定多通道图像，如本文所讨论的。结合于2018年10月4日提交的题为“Trajectory Prediction on Top-Down Scenes”的美国专利申请第16/151,607号讨论了生成或确定多通道图像的示例。申请第16/151,607号通过引用以其整体并入本文。

在操作146处，该过程可以包括：从机器学习模型并基于多通道图像接收与对象和/或自主车辆相关联的预测概率。可以理解的是，由于多通道图像可以基于动作数据，因此预测概率可以基于动作数据，如本文所讨论的。

示例148和示例150分别说明了机器学习模型的输出。在一些实例中，示例148和示例150包括可以表示(例如，从环境的自上而下角度)预测概率的热图，该预测概率指示对象108将在对应于相应的热图的时间时位于环境中对应位置处的概率并且基于相应的候选动作。即，示例148可以表示时间t₀之后的时间t_1A，其中“A”标记对应于第一候选动作116。示例150可以表示时间t₀之后的时间t_1B，其中“B”标记对应于第二候选动作118。示例148和示例150可以表示自主车辆106和/或对象108在未来的热图和/或预测概率。当然，热图示例148和150可以表示在任何时间段的预测概率，并且不限于本文讨论的表达时间。

示例148表示预测概率152、154、156和156。在一些示例中，预测概率152和预测概率154至少部分地基于自主车辆106执行第一候选动作116来表示对象108在环境中的可能位置。预测概率156和预测概率158表示以动作数据(例如，通道134和136)为条件的自主车辆106的可能位置。

示例150表示预测概率160、162和164。在一些示例中，预测概率160至少部分地基于自主车辆106执行第二候选动作118来表示对象108在环境中的可能位置。预测概率162和预测概率164表示以动作数据(例如，通道134和142)为条件的自主车辆106的可能位置。

此外，过程100可以包括至少部分地基于候选动作来评估候选动作和/或控制自主车辆106。例如，过程100可以包括确定表示自主车辆106的边界框和与对象108相关联的预测概率的重叠量。在一些示例中，过程可以包括评估自主车辆106的候选轨迹，以确定预测的未来运动与预测概率156、158、162和/或164之间的重叠。

图2A描绘了用于实现本文所描述的技术的示例系统200的框图。在至少一个示例中，系统200可以包括车辆202。

车辆202可以包括一个或多个车辆计算设备204(也称为一个车辆计算设备204或(多个)车辆计算设备204)、一个或多个传感器系统206、一个或多个发射机208、一个或多个通信连接210、至少一个直接连接212和一个或多个驱动系统214。

车辆计算设备204可以包括一个或多个处理器216和与一个或多个处理器216通信耦合的存储器218。在所示示例中，车辆202是自主车辆；然而，车辆202可以是任何其他类型的车辆。在所示示例中，车辆计算设备204的存储器218存储定位组件220、感知组件222、一个或多个地图224、一个或多个系统控制器226、包括图像生成组件230和机器学习组件232的预测组件228、以及包括轨迹生成组件236和评估组件238的规划组件234。虽然出于说明的目的，定位组件220、感知组件222、一个或多个地图224、一个或多个系统控制器226、预测组件228、图像生成组件230、机器学习组件232、规划组件234、轨迹生成组件236和评估组件238在图2中被描绘为驻留在存储器218中，但是可以设想这些组件可以另外地或可替代地可由车辆202访问(例如，远程存储)。

在至少一个示例中，定位组件220可以包括以下功能：从传感器系统206接收数据以确定车辆202的位置和/或定向(例如，x位置、y位置、z位置、侧倾、俯仰或偏摆中的一个或多个)。例如，定位组件220可以包括和/或请求/接收环境的地图，并且可以连续地确定自主车辆在地图内的定位和/或定向。在一些实例中，定位组件220可以利用SLAM(同时定位和映射)、CLAMS(同时校准、定位和映射)、相对SLAM、束调整、非线性最小二乘优化等以接收图像数据、激光雷达数据、雷达数据、IMU数据、GPS数据、车轮编码器数据等，以准确地确定自主车辆的定位。在一些实例中，定位组件220可以向车辆202的各种组件提供数据，以确定自主车辆202的初始位置，以生成轨迹和/或生成或接收地图数据，如本文所讨论的。

在一些实例中，感知组件222可以包括用于执行对象检测、分割和/或分类的功能。在一些示例中，感知组件222可以提供处理后的传感器数据，该数据指示接近车辆202的实体的存在和/或将该实体分类为实体类型(例如，汽车、行人、骑行者、动物、建筑物、树木、路面、路缘、人行道、未知物等)。在附加和/或替代性示例中，感知组件222可以提供处理后的传感器数据，该数据指示与检测到的实体(例如，被跟踪的对象)和/或该实体所位于的环境相关联的一个或多个特性。在一些示例中，与实体相关联的特性可以包括但不限于x位置(全局和/或局部位置)、y位置(全局和/或局部位置)、z位置(全局和/或局部位置)、定向(例如，侧倾、俯仰、偏摆)、实体类型(例如，分类)、实体的速度、实体的加速度、实体的范围(大小)等。与环境相关联的特性可以包括但不限于环境中另一实体的存在、环境中另一实体的状态、一天中的时间、一周中的一天、季节、天气条件、黑暗/光的指示等。

存储器218还可以包括一个或多个地图224，其可以由车辆202使用以在环境内导航。出于本讨论的目的，地图可以是以二维、三维或N维建模的任何数量的数据结构，这些数据结构能够提供关于环境的信息，例如但不限于拓扑(例如，十字路口)、街道、山脉、道路、地形和一般环境。在一些实例中，地图可以包括但不限于纹理信息(例如，颜色信息(例如，RGB颜色信息、Lab颜色信息、HSV/HSL颜色信息)等)、强度信息(例如，激光雷达信息、雷达信息等)；空间信息(例如，投射到网格上的图像数据、独立的“面元(surfel)”(例如，与单个颜色和/或强度相关联的多边形))、反射率信息(例如，镜面反射率信息、回射率信息、BRDF信息、BSSRDF信息等)。在一个示例中，地图可以包括环境的三维网格。在一些实例中，可以以图块格式存储地图，使得地图的单个图块表示环境的离散部分，并可以根据需要加载到工作存储器中，如本文所讨论的。在至少一个示例中，一个或多个地图224可以包括至少一个地图(例如，图像和/或网格)。在一些示例中，可以至少部分地基于地图224来控制车辆202。即，地图224可以与定位组件220、感知组件222、预测组件228和/或规划组件234结合使用以确定车辆202的定位、标识环境中的对象、生成与对象和/或车辆202相关联的预测概率和/或生成路线和/或轨迹以在环境内导航。

在一些示例中，一个或多个地图224可以被存储在经由网络240可访问的远程计算设备(例如，计算设备242)上。在一些示例中，多个地图224可以基于例如特性(例如，实体的类型、一天中的时间、一周中的一天、一年中的季节等)被存储。存储多个地图224可以具有类似的存储器要求，但是增加了可以访问地图中的数据的速度。

在至少一个示例中，车辆计算设备204可以包括一个或多个系统控制器226，其可以被配置为控制车辆202的转向、推进、制动、安全、发射机、通信和其他系统。这些系统控制器226可以与驱动系统214和/或车辆202的其他组件的对应系统通信和/或控制这些系统。

通常，预测组件228可以生成环境中的对象的预测轨迹。例如，预测组件228可以生成针对距车辆202在阈值距离内的车辆、行人、动物等的一个或多个预测轨迹。在一些实例中，预测组件228可以测量对象的路线，并基于观察到的和预测的行为来生成对象的轨迹。

在一些示例中，图像生成组件230可以包括用于生成表示场景的自上而下视图的图像的功能。由图像生成组件230生成的这种图像的示例在图1中示出为示例104、示例126及示例128。

在一些示例中，图像生成组件230可以生成表示车辆202周围的区域的图像。在一些示例中，该区域可以至少部分地基于传感器可见的区域(例如，传感器范围)、滚动时域、与动作(例如，穿越通过十字路口)相关联的区域等。在一些示例中，虽然设想了任何区域，但是图像可以表示车辆202周围的100米×100米的区域。图像生成组件230可以从感知组件222接收关于环境中的对象的数据并且可以从定位组件220、感知组件222和一个或多个地图224接收关于环境本身的数据。图像生成组件230可以生成环境的自上而下视图，该自上而下视图包括：环境中的对象(例如，由边界框表示，如本文所讨论的)、关于对象的语义信息(例如，分类类型)、移动信息(例如，速度信息、加速度信息等)等。图像生成组件230还可以在表示对象和环境的各种属性的图像中生成图像元素(例如，符号或其他图示)，这些图像元素包括但不限于：一个或多个速度向量、一个或多个加速度向量、灯光指示器(例如，对象的制动灯、对象的转向灯等，其被表示为相应的指示器状态)、交通灯信息(例如，交通灯的状态)、车道信息(例如，车道是否为仅左转车道或仅右转车道等)等。

此外，图像生成组件230可以生成包括动作数据的一个或多个通道，如本文所讨论的。例如，动作数据可以包括识别与候选动作相关联的当前车道和/或目标车道。

在一些示例中，图像生成组件230可以生成包括环境的语义信息的一个或多个图像，如本文所讨论的。

在一些示例中，图像生成组件230可以生成表示环境中的对象的轨迹的一个或多个图像。由图像生成组件230生成的图像可表示关于环境的状态和环境中的对象的先验信息，这种先验信息可以用于以预测概率生成，如本文所讨论的。

在本文所讨论的示例中的任一个示例中，图像生成组件230可以生成具有多个通道的图像，其中每个通道表示一些信息(语义信息或其他信息)。

在一些示例中，机器学习组件232(也称为机器学习模型组件232)可以包括用于接收由图像生成组件230生成的图像并生成包括预测概率的一个或多个热图的功能，如本文所讨论的。

在一些实例中，机器学习组件232可以包括一个或多个机器学习模型，这些机器学习模型被训练以基于输入到模型中的自上而下图像来输出一个或多个热图。在一些示例中，机器学习组件232可以包括卷积神经网络(CNN)，其可以或可以不包括一个或多个循环神经网络(RNN)层，例如，长短期记忆(LSTM)层。

在一些示例中，由机器学习组件232输出的热图可以表示接近自主车辆的环境的离散区域。例如，热图可以表示一个64×64的网格(或J×K大小的网格)，从而表示自主车辆周围100米×100米的区域。在一些示例中，由热图表示的区域可以对应于由输入到机器学习组件232的图像表示的区域。当然，热图可以表示任何大小的区域，并且可以表示该区域的任何数量的离散部分。在某些情况下，热图的一部分可以被称为热图的单元。每个单元可以包括预测概率，该预测概率表示在对应于热图的时间时，对象将位于环境中的对应位置处的概率。在一些实例中，机器学习模型可以输出多个热图，其中多个热图中的热图可以表示在未来的特定时间(例如，0.5秒、1秒、3秒、5秒、10秒等)时与对象相关联的概率。

在一些示例中，可以训练机器学习组件232以基于任何数量的输入图像来生成任何数量的热图。例如，机器学习组件232可以接收N个输入图像并且可以输出M个热图。

通常，规划组件234可以确定车辆202要遵循以穿越通过环境的路径。

在一些示例中，轨迹生成组件236可以包括用于确定各种路线和轨迹以及各种细节水平的功能。例如，轨迹生成组件236可以确定从第一位置(例如，当前位置)到第二位置(例如，目标位置)行进的路线。出于本讨论的目的，路线可以是用于在两个位置之间行进的路标序列。作为非限制性示例，路标包括街道、十字路口、全球定位系统(GPS)坐标等。此外，轨迹生成组件236可以生成用于沿着从第一位置到第二位置的路线的至少一部分引导自主车辆的指令。在至少一个示例中，轨迹生成组件236可以确定如何将自主车辆从路标序列中的第一路标引导到路标序列中的第二路标。在一些示例中，指令可以是轨迹或轨迹的一部分。在一些示例中，可以根据滚动时域技术实质上同时(例如，在技术公差内)生成多个轨迹，其中针对车辆202选择多个轨迹中的一个以进行导航。

在一些示例中，评估组件238可以包括用于评估一个或多个候选动作和/或候选轨迹的功能。例如，对于包括与每个动作相关联的预测概率的热图的每个集合，评估组件238可以确定一个或多个成本、风险量和/或回报。在一些示例中，评估组件238可以确定在车辆202的候选位置与关联于环境中的对象的预测概率之间的重叠量。在一些示例中，评估组件238可以确定在车辆202的表示(例如，边界框或扩大的边界框)与关联于对象的预测概率和/或扩大的预测概率之间的距离。在至少一些示例中，这种扩大(无论是作为输入的边界框还是作为输出的预测概率)可以基于安全因素，以便人为地增大对象在未来的可能位置周围的区域。在一些示例中，评估组件238可以确定车辆202的轨迹是否穿越通过关联于与车辆202相关联的预测概率(其可以包括扩大的预测概率)的区域。评估组件238可以确定未来的单个时间步骤处的成本、风险和/或回报，和/或可以确定与候选动作相关联的某些时间步骤或所有时间步骤上的累积成本、风险和/或回报。因此，评估组件238可以比较不同候选动作的成本、风险和/或回报并且可以选择用于控制车辆的动作。

结合于2018年11月30日提交的题为“Probabilistic Risk Assessment forTrajectory Evaluation”的美国专利申请第16/206,877号讨论了评估候选动作的示例。申请第16/206,877号通过引用以其整体并入本文。

评估组件238要考虑的附加成本可以包括但不限于基于位置的成本(例如，基于在与车辆202和对象相关联的预测概率之间的距离)、速度成本(例如，基于在穿越通过与预测概率相关联的区域时所施加的速度)、加速度成本(例如，在整个轨迹候选动作中所施加的加速度边界)、对象可能遵循的道路规则的期望等。

在一些实例中，机器学习组件232可以直接向规划组件234提供热图，规划组件234进而可以选择或确定车辆202要执行的动作，和/或可以生成车辆202要遵循的轨迹。

在一些实例中，本文所讨论的组件中的一些或全部的方面可以包括任何模型、任何算法和/或机器学习算法。例如，在一些实例中，存储器218(以及下文所讨论的存储器246)中的组件可以被实现为神经网络。

如本文所描述的，示例性神经网络是生物学启发算法，其使输入数据通过连接层的序列以产生输出。神经网络中的每一层还可以包括另一神经网络，或者可以包括任何数量的层(无论是否卷积)。如在本公开的上下文中可以理解的，神经网络可以利用机器学习，机器学习可以指代基于学习得出的参数来生成输出的一大类这种算法。

尽管在神经网络的上下文中进行了讨论，但是可以与本公开一致地使用任何类型的机器学习。例如，机器学习算法可以包括但不限于回归算法(例如，普通最小二乘回归(OLSR)、线性回归、逻辑回归、逐步回归、多元自适应回归样条(MARS)、本地估计散点平滑(LOESS))、基于实例的算法(例如，岭回归、最小绝对收缩和选择算子(LASSO)、弹性网、最小角度回归(LARS))、决策树算法(例如，分类和回归树(CART)、迭代二分法器3(ID3)、卡方自动交互检测(CHAID)、决策树桩、条件决策树)、贝叶斯算法(例如，朴素贝叶斯、高斯朴素贝叶斯、多项式朴素贝叶斯、平均一依赖估计器(AODE)、贝叶斯信念网络(BNN)、贝叶斯网络)、聚类算法(例如，k均值、k中位数、期望最大化(EM)、分层聚类)、关联规则学习算法(例如，感知机、反向传播、hopfield网络、径向基函数网络(RBFN))、深度学习算法(例如，深玻尔兹曼机(DBM)、深度信念网络(DBN)、卷积神经网络(CNN)、堆叠式自动编码器)、降维算法(例如，主成分分析(PCA)、主成分回归(PCR)、偏最小二乘回归(PLSR)、Sammon映射、多维标度(MDS)、投影寻踪、线性判别分析(LDA)、混合物判别分析(MDA)、二次判别分析(QDA)、灵活判别分析(FDA))、集成算法(例如，提升、自举聚合(袋装)、AdaBoost、堆叠泛化(混合)、梯度提升机(GBM)、梯度提升回归树(GBRT)、随机森林)、SVM(支持向量机)、有监督学习、无监督学习、半监督学习等。

架构的附加示例包括神经网络，例如，ResNet50、ResNet101、VGG、DenseNet、PointNet等。

在至少一个示例中，传感器系统206可以包括激光雷达传感器、雷达传感器、超声换能器、声呐传感器、位置传感器(例如，GPS、罗盘等)、惯性传感器(例如，惯性测量单元(IMU)、加速度计、磁力计、陀螺仪等)、相机(例如，RGB、IR、强度、深度等)、飞行时间传感器、麦克风、车轮编码器、环境传感器(例如，温度传感器、湿度传感器、光传感器、压力传感器等)等。传感器系统206可以包括这些或其他类型的传感器中的每一个的多个实例。例如，激光雷达传感器可以包括位于车辆502的拐角、前面、后面、侧面和/或顶部的单独的激光雷达传感器。作为另一示例，相机传感器可以包括设置在车辆202外部和/或内部周围的各种位置处的多个相机。传感器系统206可以向车辆计算设备204提供输入。另外地或可替代地，传感器系统206可以以特定频率、在经过预定时间段之后、接近实时等经由一个或多个网络240将传感器数据发送到一个或多个计算设备。

如上面所描述的，车辆202还可以包括用于发射光和/或声音的一个或多个发射机208。在该示例中，发射机208包括内部音频和视觉发射机以与车辆202的乘客进行通信。通过示例而非限制的方式，内部发射机可以包括：扬声器、灯、标志、显示屏、触摸屏、触觉发射机(例如，振动和/或力反馈)、机械致动器(例如，安全带拉紧器、座椅定位器、头枕定位器等)等。在该示例中，发射机208还包括外部发射机。通过示例而非限制的方式，该示例中的外部发射机包括用于以信号通知行驶方向的灯或车辆动作的其他指示器(例如，指示灯、标志、灯阵列等)，以及用于与行人或其他附近的车辆可听地通信的一个或多个音频发射机(例如，扬声器、扬声器阵列、喇叭等)，这些发射机中的一个或多个包括声束转向技术。

车辆202还可以包括一个或多个通信连接210，该通信连接210实现在车辆202与一个或多个其他本地或远程计算设备之间的通信。例如，通信连接210可以促进与车辆202上的其他本地计算设备和/或驱动系统214的通信。而且，通信连接210可以允许车辆与其他附近的计算设备(例如，其他附近的车辆、交通信号等)进行通信。通信连接210还使车辆202能够与远程遥距操作计算设备或其他远程服务通信。

通信连接210可以包括用于将车辆计算设备204连接到另一计算设备或网络(例如，网络240)的物理和/或逻辑接口。例如，通信连接210可以实现基于Wi-Fi的通信，例如，经由IEEE 802.11标准定义的频率、短距离无线频率(例如，蓝牙)、蜂窝通信(例如，2G、3G、4G、4G LTE、5G等)或者使相应的计算设备能够与其他计算设备接合的任何合适的有线或无线通信协议。

在至少一个示例中，车辆202可以包括一个或多个驱动系统214。在一些示例中，车辆202可以具有单个驱动系统214。在至少一个示例中，如果车辆202具有多个驱动系统214，则单个驱动系统214可以定位在车辆202的相对两端(例如，前方和后方等)。在至少一个示例中，驱动系统214可以包括一个或多个传感器系统，以检测驱动系统214和/或车辆202的周围环境的状况。通过示例而非限制的方式，传感器系统可以包括：一个或多个车轮编码器(例如，旋转编码器)以感测驱动系统的车轮的旋转；惯性传感器(例如，惯性测量单元、加速度计、陀螺仪、磁力计等)以测量驱动系统的定向以及加速度；相机或其他图像传感器、超声波传感器以声学地检测驱动系统周围环境中的对象；激光雷达传感器；雷达传感器等。对于驱动系统214而言，诸如车轮编码器之类的一些传感器可以是唯一的。在某些情况下，驱动系统214上的传感器系统可以重叠或补充车辆202的对应系统(例如，传感器系统206)。

驱动系统214可以包括车辆系统中的许多车辆系统，包括：高压电池、推进车辆的电动机、将来自电池的直流电转换成交流电以供其他车辆系统使用的逆变器、包括转向电动机和转向机架(其可以是电动的)的转向系统、包括液压或电动致动器的制动系统、包括液压和/或气动组件的悬架系统、用于分配制动力以减轻牵引力损失并维持控制的稳定性控制系统、HVAC系统、照明(例如，诸如用于照亮车辆的外部环境的前灯/尾灯之类的照明)以及一个或多个其他系统(例如，冷却系统、安全系统、车载充电系统、诸如DC/DC转换器、高压结、高压电缆、充电系统、充电端口等之类的其他电气组件)。另外地，驱动系统214可以包括驱动系统控制器，该驱动系统控制器可以接收和预处理来自传感器系统的数据并控制各种车辆系统的操作。在一些示例中，驱动系统控制器可以包括一个或多个处理器以及与该一个或多个处理器通信地耦合的存储器。存储器可以存储一个或多个组件以执行驱动系统214的各种功能。此外，驱动系统214还包括一个或多个通信连接，该通信连接使得相应的驱动系统能够与一个或多个其他本地或远程计算设备进行通信。

在至少一个示例中，直接连接212可以提供物理接口以将一个或多个驱动系统214与车辆202的主体耦合。例如，直接连接212可以允许能量、流体、空气、数据等在驱动系统214与车辆之间进行传送。在一些实例中，直接连接212可以进一步将驱动系统214可释放地固定到车辆202的主体。

在一些示例中，车辆202可以经由网络240将传感器数据发送到一个或多个计算设备242。在一些示例中，车辆202可以将原始传感器数据发送到计算设备242。在其他示例中，车辆202可以将处理后的传感器数据和/或传感器数据的表示发送到计算设备242。在一些示例中，车辆202可以以特定频率、在经过预定时间段之后、接近实时等将传感器数据发送到计算设备242。在某些情况下，车辆202可以将传感器数据(原始的或处理后的)发送到计算设备242作为一个或多个日志文件。

计算设备242可以包括处理器244和存储训练组件248的存储器246。

在一些实例中，训练组件248可以包括用于训练机器学习模型以输出包括预测概率的一个或多个热图的功能。例如，训练组件248可以接收表示环境的自上而下视图的图像的集合。在一些情况下，该图像的集合可以表示对象在一段时间(例如，5秒、7秒、10秒、20秒等)内穿越通过环境。该图像的集合的至少一部分可以用作用于训练机器学习模型的输入，并且该图像的集合的至少一部分可以用作用于训练机器学习模型的地面真值(groundtruth)信息。作为非限制性示例，可以将图像序列的第一集合(例如，3个、4个、5个或更多个)输入到机器学习模型中。在一些实例中，也可以输入车辆202的意图、目标、子目标等以进行训练(例如，可以被编码为多通道图像的通道)。然后，紧接在图像序列中在第一集合之前的图像的第二集合(或与其相关联的轨迹信息——例如，通过从图像中提取位置和/或速度)可以用作用于训练模型的地面真值。因此，通过提供对象穿越环境的记录的轨迹的图像，可以训练预测组件228以输出包括预测概率的一个或多个热图，如本文所讨论的。

在一些示例中，训练组件248可以包括已经由模拟器生成的训练数据。例如，模拟训练数据可以表示其中车辆与环境中的对象碰撞或几乎与环境中的对象碰撞的示例，以提供附加的训练示例。

下面结合图2B并且贯穿本公开对训练组件248的附加细节进行讨论。

结合图3并且贯穿本公开对用于训练的数据的附加示例进行讨论。

车辆202的处理器216和计算设备242的处理器244可以是能够执行指令以处理数据并执行如本文所描述的操作的任何合适的处理器。通过示例而非限制的方式，处理器216和244可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)或处理电子数据以将该电子数据转换为可以存储在寄存器和/或存储器中的其他电子数据的任何其他设备或设备的一部分。在一些示例中，只要将集成电路(例如，ASIC等)、门阵列(例如，FPGA等)和其他硬件设备配置为实现编码指令，就可以将它们视为处理器。

存储器218和存储器246是非暂时性计算机可读介质的示例。存储器218和存储器246可以存储操作系统和一个或多个软件应用程序、指令、程序和/或数据，以实现本文所描述的方法以及从属于各种系统的功能。在各种实现方式中，可以使用任何合适的存储器技术(例如，静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)，非易失性/闪存类型的存储器或能够存储信息的任何其他类型的存储器)来实现该存储器。本文描述的架构、系统和单个元件可以包括许多其他逻辑组件、程序化组件和物理组件，其中附图中示出的那些仅仅是与本文的讨论相关的示例。

在一些实例中，存储器218和存储器246至少可以包括工作存储器和存储存储器。例如，工作存储器可以是容量有限的高速存储器(例如，高速缓冲存储器)，其用于存储要由处理器216和处理器244操作的数据。在一些实例中，存储器218和存储器246可以包括可以是用于长期存储数据的容量相对大的低速存储器的存储存储器。在一些情况下，处理器216和处理器244无法直接对存储在存储存储器中的数据进行操作，并且可能需要将数据加载到工作存储器中以基于该数据执行操作，如本文所讨论的。

应该注意的是，尽管图2被示为分布式系统，但是在替代示例中，车辆202的组件可以与计算设备242相关联和/或计算设备242的组件可以与车辆202相关联。即，车辆202可以执行与计算设备242相关联的功能中的一个或多个，反之亦然。

图2B描绘了用于训练机器学习模型以实现本文所描述的技术的示例训练组件的框图250。

在一些示例中，训练数据258可以包括由车辆在其穿越通过环境时捕获的数据。这样的训练数据可以包括动作数据262，如果自主车辆捕获了训练数据258，则该动作数据262可以表示由这种自主车辆执行的动作。在一些示例中，输入252可以至少部分地基于动作数据262和训练数据258。

包括一个或多个多通道图像的输入252可以被输入到机器学习组件232。在一些示例中，机器学习组件232可以包括ResNet架构。在一些示例中，机器学习组件232可以包括作为基础主干的ResNet架构。在一些示例中，动作数据可以沿着输入252被输入，其中动作数据可以表示为动作数据262。

在一些示例中，输出特征图可以通过1×1卷积以获得最终通道维度，其可以被双线性上采样(例如，经由上采样组件254)以匹配输入分辨率，这表示为输出信息256(例如，热图和/或预测概率)。

在一些示例中，可以使用sigmoid交叉熵损失将来自机器学习组件232的输出logits与训练数据258(例如，表示占用图的地面真值)进行比较。

交叉熵损失和/或概率质量组件260可以包括用于将输出logits与训练数据258进行比较的功能。然后，可以根据以下函数在训练数据258中的占用像素和未占用像素之间平衡所获得的损失矩阵：

其中，L_i是从未来第i步的sigmoid交叉熵损失获得的损失矩阵，N是被预测的未来步骤。项目l_occupied和项目l_unoccupied为指示符矩阵，这些指示符矩阵表示对象在未来的占用地图和未占用地图，并且项目n_occupied和项目n_unoccupied表示在未来的占用单元的数量和未占用单元的数量。使占用平衡确保相等(或大致相等)数量的占用梯度和未占用梯度通过反向传播，并确保预测组件228不会倾向于将所有单元预测为占用或未占用。

上面等式(1)中所指定的密集分割成本可能无法保存场景中实体的总数。在一些示例中，交叉熵损失和/或概率质量组件260可以包括附加成本，以使场景中由预测组件228预测的总概率质量(例如，与热图相关的概率的总和)与占用单元的实际数量之间的差异最小化为：

其中，Φ_i表示在未来的步骤i处的占用地图，通过加入概率质量组件，预测组件228可以在可用单元之间分发总概率质量而不产生附加的概率质量。例如，如果自主车辆有两种可能的模式，则网络可以在两种模式之间分发占用概率，而不添加任何附加的占用概率。

此外，约束或以其他方式管理场景的质量限制了网络将附加对象添加到环境中的可用性，这可以简化处理。

图3描绘了根据本公开的示例的预测系统的输入和用于训练预测系统的训练数据的示例图示300。

例如，多通道图像302表示对预测组件228的输入并且表示过去的对象。例如，与每个图像相关的时间在右下角示出(例如，t_-8、t_-7、t_-6、t_-5、t_-4、t_-3、t_-2、t_-1以及t₀)。如上面所讨论的，每个帧还可以由若干个通道组成。

例如，单个通道可以表示但不限于以下各项中的一个或多个：边界框(例如，表示车辆304或对象306的边界框，其中边界框的颜色或通道表示与边界框相关联的对象的分类)、边界框在x方向和y方向上的速度(其中速度可以表示为在区域中编码的数字，该区域表示与边界框相对应的另一通道(例如，通道136和通道142)的区域，其中x速度和y速度在不同的通道中表示)、对象在x方向和y方向上的加速度(其中，加速度可以表示为一个通道或多个通道中的向量，其中x加速度和y加速度在不同的通道中表示)、与边界框相关联的闪光灯状态(例如，左转、右转、制动、倒车、危险、无灯等)、道路网络信息(例如，指示车道、参考线(例如，参考线308)、人行横道、停止标志、十字路口、交通灯等的语义标签)、交通灯状态(例如，红灯、黄灯、绿灯等)等。在一些示例中，多个通道可以被输入到预测系统以生成至少一个热图。

此外，动作数据可以表示为当前车道310和目标车道312。在一些示例中，动作数据可以在表示时间t_-7到t₀的环境的图像中的一个或多个中进行编码。

通过堆叠上述特征图像中的一些或全部，自上而下特征被表示为图像斑点(imageblob)。在一些示例中，可以基于传感器分辨率的分辨率将多通道图像302的分辨率设置为每像素15cm。在一些示例中，多通道图像302的单个帧可以对应于50米×50米大小的区域，但是也可以选择任何区域。在一些示例中，多通道图像302可以被旋转和平移，使得车辆304(例如，自主车辆)从左朝向右，并且在具有可配置水平偏移的多通道图像302中近似居中。在一些示例中，由多通道图像表示的环境可以表示无交通灯交叉口以进行预测，在这种情况下，每个车道的交通灯状态可能未被包括在自上而下表示中。

训练数据314表示环境中所有对象和车辆的地面真值。训练数据314可以包括未来的任何数量的帧。图3示出了在时间t₁、时间t₂、时间t₃、时间t₄、时间t₅、时间t₆、时间t₇与时间t₈处的训练数据。例如，出于对机器学习组件232进行训练的目的，训练数据314可以对应于图2的训练数据258。

图4是根据本公开的示例的包括两个并排停放车辆的场景的第一预测概率和第二预测概率的图示400，其中第二预测概率部分地基于动作数据。

预测概率402指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率402并非部分地基于动作数据。在预测概率402的第一帧(图示为帧t₁)中，场景表示车辆406、对象408及对象410。箭头412指示与环境相关联的交通方向。贯穿本公开使用了交通方向的类似指示。

场景中的对象408和对象410表示两个并排停放车辆。预测概率414由预测组件228输出，表示在时间t₁时与车辆406相关联的预测概率。预测概率416和预测概率418分别与对象408和对象410相关联。预测概率402被示为随时间的推移而演变，如由预测组件228确定的。

预测概率404指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率402部分地基于动作数据(示为灰色阴影车道)。预测概率422与车辆406相关联，而预测概率424和426分别与对象408和410相关联。预测概率404被示为随时间的推移而演变，如由预测组件228确定的。

图5是根据本公开的示例的包括并排停放车辆的场景的第一预测概率和第二预测概率的图示500，其中第二预测概率部分地基于动作数据。

预测概率502指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，预测概率502并非部分地基于动作数据。在预测概率502的第一帧(图示为帧t₁)中，场景表示车辆506以及对象508、510和512。

对象508表示并排停放的车辆。对象510和512表示相对于车辆506的迎面而来的车辆。

值得注意的是，预测概率502表示与车辆506相关联的非连续预测概率。例如，在时间t₆时，预测概率514和516与车辆506相关联。在时间t₇时，预测概率518和520与车辆506相关联。并且在时间t₈时，预测概率522和524与车辆506相关联。预测概率502被示为随时间的推移而演变，如由预测组件228确定的。

预测概率504指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率部分地基于动作数据526(示为灰色阴影车道)。

值得注意的是，与车辆506相关联的预测概率504并未表现出不连续的区域，而是表示围绕对象508穿越的车辆506。预测概率504被示为随时间的推移而演变，如由预测组件228确定的。

图6是根据本公开的示例的包括对象在自主车辆前方转弯的场景的第一预测概率和第二预测概率的图示600，其中第二预测概率部分地基于动作数据。

预测概率602指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，预测概率602并非部分地基于动作数据。在预测概率602的第一帧(图示为帧t₁)中，场景表示车辆606及对象608。

对象608表示在车辆606前方转弯进入车道的车辆。

值得注意的是，与帧t₂中的区域610(以及帧t₃-t₈中的对应区域)相关的预测概率与对象608相关联，而预测概率612与车辆606相关联。预测概率602被示为随时间的推移而演变，如由预测组件228确定的。

预测概率604指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率部分地基于动作数据614及616(示为灰色阴影车道)。动作数据614可对应于当前车道(或现有车道)，而动作数据616可对应于目标车道(或所进入的车道)。

与帧t₂中的区域618(以及帧t₃-t₈中的对应区域)相关联的预测概率与对象608相关联，而预测概率620与车辆606相关联。预测概率604被示为随时间的推移而演变，如由预测组件228确定的。

图7是根据本公开的示例的包括自主车辆穿越交叉口的场景的第一预测概率和第二预测概率的图示700，其中第二预测概率部分地基于动作数据。

预测概率702指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率702并非部分地基于动作数据。在预测概率702的第一帧(图示为帧t₁)中，场景表示车辆706及对象708。

图7中所示的场景表示车辆706在对象708前方穿过交叉口，表示车辆转入车辆606前方的车道。

值得注意的是，预测概率710、712、714和716(例如，在相应的虚线中的这些预测概率)表示与车辆706相关联的预测概率，从而示出了预测概率的多模态输出。预测概率702被示为随时间的推移而演变，如由预测组件228确定的。

预测概率704指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率部分地基于动作数据718及720(示为灰色阴影车道)。动作数据718可对应于当前车道(或现有车道)，而动作数据720可对应于目标车道(或所进入的车道)。

预测概率722、724、726和728与对象708相关联，而相应的其余预测概率与车辆706相关联。因此，预测概率704表示与车辆706相关联的位置的更明确的预测，这可以产生更为准确的预测。预测概率704被示为随时间的推移而演变，如由预测组件228确定的。

图8是根据本公开的示例的包括自主车辆进入阻塞的交叉口的场景的第一预测概率和第二预测概率的图示800，其中第二预测概率部分地基于动作数据。

预测概率802指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率802并非部分地基于动作数据。在预测概率802的第一帧(图示为帧t₁)中，场景表示车辆806和对象808、810和812。

图8中的场景表示在交叉口处的车辆806期望跟随对象808和120向右转弯。

值得注意的是，预测概率814、816、818和820(例如，在相应的虚线中的这些预测概率)表示与车辆806相关联的预测概率，从而示出了预测概率的多模态输出。预测概率802被示为随时间的推移而演变，如由预测组件228确定的。

预测概率804指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率部分地基于动作数据822及824(示为灰色阴影车道)。动作数据822可对应于当前车道(或现有车道)，而动作数据824可对应于目标车道(或所进入的车道)。

预测概率826、828、830和832与车辆806相关联，而相应的其余预测概率与对象808、810或812相关联。因此，预测概率804表示与车辆806相关联的位置的更明确的预测，这可以产生更为准确的预测。预测概率804被示为随时间的推移而演变，如由预测组件228确定的。

图9是根据本公开的示例的包括自主车辆穿越另一交叉口的场景的第一预测概率和第二预测概率的图示900，其中第二预测概率部分地基于动作数据。

预测概率902指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率902并非部分地基于动作数据。在预测概率902的第一帧(图示为帧t₁)中，场景表示车辆806和对象808、810和812。

图9表示在交叉口处的车辆906预期穿过该交叉口。在该示例中，因为车辆906的目标车道没有被阻塞，所以车辆906前往目标。在无条件的情况下(例如，由预测概率902表示)，网络建议车辆906可以右转、左转或直行，但不确定车辆906会选择哪一种行为。

值得注意的是，预测概率914、916、918和920(例如，在相应的虚线中的这些预测概率)表示与车辆906相关联的预测概率，从而示出了预测概率的分散模态输出。预测概率902被示为随时间的推移而演变，如由预测组件228确定的。

预测概率904指代说明预测组件228的输出的八个帧的序列(标记为t₁至t₈)，由此预测概率部分地基于动作数据922及924(示为灰色阴影车道)。动作数据922可对应于当前车道(或现有车道)，而动作数据924可对应于目标车道(或所进入的车道)。

预测概率926、928、930和932与车辆906相关联，而相应的其余预测概率与对象908、910或912相关联。因此，预测概率904表示与车辆906相关联的位置的更明确的预测，这可以产生更为准确的预测。预测概率904被示为随时间的推移而演变。

图1、图2B及图10示出了根据本公开的实施例的示例过程。这些过程被示为逻辑流程图，其每个操作表示可以以硬件、软件或其组合实现的一系列操作。在软件的上下文中，操作表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，该计算机可执行指令当由一个或多个处理器执行时，执行所引述的操作。通常，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序不应被解释为限制，并且任何数量的所描述的操作可以以任何次序和/或并行地组合以实现这些过程。

图10描绘了根据本公开的示例的用于接收传感器数据和动作数据、生成多通道图像、评估预测概率并且基于预测概率来控制车辆的示例过程1000。例如，过程1000中的一些或全部可以由图2中的一个或多个组件执行，如本文所描述的。例如，过程1000中的一些或全部可以由车辆计算设备204和/或计算设备242执行。

在操作1002处，该过程可以包括接收环境的对象数据，该对象数据表示一个对象。在一些示例中，对象数据可以将数据表示为自主车辆的感知系统的输出。例如，对象数据可以包括但不限于边界框信息、速度/加速度信息、分类等。在一些示例中，操作1002可以包括使用自主车辆的传感器来捕获环境的传感器数据。例如，传感器数据可以包括由激光雷达传感器、雷达传感器、图像传感器、飞行时间传感器、声纳传感器等中的一个或多个捕获的数据。在一些示例中，操作1002可以包括使用多个传感器捕获传感器数据，并且将传感器数据融合或组合成环境的细节和信息表示。在至少一些示例中，可以接收附加数据(例如，地图数据)，其可以对关于环境的附加数据(人行横道的位置、车道边界等)进行编码。

在操作1004处，该过程可以包括接收与车辆要在环境中执行的候选动作相关联的动作数据。在一些示例中，动作数据可以包括当前车道、目标车道和/或速度或加速度信息，例如，与每个动作相关联的速度简档或加速度简档。候选动作的示例可包括但不限于保持在车道中动作、左转动作、右转动作、车道改变动作、停止动作、让行动作、并线动作等。

在操作1006处，该过程可以包括至少部分地基于传感器数据和动作数据来生成表示环境的自上而下视图的多通道图像。贯穿本公开讨论了这种多通道图像的示例。例如，多通道图像可以将对象表示为边界框、对象的速度、对象在环境中的位置等。在一些示例中，多通道图像可以包括加速度信息(而不是速度信息或除了速度信息之外)。

在一些示例中，动作数据可以表示为当前车道和目标车道、编码到多通道图像的通道中的速度信息或加速度信息。

可以被包括在多通道图像中的附加信息可以包括但不限于：与边界框相关联的对象的分类；边界框在x方向、y方向和/或z方向上的速度(其中速度可以表示为一个通道或多个通道中的数量或向量，其中x速度、y速度和/或z方向在不同的通道中表示)；对象在x方向、y方向和/或z方向上的加速度(其中加速度可以表示为一个通道或多个通道中的数量或向量，其中x加速度、y加速度和/或z加速度在不同的通道中表示)；车辆的姿态(例如，x、y、z、侧倾、俯仰、偏摆)；姿态的改变速率；与边界框相关的闪光灯状态(例如，左转、右转、制动、倒车、危险、无灯等)；道路网络信息(例如，指示车道、人行横道、停止标志、十字路口、交通灯等的语义标签)；交通灯状态(例如，红灯、黄灯、绿灯等)等。如本文详细描述的，在这种多通道图像中，可以在一个或多个通道中对关于对象和环境的语义信息进行编码。

如本文所讨论的，操作1006可以包括生成表示环境中的对象随时间的推移的行为的多个图像。

在操作1008处，该过程可以包括确定候选动作已经被考虑。例如，操作1008可以包括确定是否针对多个候选动作中的每个候选动作生成了多通道图像。如果尚未考虑到所有(或尚未考虑到实质上的所有)候选动作(例如，操作1008中的“否”)，则该过程可以返回到操作1006，以生成附加的多通道图像。如果已经考虑到所有候选动作(例如，操作1008中的“是”)，则过程继续到操作1010。当然，在一些示例中，可取决于实现方式并行地执行多个操作。

在操作1010处，该过程可以包括将多通道图像输入到机器学习模型中。可以对这种机器学习模型进行训练，以生成多个预测概率(例如，作为热图)。贯穿本公开讨论了机器学习模型、热图和预测概率的附加细节。

在操作1012处，该过程可以包括从机器学习模型接收与对象和/或车辆相关联的预测概率。贯穿本公开讨论了机器学习模型、热图和预测概率的附加细节。

在操作1014处，该过程可以包括至少部分地基于预测概率来评估候选动作。如本文所讨论的，操作1014可以包括确定与候选动作相关联的一个或多个成本、风险和/或回报。例如，可以对候选动作进行评估，以针对与候选动作相关联的轨迹确定在与沿候选轨迹的自主车辆相关联的区域与一个或多个预测概率之间的重叠量。在一些示例中，在与自主车辆相关联的区域与对象的预测概率之间的重叠量可以表示与这种候选动作相关联的风险量。在一些示例中，在与自主车辆相关联的区域与自主车辆的预测概率之间的重叠量可以表示自主车辆保持在预测概率范围内的程度。在一些示例中，可以基于在与自主车辆相关联的预期位置与关联于对象的预测概率之间的一个或多个距离来评估候选动作。

操作1014还可以包括至少部分地基于评估来选择或以其他方式确定候选动作。例如，可以比较与候选动作相关联的成本，并且可以选择与最低成本相关联的候选动作来控制自主车辆。

在操作1016，该过程可以包括至少部分地基于预测概率来控制车辆。在一些示例中，操作1016可以包括确定用于自主车辆的轨迹。在一些示例中，轨迹可以基于选定的要由车辆执行的候选动作，并且可以表示与未对预测概率进行评估而生成的轨迹相比更加安全和/或更为平滑的轨迹，如本文所讨论的。在一些示例中，操作1016可以包括控制自主车辆的转向、制动和/或加速中的一个或多个以穿越通过环境。

因此，本文讨论的操作改进了预测，并为规划系统提供了对可能的未来进行搜索的方式。

示例条款

A：一种系统，包括：一个或多个处理器；以及一个或多个计算机可读介质，其存储可由一个或多个处理器执行的指令，其中，该指令在被执行时使该系统执行包括以下各项的操作：接收由自主车辆的传感器所捕获的环境的传感器数据；接收与自主车辆要在环境中执行的候选动作相关联的动作数据，其中，候选动作包括保持在车道中动作、转弯动作或车道改变动作中的一个或多个，并且其中，动作数据指示候选动作；至少部分地基于传感器数据和动作数据来生成表示环境的自上而下视图的多通道图像，该多通道图像表示与环境中靠近自主车辆的车辆相关联的边界框、与车辆相关联的运动学信息或语义信息中的一个或多个、以及与自主车辆相关联的候选动作；将多通道图像输入到机器学习模型中，该机器学习模型被训练以生成包括与车辆相关联的可能位置的预测概率的热图；至少部分地基于热图来确定与候选动作相关联的成本；并且至少部分地基于与候选动作相关联的成本来确定自主车辆要在环境中行驶的轨迹。

B：段落A的系统，其中，生成表示与自主车辆相关联的候选动作的多通道图像包括：生成表示与候选动作相关联的环境中的目标车道的多通道图像的通道，目标车道指示自主车辆要占用的预期车道。

C：段落A或B的系统，其中，生成表示与自主车辆相关联的候选动作的多通道图像包括：生成多通道图像的通道，该通道表示与候选动作相关联的自主车辆的目标速度或目标加速度。

D：段落A至C中任一个的系统，其中，预测概率被表示为与未来时间相关联的占用网格，并且其中，占用网格的单元指示车辆在未来时间时处于与单元相关联的区域中的概率。

E：段落A至D中任一个的系统，其中，候选动作是第一候选动作，其中，热图是第一热图，其中，预测概率是第一预测概率，并且其中，成本是第一成本，操作还包括：至少部分地基于传感器数据和第二候选动作来确定包括与车辆相关联的第二预测概率的第二热图；至少部分地基于第二热图来确定第二成本；至少部分地基于第一成本和第二成本来从第一候选动作或第二候选动作中选择选定的动作；并且至少部分地基于选定的动作来确定轨迹。

F：一种方法，包括：接收表示环境中的对象的对象数据；接收与车辆要在环境中执行的候选动作相关联的动作数据；至少部分地基于对象数据和动作数据来生成表示环境的自上而下视图的多通道图像，多通道图像表示对象、与对象相关联的运动信息以及与车辆相关联的候选动作；将多通道图像输入到机器学习模型中；从机器学习模型接收与对象相关联的预测概率；以及至少部分地基于预测概率来控制车辆以穿越环境。

G：段落F的方法，其中，预测概率是第一预测概率，方法还包括，从机器学习模型接收与车辆相关联的第二预测概率。

H：段落F或G的方法，其中，候选动作包括以下各项中的至少一个：保持在车道中动作；车道改变动作；或者转弯动作；并且其中，生成表示与车辆相关联的候选动作的多通道图像包括：生成表示与候选动作相关联的目标车道的多通道图像的通道。

I：段落H的方法，其中，通道是第一通道，并且其中，生成表示与车辆相关联的候选动作的多通道图像还包括：生成表示与候选动作相关联的车辆的目标速度或目标加速度的多通道图像的第二通道。

J：段落F至I中任一个的方法，其中：多通道图像还包括一个或多个通道，一个或多个通道包括环境中的附加对象的附加对象信息；并且多通道图像是与当前时间之前的一个或多个先前时间相关联的多个多通道图像中的一个。

K：段落J的方法，还包括：从机器学习模型接收多个预测概率，多个预测概率表示在当前时间之后的一个或多个未来时间时的环境。

L：段落F至K中任一个的方法，其中，预测概率是与当前时间之后的第一时间相关联的第一预测概率，方法还包括：从机器学习模型接收与对象相关联的第二预测概率，第二预测概率与第一时间之后的第二时间相关联；其中，与第一预测概率相关联的第一概率量在与第二预测概率相关联的第二概率量的阈值量内。

M：段落F至L中任一个的方法，其中，对象数据至少部分地基于以下各项中的至少一个：图像数据、激光雷达数据、雷达数据或飞行时间数据。

N：段落F至M中任一个的方法，其中，机器学习模型包括卷积神经网络。

O：段落F至N中任一个的方法，其中：动作数据为第一动作数据；候选动作为第一候选动作；多通道图像为第一多通道图像；环境的自上而下视图是环境的第一自上而下视图；以及预测概率为与第一候选动作相关联的第一预测概率；方法还包括：接收与车辆要在环境中执行的第二候选动作相关联的第二动作数据；至少部分地基于对象数据和第二动作数据来生成表示环境的第二自上而下视图的第二多通道图像；将第二多通道图像输入到机器学习模型中；以及从机器学习模型接收与对象相关联的第二预测概率。

P：段落O的方法，该方法还包括：确定与第一预测概率相关联的第一成本；至少部分地基于第二预测概率来确定第二成本；至少部分地基于第一成本和第二成本，选择第一候选动作或第二候选动作中的一个作为选定的动作；以及至少部分地基于选定的动作来控制车辆以穿越环境。

Q：一种存储指令的非暂时性计算机可读介质，当该指令被执行时，使一个或多个处理器执行包括以下各项的操作：接收表示环境中的对象的对象数据；接收与车辆要在环境中执行的候选动作相关联的动作数据，其中，候选动作包括以下各项中的一个或多个：保持在车道中动作、转弯动作或车道改变动作，并且其中，动作数据指示候选动作；至少部分地基于对象数据和动作数据来生成多通道图像，多通道图像表示对象、与对象相关联的运动信息以及与车辆相关联的候选动作；将多通道图像输入到机器学习模型中；从机器学习模型接收与对象相关联的预测概率；以及至少部分地基于预测概率和候选动作来控制车辆以穿越环境。

R：段落Q的非暂时性计算机可读介质，其中，生成表示与车辆相关联的候选动作的多通道图像包括：生成多通道图像的通道，该通道表示与候选动作相关联的目标车道，目标车道指示车辆要占用的预期车道。

S：段落Q或段落R的非暂时性计算机可读介质，其中，通道是第一通道，并且其中，生成表示与车辆相关联的候选动作的多通道图像还包括：生成多通道图像的第二通道，该第二通道表示与候选动作相关联的车辆的目标速度或目标加速度。

T：段落Q至段落S中任一个的非暂时性计算机可读介质，其中：动作数据为第一动作数据；候选动作为第一候选动作；多通道图像为第一多通道图像；并且预测概率为与第一候选动作相关联的第一预测概率；操作还包括：接收与车辆要在环境中执行的第二候选动作相关联的第二动作数据；至少部分地基于对象数据和第二动作数据来生成表示对象、运动信息和第二候选动作的第二多通道图像；将第二多通道图像输入到机器学习模型中；以及从机器学习模型接收与对象相关联的第二预测概率。

尽管关于一个特定实现描述了上述示例条款，但是应当理解，在本文档的上下文中，示例条款的内容也可以经由方法、设备、系统、计算机可读介质和/或另一种实现方式来实现。此外，示例A至T中的任一个可单独实现或者与示例A至T中的任何其他一个或多个组合。

结论

尽管已经描述了本文描述的技术的一个或多个示例，但是各种变更、添加、置换和其等同物也被包括在本文描述的技术的范围内。

在示例的描述中，参考构成其一部分的附图，其通过说明的方式示出了要求保护的主题的具体示例。应当理解，可以使用其他示例，并且可以进行诸如结构改变之类的改变或变更。这样的示例、改变或变更不一定相对于旨在要求保护的主题偏离范围。尽管本文的步骤可以按一定次序呈现，但在一些情况下，可以改变次序，使得在不改变所描述的系统和方法的功能的情况下，在不同时间或以不同次序提供某些输入。所公开的过程也可以以不同的次序执行。另外地，不需要以所公开的次序执行本文的各种计算，并且可以容易地实现使用计算的替代次序的其他示例。除了被重新排序外，这些计算还可以被分解为具有相同结果的子计算。

Claims

1.一种方法，包括：

接收表示环境中的对象的对象数据；

接收与车辆要在所述环境中执行的候选动作相关联的动作数据；

至少部分地基于所述对象数据和所述动作数据来生成表示所述环境的自上而下视图的多通道图像，所述多通道图像表示所述对象、与所述对象相关联的运动信息以及与所述车辆相关联的所述候选动作；

将所述多通道图像输入到机器学习模型中；

从所述机器学习模型接收与所述对象相关联的预测概率；以及

至少部分地基于所述预测概率来控制所述车辆以穿越所述环境。

2.根据权利要求1所述的方法，其中，所述预测概率是第一预测概率，所述方法还包括，

从所述机器学习模型接收与所述车辆相关联的第二预测概率。

3.根据权利要求1或2所述的方法，其中，所述候选动作包括以下各项中的至少一个：

保持在车道中动作；

车道改变动作；或者

转弯动作；并且

其中，生成表示与所述车辆相关联的所述候选动作的所述多通道图像包括生成以下各项中的至少一个：

所述多通道图像的第一通道，所述第一通道表示与所述候选动作相关联的目标车道；或者

所述多通道图像的第二通道，所述第二通道表示与所述候选动作相关联的所述车辆的目标速度或目标加速度。

4.根据权利要求1-3中任一项所述的方法，其中：

所述多通道图像还包括一个或多个通道，所述一个或多个通道包括所述环境中的附加对象的附加对象信息；并且

所述多通道图像是与当前时间之前的一个或多个先前时间相关联的多个多通道图像中的一个。

5.根据权利要求4所述的方法，还包括：

从所述机器学习模型接收多个预测概率，所述多个预测概率表示在所述当前时间之后的一个或多个未来时间时的所述环境。

6.根据权利要求1至5中任一项所述的方法，其中，所述预测概率是与当前时间之后的第一时间相关联的第一预测概率，所述方法还包括：

从所述机器学习模型接收与所述对象相关联的第二预测概率，所述第二预测概率与所述第一时间之后的第二时间相关联；

其中，与所述第一预测概率相关联的第一概率量在与所述第二预测概率相关联的第二概率量的阈值量内。

7.根据权利要求1-6中任一项所述的方法，其中，以下各项中的至少一个：

所述对象数据至少部分地基于以下各项中的至少一个：图像数据、激光雷达数据、雷达数据或飞行时间数据；或者

所述机器学习模型包括卷积神经网络。

8.根据权利要求1-7中任一项所述的方法，其中，所述预测概率被表示为与未来时间相关联的占用网格，并且

其中，所述占用网格的单元指示所述车辆在所述未来时间时处于与所述单元相关联的区域中的概率。

9.根据权利要求1-8中任一项所述的方法，其中：

所述动作数据为第一动作数据；

所述候选动作为第一候选动作；

所述多通道图像为第一多通道图像；

所述环境的所述自上而下视图是所述环境的第一自上而下视图；以及

所述预测概率为与所述第一候选动作相关联的第一预测概率；

所述方法还包括：

接收与所述车辆要在所述环境中执行的第二候选动作相关联的第二动作数据；

至少部分地基于所述对象数据和所述第二动作数据来生成表示所述环境的第二自上而下视图的第二多通道图像；

将所述第二多通道图像输入到所述机器学习模型中；以及

从所述机器学习模型接收与所述对象相关联的第二预测概率。

10.根据权利要求9所述的方法，所述方法还包括：

确定与所述第一预测概率相关联的第一成本；

至少部分地基于所述第二预测概率来确定第二成本；

至少部分地基于所述第一成本和所述第二成本，选择所述第一候选动作或所述第二候选动作中的一个作为选定的动作；以及

至少部分地基于所述选定的动作来控制所述车辆以穿越所述环境。

11.一种包括编码的指令的计算机程序产品，所述编码的指令当在计算机上运行时实现根据权利要求1-10中任一项所述的方法。

12.一种系统，包括：

一个或多个处理器；以及

一种或多种非暂时性计算机可读介质，其存储能够由所述一个或多个处理器执行的指令，其中，所述指令当被执行时，使所述系统执行包括以下各项的操作：

接收表示环境中的对象的对象数据；

接收与车辆要在所述环境中执行的候选动作相关联的动作数据，其中，所述候选动作包括以下各项中的一个或多个：保持在车道中动作、转弯动作或车道改变动作，并且其中，所述动作数据指示所述候选动作；

至少部分地基于所述对象数据和所述动作数据来生成多通道图像，所述多通道图像表示所述对象、与所述对象相关联的运动信息以及与所述车辆相关联的所述候选动作；

将所述多通道图像输入到机器学习模型中；

至少部分地基于所述预测概率和所述候选动作来控制所述车辆以穿越所述环境。

13.根据权利要求12所述的系统，其中，生成表示与所述车辆相关联的所述候选动作的所述多通道图像包括：生成所述多通道图像的通道，所述通道表示与所述候选动作相关联的目标车道，所述目标车道指示所述车辆要占用的预期车道。

14.根据权利要求13所述的系统，其中，所述通道是第一通道，并且其中，生成表示与所述车辆相关联的所述候选动作的所述多通道图像还包括：生成所述多通道图像的第二通道，所述第二通道表示与所述候选动作相关联的所述车辆的目标速度或目标加速度。

15.根据权利要求12-14中任一项所述的系统，其中：

所述动作数据为第一动作数据；

所述候选动作为第一候选动作；

所述多通道图像为第一多通道图像；并且

所述操作还包括：

至少部分地基于所述对象数据和所述第二动作数据来生成表示所述对象、所述运动信息和所述第二候选动作的第二多通道图像；

将所述第二多通道图像输入到所述机器学习模型中；以及