CN115485698A

CN115485698A - 时空交互网络

Info

Publication number: CN115485698A
Application number: CN202080079416.0A
Authority: CN
Inventors: J.毛; 高继扬; Y.刘; C.李; Z.张; D.安圭洛夫
Original assignee: Waymo LLC
Current assignee: Waymo LLC
Priority date: 2019-11-15
Filing date: 2020-11-16
Publication date: 2022-12-16
Also published as: EP4052190A4; IL292873A; CA3160651A1; EP4052190A1; US11610423B2; WO2021097431A1; US20210150199A1

Abstract

用于使用时空交互网络处理点云数据的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。实施例描述了被实现为在一个或更多个位置的一个或更多个计算机上的计算机程序的系统，所述计算机程序处理点云数据输入的时间序列以对由点云数据输入表征的代理(例如，行人、载具、自行车手、摩托车手、或其他移动对象)进行预测。

Description

时空交互网络

本申请要求于2019年11月15日提交的第62/936,259号美国临时申请的权益。在先申请的公开被认为是本申请的公开的一部分，并且通过引用并入本申请的公开中。

背景技术

本说明书涉及使用神经网络处理点云数据以生成表征环境中的一个或更多个代理的输出。

环境可以是现实世界环境，并且代理可以是例如环境中的自动驾驶载具附近的行人。对环境中的行人进行预测是例如由自动驾驶载具进行运动规划所需的任务。

自动驾驶载具包括自主驾驶汽车、船和飞机。自动驾驶载具使用各种机载传感器和计算机系统来检测附近的对象，并使用这种检测来做出控制和导航决策。

一些自动驾驶载具具有实现神经网络、其他类型的机器学习模型或两者的机载计算机系统，用于各种预测任务，例如图像内的对象分类。例如，能够使用神经网络来确定由机载相机捕获的图像可能是附近汽车的图像。神经网络(或为简洁起见，网络)是采用多层操作来从一个或更多个输入预测一个或更多个输出的机器学习模型。神经网络通常包括位于输入层和输出层之间的一个或更多个隐藏层。每个层的输出用作网络中的另一层(例如，下一隐藏层或输出层)的输入。

神经网络的每一层指定要对该层的输入执行的一个或更多个变换操作。一些神经网络层具有被称为神经元的操作。每个神经元接收一个或更多个输入并生成由另一神经网络层接收的输出。通常，每个神经元接收来自其他神经元的输入，并且每个神经元向一个或更多个其他神经元提供输出。

神经网络的架构指定网络中包括哪些层及其属性，以及网络的每一层的神经元如何连接。换句话说，架构指定哪些层将其输出作为输入提供给哪些其他层以及如何提供输出。

每一层的变换操作由安装有实现变换操作的软件模块的计算机执行。因此，被描述为执行操作的层意味着实现层的变换操作的计算机执行操作。

每一层使用该层的参数集的当前值生成一个或更多个输出。因此，训练神经网络涉及连续地对输入执行前向传递，计算梯度值，以及使用计算的梯度值(例如，使用梯度下降)更新每个层的参数集的当前值。一旦训练了神经网络，就能够使用参数值的最终集合来在生产系统中进行预测。

发明内容

本说明书总体上描述了在一个或更多个位置中的一个或更多个计算机上实现为计算机程序的系统，所述计算机程序处理点云数据输入的时间序列以对由点云数据输入表征的代理(例如，行人、载具、自行车手、摩托车手或其他移动对象)进行预测。

本说明书中描述的主题能够在特定实施例中实现，以便实现以下优点中的一个或更多个。

检测代理，更具体地，检测行人并预测他们的未来轨迹是许多应用(诸如自动驾驶)的关键任务。特别地，为了安全且平稳地驾驶，自动驾驶载具不仅需要检测对象当前所在的位置(即对象检测)，而且还需要预测它们将来将前往的位置(即轨迹预测)。在自主驾驶汽车经常遇到的不同类型的对象中，行人是现有技术准确检测和预测的重要且困难的类型。困难至少部分地来自行人外观和行为的复杂特性，例如行人身体的可变形形状和行人之间的人际关系。

现有系统将检测和轨迹预测视为单独的任务，或者简单地在对象检测器的顶部添加轨迹回归头(trajectory regression head)。

另一方面，所描述的技术采用被称为时空交互网络的端到端两阶段神经网络。除了行人的3D几何建模之外，时空交互网络还对每个行人的时间信息进行建模。为此，时空交互网络在第一阶段预测当前位置和过去位置两者，使得每个行人能够跨帧链接，并且能够在第二阶段捕获全面的时空信息。此外，时空交互网络利用交互图对对象之间的交互进行建模，以收集任何给定行人的相邻对象之间的信息。这产生了一种系统，该系统实现了针对代理(例如，针对行人代理类型)的对象检测和未来轨迹预测两者的现有技术结果(state-of-the-art result)。

在附图和以下描述中阐述了本说明书的主题的一个或更多个实施例的细节。根据说明书、附图和权利要求书，主题的其他特征、方面和优点将变得清楚。

附图说明

图1是示例系统的示图。

图2是用于处理点云数据的时间序列的示例过程的流程图。

图3示出了点云处理系统针对点云输入的给定时间序列的操作。

图4示出了由STI特征提取器生成给定时间区域提议的时间区域提议特征的示例。

各个附图中相同的附图标记和名称指示相同的元件。

具体实施方式

本说明书描述了载具(例如，自动或半自动驾驶载具)能够如何通过处理点云输入的时间序列来生成表征环境中载具附近的周围代理的预测。

每个点云输入包括从由载具的一个或更多个传感器以对应时间步长捕获的数据生成的点云数据。点云数据包括定义多个三维点的数据，即，在一些指定坐标系中的点的坐标，以及可选地，多个三维点中的每一个的特征，例如强度、第二返回等。

该序列被称为“时间”序列，这是因为点云输入根据传感器捕获用于生成点云数据的数据的时间在序列内排序。

在本说明书中，“代理”能够在不失一般性的情况下指代载具、自行车、行人、船舶、无人机或环境中的任何其他移动对象。

虽然本说明书总体上描述了由自动驾驶载具的机载系统执行点云处理技术，但是更一般地，所描述的技术能够由一个或更多个位置中的一个或更多个计算机的任何系统执行，该系统接收或生成点云的时间序列。

图1是示例系统100的示图。系统100包括机载系统110和训练系统120。

机载系统110位于载具102上。图1中的载具102被示出为汽车，但是机载系统102能够机载地位于任何适当的载具类型上。载具102能够是完全自动驾驶载具，其确定并执行完全自动驾驶决策以便在环境中导航。载具102还能够是使用预测来辅助人类驾驶员的半自动驾驶载具。例如，如果预测指示人类驾驶员将要与另一载具碰撞，则载具102能够自主地应用制动。

机载系统110包括一个或更多个传感器子系统130。传感器子系统130包括接收电磁辐射反射的部件的组合，所述部件例如检测激光反射的lidar系统、检测无线电波反射的radar系统以及检测可见光反射的相机系统。

由给定传感器生成的传感器数据通常指示反射辐射的距离、方向和强度。例如，传感器能够在特定方向上发送电磁辐射的一个或更多个脉冲，并且能够测量任何反射的强度以及接收到反射的时间。能够通过确定脉冲与其对应的反射之间花费多长时间来计算距离。传感器能够在角度、方位角或两者上连续扫描特定空间。例如，方位角扫描能够允许传感器沿着相同的视线检测多个对象。

传感器子系统130或载具102的其他组件使用由一个或更多个传感器生成的传感器数据来生成多个点云输入的时间序列。时间序列中的每个点云输入包括与由传感器之一发送的激光的反射相对应的点，即，与发生反射的位置相对应的三维点。

传感器子系统130将时间点云序列132发送到点云处理系统150。

点云处理系统150处理时间序列132以生成表征场景的预测输出152，例如，识别场景中的一个或更多个代理的位置的对象检测输出、预测场景中的代理的未来轨迹的行为预测输出、或两者。

通常，点云系统150使用时空交互式神经网络处理时间序列132以生成预测输出152。下面将参考图2-4更详细地描述处理点云。

机载系统110还包括规划系统160。规划系统160能够例如通过生成表征载具102将来将采取的路径的规划载具路径来为载具102做出自动或半自动驾驶决策。

机载系统100能够将由点云处理系统150生成的预测输出152提供给载具102的一个或更多个其他机载系统，例如规划系统160和/或用户界面系统165。

当规划系统160接收到预测输出152时，规划系统160能够使用预测输出152来生成规划载具的未来轨迹的规划决策，即，生成新的规划载具路径。例如，预测输出152可以包含特定周围代理可能在特定未来时间点在载具102前方相交从而潜在地导致碰撞的预测。在该示例中，规划系统160能够生成避免潜在碰撞的新的规划载具路径，并且例如通过自动地控制载具的转向来使载具102遵循新的规划路径，并避免潜在碰撞。

当用户接口系统165接收到预测输出152时，用户接口系统165能够使用预测输出152来向载具102的驾驶员呈现信息，以帮助驾驶员安全地操作载具102。用户界面系统165能够通过任何适当的方式向代理102的驾驶员呈现信息，例如，通过经由载具102的扬声器系统发送的音频消息或通过在代理中的视觉显示系统(例如，载具102的仪表板上的LCD显示器)上显示的警报。在特定示例中，预测输出152可以包含特定周围代理可能在载具102前方走出从而潜在地导致碰撞的预测。在该示例中，用户界面系统165能够向载具102的驾驶员呈现警报消息，该警报消息具有调整载具102的轨迹以避免碰撞或通知载具102的驾驶员可能与特定周围代理碰撞的指令。

为了生成预测输出152，点云处理系统150能够使用从训练系统120中的模型参数存储190获得的经训练参数值195，即，由点云处理系统150使用的时空交互式神经网络的经训练模型参数值。

训练系统120通常托管在数据中心124内，数据中心124能够是在一个或更多个位置具有数百或数千个计算机的分布式计算系统。

训练系统120包括训练数据存储170，其存储用于训练轨迹预测系统(即，确定点云处理系统150的经训练参数值195)的所有训练数据。训练数据存储170从在现实世界中操作的代理接收原始训练示例。例如，训练数据存储170能够从载具102和与训练系统120通信的一个或更多个其他代理接收原始训练示例155。原始训练示例155能够由训练系统120处理以生成新的训练示例。新的训练示例能够包括能够用作点云处理系统150的输入的点云数据的时间序列。新的训练示例还能够包括结果数据，例如，表征在一个或更多个未来时间点从其接收训练示例155的代理周围的环境的状态的数据，识别在时间序列中测量的对象的数据，或两者。该结果数据能够用于为载具或其他代理附近的一个或更多个代理生成地面实况输出(ground truth output)，例如地面实况轨迹(ground truth trajectory)、地面实况检测输出(ground truth detection output)或两者。每个地面实况轨迹识别对应代理在未来时间点遍历的实际轨迹(如从结果数据导出的)。例如，地面实况轨迹能够识别代理在多个未来时间点中的每一个处移动到的代理中心坐标系中的空间位置。每个地面实况检测输出识别与代理的实际测量相对应的时间序列中的点云中的区域。

训练数据存储170将训练示例175提供给训练引擎180，训练引擎180也托管在训练系统120中。训练引擎180使用训练示例175来更新将由点云处理系统150使用的模型参数，并将更新的模型参数185提供给模型参数存储190。一旦点云处理系统150的参数值已经被完全训练，训练系统120就能够例如通过有线或无线连接将经训练参数值195发送到点云处理系统150。

图2是用于处理点云数据输入的时间序列的示例过程200的流程图。为方便起见，过程200将被描述为由位于一个或更多个位置的一个或更多个计算机的系统执行。例如，根据本说明书适当编程的轨迹预测系统(例如，图1的点云处理系统150)可以执行过程200。

当由自动驾驶载具上的系统执行时，系统能够在自动驾驶载具导航通过环境时重复执行过程200，以便改善自动驾驶载具的导航。

系统获得(即，接收或生成)时间序列，该时间序列在时间间隔期间的多个时间步中的每一个处具有相应的点云输入(步骤202)。每个点云输入包括从由载具的一个或更多个传感器在时间步长处捕获的数据生成的点云数据。

系统从时间序列生成时间间隔内的多个时间窗口中的每一个的相应特征表示(步骤204)。在一些情况下，每个时间窗口对应于时间步长中的相应一个。在其他情况下，每个时间窗口对应于多个时间步长，即，从在多个时间步长处的点云数据生成。每个特征表示包括特征表示中的多个空间位置中的每个空间位置的相应特征，并且每个特征表示中的每个空间位置映射到环境中的对应位置。例如，特征表示中的每个“像素”(空间位置)能够根据一些坐标系(例如，透视图或俯视图)映射到环境的对应区域。下面将参考图3更详细地描述生成特征表示。

系统使用时间区域提议神经网络来处理特征表示以生成多个时间区域提议(步骤206)。

每个时间区域提议对应于环境中的可能代理，并且每个时间区域提议识别每个特征表示中的相应空间区域，即，包括特征表示中的多个连续空间位置的区域。也就是说，每个时间区域提议识别特征表示中的多个特征表示中的相应空间区域。

对于每个时间区域提议，由任何给定特征表示中的时间区域提议识别的相应空间区域是在与给定特征表示相对应的时间窗口期间对应的可能代理在环境中位于何处的预测。

代理被称为“可能的”代理，这是因为并非所有提议都可以对应于环境中的实际代理，即，时间区域提议神经网络可以生成比环境中的实际代理更多的提议。

下文将参考图3更详细地描述生成时间区域提议。

系统针对每个时间区域提议并且从特征表示生成时间区域提议特征(步骤208)。任何给定提议的时间区域提议特征表征提议中识别的空间区域。下面参考图4更详细地描述生成这些特征。

对于每个时间区域提议，系统然后能够处理时间区域提议特征以生成针对对应的可能代理的一个或更多个预测(步骤210)。

例如，系统能够处理时间区域提议以生成第一输出，该第一输出预测在与时间区域提议相对应的可能代理的时间间隔之后的未来轨迹。

作为另一示例，系统能够处理时间区域提议特征以生成第二输出，该第二输出识别在时间间隔结束时对应的可能代理在环境中的当前位置。

作为另一示例，第二输出还能够包括表示对应的可能代理是环境中的实际代理的可能性的最终置信度分数。

如图3所示，系统接收输入时间序列302，其包括在时间间隔期间的三个时间步长中的每一个处的三个点云。

然后，系统使用时空交互神经网络处理序列302，在图3的示例中，时空交互神经网络包括编码器神经网络310、主干神经网络320、时间区域提议神经网络330、时空交互(STI)特征提取器340、对象检测头350和轨迹预测头360。

系统使用编码器神经网络310处理时间序列302，以针对时间间隔内的多个时间窗口中的每一个生成相应的初始特征表示312。虽然图3的示例示出了存在与输入序列中的点云相同数量的初始特征表示312，但是实际上，为了减少处理流水线的存储器使用，系统能够生成减少数量的特征表示，使得每个时间窗口对应于多个时间步长。

特别地，为了生成给定时间间隔的初始特征表示312，系统能够使用编码器神经网络在给定时间间隔中的时间步长处处理每个点云，以为每个点云生成相应的伪图像(pseudo image)，即H×W×C张量(tensor)，然后级联得到的伪图像，即沿着深度维度，以生成该时间间隔的特征表示。

编码器神经网络310能够是将输入点云映射到伪图像的任何适当的编码器神经网络。例如，编码器神经网络能够将点云中的点分配给体素，然后为每个体素生成相应的特征向量。在Yin Zhou和Oncel Tuzel的以下文章中描述了这种编码器神经网络的一个示例：《体素网：基于点云的3D对象检测的端到端学习》(Voxelnet:End-to-end learning forpoint cloud based 3d object dection)，其发表在2018年的计算机视觉和模式识别的IEEE会议的会议记录的第4490-4499页(Procedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 4490-4499,2018)。在Alex H Lang、SourabhVora、Holger Caesar、Lubing Zhou、Jiong Yang和Oscar Beijbom的以下文章中描述了这种编码器神经网络的另一示例：《尖柱：用于从点云中检测对象的快速编码器》(Pointpillars:Fast encoders for object detection from point clouds)，其发表在2019年的计算机视觉和模式识别的IEEE会议的会议记录的第12697-12705页(Procedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pages12697-12705,2019)中。

系统使用主干神经网络320处理初始特征表示312以生成特征表示322(也称为主干特征)。

特别地，系统使用主干神经网络320处理每个初始特征表示312，以生成对应时间窗口的相应特征表示322。每个特征表示具有与对应的初始特征表示相同的空间维度，但是可以包括与初始特征表示不同数量的通道。

主干神经网络320能够是任何适当的卷积神经网络，其被配置为接收输入伪图像并处理输入伪图像以生成具有与输入伪图像相同的空间维度的输出表示。作为特定示例，主干神经网络320能够具有U-Net架构，其在OlafRonneberger、Philipp Fischer和ThomasBrox的以下文章中更详细地描述：Unet：用于生物医学图像分割的卷积网络(Unet:Convolutional networks for biomedical image segmentation)，其发表在2015年的医学图像计算和计算机辅助干预国际会议的第234-241页，斯普林格(InternationalConference on Medical image computing and computer-assisted intervention,pages 234-241.Springer,2015)中。

然后，系统处理特征表示322以用于生成多个时间区域提议332。

每个时间区域提议332对应于环境中的可能代理，并且每个时间区域提议332识别每个特征表示中的相应空间区域，即，包括特征表示中的多个连续空间位置的区域。

对于每个时间区域提议332，由任何给定特征表示322中的时间区域提议识别的相应空间区域是在与给定特征表示相对应的时间窗口期间对应的可能代理在环境中位于何处的预测。换句话说，对于特定特征表示，空间区域是可能的代理在对应的时间窗口期间位于何处的预测。

具体地，时间区域提议神经网络330能够生成固定数量的候选时间区域提议，每个候选时间区域提议对应于环境中的不同候选可能代理。代理被称为“可能的”代理，这是因为并非所有提议都可以对应于环境中的实际代理。

更具体来说，时间区域提议神经网络330能够生成对应于固定数量个固定锚定区域中的每一个的相应候选时间区域提议。每个锚定区域是特征表示的空间维度内的不同的连续空间区域，例如框。因此，对于每个候选时间区域提议和对于每个特征表示，神经网络330的输出包括回归向量(regression vector)，该回归向量识别每个特征表示中相对于与时间区域提议相对应的锚定区域的区域。也就是说，对于候选时间区域提议，输出包括对于多个特征表示中的每一个的相应回归向量。

特别地，每个锚定区域能够由特征表示中的框的固定坐标和框的固定行进方向(heading)来定义。每个回归向量为每个坐标并为行进方向定义相应的增量值。增量值能够应用于框的固定坐标和行进方向，以生成由时间提议指定的空间区域。通过针对不同的特征表示具有不同的增量值和不同的行进方向，神经网络330能够对可能的代理跨时间的轨迹进行建模。

作为具体示例，每个锚定能够由包括框中心的x、y坐标、框的宽度w、框的长度l和框的行进方向h的一组值指定。对应于最近时间窗口的特征表示的回归向量能够包括x和y坐标的增量值、框的宽度、框的长度和框的行进方向。对于其他特征表示，回归向量能够仅包括x和y坐标的增量值以及框的行进方向，这是因为代理的大小不应跨时间间隔内的不同时间窗口改变。

然后能够通过使用对应回归向量中的增量值变换锚定框来将增量值映射到每个特征表示内的相应空间区域。下面示出了应用于最近的特征表示(在时间t＝0处)的变换的示例，其中，上标“a”是指锚定框的值，上标“gt”是指对应的地面实况框的值，并且前缀“d”是指以下项的增量值：

通过应用上面的等式(1)至(5)，系统能够确定用作训练神经网络330的目标的地面实况增量值(ground truth delta value)。

换句话说，系统能够计算预测的增量值与通过应用等式(1)至(5)得到的增量值之间的损失，例如，L1损失、平滑L1损失或测量两个向量之间的距离的其他损失，以便例如通过随机梯度下降来更新神经网络330以及神经网络310和320的参数。

在训练之后，通过反转等式(1)至(5)以在给定增量值和锚定框值的情况下求解具有“gt”上标的值，系统能够获得定义最近时间窗口的区域提议的值，即，在给定预测的“d”加前缀值和固定的“a”加上缀值的情况下，区域提议将由等式(1)至(5)中的“gt”加上缀值定义。

能够使用类似的等式来计算损失并为时间窗口中的较早时间窗口生成提议，除了宽度和长度固定为针对最近时间窗口预测的宽度和长度。

因此，系统能够训练神经网络330、320和310以最小化时间窗口中的时间间隔的损失的组合，例如，总和或加权和。

为了生成用于特征表示的回归向量，神经网络330级联通道维度中的特征表示，并将1×1卷积应用于级联的特征表示以生成时间感知特征图。然后，神经网络330通过在时间感知特征图上应用1×1卷积层来生成每个候选时间提议的回归向量。

在一些实现方式中，候选时间区域提议为时间区域提议332的最终集合。

然而，在一些其他实现方式中，神经网络330过滤候选时间区域提议以生成时间区域提议332。

具体地，神经网络330能够生成多个候选时间区域提议和候选时间区域提议中的每一个的置信度分数。置信度分数指示候选时间区域提议对应于环境中的实际代理的预测可能性。神经网络330还能够通过在时间感知特征图上应用1×1卷积来生成这些置信度分数。

神经网络330随后能够通过基于置信度分数将非最大抑制应用于对应于由候选时间区域提议识别的最近时间窗的特征表示的区域来过滤候选时间区域提议，以移除冗余的候选时间区域提议。

在这些实现方式中，系统能够包括用于训练神经网络330、320和310的损失函数中的分类损失，例如交叉熵损失，如果锚定具有对应的地面实况对象，则该分类损失测量置信度分数与目标置信度分数之间的误差，如果提议中的最近特征表示中的区域如通过与地面实况区域的并集上的交集所测量的，具有超过阈值量的重叠，则该误差等于1，否则为0。

然后，系统使用时空交互(STI)特征提取器340为每个时间区域提议332生成相应的时间区域提议特征342。

图4示出了由STI特征提取器340生成给定时间区域提议332的时间区域提议特征342的示例。

如图4所示，STI特征提取器生成局部几何特征(local geometry feature)410、局部动态特征(local dynamics feature)420和历史路径特征430。

为了生成时间区域提议322的局部几何特征410，提取器340裁剪每个特征表示以仅包括由时间区域提议322识别的该特征表示内的区域。也就是说，如上所述，时间区域提议322识别每个特征表示内的相应区域。提取器340生成仅包含具有特征表示中的每一个的经识别区域的局部几何特征。在一些情况下，为了简化计算，系统通过将每个经识别区域映射到经识别区域的特征表示内的最接近站立框(standing box)来近似经识别区域。

为了生成时间区域提议322的局部动态特征420，提取器340在所有特征表示中识别包括由时间区域提议322识别的所有区域的空间区域，并裁剪每个特征表示以仅包括经识别区域。也就是说，提取器340通过识别作为由任何特征表示中的时间区域提议322识别的区域的超集(即，包括由任何特征表示中的时间区域提议322识别的所有区域)的区域来生成覆盖时间间隔内的可能的代理的整个移动的“元盒(meta box)”。特别地，经识别区域能够是包括由所有特征表示中的时间区域提议识别的所有区域的最小空间区域。在一些情况下，为了简化计算，系统通过将每个经识别区域映射到经识别区域的特征表示内的最接近站立框，然后计算包括所有经识别区域的所有最接近站立框的最小框来近似最小空间区域。因为局部动态特征420覆盖可能的代理的所有移动，所以动态特征捕获代理的方向、曲率和速度，所有这些对于未来轨迹预测都是有用的。

时间区域提议322的历史路径特征430识别由时间区域提议322跨特征表示识别的区域的位置位移。特别地，对于包括与最近时间窗口相对应的特征表示的每对特征表示，提取器340基于(i)最近时间窗口的特征表示中的空间区域的中心与(ii)该对特征表示中的另一特征表示中的空间区域的中心的位置的差异来生成历史路径特征430。例如，系统能够针对每对特征表示计算该对特征表示中的两个空间区域的中心的x和y坐标之间的差异，然后使用多层感知器(MLP)处理这些差异以生成历史路径特征430。

提取器340然后从特征410、420和430生成提议332的时间区域提议特征342。

作为特定示例，提取器340能够通过使用具有池化层(例如，全局平均池化层)作为神经网络的输出层的神经网络(例如，卷积神经网络，例如，ResNet)处理局部几何特征410和局部动态特征420来生成时间区域提议特征342，以生成组合特征并将组合特征与历史路径特征342级联。使用神经网络处理局部几何特征410和局部动态特征420能够跨提议332的特征表示聚合空间和时间知识。

对于许多类型的代理，例如行人，任何给定代理的未来轨迹可能受到周围代理的行为的影响。为了对代理之间的这种交互进行建模，提取器340针对每个时间区域提议并且从提议332的时间区域提议特征342生成交互嵌入440，交互嵌入440表示对应的可能代理与对应于其他时间区域提议的可能代理的交互。

为了生成交互嵌入440，提取器340将每个时间提议表示为图节点，其中，每个节点的嵌入是对应时间提议的提议特征342。

提取器340根据由两个节点表示的时间提议的提议特征342计算图中的每对两个节点的交互分数。特别地，提取器340能够将第一学习函数应用于两个提议特征342以生成两个节点的相应的经变换的提议特征，然后通过将第二学习函数应用于经变换的提议特征来生成交互分数。例如，两个学习的函数能够是全连接的层。

提取器340然后如下确定每个特定节点i的交互嵌入g_i 440：

其中，j在所有时间区域提议的范围内，v_ij是节点i和节点j之间的交互分数，f_i是节点i的嵌入，并且是学习的映射函数，例如，全连接的层。

返回到图3的示例，系统为每个时间区域提议332生成两个预测输出。特别地，系统使用对象检测头350处理任何给定区域的时间区域提议特征342以生成对象检测输出，并且使用轨迹预测头360处理给定区域的时间区域提议特征342以生成轨迹预测输出。

对象检测头350包括第一组一个或更多个全连接的层，其处理时间区域提议特征342以在时间间隔结束时回归(regress)对应的可能代理在环境中的当前位置。例如，对象检测头350的输出能够是特征表示中的区域(例如，边界框)的回归的坐标，其表示在时间间隔结束时可能代理的预测位置。

对象检测头350还能够包括第二组一个或更多个全连接的层，其生成可能代理的分类，该分类包括表示对应的可能代理是环境中的实际代理的可能性的置信度分数。

可选地，在将对象检测输出输出到例如自动驾驶载具的规划系统之前，系统能够使用这些置信度分数来对由对象检测350生成的回归的位置执行非最大抑制。

轨迹预测头360预测可能代理的未来轨迹。更具体地，如上所述，因为代理的未来轨迹可能受到周围代理的行为的影响，所以轨迹预测头360使用一个或更多个神经网络层(例如，全连接的层)来处理时间特征提议的交互嵌入和提议的时间区域提议特征，以回归未来轨迹输出。未来轨迹输出能够包括x、y坐标，并且可选地包括可能代理在多个未来时间点中的每一个的行进方向。

在训练期间，系统能够使用对象检测输出、分类输出和轨迹预测输出来通过反向传播调整头部350和360、检测器340以及可选地神经网络330、320和310的参数的值。特别地，系统能够使用具有对应的地面实况代理(ground truth agent)的每个提议的相应地面实况输出来训练这些组件以最小化损失，该损失是例如对象检测损失(例如，L1损失、平滑L2损失或其他回归损失)、分类损失(例如，交叉熵损失)和轨迹预测损失(例如，L1损失、平滑L1损失或其他回归损失)的加权和或总和的组合。

本说明书中描述的主题和功能操作的实施例能够在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实现，包括本说明书中公开的结构及其结构等同物，或者它们中的一个或更多个的组合。本说明书中描述的主题的实施例能够实现为一个或更多个计算机程序，即，在有形非暂时性存储介质上编码的计算机程序指令的一个或更多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备或它们中的一个或更多个的组合。可替代地或另外地，程序指令能够被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”是指数据处理硬件，并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还能够是或进一步包括现成的或定制的并行处理子系统，例如GPU或其它专用处理子系统。该装置还能够是或进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还能够可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或更多个的组合的代码。

计算机程序也可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码，其能够以任何形式的编程语言编写，包括编译或解释语言，或者声明或过程语言，并且其能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序能够存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或更多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件(例如，存储一个或更多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一个计算机上或在位于一个站点处或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

对于要被配置为执行特定操作或动作的一个或更多个计算机的系统，意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或更多个计算机程序，意味着一个或更多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

如本说明书中所使用的，“引擎”或“软件引擎”是指提供与输入不同的输出的软件实现的输入/输出系统。引擎能够是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎能够在包括一个或更多个处理器和计算机可读介质的任何适当类型的计算设备(例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其他固定或便携式设备)上实现。另外，引擎中的两个或更多个可以在相同的计算设备上或在不同的计算设备上实现。

本说明书中描述的过程和逻辑流程能够由执行一个或更多个计算机程序的一个或更多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也能够由专用逻辑电路(例如，FPGA或ASIC)或者由专用逻辑电路和一个或更多个编程计算机的组合来执行。

适合于执行计算机程序的计算机能够基于通用或专用微处理器或两者，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或更多个存储器设备。中央处理单元和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或更多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合以从其接收数据或将数据传输到其或两者。然而，计算机不需要具有这样的设备。此外，计算机能够嵌入在另一设备中，仅举几例，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例能够在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和指示设备(例如，鼠标、轨迹球或存在敏感显示器或用户能够通过其向计算机提供输入的其他表面)的计算机上实现。也能够使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从用户设备上的网络浏览器接收的请求将网页发送到网络浏览器。此外，计算机能够通过向个人设备(例如，智能电话)发送文本消息或其他形式的消息、运行消息传送应用并且进而从用户接收响应消息来与用户交互。

本说明书中描述的主题的实施例能够在计算系统中实现，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面、web浏览器或app的客户端计算机，用户能够通过该图形用户界面、web浏览器或app与本说明书中描述的主题的实现交互)，或者包括一个或更多个这样的后端、中间件或前端组件的任何组合。系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与充当客户端的设备交互的用户显示数据和从其接收用户输入的目的。能够在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实现方式细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为可能特定于特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也能够在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也能够单独地或以任何合适的子组合在多个实施例中实现。此外，尽管上文可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下能够从组合中删除来自所要求保护的组合的一个或更多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求以所示的特定顺序或按顺序执行这些操作，或者执行所有示出的操作，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常能够一起集成在单个软件产品中或封装到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在下列权利要求的范围内。例如，权利要求中记载的动作能够以不同的顺序执行，并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或相继顺序来实现期望的结果。在某些情况下，多任务和并行处理会是有利的。

Claims

1.一种方法，包括：

获得时间序列，所述时间序列包括在时间间隔期间的多个时间步长中的每一个处的相应点云输入，每个点云输入包括从在时间步长处由载具的一个或更多个传感器捕获的数据生成的点云数据；

从时间序列生成时间间隔内的多个时间窗口中的每一个的相应特征表示，其中，每个特征表示包括特征表示中的多个空间位置中的每一个的相应特征，并且，每个特征表示中的每个空间位置映射到环境中的对应位置；

使用时间区域提议神经网络处理特征表示以生成多个时间区域提议，其中：

每个时间区域提议对应于环境中的可能代理，

每个时间区域提议识别所述特征表示中的每一个中的相应空间区域，所述相应空间区域包括特征表示中的多个空间位置，并且

针对每个时间区域提议，由任何给定特征表示中的时间区域提议识别的相应空间区域是在与给定特征表示相对应的时间窗口期间对应的可能代理在环境中位于何处的预测；

针对每个时间区域提议并且从特征表示生成时间区域提议特征；以及

针对每个时间区域提议，处理时间区域提议特征以生成第一输出，所述第一输出预测在与时间区域提议相对应的可能代理的时间间隔之后的未来轨迹。

2.根据权利要求1所述的方法，其中，所述可能代理是行人。

3.根据任意前述权利要求所述的方法，还包括：

针对每个时间区域提议，处理时间区域提议特征以生成第二输出，所述第二输出识别在时间间隔结束时对应的可能代理在环境中的当前位置。

4.根据权利要求3所述的方法，其中，所述第二输出还包括最终置信度分数，所述最终置信度分数表示对应的可能代理是环境中的实际代理的可能性。

5.根据任意前述权利要求所述的方法，其中，处理时间区域提议特征以生成第一输出包括：

针对每个时间区域提议并且从时间区域提议特征生成交互嵌入，所述交互嵌入表示对应的可能代理与对应于其他时间区域提议的可能代理的交互；以及

针对每个时间特征提议，通过使用一个或更多个神经网络层处理时间特征提议的交互嵌入和提议的时间区域提议特征来生成第一输出。

6.根据任意前述权利要求所述的方法，其中，针对每个时间区域提议并且从特征表示生成时间区域提议特征包括：

通过裁剪每一特征表示以仅包括由时间区域提议识别的区域来生成时间区域提议的局部几何特征。

7.根据任意前述权利要求所述的方法，其中，针对每个时间区域提议并且从特征表示生成时间区域提议特征包括：

通过以下方式生成时间区域提议的局部动态特征：

在所有特征表示中识别包括由时间区域提议识别的所有区域的区域；以及

裁剪每个特征表示以仅包括经识别区域。

8.根据权利要求7所述的方法，其中，经识别区域是最小空间区域，所述最小空间区域包括在所有特征表示中由时间区域提议识别的所有区域。

9.根据任意前述权利要求所述的方法，其中，针对每个时间区域提议并且从特征表示生成时间区域提议特征包括：

生成针对时间区域提议的历史路径特征，所述历史路径特征识别由时间区域提议跨特征表示识别的区域的位置位移。

10.根据权利要求9所述也从属于权利要求6和7的方法，其中，生成时间区域提议特征包括：

使用神经网络处理局部几何特征和局部动态特征以生成组合特征；以及

将组合特征与历史路径特征级联。

11.根据任意前述权利要求所述的方法，其中，每个时间区域提议对应于锚定区域，并且，其中，所述时间区域提议神经网络生成输出，所述输出针对每个时间区域提议和针对每个特征表示包括回归向量，所述回归向量识别每个特征表示中相对于与时间区域提议相对应的锚定区域的区域。

12.根据权利要求11所述的方法，其中，所述锚定区域由特征表示中的框的坐标和框的行进方向来定义，并且，其中，每个回归向量包括针对坐标中的每一个并针对行进方向的相应增量值。

13.根据任意前述权利要求所述的方法，其中，所述时间区域提议神经网络生成多个候选时间区域提议和候选时间区域提议中的每一个的置信度分数，所述置信度分数指示候选时间区域提议对应于环境中的实际代理的预测可能性，并且，其中，生成多个时间区域提议包括：

基于置信度分数将非最大抑制应用于对应于由候选时间区域提议识别的最近时间窗口的特征表示的区域，以移除冗余的候选时间区域提议。

14.一种由一个或更多个计算机执行的方法，所述方法包括：

获得时间间隔的点云数据的时间序列；

从时间序列生成针对时间间隔内的多个时间窗口中的每一个的相应特征表示；

使用时间区域提议神经网络来处理特征表示以生成多个时间区域提议，每个时间区域提议对应于不同的可能代理；

15.根据权利要求14所述的方法，还包括：

16.根据权利要求15所述的方法，其中，所述第二输出还包括最终置信度分数，所述最终置信度分数表示对应的可能代理是环境中的实际代理的可能性。

17.根据权利要求14-16中任一项所述的方法，其中，处理时间区域提议特征以生成第一输出包括：

18.根据权利要求14-17中任一项所述的方法，其中，每个时间区域提议对应于锚定区域，并且，其中，所述时间区域提议神经网络生成输出，所述输出针对每个时间区域提议和针对每个特征表示包括回归向量，所述回归向量识别每个特征表示中相对于与时间区域提议相对应的锚定区域的区域。

19.根据权利要求18所述的方法，其中，所述锚定区域由特征表示中的框的坐标和框的行进方向来定义，并且，其中，每个回归向量包括针对坐标中的每一个并针对行进方向的相应增量值。

20.根据权利要求18-19中任一项所述的方法，其中，针对每个时间区域提议从特征表示生成时间区域提议特征包括：

通过裁剪每个特征表示以仅包括由时间区域提议识别的区域来生成时间区域提议的局部几何特征。

21.一种系统，包括一个或更多个计算机和存储指令的一个或更多个存储设备，所述指令在由所述一个或更多个计算机执行时使所述一个或更多个计算机执行根据任意前述权利要求所述的相应方法的操作。

22.一种编码有指令的计算机存储介质，所述指令在由一个或更多个计算机执行时使所述一个或更多个计算机执行根据任意前述权利要求所述的相应方法的操作。