CN117440908A

CN117440908A - 用于自动驾驶系统中基于图神经网络的行人动作预测的方法和系统

Info

Publication number: CN117440908A
Application number: CN202180072389.9A
Authority: CN
Inventors: 萨伯·马勒克哈马迪; 蒂芙尼·怡·凯·尤; 阿米尔·拉苏利; 穆赫辛·鲁哈尼; 罗军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-31
Filing date: 2021-11-01
Publication date: 2024-01-23
Also published as: WO2022087751A1; US20230257003A1

Abstract

本发明涉及用于以下操作的方法和系统：在自动驾驶车辆运行的环境的观察帧(即交通场景)中对道路使用者进行时空图建模，将所述道路使用者聚类为几种类别，并将所述时空图提供给经过训练的图形卷积神经网络(graphical neural network，GNN)以预测未来的行人动作。所述未来的行人动作可以是：行人将穿过道路和行人将不穿过道路中的一个。所述时空图包括对所述观察帧(即交通场景)的更好理解。

Description

用于自动驾驶系统中基于图神经网络的行人动作预测的方法和系统

相关申请的交叉引用

本申请要求2020年10月31日提交的发明名称为“用于自动驾驶系统中基于图神经网络的行人动作预测的方法和系统(METHOD AND SYSTEM FOR GRAPH NEURAL NETWORKBASED PEDESTRIAN ACTION PREDICTION IN AUTONOMOUSDRIVING SYSTEMS)”的第63/108,336号美国临时专利申请的优先权和权益，该美国临时专利申请的内容通过引用的方式并入本文。

技术领域

本发明大体上涉及用于自动驾驶系统中行人动作预测的方法和系统，具体涉及用于自动驾驶系统中行人动作预测的基于图神经网络的方法和系统。

背景技术

自动驾驶车辆(即自动驾驶汽车)包括控制自动驾驶车辆在环境中的自动操作的自动驾驶系统(autonomous driving system，ADS)。自动驾驶车辆包括安装到自动驾驶车辆上的不同类型的环境传感器(例如，光学相机等相机，以及光检测和测距(lightdetection and ranging，LIDAR)传感器等检测和测距传感器)，这些传感器感测自动驾驶车辆周围的环境。自动驾驶车辆的ADS包括子系统，这些子系统处理从不同类型的传感器接收的环境传感器数据(例如，来自相机的图像数据、来自检测和测距传感器的三维点云)，以生成包括环境中的车辆和每个道路使用者的车辆周围环境地图。ADS系统还包括规划子系统，该规划子系统为自动驾驶车辆规划几何路径，并根据规划路径控制自动驾驶车辆的操作。

ADS还可以是一个或多个基于机器学习的行为预测子系统。对于ADS来说，重要的是能够生成自动驾驶车辆附近的动态对象将如何行为的预测(例如，行人在穿过街道时将如何移动)，以便可以规划自动驾驶车辆的期望行为(例如，避免撞上穿过街道的行人)。这种子系统被称为行人动作预测(即行人意图预测)子系统。例如，行人动作预测子系统可以预测靠近自动驾驶车辆(例如，在自动驾驶车辆的大约30米内)的行人的轨迹，然后基于行人的预测轨迹预测行人动作。预测的行人动作可以是以下中的一个：(a)行人将在自动驾驶车辆前面过路，或(b)行人将不在自动驾驶车辆前面过路。或者，行人动作预测子系统可以使用图对行人与周围环境中动态对象的交互进行建模，并使用图神经网络预测行人的未来行为。然后，规划系统使用预测的行人动作来修改自动驾驶车辆的规划路径，以避免与行人碰撞。

预测行人动作是一项复杂的计算密集型的任务，因为它需要对行人与周围环境的交互进行建模，这种交互取决于多种环境因素和环境的时空背景。因此，需要改进预测行人动作的方法和系统。

发明内容

本发明描述了用于以下操作的示例性方法和系统：在自动驾驶车辆运行的环境的观察帧(即交通场景)中对道路使用者进行时空图建模，将所述道路使用者聚类为几种类别，并将所述时空图提供给经过训练的图形卷积神经网络(graphical neural network，GNN)以预测未来的行人动作。所述未来的行人动作可以是：行人将穿过道路和行人将不穿过道路中的一个。

根据一个示例性方面，提供了一种用于预测行人动作的计算机实现方法。所述方法包括接收观察帧的时间序列，每个观察帧包括目标行人和多个道路使用者的空间信息。对于观察帧序列中的每个观察帧，所述方法包括：至少基于在所述观察帧中包括的所述空间信息，对所述目标行人的目标行人特征集合和所述多个道路使用者中的每一个的相应道路使用者特征集合进行编码；至少基于在所述观察帧中包括的所述空间信息，生成相对重要性权重集合，所述相对重要性权重集合包括所述道路使用者中的每一个的相应的相对重要性权重，所述相应的相对重要性权重指示所述道路使用者对所述目标行人的相对重要性，每个道路使用者的所述相应的相对重要性权重基于所述道路使用者与所述目标行人之间的距离以及所述道路使用者对所述目标行人的相对位置重要性。所述方法还包括基于针对多个所述观察帧中的每一个编码的所述目标行人特征集合、针对多个所述观察帧中的每一个编码的所述相应道路使用者特征集合以及针对多个所述观察帧中的每一个生成的所述相对重要性权重集合，预测所述目标行人的未来动作。可以基于所述目标行人的所述预测的未来动作自动控制自动驾驶车辆的动作。

根据计算机实现方法的上述方面，每个道路使用者的所述相对位置重要性可以基于所述道路使用者相对于所述目标行人的移动方向。

在计算机实现方法的一个或多个上述方面中，与所述道路使用者远离所述目标行人移动的情况相比，在所述道路使用者朝向所述目标行人移动的情况下，每个道路使用者的所述相对位置重要性可以更大。

在计算机实现方法的一个或多个上述方面中，每个道路使用者的所述相对位置重要性还可以基于所述道路使用者相对于所述目标行人的位置沿着道路的行进距离。

在计算机实现方法的一个或多个上述方面中，每个道路使用者的相对位置重要性可以基于所述道路使用者与参考线的距离，所述参考线从所述目标行人的位置延伸并垂直于行进的道路方向。

在计算机实现方法的一个或多个上述方面中，对于每个道路使用者，所述道路使用者与所述目标行人之间的所述距离为欧几里德距离。

在所述计算机实现方法的一个或多个上述方面中，所述计算机实现方法包括对于所述观察帧序列中的每个观察帧：对所述目标行人的所述目标行人特征集合和所述多个道路使用者中的每一个的相应道路使用者集合进行编码基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息；为每个道路使用者生成所述相对重要性权重集合基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息。

在所述计算机实现方法的一个或多个上述方面中，所述计算机实现方法的所述包括对于所述观察帧序列中的每个观察帧：基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息，基于行为相似性，将所述多个道路使用者的道路使用者组聚类为相应簇；预测所述目标行人的所述未来动作也基于所述聚类。

在所述计算机实现方法的一个或多个上述方面中，针对所述观察帧中的每一个生成相应的空间图，其中，对于每个观察帧：所述相应的空间图具有表示所述目标行人的目标行人节点，以及各自表示所述多个道路使用者中的相应一个的多个道路使用者节点，所述相应的空间图由以下定义：(i)特征矩阵，包括所述编码的目标行人特征作为所述目标行人节点的特征，并且包括为所述相应道路使用者编码的所述道路使用者特征集合作为所述相应道路使用者节点的特征；(ii)邻接矩阵，指定：(a)所述目标行人节点与所述相应道路使用者节点中的每一个之间的相应加权连接边，所述目标行人节点和所述相应道路使用者节点中的每一个对应于针对所述观察帧生成的所述相对重要性权重集合；(b)在相应簇中包括的所述道路使用者节点中的每一个之间的连接边。

在计算机实现方法的一个或多个上述方面中，预测所述目标行人的所述未来动作是使用时空卷积图神经网络来执行，所述时空卷积图神经网络接收针对所述观察帧生成的所述空间图。

在计算机实现方法的一个或多个上述方面中，所述预测的行人动作是所述行人将在所述自动驾驶车辆前面过路或所述行人将不在所述自动驾驶车辆前面过路中的一个。

在计算机实现方法的一个或多个上述方面的示例中，计算机实现方法包括对于所述观察帧序列中的每个观察帧：为所述多个道路使用者中的每一个编码的所述相应道路使用者特征集合包括以下中的一个或多个：所述道路使用者的类型；所述道路使用者相对于所述目标行人的位置、所述道路使用者的大小、所述道路使用者的速度以及所述道路使用者的移动方向。

根据另一个示例性方面，提供了一种用于在自动驾驶车辆中预测行人动作的计算机实现方法。所述计算机实现方法包括接收观察帧集合，每个观察帧包括行人和多个道路使用者，并基于所述观察帧集合生成关于所述行人的时空信息，关于所述行人的所述时空信息包括所述观察帧中的每一个中所述行人的位置。所述方法还包括基于所述观察帧集合生成关于地图中每个道路使用者的空间信息，所述空间信息包括所述地图中每个道路使用者的位置，基于关于所述行人的所述时空信息生成所述行人的特征表示，以及基于关于所述相应道路使用者的所述时空信息为每个相应道路使用者生成为所述相应道路使用者编码的特征。对于每个相应的观察帧，所述方法还包括基于所述观察帧中所述行人的位置和每个道路的位置生成空间图，所述空间图包括中心节点、围绕所述中心节点的多个其它节点以及所述中心节点与所述多个其它节点中的每一个之间的连接，其中，所述中心节点与所述行人相关联，并且每个其它节点与所述多个道路使用者中的一个相关联。所述方法还包括：为每个空间图生成邻接矩阵，每个空间图的所述邻接矩阵包括，对于所述中心节点与所述图中的所述其它节点中的一个之间的每个连接，表示与所述一个其它节点相关联的所述道路使用者的重要性的权重；生成特征编码矩阵，所述特征编码矩阵包括所述多个道路使用者的特征编码和所述行人的特征编码，并使用时空卷积图神经网络处理每个空间图的所述邻接矩阵和所述特征表示矩阵，以预测所述行人过路动作，其中，所述行人过路动作是所述行人在所述自动驾驶车辆前面过路或所述行人不在所述自动驾驶车辆前面过路中的一个。

本发明还提供了一种处理系统，所述处理系统包括处理器和存储器，所述存储器存储机器可执行指令，所述机器可执行指令当由所述方法执行时，执行上述计算机实现方法中的任何一个。

本发明还提供了一种非瞬时性计算机可读介质和存储机器可执行的计算机程序，该计算机程序在由所述方法执行时执行上述确定的计算机实现方法中的任何一个。

附图说明

现在将通过示例参考示出本申请示例性实施例的附图，在附图中：

图1是本发明的一些实施例提供的自动驾驶车辆运行的示例性环境的示意图；

图2是本发明的一些实施例提供的自动驾驶车辆的一些示例性组件的框图；

图3是本发明的一些实施例提供的用于行人过路动作预测的示例性子系统的框图；

图4示出了本发明的一些实施例提供的覆盖有代表性空间图帧场景的观察帧的示例，该代表性空间图帧场景可以由用于行人过路动作预测的子系统建模；

图5示出了图4的观察帧，具有从目标行人绘制的垂直参考线；

图6示出了围绕目标行人的方向权重值的示例；

图7是观察帧的第二示例，并且具有覆盖的空间图数据；

图8示出了关于图7的观察帧生成的邻接矩阵；

图9是本发明的一些实施例提供的用于行人过路动作预测的另一子系统的示例的框图；

图10示出了可用于确定相对位置重要性值的方向距离的示例。

在不同的附图中可以使用相似的附图标记来表示相似的组件。

具体实施方式

下面参考附图对本发明中的技术方案进行描述。

如本文使用，“模块”可以指硬件处理电路和可在硬件处理电路上执行的机器可读指令(软件和/或固件)的组合。硬件处理电路可以包括微处理器、多核微处理器的核心、微控制器、可编程集成电路、可编程门阵列、数字信号处理器或其它硬件处理电路的任何或一些组合。

如本文使用，“引擎”可以指硬件处理电路，可以包括微处理器、多核微处理器的核心、微控制器、可编程集成电路、可编程门阵列、数字信号处理器或其它硬件处理电路的任何或一些组合。或者，“引擎”可以指硬件处理电路和可在硬件处理电路上执行的机器可读指令(软件和/或固件)的组合。

本发明的一些示例在自动驾驶车辆的上下文中描述。虽然本文描述的示例可以将汽车称为自动驾驶车辆，但本发明的教导可以在其它形式的自动或半自动驾驶车辆中实现，包括例如电车、地铁、卡车、公共汽车、水面和潜水船只和船舶、飞机，无人机(也称为无人机(unmanned aerial vehicle，UAV))、仓库设备、制造设施设备、建筑设备、农场设备、吸尘器和割草机等自主服务机器人以及其它机器人设备。自动驾驶车辆可以包括不载客的车辆以及载客的车辆。

本发明的示例可适用于除自动驾驶车辆以外的应用。本文描述的示例性方法和系统可以适用于可用于或期望在感测环境(也称为感测场景)中准确预测行人的过路动作的任何上下文。行人是环境中的任何人或动物，其状态(例如，位置)在感兴趣的时间段内(例如，超过10分钟)发生变化。

为了帮助理解本发明，现在讨论环境中的自动驾驶车辆的示例。

图1是示出车辆105运行的示例性环境100的示意图。本发明的示例可以在车辆105中实现，例如以实现自动或半自动驾驶。环境100包括与车辆105通信的通信系统202。车辆105包括车辆控制系统115。车辆控制系统115耦合到车辆105的驱动控制系统和机械系统，如下面参考图2进一步描述。在各种示例中，车辆控制系统115可以使车辆105能够在完全自动、半自动或完全用户控制的模式中的一个或多个下操作。

车辆105可以包括传感器，本文中示出为收集关于车辆105周围外部环境100的信息并生成指示这种信息的传感器数据的多个环境传感器110，以及收集关于车辆105的操作条件的信息并生成指示这种信息的车辆数据的多个车辆传感器111。可以有不同类型的环境传感器110来收集关于环境100的不同类型的信息，如下文进一步讨论。在示例性实施例中，环境传感器110安装和定位在车辆105的前部、后部、左侧和右侧，以收集关于位于车辆105的前部、后部、左侧和右侧的外部环境100的信息。对于环境传感器110的单个单元，可以安装或以其它方式位于车辆105上，以具有不同的重叠或非重叠视场(field of view，FOV)或覆盖区域，以捕获关于车辆105周围环境100的数据。车辆控制系统115接收传感器数据，这些传感器数据指示由环境传感器110收集的关于车辆105的外部环境100的收集信息。

车辆传感器111实时或接近实时地将指示关于车辆105的操作条件的收集信息的车辆数据提供给车辆控制系统115。例如，处理系统115可以使用指示由一个或多个车辆传感器111提供的关于车辆105的操作条件的信息的车辆数据来确定车辆105的线速度、车辆105的角速度、车辆105的加速度、车辆105的发动机RPM、车辆105的变速器齿轮和轮胎抓地力等因素。

处理系统115包括一个或多个无线收发器130(如图1中所示)，或者可以耦合到一个或多个无线收发器130，一个或多个无线收发器130使车辆控制系统115能够与通信系统202通信。一个或多个无线收发器130使处理系统115能够与通信系统202通信。例如，一个或多个无线收发器130可以包括一个或多个蜂窝(RF)收发器，用于使用不同的无线数据通信协议和标准与环境中的多个不同无线接入网络(例如，蜂窝网络)或其它车辆通信。一个或多个无线收发器130可以在其地理覆盖区域内与无线广域网(wide area network，WAN)210(例如，蜂窝网络)的多个固定收发器基站中的任何一个通信。一个或多个无线收发器130可以通过无线WAN 210发送和接收信号。一个或多个无线收发器130可以包括支持多个射频频段的多频段蜂窝收发器。处理系统115可以使用无线WAN 210通过一个或多个通信网络220(例如互联网)访问服务器240(例如驾驶辅助服务器)。服务器240可以实现为数据中心中的一个或多个服务器模块，并且通常位于防火墙230后面。服务器240可以连接到网络资源250，例如可以提供车辆控制系统115使用的信息的补充数据源。

一个或多个无线收发器130还可以包括无线局域网(wireless local areanetwork，WLAN)收发器，用于通过WLAN接入点(access point，AP)与WLAN(未示出)进行通信。WLAN可以包括符合IEEE 802.11x标准(有时称为)或其它通信协议的Wi-Fi无线网络。一个或多个无线收发器130还可以包括短程无线收发器，例如/>收发器，用于与移动计算设备(例如智能手机或平板电脑)进行通信。一个或多个无线收发器130还可以包括其它短程无线收发器，包括但不限于近场通信(near field communication，NFC)、IEEE802.15.3a(也称为超宽带(ultra wideband，UWB))、Z-Wave、ZigBee、ANT/ANT+或红外线(例如国际红外数据协会(Infrared Data Association，IrDA)通信)。

通信系统100还包括有包括多个卫星的卫星网络260。处理系统115可以使用从卫星网络260中的多个卫星接收的信号来确定其位置。卫星网络260通常包括多个卫星，这些卫星是至少一个全球导航卫星系统(global navigation satellite system，GNSS)的一部分。至少一个GNSS提供具有全球覆盖的自动地理空间定位。例如，卫星网络260可以是GNSS卫星的集合。示例性GNSS包括美国NAVSTAR全球定位系统(global positioning system，GPS)或俄罗斯全球轨道导航卫星系统(global navigation satellite system，GLONASS)。其它已经部署或正在开发的卫星导航系统包括欧盟的伽利略定位系统、中国的北斗导航卫星系统(BeiDou navigation satellite system，BDS)、印度区域卫星导航系统和日本卫星导航系统。

机电系统190从驱动控制系统150接收控制信号，以操作车辆105中的机电组件。机电系统190影响车辆105的物理操作。机电系统190包括发动机192、变速箱194和车轮196。发动机192可以是汽油动力发动机、电池动力发动机、混合发动机等。其它组件可以包括在机械系统190中，包括转向信号灯、刹车灯、风扇和窗户等。

图2示出了本文描述的一些示例提供的车辆105的选定部件。车辆105包括车辆控制系统115，该车辆控制系统115被耦合到驱动控制系统150和机电系统190。车辆控制系统115还被耦合以接收来自环境传感器110和车辆传感器111的数据。

环境传感器110可以例如包括一个或多个相机单元112、一个或多个光检测和测距(light detection and ranging，LIDAR)单元114以及合成孔径雷达(synthetic apertureradar，SAR)单元116等一个或多个雷达单元，以及其它可能性。每种类型的传感器单元112、114、116可以收集关于车辆105外部环境100的相应不同信息，并可以分别以不同的格式向车辆控制系统115提供传感器数据。例如，相机单元112可以提供代表数字图像的相机数据，LIDAR单元114可以提供二维或三维点云，并且SAR单元可以提供代表雷达图像的雷达数据。

车辆传感器111可以包括例如惯性测量单元(inertial measurement unit，IMU)118，该IMU 118感测车辆105的比力和角速率，并基于感测的比力和角速率提供关于车辆定向的数据。车辆传感器111还可以包括电子罗盘119和其它车辆传感器120，例如速度计、转速表、车轮牵引力传感器、变速器齿轮传感器、节气门和制动器位置传感器以及转向角度传感器。

车辆控制系统115还可以使用通过卫星接收器132从卫星网络260接收的信号收集关于车辆105的位置的信息，并生成代表车辆105的位置的定位数据。

车辆105还包括各种结构元件，例如车架、门、面板、座椅、窗户、镜子等，这些结构元件在本领域中是已知的，但为了避免混淆本发明的教导，这些结构元件已经从本发明中删掉。车辆控制系统115包括处理器系统102，该处理器系统102通过通信总线(未示出)耦合到多个部件，该通信总线提供部件与处理器系统102之间的通信路径。处理器系统102耦合到驱动控制系统150、随机存取存储器(random access memory，RAM)122、只读存储器(readonly memory，ROM)124、闪存可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)(闪存)等持久(非易失性)存储器126、一个或多个无线收发器130、卫星接收器132，以及一个或多个输入/输出(input/output，I/O)设备134(例如，触摸屏、扬声器、麦克风、显示屏、机械按钮等)。处理器系统102可以包括一个或多个处理单元，包括一个或多个中央处理单元(central processing unit，CPU)、一个或多个图形处理单元(graphical processing unit，GPU)、一个或多个张量处理单元(tensor processingunit，TPU)以及其它处理单元等。

驱动控制系统150向机电系统190提供控制信号，以实现车辆105的物理控制。例如，当处于完全自动或半自动驾驶模式时，驱动控制系统150从车辆控制系统115接收规划动作(如下文进一步讨论)，并使用转向单元152、制动单元154和节气门(或加速)单元156将规划动作转换为控制信号。每个单元152、154、156可以实现为驱动控制系统150内的一个或多个软件模块或一个或多个控制块。驱动控制系统150可以包括用于控制车辆105的其它方面(包括控制转向信号灯和刹车灯等)的其它组件。

处理系统115的存储器126在其上存储了可由处理器系统102执行的软件指令。软件指令可以由处理器系统102执行，以实现一个或多个软件系统、软件子系统和软件模块。通常，应当理解，本文公开的软件系统、软件子系统和软件模块可以实现为存储在存储器126中的指令集。例如，存储器126可以包括用于实现操作系统160、感知系统200和规划系统300(也称为路径规划系统)的可执行指令。感知系统200和规划系统300可以是车辆105的ADS(未示出)的一部分。规划系统300可以是基于机器学习的系统，其生成待由车辆105执行的规划路径(可以包括规划子路径和规划行为)。规划系统300包括任务规划子系统305、行为规划子系统310、运动规划子系统315和对象行为预测子系统320。对象行为预测子系统320还包括行人动作预测子系统400。行人过路动作子系统400的细节将在下文进一步提供。

规划系统300的规划和决策可以是动态的，并且随着环境的变化而重复执行。环境的变化可以是由于车辆105的移动(例如，车辆105接近新检测到的障碍物)以及由于环境的动态性质(例如，移动的行人和其它移动的车辆)。

规划子系统305、310、315以不同的细节级别执行规划。由任务规划子系统305进行的任务级规划被认为是更高(或更全局)的规划级别，由运动规划子系统315进行的运动级规划被认为是更低(或更局部)的规划级别，并且由行为规划子系统310进行的行为级规划被认为是任务级与运动级之间的规划级别。通常，来自较高级规划子系统的输出可以构成对较低级规划子系统的输入的至少一部分。

任务规划子系统305的规划(更简单地称为任务规划)涉及在高或全局级别上规划车辆105的路径，例如规划从起点(例如，家庭住址)到最终目的点(例如，工作地址)的行进路线。行为规划子系统310可以从任务规划子系统305接收规划路线。行为规划子系统310涉及在比任务规划子系统305更局部和更短期的基础上控制车辆105的行为。行为规划子系统310可以生成根据某些规则(例如，交通规则，例如速度限制或标志)或指导(例如，用于平滑和高效驾驶的指导，例如，如果可能的话，走更快的车道)的行为决策。行为决策可以作为运动规划子系统315的输入的一部分提供。运动规划子系统315涉及基于车辆105的直接环境100控制车辆105的运动。运动规划子系统315生成规划车辆运动，以确保环境中的车辆乘员和其它对象(例如，行人、其它车辆、骑自行车的人等)的安全。由于环境可以是高度动态的(例如，行人和其它车辆都在移动)，运动规划子系统315应执行能够考虑环境100中的预期(或预测)变化的运动规划。

从环境传感器110接收的传感器数据和从车辆控制传感器111接收的车辆数据(以及可选地还从卫星网络260收集的定位数据)可以被感知系统200使用以生成表示每个时间步长的环境100的特征的经处理数据(例如，观察帧、特征向量、占用网格图(occupancygrid map，OGM)、对象分类和边界框，等)。感知系统200可以包括一个或多个基于机器学习的系统(例如，经过训练的神经网络)，一个或多个基于机器学习的系统生成表示每个时间步长的环境100的特征的经处理数据。

感知系统200可以包括任何数量的独立或互连的系统或功能，并且可以例如包括基于规则的系统、基于机器学习的系统及其组合。基于机器学习的系统可以使用神经网络来实现，例如任何类型的DNN(包括CNN或RNN)、长期短期记忆网络等。在一些示例中，感知系统200可以包括：融合子系统，用于融合来自多个环境传感器110和车辆传感器111的传感器数据和车辆数据，以生成融合数据；分类子系统，用于处理传感器数据或融合数据，以检测和识别环境100中的对象(例如，检测和识别静止障碍物、行人或另一车辆、车道和车道边界以及交通灯/标志等)；以及定位和地图构建子系统406，用于构建或更新环境100的地图并估计车辆105在地图中的位置。在示例性实施例中，感知系统200的定位和地图构建子系统用于实时生成鸟瞰图(bird's eye view，BEV)地图(也称为自上而下视图地图)，表示从二维鸟瞰视角观察到的车辆105附近的场景。在示例性实施例中，BEV地图可以基于周围环境的光栅化高清晰度(high definition，HD)自上而下地图与由感知系统200的分类子系统执行的动态对象检测结果的组合生成。在至少一些示例中，来自车辆105外部的传感器(例如杆装摄像头)的信息可以通过处理系统115的无线收发器130接收，并且并入BEV地图中。在示例性实施例中，为一系列时间步长中的每个时间步长生成环境100的相应2DBEV地图。每个2D BEV地图都可以对应于环境的观察帧。

存储器126还可以在其上存储有指令，用于实现其它软件系统、子系统和模块，例如导航系统、气候控制系统、媒体播放器系统、电话系统和/或消息传递系统等。

图3是行人动作预测子系统400的示例性细节的框图。行人动作预测子系统400可以是对象行为预测子系统320的子系统(其又可以是规划系统300的子系统)。但是，应当理解，行人动作预测子系统400也可以在对象行为预测子系统320之外、规划系统300之外和/或自动驾驶车辆105的ADS(未示出)之外使用。例如，行人动作预测子系统400可以适用于预测行人动作(即行人的动作)将是有用的任何计算系统(例如，辅助机器人、智能交通管理等)。

行人动作预测子系统400子系统包括图建模器402和行人动作预测器404。图建模器402包括场景上下文建模模块408、特征编码器410和场景道路使用者聚类模块412。图建模器402从车辆105的感知系统200接收经处理数据，表示在预定时间段内每个时间步长的环境100的特征。在一些示例中，经处理数据包括每个相应时间步长的观察帧401(即观察场景)。在一些示例中，每个观察帧401可以采取环境100的2D鸟瞰图(bird's eye view，BEV)地图的形式。如上所述，时间步长2D BEV地图可以由感知系统200的定位和地图构建子系统406生成。在一些示例中，定位和地图构建子系统406的一些或全部功能可以被合并到预处理器模块中，该预处理器模块可以被添加到图建模器402的前端。每个观察帧401包括对观察帧中表示的相应对象(例如，行人、车辆、自行车)进行分类的元数据以及空间信息。在这方面，观察帧401包括关于目标行人(即，要预测行人动作的行人)的空间信息和关于环境100中围绕目标行人的其它动态对象的空间信息。在本发明中，除了目标行人之外，可以潜在地与行人交互的动态对象被称为道路使用者，并且可以包括机动车辆、脚踏车等自推进车辆、行人、动物等。空间信息包括允许从单个观察帧401确定目标行人和道路使用者的相对位置的信息，以及基于观察帧401的时间序列确定目标行人和道路使用者的移动方向的信息。

场景上下文建模模块

场景上下文建模模块408接收观察帧401；对于每个相应观察帧401，确定目标行人的位置和每个道路使用者的位置；针对相应观察帧401生成空间图G＝(V,E)(其中，V是节点v的集合，E是连接边e的集合)，并且针对相应观察帧401的空间图G生成对应邻接矩阵A₁。针对每个相应帧生成的空间图G的节点V包括表示目标行人的中心节点(v^p)和多个其它节点(v^u)，其中，每个其它节点(v^ru)表示道路使用者中的一个。每个观察帧的空间图中的相应连接边e表示中心节点v^p与每个其它节点v^ru之间的直接连接。邻接矩阵A₁包括多个元素，其中，邻接矩阵A₁的每个元素包括分配给目标行人(由空间图G的中心节点v^p表示)与道路使用者中的一个(由空间图的其它节点v^ru中的一个表示)之间的直接连接(例如，边e)的权重。

图4中示出了观察帧401及其相应空间图G的说明性示例。在图4中，观察帧401对应于2D BEV地图，该2D BEV地图包括表示三个车辆(道路使用者)和位于道路上或附近的目标行人的检测对象。作为示例，观察帧401可以已经由自车105的感知系统生成。场景上下文建模模块408基于观察帧401中表示的空间信息生成相应的空间图G(为了说明目的，被覆盖在图4中的观察帧401上)和邻接矩阵A₁。具体地，目标行人被表示为中心节点v^P，并且相应的车辆被表示为道路使用者节点v^ru ₁、v^ru ₂、v^ru ₃。连接边e1、e2、e3表示中心目标行人节点v^P与相应道路使用者节点v^ru ₁、v^ru ₂、v^ru ₃中的每一个之间的直接连接。连接边e1、e2、e3的相应长度代表目标行人与每个相应道路使用者之间的真实世界距离，并且这些节点间距离是由场景上下文建模模块408用于确定邻接矩阵A₁中相应多因素重要性权重(例如，a1、a2、a3)的多个因素中的一个。

由场景上下文建模模块408分配给空间图G中的每个直接连接(例如，连接边e1、e2、e3)的多因素重要性权重(例如，a1、a2、a3)表示每个道路使用者对目标行人的相对重要性。在示例中，场景上下文建模模块408将更高的权重a_i分配给既靠近目标行人又相对于观察帧401中的目标行人处于相对重要位置的道路用户的直接连接(即，连接边e_i)。在一些实施例中，场景上下文建模模块408分配给空间图G中的每个直接连接e_i的多因素重要性权重a_i是基于：(i)道路使用者与目标行人之间的距离，以及(ii)道路使用者与目标行人的相对位置。在一些实施例中，场景上下文建模模块408分配给空间图G中的每个直接连接e_i的多因素重要性权重a_i如下确定。

对于目标行人，确定从观察帧401中的目标行人到目标行人周围的每个道路使用者的距离。道路使用者可以是另一个行人、自行车或另一个车辆。从目标行人到道路使用者的距离由向量D＝{d1,d2,...,d_i...,dN}表示，其中，N是道路使用者的数量，第i元素表示道路使用者i(在空间图G中表示为道路使用者节点v^ru _i)相对于目标行人(在空间图G中表示为目标行人节点v^p)的距离。然后，向量D由值dmax归一化，该值是预测目标行人动作时考虑的最远距离(例如，由最长连接边e表示)。道路使用者离目标行人越远，其对应的归一化距离就越接近1。在一些实施例中，(1–D)可以用作围绕目标行人的每个道路使用者的第一重要性权重(以下称为“距离重要性权重”)。

当将代表每个道路使用者i的重要性的多因素重要性权重a_i分配给目标行人时，场景上下文建模模块408还对目标行人周围的每个道路使用者的相对方向位置进行建模。场景上下文建模模块408基于相应道路使用者相对于目标行人的相对位置，将第二重要性权重(即相对位置重要性权重b_i)分配给围绕目标行人的每个相应道路使用者i。

参考图5，在一些实施例中，基于道路使用者i与目标行人之间的连接边e_i的角度位置，将相对位置重要性权重b_i分配给参考线L，该参考线L从目标行人的位置沿垂直于道路的方向(例如，垂直于距离目标行人最近的车道上的道路使用者的合法行驶方向)绘制。对于目标行人周围的N个道路使用者中的每一个(即，目标行人是参考线L的中心或原点)，测量垂直参考线L与(目标行人与每个相应道路使用者i之间的)连接边e_i之间的逆时针角度θi。对于每个道路使用者i，从参考线L逆时针测量的角度θi将在0到360度之间。在一个示例中，场景上下文建模模块408将道路使用者i相对于目标行人的相对位置重要性权重b_i定义为：

场景上下文建模模块408生成相对位置重要性权重向量B＝{b1,b2,...,bi...,bN}，其中，向量B的第i个元素(例如，b_i)指示道路使用者i相对于目标行人的相对位置重要性。需要说明的是，等式1将相对位置重要性权重b_i确定为基于道路使用者i的相对方向位置分配给道路使用者i的连续变量。图6表示相对于垂直参考线L成角度θi＝90度、180度、270度和0度计算的相对位置重要性权重b_i，其中，目标行人606在参考线L的原点处。在行人604面向道路的情况下，以下相对位置重要性权重将被分配给目标行人的前面、后面、左侧和右侧的对象：前面＝1/2；后面＝1/2；左侧＝+1；右侧＝0。

如上所述，场景上下文建模模块408向位置在目标行人右侧的道路使用者分配较少的相对位置重要性权重，并向目标行人左侧的道路使用者分配更多的位置相对重要性权重。更具体地，位置在参考线L右侧的道路使用者被分配比目标行人左侧的道路使用者更少的相对位置重要性权重。例如，这种相对权重分配适用于法律规定靠路右侧驾驶的地区。

在一些其它实施例中，可以分配离散值而非连续值来表示相对位置重要性，例如，在图6的情况下，在与垂直参考线L成0度<＝θi<＝180度相关联的相对位置处的道路使用者可以被认为是重要的，并分配相对位置重要性权重b_i＝1，以及与垂直参考线L成180度<θi<360度相关联的相对位置处的道路使用者可以被认为是不重要的，并分配相对位置重要性权重b_i＝0。但是，使用连续权重更准确。

上述相对位置重要性权重计算方法是说明性的；任何将反映预期道路使用者行为的重要性权重分配给周围道路使用者的公式都可以用于向量B中的权重分配。

当场景上下文建模模块408已经计算了距离重要性向量D和相对位置重要性权重向量B两者时，最终多因素重要性权重a_i被分配给每个道路使用者，如下所示：

A＝B.(1–D)

其中，.表示向量的逐元素乘法。向量A＝{a1,a2,...,a_i,..,aN}的第i个元素是第i个道路使用者相对于目标行人的相对重要性。如果分配给道路使用者i的多因素重要性权重a_i接近0，则道路使用者i要么远离目标行人，要么位于目标行人的右侧。

相应地，空间图G是以目标行人为中心的星形图。星形图的中心节点表示目标行人，星形图中的每个其它节点表示道路使用者。星形图中的直接连接将每个道路使用者连接到目标行人。用户节点相对于目标行人的相对距离和方向位置被纳入对应的边权重中，如邻接矩阵A所示。

特征编码器

特征编码器410从预处理模块404接收每个观察帧401的空间信息，基于观察帧401集合中的关于目标行人的空间信息生成关于目标行人的时空信息，并基于观察帧集合中的关于相应道路使用者的空间信息生成关于每个相应道路使用者的时空信息。特征编码器410还为目标行人生成特征编码x^p，该特征编码x^p对为目标行人生成的时空信息进行编码。目标行人的特征编码x^p可以是向量的形式。基于关于目标行人的时空信息被编码为特征编码x^p中的相应元素的相应特征可以包括以下中的一个或多个：目标行人的位置、目标行人的大小、目标行人的速度、道路使用者的移动方向，以及从目标行人到车辆105正在行驶的道路的边界的距离。

特征编码器410还为每个道路使用者i生成特征编码x^ru _i。每个道路使用者i的特征编码x^ru _i对生成的关于道路使用者的时空信息进行编码。每个道路使用者i的特征编码x^ru _i可以是向量的形式。基于关于每个相应道路使用者i的时空信息被编码为特征编码x^ru _i中的相应元素的相应特征可以包括以下中的一个或多个：相应道路使用者相对于目标行人的位置、相应道路使用者(例如，汽车、公共汽车、自行车、其它行人)的大小和/或类型、相应道路使用者的速度、相应道路使用者的移动方向、从相应道路使用者到车辆105正在行驶的道路的边界的距离，以及道路使用者的速度。因此，特征编码器410生成特征向量{x^p,x^ru ₁,...,x^ru _N}的特征矩阵X。特征编码器410可以使用来自先前观察帧401的历史信息来确定关于当前观察帧的特征矩阵X。

场景道路使用者聚类模块

在图建模器402包括场景道路使用者聚类模块412的示例中，场景道路使用者聚类模块412用于识别具有相似行为的道路使用者，并将他们的相似性合并到为每个观察帧401生成的空间图G中。场景道路使用者聚类模型412将具有相似行为的道路使用者聚类为同一组。场景道路使用者聚类模型412利用一些标准来决定一些道路使用者的行为是否相似。为了将对象聚类成组，场景道路使用者聚类模块412可以根据聚类标准或模型并基于从当前时间步长和历史观察帧401导出的信息执行聚类操作，例如如下：

(1)基于道路使用者的类型和运动将其分为不同的组：静止行人、移动行人、静止车辆、移动车辆、静止自行车、移动自行车。

(2)基于非行人道路使用者的定向，进一步将非行人道路使用者聚类在不同组(例如机动车和自行车)中，具体方法是：(a)基于注释确定定向向量；(b)使用KMEAN算法将定向向量分为两个子组(例如簇)，每个驱动方向一个子组；(3)基于定向向量，将步骤(2)(b)中的子组(例如簇)分为另外的子组(例如子簇)。

(3)基于行人道路使用者的定向，进一步将其聚类为子组(例如簇)。如果行人静止不动，则不需要进一步将行人划分为更多的子组(例如子簇)。如果行人正在移动，则基于行人的定向和/或运动，从步骤(3)划分行人簇。如果任何两个行人朝向同一方向，则将两个行人分组为同一簇。如果任何两个行人朝向不同方向，并相对而行，则将两个行人分组在同一簇中。如果任何两个行人朝向相反方向，并向背而行，则将两个行人分入两个子群中。在一些示例中，可以通过确定两个行人的移动/站立方向之间的角度来执行确定两个行人是否在同一方向上行走，如果角度小于90度，则确定两个行人在同一方向上移动。否则，两个行人被确定为在不同的方向上移动。

当根据预定的聚类标准或模型获得最小可能的簇时，聚类完成。

在获得簇之后，修改每个观察帧的空间图G，以包括表示道路使用者并在同一组(簇)中包括的r个节点之间的边连接。每个观察帧的最终空间图G将包括星形图，其中，中心节点表示正在执行行人动作预测的目标行人，而表示簇内道路使用者的其它节点完全相互连接。完全连接的其它节点是相同类型的(机动车、行人、自行车等)，这些节点已被确定为具有相似的行为。

例如，在图7中，同一椭球体中的道路使用者处于同一簇中(例如，椭球体702_1中的机动车类型道路使用者402_1和402_2处于第一公共簇中；椭球体702_2中的机动车类型道路使用者402_3至402_5处于第二公共簇中；椭球体702_3中的自行车类型道路使用者402_6和402_7处于第三公共簇中)。每个相应簇内的道路使用者节点v^ru将各自由相应的连接边连接，从而将另一连接边集合添加到空间图G中。在图7中，行人404与相应的道路使用者402_1至407_7之间的实线表示由场景上下文建模模块408确定的原始连接边。连接每个簇内(即，在每个椭球体702_1、702_3和702_3内)的相应道路使用者的虚线表示添加在场景道路聚类模块412中的簇内连接边。

在示例性实施例中，簇内连接边各自具有1的权重。邻接矩阵A1可以扩展以包括表示簇内连接边的元素，从而产生全面的邻接矩阵A2。图8中示出了对应于图7的邻接矩阵A2的示例，其中，v^p表示代表目标行人404的中心节点，v^ru ₁至v^ru ₇表示分别代表道路使用者402_1至402_7的道路使用者节点。

有利地，场景道路使用者聚类模块412生成观察帧的空间图，所述空间图包括对观察帧(即交通场景)的更好理解。每个观察帧的空间图作为时空图提供给行人动作预测器404，如下所述，行人动作预测器404预测目标行人的未来行人动作。

行人动作预测器

行人动作预测器404接收观察帧集合的空间图，并使用时空图卷积神经网络(graph convolutional neural network，GCNN)处理空间图，以预测目标行人的行人动作。具体地，行人动作预测器404接收特征矩阵X以及邻接矩阵A₂作为输入，特征矩阵x包括目标行人和N个道路使用者中的每一个的相应特征向量编码，邻接矩阵A₂标识目标行人与N个道路使用者中的每一个之间的相对重要性权重a1到aN，并且还标识行为相似的道路使用者的相应簇。GCNN生成对应于行人将穿过道路的行人动作的概率值和对应于行人将不穿过道路的行人动作的概率值，并输出表示行人动作(是否会穿过道路)预测的二进制值。例如，如果对应于行人将过路的行人动作的生成概率值高于对应于行人将不过路的行人动作的概率值，则行人动作预测器404输出行人动作是行人将过路的指示(即标签)。类似地，例如，如果对应于行人将过路的行人动作的生成概率值低于对应于行人将不过路的行人动作的概率值，则行人动作预测器404输出行人动作是行人将不过路的指示(即标签)。

基于生成的预测，自车105的规划系统300可以确定自车105的一个或多个系统应该采取的适当动作。例如，规划系统300可以向驱动控制系统150发出指令，以使制动单元154使自车105减速。其它可能指示的动作包括：改变转向角度；增大或减小油门；鸣笛；以及在车舱中激活内部警告(声音和/或视觉和/或触觉警报)。

因此，在示例中，行人动作子系统400应用基于图的交互建模方法，该方法将道路使用者鸟瞰信息作为输入。基于不同道路使用者的距离和相对于行人的相对位置，将重要性权重分配给不同的道路使用者。

现在将根据本发明的另一个示例性方面描述另一个行人动作预测子系统900的示例。

在行人动作预测子系统900中，行人动作预测被视为优化问题。目标是给定目标行人、自车105和附近道路使用者的位置L_o＝{l₁，l₂，...，l_T}和定向O_o＝{o₁，o₂，...，o_T}以及道路的交通方向R_o＝{r₁，r₂...，r_T)的全局鸟瞰图的观察序列，估计在未来的某个时间t+k第i个行人的过路动作的概率分布，其中，/>

与动作预测子系统400类似，动作预测子系统900包括图建模器902和行人动作预测器916。图建模器902包括：(i)道路使用者聚类模块912，用于使用目标行人附近的道路使用者的速度、位置和定向对目标行人附近的道路使用者进行分组；(ii)特征编码器模块910，用于形成每个观察对象(例如，在观察帧401中包括的道路使用者)和目标行人的特征向量。向量用作空间图G中道路使用者和目标行人的节点表示。图建模器902还包括(iii)交互建模模块914，用于计算道路使用者对目标行人的相对重要性，该相对重要性与所标识的簇一起使用，以确定空间图G中连接边的权重。行人动作预测器916使用空间图G的图表示和目标行人和自车的一些动力学信息来预测目标行人在未来的过路动作的概率。

道路使用者聚类模块912

在示例中，道路使用者聚类模块912用于基于相似行为对道路使用者进行分组。在这方面，道路使用者聚类模块912基于目标行人周围的道路使用者的静态和动态特性，包括对象类型和速度、位置和定向，执行目标行人周围的道路使用者的逐帧聚类，如下所示：

对象类型。

首先，道路使用者分为几个类别类型，例如三个类别——行人、车辆和自行车。然后，对于观察序列F_o＝{f₁,f₂,...,f_T}中的每个观察帧401，首先基于速度S_o＝{s₁,s₂,...s_T}，然后基于鸟瞰图位置L_o，最后基于定向O_o，以分层的方式，将道路使用者进一步聚类在每个类别中，从而获得每个观察帧的簇集合，C_o＝{c₁,c₂,...,c_T}。

对象速度。

在每个类别中，通过计算在上一帧与当前帧之间的速度，确定每个道路使用者是移动的还是静止的。对于帧t中的第i个对象，

/>

其中，t＝2……T，帧率是观察帧401的频率，单位为Hz。在t＝1时，s₁ ⁽ⁱ⁾设置为0。

根据经验确定的速度阈值(例如0.2m/s、2m/s和2m/s)用于将每个对象类别分为移动子组或静止子组。如果s_t ⁽ⁱ⁾≥阈值，则道路使用者i被认为在观察帧f_t中移动。因此，使用道路使用者类型和速度，观察帧401中的所有道路使用者被分成几组，例如六组：静止行人、移动行人、静止车辆、移动车辆、静止自行车和移动自行车。

位置。

接下来，基于鸟瞰图中道路使用者之间的相互距离，在每组道路使用者中生成粗聚类。例如，对此可使用基于密度的噪声应用空间聚类(density-based spatialclustering of applications with noise，DBSCAN)算法[见M.Ester、H.-P.Kriegel、J.Sander和X.Xu的“在具有噪声的大型空间数据库中发现聚类的基于密度的算法(Adensity-based algorithm for discovering clusters in large spatial databaseswith noise)”，国际知识发现与数据挖掘会议，1996年]。DBSCAN需要两个参数——在同一簇中考虑的两点的最大距离和用于确定簇中的噪声的MinPts。MinPts可以设置为1，以便没有对象(例如，道路使用者)被识别为噪声。在一个说明性示例中，对于行人、车辆和自行车，最大距离可以根据经验分别设置为1.5米、10米和5米。

定向。

这些基于距离的簇可以基于道路使用者的定向信息进一步划分。在一个说明性示例中，对于静止行人，由于静止组中行人定向具有高度可变性，因此不进行进一步的聚类。对于移动行人，聚类是基于两个因素进行的——(1)两个给定的行人是面向同一方向还是不同方向，(2)他们是朝向彼此移动还是远离彼此移动。在这方面，如果两个行人的定向向量γ之间的角度满足下式，则两个行人可以被视为在帧f_t中面向相反方向的对象i和j：

其中，和/>分别是对象i和j的定向向量。否则，行人被视为面向同一方向。

如果两个行人之间的距离从观察帧f_t–1增加到f_t，则认为他们正在远离彼此移动。也就是说，如果则行人被视为朝向彼此移动。如果两个行人是：(1)面向同一方向，或(2)面向相反方向并朝向彼此移动，则他们将保持在同一距离簇中。如果距离簇中的两个行人面向相反的方向并远离彼此移动，则他们将被分为不同的簇。

对于车辆簇和自行车簇，可以例如使用K均值算法[]，基于其归一化定向向量进行聚类，将道路使用者分为两组。这样做的目的是防止在不同方向上行进的车辆和自行车被分入同一簇。

如下所述，交互建模模块914使用在观察帧f_t中找到的簇集合，即c_t＝{c⁽¹⁾ _t,c⁽²⁾t,...,c^(NC,t)}，其中，NC,t是观察帧f_t中用于确定图边的权重的簇的总数。

特征编码器模块910

在观察帧f_t中表示的交通场景中的目标行人和每个道路使用者在图G中表示为给定观察帧f_t的相应对象节点。在一个示例中，观察帧f_t中的第i个对象的节点表示被表示为对象节点向量v⁽ⁱ⁾ _t。例如，对象(例如，道路使用者或目标行人)的向量v⁽ⁱ⁾ _t可以包括35个元素，这些元素可以用于指定包括对象类型、位置、运动和大小的信息的相应特征值。在这方面，每个道路使用者和目标行人都由特征值集合表示，该特征值集合包括鸟瞰坐标之外的信息。例如，对于每个对象，对象节点向量v⁽ⁱ⁾ _t的35个元素中的七个元素的集合可以用于指定直接属于第i个对象的7个特征值。在这七个特征值中，前两个表示对象是静止的[1,0]还是移动的[1,0]。包括这些信息使空间图卷积运算对关于静止道路使用者与移动道路使用者对目标行人重要性比率的信息进行编码。第三和第四特征值表示对象相对于目标行人的位置。对于目标行人，这些值将为[0,0]。否则，对于道路使用者i，这些值是根据经验设置的阈值距离(例如d_thresh＝20m)可以在目标行人周围定义，并且坐标[x,y]可以使用/>调整为从0到1的范围，其中，d是道路使用者沿着全局x或y轴到目标行人的距离。第五特征值是道路使用者的速度s_t(i)，如上面的对象速度等式中所定义。第六和第七特征值分别是对象的长度和宽度。在一些示例中，在预测动作子系统900的训练期间确定每个对象类型(例如，车辆、自行车、行人)的速度、长度和宽度的最大值，并且这些值在训练集中被重新缩放为0到1的范围。在这方面，可以学习缩放因子，以便在系统部署期间将特征值缩放到类似的范围。在获得对象的七个特征值后，基于对象的类型(自车、目标行人、其它行人、其它车辆和自行车)填充对象节点向量v⁽ⁱ⁾ _t的特定元素。

在示例性实施例中，对象节点向量v⁽ⁱ⁾ _t中元素位置的不同部分被分配给不同类型的对象。例如，如果节点表示目标行人，则节点向量v⁽ⁱ⁾ _t的前七个元素时隙(例如，由元素位置1至7组成的第一部分)分别用七个特征值填充。对于表示自车105的节点向量v⁽ⁱ⁾ _t，接下来的七个元素时隙(例如，由元素位置8至14组成的第二部分)用于特征值。对于其它行人、其它车辆和自行车，节点向量v⁽ⁱ⁾ _t的第三、第四和第五7元素部分分别用于七个特征值。分离不同对象类型的特征值的目的是帮助模型识别目标行人周围的对象类型。

对于观察帧序列中的N个唯一对象，对于每个观察帧，特征向量被堆叠到大小为N×Q的矩阵中，其中，Q是节点向量v⁽ⁱ⁾ _t的元素时隙中的长度。(例如，在所示的示例中，Q＝35)，从而得到特征矩阵集合V_o＝{V₁，V₂，...，V_T}。T表示将被行人动作预测器916视为一组的时间步长(例如，观察帧)的总数。在准备行人动作预测器916的时空卷积时，特征矩阵序列被堆叠成大小为N×Q×T的3D张量。

交互建模模块914

交互建模模块914用于部分基于由道路使用者聚类模块912生成的聚类，为目标行人的观察序列中的每个观察帧f_t构建空间图G的图结构(互连对象节点的图拓扑)，以形成对称邻接矩阵A。对称邻接矩阵A与由特征编码器模块910生成的节点特征向量V_o相结合，共同形成观察帧f_t的空间图G。

在这方面，交互建模模块914构建图拓扑，其中，目标行人节点(例如，表示目标行人的节点)通过边与观察帧f_t中表示的场景中出现的每个道路使用者的每个节点连接。然后，基于针对观察帧f_t生成的簇每个道路使用者节点通过边连接到其自己簇中的每个其它道路使用者节点，以形成一个完全连接的簇子图。

在观察帧f_t处的对称邻接矩阵A_t将这些节点连接或图边表示为位于邻接矩阵A_t中的元素位置处的相应值，对应于不同对象节点的行和列在这些位置处相交(即，图8中关于先前示例性实施例的矩阵A₂所示的相同结构)。

对称邻接矩阵A_t中对应于目标行人节点与每个相应道路使用者节点之间的连接边的值由两个矩阵确定，Bt是对道路使用者对目标行人的相对位置重要性进行编码的矩阵，Dt是表示目标行人与每个对象之间距离的矩阵。为了一致性，为了描述行人动作子系统，目标行人节点将被分配到邻接矩阵A_t的第0行和第0列。

相对位置重要性矩阵，B。对于观察帧中表示的场景的可驾驶区域上的对象(例如道路使用者)，相对位置重要性矩阵B的元素的重要性值是使用对象与目标行人的距离生成的，该距离沿着道路与目标行人最近的边(在交通方向上)计算的，如图10所示。具体地，基于平行于最接近目标行人的道边的行驶线测量从最接近目标行人的车道边上与道路使用者垂直对齐的点到边上与行人垂直对齐的点的距离。这种行进距离测量对车道的行驶方向和道路的曲率具有鲁棒性。如果对象已经经过目标行人，则将负值分配给行进距离(例如，道路使用者i＝2和i＝4的距离d2和d4分别是负值)，如果对象正在接近，则分配正值(例如，道路使用者i＝1和i＝4的距离d1和d3分别是正值)。因此，道路使用者的相对位置重要性既基于道路上的行进距离，也基于道路使用者相对于目标行人的行进方向。

距离阈值d_thresh可以根据经验设置距离目标行人的最大距离(例如，20米)，并相应地归一化由此产生的相对重要性值。因此，对于观察帧f_t中的第i个对象，该对象位于场景的可驾驶区域上，沿道路车道距离为距离d，相对位置重要性值可以计算为：

对于在观察帧f_t中表示的场景的不可驱动区域上的任何对象j，相应的矩阵值可以设置为：B_t[0,j]＝B_t[j,0]＝0.5。

对于作为同一簇的一部分的任何两个对象m和n，对应于对象对的相对位置重要性矩阵Bt的矩阵位置可以设置为Bt[m,n]＝Bt[n,m]＝0。0的值可以分配给矩阵Bt的所有对角线元素，剩余尚未设置的值都设置为1。

距离矩阵，D。距离值矩阵D的元素是使用目标行人与其周围道路使用者之间的欧几里德距离计算的。因此，对于观察帧ft中的第k个对象，

与相对重要性值矩阵B类似，可以使用预定义的距离阈值(例如，d_thresh＝20m)归一化距离。为了获得Dt[0,k]和Dt[k,0]，可以使用以下计算：

与重要性矩阵类似，对于作为同一簇的一部分的任何两个对象m和n，交互建模模块914可以设置Dt[m,n]＝Dt[n,m]＝0，将0分配给Dt的所有对角线元素，并将1值分配给Dt的所有剩余元素。

邻接矩阵，A。交互建模模块914可以计算观察帧f_t的邻接矩阵，如下所示：

A_t＝(1-B_t)☉(1-D_t)，

其中，⊙表示逐元素乘法，以获得观察帧f_t处的邻接矩阵A_t。在道路使用者、目标行人对的情况下，对应的矩阵值是多因素相对重要性权重，基于道路使用者与行人对之间的距离以及相对位置重要性值确定。

总之，当i＝j或对象属于同一簇时，在观察帧f_t中表示的场景中，第i个和第j个对象(即目标行人和道路使用者)的邻接矩阵A_t的值[i,j]将为1。对于目标行人与每个道路使用者之间的所有连接边，0≤A_t[i,j]≤1。当这两个对象不是同一簇的一部分时，A_t[i,j]＝0。

需要说明的是，邻接矩阵A_t[i,j]包括嵌入类似于在行人动作子系统400的上下文中关于上述矩阵A₂描述的信息的值。每个矩阵元素指示在由观察帧f_t表示的场景中检测到的相应对象对之间是否存在直接连接。在道路使用者类型对象对的情况下，“0”表示没有直接连接，这意味着道路使用者对不包括在公共簇中；“1”表示直接连接，这意味着道路使用者对在公共簇中。对应于道路使用者与目标行人对的配对的矩阵元素中的每一个将包括基于道路用户到目标行人的距离以及为道路使用者/目标行人对确定的相对位置重要性的相应多因素相对重要性权重。相对位置重要性值取决于距离度量和道路对象相对于目标行人的方向。

在准备对图进行时空卷积时，邻接矩阵A被格式化成使得对于在所有观察帧上具有总共N个唯一对象(包括目标行人和周围对象)的观测序列(即，T个观察帧)，邻接矩阵A将在序列中的每个观察帧处具有维度N×N。

如果序列中的对象不存在于给定帧中，则它不会连接到任何其它节点，这是通过将对应行和列的邻接矩阵的所有值设置为零来实现的，例外为对角线元素设置为1。目标行人观察序列Ao＝{A1,A2,...,AT}中的所有观察帧的邻接矩阵A_t堆叠成大小为N×N×T的3D张量，并提供给行人动作预测器916。

行人动作预测器916

在示例性实施例中，行人动作预测器916可以包括时空图卷积神经网络。空间图卷积定义为Z＝AVW[例如，见T.Kipf和M.Welling的“图卷积网络的半监督分类(Semi-supervised classification with graph convolutional networks)”，ICLR，2017年]，其中，A是一个帧的邻接矩阵，V是对应的特征矩阵，W包含空间卷积层的可训练权重。在此基础上扩展，如[11]中所示，时空图涉及使用空间图集合G_o＝{G1,G2,...,GT}＝(V_o,A_o)从序列中的观察帧F_o＝{f₁,f₂,...,f_T}构建图。这些图在每一帧处具有相同的配置，而A_t中的边权重和V_t中的特征随着t范围从1到T变化而变化。

当执行时空图卷积组件时，行人动作预测器916可以通过使用两层空间卷积来利用嵌入在邻接矩阵A_o中的聚类信息，从而将每个对象的间接邻居的级别合并到卷积中。时间维度上的卷积可以使用例如内核大小3来执行，将给定观察帧的信息与其先前和随后观察帧的信息组合在一起。

目标行人的嵌入可以表示为P，具有的维度，其中，超参数/>的值是根据经验选择的(例如/>)，并对应于输出维度。

编码目标行人和自车动力学。为了直接捕获与目标行人和自车动力学有关的信息，可以在每个观察帧f_t处编码目标行人特征的向量以及自车特征的向量/>在这里，x和y是目标行人和自车的位置，vx和vy是全局鸟瞰图参照系中的速度。速度计算为/>对于t＝2，……，T，其中，i是目标行人或自车。在t＝1时，[vx,vy]设置为[0,0]。速度可以乘以缩放因子(例如，1000)，以将其缩放为类似于全局x和y坐标的数量级。

动作分类。在行人动作预测器916的说明性示例中，为了生成预测(例如，行人将过路或不过路的概率)，目标行人的图嵌入P、行人动力学和自车动力学被馈送到三个相应的长短期记忆(long short term memory，LSTM)网络。生成的三个隐藏状态被级联并馈送到注意力层，然后通过密集层进行分类。对于训练，二进制交叉熵损失可以在示例性实施例中使用。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电硬件、或者计算机软件和电硬件的结合来实现。功能是由硬件还是由软件执行取决于技术方案的特定应用和设计约束条件。本领域技术人员可以使用不同的方法实现每个特定应用的所描述的功能，但是不应认为该实现方式超出本发明的范围。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以基于上述方法实施例中的对应过程，在此不再赘述。

应当理解，所公开的系统和方法可以以其它方式实现。作为分立部分描述的单元可以是物理上分开的，也可以不是物理上分开的，作为单元显示的部分可以是物理单元，也可以不是物理单元，可以位于一个位置，也可以分布在多个网络单元上。可以根据实际需要选择部分或全部单元，以实现实施例的方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

当这些功能通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以将这些功能存储在计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。该软件产品存储在一个存储介质中，包括若干指令用以指示一台计算机设备(可以是个人计算机、服务器或网络设备)执行本申请各个实施例所述方法的全部或部分步骤。上述存储介质包括任何可以存储程序代码的介质，例如通用串行总线(universal serialbus，USB)闪存驱动器、可移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁盘或光盘等。

以上所述仅是本申请的一些具体实现方式，并非用于限定本申请的保护范围。在本发明所公开的技术范围内，本领域技术人员可以想到的变化或替换都应涵盖在本发明的保护范围内。在本发明中引用的任何发表论文的内容通过引用的方式并入本文。

Claims

1.一种用于预测行人动作的计算机实现方法，其特征在于，所述方法包括：

接收观察帧的时间序列，每个观察帧包括目标行人和多个道路使用者的空间信息；

对于观察帧序列中的每个观察帧：

至少基于在所述观察帧中包括的所述空间信息，对所述目标行人的目标行人特征集合和所述多个道路使用者中的每一个的相应道路使用者特征集合进行编码；

至少基于在所述观察帧中包括的所述空间信息，生成相对重要性权重集合，所述相对重要性权重集合包括所述道路使用者中的每一个的相应的相对重要性权重，所述相应的相对重要性权重指示所述道路使用者对所述目标行人的相对重要性，每个道路使用者的所述相应的相对重要性权重基于所述道路使用者与所述目标行人之间的距离以及所述道路使用者对所述目标行人的相对位置重要性；

基于针对多个所述观察帧中的每一个编码的所述目标行人特征集合、针对多个所述观察帧中的每一个编码的所述相应道路使用者特征集合以及针对多个所述观察帧中的每一个生成的所述相对重要性权重集合，预测所述目标行人的未来动作；

基于所述目标行人的所述预测的未来动作，自动控制自动驾驶车辆的动作。

2.根据权利要求1所述的方法，其特征在于，每个道路使用者的所述相对位置重要性基于所述道路使用者相对于所述目标行人的移动方向。

3.根据权利要求2所述的方法，其特征在于，与所述道路使用者远离所述目标行人移动的情况相比，在所述道路使用者朝向所述目标行人移动的情况下，每个道路使用者的所述相对位置重要性更大。

4.根据权利要求2或3所述的方法，其特征在于，每个道路使用者的所述相对位置重要性还基于所述道路使用者相对于所述目标行人的位置沿着道路的行进距离。

5.根据权利要求2或3所述的方法，其特征在于，每个道路使用者的相对位置重要性基于所述道路使用者与参考线的距离，所述参考线从所述目标行人的位置延伸并垂直于行进的道路方向。

6.根据权利要求1至5中任一项所述的方法，其特征在于，对于每个道路使用者，所述道路使用者与所述目标行人之间的所述距离为欧几里德距离。

7.根据权利要求1至6中任一项所述的方法，其特征在于，对于所述观察帧序列中的每个观察帧：

对所述目标行人的所述目标行人特征集合和所述多个道路使用者中的每一个的相应道路使用者集合进行编码基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息；

为每个道路使用者生成所述相对重要性权重集合基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息。

8.根据权利要求1至7中任一项所述的方法，其特征在于，对于所述观察帧序列中的每个观察帧：

基于在包括所述观察帧的所述序列中的多个观察帧中包括的所述空间信息，基于行为相似性，将所述多个道路使用者的道路使用者组聚类为相应簇；

其中，预测所述目标行人的所述未来动作也基于所述聚类。

9.根据权利要求8所述的方法，其特征在于，针对所述观察帧中的每一个生成相应的空间图，其中，对于每个观察帧：

所述相应的空间图具有表示所述目标行人的目标行人节点，以及各自表示所述多个道路使用者中的相应一个的多个道路使用者节点，所述相应的空间图由以下定义：(i)特征矩阵，包括所述编码的目标行人特征作为所述目标行人节点的特征，并且包括为所述相应道路使用者编码的所述道路使用者特征集合作为所述相应道路使用者节点的特征；(ii)邻接矩阵，指定：(a)所述目标行人节点与所述相应道路使用者节点中的每一个之间的相应加权连接边，所述目标行人节点和所述相应道路使用者节点中的每一个对应于针对所述观察帧生成的所述相对重要性权重集合；(b)在相应簇中包括的所述道路使用者节点中的每一个之间的连接边。

10.根据权利要求9所述的方法，其特征在于，预测所述目标行人的所述未来动作是使用时空卷积图神经网络来执行，所述时空卷积图神经网络接收针对所述观察帧生成的所述空间图。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述预测的行人动作是所述行人将在所述自动驾驶车辆前面过路或所述行人将不在所述自动驾驶车辆前面过路中的一个。

12.根据权利要求1至11中任一项所述的方法，其特征在于，对于所述观察帧序列中的每个观察帧：为所述多个道路使用者中的每一个编码的所述相应道路使用者特征集合包括以下中的一个或多个：所述道路使用者的类型；所述道路使用者相对于所述目标行人的位置、所述道路使用者的大小、所述道路使用者的速度以及所述道路使用者的移动方向。

13.一种处理系统，其特征在于，包括：

一个或多个处理器系统；

一个或多个非瞬时性存储器，存储指令，所述指令当由所述一个或多个处理器系统执行时，使所述一个或多个处理器系统执行权利要求1至13中任一项所述的方法。

14.一种非瞬时性计算机可读介质，其特征在于，存储机器可执行指令，所述机器可执行指令当由一个或多个处理器系统执行时，使所述一个或多个处理器系统执行权利要求1至13中任一项所述的方法。