CN116629462B

CN116629462B - 一种多智能体统一交互轨迹预测方法、系统、设备和介质

Info

Publication number: CN116629462B
Application number: CN202310911869.0A
Authority: CN
Inventors: 江昆; 陈俊杰; 杨蒙蒙; 付峥; 杨殿阁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-11-21
Anticipated expiration: 2043-07-25
Also published as: CN116629462A

Abstract

本发明涉及一种多智能体统一交互轨迹预测方法、系统、设备和介质，包括以下步骤：根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵；将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果。本发明通过对2D空间图进行了空间图增强表征，完成了交通场景内各种交互关系的交互建模，同时通过建立时空transformer网络，可以有效提升多智能体轨迹预测精度，满足实际应用需求。因此，本发明可以广泛应用于智能汽车轨迹预测领域。

Description

一种多智能体统一交互轨迹预测方法、系统、设备和介质

技术领域

本发明涉及智能汽车轨迹预测领域，具体涉及基于人工智能技术的交通场景中多类别交通参与者的轨迹预测领域，特别是涉及一种多智能体统一交互轨迹预测方法、系统、设备和介质。

背景技术

在复杂交通场景中会存在行人、骑车人、车辆等多类别交通参与者，而交通参与者虽然产生的交互方式不同，但其都对彼此的行驶策略产生作用。因此自动驾驶车辆需要对多种类型的交通参与者建立统一的交互关系模型，这样才能帮助自动驾驶车辆车辆做出最优决策，进而提升自动驾驶车辆的安全性和可靠性。

交通参与者的交互涉及到时间维度和空间维度两个方面，而目前的研究工作往往仅从空间方面来考虑各个智能体的交互，忽略了时间维度。同时在交互关系的建立过程中，行人-行人交互、行人-车辆交互，行人-骑车人以及车辆-骑车人等多种组合下的智能体之间的交互是不一样的，因此在实际应用中，亟需要一种统一的时空交互架构来预测多智能体的轨迹。

发明内容

针对上述问题，本发明的目的是提供一种多智能体统一交互轨迹预测方法、系统、设备和介质，不仅可以利用空间图强化特种交互组合的交互关系，同时也可以将多个智能体的时空特征耦合，捕捉交通场景中各个智能体之间的时空交互特征，有效提升多智能体轨迹预测精度，满足实际应用需求。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种多智能体统一交互轨迹预测方法，包括以下步骤：

根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵；

将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果。

进一步，所述根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵，包括：

根据当前交通场景构建2D空间图；

对2D空间图进行时序聚合；

对时序聚合后的2D空间图进行空间图增强表征，得到融合了空间交互特征的空间注意力矩阵。

进一步，所述根据当前交通场景构建2D空间图，包括：

将当前交通场景中的所有交通参与者作为2D空间图的节点；

根据交通参与者的不同类别设计注意力半径，并将在注意力半径内的其他交通参与者设置为邻居，用空间边来表示不同节点的连接，得到2D空间图。

进一步，所述对2D空间图进行时序聚合，包括：基于时序信息，对相邻两帧2D空间图上的同一智能体之间用时间边连接。

进一步，所述对时序聚合后的2D空间图进行空间图增强表征，得到融合了空间交互特征的空间注意力矩阵，包括：

对2D空间图中各智能体的信息数据进行特征编码，并利用self-attention机制，学习当前2D空间图中各个智能体的交互关系，得到自注意力矩阵；

基于2D空间图中每个智能体之间的距离进行空间编码，得到空间编码矩阵；

基于2D空间图中每个智能体的类别进行边权编码，得到边权编码矩阵；

基于自注意力矩阵、空间编码矩阵和边权编码矩阵，得到融合了空间交互特征的空间注意力矩阵。

进一步，所述将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果，包括：

对空间注意力矩阵进行预处理，作为时空transformer网络的输入特征；

搭建时空transformer网络，并利用训练数据和损失函数进行训练；

将预处理后的空间注意力矩阵输入训练好的时空transformer网络，得到多智能体统一交互轨迹预测结果。

进一步，所述对空间注意力矩阵进行预处理，是指将所述空间注意力矩阵按照时间维度进行展开，并进行soft-sparse归一化。

第二方面，本发明提供一种多智能体统一交互轨迹预测系统，包括：

数据处理模块，用于根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵；

轨迹预测模块，用于将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果。

第三方面，本发明提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述方法中的任一方法。

第四方面，本发明提供一种计算设备，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明通过对2D空间图进行了空间图增强表征，完成了交通场景内各种交互关系的交互建模。

2、本发明在基于交通场景构建的2D空间图进行了时序聚合，耦合了智能体的时空特征，更符合实际交通参与者的交互特点。

3、本发明通过建立时空transformer网络，并对多种智能体形成的空间注意力矩阵分别设计soft-sparse机制处理“过交互”情况，同时设计根据任务设计loss函数进行监督，从而保证网络收敛速度与稳定。

本发明可以广泛应用于智能汽车轨迹预测领域。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在整个附图中，用相同的附图标记表示相同的部件。在附图中：

图1是本发明实施例提供的多智能体统一交互轨迹预测方法流程图；

图2a和图2b是本发明实施例提供的2D空间图的构建示意图；

图3是本发明实施例提供的3D traffic-graph图的构建示意图，图中各节点间的实线是空间边，各节点间的虚线是时间边；

图4是本发明实施例提供的空间增强模块意图；

图5是本发明实施例提供的时空transformer网络结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明的一些实施例中，提供一种多智能体统一交互轨迹预测方法，首先，根据当前交通场景构建2D空间图，将所有交通参与者即智能体作为2D空间图的节点；其次，针对智能体的不同类别设置不同的注意力半径，并将在注意力半径内的其他智能体设置为邻居，用空间边来表示连接，通过时序信息，将相邻两帧交通图内的同一智能体之间用时间边连接；将构建好的2D空间图进行空间增强表征，通过self-attention机制学习到当前时刻多个智能体之间的交互关系；最后，将空间增强表征后的特征按照时间维度展开，并通过tranformer机制学习到时空两个维度下，所有智能体之间的交互，得到各个类别智能体的未来轨迹。该方法可以有效提升多智能体轨迹预测精度，满足实际应用需求。

与之相对应地，本发明的另一些实施例中，提供一种多智能体统一交互轨迹预测系统、设备和介质。

实施例1

如图1所示，本实施例提供一种多智能体统一交互轨迹预测方法，利用交通参与者的位置信息、速度信息以及类别信息预测交通参与者未来的位置信息。具体地，该方法包括以下步骤：

1）根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵。

具体地，包括以下步骤：

1.1）根据当前交通场景构建2D空间图。

具体地，根据当前交通场景构建2D空间图时，首先，将当前交通场景中的所有交通参与者也即所有智能体作为2D空间图的节点；其次，根据交通参与者的不同类别设计注意力半径，并将在注意力半径内的其他智能体设置为邻居，用空间边来表示不同节点的连接。

如图2a和图2b所示，将包括行人、车辆、骑车人等在内的所有交通参与者，作为2D空间图的节点；基于不同交通参与者的类别设计注意力半径，本实施例中，将车辆的注意力半径设置为30米，骑车人的注意力半径设置为20米，行人的注意力半径设置为10米；将在注意力半径内的智能体设置为邻居，并用空间边来表示连接，得到2D空间图。

1.2）对构建的2D空间图进行时序聚合。

如图3所示，由于相邻2帧2D空间图存在时序信息，本实施例在相邻2帧2D空间图中同一智能体之间使用时间边进行连接，可以得到时空交通图。

1.3）对时序聚合后的2D空间图进行空间图增强表征，得到融合了空间交互特征的空间注意力矩阵。

具体地，包括以下步骤：

1.3.1）对2D空间图中各智能体的信息数据进行特征编码，并利用self-attention（自注意力）机制，学习当前2D空间图中各个智能体的交互关系，得到自注意力矩阵。

如图4所示，本实施例首先通过三个线性层（Linear）将2D空间图中各智能体的信息数据，例如各智能体的位置，速度，朝向等信息进行特征编码，使其映射到高维度特征空间中，并将各智能体的所有特征编码堆叠成一组，得到适用于注意力机制的Q、K、V特征向量。然后，将Q特征向量和K特征向量相乘（MatMul）后再进行Scale操作，得到自注意力矩阵。

1.3.2）基于2D空间图中各个智能体之间的距离进行空间编码，得到空间编码矩阵。

由于2D空间图的构建过程中，可以获得更多的先验特征，比如每个智能体之间的距离。基于此先验信息，本实施例设计了空间编码策略，具体地，将各个智能体之间的距离进行归一化，构成与自注意力矩阵相同大小的空间编码矩阵。

1.3.3）基于2D空间图中各智能体的类别进行边权编码，得到边权编码矩阵。

由于2D空间图的构建过程中，还可以获得每个智能体的类别。基于此，本实施例设计了边权编码策略，具体的，将行人-行人的边权置为1，行人-骑车人的边权置为2，行人-车辆的边权置为3，骑车人-汽车的边权置为4，构成与自注意力矩阵相同大小的边权编码矩阵。

1.3.4）基于自注意力矩阵、空间编码矩阵和边权编码矩阵，得到融合了空间交互特征的空间注意力矩阵（attention map）。

具体地，首先，将空间编码矩阵、边权编码矩阵和自注意力矩阵相加后进行softmax操作；然后，将得到的处理结果与V特征向量相乘，得到融合了空间交互特征的空间注意力矩阵。

2）将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果。

具体地，包括以下步骤：

2.1）对空间注意力矩阵进行预处理，作为时空transformer网络的输入特征。

对空间注意力矩阵进行预处理，是指将其按照时间维度进行展开，并进行归一化。

相比较于传统的agentformer网络计算所有智能体之间的交互关系，本实施例提出的空间图增强表征具有更强的交互信息，而这种全注意力机制会造成“过交互”的情况，针对于此，本实施例引入soft-sparse归一化机制，来对空间注意力矩阵进行归一化处理，即为：

式中，A为空间注意力矩阵，为吉布斯-玻尔兹曼-香农熵，/>为第j个选择分量的概率分布，m为soft-sparse调节因子，以标量/>为参数，称之为-熵。

2.2）搭建时空transformer网络，并利用训练数据和损失函数进行训练。

如图5所示，为本实施例中搭建的时空transformer网络的结构示意图。该网络中，以agentformer（社交网络）为主干网络，学习各个智能体之间的时空交互。

具体地，其包括：

2.2.1）构造训练阶段网格

本实施例中，智能体的历史轨迹用X表示，智能体的未来轨迹用Y表示，而预测出的智能体轨迹用表示，交通场景中的环境信息用/>表示。在训练阶段，通过智能体的未来轨迹Y、智能体的历史轨迹X以及智能体的空间交互特征（也即空间注意力矩阵）来共同构建智能体轨迹生成的隐变量特征/>；然后，基于隐变量特征/>来求解智能体轨迹的后验概率分布/>。

具体实施时，将2D空间图的历史向量（Graph History），包括智能体的历史轨迹X、环境信息通过时序编码器（Time Encoder）之后作为K、V向量，而将2D空间图的未来向量，也即智能体的未来轨迹Y通过时序编码器之后作为Q向量；经过Agentfotmer Decoder（解码器）之后的每个智能体特征进行高斯采样，生成多个隐变量/>特征，其中/>，隐变量/>是从高斯分布中采样得到的，采样符合高斯分布/>分别对应采用的期望和方差。

2.2.2）构造推理阶段网络

在推理阶段，智能体的未来轨迹的真值不可得，因此只能通过智能体的历史轨迹X以及环境信息共同构建智能体轨迹生成的隐变量特征/>，然后基于隐变量特征/>来求解智能体轨迹的先验概率分布/>。

在本实施例中，首先，将2D空间图的历史向量，通过时序编码器（Time Encoder）之后作为K、V向量，而将2D空间图的未来向量，也即智能体的未来轨迹Y通过时序编码器之后作为Q向量。然后，通过Agentfotmer Decoder之后的每个智能体特征进行高斯采样，生成多个隐变量特征，其中/>，隐变量/>是从高斯分布中采样得到的，采样符合高斯分布，/>分别对应采用的期望和方差。

2.2.3）确定损失函数。

由于是对复杂交通场景中的所有类别智能体进行统一建模，而每个智能体的轨迹尺度并不相同，因此本实施例对损失函数进行设计时，是将各个类别的智能体的预测轨迹进行权值相加，表示为：

其中，为行人；/>为车辆；/>为骑车人；X为智能体的历史轨迹；Y为智能体的未来轨迹；/>表示预测出的智能体的未来轨迹；/>为智能体轨迹的后验概率分布；/>为智能体轨迹的先验概率分布；/>为网络整体损失函数，分别为行人、车辆、骑车人轨迹预测损失函数的权重；KL为交通参与者预测的多轨迹与真实轨迹之间分布的KL散度；/>为不同类别智能体的损失函数。

2.2.4）利用训练数据和确定的损失函数，对时空transformer网络进行训练。

2.3）将预处理后的空间注意力矩阵输入训练好的时空transformer网络，得到多智能体统一交互轨迹预测结果。

实施例2

为了充分建模智能体行进过程中的交互关系，提升轨迹预测准确率，在本实施例中，车载相机的采样频率为2Hz，网络输入数据的帧为4帧，输出12帧，即通过2秒的历史数据预测智能体未来6秒的轨迹。

由于每个交通场景中智能体的个数不同，因此本实施例中，在训练阶段和测试阶段的batch_size均为1。时空transformer网络的输入为5维特征向量（x,y,vx,vy,heading），其中，x表示横向位置，y表示纵向位置，vx表示横向速度，vy表示纵向速度，heading表示朝向，同时本实施例会使用一组向量记录各个智能体的类别。经过空间图增强表征后，每个智能体用一组大小为128维度的特征向量表征，在时空统一建模部分，隐变量的大小为32维，高斯采样分布为正态分布。解码器的输入为160 维向量，输出为2维向量，代表各个智能体的位置。在解码阶段，本施例采用自拟合的方法逐帧预测各个智能体的未来轨迹。

网络采用SGD优化器训练，学习总代数为50，学习率为0.001。

实施例3

上述实施例1提供了多智能体统一交互轨迹预测方法，与之相对应地，本实施例提供一种多智能体统一交互轨迹预测系统。本实施例提供的系统可以实施实施例1的多智能体统一交互轨迹预测方法，该系统可以通过软件、硬件或软硬结合的方式来实现。例如，该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例，所以本实施例描述过程比较简单，相关之处可以参见实施例1的部分说明即可，本实施例提供的系统的实施例仅仅是示意性的。

本实施例提供的多智能体统一交互轨迹预测系统，包括：

实施例4

本实施例提供一种与本实施例1所提供的多智能体统一交互轨迹预测方法对应的处理设备，处理设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行本实施例1所提供的多智能体统一交互轨迹预测方法。

在一些实施例中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实施例中，处理器可以为中央处理器（CPU）、数字信号处理器（DSP）等各种类型通用处理器，在此不做限定。

实施例5

本实施例1的多智能体统一交互轨迹预测方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例1所述的多智能体统一交互轨迹预测方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种多智能体统一交互轨迹预测方法，其特征在于，包括以下步骤：

将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果；

所述根据当前交通场景构建2D空间图并进行空间增强表征，得到空间注意力矩阵，包括：根据当前交通场景构建2D空间图；对2D空间图进行时序聚合；对时序聚合后的2D空间图进行空间图增强表征，得到融合了空间交互特征的空间注意力矩阵；

所述根据当前交通场景构建2D空间图，包括：将当前交通场景中的所有交通参与者作为2D空间图的节点；根据交通参与者的不同类别设计注意力半径，并将在注意力半径内的其他交通参与者设置为邻居，用空间边来表示不同节点的连接，得到2D空间图；

所述对2D空间图进行时序聚合，包括：基于时序信息，对相邻两帧2D空间图上的同一智能体之间用时间边连接；

所述对时序聚合后的2D空间图进行空间图增强表征，得到融合了空间交互特征的空间注意力矩阵，包括：对2D空间图中各智能体的信息数据进行特征编码，并利用self-attention机制，学习当前2D空间图中各个智能体的交互关系，得到自注意力矩阵；基于2D空间图中每个智能体之间的距离进行空间编码，得到空间编码矩阵；基于2D空间图中每个智能体的类别进行边权编码，得到边权编码矩阵；基于自注意力矩阵、空间编码矩阵和边权编码矩阵，得到融合了空间交互特征的空间注意力矩阵。

2.如权利要求1所述的一种多智能体统一交互轨迹预测方法，其特征在于，所述将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果，包括：

3.如权利要求2所述的一种多智能体统一交互轨迹预测方法，其特征在于，所述对空间注意力矩阵进行预处理，包括将所述空间注意力矩阵按照时间维度进行展开，并进行soft-sparse归一化。

4.一种多智能体统一交互轨迹预测系统，其特征在于，包括：

轨迹预测模块，用于将得到的空间注意力矩阵输入预先训练的时空transformer网络，得到多智能体统一交互轨迹预测结果；

5.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至3所述方法中的任一方法。

6.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至3所述方法中的任一方法的指令。