CN115937896A

CN115937896A - 一种基于速度终点指导的自监督行人轨迹预测方法

Info

Publication number: CN115937896A
Application number: CN202211512613.4A
Authority: CN
Inventors: 任柯燕; 袁帅; 边青云; 谷美颖; 张淳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-07

Abstract

本发明公开了一种基于速度终点指导的自监督行人轨迹预测方法，能够根据行人及其邻居的历史轨迹，预测得到多条可能的未来轨迹。该方法包括以下步骤：利用图注意力网络和Transformer分别对过去和未来轨迹进行空间交互特征和时间特征提取；将得到的时空特征送入条件变分自编码器预测得到多个“粗糙”的终点和速度；通过聚类算法对多个“粗糙”的终点进行聚类，划分得到“细化”的终点；将过去的时空特征、“细化”的终点、速度送入解码器得到最终的多条预测轨迹。本发明充分考虑了行人轨迹的交互特征，使用双分支的特征提取网络分别提取时空特征，同时通过自监督任务在不增加额外标注的情况下预测得到了多个终点和速度，并用于指导最终的轨迹生成。更近一步，我们对预测得到的多个终点进行聚类，保留了多种潜在的可能的同时增加了轨迹多样性。

Description

一种基于速度终点指导的自监督行人轨迹预测方法

技术领域

本发明涉及智能轨迹监控、自动驾驶、智能交通等技术领域，尤其涉及行人轨迹预测方法。可用于视频监控、自动驾驶、机器人、智能交通的预测模块。

背景技术

近年来随着自动驾驶、机器人等领域的迅速发展，人们的生活向着更加智能化的方向发展。轨迹预测对于智能系统理解人类行为有着重大的意义。轨迹预测又分为车辆轨迹预测和行人轨迹预测。由于车辆行驶的轨道固定，受环境的干扰少，车辆之间的交互也相对简单，因此车辆轨迹预测的发展逐渐成熟。而行人作为真实场景中更加常见的智能体，由于其易受环境影响、自由度高、交互复杂、随机性强等特点，使得行人轨迹预测变得十分困难。本发明则希望通过建立更加可解释以及高效的模型，得到更加符合真实场景的丰富行人轨迹，以方便自动驾驶等领域后续的规划控制。

行人作为一种自由度高的智能体，其轨迹很容易受到环境以及其他行人的影响，因此交互信息对于预测行人的轨迹十分重要。传统上，基于优化的方法，如卡尔曼滤波、高斯混合模型等为行人轨迹预测提供了可信的解决方案。然而，复杂的手工设计规则和特征、适应性差等缺点迫使人们将研究重点转移到基于学习的方法上。基于学习的社会性交互建模方法，主要包括Social-Pool、注意力机制、图神经网络。Social-Pool方法通过聚合一定半径内行人的隐藏状态来建模交互；注意力机制通过计算各个行人之间的注意力得分来融合交互特征；图神经网络则通过图结构来模拟人与人之间的交互。这些方法虽然在多个数据集上均取得了不错的效果，但是仍然存在着一些缺陷，Social-Pool无差别融合邻居信息，并没有考虑权重问题；注意力机制对位置感知不敏感；图神经网络适应性较差，全连接图还会考虑无用交互，影响预测性能。因此设计一种更合理高效的社会性交互方法是当前急需解决的一大问题。另外，由于行人运动具有随机性的特点，这导致行人的未来潜在轨迹可能存在多条。捕获这种潜在的随机性有利于机器理解人类行为，更加符合真实的复杂场景。当前主流的多轨迹生成方法主要有生成对抗网络、逆强化学习、条件变分自编码器等。生成对抗网络通过生成器和判别器之间的对抗损失来提高轨迹生成的质量，但是其训练不稳定，容易发生模式崩溃；逆强化学习方法通过推理出奖励函数，然后对轨迹进行采样，但是其不容易训练，往往需要很多次的迭代才能产生符合真实场景的轨迹；条件变分自编码器通过将真实预测轨迹加入训练，将样本从一个简单的潜在分布映射到一个轨迹输出，然而由于其多采用随机采样，这导致生成的轨迹多集中在同一个区域，无法提供足够的多样性。因此如何生成更加丰富的轨迹也是急需解决的一个问题。

发明内容

针对上述问题，本发明提供了一种基于速度终点指导的自监督行人轨迹预测方法，技术方案采用图注意力网络和Transformer分别对行人的空间和时间特征进行提取。图注意力网络通过一种可学习的方式来生成邻接矩阵，对于不同的交互通过注意力进行有差别融合，并提取高维交互特征，更加符合真实场景且更具可解释性。而Transformer解决了长短期记忆网络的长期依赖问题，对于时间信息提取更加高效。为了生成更加丰富可行的轨迹，我们在条件变分自编码器的基础上设计了两个自监督的辅助任务，分别预测多个“粗糙”的终点和速度，并将其用于指导最终的轨迹预测。更近一步，我们对预测得到的多个“粗糙”终点进行聚类，得到更加精细的终点。经过聚类得到的终点不仅保留了多种潜在的可能，而且更加丰富多样。最后将终点信息、速度信息和历史轨迹信息送入解码器得到最终的预测轨迹。

一种基于信息交互的行人轨迹预测方法，所述方法包括以下步骤：

步骤(1)获取行人轨迹，对轨迹进行预处理，得到过去轨迹

和未来的行人轨迹

其中x^t,y^t∈R²，代表行人在t时刻的2维空间坐标，T_p代表观测的轨迹长度，T_f表示预测轨迹长度；

步骤(2)利用图注意力网络和Transformer分别对行人的过去轨迹和未来轨迹进行时空信息编码，得到F_past和F_future；

步骤(3)将步骤(2)中得到的时空特征F_past和F_future进行融合得到融合信息F，将F输入到条件变分自编码器中，进行编码得到后验概率Q(Z|X_t,Y_t)，将F_past输入到编码器得到先验概率P(Z|X_t)，将先验概率P(Z|X_t)和后验概率Q(Z|X_t,Y_t)计算KL误差，使两个概率分布更加接近，并得到潜在分布Z；

步骤(4)将步骤(3)中的潜在分布Z进行采样并和F_past进行融合，经过解码器分别预测得到L个“粗糙”的终点G_pred以及速度V_pred；

步骤(5)将步骤(4)中得到的L个“粗糙”的终点G_pred通过终点细化模块，得到“细化”的M(L<<M)个终点G_fine，具体为使用K-means聚类算法对G_pred进行划分，在保证多种潜在可能的同时，增加了终点的多样化；

步骤(6)将步骤(2)(4)(5)得到特征F_past、速度V_pred和“细化”的终点G_fine输入到轨迹解码器中，得到最终的轨迹Y_pred；

步骤(7)将步骤(3)得到先验概率P(Z|X_t)和后验概率Q(Z|X_t,Y_t)计算误差；将步骤(4)预测得到的速度V_pred和真实速度V_gt计算误差，其中V_gt可以通过对Y求微分得到；将步骤(5)预测得到的“细化”终点坐标G_fine和真实终点坐标G_gt计算误差，G_gt代表的就是Y的最后一个坐标；步骤(6)预测得到的轨迹Y_pred和Y计算误差；将概率误差，速度误差，终点误差和轨迹误差求和，然后通过求得最小化误差和使得参数更新获得最后的轨迹预测模型。

本发明提出的网络结构相较于当前技术充分考虑了行人运动的特点，特征提取更加全面，在保留预测多样性的同时，生成的轨迹更加丰富多样。另外辅助任务的提出在不增加额外标注的情况下，有效的指导了最终的轨迹生成，结果更具有鲁棒性。

附图说明

图1为本发明的整体框架图。

图2为本发明的时空特征提取模块结构图。

图3为本发明中辅助任务“终点速度预测”模块结构图。

图4为本发明的聚类算法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步详细描述。以下实例或者附图用于说明本发明，但不用来限制本发明的范围。

如图1所示，一种基于信息交互的行人轨迹预测方法，具体包括：

(1)一个双分支的时空特征提取器，分别提取过去轨迹和未来轨迹的时空特征。输入的数据为行人在一定时间内的空间坐标

其中x^t代表行人在t时刻的2维空间坐标，T_p代表观测的轨迹长度。行人邻居坐标集

其中

代表第l个邻居的空间坐标，N代表邻居数量。未来行人轨迹坐标

其中y^t∈R²，代表未来行人的空间坐标，T_f表示预测轨迹长度。

步骤(1)如图2所示，包括以下步骤：

(1-1)使用图注意力网络来提取空间交互特征，首先根据邻居坐标集X_N建立空间图G＝(V^t,U^t)，其中

代表节点集，

代表节点的空间坐标，

代表边集，其中

表示节点

和节点

是否相连接，有连接为1，没有连接为0。由于没有节点是否相连的先验信息，因此U^t初始化为填充为1的上三角矩阵，即当前状态独立于未来状态。为了增加图的稀疏性，即消除一些无用交互，我们使用自注意力机制来计算一个不对称的注意力得分矩阵

具体步骤为：

其中

代表线性变换，E代表图嵌入，Q和K分别代表自注意力机制的查询和键值，W表示权重，d代表嵌入维度。为了获得高级交互特征，我们对R的行和列分别采用多层不对称卷积来得到特征F，然后将F中的每一个元素，经过一个阈值函数，将其值转化为0和1，得到矩阵M，为了保证节点自连接，我们将M和单位矩阵I相加，然后和R对应元素相乘，得到一个稀疏的邻接矩阵A，具体过程如下：

其中l代表层数，S代表卷积核的大小，σ表示激活函数，δ表示Sigmoid激活函数，ξ∈(0，1)为阈值超参数。然后我们对图G使用GCN提取特征，得到空间特征f_spa。

(1-2)使用Transformer提取时间特征，Transformer相较于长短期记忆网络，对于时间信息的建模更加充分，Transformer通过自注意力机制来学习不同时刻的行人位置的关系，不存在长期依赖问题。输入行人的过去轨迹X，得到时间特征f_tem。然后将空间特征和时间特征融合得到特征F_past,同样的步骤对Y进行时空特征提取得到F_future。

(2)一个辅助任务模块，预测行人轨迹的多个“粗糙”终点和速度。

步骤(2)的具体步骤如图2所示，包括：

条件变分自编码器包括一个编码器和一个解码器，编码器对步骤(1)得到的特征F_past进行编码，得到先验概率P(Z|X_t)，对F_past和F_future的融合特征

进行编码得到后验概率Q(Z|X_t,Y_t)，然后对先验概率和后验概率进行KL损失计算，使先验概率P更加接近后验概率Q。然后对得到的将得到的潜在分布Z采样，并将其和F_past送入解码器分别预测得到L个“粗糙”的终点G_pred以及速度V_pred。

(3)一个终点细化模块，对“粗糙”的终点进行细化。

具体步骤为对于步骤(2)得到的“粗糙”的终点G_pred，我们应用K-means聚类算法进行聚类得到“细化”的M(L<<M)个终点G_fine，在保证多种潜在可能的同时，增加了终点的多样化，聚类的算法流程图如图4所示。

(4)一个轨迹生成模块，生成最终的轨迹。

具体步骤为将步骤(1)中得到的过去轨迹特征F_past，步骤(2)中得到的速度V_pred，步骤(3)中得到的终点G_fine一起输入到轨迹解码器中进行轨迹生成，得到最终的预测轨迹Y_pred。

最后进行损失的计算，通过梯度下降法对模型参数进行更行。损失函数如下：

其中G_gt和V_gt分别表示真实的终点和速度，G_gt可以从Y中得到，V_gt可以通过对Y求微分得到。

上述介绍了本发明在训练时的具体步骤，在投入使用的时候，可以去掉未来轨迹编码部分，保留其他部分即可。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对本领域的技术人员来说，本发明可以有各种更改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于速度终点指导的自监督行人轨迹预测方法，其特征在于，包括以下步骤：

步骤（1）获取行人轨迹，对轨迹进行预处理，得到过去轨迹和未来的行人轨迹{，其中x^t, y^t∈R²，代表行人在t时刻的2维空间坐标，T_p代表观测的轨迹长度，T_f表示预测轨迹长度；

步骤（2）利用图注意力网络和Transformer分别对行人的过去轨迹和未来轨迹进行时空信息编码，得到F_past和F_future；

步骤（3）将步骤（2）中得到的时空特征F_past和F_future进行融合得到融合信息F，将F输入到条件变分自编码器中，进行编码得到后验概率Q(Z|X_t,Y_t)，将F_past输入到编码器得到先验概率P(Z|X_t)，将先验概率P(Z|X_t)和后验概率Q(Z|X_t,Y_t)计算KL误差，使两个概率分布更加接近，并得到潜在分布Z；

步骤（4）将步骤（3）中的潜在分布Z进行采样并和F_past进行融合，经过解码器分别预测得到L个“粗糙”的终点G_pred以及速度V_pred；

步骤（5）将步骤（4）中得到的L个“粗糙”的终点G_pred通过终点细化模块，得到“细化”的M（L<<M）个终点G_fine，具体为使用K-means聚类算法对G_pred进行划分，在保证多种潜在可能的同时，增加了终点的多样化；

步骤（6）将步骤（2）（4）（5）得到特征F_past、速度V_pred和“细化”的终点G_fine输入到轨迹解码器中，得到最终的轨迹Y_pred；

步骤（7）将步骤（3）得到先验概率P(Z|X_t)和后验概率Q(Z|X_t,Y_t)计算误差；将步骤（4）预测得到的速度V_pred和真实速度V_gt计算误差，其中V_gt可以通过对Y求微分得到；将步骤（5）预测得到的“细化”终点坐标G_fine和真实终点坐标G_gt计算误差，G_gt代表的就是Y的最后一个坐标；步骤（6）预测得到的轨迹Y_pred和Y计算误差；将概率误差，速度误差，终点误差和轨迹误差求和，然后通过求得最小化误差和使得参数更新，获得最后的轨迹预测模型。