CN115376103A

CN115376103A - 一种基于时空图注意力网络的行人轨迹预测方法

Info

Publication number: CN115376103A
Application number: CN202211030137.2A
Authority: CN
Inventors: 郭洪艳; 刘嫣然; 孟庆瑜; 李嘉霖
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-22

Abstract

本发明提供了一种基于时空图注意力网络的行人轨迹预测方法，步骤包括：采集行人轨迹数据构建数据集；数据预处理提取轨迹特征；时间注意力机制计算时间状态特征；空间注意力机制计算时空状态特征；预测未来轨迹，训练预测模型；本方法一方面利用时间注意力机制提取每个行人的时间特征，考虑了每个行人自身过去不同的历史时刻信息对当前预测结果的影响，有效提高预测结果的准确性；另一方面空间注意力机制将上一步时间注意力机制提取的场景中所有行人的时间状态特征作为输入，利用图注意力神经网络对每个行人的相邻行人分配合理的注意力系数从而融合相邻行人的特征信息，模拟行人之间包含社交因素的空间交互作用，保证预测结果的合理性。

Description

一种基于时空图注意力网络的行人轨迹预测方法

技术领域

本发明属于自动驾驶技术领域，涉及一种行人轨迹预测模型建立方法，更加具体来讲，涉及一种基于时空图注意力网络的行人轨迹预测方法。

背景技术

近年来随着人工智能技术的不断发展，自动驾驶领域的研究也在不断地深入。自动驾驶系统主要分为环境感知、决策规划和运动控制三个模块。通过传感器从交通场景中获得道路使用者的位姿信息对其未来运动轨迹进行精准预测，能够提高决策规划系统的合理性和准确性。保证交通场景中道路使用者的自身安全是自动驾驶汽车被普及应用的前提条件，而行人作为弱势道路使用者，通过对目标行人未来运动位置的精准预测，可以减少车辆与行人碰撞事故的发生，提高自动驾驶汽车的行驶安全性。除此之外，根据行人未来的行动轨迹可以帮助自动驾驶系统制定更加合理的行驶策略，解决交通拥堵等问题。因此，研究行人轨迹预测问题对于自动驾驶技术的发展具有重要的现实意义。

行人轨迹预测的任务是根据行人过去一段时间的轨迹，预测其未来时刻的运动位置坐标。行人轨迹预测的挑战性在于行人的运动复杂灵活，难以建立合理的动力学模型，且行人的运动会受到外界环境多样性因素的影响。现有的轨迹预测方法根据建模方法主要分为两类：一类是基于模型的方法，这类方法都依赖于手工函数，无法模拟复杂情景的交互作用并且泛化能力差；另一类是近年来发展迅速的基于深度学习的预测方法。得益于神经网络的广泛应用，其完备的知识体系和丰富的网络模型为提高行人轨迹预测的准确度和合理性提供了必要条件。目前大部分的行人轨迹预测方法只考虑空间上的约束和交互作用，而忽略时间连续性，预测精度不够。

发明内容

针对现有技术存在的问题，为了提升行人轨迹预测精度，本发明提出了一种基于时空图注意力网络的行人轨迹预测方法。

为实现上述目的，本发明是采用如下技术方案实现的：

一种基于时空图注意力网络的行人轨迹预测方法，应用于自动驾驶领域，针对行人横穿马路场景进行行人的行为分析和预测，利用自动驾驶汽车感知系统装备的车载摄像机采集行人信息，其特征在于，具体步骤如下：

步骤一、采集行人轨迹数据构建数据集：

利用自动驾驶汽车感知系统装备的车载摄像机采集车辆行驶过程中前方和两侧的道路视频数据，运用语义分割、图像分类和数据标注与转换技术手段提取行人信息，其中包括道路视频每帧中每个行人在图像坐标系下的坐标值，构建行人轨迹数据集，进一步分为训练数据集和测试数据集；

步骤二、数据预处理提取轨迹特征：

对行人轨迹训练数据集进行预处理，为了在保证预测精度的前提下减小计算量，对输入的数据进行合理采样，提取每个行人的历史观测坐标，定义每个行人在历史时刻t的观测坐标

为：

其中，i表示场景中第i个行人，t表示历史时刻，T_obs表示观测时域长度，N表示场景中的行人总数量，

表示第i个行人在图像坐标系下在历史时刻t沿x轴方向的观测坐标值和沿y轴方向的观测坐标值；

定义每个行人在预测时刻t_p的真实坐标

为：

其中，i表示场景中第i个行人，t_p表示预测时刻，T_pre表示预测时域长度，N表示场景中的行人总数量，

表示第i个行人在图像坐标系下在预测时刻t_p沿x轴方向的真实坐标值和沿y轴方向的真实坐标值；

计算每个行人在历史时刻t与上一个历史时刻t-1的历史相对位置

其中，

表示第i个行人在图像坐标系下在历史时刻t沿x轴方向的历史相对值和沿y轴方向的历史相对值；

利用嵌入函数φ(·)对历史相对位置

进行升维，得到每个行人在历史时刻t的嵌入向量

其中，

表示第i个行人在历史时刻t的嵌入向量且维数为16，φ(·)表示嵌入函数，嵌入函数由全连接层组成，W_e表示可学习的全连接网络参数，网络的输入特征维数为2，输出特征维数为16，层数为1；

接着将每个行人在历史时刻t的嵌入向量

输入到长短期记忆网络LSTM中，计算得到每个行人在历史时刻t的隐藏状态特征

其中，

表示第i个行人在历史时刻t的隐藏状态特征且维数为32，LSTM(·)由长短期记忆网络单元组成，W_en为可学习得到的长短期记忆网络权重参数，网络的输入特征维数为16，输出特征维数为32，隐藏特征维数为32，层数为1；

步骤三、时间注意力机制计算时间状态特征：

通过时间注意力机制计算包含时间相关性的时间状态特征

利用时间注意力机制计算每个行人的其他历史时刻r,r∈{1,...,t}隐藏状态特征对历史时刻t隐藏状态特征的时间注意力系数，提取每个行人的历史轨迹的时间相关性，具体过程如下：

首先，输入每个行人的隐藏状态特征

计算第i个行人在其他历史时刻r的隐藏状态特征

对历史时刻t的隐藏状态特征

的时间注意力系数

计算过程如下：

其中，f(·)表示余弦相似性函数，用来计算相似性值，

表示第i个行人在其他历史时刻r的隐藏状态特征，softmax(·)表示归一化指数函数，

表示第i个行人在其他历史时刻r的时间注意力系数；

接着，利用第i个行人在其他历史时刻r的时间注意力系数

计算第i个行人在历史时刻t的时间状态特征

计算过程如下：

其中，

表示第i个行人在历史时刻t的时间状态特征且维数为32；

步骤四、空间注意力机制计算时空状态特征：

空间注意力机制将每个行人的时间状态特征输入到图注意力网络中，场景中的所有行人对应图结构中的各个节点，行人之间的交互对应图结构中的各个边，基于图注意力网络融合第i个行人在历史时刻t与相邻行人的轨迹交互特征，得到的时空状态特征即包含了时间相关性，也包含了空间交互性，具体过程如下：

首先，定义在图结构中，第i个行人的相邻行人集合为N_i，将所有行人的时间状态特征输入到图注意力网络中，计算在历史时刻t同一场景中第j个行人对第i个行人的空间注意力系数

其中，j∈{1,...,N}且j∈N_i，

表示在历史时刻t同一场景中第j个行人对第i个行人的空间注意力系数，N_i表示第i个行人的相邻行人集合，

表示第j个行人在历史时刻t的时间状态特征，

表示第i个行人的任一相邻的第m个行人在历史时刻t的时间状态特征，m∈{1,...,N}且m∈N_i，LeakyRelu(·)表示非线性激活函数，a表示可学习的模型参数，W表示可学习的节点特征变换权重参数，||表示拼接操作；

其次，在计算得到在历史时刻t第j个行人对第i个行人的空间注意力系数

后，利用图注意力网络计算第i个行人在历史时刻t融合相邻行人的空间交互特征的时空状态特征

其中，

表示第i个行人在历史时刻t的时空状态特征且维数为32，σ(·)表示非线性函数；

步骤五、预测未来轨迹，训练预测模型:

将第i个行人在历史时刻T_obs的时空状态特征

和隐藏状态特征

进行拼接，为了模拟真实场景中行人运动的不确定性，加入服从正态分布的噪声向量z，得到第i个行人在历史时刻T_obs的轨迹解码特征

计算过程如下：

其中，z表示噪声向量且维数为16，

表示第i个行人在历史时刻T_obs的轨迹解码特征且维数为80，||表示拼接操作；

利用由长短期记忆网络组成的解码器Decoder来计算得到未来的预测相对位置，将第i个行人在历史时刻T_obs的轨迹解码特征

作为解码器Decoder的输入，计算得到第i个行人在预测时刻T_obs+1的轨迹解码特征

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的轨迹解码特征且维数为80，

表示第i个行人在历史时刻T_obs的嵌入向量，W_d表示可学习的网络权重参数；

将计算得到第i个行人在预测时刻T_obs+1的轨迹解码特征

通过全连接层进行降维，得到维数为2的第i个行人在预测时刻T_obs+1的预测相对位置

其中，

表示第i个行人在预测时刻T_obs+1的预测相对位置且维数为2，δ(·)表示全连接层网络，W_d表示可学习的网络参数，网络的输入特征维数为80，输出特征维数为2，层数为1；

将第i个行人在预测时刻T_obs+1的预测相对位置

与历史时刻T_obs的观测坐标

相加即可得到第i个行人在预测时刻T_obs+1的预测坐标

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的预测坐标，

第i个行人在图像坐标系下在预测时刻T_obs+1沿x轴方向的预测坐标值和沿y轴方向的预测坐标值；

在得到第i个行人在预测时刻T_obs+1的预测坐标之后，下一预测时刻T_obs+2的预测坐标的利用同样的方法计算得到，依次迭代，即可计算得到各个预测时刻的预测坐标

在得到每个行人的各个预测时刻的预测坐标后，考虑到生成的合理的行人预测轨迹可能不止一条，结合步骤二中每个行人的预测时刻的真实坐标

构造多样损失函数L_variety，通过采样生成多个轨迹样本，计算其中欧式距离最小的样本作为最佳的预测轨迹，计算方法如下：

其中，k是一个初始设定为20的超参数，表示随机抽样生成的样本个数，

表示根据第i个行人的预测坐标

随机抽样生成的轨迹样本，L_variety表示多样损失函数；

本发明的模型训练是在pytorch深度学习框架下进行的，使用Adam优化器进行优化，学习率设置为0.01，批大小设置为64，利用训练数据集对方法中所涉及的各种网络的权重参数和模型参数进行训练，计算多样损失函数L_variety选出最佳的预测轨迹，保存相应的各种权重参数和模型参数，得到训练好的预测模型，然后用测试数据集执行上述步骤二至步骤五来预测行人未来轨迹。

与现有技术相比本发明的有益效果是：

本发明公开了一种基于时空图注意力网络的行人轨迹预测方法，对行人交互作用建模同时考虑时间相关性和空间交互性，一方面针对现有的轨迹预测方法往往忽略行人自身的时间相关性的问题，利用时间注意力机制提取每个行人的时间特征，考虑了每个行人自身过去不同的历史时刻信息对当前预测结果的影响，有效提高预测结果的准确性；

另一方面空间注意力机制将上一步时间注意力机制提取的场景中所有行人的时间状态特征作为输入，利用图注意力神经网络对每个行人的相邻行人分配合理的注意力系数从而融合相邻行人的特征信息，模拟行人之间包含社交因素的空间交互作用，保证预测结果的合理性；

本发明考虑了行人空间交互作用的连续性，实现了时空交互信息的有效融合，可以最大化利用行人轨迹数据中的有效信息，提高行人轨迹预测结果的准确度和合理性。

附图说明

图1为本发明所述的一种基于时空图注意力网络的行人轨迹预测方法的流程示意图；

图2为本方法步骤三中的时间注意力机制的原理示意图。

具体实施方式

下面结合附图对本发明作详细的描述：

本发明提出了一种基于时空图注意力网络的行人轨迹预测方法，如图1所示为本发明的流程示意图，具体的方法步骤如下：

步骤一、采集行人轨迹数据构建数据集：

步骤二、数据预处理提取轨迹特征：

为：

定义每个行人在预测时刻t_p的真实坐标

为：

经过采样后的数据帧频为2.5fps，即每一帧的时长为0.4s，设定观测时域帧数为8帧，预测时域帧数为12帧，即根据历史观测3.2s的轨迹信息来预测未来4.8s的轨迹信息；

其中，

利用嵌入函数φ(·)对历史相对位置

进行升维，得到每个行人在历史时刻t的嵌入向量

其中，

接着将每个行人在历史时刻t的嵌入向量

其中，

步骤三、时间注意力机制计算时间状态特征：

通过时间注意力机制计算包含时间相关性的时间状态特征

时间注意力机制的原理示意图如图2所示，利用时间注意力机制计算每个行人的其他历史时刻r,r∈{1,...,t}隐藏状态特征对历史时刻t隐藏状态特征的时间注意力系数，提取每个行人的历史轨迹的时间相关性，具体过程如下：

首先，输入每个行人的隐藏状态特征

计算第i个行人在其他历史时刻r的隐藏状态特征

对历史时刻t的隐藏状态特征

的时间注意力系数

计算过程如下：

其中，f(·)表示余弦相似性函数，用来计算相似性值，

表示第i个行人在其他历史时刻r的时间注意力系数；

接着，利用第i个行人在其他历史时刻r的时间注意力系数

计算第i个行人在历史时刻t的时间状态特征

计算过程如下：

其中，

表示第i个行人在历史时刻t的时间状态特征且维数为32；

步骤四、空间注意力机制计算时空状态特征：

其中，j∈{1,...,N}且j∈N_i，

表示第j个行人在历史时刻t的时间状态特征，

其中，

步骤五、预测未来轨迹，训练预测模型:

将第i个行人在历史时刻T_obs的时空状态特征

和隐藏状态特征

计算过程如下：

其中，z表示噪声向量且维数为16，

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的轨迹解码特征且维数为80，

将计算得到第i个行人在预测时刻T_obs+1的轨迹解码特征

其中，

将第i个行人在预测时刻T_obs+1的预测相对位置

与历史时刻T_obs的观测坐标

相加即可得到第i个行人在预测时刻T_obs+1的预测坐标

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的预测坐标，

表示根据第i个行人的预测坐标

随机抽样生成的轨迹样本，L_variety表示多样损失函数；

Claims

1.一种基于时空图注意力网络的行人轨迹预测方法，应用于自动驾驶领域，针对行人横穿马路场景进行行人的行为分析和预测，利用自动驾驶汽车感知系统装备的车载摄像机采集行人信息，其特征在于，具体步骤如下：

步骤一、采集行人轨迹数据构建数据集：

步骤二、数据预处理提取轨迹特征：

为：

定义每个行人在预测时刻t_p的真实坐标

为：

其中，

利用嵌入函数φ(·)对历史相对位置

进行升维，得到每个行人在历史时刻t的嵌入向量

其中，

接着将每个行人在历史时刻t的嵌入向量

其中，

步骤三、时间注意力机制计算时间状态特征：

通过时间注意力机制计算包含时间相关性的时间状态特征

首先，输入每个行人的隐藏状态特征

计算第i个行人在其他历史时刻r的隐藏状态特征

对历史时刻t的隐藏状态特征

的时间注意力系数

计算过程如下：

其中，f(·)表示余弦相似性函数，用来计算相似性值，

表示第i个行人在其他历史时刻r的时间注意力系数；

接着，利用第i个行人在其他历史时刻r的时间注意力系数

计算第i个行人在历史时刻t的时间状态特征

计算过程如下：

其中，

表示第i个行人在历史时刻t的时间状态特征且维数为32；

步骤四、空间注意力机制计算时空状态特征：

其中，j∈{1,...,N}且j∈N_i，

表示第j个行人在历史时刻t的时间状态特征，

其中，

步骤五、预测未来轨迹，训练预测模型:

将第i个行人在历史时刻T_obs的时空状态特征

和隐藏状态特征

计算过程如下：

其中，z表示噪声向量且维数为16，

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的轨迹解码特征且维数为80，

将计算得到第i个行人在预测时刻T_obs+1的轨迹解码特征

其中，

将第i个行人在预测时刻T_obs+1的预测相对位置

与历史时刻T_obs的观测坐标

相加即可得到第i个行人在预测时刻T_obs+1的预测坐标

计算过程如下：

其中，

表示第i个行人在预测时刻T_obs+1的预测坐标，

表示根据第i个行人的预测坐标

随机抽样生成的轨迹样本，L_variety表示多样损失函数；

本方法的模型训练是在pytorch深度学习框架下进行的，使用Adam优化器进行优化，学习率设置为0.01，批大小设置为64，利用训练数据集对方法中所涉及的各种网络的权重参数和模型参数进行训练，计算多样损失函数L_variety选出最佳的预测轨迹，保存相应的各种权重参数和模型参数，得到训练好的预测模型，然后用测试数据集执行上述步骤二至步骤五来预测行人未来轨迹。