CN114757975B

CN114757975B - 基于transformer与图卷积网络的行人轨迹预测方法

Info

Publication number: CN114757975B
Application number: CN202210464974.XA
Authority: CN
Inventors: 徐红云; 邝涛杰; 姚楷曦; 李怡泽; 罗咫酉; 张静怡; 屈一伟; 苏怡
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2024-04-16
Anticipated expiration: 2042-04-29
Also published as: CN114757975A

Abstract

本发明公开了一种基于transformer与图卷积网络的行人轨迹预测方法，提取出若干个时间戳内所有包含坐标的行人轨迹数据；对每一个样本的每个时间戳做一个行人关系图；把总样本集分为测试集，训练集与验证集；再用行人关系图对时序数据进行图卷积学习，让轨迹数据附有行人关系；transformer用时序数据提取出每个时间戳的时序特征向量，利用每个时间戳的时序特征向量来生成遵循双变量高斯分布的具体轨迹分布；用损失函数对预测轨迹与真实未来轨迹作对比，得出损失值，再用损失值对预测模型优化，取出最优预测模型，把测试集输入到最优预测模型，得出预测轨迹数据。本发明可准确预测出未来行人的轨迹。

Description

基于transformer与图卷积网络的行人轨迹预测方法

技术领域

本发明涉及时序数据预测的技术领域，尤其是指一种基于transformer与图卷积网络的行人轨迹预测方法。

背景技术

目前基于深度学习的行人轨迹预测的研究有很多，Social-LSTM是最早专注于行人轨迹预测的深度模型之一。Social-LSTM使用一个RNN网络来模拟每个行人的运动轨迹特征，然后使用池化机制来聚合RNN的输出,也就是把行人周围的物体轨迹特征聚合在一起，以此为辅助信息，并且与需预测行人的轨迹特征相结合，从而预测之后的轨迹。Social-LSTM假设行人轨迹遵循双变量高斯分布，预测的轨迹不是一个确定的值，而是一个高斯分布，以此来模拟行人轨迹的不确定性。该工作是同时行人关系和时序关，并且使用神经网络进行模型训练的开山之作。但Social-LSTM在考虑行人关系时只考虑了距离较近的行人，不考虑距离较远的行人，这其实不符合真实情况，并且Social-LSTM使用lstm提取时序特征，效率和效果都太查了。后来的工作，如窥视未来轨迹(PIF)和轨迹状态细化(SR-LSTM)，通过视觉特征和新的池化机制扩展了Social-LSTM，以提高预测精度，但他们仍然使用了lstm这种低级的时序提取方法。基于行人轨迹遵循多模态分布的假设，Social-GAN将Social-LSTM扩展为基于递归神经网络(RNN)的生成模型，利用对抗生成网络来生成更具有鲁棒性的轨迹，Social-GAN使用了GAN作为生成模型基底，但这种方法需要生成器和判别器的完美协调，所以结果是比不上端到端的神经网络模型。Sophie使用中枢神经网络从整个场景中提取特征，然后对每个行人使用双向注意机制。随后，Sophie将注意力输出与视觉CNN输出连接起来，然后使用一个基于长短期记忆(LSTM)自动编码器的生成模型来生成未来的轨迹，该方法考虑到了场景图和视觉图的重要性，但这也只是考虑到了辅助信息，其提取行人关系和时序特征的方法并没有改变。我注意到，以前的大多数工作都围绕着两个问题来建立深度学习网络，一是如何对行人的时序特征进行提取，常见的方法使用RNN网络来模拟每个行人运动，常见的RNN网络有LSTM、GRU等，也有的学者提出RNN的参数利用效率与时间效率很低，TCN这种方法又不时被人使用。二是如何提取行人之间的互动关系，很多基于Social-LSTM方法使用池化机制组合循环网络来提取行人之间的关系，也有工作使用图卷积网络方法来表示行人关系。最近的研究表明，Social-BiGAT依赖于图形注意网络来模拟行人之间的社会互动，LSTM的输出被输入到Social-BiGAT中的图中。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于transformer与图卷积网络的行人轨迹预测方法，使用在自然语言处理中取得出色表现的transformer来提取行人轨迹的时序信息，使用图卷积网络提取行人间的关系，从而预测未来行人的轨迹。

为实现上述目的，本发明所提供的技术方案为：基于transformer与图卷积网络的行人轨迹预测方法，包括以下步骤：

1)提取出若干个时间戳内所有的行人轨迹数据，包含x、y坐标的行人信息；前T_obs个时间戳为历史轨迹数据T_obs为历史轨迹时间戳长度，/>R表示是属于实数域，n为行人个数，axis表示坐标维度，/>简称为V；后T_pred个时间戳为未来轨迹数据/>T_pred为预测轨迹时间戳长度，/>对每一个样本的每个时间戳做一个行人关系图G；V、/>G的集合为一个样本；以若干个样本为一个批进行并行处理；把总样本集分为训练集、验证集和测试集；将预测模型f()形式化为：

式中，是预测轨迹数据，φ是预测模型f()中可学习的参数；

2)先用全连接网络对V进行坐标编码，提取V的坐标特征表示V_emb，编码空间维度大小为d_model；再用行人关系图G对V_emb进行图卷积学习，提取附有行人关系信息的行人坐标编码V_g；

3)采用transformer的编码器将附有行人关系信息的行人坐标编码V_g提取出每个时间戳的时序特征向量，用transformer的解码器以每个时间戳的时序特征向量为输入来生成具体行人轨迹分布，该行人轨迹分布遵循双变量高斯分布；

4)采用损失函数把预测轨迹数据与未来轨迹数据作对比生成损失值，再用反向传播损失值优化预测模型；在优化预测模型时，用训练集对预测模型进行训练，用验证集挑选最优预测模型，把测试集输入到最优预测模型，得出预测轨迹数据。

进一步，在步骤1)中，表示在第i秒内第j个行人的坐标，每个样本至少有两条行人轨迹；

把每个样本分为历史轨迹数据V与未来轨迹数据

式中，G为行人关系图，和/>为在一个样本中第i个行人在第t个时间戳的合速度向量、横坐标分量速度向量和纵坐标分量速度向量；/>表示第t个时间戳中，第i个行人与第j个行人的相互关系；

一个批次中包含若干个样本，便于预测模型的并行运行，再把若干个批次分为训练集、验证集与测试集，分别用来训练预测模型、取最优预测模型、测试预测模型。

进一步，在步骤2)中，把V中的x、y坐标信息进行编码与图卷积操作；

2.1)首先用n_{emb_axis}层全连接层对x、y坐标做编码操作，公式如下：

式中，表示在全连接层第i层，第t个时间戳的行人集坐标编码；/>表示在全连接层第i-1层，第t个时间戳的行人集坐标编码；/>表示在第i层的全连接层可学习矩阵参数，*表示矩阵乘法；第一层全连接层把x、y坐标维度axis维扩展为d_model维，当i＝2,3,...,n_{axis_emb}时，第i层全连接层的输入坐标编码维度和输出坐标编码维度都维持d_model维；

2.2)采用图卷积神经网络利用行人关系图，把行人集坐标编码进行空间卷积运算；邻接性的归一化是图卷积正常工作的必要条件，先对每一个时间戳的行人关系图进行标准化处理，行人关系图G＝{G₁,G₂,...,G_t,...,G_Tobs}，G_t表示第t个时间戳的行人关系图，公式如下：

式中，G_t'为第t个时间戳的标准化行人关系图，I为单位矩阵，D_t为对角节点度矩阵；

用n_gcn层图卷积层赋予轨迹信息以行人关系信息，公式如下：

式中，表示在图卷积层第i层的行人集坐标编码，/>示在图卷积层第i层、第t个时刻的行人集坐标编码，F_gcn表示图卷积操作，表示表示在第i层的图卷积层可学习矩阵参数；*表示矩阵乘法；tanh为图卷积层的激活函数；最后一层图卷积完成的输出为附有行人关系信息的行人坐标编码V_g，/>

进一步，在步骤3)中，把transformer作为预测模型基底，进行轨迹预测：

用transformer以图卷积的输出为输入，考虑历史轨迹数据V对预测第i个时间戳的行人位置分布的影响；

a、位置编码，公式如下：

V_gt＝V_g+τ

式中，为第t个时间戳，第n个行人的第k个特征值，τ为行人位置编码；把行人位置编码与V_g相加得到附有行人位置编码的V_gt；

b、编码器：

编码器以经过位置编码处理的V_gt为输入，经过注意力机制，提取特征A_f3；Transformer的编码器有6层子编码器，每一层的子编码器结构相同，当u等于1时，下面的子编码器代表第u个子编码器；当u＝2,3,…,6重复以上操作；

b1、子编码器的第一部分是多头注意力机制，公式如下：

A＝F_cat(A_i)*W_a

式中，q_i、k_i、v_i表示子编码器第i个头的查询、键、值；*为矩阵运算，q_i、k_i、为子编码器的第i头注意力把V_gt生成q_i、k_i、v_i的可学习矩阵参数；A_i表示子编码器第i个头注意力机制的注意力，/>F_cat函数的作用是把多个头的注意力拼接起来，W_a为把拼接起来的A_i变化成A的可学习矩阵参数；A为附有注意力机制的行人位置编码，/>

用残差网络和标准化函数对行人特征表示进行处理，公式如下：

A_f1＝F_norm(V_gt+F_drop(A))

式中，A_f1为经过残差网络和标准化函数处理的注意力，F_norm()为标准化函数；

b2、子编码器的第二部分是前向反馈网络，公式如下：

式中，A_f2为经过前向反馈网络的子编码器注意力，F_drop为随机参数不更新函数；tanh为激活函数，/>为第一、二层全连接层可学习矩阵参数；再用一遍残差网络及标准化函数对行人特征表示进行处理，公式如下：A_f3＝F_norm(A_f1+F_drop(A_f2))，A_f3为经过残差网络和标准化函数处理的注意力；

以上的步骤为一个子编码器的过程，而transformer的编码器部分为6个这样的子编码器串行拼接；当u＝1,2,...,5时，A_f3为下一层子编码器的输入，当u＝6时，A_f3会作为整个transformer的编码器的输出，

c、解码器：

解码器的工作目标是预测第t个时间戳的行人位置解码器以编码器的输出A_f3和经过了位置编码的已预测时间戳的行人位置/>为输入，输出为/>

与编码器一样，Transformer的解码器有6层子解码器，每一层的子解码器结构相同，当we等于1时，下面的子解码器代表第we个子解码器，当we＝u＝2,3,…,6重复以上操作；

c1、子解码器的第一部分是掩码多头注意力机制：

因为不能泄露行人未来轨迹信息，这里进行掩码操作，公式如下：

式中，为第t个时间戳的经过了位置编码的已预测时间戳的行人位置，/>表示子解码器输入在第t个时间戳的行人轨迹信息编码，y为已预测未来轨迹步长，是在解码器中行人轨迹信息编码集合,这里把简称为V_dgt；

注意力操作公式如下：

式中，表示子解码器第i个掩码多头注意力机制的查询、键、值，V_dgt为在编码器中的行人轨迹信息编码；/> 为子解码器第i个掩码多头注意力机制把V_dgt生成为/>的可学习矩阵参数；/>表示子解码器第i个掩码多头注意力机制的注意力，/>为把拼接起来的变化成A^dec的可学习矩阵参数；A^dec为附有掩码注意力机制的行人位置编码，

用残差网络和标准化函数对行人特征表示进行处理；

A_f4＝F_norm(V_dgt+F_norm(A^dec))

式中，A_f4为经过残差网络和标准化函数处理的解码器掩码多头注意力，

c2、子解码器的第二部分是多头注意力机制，公式如下：

式中，表示子解码器第i个多头注意力机制的查询、键、值；这里的/>由子解码器的掩码多头注意力模块的输出生成，而/>与/>由编码器的输出生成，*为矩阵运算，/>为子解码器第i头多头注意力机制把V_dgt生成为/>的可学习矩阵参数；/>表示子解码器第i个多头注意力机制的注意力，/>为把拼接起来的/>变化成A^dec2的可学习矩阵参数；A^dec2为结合历史轨迹数据和已预测轨迹数据的注意力，/>

用残差网络和标准化函数对A^dec2进行处理，公式如下：

A_f5＝F_norm(A_f4+F_drop(A^dec2))

式中，A_f5为经过残差网络和标准化函数处理的子解码器注意力，

c3、子解码器的第三部分是前向反馈网络，公式如下：

式中，为可学习矩阵参数，再用一遍残差网络及标准化函数对行人特征表示进行处理，公式如下：

A_f7＝F_norm(A_f5+F_drop(A_f6))

式中，A_f7为行人预测轨迹的特征，以上的步骤为一个子解码器的过程，而transformer的解码器部分为6个这样的子解码器串行拼接；当we＝1,2,...,5时，这里的A_f7为下一层子解码器的输入，当we＝6时，A_f7会作为整个transformer的解码器的输出，

以时间维度聚合每一个子解码器的输出A_f7得到为每一个预测时间戳的A_f7聚合；用全连接层对/>进行处理，生成高斯分布：

式中，Tr表示行人预测轨迹的高斯分布参数，W_gass为可学习变量；

d、全连接网络与双变量高斯分布

全连接网络以transformer的解码器的输出Tr为输入，输出第i个时间戳的行人位置分布，这里的行人位置分布为双变量高斯分布，公式为：

式中，P(Tr_i,n)为第n个行人，第i个时间戳双变量高斯分布；p()为双变量高斯分布函数，为第i个时间戳，第n个行人的位置分布；/>corr_i,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性，Tr_i,n表示第i个时间戳第n个行人的高斯轨迹，所以第i个时间戳的一个行人位置分布需要五个参数，全连接层就是把transformer的解码器输出变成第i个时间戳的双变量(x，y)高斯分布。

进一步，在步骤4)中，用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值；

损失函数L(W)为：

第n个行人的损失函数为L，W为预测模型参数；为第i个时间戳，第n个行人的位置分布；/>corr_i,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性，n_ped为样本中行人个数；

使用时间反向传播算法和梯度优化方法ADAM训练预测模型，取最优预测模型；把行人的历史轨迹数据输入最优预测模型，就能生成行人预测轨迹。

本发明与现有技术相比，具有如下优点与有益效果：

1、使用了在自然语言处理中取得出色表现的transformer来提取行人轨迹的时序信息，相比于其它行人轨迹预测工作使用lstm或者lstm的变种来提取行人轨迹时序信息，transformer使用的注意力机制能更好地提取每个时间戳位置信息对未来轨迹的影响，能够比lstm模型更好地预测行人未来轨迹。

2、使用了图卷积网络来考虑同一样本的行人集的关系，利用行人的速度向量来衡量行人间的关系，速度向量越相似，行人间的联系越大。想象一下如果两个人并排走，那这两个人有强烈的联系，而图卷积网络能很好地反映出这一点。

附图说明

图1是本发明方法的框架图。

图2是预测模型示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1和图2所示，本实施例提供了一种基于transformer与图卷积网络的行人轨迹预测方法，其具体情况如下：

1)提取出若干个时间戳内所有的行人轨迹数据，包含x、y坐标的行人信息；前T_obs个时间戳为历史轨迹数据T_obs＝8，T_obs为历史轨迹时间戳长度，R表示是属于实数域，n为行人个数，axis表示坐标维度，axis＝8,/>简称为V；后T_pred个时间戳为未来轨迹数据/>T_pred为预测轨迹时间戳长度，T_pred＝12，/>对每一个样本的每个时间戳做一个行人关系图G；V、/>G的集合为一个样本；以若干个样本为一个批进行并行处理；把总样本集分为训练集、验证集和测试集；将预测模型f()形式化为：

式中，是预测轨迹数据，φ是预测模型f()中可学习的参数；

表示在第i秒内第j个行人的坐标，每个样本至少有两条行人轨迹；

把每个样本分为历史轨迹数据V与未来轨迹数据

2)先用全连接网络对V进行坐标编码，提取V的坐标特征表示V_emb，编码空间维度大小为d_model；d_model＝64,再用行人关系图G对V_emb进行图卷积学习，提取附有行人关系信息的行人坐标编码V_g，具体步骤如下：

2.1)首先用3层全连接层对x、y坐标做编码操作，公式如下：

式中，表示在全连接层第i层，第t个时间戳的行人集坐标编码；/>表示在全连接层第i-1层，第t个时间戳的行人集坐标编码；/>表示在第i层的全连接层可学习矩阵参数，*表示矩阵乘法；第一层全连接层把x、y坐标维度axis维扩展为d_model维，当i＝2,3时，第i层全连接层的输入坐标编码维度和输出坐标编码维度都维持d_model维；

2.2)采用图卷积神经网络利用行人关系图，把行人集坐标编码进行空间卷积运算；邻接性的归一化是图卷积正常工作的必要条件，先对每一个时间戳的行人关系图进行标准化处理，行人关系图G_t表示第t个时间戳的行人关系图，公式如下：

3)采用transformer的编码器将附有行人关系信息的行人坐标编码V_g提取出每个时间戳的时序特征向量，用transformer的解码器以每个时间戳的时序特征向量为输入来生成具体行人轨迹分布，该行人轨迹分布遵循双变量高斯分布，具体如下：

把transformer作为预测模型基底，进行轨迹预测。用transformer以图卷积的输出为输入，考虑历史轨迹数据V对预测第i个时间戳的行人位置分布的影响；

a、位置编码，公式如下：

V_gt＝V_g+τ

b、编码器：

b1、子编码器的第一部分是多头注意力机制，公式如下：

A＝F_cat(A_i)*W_a

A_f1＝F_norm(V_gt+F_drop(A))

b2、子编码器的第二部分是前向反馈网络，公式如下：

c、解码器：

c1、子解码器的第一部分是掩码多头注意力机制：

注意力操作公式如下：

式中，表示子解码器第i个掩码多头注意力机制的查询、键、值，V_dgt为在编码器中的行人轨迹信息编码；/> 为子解码器第i个掩码多头注意力机制把V_dgt生成为/>的可学习矩阵参数；/>表示子解码器第i个掩码多头注意力机制的注意力，/>为把拼接起来的/>变化成A^dec的可学习矩阵参数；A^dec为附有掩码注意力机制的行人位置编码，/>

用残差网络和标准化函数对行人特征表示进行处理；

A_f4＝F_norm(V_dgt+F_norm(A^dec))

c2、子解码器的第二部分是多头注意力机制，公式如下：

用残差网络和标准化函数对A^dec2进行处理，公式如下：

A_f5＝F_norm(A_f4+F_drop(A^dec2))

c3、子解码器的第三部分是前向反馈网络，公式如下：

A_f7＝F_norm(A_f5+F_drop(A_f6))

d、全连接网络与双变量高斯分布

其中，用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值，损失函数L(W)为：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于transformer与图卷积网络的行人轨迹预测方法，其特征在于，包括以下步骤：

式中，是预测轨迹数据，φ是预测模型f()中可学习的参数；

2.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法，其特征在于，在步骤1)中，表示在第i秒内第j个行人的坐标，每个样本至少有两条行人轨迹；

把每个样本分为历史轨迹数据V与未来轨迹数据

3.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法，其特征在于，在步骤2)中，把V中的x、y坐标信息进行编码与图卷积操作；

式中，G′_t为第t个时间戳的标准化行人关系图，I为单位矩阵，D_t为对角节点度矩阵；

式中，表示在图卷积层第i层的行人集坐标编码，/>示在图卷积层第i层、第t个时刻的行人集坐标编码，F_gcn表示图卷积操作，表示在第i层的图卷积层可学习矩阵参数；*表示矩阵乘法；tanh为图卷积层的激活函数；最后一层图卷积完成的输出为附有行人关系信息的行人坐标编码V_g，/>

4.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法，其特征在于，在步骤3)中，把transformer作为预测模型基底，进行轨迹预测：

a、位置编码，公式如下：

V_gt＝V_g+τ

b、编码器：

b1、子编码器的第一部分是多头注意力机制，公式如下：

A＝F_cat(A_i)*W_a

A_f1＝F_norm(V_gt+F_drop(A))

b2、子编码器的第二部分是前向反馈网络，公式如下：

c、解码器：

c1、子解码器的第一部分是掩码多头注意力机制：

式中，为第t个时间戳的经过了位置编码的已预测时间戳的行人位置，V_t ^dgt表示子解码器输入在第t个时间戳的行人轨迹信息编码，y为已预测未来轨迹步长，是在解码器中行人轨迹信息编码集合,这里把简称为V_dgt；

注意力操作公式如下：

式中，表示子解码器第i个掩码多头注意力机制的查询、键、值，/> V_dgt为在编码器中的行人轨迹信息编码；/> 为子解码器第i个掩码多头注意力机制把V_dgt生成为/>的可学习矩阵参数；/>表示子解码器第i个掩码多头注意力机制的注意力，/> 为把拼接起来的/>变化成A^dec的可学习矩阵参数；A^dec为附有掩码注意力机制的行人位置编码，/>

用残差网络和标准化函数对行人特征表示进行处理；

A_f4＝F_norm(V_dgt+F_norm(A^dec))

c2、子解码器的第二部分是多头注意力机制，公式如下：

式中，表示子解码器第i个多头注意力机制的查询、键、值；这里的由子解码器的掩码多头注意力模块的输出生成，而/>与/>由编码器的输出生成，*为矩阵运算，/> 为子解码器第i头多头注意力机制把V_dgt生成为/>的可学习矩阵参数；/>表示子解码器第i个多头注意力机制的注意力，/> 为把拼接起来的/>变化成A^dec2的可学习矩阵参数；A^dec2为结合历史轨迹数据和已预测轨迹数据的注意力，/>

用残差网络和标准化函数对A^dec2进行处理，公式如下：

A_f5＝F_norm(A_f4+F_drop(A^dec2))

c3、子解码器的第三部分是前向反馈网络，公式如下：

A_f7＝F_norm(A_f5+F_drop(A_f6))

d、全连接网络与双变量高斯分布

5.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法，其特征在于，在步骤4)中，用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值；

损失函数L(W)为：