CN113256681B

CN113256681B - 基于时空注意力机制的行人轨迹预测方法

Info

Publication number: CN113256681B
Application number: CN202110580013.0A
Authority: CN
Inventors: 陈禹行; 董铮; 李雪
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-05-13
Anticipated expiration: 2041-05-26
Also published as: CN113256681A

Abstract

基于时空注意力机制的行人轨迹预测方法，包括：采集场景中的图像信息，提取行人在图像坐标系下的位置信息；进行数据预处理，得到场景中每个行人的历史轨迹坐标；采用编码器Encoder编码行人的历史轨迹并输出特征张量；以及采用解码器Decoder迭代预测行人的未来轨迹坐标；其中，所述编码器Encoder通过注意力机制，融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息；实现了自动驾驶实际应用场景下对行人轨迹的实时有效预测，既适应车载低功耗处理器的处理能力，又提高了对行人轨迹预测的准确性，为实际自动驾驶决策提供了可靠的依据，大大提高了自动驾驶的安全性。

Description

基于时空注意力机制的行人轨迹预测方法

技术领域

本公开涉及自动驾驶和计算机视觉技术领域，具体涉及一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质，尤其涉及一种基于深度学习方法在具有复杂的行人交互场景下的行人轨迹预测技术。

背景技术

随着计算机视觉技术的发展，采用计算机视觉技术进行环境感知已经成为自动驾驶系统和其它智能感知系统中不可或缺的部分。其中，行人轨迹预测在自动驾驶和视频监控领域等具有重要意义。在自动驾驶场景中，预测行人未来的轨迹，可以辅助自动驾驶汽车做出正确的决策，保障行人的生命安全，提高自动驾驶汽车的安全性和可靠性。在视频监控领域，预测行人未来的轨迹可以提前对危险的事件做出预警，保障人员生命和财产安全。可见，研究行人轨迹预具有非常重要的现实意义。

现阶段，行人轨迹预测研究方面还存在诸多难点，目前主流的论文或专利提出不同的技术尝试解决，但所提供的方法在实际自动驾驶系统使用中还存在很大的完备空间。

为了解现有技术的发展状况，本公开对已有的专利文献和论文进行了检索、比较和分析：

方案1：2016年的CVPR论文“Social lstm:Human trajectory prediction incrowded spaces”是最早采用LSTM解决行人轨迹预测的论文之一，每个行人的历史轨迹坐标被输入到长短期记忆网络(LSTM)结构中，首先进行编码，然后通过解码器解码出未来轨迹。为了利用不同行人之间的交互特征，模型中间采用池化(Pooling)层，编码若干最重要的邻居特征。但是，基于循环神经网络的结构局限于顺序处理，效率较低，且基于直觉而设计的池化层难以捕捉交互情况。

方案2：2018年CVPR论文“Social gan:Socially acceptable trajectories withgenerative adversarial networks”以及2019年CVPR论文“Sophie:An attentive ganfor predicting paths compliant to social and physical constraints”均基于LSTM结构进行轨迹的预测，并采用对抗神经网络来为行人生成多种可能的轨迹。两篇论文的方法基于循环神经网络结构，无法并行运算，引入的对抗神经网络网络还导致昂贵的训练代价。

方案3：论文“Social-STGCNN:A Social Spatio-Temporal Graph ConvolutionalNeural Network for Human Trajectory Prediction”采用图的方式建立某一帧下行人之间的交互关系，将行人视为图中的节点。对于过去的每一帧，通过图卷积的方式表征出同一场景下行人之间的交互关系，最终通过一维卷积核在每个行人的历史信息上进行卷积操作，得到未来的轨迹。该方法根据距离远近设置图的邻接矩阵，特征选取较为单一，并且通过一维卷积计算未来轨迹的方式无法捕捉行人轨迹的长距离依赖，导致预测偏差。

方案4：专利文献CN111797751A提出了一种利用行人的历史运动轨迹信息与历史头部姿态信息，共同训练并输出行人轨迹预测的模型。其对至少两帧历史行人图像中的每一帧历史行人图像进行头部姿态检测，并对连续多帧的图像中的行人进行检测和跟踪，输入到行人轨迹预测模型，输出行人轨迹。头部姿态信息的检测模块会引起性能上的开销，而模型所采用的LSTM结构导致无法并行化计算，两者共同作用不利于实时的轨迹预测。

可见，现有的行人轨迹预测方案还存在计算效率低、无法并行化；网络训练开销大，不适合自动驾驶实际使用中的预测需要；以及对交互场景下的预测效果不理想等问题。

综上，现有技术目前仍然无法解决自动驾驶实际应用场景下对行人轨迹进行实时有效预测的技术问题，影响了自动驾驶的决策。因此，如何提供一种可并行化计算，提高计算效率，减少网络训练开销，满足自动驾驶决策中对交互场景下的实时有效预测需求的行人轨迹预测技术，成为当前自动驾驶领域非常有现实意义的研究内容。

发明内容

为达到上述发明目的，本公开在如下几个方面进行了改进：

一是行人历史的轨迹和行为会表现出行人的整体趋势或者意图，是减少不确定性并进行预测的重要依据，挖掘和分析行人历史轨迹，提取有效的特征和信息，是行人轨迹预测的关键步骤。针对主流的方法一般采用循环神经网络来进行时间序列预测，包括RNN、LSTM、GRU等，典型的方法例如Social-LSTM，无法并行化，计算效率低，难以对长距离关系进行建模，容易造成性能瓶颈的技术问题，本公开基于注意力机制，有效捕捉行人历史轨迹中的关键部分，能够以并行化的风格和全局感受野保证性能。

二是人和人之间存在社交关系，结伴而行的人群会始终保持聚集状态，静止(聊天等)或同时向一个方向前进，相对而行的人为了避免碰撞，常出现绕行或者暂停。针对Social GAN等方法对位置的差值进行编码，再进行Pooling，这种基于手工设计的交互特征，具有一定程度的主观性，不利于模型学习；而一些方法采用图网络的结构，假定行人是图的顶点，利用图卷积对节点特征进行更新，融合周围行人的特征以建立不同行人之间的社交联系，图网络有利于对同一时刻下场景中的不同行人进行建模，但却无法有效解决不同时刻下行人的交互情况，以及难以平衡行人自身轨迹特征和交互特征的相互作用的技术问题，本公开中，编码器模块通过时间注意力机制、空间注意力机制以及时空注意力机制三种方式，对行人的历史轨迹和交互关系进行编码，在时间、空间两个角度，充分捕捉行人自身和不同行人之间的特征；在解码器中，通过自注意力机制和编码器-解码器注意力机制来预测未来的轨迹，最终达到了准确的预测。

三是在同一场景下，行人存在多条可能的未来轨迹，而不是单一的、确定的轨迹，例如遇到障碍物绕行，既可以从左侧穿过，也可以从右侧穿过，两种轨迹都是合理的；此外，行人的行为存在随机性，往往会出现违逆历史趋势的动作，例如转向，停止走路等。因此，生成多种轨迹的网络是必要的。常采用生成对抗神经网络生成多种可能的轨迹，或在高斯分布上进行采样得到多个轨迹。针对生成对抗网络的训练难度高，训练开销较大，高斯分布上进行采样的方式不便于辅助自动驾驶车辆的决策等技术问题，本公开通过添加噪声模块，以较低的成本，在一定程度上增加了行人轨迹的不确定性，提升了预测效果。

具体地，为了解决上述技术问题，本公开提供了一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质。

根据本公开的一个方面，本公开提供了一种基于时空注意力机制的行人轨迹预测方法，包括如下步骤：

步骤一、采集场景中的图像信息，提取行人在图像坐标系下的位置信息；

步骤二、进行数据预处理，得到场景中每个行人的历史轨迹坐标；

步骤三、采用编码器Encoder编码行人的历史轨迹并输出特征张量；

步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标；

其中，所述编码器Encoder通过注意力机制，融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。

优选地，以自动驾驶汽车预设的车载相机为采集设备，采集车辆前方和两侧区域的图像信息，并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。

优选地，对输入时间序列进行采样，并提取每个行人的历史观测坐标值并设定预测的坐标值为：

其中i表示第i个行人，N表示当前场景的行人数量，t表示预测第t帧，t_pred表示预测的总帧数，

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值。

优选地，采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量；

采用第一多层感知机φ_e和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维，得到高维时序特征；

所述行人的历史轨迹坐标点数据序列表示为如下形式：

其中，t_obs表示观测的帧数，i表示第i个行人，N表示当前场景的行人数量，t表示预测第t帧，t_obs表示观测的总帧数，

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值；

所述高维时序特征表示为如下形式：

其中，通过所述第一多层感知机φ_e，将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标，映射至16维特征；所述第一多层感知机φ_e设置为一层全连接层，参数为W_ee，PE为位置嵌入，则所述

能够进一步表示如下：

其中t表示轨迹点的帧号，d_e表示特征维度，d_e＝16，2d和2d+1表示特征的第2d维度和第2d+1维度，其中

优选地，通过时间注意力机制更新每个行人的高维时序特征，得到行人时间特征；

所述行人时间特征表示如下：

其中，输入每个行人的所述高维时序特征，计算第i个行人在第t帧对于第r帧的注意力系数AT_i ^tr，如下所示：

其中，W_T ^q和W_T ^k分别代表可学习的权重矩阵，并分别作用于第i个行人在第t帧和第r帧的特征

和

表示W_T ^k的维数，对于计算出的中间系数

进行Softmax操作得到注意力系数AT_i ^tr，其中1≤r'≤t，r'表示位于第1帧和第t帧之间的第r'帧，

表示利用第i个行人在第t帧和第r'帧的特征

和

计算出的中间系数；利用注意力系数AT_i ^tr，更新第i个行人在第t帧的特征，得到行人时间特征

计算方式如下：

其中W_T ^v代表可学习的权重矩阵，作用于第r'帧的特征

优选地，所述W_T ^q、W_T ^k、W_T ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时间特征

的维数为16。

优选地，通过空间注意力机制更新每个行人的所述高维时序特征，得到行人空间特征；

所述行人空间特征表示如下：

其中，输入每个行人的高维时序特征

计算在t时刻第i个行人对第j个行人的注意力系数

如下所示：

其中，W_S ^q和W_S ^k分别代表可学习的权重矩阵，并分别作用于第t帧第i个行人和第j个行人的特征

和

表示W_S ^k的维数，对于计算出的

进行Softmax操作得到

其中1≤j'≤N，j'代表第1至第N个行人，

表示利用第t帧第i个行人和第j'个行人的特征

和

计算出的中间系数；利用注意力系数

更新第t帧第i个行人，得到行人空间特征

计算方式如下：

其中W_S ^v代表可学习的权重矩阵，作用于第t帧第j'个行人的特征

优选地，所述W_S ^q、W_S ^k、W_S ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人空间特征

的维数为16。

优选地，输入不同时刻下每个行人的所述行人空间特征，通过时间注意力机制更新每个行人的空间特征，得到行人时空特征；

所述行人时空特征表示如下：

捕捉不同时刻下不同行人之间的交互情况。

优选地，输入每个行人的所述行人空间特征

计算第i个行人在t时刻空间特征对于r时刻空间特征的注意力系数

计算方式如下：

其中，W_TS ^q和W_TS ^k分别代表可学习的权重矩阵，并分别作用于第i个行人在t时刻和r时刻的行人空间特征

和

表示W_TS ^k的维数，对于计算出的

进行Softmax操作得到

其中1≤r'≤t，r'表示位于第1帧和第t帧之间的第r'帧，

表示利用第i个行人在第t帧和第r'帧的行人空间特征

和

计算出的中间系数；利用注意力系数

更新第i个行人在第t帧的行人空间特征，得到行人时空特征

计算方式如下：

其中W_TS ^v代表可学习的权重矩阵，作用于r'时刻的行人空间特征

优选地，所述W_TS ^q、W_TS ^k、W_TS ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时空特征

的维数为16。

优选地，通过拼接操作(concatenate)将所述行人时间特征

和所述行人时空特征

进行拼接，并通过第二多层感知机φ_h进行降维，在降维特征中加入噪声，并恢复到原有维度，以生成多条备选的轨迹。

优选地，所述行人时间特征

和所述行人时空特征

的维数均为16，通过拼接操作(concatenate)将前述两个16维特征拼接，得到32维的特征；

所述32维的特征经过第二多层感知机φ_h降维至24维，其中φ_h包括一层全连接，参数为W_hh，再通过高斯分布产生8维的随机噪声e_noise，将24维的特征与8维的随机噪声拼接，最终得到32维的时空混合特征

表示如下：

优选地，采用解码器Decoder迭代预测行人的未来轨迹，每次迭代都使得新预测的位置坐标融合先前预测位置坐标信息以及编码器所输出的时空混合特征。

优选地，通过第三多层感知机φ_d，将每个行人输入的最后一帧轨迹的坐标

进行升维，得到高维预测特征

并添加到预测特征序列中。

优选地，对每个行人建立一个序列，存储未来每一帧的预测特征，所述序列称为预测特征序列，所述预测特征序列中的特征维数均为32维；对于每个行人的观测序列中的最后一帧的2维轨迹坐标

即第8帧的2维轨迹坐标，按照公式

通过通过第三多层感知机φ_d升维至32维的特征

并添加至预测特征序列中，其中φ_d为一层全连接，参数为W_dd。

优选地，通过自注意力机制，计算特征序列中最后一个高维预测特征

与其它高维预测特征

的注意力关系，更新预测特征序列中最后一个高维预测特征，得到相应的自注意力特征

优选地，对每个行人的预测特征序列特征序列中最后一个高维特征

通过注意力机制，计算第i个行人的预测特征序列中最后一个高维特征与其它高维特征

的注意力系数

计算方式如下：

其中，W_self ^q和W_self ^k分别代表可学习的权重矩阵，并分别作用于第i个行人的预测特征序列中最后一个高维特征

与其它高维特征

表示W_self ^k的维数，对于计算出的

进行Softmax操作得到

其中0≤n”≤n，表示第0帧至第n帧之间的所有预测帧，

表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数；利用注意力系数

更新预测特征序列中最后一个高维特征，得到相应的自注意力特征

计算方式如下：

其中W_self ^v代表可学习的权重矩阵，作用于t_obs+n”时刻的行人高维特征

其中0≤n”≤n，表示第0帧至第n帧之间的所有预测帧。

优选地，其中W_self ^q、W_self ^k、W_self ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的自注意力特征

的维数为32。

优选地，通过注意力机制，计算当前的自注意力特征

与编码器输出的时空混合特征

的关系，更新当前的自注意力特征，得到高维特征

优选地，对于得到的32维自注意力特征

计算第i个行人的当前的自注意力特征

与与编码器输出的时空混合特征

的注意力系数

计算方式如下：

其中，W_ed ^q和W_ed ^k分别代表可学习的权重矩阵，并分别作用于第i个行人当前的自注意力特征

与编码器输出的时空混合特征

表示W_ed ^k的维数，对于计算出的

进行Softmax操作得到

其中1≤t'≤t_obs，t'表示第1至t_obs之间的观测帧，

表示利用第i个行人当前的自注意力特征与编码器输出的第t'观测帧时空混合特征计算出的中间系数；利用注意力系数

更新第i个行人当前的自注意力特征

得到得到高维特征

计算方式如下：

其中W_ed ^v代表可学习的权重矩阵，作用于第t'帧的编码器输出的时空混合特征

优选地，其中W_ed ^q、W_ed ^k、W_ed ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的高维特征

的维数为32。

优选地，将高维特征

加入到每个行人的预测特征序列中，每个行人的预测特征序列的特征数量增加1。

优选地，判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量，如果满足，即达到了需要预测的未来12帧数量，则进行如下操作：

通过第四多层感知机φ_o，将每个行人的高维特征

转换至预测的坐标值

其中，每个行人的预测特征序列的特征数量为12，即t_pred＝12，首先去掉预测特征序列中的第一个预测特征，然后，通过第四多层感知机φ_o，按照公式

将高维特征

由32维降维至2维，得到每个行人在所有预测时刻的2维坐标

其中φ_o为一层全连接，参数为W_oo。

如果不满足，即没有达到需要预测的未来12帧数量，则返回到通过自注意力机制，计算特征序列中最后一个高维预测特征

与其它高维预测特征

的注意力关系的步骤，更新预测特征序列中最后一个高维预测特征，得到相应的自注意力特征

根据本公开的另一个方面，本公开提供了一种基于时空注意力机制的行人轨迹预测装置，包括：

图像采集装置，采集场景中的图像信息，提取行人在图像坐标系下的位置信息；

数据预处理装置，进行数据预处理，得到场景中每个行人的历史轨迹坐标；

编码装置，采用编码器Encoder编码行人的历史轨迹并输出特征张量；

解码装置，采用解码器Decoder迭代预测行人的未来轨迹坐标；

根据本公开的再一个方面，本公开提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述方法。

根据本公开的又一个方面，本公开提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述方法。

本公开的有益效果：

1、本公开在编码器中，时间注意力机制、空间注意力机制以及时空注意力机制三种方式，能够充分挖掘单个行人的历史轨迹特征，捕捉同一时刻不同行人之间的交互关系，并对不同时刻不同行人之间的复杂关系进行建模所述编码器不依靠循环神经网络结构，特征关联的计算不受距离的影响，能够以并行化的风格和全局感受野保证预测性能；

2、在解码器中，通过自注意力机制和编解码器注意力机制，使得预测轨迹融合了历史轨迹的特征，有效表征行人瞬时或者持续的意图，并考虑到不同行人之间复杂的交互影响，提高了未来轨迹预测的准确度；

3、整个网络的结构完全去除循环神经网络，只保留注意力机制，更有利于并行化，提高了计算效率，有利于满足实际自动驾驶场景下的对行人轨迹预测的实时性要求；

4、时间注意力机制提取行人的时间特征，对于每个行人，融合了自身过去时间下的特征，而不对邻居行人特征进行融合，提高了预测的准确性。

5、空间注意力机制提取行人的空间特征，对于每个行人，融合了当前时间点下邻居行人的信息，并将该行人自身特征得到更新，考虑了社交因素，保证了预测的合理性和可靠性；

6、时空注意力机制提取行人的时空特征，不仅局限于某个时刻的行人交互，更综合了某段时间内行人之间的整体交互情况，进一步保证了预测可靠性。

7、网络结构具有全局感受野，可以对充分对不同时刻不同行人的轨迹特征建立关联，防止信息的损失和压缩，进一步提高了预测的准确性。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。通过结合附图对本公开的实施例进行详细描述，本公开的上述和其它目的、特征、优点将更加清楚。

图1示出了根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程

图2示出了编码器Encoder对行人坐标特征进行编码的流程

图3示出了时间注意力机制

图4示出了空间注意力机制

图5示出了解码器Decoder迭代预测行人的未来轨迹的流程

图6示出了解码器Decoder的结构

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本公开使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本公开的目的之一是提供一种基于时空注意力机制的行人轨迹预测方法。

图1是根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程图。如图1所示，输入的数据为当前场景中每个行人的历史轨迹坐标，第一步使用编码器Encoder编码行人的历史轨迹并输出特征张量，第二步采用解码器Decoder迭代预测行人的未来轨迹坐标。

自动驾驶过程中，传感器感知到场景中存在一个或者多个行人，系统需要对行人的未来轨迹进行预测，本公开的基于时空注意力机制的行人轨迹预测方法能够适用多种视角，不仅适用于通常的以监控场景为代表的俯视拍摄视角，而且十分适用于以自动驾驶汽车为代表的平视视角，即本公开既适用于自动驾驶或辅助驾驶过程中实时对道路上的行人进行轨迹分析，也适用于普通监控场景下对所拍摄的行人进行轨迹分析，尤其适用于自动驾驶决策中对交互场景下的实时有效预测，采用并行化计算，提高计算效率，减少网络训练开销，适用于实际自动驾驶车辆中的低功耗车载处理器处理能力的同时还保证了对行人轨迹的实时有效预测，大大提高了系统的决策能力。

本公开适用于以下两种情境：一个具体的情境是拍摄的设备为高处监控相机，角度为俯视拍摄，在这种情况下，每个行人在所拍摄的图像的像素坐标系下的坐标值能够近似为世界坐标系下的绝对位置；另一个具体的情境为自动驾驶汽车的车载相机所拍摄的前方道路场景，行人的轨迹基于图像坐标系，预测未来轨迹能够辅助自动驾驶系统的决策。因此，本公开适用范围广泛，且能够有效解决自动驾驶过程中对行人轨迹预测的实时性和可靠性要求问题。本公开实施例中，以自动驾驶汽车预设的车载相机为采集设备，采集车辆前方和两侧区域的图像信息，并获取自动驾驶汽车感知系统提供的的行人在图像坐标系下的位置信息。

在步骤S110中，由于输入的数据为视频形式的时间序列信息，为了能够满足自动驾驶汽车的实时性要求和在不损失精度的情况下降低计算复杂度，本公开对输入时间序列进行采样，并提取每个行人的历史观测坐标值如下：

其中，t_obs表示观测的帧数，i表示第i个行人，N表示当前场景的行人数量，

定义预测的坐标值为：

其中i表示第i个行人，N表示当前场景的行人数量，t_pred表示预测的帧数。

具体地，输入的视频的原始帧率为25FPS，即原始1帧时长为0.04秒，本公开按照原始10帧为单位进行采样，即按照0.4秒的间隔进行采样，新的1帧时长为0.4秒，设置t_obs＝8且t_pred＝12，通过每个行人的历史的8帧坐标信息去预测未来12帧的坐标信息，即通过历史的3.2秒坐标信息预测未来4.8秒的坐标信息。

在步骤S120中，采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量，编码器Encoder通过注意力机制，融合了每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。

图2示出了编码器Encoder对行人坐标特征进行编码的流程。

在步骤S121中，为了增强和丰富原始数据特征，并保留轨迹点的时序关系，采用多层感知机φ_e和位置嵌入对每个行人的历史轨迹坐标点数据序列

进行升维，得到高维时序特征

具体地，输入的第i个行人的历史轨迹坐标为2维坐标

通过多层感知机φ_e，将2维的坐标特征，映射至16维特征，多层感知机φ_e可以设置为一层全连接层，参数为W_ee，PE为位置嵌入，其中t表示轨迹点的帧号，d_e表示特征维度，d_e＝16，2d和2d+1表示特征的第2d维度和第2d+1维度，其中

在步骤S122中，参见图3，通过时间注意力机制更新每个行人的高维时序特征

得到行人时间特征

其中，时间注意力是指每个行人对自身的历史轨迹坐标做一次注意力操作，可以提取单个行人历史的轨迹特征，挖掘行人的整体运动趋势和意图。具体地，输入每个行人的高维时序特征

根据下式，计算第i个行人在第t帧对于第r帧的注意力系数

和

表示W_T ^k的维数，对于计算出的

需要进行Softmax操作得到注意力系数

其中1≤r'≤t，r'表示位于第1帧和第t帧之间的第r'帧，

表示利用第i个行人在第t帧和第r'帧的特征

和

计算出的中间系数；利用注意力系数

更新第i个行人在第t帧的特征，得到行人时间特征

计算方式如下。

其中W_T ^v代表可学习的权重矩阵，作用于第r'帧的特征

在本实施例中，W_T ^q、W_T ^k、W_T ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时间特征

的维数为16。

在步骤S123中，参见图4，通过空间注意力机制更新每个行人的高维时序特征

得到行人空间特征

其中，空间注意力机制是指每个行人对当前时刻的场景下的其他行人做一次注意力操作，可以使得每个行人融合同一时刻下不同行人的特征，并能捕捉到行人之间的交互关系。具体地，输入每个行人的高维时序特征

根据下式，计算在第t帧第i个行人对第j个行人的注意力系数

和

表示W_S ^k的维数，对于计算出的

需要进行Softmax操作得到

其中1≤j'≤N，j'代表第1至第N个行人，

表示利用第t帧第i个行人和第j'个行人的特征

和

计算出的中间系数。利用注意力系数

更新第t帧第i个行人，得到行人空间特征

计算方式如下。

在本实施例中，W_S ^q、W_S ^k、W_S ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人空间特征

的维数为16。

在步骤S124中，输入不同时刻下每个行人的空间特征

通过时间注意力机制更新每个行人的空间特征，得到行人时空特征

能够捕捉不同时刻下不同行人之间的交互情况，对更复杂的交互关系进行建模，提高预测的精度。具体地，输入每个行人的空间特征

根据下式，计算第i个行人在第t帧空间特征对于第r帧空间特征的注意力系数

其中，W_TS ^q和W_TS ^k分别代表可学习的权重矩阵，并分别作用于第i个行人在第t帧和第r帧的行人空间特征

和

表示W_TS ^k的维数，对于计算出的

需要进行Softmax操作得到

利用注意力系数

其中1≤r'≤t，r'表示位于第1帧和第t帧之间的第r'帧，

表示利用第i个行人在第t帧和第r'帧的行人空间特征

和

计算出的中间系数。利用注意力系数

更新第i个行人在第t帧的行人空间特征，得到行人时空特征

计算方式如下。

在本实施例中，W_TS ^q、W_TS ^k、W_TS ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时空特征

的维数为16。

在步骤S125中，通过拼接操作(concatenate)将行人时间特征

和行人时空特征

拼接，并通过多层感知机φ_h进行降维，为了能够生成多条备选的轨迹，需要在降维特征中加入噪声，并恢复到原有维度。具体地，行人时间特征

和行人时空特征

维数均为16，通过拼接操作(concatenate)将行人时间特征和时空特征拼接，即将两个16维特征拼接，得到32维的特征。32维的特征经过多层感知机φ_h降维至24维，其中φ_h包括一层全连接，参数为W_hh，再通过高斯分布产生8维的随机噪声e_noise，将24维的特征与8维的随机噪声拼接，最终得到32维的时空混合特征

在步骤S130中，采用解码器Decoder迭代预测行人的未来轨迹，每次迭代都使得新预测的位置坐标融合了先前预测位置坐标信息以及编码器所输出的时空混合特征。

图5示出了解码器Decoder迭代预测行人的未来轨迹的流程。

在步骤S131中，通过多层感知机φ_d，将每个行人输入的最后一帧轨迹的坐标

进行升维，得到高维预测特征

并添加到预测特征序列中。具体地，为了后续迭代生成未来的轨迹，对每个行人建立一个序列，存储未来每一帧的预测特征，该序列称为预测特征序列，序列中的特征维数均为32维。对于每个行人的观测序列中的最后一帧的2维轨迹坐标

即第8帧的2维轨迹坐标，按照公式

通过通过多层感知机φ_d升维至32维的特征

在步骤S132中，参见图6，通过自注意力机制，计算特征序列中最后一个高维预测特征

与其它高维预测特征

具体地，对每个行人的预测特征序列特征序列中最后一个高维特征

通过注意力机制，根据下式，计算第i个行人的预测特征序列中最后一个高维特征与其它高维特征

的注意力系数

与其它高维特征

表示W_self ^k的维数，对于计算出的

进行Softmax操作得到

其中0≤n”≤n，表示第0帧至第n帧之间的所有预测帧，

表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数。利用注意力系数

计算方式如下。

其中0≤n”≤n，表示第0帧至第n帧之间的所有预测帧。

在本实施例中，W_self ^q、W_self ^k、W_self ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的自注意力特征

的维数为32。

在步骤S133中，参见图6，通过注意力机制，计算当前的自注意力特征

与编码器输出的时空混合特征

的关系，更新当前的自注意力特征，得到高维特征

具体地，对于步骤S132得到的32维自注意力特征

根据下式，计算第i个行人的当前的自注意力特征

与与编码器输出的时空混合特征

的注意力系数

与编码器输出的时空混合特征

表示W_ed ^k的维数，对于计算出的α_edi ^nt，进行Softmax操作得到

其中1≤t'≤t_obs，t'表示第1至t_obs之间的观测帧，

更新第i个行人当前的自注意力特征

得到得到高维特征

计算方式如下：

在本实施例中，W_ed ^q、W_ed ^k、W_ed ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的高维特征

的维数为32。

在步骤S134中，将高维特征

在步骤S135中，判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量，如果满足，即达到了需要预测的未来12帧数量，则跳转至步骤S136；否则，跳转至步骤S132。

在步骤S136中，每个行人的预测特征序列的特征数量已经满足了需要预测的时刻数量，通过多层感知机φ_o，将每个行人的高维特征

转换至预测的坐标值

具体地，每个行人的预测特征序列的特征数量为12，即t_pred＝12，首先去掉预测特征序列中的第一个预测特征，然后，通过多层感知机φ_o，按照公式

将高维特征

由32维降维至2维，得到每个行人在所有预测时刻的2维坐标

其中φ_o为一层全连接，参数为W_oo。

本公开的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

本公开领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的方法。

综上所述，本公开所述方法具有如下优势：

1、整个网络的结构完全去除循环神经网络，只保留注意力机制，更有利于并行化，提高计算效率；

2、时间注意力机制提取行人的时间特征，对于每个行人，融合了自身过去时间下的特征，而不对邻居行人特征进行融合；

3、空间注意力机制提取行人的空间特征，对于每个行人，融合了当前时间点下邻居行人的信息，并将该行人自身特征得到更新，考虑了社交因素；

4、时空注意力机制提取行人的时空特征，不仅局限于某个时刻的行人交互，更综合了某段时间内行人之间的整体交互情况；

5、网络结构具有全局感受野，可以对充分对不同时刻不同行人的轨迹特征建立关联，防止信息的损失和压缩。

可见，本公开在实际自动驾驶应用中，既适应车载低功耗处理器的处理能力，又保证了对于复杂行人轨迹预测的实时性和有效性，提高了对行人轨迹预测的准确性，为实际自动驾驶决策提供了可靠的依据，大大提高了自动驾驶的安全性。

至此，已经结合附图所示的优选实施方法描述了本公开的技术方案，但是，本领域技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定，本公开的保护范围显然不局限于这些具体实施方式。在不偏离本公开的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案仍处于本公开的范围内。

Claims

1.一种基于时空注意力机制的行人轨迹预测方法，其特征在于，包括：

步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标；

其中，所述编码器Encoder通过注意力机制，融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息；

其中，对输入时间序列进行采样，并提取每个行人的历史观测坐标值并设定预测的坐标值为：

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值；

其中，采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量；

所述行人的历史轨迹坐标点数据序列表示为如下形式：

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值；

所述高维时序特征表示为如下形式：

能够进一步表示如下：

通过时间注意力机制更新每个行人的高维时序特征，得到行人时间特征；

所述行人时间特征表示如下：

其中，输入每个行人的所述高维时序特征，计算第i个行人在第t帧对于第r帧的注意力系数

如下所示：

和

表示

的维数，对于计算出的中间系数

进行Softmax操作得到注意力系数

其中1≤r′≤t，r′表示位于第1帧和第t帧之间的第r′帧，

表示利用第i个行人在第t帧和第r′帧的特征

和

计算出的中间系数；利用注意力系数

更新第i个行人在第t帧的特征，得到行人时间特征

计算方式如下：

其中W_T ^v代表可学习的权重矩阵，作用于第r′帧的特征

2.根据权利要求1所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

以自动驾驶汽车预设的车载相机为采集设备，采集车辆前方和两侧区域的图像信息，并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。

3.根据权利要求1所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

所述W_T ^q、W_T ^k、W_T ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时间特征

的维数为16。

4.根据权利要求1或3所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

通过空间注意力机制更新每个行人的所述高维时序特征，得到行人空间特征；

所述行人空间特征表示如下：

其中，输入每个行人的高维时序特征

计算在第t帧第i个行人对第j个行人的注意力系数

如下所示：

和

表示

的维数，对于计算出的

进行Softmax操作得到

其中1≤j′≤N，j′代表第1至第N个行人，

表示利用第t帧第i个行人和第j′个行人的特征

和

计算出的中间系数；利用注意力系数

更新第t帧第i个行人，得到行人空间特征

计算方式如下：

其中W_S ^v代表可学习的权重矩阵，作用于第t帧第j′个行人的特征

5.根据权利要求4所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

所述W_S ^q、W_S ^k、W_S ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人空间特征

的维数为16。

6.根据权利要求5所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

输入不同时刻下每个行人的所述行人空间特征，通过时间注意力机制更新每个行人的空间特征，得到行人时空特征；

所述行人时空特征表示如下：

捕捉不同时刻下不同行人之间的交互情况。

7.根据权利要求6所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

输入每个行人的所述行人空间特征

计算第i个行人在第t帧空间特征对于第r帧空间特征的注意力系数

计算方式如下：

其中，

和

分别代表可学习的权重矩阵，并分别作用于第i个行人在第t帧和第r帧的行人空间特征

和

表示W_TS ^k的维数，对于计算出的

进行Softmax操作得到

其中1≤r′≤t，r′表示位于第1帧和第t帧之间的第r′帧，

表示利用第i个行人在第t帧和第r′帧的行人空间特征

和

计算出的中间系数；利用注意力系数

更新第i个行人在第t帧的行人空间特征，得到行人时空特征

计算方式如下：

其中

代表可学习的权重矩阵，作用于第r′帧的行人空间特征

8.根据权利要求7所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

所述W_TS ^q、W_TS ^k、W_TS ^v维数均为4×16，每层注意力的头数为4，注意力机制的层数为2，得到的行人时空特征

的维数为16。

9.根据权利要求7所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

通过拼接操作(concatenate)将所述行人时间特征

和所述行人时空特征

10.根据权利要求9所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

所述行人时间特征

和所述行人时空特征

表示如下：

11.根据权利要求10所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

采用解码器Decoder迭代预测行人的未来轨迹，每次迭代都使得新预测的位置坐标融合先前预测位置坐标信息以及编码器所输出的时空混合特征。

12.根据权利要求11所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

通过第三多层感知机φ_d，将每个行人输入的最后一帧轨迹的坐标

进行升维，得到高维预测特征

并添加到预测特征序列中。

13.根据权利要求12所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

对每个行人建立一个序列，存储未来每一帧的预测特征，所述序列称为预测特征序列，所述预测特征序列中的特征维数均为32维；对于每个行人的观测序列中的最后一帧的2维轨迹坐标

即第8帧的2维轨迹坐标，按照公式

通过第三多层感知机φ_d升维至32维的特征

14.根据权利要求13所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

通过自注意力机制，计算特征序列中最后一个高维预测特征

与其它高维预测特征

15.根据权利要求14所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

对每个行人的预测特征序列特征序列中最后一个高维特征

的注意力系数

计算方式如下：

与其它高维特征

表示W_self ^k的维数，对于计算出的中间系数

进行Softmax操作得到

其中0≤n″≤n，表示第0帧至第n帧之间的所有预测帧，

表示利用第i个行人的预测特征序列中最后一个高维特征与第n″帧高维特征计算出的中间系数；利用注意力系数

计算方式如下：

其中W_self ^v代表可学习的权重矩阵，作用于第t_obs+n″帧的行人高维特征

其中0≤n″≤n，表示第0帧至第n帧之间的所有预测帧。

16.根据权利要求15所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

其中W_self ^q、W_self ^k、W_self ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的自注意力特征

的维数为32。

17.根据权利要求15所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

通过注意力机制，计算当前的自注意力特征

与编码器输出的时空混合特征

的关系，更新当前的自注意力特征，得到高维特征

18.根据权利要求16所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

对于得到的32维自注意力特征

计算第i个行人的当前的自注意力特征

与编码器输出的时空混合特征

的注意力系数

计算方式如下：

与编码器输出的时空混合特征

表示W_ed ^k的维数，对于计算出的

进行Softmax操作得到

其中1≤t′≤t_obs，t′表示第1至t_obs之间的观测帧，

表示利用第i个行人当前的自注意力特征与编码器输出的第t′观测帧时空混合特征计算出的中间系数；利用注意力系数

更新第i个行人当前的自注意力特征

得到高维特征

计算方式如下：

其中W_ed ^v代表可学习的权重矩阵，作用于第t′观测帧的编码器输出的时空混合特征

19.根据权利要求18所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

其中W_ed ^q、W_ed ^k、W_ed ^v维数均为8×32，每层注意力的头数为4，注意力机制的层数为2，得到的高维特征

的维数为32。

20.根据权利要求19所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

将高维特征

21.根据权利要求20所述的一种基于时空注意力机制的行人轨迹预测方法，其特征在于，

判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量，如果满足，即达到了需要预测的未来12帧数量，则进行如下操作：

通过第四多层感知机φ_o，将每个行人的高维特征

转换至预测的坐标值

将高维特征

由32维降维至2维，得到每个行人在所有预测时刻的2维坐标

其中φ_o为一层全连接，参数为W_oo；

与其它高维预测特征

22.一种基于时空注意力机制的行人轨迹预测装置，其特征在于，包括：

解码装置，采用解码器Decoder迭代预测行人的未来轨迹坐标；

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值；

所述行人的历史轨迹坐标点数据序列表示为如下形式：

表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值；

所述高维时序特征表示为如下形式：

能够进一步表示如下：

所述行人时间特征表示如下：

如下所示：

和

表示W_T ^k的维数，对于计算出的中间系数

进行Softmax操作得到注意力系数

其中1≤r′≤t，r′表示位于第1帧和第t帧之间的第r′帧，

表示利用第i个行人在第t帧和第r′帧的特征

和

计算出的中间系数；利用注意力系数

更新第i个行人在第t帧的特征，得到行人时间特征

计算方式如下：

其中W_T ^v代表可学习的权重矩阵，作用于第r′帧的特征

23.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至21中任一项所述的方法。

24.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至21中任一项所述的方法。