CN115018134A

CN115018134A - 一种基于三尺度时空信息的行人轨迹预测方法

Info

Publication number: CN115018134A
Application number: CN202210550870.0A
Authority: CN
Inventors: 王翔辰; 杨欣; 樊江锋; 李恒锐; 朱义天; 周大可
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-06

Abstract

本发明公开了一种基于三尺度时空信息的行人轨迹预测方法，主要任务为使用三个不同的尺度来解决行人轨迹预测问题：行人尺度，捕捉每个行人的历史轨迹信息；社会尺度，捕捉每个行人与周围行人时间空间上的互动信息；场景尺度，捕获行人所处场景布局的信息。搭建基于这三个尺度信息的网络模型并对其进行训练，最终达到较好的预测效果。其中，使用LSTM与图注意力网络替代RNN用于序列特征提取，使用卷积神经网络(CNN)结合LSTM对场景特征进行提取。此外，同一时刻的空间互动由图注意力网络(GAT)捕获。选择ETH和UCY数据集对模型进行训练和测试，并选择ADE和FDE作为模型性能评估指标，模型在两个数据集上均展现了较好的表现。

Description

一种基于三尺度时空信息的行人轨迹预测方法

技术领域

本发明属于行人轨迹预测技术领域，具体为一种基于三尺度时空信息的行人轨迹预测方法。

背景技术

随着自动驾驶汽车、服务机器人和监控系统等智能系统的快速发展，如何在高度拥挤和混乱的环境中感知、理解和预测行人的运动模式以防止未来发生碰撞是需要重点研究的问题。但由于行人的运动不仅受自身因素的影响，还受到周围行人的影响，此外，复杂的场景也会增加行人轨迹预测的难度，因此行人轨迹预测已成为一个非常具有挑战性的问题。在各类文献中，行人轨迹预测的方法不断发展，从基于物理的模型过渡到基于循环神经网络的数据驱动模型。近年来，轨迹预测得到了广泛关注，并取得了重大进展。由于循环神经网络、卷积神经网络、图注意力网络等诸多新型网络结构在序列处理等问题上取得了很好的成果，研究人员将这些网络应用于行人轨迹预测领域。因此每年都有大量的新型轨迹预测算法被提出，轨迹预测算法的精确度和稳定性也连年提升。

国内外学者对此进行了大量的研究，侧重点既有长期预测也有短期预测。其中，长期预测一般都是以预测行人的移动路线或最终目的地为目标，短期预测主要是预测未来数帧内行人的位置。但是由于行人的运动受其主观意识的影响很大，变化复杂，长期预测很难达到较为理想的结果，因此更多的研究是倾向于短期预测。在算法方面，主要分为传统算法和深度学习算法这两种。传统算法主要采用马尔可夫决策过程框架，静态语义场景，控制论，力学建模等。但是，由于大量的粗、细颗粒性以及行人的主观判断等因素，使行人运动模式难以建模。近年来，深度神经网络(DNN)因其非线性拟合、自组织、自学习等特性，使得其在行人轨迹预测任务中比传统的方法更加精确、多模态化。

随着神经网络的成功,目标检测和语音识别等大量研究利用卷积神经网络(CNN)、循环神经网络(RNN)和自动编码器来提取信息特征,而不是严重依赖手工特征工程,他们通过迭代方式传播相邻信息来学习目标节点的表示,直到达到一个稳定的固定点。随着用于序列预测任务的循环神经网络(RNN)模型的发展,其因时间轴深度过深引起的，例如：训练效率低下、梯度消失、梯度爆炸等问题逐渐显露出来。因此一些变种优化结构被提出，如LSTM、GRU等。许多研究人员尝试利用基于长短期记忆网络(LSTM)的数据驱动方法学习杜会行为,以提高多目标问题的鲁棒性和准确性。

由于长短期记忆模型(LSTM)成功地运用于各种序列预测任务中，AlexandreAlahi等人得到启发，将LSTM扩展到了行人轨迹预测中。尽管LSTM能够学习并重现长序列，但是其并不能捕捉多个相关序列的依赖关系，因此他们提出了一种新的体系结构，这种体系结构将对应于邻近序列的LSTM连接起来。此外，他们引入了一个“社会”池化层，它允许空间近端序列的LSTM彼此共享它们的隐藏状态。这种体系结构称之为“Social-LSTM”，其可以自动学习在时间上重叠的轨迹之间的交互作用。该模型利用现有的行人轨迹数据集，而不需要任何额外的注释来学习人类在社交空间中遵守的常识规则和惯例。也就是所谓的“社会”池化层：它使相邻的LSTM能够分享其隐含的状态，从而使模型能够自动地学习在时间上重叠的轨迹间的交互作用。

发明内容

发明目的：针对上述现有技术，提出一种基于三尺度时空信息的行人轨迹预测方法。

技术方案：一种基于三尺度时空信息的行人轨迹预测方法，包括如下步骤：

6)对数据集中行人轨迹数据的行人尺度信息进行编码，即获取每个行人的运动模式；

7)对数据集中行人轨迹数据的社会尺度信息进行编码，即对行人交互之间的时空相关性进行建模；

8)对数据集中行人轨迹数据的场景尺度信息进行编码，即获取行人轨迹预测的场景全局信息；

9)将获得的三种尺度上的特征信息结合起来，完成了时空信息的融合，得到中间状态向量；

10)将中间状态向量输入解码器中，生成预测的行人轨迹。

优选的，步骤1)的实现过程为：计算每个行人与其前一时刻的相对位置

其中：

为行人当前时刻的位置，

为行人前一时刻的位置；

将该行人的相对位置

嵌入到每个时刻t对应的向量

中：

把向量

用作LSTM长短期记忆网络单元的输入，得到P-LSTM行人尺度编码的长短期记忆模型在t时刻的隐藏状态：

其中：函数φ(·)是嵌入函数，W_ee是嵌入权重，P-LSTM是行人尺度编码的长短期记忆模型，

是上一时刻的隐藏状态，W_p是P-LSTM记忆模型单元的权重。

优选的，步骤2)的实现过程为：通过堆叠图注意力层构建图注意力网络GAT，图注意力层的输入是

其中

R^F是维度是F的自然数矩阵，N是节点数量，F是每个节点的维度，输出是

节点为场景中的行人；在观察阶段，

被馈送到图注意力层，T_obs为时间步，一对节点(i,j)在注意力机制中的系数

通过以下方式计算：

其中，exp是指数函数，LeakyReLU是激活函数，||是串联操作，a^T是前馈神经网络权重向量的转置，

依次是节点i、j、k在t时刻对应隐藏状态向量线性变换的权重矩阵，

是GAT图中节点i的邻点；

W∈R^F′×F是应用于每个节点线性变换的共享权重矩阵，F是

的维度，F′是输出的维度，a∈R^2F′是单层前馈神经网络的权重向量；

节点i在时刻t处的一个图注意力层的输出由下式计算而得：

构建社会尺度编码的长短期记忆模型S-LSTM，社会尺度编码的长短期记忆模型S-LSTM在t时刻的隐藏状态

计算公式具体如下：

其中：W_s是S-LSTM的权重。

优选的，步骤3)的实现过程为：使用卷积神经网络CNN在时刻t提取每一帧的场景特征F_t，构建场景尺度编码的长短期记忆模型C-LSTM，场景特征F_t被馈送到场景尺度编码的长短期记忆模型C-LSTM以计算第i个行人在时间t的隐藏状态向量

其中：W_c是相应的权重矩阵。

优选的，步骤4)的实现过程为：将获得的三种尺度上的特征信息

结合起来，在时间步T_obs处，每个行人的P-LSTM，S-LSTM和C-LSTM中有三个隐藏变量

这三个变量在连接之前被馈送到三个不同的多层感知器(δ₁(·)、δ₂(·)和δ₃(·))，再通过串联操作||得到初步中间状态向量h_i：

为实现轨迹预测的多模态化，引入噪声z，因此最终的中间状态向量由四部分组成：P-LSTM的隐藏变量、S-LSTM的隐藏变量、C-LSTM的隐藏变量和添加的噪声，中间状态向量计算公式为：

其中||是串联操作，z代表噪声。

优选的，步骤5)的实现过程为：解码器使用用于解码的长短期记忆模型D-LSTM，中间状态向量

充当解码器D-LSTM的初始隐藏状态，预测的相对位置具体由下式给出：

其中，W_d是D-LSTM的权重矩阵，

代表行人在T_obs+1时刻的相对位置坐标，δ₄(·)是一个全连接层。

有益效果：本发明提供一种基于三尺度时空信息的行人轨迹预测方法，主要任务为使用三个不同的尺度来解决行人轨迹预测问题：行人尺度，捕捉每个行人的历史轨迹信息；社会尺度，捕捉每个行人与周围行人时间空间上的互动信息；场景尺度，捕获行人所处场景布局的信息。搭建基于这三个尺度信息的网络模型并对其进行训练，最终达到较好的预测效果。

附图说明

图1为本发明的三种尺度信息示意图；

图2为本发明的行人交互图结构示意图；

图3为本发明的GAT图注意层示意图；

图4为本发明的CNN结构示意图；

图5为本发明的整体示意图；

图6为本发明的P-LSTM行人尺度信息详细图；

图7为本发明的S-LSTM社会尺度信息详细图；

图8为本发明的C-LSTM场景尺度信息详细图；

图9为本发明的D-LSTM解码器模块详细图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

对观测到的轨迹中的行人尺度信息进行编码，即给每一个行人使用一个长短期记忆模型(LSTM)来获得其运动状态，并用P-LSTM(行人尺度编码的长短期记忆模型)表示这个LSTM。

首先计算每个行人与其前一时刻的相对位置，具体计算公式如下：

然后，将该行人的相对位置嵌入到对应每个时刻的固定长度的向量

中，并把这些向量用作LSTM单元的输入，具体计算公式如下:

其中，函数φ(·)是一个嵌入函数，W_ee是嵌入权重，

是P-LSTM在t时刻的隐藏状态，W_p是P-LSTM单元的权重。这些参数在场景中的所有行人之间共享。

接着将场景中的行人当作每个时刻完整图上的节点，通过使用图注意力网络(GAT)对该图结构数据进行操作，并通过关注其邻点来计算每个图节点的特征。GAT是通过堆叠图注意力层来构建的，图注意力层的输入是

其中

N是节点数量，F是每个节点的特征维度。输出是

(

F′和F可以不相等)。

在观察阶段，观察阶段是公开数据集中提供的行人历史轨迹，P-LSTM在t时刻的隐藏状态

被馈送到图注意力层。一对节点(i，j)在注意力机制中的系数可以通过以下方式计算：

其中，||是串联操作，^.T代表转置，

是节点j在时刻t对i的注意力系数，

是图中节点i的邻点。W∈R^F′×F是应用于每个节点线性变换的共享权重矩阵(F是

的维数，F′是输出的维数)。a∈R^2F′是单层前馈神经网络的权重向量，它由带有LeakyReLU的softmax函数进行归一化。

在得到归一化的注意系数后，节点i在t处的一个图注意力层的输出由下式计算而得：

其中，σ是非线性函数，

是应用于节点线性变换的权重矩阵，

是两个图注意力层运算后的结果，它代表行人i在t处的聚合隐藏状态，其中包含来自其他行人产生的空间影响。

再使用另一个LSTM来对行人交互之间的时间相关性进行建模。将该LSTM称为S-LSTM(社会尺度编码的长短期记忆模型)，S-LSTM在t时刻的隐藏状态s_it计算公式具体如下：

其中，

来自前一个公式，W_s是S-LSTM的权重矩阵。

接着使用卷积神经网络CNN在时刻t提取一帧的场景特征F_t，并引入用于获取场景尺度特征的LSTM来捕获预测场景中的场景特征，将该LSTM称为C-LSTM(场景尺度编码的长短期记忆模型)。场景特征矩阵F_t被馈送到C-LSTM以计算第i个行人在时间t的隐藏状态向量

其中W_c是相应的权重矩阵。

然后将获得的三种尺度上的特征信息结合起来，在时间步T_obs处，每个行人的三个LSTMs中有三个隐藏状态向量

这三个向量在连接之前被馈送到三个不同的多层感知器(δ₁(·)、δ₂(·)和δ₃(·)):

再通过串联操作||得到初步中间状态向量h_i：

其中||是串联操作，z代表噪声，h_i来自前一个公式。

最后使用LSTM作为解码器，称为D-LSTM(用于解码的长短期记忆模型)。中间状态向量

步骤1、采用UCY和ETH作为训练测试数据集，选取评估指标平均位移误差(ADE)和最终位移误差(FDE)。

步骤2、输入行人i过去8帧共3.2秒的历史轨迹信息，使用LSTMs结合GAT和CNN对行人三个尺度上的特征信息进行提取，分别获得三尺度上在时间步T_obs处的隐藏向量

步骤3、引入噪声z，并通过串联操作将上述三个隐藏状态向量与噪声结合起来，获得中间状态向量

步骤4、将中间状态向量

输入到解码器网络D-LSTM中进行预测未来12帧共4.8秒的行人轨迹。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于三尺度时空信息的行人轨迹预测方法，其特征在于，包括如下步骤：

1)对数据集中行人轨迹数据的行人尺度信息进行编码，即获取每个行人的运动模式；

2)对数据集中行人轨迹数据的社会尺度信息进行编码，即对行人交互之间的时空相关性进行建模；

3)对数据集中行人轨迹数据的场景尺度信息进行编码，即获取行人轨迹预测的场景全局信息；

4)将获得的三种尺度上的特征信息结合起来，完成了时空信息的融合，得到中间状态向量；

5)将中间状态向量输入解码器中，生成预测的行人轨迹。

2.如权利要求1所述的一种基于三尺度时空信息的行人轨迹预测方法，其特征在于，步骤1)的实现过程为：计算每个行人与其前一时刻的相对位置

其中：