CN108564118B

CN108564118B - 基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法

Info

Publication number: CN108564118B
Application number: CN201810294015.1A
Authority: CN
Inventors: 裴炤; 张艳宁; 齐晓宁; 马苗; 汪西莉; 徐航
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-05-11
Anticipated expiration: 2038-03-30
Also published as: CN108564118A

Abstract

一种基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，由对获取的数据进行预处理、基于社会亲和力映射图的池化操作、目标轨迹预测、训练模型、构建预测轨迹步骤组成。本发明将数据驱动善于处理连续序列问题的长短期记忆网络结合社会亲和力映射图来进行轨迹预测，模型由序列数据驱动，通过训练可以学习到普遍的行人轨迹模式，再结合预测时提取到的个人的轨迹特征和周围相关行人的轨迹特征，可以实现复杂场景的行人轨迹预测。本发明与现有技术相比，具有方法简单、与环境无关等优点，可用于捕获行人间约定俗成的社会习惯和微妙的交互，预测未来发生的交互。

Description

基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法

技术领域

本发明属于图像处理技术领域，具体涉及到采用社会亲和力长短期记忆网络实现拥挤场景行人轨迹预测。

背景技术

行人轨迹预测是指通过目标已有的运动轨迹对其未来固定时刻的位置坐标进行预测。行人轨迹预测是计算机视觉领域的核心问题，有很多应用方向，如自动驾驶汽车，智能追踪系统，送餐机器人等。

现有的行人轨迹预测方法有Social Force(SF)模型，Gaussian processes方法，Correlation Filter(CF)模型，Convolutional Neural Networks(CNN)方法和Social长短期记忆网络模型。SF模型由能量函数驱动，函数将行人间和行人与障碍物间的吸引和排斥转化为能量来预测行人轨迹。Gaussian processes方法通过高斯混合模型分布来预测速度、角偏量等参数。Correlation Filter(CF)模型通过设计滤波模板，使得模板和输入图片做相关时，能在目标中心位置得到最大响应值。Convolutional Neural Networks(CNN)方法和Recurrent Neural Networks(RNN)方法都应用了神经网络来进行轨迹预测。Convolutional Neural Networks(CNN)方法输入为图像，Social长短期记忆网络模型输入为轨迹坐标序列。

Social Force(SF)模型，Gaussian processes方法，Correlation Filter(CF)模型都要由复杂的公式或函数驱动，Social Force(SF)模型只能捕获吸引和排斥两种固定的交互类型，当处理复杂的交互和场景时有一定的局限性。目前通过神经网络进行轨迹预测取得了很大的进步，Convolutional Neural Networks(CNN)方法中的Multi-DomainNetwork(MDNet)模型得到了瞩目的实验结果，Recurrent Neural Networks(RNN)方法中的Social长短期记忆网络模型将RNN的变种长短期记忆网络用于轨迹预测并取得一定的进步。以上的轨迹预测方法都在复杂的交互或是复杂的场景下有一定的局限性。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种结构简单、方法简单、可适用于复杂场景、可捕获多种交互的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法。

解决上述技术问题采用的技术方案由以下步骤组成：

(1)对获取的数据进行预处理

行人轨迹数据来源于公开的数据集ETH、UCY中所有坐标序列集合

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，T是集合坐标序列的总数、为有限的正整数，k是在T个坐标序列集合中的任意一个坐标序列，{O_k|k∈[1,T]}为目标集合，在目标集合中任意选取一个目标O_i,i∈[1,T]进行轨迹预测，所有xy坐标都经过归一化处理，即xy坐标像素除以相应的视频分辨率。

(2)基于社会亲和力映射图的池化操作

社会亲和力长短期记忆网络模型包括输入层、隐含层、池化层、输出层，每个目标有一个单层长短期记忆网络，所有的目标共享相同的长短期记忆网络参数，池化层对与目标相邻的长短期记忆网络进行池化操作。

每个行人规划有一个半径为L像素的圆形区域，根据目标间的空间相对位置将圆形区域聚类划分为G₀个区域，G₀个区域代表G₀种社会亲和力，聚类后的圆形区域为社会亲和力映射图；在时间步t，目标O_i的任一邻近目标O_m位于社会亲和力映射图范围内，

为目标O_i的任一邻近目标，任一邻近目标O_m有大小为G₀×1的相对位置矩阵

为任一邻近目标O_m在社会亲和力映射图中相对于目标O_i的位置，一个空间相对位置为区域1的邻近目标O_m位置矩阵如下:

矩阵中元素1为任一邻近目标O_m相对位置，元素0为非任一邻近目标O_m相对位置，通过张量

保存目标O_i所有邻居的位置信息和相对应的长短期记忆网络时间步t-1的隐含层状态，张量

通过公式(2)、(3)获得:

其中，

为任一邻近目标O_m在时间步t-1的长短期记忆网络隐含层状态，

是包含任一邻近目标O_m在时间步t相对位置的隐含层状态，

是社会亲和力映射图范围内所有任一邻近目标O_m的集合，将所有邻近目标的长短期记忆网络的隐含层状态累加；通过池化层的池化操作连接相邻的长短期记忆网络，得池化层状态

其中，φ(.)为ReLU函数，W_s为池化权重矩阵，b_s为池化偏置矩阵，以池化权重矩阵中不同的值连接不同社会亲和力映射图区域所有邻近目标O_m的长短期记忆网络。

(3)目标轨迹预测

通过张量

获取目标O_i在时间步t的xy坐标信息:

式中φ(.)为ReLU函数，W_e为xy坐标的权重矩阵，

为目标O_i在时间步t的xy坐标，b_e为xy坐标的偏置矩阵。

目标O_i的长短期记忆网络在时间步t的隐含层状态

包含有时间步t-1的池化层状态

时间步t-1目标O_i的隐含层状态

时间步t目标O_i的位置信息

通过公式(6)得隐含层状态

式中W_l为长短期记忆网络输入的权重矩阵，b_l为长短期记忆网络输入的偏置矩阵。

用隐含层状态

预测时间步t+1目标O_i的xy坐标

长短期记忆网络的输出层状态

通过公式(7)得:

式中W_o为长短期记忆网络隐含层状态的权重矩阵，b_o为长短期记忆网络隐含层状态的偏置矩阵，

为均值，

为标准差，

均为二维，

为xy坐标的相关系数。

在预测坐标之前，输出层状态

通过公式(8)、(9)、(10)进行更新:

用双变量高斯函数预测时间步t+1目标O_i的xy坐标

(4)训练模型

通过交叉验证的方式对社会亲和力长短期记忆网络模型进行训练，即用4个场景的坐标序列集合训练模型，用剩下的1个场景的坐标序列集合测试，对5个坐标序列集合重复5次相同的操作，训练方法为：

选择负对数似然函数作为损失函数训练社会亲和力长短期记忆网络模型:

其中t_obs+1为预测开始时间，t_pred为预测结束时间，通过最小化损失函数，学习得到最佳的模型参数，训练得到行人普遍的行走模式；

(5)构建预测轨迹

结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。

在本发明的对获取的数据进行预处理步骤(1)中，本发明的行人轨迹数据来源于公开的数据集ETH、UCY中所有坐标序列集合

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，T是集合坐标序列的总数，T取值为700～1566。

在本发明的构建预测轨迹步骤(1)中，本发明的时间步t与时间步t+1之间的步长为t_step，t_step取值为0.1～1秒。

在本发明的基于社会亲和力映射图的池化操作步骤(2)中，本发明的社会亲和力长短期记忆网络模型最佳包括1层输入层、1层隐含层、1层池化层、1层输出层，每个目标有一个单层长短期记忆网络，所有的目标共享相同的长短期记忆网络参数，池化层对与目标相邻的长短期记忆网络进行池化操作。

在本发明的基于社会亲和力映射图的池化操作步骤(2)中，本发明的每个行人规划有一个半径为L像素的圆形区域，L的取值范围为20～240，根据目标间的空间相对位置将圆形区域聚类划分为G₀个区域，G₀个区域代表G₀种社会亲和力，G₀取值为10，聚类后的圆形区域为社会亲和力映射图。

在本发明的构建预测轨迹步骤(5)中，本发明的结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，t_s取值为1，t_obs取值为5～20，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，t_obs+1取值为6～21，t_pred取值为6～25，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。

本发明将数据驱动善于处理连续序列问题的长短期记忆网络结合社会亲和力映射图来进行轨迹预测，模型由序列数据驱动，本发明与现有技术相比，具有方法简单、与环境无关等优点，可用于捕获行人间约定俗成的社会习惯和微妙的交互，同时能够结合各位行人的轨迹特征生成轨迹，预测未来发生的交互。

附图说明

图1是本发明实施例1的流程图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述的实施例。

实施例1

以从公开的数据集ETH中取780个坐标序列、数据集UCY中取786个坐标序列为例，基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法由以下步骤组成：

(1)对获取的数据进行预处理

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，t_step取值为0.4秒，T是集合坐标序列的总数，T取值为1200，k是在T个坐标序列集合中的任意一个坐标序列，{O_k|k∈[1,T]}为目标集合，在目标集合中任意选取一个目标O_i,i∈[1,T]进行轨迹预测，所有xy坐标都经过归一化处理，即xy坐标像素除以相应的视频分辨率。

(2)基于社会亲和力映射图的池化操作

社会亲和力长短期记忆网络模型包括1层输入层、1层隐含层、1层池化层、1层输出层，每个目标有一个单层长短期记忆网络，所有的目标共享相同的长短期记忆网络参数，池化层对与目标相邻的长短期记忆网络进行池化操作。

每个行人规划有一个半径为L像素的圆形区域，L的取值为50，根据目标间的空间相对位置将圆形区域聚类划分为10个区域，10个区域代表10种社会亲和力，聚类后的圆形区域为社会亲和力映射图。在时间步t，目标O_i的任一邻近目标O_m位于社会亲和力映射图范围内，

为目标O_i的任一邻近目标，任一邻近目标O_m有大小为10×1的相对位置矩阵

通过公式(2)、(3)获得:

其中，

是包含任一邻近目标O_m在时间步t相对位置的隐含层状态，

是社会亲和力映射图范围内所有任一邻近目标O_m的集合，将所有邻近目标的长短期记忆网络的隐含层状态累加。通过池化层的池化操作连接相邻的长短期记忆网络，得池化层状态

(3)目标轨迹预测

通过张量

获取目标O_i在时间步t的xy坐标信息:

式中φ(.)为ReLU函数，W_e为xy坐标的权重矩阵，

为目标O_i在时间步t的xy坐标，b_e为xy坐标的偏置矩阵。

目标O_i的长短期记忆网络在时间步t的隐含层状态

包含有时间步t-1的池化层状态

时间步t-1目标O_i的隐含层状态

时间步t目标O_i的位置信息

通过公式(6)得隐含层状态

用隐含层状态

预测时间步t+1目标O_i的xy坐标

长短期记忆网络的输出层状态

通过公式(7)得:

为均值，

为标准差，

均为二维，

为xy坐标的相关系数。

在预测坐标之前，输出层状态

通过公式(8)、(9)、(10)进行更新:

用双变量高斯函数预测时间步t+1目标O_i的xy坐标

(4)训练模型

其中t_obs+1为预测开始时间，t_pred为预测结束时间，通过最小化损失函数，学习得到最佳的模型参数，训练得到行人普遍的行走模式。

(5)构建预测轨迹

结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，t_s取值为1，t_obs取值为8，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，t_obs+1取值为9，t_pred取值为20，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。

实施例2

(1)对获取的数据进行预处理

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，t_step取值为1秒，T是集合坐标序列的总数，T取值为700，k是在T个坐标序列集合中的任意一个坐标序列，{O_k|k∈[1,T]}为目标集合，在目标集合中任意选取一个目标O_i,i∈[1,T]进行轨迹预测，所有xy坐标都经过归一化处理，即xy坐标像素除以相应的视频分辨率。

(2)基于社会亲和力映射图的池化操作

每个行人规划有一个半径为L像素的圆形区域，L的取值为20，根据目标间的空间相对位置将圆形区域聚类划分为10个区域，10个区域代表10种社会亲和力，聚类后的圆形区域为社会亲和力映射图。在时间步t，目标O_i的任一邻近目标O_m位于社会亲和力映射图范围内，

通过公式(2)、(3)获得:

其中，

是包含任一邻近目标O_m在时间步t相对位置的隐含层状态，

(3)目标轨迹预测

该步骤与实施例1相同。

(4)训练模型

该步骤与实施例1相同。

(5)构建预测轨迹

结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，t_s取值为1，t_obs取值为5，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，t_obs+1取值为6，t_pred取值为6，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。

实施例3

(1)对获取的数据进行预处理

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，t_step取值为0.1秒，T是集合坐标序列的总数，T取值为1566，k是在T个坐标序列集合中的任意一个坐标序列，{O_k|k∈[1,T]}为目标集合，在目标集合中任意选取一个目标O_i,i∈[1,T]进行轨迹预测，所有xy坐标都经过归一化处理，即xy坐标像素除以相应的视频分辨率。

(2)基于社会亲和力映射图的池化操作

每个行人规划有一个半径为L像素的圆形区域，L的取值为240，根据目标间的空间相对位置将圆形区域聚类划分为10个区域，10个区域代表10种社会亲和力，聚类后的圆形区域为社会亲和力映射图。在时间步t，目标O_i的任一邻近目标O_m位于社会亲和力映射图范围内，

通过公式(2)、(3)获得:

其中，

是包含任一邻近目标O_m在时间步t相对位置的隐含层状态，

(3)目标轨迹预测

该步骤与实施例1相同。

(4)训练模型

该步骤与实施例1相同。

(5)构建预测轨迹

结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，t_s取值为1，t_obs取值为20，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，t_obs+1取值为21，t_pred取值为25，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。

根据上述原理，在数据集ETH中取其他的坐标序列、数据集UCY中取其他的坐标序列，基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法与上述方法相同。

Claims

1.一种基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于由以下步骤组成：

(1)对获取的数据进行预处理

数据集中共有5个场景，

为目标O_k在时间步t的坐标，时间步t与时间步t+1之间的步长为t_step，T是集合坐标序列的总数、为有限的正整数，k是在T个坐标序列集合中的任意一个坐标序列，{O_k|k∈[1,T]}为目标集合，在目标集合中任意选取一个目标O_i,i∈[1,T]进行轨迹预测，所有xy坐标都经过归一化处理，即xy坐标像素除以相应的视频分辨率；

(2)基于社会亲和力映射图的池化操作

社会亲和力长短期记忆网络模型包括输入层、隐含层、池化层、输出层，每个目标有一个单层长短期记忆网络，所有的目标共享相同的长短期记忆网络参数，池化层对与目标相邻的长短期记忆网络进行池化操作；

矩阵中元素1为任一邻近目标O_m的相对位置，元素0为非任一邻近目标O_m的相对位置，通过张量

通过公式(2)、(3)获得:

其中，

是包含任一邻近目标O_m在时间步t相对位置的隐含层状态，

其中，φ(.)为ReLU函数，W_s为池化权重矩阵，b_s为池化偏置矩阵，以池化权重矩阵中不同的值连接不同社会亲和力映射图区域所有邻近目标O_m的长短期记忆网络；

(3)目标轨迹预测

通过张量

获取目标O_i在时间步t的xy坐标信息:

式中φ(.)为ReLU函数，W_e为xy坐标的权重矩阵，

为目标O_i在时间步t的xy坐标，b_e为xy坐标的偏置矩阵；

目标O_i的长短期记忆网络在时间步t的隐含层状态

包含有时间步t-1的池化层状态

时间步t-1目标O_i的隐含层状态

时间步t目标O_i的位置信息

通过公式(6)得隐含层状态

式中W_l为长短期记忆网络输入的权重矩阵，b_l为长短期记忆网络输入的偏置矩阵；

用隐含层状态

预测时间步t+1目标O_i的xy坐标

长短期记忆网络的输出层状态

通过公式(7)得:

为均值，

为标准差，

均为二维，

为xy坐标的相关系数；

在预测坐标之前，输出层状态

通过公式(8)、(9)、(10)进行更新:

用双变量高斯函数预测时间步t+1目标O_i的xy坐标

(4)训练模型

(5)构建预测轨迹

2.根据权利要求1所述的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于：在对获取的数据进行预处理步骤(1)中，所述的行人轨迹数据来源于公开的数据集ETH、UCY中所有坐标序列集合

数据集中共有5个场景，

3.根据权利要求1或2所述的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于：在构建预测轨迹步骤(1)中，所述的时间步t与时间步t+1之间的步长为t_step，t_step取值为0.1～1秒。

4.根据权利要求1所述的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于：在基于社会亲和力映射图的池化操作步骤(2)中，所述的社会亲和力长短期记忆网络模型包括1层输入层、1层隐含层、1层池化层、1层输出层，每个目标有一个单层长短期记忆网络，所有的目标共享相同的长短期记忆网络参数，池化层对与目标相邻的长短期记忆网络进行池化操作。

5.根据权利要求1所述的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于：在基于社会亲和力映射图的池化操作步骤(2)中，所述的每个行人规划有一个半径为L像素的圆形区域，L的取值范围为20～240，根据目标间的空间相对位置将圆形区域聚类划分为G₀个区域，G₀个区域代表G₀种社会亲和力，G₀取值为10，聚类后的圆形区域为社会亲和力映射图。

6.根据权利要求1所述的基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法，其特征在于：在构建预测轨迹步骤(5)中，所述的结合个人轨迹坐标特征和普遍的行人行走模式，从时间步t_s到t_obs观察个人轨迹坐标特征，t_s取值为1，t_obs取值为5～20，从时间步t_obs+1到t_pred预测轨迹坐标，其中，t_s为观察开始时间，t_obs为观察结束时间，从时间步t_s到t_obs个人行走特征相关的信息通过隐含层传递到预测时间步，观测操作进行隐含层状态的传递，时间步t_obs+1到t_pred，t_obs+1取值为6～21，t_pred取值为6～25，每个时间步仅预测下一时间步的坐标，将预测坐标作为下一时间步的长短期记忆网络的输入，重复至时间步t_pred，得到连续预测轨迹。