CN111311009B

CN111311009B - 一种基于长短期记忆的行人轨迹预测方法

Info

Publication number: CN111311009B
Application number: CN202010110743.XA
Authority: CN
Inventors: 陈漪皓; 曾伟良; 姚若愚; 黎曦琦; 郑宇凡; 朱明洲
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-05-26
Anticipated expiration: 2040-02-24
Also published as: CN111311009A

Abstract

本发明公开了一种基于长短期记忆的行人轨迹预测方法，主要包括以下步骤：对数据进行预处理，转换为一个[行人数量，4]的矩阵；引入注意力机制选择对当前行人行走时的方向、速度等指标产生影响的信息，并通过全连接层连接所有当前位置信息；将同一场景下全局行人的历史状态隐藏信息输入池化层进行池化，达到“共享”全局隐藏信息的目的；通过长短期记忆单元将当前状态下所有行人的历史状态隐藏信息的池化张量，当前行人的位置信息以及经注意力机制所选择的对行人产生影响的信息，转化为长短期记忆序列信息；将当前的状态信息通过一个多层感知机结构转化到坐标空间，生成预测轨迹序列。

Description

一种基于长短期记忆的行人轨迹预测方法

技术领域

本发明涉及一种行人轨迹预测方法，基于长短期记忆，适用于复杂场景下行人未来轨迹的预测。

背景技术

随着人工智能行业的崛起，无人驾驶已经逐步地走进了人们的生活。近些年来，国内外已有许多掌握着顶尖科学技术的企业正在大力发展无人驾驶行业，如中国的比亚迪集团、美国的特斯拉汽车公司……而想要发展无人驾驶这一领域，首先要建立良好的行人轨迹预测体系，这是因为在道路上，行人与车辆等交通工具处于同一场景下，而行人在遇到障碍物时会通过自身大脑判断自身需减速、绕开障碍物或者是停止。而无人驾驶汽车在遇到冲突时，必须通过计算机的运算采取相应的判断，应该学会根据周围场景的变化，调整无人驾驶汽车自身的运动状态。所以，欲使无人驾驶汽车占据越来越多的市场份额，并逐渐代替传统的由人主动驾驶的汽车，可以先从目标体积较小的行人入手，研究行人的运动模式、轨迹预测方法，然后将模型、方法泛化到汽车等交通工具。

近些年来深度学习领域的应用呈现上升趋势，同时也带动了轨迹预测这一行业的蓬勃发展，目前取得良好表现的有：①社会长短期记忆模型：将行人的状态信息转化为序列信息，从而生成预测轨迹；②生成对抗网络：通过鉴别器分辨样本属于由生成器生成的还是来自训练样本的，并且通过生成器和鉴别器的博弈训练过程，使生成器最终可以生成与训练样本相类似的数据。

但是，上述方法也存在着缺点。以循环神经网络RNN为基础的轨迹预测方法，大部分是基于当前时刻的上一时刻的状态信息，生成未来时刻的预测信息的。然而，当周围行人在当前时刻改变运动状态(如改变方向)时，可能会对目标行人产生运动状态的影响。而仅依靠上一时刻的状态信息，无法判断当前时刻状态的改变，从而会对预测产生较大影响。也就是说，之前的状态并没有揭示行人最新的状态，尤其是行人在短时间内改变运动意图的情况下。比如，行人a与行人b相向近距离行走。在t时刻，行人a向左转，朝着远离行人b的方向行走，此时行人b可以按照原来的方向选择直走，或做出轻微的转向。而在t-1时刻，行人a恰恰朝着行人b行走，此时算法如果仅考虑了t-1时刻周围行人的运动轨迹，那么行人b需要做出大范围转向以避免与行人a的冲突。因此，就造成了巨大的预测误差。所以，以上的轨迹预测方法还具有一定的局限性，存在着突破的可能性。

发明内容

本发明的目的在于解决当前轨迹预测领域中，大部分情况下只考虑当前时刻的上一时刻的行人状态，而忽略了当前时刻行人状态可能发生变化，从而对未来预测的轨迹产生较大影响的情况。

为了实现上述目的，本发明的技术方案如下：包括以下步骤：

A、对所采集的数据进行预处理；

通过图像处理技术以及视频校准技术，采集某场景下行人的运动轨迹，即每个时刻行人的世界坐标(x,y)。同时，记录下当前采集时刻frame id以及行人编号ped id。将上述采集到的所有行人信息，转换为1个[行人数量,4]的矩阵——第1列代表采集时刻frameid，第2列代表行人编号ped id，第3列代表行人的世界坐标中的横坐标x，第4列代表行人的世界坐标中的纵坐标y。此时要通过重采样的方法，使相邻两个采集时刻之间的间隔为0.4s(即2.5Fps)。最后，按照采集时刻frame id从小到大自上而下排列；

B、引入注意力机制；

B1、将周围其他行人相对于当前行人的位置坐标通过激活函数激活，并且嵌入参数权重，具体公式如下：

其中，Φ_r(.)是非线性激活嵌入函数，

是当前第i个行人的x坐标，/>

是当前第i个行人的y坐标，/>

是当前第i个行人周围的第j个行人的x坐标，/>

是当前第i个行人周围的第j个行人的y坐标，W_r是嵌入权重，

B2、将当前第i个行人相对于周围第j个行人的相对位置信息经过全连接层从坐标空间进行映射，形成当前第i个行人、第j个行人的位置信息，具体公式如下：

其中，FC(.)是全连接网络结构，W_fc是全连接网络参数，

B3、将第i个行人、第j个行人的位置信息进行连接，形成第i个行人当前的位置信息，即注意力机制输出，具体公式如下：

其中，Concat(.)是连接函数，

C、将全局行人的历史状态隐藏信息输入池化层进行池化；

C1、将当前行人坐标通过长短期记忆(LSTM)单元转化成LSTM序列信息，具体公式如下：

其中，Φ_e(.)是Relu非线性激活函数，W_e是行人坐标嵌入权重，

是当前第i个行人的历史状态隐藏信息，W_h是隐藏信息嵌入权重，

C2、将全局行人隐藏状态信息池化得到池化张量；

其中，PM(.)是池化函数，

C3、将隐藏状态、池化张量、注意力机制输出通过一个多层感知机MLP结构进行连接，具体公式如下：

其中，MLP是多层感知机结构，W_c是嵌入权重，

D、通过长短期记忆单元经过池化层后的输出，转化为长短期记忆序列信息，生成预测轨迹序列；

D1、通过LSTM单元获得当前时刻行人隐藏状态序列信息，具体公式如下：

其中，Φ_e(.)是Relu非线性激活函数，W_l是上一时刻坐标的嵌入权重，W_d是LSTM单元的嵌入权重，

是上一时刻行人的隐藏信息，

D2、将当前状态信息通过一个多层感知机结构转化到坐标空间，生成预测信息，具体公式如下：

其中，MLP(.)是一个多层感知机结构，W_p是预测嵌入权重，

E、训练模型；

E1、将训练集、测试集、验证集按照6:2:2的比例划分。在训练过程中用验证集不断验证模型训练效果；

E2、在t时刻预测的轨迹点坐标服从于二维正态分布，具体公式如下：

E3、最小化负对数似然损失函数，具体公式如下：

其中，Lⁱ表示第i个行人的轨迹；

F、构建预测轨迹

F1、用均方误差及终点平方误差衡量预测轨迹准确度；

F2、均方误差：

F3、终点平方误差：

附图说明

图1是实施本发明的流程图；

图2是所采集的场景示意图；

图3是初始数据格式示意图；

图4是预处理数据格式示意图。

具体实施方式

下面结合附图，对本发明作详细的说明。

下面结合附图对本发明再进行进一步的描述。

如图2所示，通过标注软件在该交叉口环境下对斑马线上的行人进行位置信息的采集。

如图3所示，将所采集位置信息导出至Microsoft Excel，得到初始数据。

如图4所示，通过筛选、去重、时间转换、行人编号转换、时间间隔采样等操作，将数据处理成1个[行人数量，4]的矩阵。第1列代表采集时刻frame id，第2列代表行人编号pedid，第3列代表行人横坐标x，第4列代表行人纵坐标y。相邻的不同frame id之差为0.4，表示采样时间间隔为0.4秒。

将完成预处理的行人轨迹数据引入注意力机制，关联当前行人坐标与周围行人的坐标之间的关系，并嵌入权重，使用Relu非线性函数激活。使用全连接网络将其从坐标空间映射到特征空间，并且连接所有行人的位置信息。

将行人当前的位置信息，以及上一时刻行人的隐藏信息，通过LSTM单元序列化生成行人当前时刻的隐藏信息。将全局行人当前时刻的隐藏信息输入池化层进行池化，共享全局行人的隐藏信息。通过一个多层感知机结构，连接行人当前的隐藏状态、池化张量和经注意力机制处理的位置信息。

将行人上一时刻的x、y坐标嵌入权重，并使用非线性Relu函数激活，再与行人上一时刻的信息以及池化后的输出信息共同经过LSTM单元转换为LSTM序列信息。嵌入预测权重，并且通过一个多层感知机MLP结构生成预测轨迹。

将训练集、测试集、验证集按照6:2:2的比例分别划分。在训练过程中用验证集不断验证模型训练效果，训练过程中，不断迭代、更新参数使得损失函数值不断降低。当损失函数值达到接近不变时，认为已经达到了最小化负对数似然损失函数的目的。

最后使用测试集，输入8个观测点，生成12个未来的轨迹预测点，并且结合均方误差MSE、终点平方误差FSE的指标衡量模型精确程度。

Claims

1.一种基于长短期记忆的行人轨迹预测方法，其特征在于：包括以下步骤：

A、对所采集的数据进行预处理；

通过图像处理技术以及视频校准技术，采集某场景下行人的运动轨迹，即每个时刻行人的世界坐标(x,y)；同时，记录下当前采集时刻frame id以及行人编号ped id；将上述采集到的所有行人信息，转换为1个[行人数量,4]的矩阵——第1列代表采集时刻frame id，第2列代表行人编号ped id，第3列代表行人的世界坐标中的横坐标x，第4列代表行人的世界坐标中的纵坐标y；此时要通过重采样的方法，使相邻两个采集时刻之间的间隔为0.4s；最后，按照采集时刻frame id从小到大自上而下排列；

B、引入注意力机制；