CN113362367B

CN113362367B - 一种基于多精度交互的人群轨迹预测方法

Info

Publication number: CN113362367B
Application number: CN202110855170.8A
Authority: CN
Inventors: 刘绍华; 孙靖凯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-12-14
Anticipated expiration: 2041-07-26
Also published as: CN113362367A

Abstract

本发明提出了一种基于多精度交互的人群轨迹预测方法，属于计算机视觉技术领域。本发明方法包括：使用LSTM网络来编码行人的历史状态；对行人的运动交互采用全局交互建模和局部交互建模方式，全局交互建模时先划分场景，对每个划分的子区域进行区域建模，再整合获取全局交互信息，最后将局部交互信息和全局交互信息拼接得到完整交互信息；在解码端利用一个LSTM网络进行解码，预测行人轨迹。通过全局交互信息对行人的轨迹做出微调，通过局部交互信息可以捕捉行人的细节运动信息，行人可以对近期运动做出及时的避让，更接近真实轨迹。采用本发明方法能更加准确预测行人轨迹，并在保证交互信息各异性的同时降低了计算复杂度。

Description

一种基于多精度交互的人群轨迹预测方法

技术领域

本发明属于计算机视觉技术领域，涉及人群轨迹预测和人群交互建模技术，具体涉及一种基于多精度交互的人群轨迹预测方法。

背景技术

轨迹预测算法根据行人的历史位置信息实现目标未来的轨迹信息预测，是目前计算机视觉领域的研究热点之一。伴随着5G网络商用和城市现代化的发展，国家高度重视智慧交通、公共安全等重点方向的建设，而轨迹预测算法作为必要的基础性研究技术，在自动驾驶、机器人导航、行人意图分析等现实场景中起到关键作用。例如在机器人导航系统中，机器人应该充分考虑场景内其他行人的轨迹信息，规划安全合理的路径避免碰撞。然而，行人不是只受牛顿定律影响运动的实体，相反人们会根据自己的主观意愿动态地改变运动状态，因此行人的轨迹一般不是线性的。其次在现实生活中运动场景错综复杂，人们会与场景内的其他行人发生多种复杂的交互，如跟随交互、避障交互等。这些复杂且多样的交互方式，给行人轨迹预测问题带来了许多挑战。

现有轨迹预测方法的流程一般可以分为以下三个阶段：

1)根据行人的历史位置坐标对行人运动状态信息编码；

2)对第一阶段编码的行人运动状态进行交互建模；

3)根据第一、第二阶段的建模数据进行解码，预测未来轨迹。

近几年有许多基于深度学习的方法被提出用于改进上述流程中第二阶段的行人交互建模。目前提出用于轨迹预测的模型有STGAT模型和StarNet模型等。

参考文件1(Huang Y,Bi H,Li Z,et al.Stgat:Modeling spatial-temporalinteractions for human trajectory prediction[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2019:6272-6281.)公开一种新颖的时空图注意网络，称为STGAT，其中行人之间的空间和时间相互作用分别被编码。由于GAT(图形注意力网络)可以通过为不同节点分配不同的重要性来聚合来自邻居的信息，因此STGAT使用GAT建模行人间的运动信息共享和运动交互机制。该方案建模场景中涉及的所有行人之间的交互，每个时刻的空间相互作用由GAT捕获，通过深度学习，GAT结构可以自动为目标行人计算周围不同行人对其的运动影响。考虑到行人运动轨迹的时间连续性，STGAT使用额外的LSTM(长短期记忆网络)结构来捕获行人间交互的时间连续性。最后，利用序列生成序列(seq2seq)的架构来生成未来一段时间行人的运动轨迹。

参考文献2(Zhu Y,Qian D,Ren D,et al.StarNet:Pedestrian trajectoryprediction using deep neural network in star topology[C]//Proceedings of theIEEE/RSJ International Conference on Intelligent Robots and Systems.2019:8075-8080.)提出了一种StarNet模型。该文献中同样利用seq2seq的结构来生成未来一段时间行人的运动轨迹并提出了一个全新的交互模块。StarNet模型认为现有方法都是对每一对行人单独计算交互，但是现实生活中人们感受到的交互应该是整个场景中所有行人、障碍物共同组成的整体交互。因此StarNet模型根据每个时刻场景中的障碍物和行人的位置构成了一张静态的“交互图”，随着时间变化，这些静态的“交互图”变成了一张带有时序信息的动态图。StarNet模型让所有的行人共享全局交互信息可以在计算全局交互的同时提高计算效率。

但现有技术中存在如下缺点与不足：STGAT模型中的注意力机制和图神经网络可以帮助行人精确学习到行人之间的关联系数和交互信息，但是这种两两计算的注意力机制消耗的资源大，随着行人数量N的变大，计算量呈平方倍增长，并且当行人数量过多时，该方法会导致行人之间的重要性区分度变弱。而StarNet模型虽然考虑了行人和全局场景的交互，显著提高了计算效率，但是现实场景中，即使不同行人在同一个场景，他们受到的全局交互也应该是不同的，同时StarNet模型没有仔细考虑局部邻域内的动态交互，不同行人的交互缺少各异性。并且当场景尺寸较大时，对整个场景建模一个全局交互图，不能有效的捕捉全部有效信息。

发明内容

针对复杂场景下行人数量多的情况，基于注意力机制计算行人交互的复杂度高，以及对全局场景进行整体交互建模的建模精度差，不同行人的交互缺少各异性的问题，本发明提出一种基于多精度交互的人群轨迹预测方法，通过全局交互模块(GlobalInteraction Module,GIM)和局部交互模块(Local Interaction Module，LIM)两种精度的交互建模方式，使行人交互建模更加细致合理，达到提升人群轨迹预测的精度的效果，具有保证行人交互个性化的同时减少计算次数的优势。

本发明提供的一种基于多精度交互的人群轨迹预测方法，包括如下步骤：

步骤1：获取行人历史轨迹视频，为行人建立个体运动的时空连续性模型；其中，使用E-LSTM网络来编码行人的历史状态，使用行人的相对位置作为E-LSTM网络的输入；

步骤2：行人运动交互建模，包括全局交互建模和局部交互建模；

(一)全局交互建模包括：(1)首先按照设置的精度对当前场景进行区域划分，将每个行人的位置坐标映射为场景的区域坐标，并构建一个遮掩矩阵用来判断划分的区域内是否有行人存在；(2)在划分的每个子区域内构建图网络，每个行人对应一个节点，用边记录行人之间是否存在交互信息；对每个子区域内个体先采用图卷积网络进行建模交互，再利用最大池化操作聚合区域信息得到行人交互信息；(3)基于当前的行人运动状态和获得的交互信息，利用自注意力机制建模全局交互信息；

其中，设t时刻区域r内存在N_r个行人，该区域的图网络表示为

为节点集合，每个节点代表一个行人的状态信息，

代表行人N_r的运动状态；

是一个0-1矩阵，元素值为1代表两行人之间存在交互信息，值为0代表两行人之间不存在交互信息；将

输入图卷积网络后得到建模交互后的行人状态信息

再对

最大池化操作得到输出结果

其中，W_gcn是图卷积网络的参数，Q是W_gcn的参数维度；

(二)局部交互建模，包括：(1)根据邻居阈值筛选出产生交互的周围行人；(2)基于行人运动状态，利用注意力机制对周围行人的交互进行融合得到行人的局部交互信息；

(三)将局部交互信息和全局交互信息拼接得到行人i在t时刻的完整交互信息。

步骤3：对行人未来轨迹解码预测。

利用注意力机制对行人不同时刻的完整交互信息分配不同的权重，获取对行人观察时刻融合后的交互信息H_interaction，将行人的运动信息和交互信息H_interaction拼接作为解码端的LSTM的初始化向量，利用解码端LSTM预测行人的相对位置，进而预测行人的绝对位置。

相对于现有技术，本发明的优点和积极效果在于：

(1)本发明方法提出一种全局-局部交互建模结构，将行人的交互信息分为两个阶段计算，全局交互信息对行人的轨迹做出微调，可以指导行人的远距离移动，局部交互信息可以捕捉行人的细节运动信息，用来指导行人的瞬时移动，在全局交互建模基础上添加局部交互建模，行人可以对近期运动做出及时的避让，更接近真实轨迹。

(2)本发明方法提出一种区域划分交互计算方法；现有方法一般是计算每对行人之间的交互，计算复杂度高，或者是利用池化层等方法对整个场景整体建模，这种方法导致不同行人的交互相同，缺乏各异性。本发明方法利用区域划分算法将场景分成若干份，然后对每个划分的子区域进行区域建模，在现在常用的两种方法中找到了平衡点，在保证交互信息各异性的同时降低了计算复杂度。

(3)将本发明方法与现有方法在若干公开数据集上进行实验对比，发现采用本发明方法进行行人轨迹预测时可以获取更优的效果，能更加准确得预测行人轨迹。

附图说明

图1为本发明的一种多精度交互的人群轨迹预测方法的整体流程示意图；

图2为本发明方法中交互建模的示意图，图中上半部分为局部交互建模示意图，下半部分为全局交互建模示意图；

图3为本发明提出的全局交互建模的流程图；

图4为本发明提出的局部交互建模流程图；

图5为本发明实验中预测的行人轨迹对比图。

具体实施方式

下面结合附图和实施例来说明本发明技术方案的实现，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

现有方法一般是计算每对行人之间的交互，计算复杂度高，或者是利用池化层等方法对整个场景整体建模，这种方法导致不同行人的交互相同，缺乏各异性。本发明采用深度学习的技术手段提出一种基于多精度交互的人群轨迹预测方法，采用一种多精度的行人交互建模方法，即全局-局部交互计算结构，将整个场景划分为不同的区域，利用图神经网络在每个区域内部构建局部信息传递进而生成区域交互，同时为了捕捉周围的细节信息，构建一个额外的局部交互模块来捕获周围行人的交互细节，在保证交互信息各异性的同时降低了计算复杂度。

本发明实施例的实验平台参数如下：

CPU：Intel(R)Core(TM)i7-7800X CPU@3.50GHz

GPU：TITAN XP

操作系统：Ubuntu 16.04.6

代码运行环境：Python 3.7、Pytorch 1.5.0

在上述智能实验平台上运行本发明的基于多精度交互的人群轨迹预测方法。如图1所示，本发明实施例实现的人群轨迹预测方法，首先获取行人历史轨迹视频，从历史轨迹视频中按照0.4秒时间间隔提取8帧图像，并转化为二维的行人位置坐标，本发明实施例中是利用开源的目标跟踪算法(如SORT算法)获取行人位置，并在场景建立坐标系获得行人具体坐标，然后利用LSTM对历史数据进行编码，通过全局交互模块和局部交互模块对行人信息进行建模，并利用注意力机制融合不同时刻的交互信息，最后利用交互信息和时间编码信息解码出行人的未来轨迹。本发明实施例的人群轨迹预测方法主要包括如下三个步骤。

步骤1：个体运动的时空连续性建模。

每个行人都有自己的运动状态，这些状态可能包含行人的方向、速度和加速度等信息。本发明使用编码端LSTM(Encoder LSTM，E-LSTM)来编码行人的历史状态。为了提高模型的迁移能力，本发明使用行人的相对位置作为模型输入，首先计算每个行人的相对位置，设

代表行人i在t时刻的x轴坐标，

代表行人i在t时刻的y轴坐标。

其中，

代表行人i在t时刻相对于上一时刻的相对位置。i为行人的编号。

然后将相对位置映射到一个固定的高维空间，并用作LSTM模型的输入。

其中，f_e为多层感知机，W_e为f_e的训练参数，

为映射到高维空间的行人i的相对位置，

为行人i在时刻t的运动状态，W_E-LSTM为E-LSTM的模型参数。f_e将行人位置相对坐标映射为64维

E-LSTM网络的隐藏层

设为64维。

步骤2：行人运动交互建模。

本发明将交互模块分为全局交互模块和局部交互模块，进而对场景内的信息进行多精度的交互建模。如图2所示，本发明对目标行人进行交互建模，图2中小方框内的行人为目标行人，本发明通过局部交互模块和全局交互模块进行建模，最后将两个模块的建模信息进行拼接得到最终交互信息。

首先说明全局交互模块。全局交互建模的流程如图3所示。全局交互模块首先将二维的行人位置坐标输入LSTM时间序列编码，利用区域划分算法获得每个行人的区域坐标，然后在每个划分的子区域内利用图网络建模子区域交互，利用注意力机制对不同区域的交互进行融合得到全局交互信息。本发明将全局区域划分为不同的子区域，对每个子区域建模可以获得局部区域的行人交互对目标行人的影响，并且可以结合局部场景信息，具有很强的扩展性，全局交互模块可以将每个子区域的交互进行融合，得到全局场景交互信息对行人运动状态的影响。

全局模块是一个多区域的交互模块，用来捕获动态场景中的区域性交互。本发明将场景划分为不同区域。这种划分方法不仅可以根据空间位置对行人进行聚类，而且可以结合场景信息生成更复杂的交互信息。首先，定义场景划分的精度为R＝m×n，并按照设置的精度对当前场景进行区域划分，本发明实施例中，场景划分的精度R＝3*3。然后将每个行人的位置坐标映射为场景的区域坐标，同时本发明构建了一个维度为m×n的遮掩(mask)矩阵，用来判断划分的区域内是否有行人存在。

本发明利用区域划分算法将场景内的行人划分到对应的区域坐标内，所使用的一种区域划分算法如下：

在上述区域划分算法中，N代表当前场景中的行人个数，输入行人坐标(P_i(x),P_i(y))，初始化遮掩矩阵M为0矩阵，对于区域内的行人i，根据上面第4行和第5行的计算公式来获取行人i的区域坐标(PR_i(x),PR_i(y))，并根据所得到的区域坐标，更新遮掩矩阵M中对应位置的元素值为1。(x_min,y_min)和(x_max,y_max)分别为场景区域的左下角和右上角的坐标。

区域划分结束后，为了挖掘行人的空间相关性，本发明在每个子区域内构建一个图卷积网络来生成区域状态信息。对有行人存在的每个子区域建立图网络结构，设第r个区域内存在N_r个行人，每个区域内的子图可以表示为

是子图中节点的集合，每个行人对应一个节点，代表区域内一个行人的状态信息，D代表行人状态的特征维度，即对应E-LSTM网络输出的行人运动状态的维度，本发明实施例中D为64；

是一个0-1矩阵，用来存储图中的边，即行人之间的交互信息，矩阵中元素值为1代表对应的两行人节点之间有边相连，行人之间存在交互信息，元素值为0代表对应的两节点之间没有边连接，行人之间不存在交互信息。上角标t表示t时刻。

每个区域的子图构建结束后，本发明在每个子图中使用图卷积网络(GCN)使每个区域内的个体间进行信息传递。本发明先采用GCN进行建模交互，然后利用最大池化(MaxPooling)操作聚合区域信息。本发明实施例中，使用了两层GCN网络堆叠，第一层GCN的输出维度为32维，第二层GCN的输出维度为64维。

其中，W_gcn是图卷积网络的参数，Q是W_gcn的参数维度；

是图卷积网络的输出数据，代表第r个区域内行人通过GCN后的状态信息；

是对

最大池化操作后的输出结果。

本发明假设

是完全连通的图，W_gcn是图网络学习的参数。场景内存在m×n个子区域，本发明使用自注意力机制(self-attention)对不同区域分配对应的重要性权重。本发明选用了self-attention来建模全局交互信息。如公式(7)计算不同区域对行人的重要度，如公式(8)对重要度进行归一化，如公式(9)获取行人i在t时刻的全局交互信息。

其中，S_i,r代表区域r对行人i的关联程度，关联程度即重要度；f_q′(·)、f_v-region(·)均为多层感知机，f_q′(·)维度映射为64维，f_v-region(·)维度映射为32维，＜·,·＞代表内积操作；D代表

的维度，本发明实施例为64；α_i,r代表归一化后区域r对行人i的重要性分数；M_r代表遮掩矩阵M中对应区域r的元素；

是行人i在t时刻的全局交互信息。

其次，说明局部交互模块。如图4所示，局部交互模块根据邻居阈值筛选出会产生交互的周围行人，将二维的行人位置坐标输入LSTM时间序列编码，利用注意力机制对周围行人的交互进行融合得到局部交互信息。

局部交互模块用来捕获行人局部范围的精细交互信息。因为行人的交互是动态的，为了建模这种交互，本发明同样使用自注意力机制(self-attention)来适应性的捕获不同行人的关联程度。因为正常行人的行走速度是1.1m/s，本发明实施例要预测的是行人未来的4.8秒轨迹，因此本发明将局部行人的邻近阈值threshold设为5米。

首先，本发明定义一个矩阵G来表示局部行人。

其中，P_i ^t、

分别代表行人i和j在t时刻的位置，||.||₂代表2范数，此处用于求取行人i和j的距离。当两行人i和j间距离小于等于阈值threshold时，代表两行人i和j间会产生交互，对应在矩阵G中元素G_ij取值为1，否则，代表两行人间不产生交互，G_ij取值为0。矩阵G作为掩码矩阵参与局部信息状态的更新。

本发明使用内积和归一化指数函数(Softmax)计算行人之间的归一化相关性，然后更新局部信息状态。利用公式(11)计算获取各行人对行人i的关联程度，利用公式(12)对公式(11)所计算的关联程度进行归一化，利用公式(13)获取行人的局部交互信息。

其中，Score_i,j代表行人j对行人i的关联程度，N代表所有行人个数；f_q(·)、f_k(·)、f_v(·)均为多层感知机函数，f_q(·)和f_k(·)的维度映射为64维，f_v(·)维度映射为32维；

分别代表行人i、行人j在t时刻的运动状态；对Score_i,j进行归一化得到αtt_i,j；

是行人i在t时刻的局部交互信息。

最后本发明将局部交互信息和全局交互信息拼接得到行人i在t时刻的完整交互信息。

步骤3：对行人未来轨迹进行解码预测。

不同时刻的交互信息重要程度不同，为了处理捕捉这种交互的差异性，本发明引入了时间注意力机制，对不同时刻的交互分配不同的权重。

其中，α_i,t′表示行人i在t′时刻的重要性；f_time(.)是多层感知机；

表示行人i在t′时刻的完整交互信息；T_obs表示观察时间长度，本发明实施例中T_obs为8；H_interaction表示对观察时刻融合后的编码信息。本发明中为了让模型的泛化和学习能力更强，将

进行编码，然后再计算注意力机制。

行人的运动状态和交互状态分别由单个分支和交互分支编码，然后本发明将行人运动信息、交互信息拼接并作为在解码端LSTM(Decoder LSTM，D-LSTM)的初始化向量。在前面的工作基础上，本发明利用一个基于LSTM的解码器来预测行人的相对位置。

其中，f_init、f_demb、f_decoder均是多层感知机，f_init、f_demb维度映射为64维，f_decoder将向量映射为2维坐标；

表示连接操作；

表示输入D-LSTM网络的初始向量，

表示行人i在时刻T_obs的运动信息，H_interaction表示对行人i观察时刻融合后的交互信息；

表示预测的行人i在t时刻相对于上一时刻的相对位置，W_dec表示D-LSTM网络模型的参数；

分别表示由D-LSTM网络模型解码获取的t+1时刻、t时刻的运动状态；

的维度为64维；W_decoder是多层感知机f_decoder的参数；对

进行降维映射，预测得到行人i在t+1时刻相对于上一时刻的相对位置

将预测出的

和

用作解码端LSTM在下一个时间步的输入。可以利用公式(20)和(21)将相对位置坐标

转化为绝对位置坐标

其中，

表示预测的行人i在t时刻的绝对位置对标。

模型训练中本发明将批处理量(batch size)设为32，模型训练200轮，学习率为0.001，来训练所涉及到的LSTM网络和多层感知机的参数。利用训练好的LSTM网络和多层感知机，执行上述步骤1～3，来对当前场景中的行人轨迹进行预测。

本发明中的多层感知机可以进行数据维度的变化，将数据映射到一个高维度数据学习复杂的信息，或者映射到一个低维度数据以压缩数据减少计算压力，然后再映射回自己需要的数据维度，本发明的多层感知机主要起到维度变化的作用。

将本发明方法在公开数据集上与现有方法进行实验对比，结果显示本发明的结果优于现有方法，评价指标为ADE/FDE，ADE为未来12帧(4.8秒)预测位置与真实位置的距离差的平均值，FDE为预测终点位置与真实终点位置的距离差。ADE和FDE值越小，效果越好。对比数据如表1所示。

表1本发明方法与现有方法在公开数据集的结果对比

方法

ETH

HOTEL

UNIV

ZARA1

ZARA2

AVG

SGAN

0.81/1.52

0.72/1.61

0.60/1.26

0.34/0.69

0.42/0.84

0.58/1.18

SoPhie

0.70/1.43

0.76/1.67

0.54/1.24

0.30/0.63

0.38/0.78

0.54/1.15

STGAT

0.65/1.12

0.35/0.66

0.52/1.10

0.34/0.69

0.29/0.60

0.43/0.83

本发明

0.62/1.15

0.27/0.49

0.52/1.10

0.31/0.62

0.25/0.51

0.39/0.77

现有技术中有利用生成对抗网络(GAN)进行轨迹预测方法，如利用SGAN(半监督式GAN)进行轨迹预测；基于GAN利用场景中路径历史以及场景上下文信息进行路径预测方法——SoPhie；基于Seq2Seq的结构使用GAT提取交互信息的网络STGAT进行轨迹预测。如表1所示，将本发明方法与SGAN、SoPhie、STGAT三种方法分别在公开数据集ETH、HOTEL、UNIV、ZARA1、ZARA2和AVG上进行对比，加粗数据表示本发明方法在ADE或FDE上在对应数据集上的最优。通过表1可知，采用本发明方法进行轨迹预测，由于现有方法，能更加准确进行行人轨迹预测。

同时将本发明方法与STGAT方法进行定性实验对比，证明了本发明方法的有效性。如图5所示，实线是观察的历史轨迹，虚线是真实的未来轨迹，实心三角箭头的虚线是本发明预测的未来轨迹，普通箭头虚线是对比方法STGAT的预测轨迹，从图5中可以看出本发明预测的轨迹效果更好，与真实的轨迹距离更近，并且可以预测出直行、转弯等行为。

Claims

1.一种基于多精度交互的人群轨迹预测方法，其特征在于，包括如下步骤：

步骤1，获取行人历史轨迹视频，为行人建立个体运动的时空连续性模型；其中使用LSTM网络来编码行人的历史状态，使用行人的相对位置作为LSTM网络的输入；

步骤2，对行人运动交互建模，包括全局交互建模和局部交互建模；

步骤2.1，全局交互建模包括：(1)首先按照设置的精度对当前场景进行区域划分，将每个行人的位置坐标映射为场景的区域坐标，并构建一个遮掩矩阵用来判断划分的区域内是否有行人存在；(2)在划分的每个子区域内构建图网络，每个行人对应一个节点，用边记录行人之间是否存在交互信息；对每个子区域内个体先采用图卷积网络进行建模交互，再利用最大池化操作聚合区域信息；