CN113362367B - 一种基于多精度交互的人群轨迹预测方法 - Google Patents

一种基于多精度交互的人群轨迹预测方法 Download PDF

Info

Publication number
CN113362367B
CN113362367B CN202110855170.8A CN202110855170A CN113362367B CN 113362367 B CN113362367 B CN 113362367B CN 202110855170 A CN202110855170 A CN 202110855170A CN 113362367 B CN113362367 B CN 113362367B
Authority
CN
China
Prior art keywords
pedestrian
interaction
information
lstm
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110855170.8A
Other languages
English (en)
Other versions
CN113362367A (zh
Inventor
刘绍华
孙靖凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110855170.8A priority Critical patent/CN113362367B/zh
Publication of CN113362367A publication Critical patent/CN113362367A/zh
Application granted granted Critical
Publication of CN113362367B publication Critical patent/CN113362367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Abstract

本发明提出了一种基于多精度交互的人群轨迹预测方法,属于计算机视觉技术领域。本发明方法包括:使用LSTM网络来编码行人的历史状态;对行人的运动交互采用全局交互建模和局部交互建模方式,全局交互建模时先划分场景,对每个划分的子区域进行区域建模,再整合获取全局交互信息,最后将局部交互信息和全局交互信息拼接得到完整交互信息;在解码端利用一个LSTM网络进行解码,预测行人轨迹。通过全局交互信息对行人的轨迹做出微调,通过局部交互信息可以捕捉行人的细节运动信息,行人可以对近期运动做出及时的避让,更接近真实轨迹。采用本发明方法能更加准确预测行人轨迹,并在保证交互信息各异性的同时降低了计算复杂度。

Description

一种基于多精度交互的人群轨迹预测方法
技术领域
本发明属于计算机视觉技术领域,涉及人群轨迹预测和人群交互建模技术,具体涉及一种基于多精度交互的人群轨迹预测方法。
背景技术
轨迹预测算法根据行人的历史位置信息实现目标未来的轨迹信息预测,是目前计算机视觉领域的研究热点之一。伴随着5G网络商用和城市现代化的发展,国家高度重视智慧交通、公共安全等重点方向的建设,而轨迹预测算法作为必要的基础性研究技术,在自动驾驶、机器人导航、行人意图分析等现实场景中起到关键作用。例如在机器人导航系统中,机器人应该充分考虑场景内其他行人的轨迹信息,规划安全合理的路径避免碰撞。然而,行人不是只受牛顿定律影响运动的实体,相反人们会根据自己的主观意愿动态地改变运动状态,因此行人的轨迹一般不是线性的。其次在现实生活中运动场景错综复杂,人们会与场景内的其他行人发生多种复杂的交互,如跟随交互、避障交互等。这些复杂且多样的交互方式,给行人轨迹预测问题带来了许多挑战。
现有轨迹预测方法的流程一般可以分为以下三个阶段:
1)根据行人的历史位置坐标对行人运动状态信息编码;
2)对第一阶段编码的行人运动状态进行交互建模;
3)根据第一、第二阶段的建模数据进行解码,预测未来轨迹。
近几年有许多基于深度学习的方法被提出用于改进上述流程中第二阶段的行人交互建模。目前提出用于轨迹预测的模型有STGAT模型和StarNet模型等。
参考文件1(Huang Y,Bi H,Li Z,et al.Stgat:Modeling spatial-temporalinteractions for human trajectory prediction[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2019:6272-6281.)公开一种新颖的时空图注意网络,称为STGAT,其中行人之间的空间和时间相互作用分别被编码。由于GAT(图形注意力网络)可以通过为不同节点分配不同的重要性来聚合来自邻居的信息,因此STGAT使用GAT建模行人间的运动信息共享和运动交互机制。该方案建模场景中涉及的所有行人之间的交互,每个时刻的空间相互作用由GAT捕获,通过深度学习,GAT结构可以自动为目标行人计算周围不同行人对其的运动影响。考虑到行人运动轨迹的时间连续性,STGAT使用额外的LSTM(长短期记忆网络)结构来捕获行人间交互的时间连续性。最后,利用序列生成序列(seq2seq)的架构来生成未来一段时间行人的运动轨迹。
参考文献2(Zhu Y,Qian D,Ren D,et al.StarNet:Pedestrian trajectoryprediction using deep neural network in star topology[C]//Proceedings of theIEEE/RSJ International Conference on Intelligent Robots and Systems.2019:8075-8080.)提出了一种StarNet模型。该文献中同样利用seq2seq的结构来生成未来一段时间行人的运动轨迹并提出了一个全新的交互模块。StarNet模型认为现有方法都是对每一对行人单独计算交互,但是现实生活中人们感受到的交互应该是整个场景中所有行人、障碍物共同组成的整体交互。因此StarNet模型根据每个时刻场景中的障碍物和行人的位置构成了一张静态的“交互图”,随着时间变化,这些静态的“交互图”变成了一张带有时序信息的动态图。StarNet模型让所有的行人共享全局交互信息可以在计算全局交互的同时提高计算效率。
但现有技术中存在如下缺点与不足:STGAT模型中的注意力机制和图神经网络可以帮助行人精确学习到行人之间的关联系数和交互信息,但是这种两两计算的注意力机制消耗的资源大,随着行人数量N的变大,计算量呈平方倍增长,并且当行人数量过多时,该方法会导致行人之间的重要性区分度变弱。而StarNet模型虽然考虑了行人和全局场景的交互,显著提高了计算效率,但是现实场景中,即使不同行人在同一个场景,他们受到的全局交互也应该是不同的,同时StarNet模型没有仔细考虑局部邻域内的动态交互,不同行人的交互缺少各异性。并且当场景尺寸较大时,对整个场景建模一个全局交互图,不能有效的捕捉全部有效信息。
发明内容
针对复杂场景下行人数量多的情况,基于注意力机制计算行人交互的复杂度高,以及对全局场景进行整体交互建模的建模精度差,不同行人的交互缺少各异性的问题,本发明提出一种基于多精度交互的人群轨迹预测方法,通过全局交互模块(GlobalInteraction Module,GIM)和局部交互模块(Local Interaction Module,LIM)两种精度的交互建模方式,使行人交互建模更加细致合理,达到提升人群轨迹预测的精度的效果,具有保证行人交互个性化的同时减少计算次数的优势。
本发明提供的一种基于多精度交互的人群轨迹预测方法,包括如下步骤:
步骤1:获取行人历史轨迹视频,为行人建立个体运动的时空连续性模型;其中,使用E-LSTM网络来编码行人的历史状态,使用行人的相对位置作为E-LSTM网络的输入;
步骤2:行人运动交互建模,包括全局交互建模和局部交互建模;
(一)全局交互建模包括:(1)首先按照设置的精度对当前场景进行区域划分,将每个行人的位置坐标映射为场景的区域坐标,并构建一个遮掩矩阵用来判断划分的区域内是否有行人存在;(2)在划分的每个子区域内构建图网络,每个行人对应一个节点,用边记录行人之间是否存在交互信息;对每个子区域内个体先采用图卷积网络进行建模交互,再利用最大池化操作聚合区域信息得到行人交互信息;(3)基于当前的行人运动状态和获得的交互信息,利用自注意力机制建模全局交互信息;
其中,设t时刻区域r内存在Nr个行人,该区域的图网络表示为
Figure BDA0003180224980000031
Figure BDA0003180224980000032
为节点集合,每个节点代表一个行人的状态信息,
Figure BDA0003180224980000033
Figure BDA0003180224980000034
代表行人Nr的运动状态;
Figure BDA0003180224980000035
是一个0-1矩阵,元素值为1代表两行人之间存在交互信息,值为0代表两行人之间不存在交互信息;将
Figure BDA0003180224980000036
输入图卷积网络后得到建模交互后的行人状态信息
Figure BDA0003180224980000037
再对
Figure BDA0003180224980000038
最大池化操作得到输出结果
Figure BDA0003180224980000039
Figure BDA00031802249800000310
Figure BDA00031802249800000311
其中,Wgcn是图卷积网络的参数,Q是Wgcn的参数维度;
(二)局部交互建模,包括:(1)根据邻居阈值筛选出产生交互的周围行人;(2)基于行人运动状态,利用注意力机制对周围行人的交互进行融合得到行人的局部交互信息;
(三)将局部交互信息和全局交互信息拼接得到行人i在t时刻的完整交互信息。
步骤3:对行人未来轨迹解码预测。
利用注意力机制对行人不同时刻的完整交互信息分配不同的权重,获取对行人观察时刻融合后的交互信息Hinteraction,将行人的运动信息和交互信息Hinteraction拼接作为解码端的LSTM的初始化向量,利用解码端LSTM预测行人的相对位置,进而预测行人的绝对位置。
相对于现有技术,本发明的优点和积极效果在于:
(1)本发明方法提出一种全局-局部交互建模结构,将行人的交互信息分为两个阶段计算,全局交互信息对行人的轨迹做出微调,可以指导行人的远距离移动,局部交互信息可以捕捉行人的细节运动信息,用来指导行人的瞬时移动,在全局交互建模基础上添加局部交互建模,行人可以对近期运动做出及时的避让,更接近真实轨迹。
(2)本发明方法提出一种区域划分交互计算方法;现有方法一般是计算每对行人之间的交互,计算复杂度高,或者是利用池化层等方法对整个场景整体建模,这种方法导致不同行人的交互相同,缺乏各异性。本发明方法利用区域划分算法将场景分成若干份,然后对每个划分的子区域进行区域建模,在现在常用的两种方法中找到了平衡点,在保证交互信息各异性的同时降低了计算复杂度。
(3)将本发明方法与现有方法在若干公开数据集上进行实验对比,发现采用本发明方法进行行人轨迹预测时可以获取更优的效果,能更加准确得预测行人轨迹。
附图说明
图1为本发明的一种多精度交互的人群轨迹预测方法的整体流程示意图;
图2为本发明方法中交互建模的示意图,图中上半部分为局部交互建模示意图,下半部分为全局交互建模示意图;
图3为本发明提出的全局交互建模的流程图;
图4为本发明提出的局部交互建模流程图;
图5为本发明实验中预测的行人轨迹对比图。
具体实施方式
下面结合附图和实施例来说明本发明技术方案的实现,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
现有方法一般是计算每对行人之间的交互,计算复杂度高,或者是利用池化层等方法对整个场景整体建模,这种方法导致不同行人的交互相同,缺乏各异性。本发明采用深度学习的技术手段提出一种基于多精度交互的人群轨迹预测方法,采用一种多精度的行人交互建模方法,即全局-局部交互计算结构,将整个场景划分为不同的区域,利用图神经网络在每个区域内部构建局部信息传递进而生成区域交互,同时为了捕捉周围的细节信息,构建一个额外的局部交互模块来捕获周围行人的交互细节,在保证交互信息各异性的同时降低了计算复杂度。
本发明实施例的实验平台参数如下:
CPU:Intel(R)Core(TM)i7-7800X CPU@3.50GHz
GPU:TITAN XP
操作系统:Ubuntu 16.04.6
代码运行环境:Python 3.7、Pytorch 1.5.0
在上述智能实验平台上运行本发明的基于多精度交互的人群轨迹预测方法。如图1所示,本发明实施例实现的人群轨迹预测方法,首先获取行人历史轨迹视频,从历史轨迹视频中按照0.4秒时间间隔提取8帧图像,并转化为二维的行人位置坐标,本发明实施例中是利用开源的目标跟踪算法(如SORT算法)获取行人位置,并在场景建立坐标系获得行人具体坐标,然后利用LSTM对历史数据进行编码,通过全局交互模块和局部交互模块对行人信息进行建模,并利用注意力机制融合不同时刻的交互信息,最后利用交互信息和时间编码信息解码出行人的未来轨迹。本发明实施例的人群轨迹预测方法主要包括如下三个步骤。
步骤1:个体运动的时空连续性建模。
每个行人都有自己的运动状态,这些状态可能包含行人的方向、速度和加速度等信息。本发明使用编码端LSTM(Encoder LSTM,E-LSTM)来编码行人的历史状态。为了提高模型的迁移能力,本发明使用行人的相对位置作为模型输入,首先计算每个行人的相对位置,设
Figure BDA0003180224980000041
代表行人i在t时刻的x轴坐标,
Figure BDA0003180224980000042
代表行人i在t时刻的y轴坐标。
Figure BDA0003180224980000043
Figure BDA0003180224980000051
其中,
Figure BDA0003180224980000052
代表行人i在t时刻相对于上一时刻的相对位置。i为行人的编号。
然后将相对位置映射到一个固定的高维空间,并用作LSTM模型的输入。
Figure BDA0003180224980000053
Figure BDA0003180224980000054
其中,fe为多层感知机,We为fe的训练参数,
Figure BDA0003180224980000055
为映射到高维空间的行人i的相对位置,
Figure BDA0003180224980000056
为行人i在时刻t的运动状态,WE-LSTM为E-LSTM的模型参数。fe将行人位置相对坐标映射为64维
Figure BDA0003180224980000057
E-LSTM网络的隐藏层
Figure BDA0003180224980000058
设为64维。
步骤2:行人运动交互建模。
本发明将交互模块分为全局交互模块和局部交互模块,进而对场景内的信息进行多精度的交互建模。如图2所示,本发明对目标行人进行交互建模,图2中小方框内的行人为目标行人,本发明通过局部交互模块和全局交互模块进行建模,最后将两个模块的建模信息进行拼接得到最终交互信息。
首先说明全局交互模块。全局交互建模的流程如图3所示。全局交互模块首先将二维的行人位置坐标输入LSTM时间序列编码,利用区域划分算法获得每个行人的区域坐标,然后在每个划分的子区域内利用图网络建模子区域交互,利用注意力机制对不同区域的交互进行融合得到全局交互信息。本发明将全局区域划分为不同的子区域,对每个子区域建模可以获得局部区域的行人交互对目标行人的影响,并且可以结合局部场景信息,具有很强的扩展性,全局交互模块可以将每个子区域的交互进行融合,得到全局场景交互信息对行人运动状态的影响。
全局模块是一个多区域的交互模块,用来捕获动态场景中的区域性交互。本发明将场景划分为不同区域。这种划分方法不仅可以根据空间位置对行人进行聚类,而且可以结合场景信息生成更复杂的交互信息。首先,定义场景划分的精度为R=m×n,并按照设置的精度对当前场景进行区域划分,本发明实施例中,场景划分的精度R=3*3。然后将每个行人的位置坐标映射为场景的区域坐标,同时本发明构建了一个维度为m×n的遮掩(mask)矩阵,用来判断划分的区域内是否有行人存在。
本发明利用区域划分算法将场景内的行人划分到对应的区域坐标内,所使用的一种区域划分算法如下:
Figure BDA0003180224980000059
Figure BDA0003180224980000061
在上述区域划分算法中,N代表当前场景中的行人个数,输入行人坐标(Pi(x),Pi(y)),初始化遮掩矩阵M为0矩阵,对于区域内的行人i,根据上面第4行和第5行的计算公式来获取行人i的区域坐标(PRi(x),PRi(y)),并根据所得到的区域坐标,更新遮掩矩阵M中对应位置的元素值为1。(xmin,ymin)和(xmax,ymax)分别为场景区域的左下角和右上角的坐标。
区域划分结束后,为了挖掘行人的空间相关性,本发明在每个子区域内构建一个图卷积网络来生成区域状态信息。对有行人存在的每个子区域建立图网络结构,设第r个区域内存在Nr个行人,每个区域内的子图可以表示为
Figure BDA0003180224980000062
Figure BDA0003180224980000063
是子图中节点的集合,每个行人对应一个节点,代表区域内一个行人的状态信息,D代表行人状态的特征维度,即对应E-LSTM网络输出的行人运动状态的维度,本发明实施例中D为64;
Figure BDA0003180224980000064
是一个0-1矩阵,用来存储图中的边,即行人之间的交互信息,矩阵中元素值为1代表对应的两行人节点之间有边相连,行人之间存在交互信息,元素值为0代表对应的两节点之间没有边连接,行人之间不存在交互信息。上角标t表示t时刻。
每个区域的子图构建结束后,本发明在每个子图中使用图卷积网络(GCN)使每个区域内的个体间进行信息传递。本发明先采用GCN进行建模交互,然后利用最大池化(MaxPooling)操作聚合区域信息。本发明实施例中,使用了两层GCN网络堆叠,第一层GCN的输出维度为32维,第二层GCN的输出维度为64维。
Figure BDA0003180224980000065
Figure BDA0003180224980000066
其中,Wgcn是图卷积网络的参数,Q是Wgcn的参数维度;
Figure BDA0003180224980000067
是图卷积网络的输出数据,代表第r个区域内行人通过GCN后的状态信息;
Figure BDA0003180224980000068
是对
Figure BDA0003180224980000069
最大池化操作后的输出结果。
本发明假设
Figure BDA00031802249800000610
是完全连通的图,Wgcn是图网络学习的参数。场景内存在m×n个子区域,本发明使用自注意力机制(self-attention)对不同区域分配对应的重要性权重。本发明选用了self-attention来建模全局交互信息。如公式(7)计算不同区域对行人的重要度,如公式(8)对重要度进行归一化,如公式(9)获取行人i在t时刻的全局交互信息。
Figure BDA0003180224980000071
Figure BDA0003180224980000072
Figure BDA0003180224980000073
其中,Si,r代表区域r对行人i的关联程度,关联程度即重要度;fq′(·)、fv-region(·)均为多层感知机,fq′(·)维度映射为64维,fv-region(·)维度映射为32维,<·,·>代表内积操作;D代表
Figure BDA0003180224980000074
的维度,本发明实施例为64;αi,r代表归一化后区域r对行人i的重要性分数;Mr代表遮掩矩阵M中对应区域r的元素;
Figure BDA0003180224980000075
是行人i在t时刻的全局交互信息。
其次,说明局部交互模块。如图4所示,局部交互模块根据邻居阈值筛选出会产生交互的周围行人,将二维的行人位置坐标输入LSTM时间序列编码,利用注意力机制对周围行人的交互进行融合得到局部交互信息。
局部交互模块用来捕获行人局部范围的精细交互信息。因为行人的交互是动态的,为了建模这种交互,本发明同样使用自注意力机制(self-attention)来适应性的捕获不同行人的关联程度。因为正常行人的行走速度是1.1m/s,本发明实施例要预测的是行人未来的4.8秒轨迹,因此本发明将局部行人的邻近阈值threshold设为5米。
首先,本发明定义一个矩阵G来表示局部行人。
Figure BDA0003180224980000076
其中,Pi t
Figure BDA0003180224980000077
分别代表行人i和j在t时刻的位置,||.||2代表2范数,此处用于求取行人i和j的距离。当两行人i和j间距离小于等于阈值threshold时,代表两行人i和j间会产生交互,对应在矩阵G中元素Gij取值为1,否则,代表两行人间不产生交互,Gij取值为0。矩阵G作为掩码矩阵参与局部信息状态的更新。
本发明使用内积和归一化指数函数(Softmax)计算行人之间的归一化相关性,然后更新局部信息状态。利用公式(11)计算获取各行人对行人i的关联程度,利用公式(12)对公式(11)所计算的关联程度进行归一化,利用公式(13)获取行人的局部交互信息。
Figure BDA0003180224980000078
Figure BDA0003180224980000079
Figure BDA0003180224980000081
其中,Scorei,j代表行人j对行人i的关联程度,N代表所有行人个数;fq(·)、fk(·)、fv(·)均为多层感知机函数,fq(·)和fk(·)的维度映射为64维,fv(·)维度映射为32维;
Figure BDA0003180224980000082
分别代表行人i、行人j在t时刻的运动状态;对Scorei,j进行归一化得到αtti,j
Figure BDA0003180224980000083
是行人i在t时刻的局部交互信息。
最后本发明将局部交互信息和全局交互信息拼接得到行人i在t时刻的完整交互信息。
Figure BDA0003180224980000084
步骤3:对行人未来轨迹进行解码预测。
不同时刻的交互信息重要程度不同,为了处理捕捉这种交互的差异性,本发明引入了时间注意力机制,对不同时刻的交互分配不同的权重。
Figure BDA0003180224980000085
Figure BDA0003180224980000086
其中,αi,t′表示行人i在t′时刻的重要性;ftime(.)是多层感知机;
Figure BDA0003180224980000087
表示行人i在t′时刻的完整交互信息;Tobs表示观察时间长度,本发明实施例中Tobs为8;Hinteraction表示对观察时刻融合后的编码信息。本发明中为了让模型的泛化和学习能力更强,将
Figure BDA0003180224980000088
进行编码,然后再计算注意力机制。
行人的运动状态和交互状态分别由单个分支和交互分支编码,然后本发明将行人运动信息、交互信息拼接并作为在解码端LSTM(Decoder LSTM,D-LSTM)的初始化向量。在前面的工作基础上,本发明利用一个基于LSTM的解码器来预测行人的相对位置。
Figure BDA0003180224980000089
Figure BDA00031802249800000810
Figure BDA00031802249800000811
其中,finit、fdemb、fdecoder均是多层感知机,finit、fdemb维度映射为64维,fdecoder将向量映射为2维坐标;
Figure BDA00031802249800000812
表示连接操作;
Figure BDA00031802249800000813
表示输入D-LSTM网络的初始向量,
Figure BDA00031802249800000814
表示行人i在时刻Tobs的运动信息,Hinteraction表示对行人i观察时刻融合后的交互信息;
Figure BDA00031802249800000815
表示预测的行人i在t时刻相对于上一时刻的相对位置,Wdec表示D-LSTM网络模型的参数;
Figure BDA00031802249800000816
Figure BDA00031802249800000817
分别表示由D-LSTM网络模型解码获取的t+1时刻、t时刻的运动状态;
Figure BDA00031802249800000818
的维度为64维;Wdecoder是多层感知机fdecoder的参数;对
Figure BDA00031802249800000819
进行降维映射,预测得到行人i在t+1时刻相对于上一时刻的相对位置
Figure BDA00031802249800000820
将预测出的
Figure BDA00031802249800000821
Figure BDA00031802249800000822
用作解码端LSTM在下一个时间步的输入。可以利用公式(20)和(21)将相对位置坐标
Figure BDA00031802249800000823
转化为绝对位置坐标
Figure BDA00031802249800000824
Figure BDA0003180224980000091
Figure BDA0003180224980000092
其中,
Figure BDA0003180224980000093
表示预测的行人i在t时刻的绝对位置对标。
模型训练中本发明将批处理量(batch size)设为32,模型训练200轮,学习率为0.001,来训练所涉及到的LSTM网络和多层感知机的参数。利用训练好的LSTM网络和多层感知机,执行上述步骤1~3,来对当前场景中的行人轨迹进行预测。
本发明中的多层感知机可以进行数据维度的变化,将数据映射到一个高维度数据学习复杂的信息,或者映射到一个低维度数据以压缩数据减少计算压力,然后再映射回自己需要的数据维度,本发明的多层感知机主要起到维度变化的作用。
将本发明方法在公开数据集上与现有方法进行实验对比,结果显示本发明的结果优于现有方法,评价指标为ADE/FDE,ADE为未来12帧(4.8秒)预测位置与真实位置的距离差的平均值,FDE为预测终点位置与真实终点位置的距离差。ADE和FDE值越小,效果越好。对比数据如表1所示。
表1本发明方法与现有方法在公开数据集的结果对比
方法 ETH HOTEL UNIV ZARA1 ZARA2 AVG
SGAN 0.81/1.52 0.72/1.61 0.60/1.26 0.34/0.69 0.42/0.84 0.58/1.18
SoPhie 0.70/1.43 0.76/1.67 0.54/1.24 0.30/0.63 0.38/0.78 0.54/1.15
STGAT 0.65/1.12 0.35/0.66 0.52/1.10 0.34/0.69 0.29/0.60 0.43/0.83
本发明 0.62/1.15 0.27/0.49 0.52/1.10 0.31/0.62 0.25/0.51 0.39/0.77
现有技术中有利用生成对抗网络(GAN)进行轨迹预测方法,如利用SGAN(半监督式GAN)进行轨迹预测;基于GAN利用场景中路径历史以及场景上下文信息进行路径预测方法——SoPhie;基于Seq2Seq的结构使用GAT提取交互信息的网络STGAT进行轨迹预测。如表1所示,将本发明方法与SGAN、SoPhie、STGAT三种方法分别在公开数据集ETH、HOTEL、UNIV、ZARA1、ZARA2和AVG上进行对比,加粗数据表示本发明方法在ADE或FDE上在对应数据集上的最优。通过表1可知,采用本发明方法进行轨迹预测,由于现有方法,能更加准确进行行人轨迹预测。
同时将本发明方法与STGAT方法进行定性实验对比,证明了本发明方法的有效性。如图5所示,实线是观察的历史轨迹,虚线是真实的未来轨迹,实心三角箭头的虚线是本发明预测的未来轨迹,普通箭头虚线是对比方法STGAT的预测轨迹,从图5中可以看出本发明预测的轨迹效果更好,与真实的轨迹距离更近,并且可以预测出直行、转弯等行为。

Claims (7)

1.一种基于多精度交互的人群轨迹预测方法,其特征在于,包括如下步骤:
步骤1,获取行人历史轨迹视频,为行人建立个体运动的时空连续性模型;其中使用LSTM网络来编码行人的历史状态,使用行人的相对位置作为LSTM网络的输入;
步骤2,对行人运动交互建模,包括全局交互建模和局部交互建模;
步骤2.1,全局交互建模包括:(1)首先按照设置的精度对当前场景进行区域划分,将每个行人的位置坐标映射为场景的区域坐标,并构建一个遮掩矩阵用来判断划分的区域内是否有行人存在;(2)在划分的每个子区域内构建图网络,每个行人对应一个节点,用边记录行人之间是否存在交互信息;对每个子区域内个体先采用图卷积网络进行建模交互,再利用最大池化操作聚合区域信息;
其中,设t时刻区域r内存在Nr个行人,该区域的图网络表示为
Figure FDA0003180224970000011
Figure FDA0003180224970000012
为节点集合,每个节点代表一个行人的状态信息,
Figure FDA0003180224970000013
Figure FDA0003180224970000014
代表行人Nr的运动状态;
Figure FDA0003180224970000015
是一个0-1矩阵,元素值为1代表两行人之间存在交互信息,值为0代表两行人之间不存在交互信息;将
Figure FDA0003180224970000016
输入图卷积网络后得到建模交互后的行人状态信息
Figure FDA0003180224970000017
再对
Figure FDA0003180224970000018
最大池化操作得到输出结果
Figure FDA0003180224970000019
Figure FDA00031802249700000110
Figure FDA00031802249700000111
其中,Wgcn是图卷积网络的参数,Q是Wgcn的参数维度;
(3)基于行人i在t时刻的运动状态
Figure FDA00031802249700000112
和交互信息
Figure FDA00031802249700000113
利用自注意力机制融合不同子区域交互信息,获取行人的全局交互信息;
步骤2.2,局部交互建模,包括:(1)根据邻居阈值筛选出产生交互的周围行人;(2)基于行人运动状态,利用注意力机制对周围行人的交互进行融合得到行人的局部交互信息;
步骤2.3,将行人i的局部交互信息和全局交互信息拼接,得到行人i在t时刻的完整交互信息;
步骤3,利用注意力机制对行人不同时刻的完整交互信息分配不同的权重,获取对行人观察时刻融合后的交互信息Hinteraction,将行人的运动信息和交互信息Hinteraction拼接作为解码端的LSTM的初始化向量,利用解码端LSTM预测行人的相对位置,进而预测行人的绝对位置。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,设
Figure FDA00031802249700000114
代表行人i在t时刻相对于上一时刻的相对位置,i为行人的编号,使用标记为E-LSTM的LSTM模型编码行人的历史状态时,先利用多层感知机fe将相对位置映射到一个固定的高维空间,得到
Figure FDA00031802249700000115
然后输入E-LSTM模型中,如下:
Figure FDA00031802249700000116
Figure FDA00031802249700000117
其中,We为多层感知机fe的训练参数,WE-LSTM为E-LSTM模型参数,
Figure FDA0003180224970000021
为E-LSTM模型输出的行人i在t时刻的运动状态。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2.1中,设场景划分的精度R=m×n,每个行人坐标(Pi(x),Pi(y))映射为场景的区域坐标(PRi(x),PRi(y)),i=1,2,…N,N为当前场景中的行人数量,如下:
Figure FDA0003180224970000022
遮掩矩阵M的大小为m×n,设置矩阵元素M[PRi(x)][PRi(y)]=1;
其中,(xmin,xmax,ymin,ymax)为场景的坐标范围,m、n均为正整数。
4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2.1中,利用自注意力机制建模全局交互信息,包括如下:
对行人i,计算区域r对行人i的关联程度Si,r,如下:
Figure FDA0003180224970000023
再对关联程度Si,r进行归一化得到αi,r如下:
Figure FDA0003180224970000024
最后计算行人i在t时刻的全局交互信息
Figure FDA0003180224970000025
如下:
Figure FDA0003180224970000026
其中,fq′(·)、fv-region(·)均为多层感知机,<·,·>代表内积操作;D代表行人运动状态的维度;Mr代表遮掩矩阵M中对应区域r的元素;m×n代表子区域数量。
5.根据权利要求1或3所述的方法,其特征在于,所述的步骤2.2中,包括:
对行人i,根据邻居阈值建立矩阵G,当行人i和行人j之间的距离小于等于邻居阈值时,代表两行人间会产生交互,矩阵G中元素Gij取值为1,否则Gij取值为0;
计算行人j对行人i的关联程度Scorei,j如下:
Figure FDA0003180224970000027
对关联程度Scorei,j进行归一化得到αtti,j如下:
Figure FDA0003180224970000028
计算行人i在t时刻的局部交互信息
Figure FDA0003180224970000029
如下:
Figure FDA00031802249700000210
其中,N代表当前场景中所有行人个数;fq(·)、fk(·)、fv(·)均为多层感知机;
Figure FDA00031802249700000211
分别代表行人i、行人j在t时刻的运动状态。
6.根据权利要求1或3所述的方法,其特征在于,所述的步骤3中,包括:
首先,引入时间注意力机制,对行人i在t′时刻的交互信息分配权重αi,t′,如下:
Figure FDA0003180224970000031
得到对行人i观察时刻融合后的交互信息
Figure FDA0003180224970000032
其中,
Figure FDA0003180224970000033
分别表示行人i在t′时刻、t时刻的完整交互信息;Tobs表示观察时长;ftime(.)是多层感知机;
然后,在解码端利用一个标记为D-LSTM的LSTM网络预测行人的相对位置,包括:
D-LSTM的初始化向量
Figure FDA0003180224970000034
D-LSTM解码预测t+1时刻的运动状态
Figure FDA0003180224970000035
Figure FDA0003180224970000036
进行降维映射预测得到行人i在t+1时刻相对于上一时刻的相对位置
Figure FDA0003180224970000037
其中,
Figure FDA0003180224970000038
表示行人i在时刻Tobs的运动信息;
Figure FDA0003180224970000039
表示D-LSTM网络预测的行人i在t时刻的运动信息;
Figure FDA00031802249700000310
表示预测的行人i在t时刻相对于上一时刻的相对位置;Wdec表示D-LSTM网络的参数;finit、fdemb、fdecoder均是多层感知机;Wdecoder是多层感知机fdecoder的参数;
Figure FDA00031802249700000311
表示连接操作。
7.根据权利要求6所述的方法,其特征在于,所述的方法对LSTM网络参数和多层感知机的参数进行训练,利用训练好的LSTM网络和多层感知机,执行所述的步骤1~3对场景中的行人轨迹进行预测。
CN202110855170.8A 2021-07-26 2021-07-26 一种基于多精度交互的人群轨迹预测方法 Active CN113362367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110855170.8A CN113362367B (zh) 2021-07-26 2021-07-26 一种基于多精度交互的人群轨迹预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110855170.8A CN113362367B (zh) 2021-07-26 2021-07-26 一种基于多精度交互的人群轨迹预测方法

Publications (2)

Publication Number Publication Date
CN113362367A CN113362367A (zh) 2021-09-07
CN113362367B true CN113362367B (zh) 2021-12-14

Family

ID=77540411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110855170.8A Active CN113362367B (zh) 2021-07-26 2021-07-26 一种基于多精度交互的人群轨迹预测方法

Country Status (1)

Country Link
CN (1) CN113362367B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272395A (zh) * 2022-07-11 2022-11-01 哈尔滨工业大学重庆研究院 一种基于深度图卷积网络的跨域可迁移行人轨迹预测方法
CN115009275B (zh) * 2022-08-08 2022-12-16 北京理工大学前沿技术研究院 面向城市场景下车辆轨迹预测方法、系统及存储介质
CN115071762B (zh) * 2022-08-22 2022-12-16 北京理工大学前沿技术研究院 面向城市场景下行人轨迹预测方法、模型及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392445A (zh) * 2014-11-21 2015-03-04 中国计量学院 一种监控视频中人群小群体分割方法
WO2018059300A1 (zh) * 2016-09-29 2018-04-05 北京市商汤科技开发有限公司 行走行为的预测方法和装置、数据处理装置和电子设备
CN108537818A (zh) * 2018-03-07 2018-09-14 上海交通大学 基于集群压力lstm的人群轨迹预测方法
CN110135314A (zh) * 2019-05-07 2019-08-16 电子科技大学 一种基于深度轨迹预测的多目标跟踪方法
CN112215193A (zh) * 2020-10-23 2021-01-12 深圳大学 一种行人轨迹预测方法及系统
CN112465273A (zh) * 2020-12-25 2021-03-09 湖北汽车工业学院 一种基于局部注意力机制的无人车轨迹预测方法
CN112541449A (zh) * 2020-12-18 2021-03-23 天津大学 一种基于无人机航拍视角的行人轨迹预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392445A (zh) * 2014-11-21 2015-03-04 中国计量学院 一种监控视频中人群小群体分割方法
WO2018059300A1 (zh) * 2016-09-29 2018-04-05 北京市商汤科技开发有限公司 行走行为的预测方法和装置、数据处理装置和电子设备
CN108537818A (zh) * 2018-03-07 2018-09-14 上海交通大学 基于集群压力lstm的人群轨迹预测方法
CN110135314A (zh) * 2019-05-07 2019-08-16 电子科技大学 一种基于深度轨迹预测的多目标跟踪方法
CN112215193A (zh) * 2020-10-23 2021-01-12 深圳大学 一种行人轨迹预测方法及系统
CN112541449A (zh) * 2020-12-18 2021-03-23 天津大学 一种基于无人机航拍视角的行人轨迹预测方法
CN112465273A (zh) * 2020-12-25 2021-03-09 湖北汽车工业学院 一种基于局部注意力机制的无人车轨迹预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Social LSTM:Human Trajectory Prediction in Crowded Spaces;Alexandre Alahi 等;《IEEE》;20161231;1-11 *
SR-LSTM: State Refinement for LSTM towards Pedestrian Trajectory Prediction;Pu Zhang 等;《IEEE》;20191231;12077-12086 *
图卷积神经网络行人轨迹预测算法;王天保 等;《哈尔滨工业大学学报》;20210228;第53卷(第2期);53-60 *
基于循环神经网络的轨迹位置预测技术研究;李幸超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715(第07期);I140-71 *
轨迹表示学习技术研究进展;曹翰林 等;《软件学报》;20210115;第32卷(第5期);1461-1479 *

Also Published As

Publication number Publication date
CN113362367A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113362367B (zh) 一种基于多精度交互的人群轨迹预测方法
Wang et al. Stepwise goal-driven networks for trajectory prediction
Song et al. Pedestrian trajectory prediction based on deep convolutional LSTM network
Vu et al. Hybridnets: End-to-end perception network
Wang et al. Graphtcn: Spatio-temporal interaction modeling for human trajectory prediction
Gao et al. LFT-Net: Local feature transformer network for point clouds analysis
CN113362368B (zh) 一种基于多层次时空图神经网络的人群轨迹预测方法
Sharma et al. Pedestrian intention prediction for autonomous vehicles: A comprehensive survey
CN114169241A (zh) 一种端到端的多目标识别、追踪与预测方法
CN113705636A (zh) 一种自动驾驶车辆轨迹预测方法、装置及电子设备
CN112541449A (zh) 一种基于无人机航拍视角的行人轨迹预测方法
CN115438856A (zh) 基于时空交互特征和终点信息的行人轨迹预测方法
Yau et al. Graph-sim: A graph-based spatiotemporal interaction modelling for pedestrian action prediction
CN115439507A (zh) 基于多层次互增强与相关金字塔的三维视频目标跟踪方法
Lian et al. Ptp-stgcn: pedestrian trajectory prediction based on a spatio-temporal graph convolutional neural network
Azadani et al. STAG: A novel interaction-aware path prediction method based on Spatio-Temporal Attention Graphs for connected automated vehicles
Liu et al. Multi-agent trajectory prediction with graph attention isomorphism neural network
Yang et al. Multi-granularity scenarios understanding network for trajectory prediction
CN112634328B (zh) 基于自定中心星状图和注意力机制预测行人轨迹的方法
Zhu et al. Tri-HGNN: Learning triple policies fused hierarchical graph neural networks for pedestrian trajectory prediction
Liu et al. Social graph transformer networks for pedestrian trajectory prediction in complex social scenarios
Postnikov et al. Conditioned Human Trajectory Prediction using Iterative Attention Blocks
Xu et al. Vehicle trajectory prediction considering multi-feature independent encoding
CN113869170A (zh) 一种基于图划分卷积神经网络的行人轨迹预测方法
Xu et al. Integration of Mixture of Experts and Multimodal Generative AI in Internet of Vehicles: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant