CN117351038A - 一种使用频谱信息的行人轨迹预测方法 - Google Patents
一种使用频谱信息的行人轨迹预测方法 Download PDFInfo
- Publication number
- CN117351038A CN117351038A CN202311420028.6A CN202311420028A CN117351038A CN 117351038 A CN117351038 A CN 117351038A CN 202311420028 A CN202311420028 A CN 202311420028A CN 117351038 A CN117351038 A CN 117351038A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- information
- pedestrians
- track
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001228 spectrum Methods 0.000 title claims abstract description 32
- 230000033001 locomotion Effects 0.000 claims abstract description 99
- 238000009826 distribution Methods 0.000 claims abstract description 31
- 230000002452 interceptive effect Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims description 30
- 230000001133 acceleration Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000004931 aggregating effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种使用频谱信息的行人轨迹预测方法,属于行人轨迹预测领域。首先获取行人的历史轨迹视频,得到场景中每个行人的历史轨迹信息,并对行人的历史轨迹信息建模,得到行人历史运动模式特征的编码结果以及交互和历史信息编码结果。然后由CVAE模型对行人的未来轨迹的多模态进行建模,在训练的时候CVAE的潜变量分布由对未来轨迹的编码产生,在测试的时候潜变量分布由对历史轨迹的编码产生。将行人的历史和交互信息编码结果作为输入,和CVAE模型的潜变量进行拼接,并使用GRU作为解码器对行人未来轨迹进行解码,得到行人的预测运动轨迹。最后构建损失函数进行参数迭代,直至得到最终的行人运动轨迹的预测结果。本发明预测结果更加准确,且效率更高。
Description
技术领域
本发明属于行人轨迹预测领域,涉及行人的运动模式信息提取、行人运动意图分析,具体涉及一种使用频谱信息的行人轨迹预测方法。
背景技术
行人轨迹预测问题是指在给定行人的历史运动状态后预测行人在未来一段时间之内的可能轨迹。随着高级别自动驾驶和机器人导航技术的发展,轨迹预测算法的进一步研究也得到了重视,是重点研究方向之一。
近来汽车产业由电动化向智能化快速转型,辅助驾驶系统逐渐成为标配。行人轨迹预测算法作为关键的核心技术,在自动驾驶系统中有至关重要的作用。为了使自动驾驶车辆和机器人等在与人交互的复杂场景中安全通行,防止机器人和行人碰撞或产生交通堵塞,机器人需要判断其周边行人的历史运动数据得到未来的运动趋势、方向、速度信息,然后再规划自身的未来运动。此外,在城市公共安全的监视系统中也需要轨迹预测模块来跟踪分析行人的运动和行为,从而对潜在发生的安全和违规行为进行预警。因此,行人轨迹预测问题具有现实意义,且比较复杂,因此具有比较高的研究价值。
行人轨迹预测是一项基础研究内容,其问题的复杂性主要体现在两个方面:
1.需要提取行人历史轨迹中的运动模式信息,包括行人的运动方向、运动意图、运动习惯偏好等。行人在不同时间跨度下的运动特征分别代表了这个行人的运动模式的不同组成部分,所以同时建模行人的运动模式中的长时和短时分量是一项很有挑战性的任务。
2.行人的行动过程中会受到场景中其他行人和环境对自身运动轨迹的影响,需要对交互信息(例如和其他行人的合理运动距离、其他人对自身造成的影响会导致自身的未来轨迹出现相应的变化)进行建模;场景中的可通行区域和障碍物信息也会限制行人的未来轨迹范围,会导致行人选择一些特定的容易前进的路线;行人的合理行动轨迹是随机而且灵活的,有多种可能的未来轨迹,有多模态。因此,轨迹预测模型需要建模历史轨迹中的不同运动模式编码,也要考虑与场景交互对行人的未来运动状态进行建模编码,才能充分编码历史信息,最终解码得到未来轨迹。
目前,现有的行人轨迹预测方法的流程一般可以分为以下的三个阶段:
1.根据行人的历史运动信息对行人运动状态信息编码。
2.对第一阶段编码的行人运动状态进行交互建模。对行人周围的场景信息进行编码。
3.根据第一、第二阶段的编码结果进行解码,预测未来轨迹。
近几年有许多基于深度学习的方法被提出,来改进上述流程。其中与本发明相关的技术主要为:(1)Social-STGCNN模型;(2)V^2net模型。两个模型可以分别参考如下文献1和2。
(1)Social-STGCNN模型,通过构建时空图网络,对行人运动的特性与交互进行建模。
该模型的创新之处在于,并未使用常见的长短期记忆神经网络(LSTM),而是别具一格地运用卷积神经网络(CNN)来获取时间维度的特征。这种设计无需迭代,因而具有更高的运行效率。同时本方法利用图卷积神经网络实现行人交互建模,然后利用时空图对轨迹进行编码,最后利用外推卷积神经网络进行解码得到未来轨迹。
现有方法缺点与不足:把历史轨迹简单的编码为时间序列然后用CNN来提取历史的运动模式。本方法使用CNN来提取时间序列特征,CNN受到其感受野大小的影响只能捕捉到局部的时间序列信息,而不能提取长程的依赖关系。此外CNN缺乏对输入数据的空间不变性的识别能力,不利于建模时间序列。行人历史轨迹的运动模式在不同时间尺度的运动中都有体现,可以有效的用频谱中的频率分量表示。
(2)V^2net模型,是一种全新双阶段模型,通过利用历史轨迹的频域表示进行建模和预测。
该模型的创新之处在于,并未把历史轨迹作为时间序列输入模型,而是使用离散傅里叶变换(Discrete Fourier Transform)来获得了时间序列的频谱特征。这种方法可以提取出轨迹的频谱,频谱中的不同频段可以表现出行人的粗糙运动趋势和精细运动变化,是一种新的建模思路。同时本方法利用Transformer对历史轨迹的频谱进行编码,在第一阶段得到粗糙的频谱。最后在第二阶段对频谱进行插值,利用transformer解码得到精细的最终轨迹。
现有方法缺点与不足:本方法虽然提出了使用傅里叶变换来提取轨迹的频域表示,但是没有利用频域信息的特征,建模不同频率分量之间的相互作用。V^2net模型利用了Transformer编码器和解码器模块编码DFT的输出频谱来获得行人的历史信息的编码和解码输出未来轨迹,带来了大量不必要的计算开销,同时双阶段的网络模型所需的计算量更大,时间更长。没有显式的考虑环境或者附近行人对行人未来轨迹的影响。对于频域特征应当用滤波器提取和结合多种频率分量之间的交互。
参考文献:
[1]Mohamed A,Qian K,Elhoseiny M,et al.Social-STGCNN:ASocial Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2020:14424-14432.
[2]Wong,Conghao,et al."View vertically:Ahierarchical network fortrajectory prediction via fourier spectrums."European Conference on ComputerVision.Cham:Springer Nature Switzerland,2022.
发明内容
针对现有对行人轨迹的建模方法不能直接的建模出行人历史运动中的运动模式,不能充分提取行人历史轨迹中的信息的问题,本发明提出了一种使用频谱信息的行人轨迹预测方法,通过多频率结合编码器(Multi-Frequency Combination encoder,MFC)和频率交互编码器(Frequency Interaction encoder,FI)两个阶段的历史轨迹建模和环境交互信息建模,使行人的历史信息建模更合理,利用更充分,达到提升轨迹预测精度的效果,具有更高运行效率的优势,对行人历史轨迹建模分析提供另一个全新思路。
所述使用频谱信息的行人轨迹预测方法,包括以下步骤:
步骤一,获取行人的历史轨迹视频,得到场景中每个行人的历史轨迹信息;
在行人的历史轨迹视频中,通过目标跟踪算法得到二维的行人位置坐标,进而得到场景中每个行人在Th时间跨度内的历史轨迹信息
行人i每个时刻的历史轨迹信息包括行人的位置速度/>加速度/>
步骤二,对行人的历史轨迹信息进行预处理,然后对行人的历史轨迹信息建模,得到行人历史运动模式特征的编码结果以及交互和历史信息编码结果。
对行人的历史轨迹信息进行预处理的过程为:
首先,以行人的当前观察时刻的最后一帧的坐标为原点,进行整条轨迹的平移。
然后,对平移后的轨迹以原点为中心进行步长为15度的随机旋转的数据增强,并对数据增强后的轨迹求一阶导数和二阶导数,得到行人的速度和加速度信息。
最后,将行人的轨迹及其速度和加速度拼接在一起的数据作为建模的输入数据。
对预处理后的行人历史轨迹信息进行建模,包括多频率结合编码阶段和频率交互编码阶段,具体为:
(1)多频率结合编码阶段,具体步骤为:
①使用离散余弦变换DCT提取行人i的历史轨迹信息的频谱表示,包括位置、速度和加速度;
DCT提取到的历史轨迹信息(包括位置、速度或加速度)的频谱表示为:
变换后Si的频率分量表示为:
ωk=k×fh/Th
其中,fh是输入历史轨迹的采样频率,ω是每个变换后的频率分量,k表示位置、速度或加速度。
②使用多个不同的频率结合滤波器得到不同频率分量组合的历史轨迹编码结果;
每个频率结合滤波器Filtm使用空洞卷积模块提取并结合不同频率分量中的信息,进行编码,得到历史轨迹编码结果。
对频率分量k的空洞卷积结果为:
对空洞卷积结果进行编码得到的历史轨迹编码结果为:
Filtm(Si)=dilate_cnvm(Si,fm)
其中,空洞卷积模块的卷积核fm的大小为dm,卷积的步长为sm;
③将各频率结合滤波器的输出拼接,得到行人i的历史运动模式特征。
行人i的历史运动模式特征信息:
其中,M表示所有频率结合滤波器的数量,M=s×d,s为卷积步长的种类数,d为卷积核大小的种类数。
同理可得,场景中某个行人n的历史运动模式特征信息Fnc。
(2)频率交互编码阶段,具体步骤为:
①针对场景中的某个行人i,选出其中会对该行人的未来轨迹产生交互的邻居行人。
②把邻居行人的历史运动模式特征信息根据相同频率结合滤波器的输出进行分组,并在组内求和,得到当前场景中行人i的邻居信息。
当前场景中行人i的邻居信息为:
为邻居行人的集合,Fnm表示频率结合滤波器m输出的行人n的历史运动模式特征信息;
③拼接当前行人和邻居行人的特征信息,然后使用三个MLP分别依次带权重聚合同一滤波器的输出特征、多个滤波器的特征、多个输出频段的特征,得到最终融合交互和历史信息的编码结果。
交互和历史信息的编码结果为:
其中,concat()表示拼接函数,SI()表示编码(聚合)邻居行人间同一滤波器的输出特征,Filt_Agg()表示聚合不同滤波器的特征结果,Frep_Agg()表示聚合多个输出频段的特征结果。
步骤三,CVAE模型通过交互和历史信息的编码结果Fe得到潜变量高斯分布对应的均值和方差,进一步得到潜变量Zp的先验分布pθ(Zp|Fe),并在模型推理时对高斯分布采样得到潜变量Zp;
步骤四,GRU编码模块基于行人的真实运动轨迹,得到行人未来轨迹信息的编码结果;
行人未来轨迹信息的编码结果为:
是行人i在t-1时刻的运动信息。
步骤五,CVAE模型对未来轨迹信息编码结果进行高斯采样,进一步得到潜变量Zq的识别分布qψ(Zq|Fe,FY),并在模型训练时对高斯分布采样得到潜变量Zq。
步骤六,将行人的历史和交互信息编码结果作为输入,和CVAE模型的潜变量进行拼接,并使用GRU作为解码器对行人未来轨迹进行解码,得到行人的预测运动轨迹。
步骤601,使用行人的历史和交互信息编码结果作为输入,和CVAE的高维潜变量进行拼接,得到GRU的初始隐状态:
其中,潜变量Z在模型训练时取值为Zq,模型推理时取值为Zp;
步骤602,通过GRU解码模块迭代得到下一时刻的位置。
下一时刻的运动信息为:
下一时刻的位置为:
其中,fmlp0,fmlp1,fmlp2都是多层感知机,Wmlp0,Wmlp1,Wmlp2是多层感知机的参数,是输入GRU网络的初始向量,/>是行人在时刻t的运动信息。
步骤603,以此类推,通过GRU解码模块迭代,得到行人未来的预测运动轨迹为:
步骤七,结合CVAE模型的分布差异损失函数和GRU模型的轨迹损失函数,通过Adam优化器共同更新网络参数,并返回步骤二进行迭代,当损失函数值和ADE均保持不变时,即为最终的行人的预测运动轨迹。
网络参数包括GRU网络、空洞卷积网络和多层感知机的参数。
利用KL散度衡量潜变量Z的先验分布与识别分布的差异,得到分布差异损失函数为:
LossKLD=KLD(qψ(Zq|Fe,FY),pθ(Zp|Fe))
行人未来的预测运动轨迹和真实运动轨迹之间差异的损失函数即为轨迹损失函数:
其中为预测运动轨迹中行人在τ时刻的位置,/>为行人轨迹在τ时刻的真实位置。
结合分布差异损失函数和轨迹损失函数的损失函数为:
Loss=LossKLD+Lossrecon。
本发明的优点与积极效果在于:
(1)本发明提出一种全新的行人历史轨迹数据建模方法,即使用离散余弦变换(Discrete Cosine Transform)来提取历史轨迹的频谱。
(2)本发明提出了一种融合多种频带信息的运动模式信息学习方法。行人在规划未来的运动时,长期和短期的运动偏好是相互关联且同时考虑的,这两部分在频域中表现为低频和高频特征。因此本发明使用了多个自适应的频率结合滤波器(空洞卷积模块,Dilated Convolution Neural Network)得到了频谱中不同频率特征的组合结果,和行人历史轨迹的频率组合编码结果。
(3)本发明提出了一种全新的行人与其周边环境的交互建模方法,传统方法都是基于时间或者空间特征来建模这种相互作用,但是在时间和空间特征之外行人的运动模式也受到了环境中相邻行人的运动模式影响。因此本发明提出了频率交互编码器,通过对环境中不同行人的频率组合编码的相互影响建模来提升轨迹预测模型的表现。
(4)将本发明的方法与现有方法在公开数据集上进行对比,发现采用本发明方法进行行人轨迹预测时可以获取更优的结果,更准确的预测行人轨迹,而且本方法的运行效率更高。
附图说明
图1为本发明提供的使用频谱信息的行人轨迹预测方法的流程图;
图2为本发明中对行人历史轨迹信息使用多频率结合编码器和频率交互编码器进行建模的流程图。
具体实施方式
下面结合附图和实施例来说明本发明技术方案的实现,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
针对目前行人轨迹预测的历史轨迹建模通常是使用时间序列模型来提取特征,存在效率低下、交互建模和对历史运动信息挖掘不充分的问题,本发明提出可以通过建模行人的运动模式来建模行人的历史运动特征。通过深度学习的技术手段提出一种基于频谱特征的行人轨迹预测方法,采用一种基于频谱特征的行人运动特征提取方法,分别是多频率结合和频率交互两个步骤;把时序数据转换成频域数据之后,利用多个空洞卷积网络在每个不同的频率结合提取特征,同时为了考虑到和场景中相邻行人的交互,构建了一个额外的频率交互编码器,在历史信息里添加了交互带来的影响。
如图1所示,本发明实施例实现的行人轨迹预测方法,首先获取包含行人历史轨迹的场景视频,从历史轨迹视频中按照0.4秒时间间隔提取8帧图像,并转化像素坐标为二维的行人位置坐标,本发明实施例中是利用开源的多目标跟踪算法(如SORT)获取行人位置,并在场景建立坐标系获得行人具体坐标;然后对历史信息通过多频率结合编码器和频率交互编码器进行编码。使用GRU对未来轨迹信息进行编码,在训练的时候使用未来轨迹编码结果通过多层感知机MLP得到条件变分自编码器CVAE的隐变量分布参数;测试的时候通过历史轨迹的编码结果通过MLP得到分布参数;通过对分布参数进行随机采样得到隐变量的值,和历史轨迹信息结合,并通过GRU解码,得到行人的未来轨迹。
本发明实施例的行人轨迹预测方法主要包括如下步骤:
步骤1,获取行人的历史轨迹视频,得到每个行人的历史轨迹信息;
在行人的历史轨迹视频中,通过目标跟踪算法得到二维的行人位置坐标,进而得到场景中每个行人在Th时间跨度内的历史轨迹信息
行人i每个时刻的历史轨迹信息包括行人的位置速度/>加速度/>信息。
步骤2,对行人的历史轨迹信息进行预处理,然后建模,建模包括多频率结合编码阶段和频率交互编码阶段,针对待预测行人得到融合交互环境和历史信息编码结果;
首先,对行人的历史轨迹信息通过以下的数据预处理步骤,增强模型在不同数据上的迁移能力:以行人的当前观察时刻的最后一帧的坐标为原点,进行整条轨迹的平移。然后对平移后的轨迹以原点为中心进行步长为15度的随机旋转的数据增强。然后对数据增强后的轨迹求一阶导数和二阶导数,得到行人的速度和加速度信息。最后将行人轨迹及其速度和加速度拼接在一起之后的数据作为模型的输入数据。
然后,对预处理后的历史轨迹信息进行建模:包括多频率结合编码阶段和频率交互编码阶段。其中,多频率结合编码阶段先把历史轨迹通过离散余弦变换(DiscreteCosine Transform,DCT)得到历史轨迹的频谱表示,然后通过多个自适应的频率结合滤波器得到历史轨迹的编码结果。频率交互编码阶段通过频率交互编码器结合多个邻居行人的编码结果来建模场景中行人之间的相互影响。如图2所示,具体为:
(1)多频率结合编码阶段:
1.使用离散余弦变换提取某个行人i的历史轨迹信息的频谱表示,包括x和y两个方向的位置、速度和加速度;
DCT提取到的历史轨迹信息(包括位置、速度或加速度)的频谱表示为:
变换后Si的频率分量表示为:
ωk=k×fh/Th
其中,fh是输入历史轨迹的采样频率;ω是每个变换后的频率分量。每个频率分量代表着在不同时间跨度下的一部分运动特征。k表示x和y两个方向的位置、速度或加速度的频率分量。
2.使用多个不同的频率结合滤波器得到不同频率分量组合的历史轨迹编码结果。
行人的运动模式涉及多个时间尺度上的运动特征,这些运动特征又相互关联。为了全面探索不同频率分量组合出来的多种运动模式,本发明使用多个空洞卷积模块提取并结合不同频率分量中的信息,进行编码,得到历史轨迹编码结果。空洞卷积模块的卷积核fm的大小为dm,卷积的步长为sm;
对频率分量k的空洞卷积结果为:
对空洞卷积结果进行编码得到的历史轨迹编码结果为:
Filtm(Si)=dilate_convm(Si,fm)
其中,w是卷积函数里的下标。
本发明的频率结合滤波器使用了s个不同的卷积步长和d个不同的卷积核大小,一共有M=s×d个不同的频率结合滤波器用来提取不同的频率特征组合。
3.将各频率结合滤波器的输出拼接,作为行人的历史运动模式特征;
把上述多个频率结合滤波器的输出结果拼接起来,得到场景中行人i的历史运动模式特征信息:
重复步骤1-3,对场景中的某个行人n的历史轨迹也按照上述方式得到其历史运动模式特征信息Fnc。
(2)频率交互编码
在提取完每个行人的历史运动模式特征之后,场景中多个行人之间的交互也会影响到未来的行人轨迹和前进方向。本发明设计了一个频率交互编码,对邻居之间运动模式特征的相互影响进行建模。这部分的输入是场景中所有行人多频率结合编码的输出结果。
1.根据场景中的行人与待预测行人的距离阈值,选出会对待预测行人的未来轨迹产生影响的一部分行人作为邻居行人。
其中,距离阈值是根据实际情况选择的固定值。
2.将邻居行人的历史运动模式特征信息根据相同频率结合滤波器的输出进行分组,之后在组内求和,得到当前待预测行人的场景中邻居行人的历史信息:
为邻居行人的集合,Fnm表示频率结合滤波器m输出的行人n的历史运动模式特征信息。
3.拼接待预测行人及其邻居行人的历史运动模式特征信息(concatenate,concat),然后使用三个MLP分别带权重聚合同一频率结合滤波器的输出特征(SpectrumInteraction,SI),多个频率结合滤波器的特征(Filter Aggregation,Filt_Agg),以及多个输出频段的特征(Frequency Aggregation,Freq_Agg),得到最终融合了交互和历史信息的编码结果Fe:
其中,concat()表示拼接函数,SI()表示编码(聚合)邻居行人间同一滤波器的输出特征,Filt_Agg()表示聚合不同滤波器的特征结果,Freq_Agg()表示聚合多个输出频段的特征结果。
步骤3,CVAE模型通过交互和历史信息的编码结果Fe得到潜变量高斯分布对应的均值和方差,进一步得到潜变量Zp的先验分布pθ(Zp|Fe),并在模型推理时对高斯分布采样得到潜变量Zp;
步骤4,GRU编码模块基于行人的真实运动轨迹,得到行人未来轨迹信息的编码结果;行人未来轨迹信息的编码结果为:
是行人i在t-1时刻的运动信息。
步骤5,CVAE模型对未来轨迹信息编码结果进行高斯采样,进一步得到潜变量Zq的识别分布qψ(Zq|Fe,FY),并在模型训练时对高斯分布采样得到潜变量Zq。
步骤6,将行人的历史和交互信息编码结果作为输入,和CVAE模型的潜变量进行拼接,并使用GRU作为解码器对行人未来轨迹进行解码,得到行人的预测运动轨迹。
步骤601,使用行人的历史和交互信息编码结果作为输入,和CVAE的高维潜变量进行拼接,得到GRU的初始隐状态:
其中,潜变量Z在模型训练时取值为Zq,模型推理时取值为Zp;
步骤602,通过GRU解码模块迭代得到下一时刻的位置。
下一时刻的运动信息为:
下一时刻的位置为:
其中,fmlp0,fmlp1,fmlp2都是多层感知机,Wmlp0,Wmlp1,Wmlp2是多层感知机的参数,是输入GRU网络的初始向量,/>是行人在时刻t的运动信息。
步骤603,以此类推,通过GRU解码模块迭代,得到行人未来的预测运动轨迹为:
步骤七,结合CVAE模型的分布差异损失函数和GRU模型的轨迹损失函数,通过Adam优化器共同更新网络参数,并返回步骤二进行迭代,当损失函数值和ADE均保持不变时,即为最终的行人的预测运动轨迹。
网络参数包括GRU网络、空洞卷积网络和多层感知机的参数。
利用KL散度衡量潜变量的先验分布与识别分布的差异,得到分布差异损失函数为:
LossKLD=KLD(qψ(Zq|Fe,FY),pθ(Zp|Fe))
行人未来的预测运动轨迹和真实运动轨迹之间差异的损失函数即为轨迹损失函数:
其中为预测的行人运动轨迹在τ时刻的位置,/>为行人轨迹在τ时刻的真实位置。
结合分布差异损失函数和轨迹损失函数的损失函数为:
Loss=LossKLD+Lossrecin
模型训练中本发明将批处理量(batch size)设为32,模型训练100轮,学习率为0.001,来训练所涉及到的GRU网络、空洞卷积网络和多层感知机的参数。利用训练好的轨迹预测系统,来对当前场景中的行人轨迹进行预测。
本发明中的多层感知机可以进行数据维度的变化,将数据映射到一个高维度数据学习复杂的信息,或者映射到一个低维度数据以压缩数据减少计算压力,然后再映射回自己需要的数据维度,本发明的多层感知机主要起到维度变化的作用。
实施例
本发明实施例的实验平台参数如下:
CPU:Intel(R)Xeon(R)Silver 4210CPU@2.20GHz
GPU:NVIDIAGeForce RTX 3090
操作系统:Ubuntu 20.04.3LTS
代码运行环境:Python 3.11.3、Pytorch 2.0.1、cuda11.7、cudnn8.5.0
在上述实验平台上运行本发明的使用频谱信息的行人轨迹预测方法。
将本发明方法在公开数据集上与现有方法进行实验对比,结果显示本发明的结果优于现有方法,评价指标为ADE/FDE,ADE为未来12帧(3秒)每个采样点的预测位置与真实位置的距离差的平均值,FDE为预测终点位置与真实终点位置的距离差。ADE和FDE值越小,效果越好。对比数据如表1所示。
表1本发明方法与现有方法在公开数据集的结果对比
现有技术包括:利用基于记忆机制进行轨迹预测的方法——MemoNet,基于CVAE的轨迹预测方法——Trajectron++,基于图神经网络的方法——GroupNet。如表1所示,将本发明方法与MemoNet、Trajectron++、GroupNet三种方法分别在公开数据集ETH、HOTEL、UNIV、ZARA1、ZARA2和AVG上进行对比,加粗数据表示所有方法在ADE或FDE上在对应数据集上的最优。通过表1的综合对比可知,采用本发明方法进行轨迹预测,比起现有方法,能更加准确进行行人轨迹预测。
Claims (5)
1.一种使用频谱信息的行人轨迹预测方法,其特征在于,包括以下步骤:
步骤一,获取行人的历史轨迹视频,得到场景中每个行人的历史轨迹信息;
在行人的历史轨迹视频中,通过目标跟踪算法得到二维的行人位置坐标,进而得到场景中每个行人在Th时间跨度内的历史轨迹信息
行人i每个时刻的历史轨迹信息包括行人的位置速度/>加速度/>
步骤二,对行人的历史轨迹信息进行预处理,然后对行人的历史轨迹信息建模,得到行人历史运动模式特征的编码结果以及交互和历史信息编码结果;
对预处理后的行人历史轨迹信息进行建模,包括多频率结合编码阶段和频率交互编码阶段,具体为:
(1)多频率结合编码阶段,具体步骤为:
①使用离散余弦变换DCT提取行人i的历史轨迹信息的频谱表示,包括位置、速度和加速度;
DCT提取到的历史轨迹信息的频谱表示为:
变换后Si的频率分量表示为:
ωk=k×fh/Th
其中,fh是输入历史轨迹的采样频率,ω是每个变换后的频率分量,k表示位置、速度或加速度;
②使用多个不同的频率结合滤波器得到不同频率分量组合的历史轨迹编码结果;
每个频率结合滤波器Filtm使用空洞卷积模块提取并结合不同频率分量中的信息,进行编码,得到历史轨迹编码结果;
对频率分量k的空洞卷积结果为:
对空洞卷积结果进行编码得到的历史轨迹编码结果为:
Filtm(Si)=dilate_convm(Si,fm)
其中,空洞卷积模块的卷积核fm的大小为dm,卷积的步长为sm;
③将各频率结合滤波器的输出拼接,得到行人i的历史运动模式特征;
行人i的历史运动模式特征信息:
其中,M表示所有频率结合滤波器的数量,M=s×d,s为卷积步长的种类数,d为卷积核大小的种类数;
同理可得,场景中某个行人n的历史运动模式特征信息Fnc;
(2)频率交互编码阶段,具体步骤为:
①针对场景中的某个行人i,选出其中会对该行人的未来轨迹产生交互的邻居行人;
②把邻居行人的历史运动模式特征信息根据相同频率结合滤波器的输出进行分组,并在组内求和,得到当前场景中行人i的邻居信息;
当前场景中行人i的邻居信息为:
为邻居行人的集合,Fnm表示频率结合滤波器m输出的行人n的历史运动模式特征信息;
③拼接当前行人和邻居行人的特征信息,然后使用三个MLP分别依次带权重聚合同一滤波器的输出特征、多个滤波器的特征、多个输出频段的特征,得到最终融合交互和历史信息的编码结果;
交互和历史信息的编码结果为:
其中,concat()表示拼接函数,SI()表示聚合邻居行人间同一滤波器的输出特征,Filt_Agg()表示聚合不同滤波器的特征结果,Frep_Agg()表示聚合多个输出频段的特征结果;
步骤三,CVAE模型通过交互和历史信息的编码结果Fe得到潜变量高斯分布对应的均值和方差,进一步得到潜变量Zp的先验分布pθ(Zp|Fe),并在模型推理时对高斯分布采样得到潜变量Zp;
步骤四,GRU编码模块基于行人的真实运动轨迹,得到行人未来轨迹信息的编码结果;
步骤五,CVAE模型对未来轨迹信息的编码结果FY进行高斯采样,进一步得到潜变量Zq的识别分布qψ(Zq|Fe,FY),并在模型训练时对高斯分布采样得到潜变量Zq;
步骤六,将行人的历史和交互信息编码结果作为输入,和CVAE模型的潜变量进行拼接,并使用GRU作为解码器对行人未来轨迹进行解码,得到行人的预测运动轨迹;
步骤七,结合CVAE模型的分布差异损失函数和GRU模型的轨迹损失函数,通过Adam优化器共同更新网络参数,并返回步骤二进行迭代,当损失函数值和ADE均保持不变时,即为最终的行人的预测运动轨迹;
利用KL散度衡量潜变量Z的先验分布与识别分布的差异,得到分布差异损失函数为:
LossKLD=KLD(qψ(Zq|Fe,FY),pθ(Zp|Fe))
行人未来的预测运动轨迹和真实运动轨迹之间差异的损失函数即为轨迹损失函数:
其中,为预测运动轨迹中行人在τ时刻的位置,/>为行人轨迹在τ时刻的真实位置;
结合分布差异损失函数和轨迹损失函数的损失函数为:
Loss=LossKLD+Lossrecon。
2.根据权利要求1所述的一种使用频谱信息的行人轨迹预测方法,其特征在于,步骤二中所述对行人历史轨迹信息进行预处理,具体过程为:
首先,以行人的当前观察时刻的最后一帧的坐标为原点,进行整条轨迹的平移;
然后,对平移后的轨迹以原点为中心进行步长为15度的随机旋转的数据增强,并对数据增强后的轨迹求一阶导数和二阶导数,得到行人的速度和加速度信息;
最后,将行人的轨迹及其速度和加速度拼接在一起的数据作为建模的输入数据。
3.根据权利要求1所述的一种使用频谱信息的行人轨迹预测方法,其特征在于,步骤四所述行人未来轨迹信息的编码结果为:
其中,是行人i在t-1时刻的运动信息。
4.根据权利要求1所述的一种使用频谱信息的行人轨迹预测方法,其特征在于,步骤六中所述行人的预测运动轨迹的迭代过程为:
步骤601,使用行人的历史和交互信息编码结果作为输入,和CVAE模型的潜变量进行拼接,得到GRU的初始隐状态:
其中,潜变量Z在模型训练时取值为Zq,模型推理时取值为Zp;
步骤602,通过GRU解码模块迭代得到下一时刻的位置;
下一时刻的运动信息为:
下一时刻的位置为:
其中,fmlp0,fmlp1,fmlp2都是多层感知机,Wmlp0,Wmlp1,Wmlp2是多层感知机的参数,是输入GRU网络的初始向量,/>是行人在时刻t的运动信息;
步骤603,以此类推,通过GRU解码模块迭代,得到行人未来的预测运动轨迹为:
5.根据权利要求1所述的一种使用频谱信息的行人轨迹预测方法,其特征在于,步骤七中所述的网络参数包括GRU网络、空洞卷积网络和多层感知机的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311420028.6A CN117351038A (zh) | 2023-10-30 | 2023-10-30 | 一种使用频谱信息的行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311420028.6A CN117351038A (zh) | 2023-10-30 | 2023-10-30 | 一种使用频谱信息的行人轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351038A true CN117351038A (zh) | 2024-01-05 |
Family
ID=89357344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311420028.6A Pending CN117351038A (zh) | 2023-10-30 | 2023-10-30 | 一种使用频谱信息的行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351038A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117733874A (zh) * | 2024-02-20 | 2024-03-22 | 中国科学院自动化研究所 | 机器人状态预测方法、装置、电子设备及存储介质 |
-
2023
- 2023-10-30 CN CN202311420028.6A patent/CN117351038A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117733874A (zh) * | 2024-02-20 | 2024-03-22 | 中国科学院自动化研究所 | 机器人状态预测方法、装置、电子设备及存储介质 |
CN117733874B (zh) * | 2024-02-20 | 2024-05-14 | 中国科学院自动化研究所 | 机器人状态预测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275711B (zh) | 基于轻量级卷积神经网络模型的实时图像语义分割方法 | |
Zhao et al. | Where are you heading? dynamic trajectory prediction with expert goal examples | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN113076599A (zh) | 一种基于长短时记忆网络的多模态车辆轨迹预测方法 | |
He et al. | Rail transit obstacle detection based on improved CNN | |
CN117351038A (zh) | 一种使用频谱信息的行人轨迹预测方法 | |
CN113362368B (zh) | 一种基于多层次时空图神经网络的人群轨迹预测方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN111291690A (zh) | 路线规划方法、路线规划装置、机器人及介质 | |
CN115690153A (zh) | 一种智能体轨迹预测方法及系统 | |
CN115730637A (zh) | 多模态车辆轨迹预测模型训练方法、装置及轨迹预测方法 | |
CN113689464A (zh) | 一种基于孪生网络的自适应多层响应融合的目标跟踪方法 | |
CN114140831B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
Peng et al. | Dynamic fusion network for RGBT tracking | |
CN113435356B (zh) | 一种克服观察噪声与感知不确定性的轨迹预测方法 | |
CN112215193A (zh) | 一种行人轨迹预测方法及系统 | |
CN116501820A (zh) | 车辆轨迹预测方法、装置、设备及存储介质 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
Lamm et al. | Vehicle trajectory prediction by transfer learning of semi-supervised models | |
CN113119996B (zh) | 一种轨迹预测方法、装置、电子设备及存储介质 | |
CN112200055B (zh) | 联合对抗生成网络的行人属性识别方法、系统及装置 | |
CN114792320A (zh) | 轨迹预测方法、轨迹预测装置和电子设备 | |
Wen et al. | Social transformer: A pedestrian trajectory prediction method based on social feature processing using transformer | |
CN116702836A (zh) | 交通参与者的轨迹预测方法、装置及相关设备 | |
Donghun et al. | Stochastic Video Prediction with Perceptual Loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |