CN115457081A - 一种基于图神经网络的分层融合式预测方法 - Google Patents
一种基于图神经网络的分层融合式预测方法 Download PDFInfo
- Publication number
- CN115457081A CN115457081A CN202211061521.9A CN202211061521A CN115457081A CN 115457081 A CN115457081 A CN 115457081A CN 202211061521 A CN202211061521 A CN 202211061521A CN 115457081 A CN115457081 A CN 115457081A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- neural network
- track
- nodes
- pedestrians
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 title claims abstract description 17
- 230000003993 interaction Effects 0.000 claims abstract description 61
- 238000010586 diagram Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012905 input function Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 50
- 238000009826 distribution Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229940029329 intrinsic factor Drugs 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009625 temporal interaction Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于图神经网络的分层融合式预测模型,包括:上层图神经网络:用于学习多个行人之间的空间交互;中层图神经网络:用于学习行人自身的终点意图;下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。本发明还公开了一种基于图神经网络的分层融合式预测方法。本发明充分考虑了内在因素和外在因素对行人未来轨迹的影响,用于在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,通过这种方法使得轨迹预测精度得到提高。
Description
技术领域
本发明涉及一种基于图神经网络的分层融合式预测方法,属于计算机视觉与自动驾驶中行人轨迹预测技术领域。
背景技术
人们生活中出现了越来越多的智能自主系统,这些系统感知、理解和预测人类行为的能力变得越来越重要。具体来说,预测智能体(agent)的未来位置并根据这些预测进行规划是自动驾驶车辆、服务机器人和高级监控系统(包括智能交通或者智能城市)的关键任务。理解人体运动是智能系统与人类共存和互动的一项关键技能,其涉及表征、感知和运动分析等方面。而预测在人体运动分析中起着重要的作用,随着时间的推移,模型可对涉及多个智能体的场景进行预测,并以主动的方式对这些场景信息进行整合,即增强主动感知、预测性规划、模型预测性控制或人机交互的效果。因此,近年来行人轨迹预测在多个领域中受到越来越多的关注,例如自动驾驶汽车、服务机器人、智能交通、智慧城市等领域。
在道路上驾驶时,吸引驾驶员注意力的可以是任何交通参与者。行人作为交通参与者的一个典型代表,将与主要代理(代理主要指交通中的参与者,包括行人、车辆等等;用代理这个词来泛指)交互并相互影响,例如人-人交互和人-车交互。由于行人运动模式的不确定性,在动态交互环境中预测社会可接受的轨迹一直都是一个难题。行人习惯于依赖从互动过程中获得的经验来影响其他行人可能的后续轨迹。当有人在人群中行走时,不可避免地会受到邻居或其他人的影响。据调查,70%的人倾向于在路上成群行走。在这种情况下,行人之间的相互作用是不可避免的。一方面,这种互动是由于行人的内在因素产生的,如个人习惯和偏好。另一方面,它与外部因素有关,如邻居的影响和环境约束。不同的社会行为使预测变得复杂,例如行人从不同方向合并以及如何避免碰撞。
行人运动的复杂性促使研究人员专注于基于深度学习的行人交互建模方法。Social-LSTM通过新的架构创新性地将对应于相邻轨迹序列的LSTM链接起来,并提供了一个社交池层,该层允许来自空间近端序列的LSTM共享其隐藏状态。该思想体现了在早期阶段集成周围节点的交互信息的特点。Social-LSTM假设行人轨迹遵循双变量高斯分布,预测的轨迹不是一个确定的值,而是以高斯分布随机产生多个样本,以此来模拟行人轨迹的不确定性。该工作将行人轨迹预测看成是时序问题,并且使用神经网络进行模型训练的开山之作。另一种用于行人轨迹预测的经典模型是生成对抗网络(GAN)。Social-GAN首先引入了对抗策略,以生成社会可接受的轨迹,并提出了多样性损失,以探究未来轨迹的分布。为了理解行人之间的全局交互,在生成器和鉴别器之间设计了池化模块。池化机制关注局部邻域,以探索基于占据栅格地图的交互影响。
但是,上述方法也存在不足之处,如果不考虑外部交互对行人自身意图的影响,就无法完全理解交互。然而,当研究人员将大部分注意力集中在解决轨迹预测的交互上时,行人的意图对轨迹的影响很容易被忽略。目的地是行人意图的表征之一,可以用作网络的辅助输入,帮助分离和编码当前和过去的信息,以产生更独特的表示,从而隐式模拟行人的意图。
发明内容
本发明的目的在于解决现有技术的问题和不足,提供了一种基于图神经网络的分层融合式预测方法。充分考虑了内在因素和外在因素对行人未来轨迹的影响,采用图神经网络在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,探究轨迹分布从而寻找一条更符合真值的轨迹,通过这种方法使得轨迹预测精度得到提高。
同时,本发明提供一种基于图神经网络的分层融合式预测模型。
为解决上述技术问题,本发明采用的技术方案为:
一种基于图神经网络的分层融合式预测模型,包括:
上层图神经网络:用于学习多个行人之间的空间交互;
中层图神经网络:用于学习行人自身的终点意图;
下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。
一种基于图神经网络的分层融合式预测模型的预测方法,包括以下步骤:
S01,基于在不同场景下由固定相机采集到的视频,将其划分为若干帧图片,选取一定数量的帧图片作为一组,识别每一帧图片里的行人位置并将其从图像坐标系转化为世界坐标系;获取每一组中的行人轨迹,即每个时刻下行人的世界坐标(x,y);
S02,划分行人的历史轨迹和未来预测轨迹,对于行人i来说,其历史轨迹表示为,t obs 表示为历史轨迹的时间步长;行人i的未来预测轨迹表示为,t pred 表示为未来预测轨迹的时间步长;假设一个场景下有个行人,则该场景下所有行人的历史轨迹表示为,该场景下所有行人的未来预测轨迹表示为;
S03,上层图神经网络中,为了更加方便的学习行人之间的空间交互信息,行人轨迹用图的构造来表示;创建一组反映行人相对位置的空间图G t ,定义为;其中,,V t 是空间图G t 的顶点集合,顶点集合中的集合元素的属性是行人在每个时刻下的历史轨迹坐标点;
行人被视为空间图中的节点,顶点即为节点;
S01中,将视频划分为若干帧的方法为:以25Hz的采样频率将视频划分为若干帧;一定数量的帧图片为20帧。
其中,A Rel (i,j)=0表示相邻节点不连接,距离更远的行人不会影响行人轨迹。
S03中,上层图神经网络采用GAT模块;
GAT模块的输入是将节点按照时间t编码的特征向量集;
然后将图注意力机制GAT应用于这些节点,并使用以下公式计算一对相邻节点(i,j)之间的关联系数:
其中,代表在时间步长t处节点j附近对节点i的影响权重;是连接节点i和节点j的权重矩阵W的连接函数;,是可学习权重向量;T代表转换此可学习权重向量;LR表示一种激活函数,全称是LeakyReLU;exp是分子和分母都以e为底的指数运算;
one-hot向量是一种状态编码,将图空间中的离散节点间的特征的取值映射到欧式空间转化为[0,1],以概率的形式来体现节点间的连接关系;1表示连接状态,0表示不连接状态。
在短期轨迹预测期间,行人有一个中间目标,该目标被描述为对轨迹预测产生影响的内在因;中间目标是局部点且不稳定,行人意图受到行人之间产生的局部交互的影响;集成交互特征以捕获全局交互对行人终点意图的影响;
集成交互特征后,下一步是将聚合的隐藏状态馈送到GCN中,公式定义如下:
其中,是通过LSTM获得的中间特征向量集合,涵盖编码的隐藏信息,用于推断行人终点意图;WINT是GCN权重,用于对意图特征进行加权;AINT是行人意图终点的加权邻接矩阵;δ表示GCN函数,聚合GCN所有层的信息,以形成行人的意图特征。
下层图神经网络即轨迹预测器,利用编码-解码的方式:以更可接受的拟合度处理分层信息来完成预测任务,公式定义如下:
其中,表示预测的未来轨迹,TCN en 是编码器将轨迹信息编码为中间表示,TCN de 是解码器将中间表示转化为预测轨迹,TCN表示时间卷积网络输入函数,X是历史轨迹集合,表示将两个向量串行拼接操作;
其中,λ1、λ2、λ3是三个不同的权重系数,用于分配每一项损失函数所占比重大小,l表示所选用神经网络的层数;l=1,指的是上层神经网络,l=2指的是中层神经网络,l=3指的是下层神经网络;
最后使用测试集,结合平均位移误差ADE、终点位移误差FDE的指标衡量模型精确程度;
两个性能指标的值越小越好;
ADE、FDE公式定义如下:
短期轨迹为将一段行人轨迹视频以2.5fps频率采样,分成若干帧,选取每20帧为一组轨迹样本,用过去的8帧轨迹来预测未来的12帧轨迹。
GCN所有层包括卷积层,RuLU层,池化层和全连接层。
本发明具有以下有益效果:
本发明公开了一种基于图神经网络的分层融合式预测方法,充分考虑了内在因素和外在因素对行人未来轨迹的影响,用于在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,通过这种方法使得轨迹预测精度得到提高。具体包含三种不同的策略:上层使用图注意力机制,从行人轨迹的交互图中提取嵌入的空间节点以期获得行人之间的交互信息;中层采用图卷积网络来推断行人自身的意图,以进行更准确的预测;此外,行人之间产生的局部交互会影响行人自身的意图,因此我们融合了上层策略中的交互特征以掌握局部交互的影响;下层策略集成从其他两个策略获得的启发式信息,并将其与行人过去观测轨迹连接起来,输入到时间卷积网络进行多模态轨迹预测。结果表明该模型结构在公开的行人轨迹数据集ETH和UCY上,对比一些最新方法,有效地提高了行人轨迹预测的精度。
本发明将一个场景中所有N个行人的过去一段时间的历史轨迹作为输入来训练网络,使其输出这N个行人在下一个时间段的未来轨迹。行人轨迹预测方法使用分层式的图神经网络通过学习可能会对行人轨迹产生影响的内部(行人自身的终点意图)和外部因素(行人间的交互信息),模型最终输出多个预测轨迹。上层策略可以通过图注意力机制(GAT)模拟多个行人之间的空间交互。中层策略通过设计的图卷积网络(GCN)模块掌握人类意图。下层策略将层次结构特征与历史轨迹相结合,通过时间卷积网络(TCN)预测未来轨迹。分层设计的好处在于,它可以通过减少状态空间的大小来鼓励高效学习,从而主要关注重要的信息。其中,上层策略利用基于图注意力代替聚合层来计算行人之间的历史轨迹中隐藏向量的相似性,并输出行人间的交互特征矩阵。为了评估邻居之间的不同影响,本发明创建了一个加权邻接矩阵。基于注意力的模型可以通过为行人分配特定的适应性重要性,更好地理解基于空间交互的行人运动。中层策略设计了一个基于条件变分自动编码器(CVAE)的模块作为主干网络,以产生行人终点意图分布,并集成上层策略中的交互特征以捕获局部交互对行人自身终点意图的影响。下层策略使用由时间卷积网络构成的编码器编码行人历史轨迹信息获得特征向量,并融合来自上层策略和中层策略所计算得到的启发性的特征向量,将聚合信息输入到多层感知器中计算特征向量的均值和方差得到特征的分布。再由时间卷积网络构成的解码器对特征向量进行解码输出行人的未来轨迹坐标。
附图说明
图1是本发明方法的模型框架图;
图2是本发明方法中的图注意力机制示意图;
图3是本发明方法中的时间卷积网络示意图;
图4是本发明方法预测行人轨迹可视化结果图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
参见图1~图4,本实施例提供一种基于图神经网络的分层融合式预测方法,具体介绍如下:
结合内在因素和外在因素对行人未来轨迹的影响,采用图神经网络在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,通过这种方法使得轨迹预测精度得到提高。具体包含三种不同的策略:上层使用图注意力机制,从行人轨迹的交互图中提取嵌入的空间节点以期获得行人之间的交互信息;中层采用图卷积网络来推断行人自身的意图,以进行更准确的预测;此外,行人之间产生的局部交互会影响行人自身的意图,因此我们融合了上层策略中的交互特征以掌握局部交互的影响;下层策略集成从其他两个策略获得的启发式信息,并将其与行人过去观测轨迹连接起来,输入到时间卷积网络进行多模态轨迹预测。
一种基于图神经网络的分层融合式预测方法,包括如下步骤:
(1)基于在不同场景下由固定相机采集到的视频,以25Hz的采样频率将其划分为若干帧,选取每20帧图片作为一组,通过运用行人检测的技术手段(图像处理技术和视频校准技术)去识别每一帧里的行人位置并将其从图像坐标系转化为世界坐标系。获取每一组中的行人轨迹,即每个时刻下行人的世界坐标(x,y);记录下每一帧图像的采集时间frameid以及行人编号ped id;将上述采集到的行人信息储存在一个多维的数组中,其长度为[行人数量,4]。数组中的每一个元素有4个属性:第1列代表采集时刻frame id,第2列代表行人编号ped id,第3 列代表行人世界坐标系中的横坐标x,第4列代表行人世界坐标系中的纵坐标y。
(2)划分行人的历史轨迹和未来轨迹,对于某个行人i来说,他的历史轨迹组成可以表示为,t obs 表示为历史轨迹的时间步长;同样地,行人i的未来轨迹组成可以表示为,t pred 表示为未来预测轨迹的时间步长。假设一个场景下有个行人,则该场景下所有人的历史轨迹可以表示为,未来轨迹可以表示为。
(3)为了更加方便的去研究行人之间的交互信息,轨迹应该用图的构造来表示。我们创建了一组反映相对位置的空间图G t ,定义为。其中是空间图G t 的顶点集合,集合元素的属性就是行人在每个时刻下的历史轨迹坐标点。所代表的是空间图G t 边的集合,集合元素的取值是0或者1,关系到顶点和顶点是否相相连(1表示连接,0表示不连接),为了进一步说明相邻节点之间相互影响的程度,我们计算一个值来反映这种关系,并将其添加到加权邻接矩阵A Rel 中,方程定义如下:
在这种情况下,我们利用逆欧几里德距离来定义A Rel ,因为距离更远的行人不太可能影响轨迹。
(4)本发明所提出的分层融合式预测模型,总共分为三个层级,对应着三种不同的处理行人轨迹预测的策略。
(i)上层策略(即上层图神经网络)旨在从外部环境去学习影响行人轨迹的因素,从行人轨迹的节点表示中提取空间交互特征。将空间图的节点集合V t (包含轨迹坐标点的属性)输入到上层图神经网络,其最终输出为:
同时,模型在同一场景中输入每个行人的自我表示(直接将行人历史轨迹进行编码以获取行人过去的运动特征向量),用来编码运动特征和空间信息。通过三层MLP在特征编码的初始步骤中获得轨迹的嵌入特征向量。然后,使用LSTM收集与聚合信息相结合的运动特征。利用图注意力机制(GAT)来建模与节点聚合的交互。GAT在具有注意力机制的图结构数据上操作,允许向适合模拟不同行人交互的不同邻居节点赋予不同的注意力权重。经过上层策略的作用之后,可以获得不同行人之间的交互特征。
(ii)中层策略(即中层图神经网络)旨在从行人内部去学习影响行人轨迹的因素,使用条件变分自动编码器(CVAE)模块来捕捉人类自身的终点意图,以进行更准确的预测。CVAE遵循双变量高斯分布,对多个可能的潜在未来目标终点进行采样,并将其与历史轨迹特征向量连接,以在测试阶段产生行人终点意图推断。当处在人群环境中时,考虑到行人的终点意图会受到外部交互的影响,我们集成交互特征以捕获局部交互的影响并将聚集状态输入到两层图卷积神经网络(GCN)中用于预测行人终点意图。
(iii)下层策略(即下层图神经网络)集成从其他两个策略获得的启发式信息,并将其与时间卷积网络(TCN)编码的历史轨迹连接起来,以进行多模态轨迹预测。为了了解观测值与地面实况之间的相关性,MLP捕获聚合特征并计算两个参数:分布均值和标准偏差。然后,我们可以从正态分布中采样轨迹z,以生成多个未来潜在特征。时间预测器TCN对生成的特征进行解码以获得预测的未来轨迹。
(5)在模型训练的时候遵循多模态预测策略。行人轨迹数据集是从现实中的特定场景中获取的。对于社会可接受的预测,该模型需要学习行人不确定的运动模式,并且随着环境的变化而变化。考虑到行人运动的不确定性,我们的预测框架应该生成多样的具有合理性和符合现实的轨迹。对于每个行人,模型按照标准正态分布随机采样z生成多个预测轨迹。通过损失函数找到成本最低的预测轨迹作为模型的输出,损失函数采用欧几里得范数来最小化预测与真值之间的差距。损失函数具体公式如下:
总的损失函数由三部分确定,因此需要区分各个不同损失函数的贡献。其中,λ1、λ2、λ3是三个不同的权重系数,用于分配每一项损失函数所占比重大小。l表示所选用神经网络的层数;l=1,指的是上层神经网络,l=2指的是中层神经网络,l=3指的是下层神经网络。
使用时间反向传播算法和梯度优化方法ADAM训练预测模型,网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段。另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段。取最优预测模型并将参数结果保存;把行人历史轨迹数据输入到最优预测模型中就可以生成行人预测轨迹。
如图1所示,该方法中的三种不同策略设计思路如下:
(1)图注意力机制GAT用于对图形结构化数据进行操作,例如,行人被视为图形中的节点。每个节点的特征(时间信息和空间信息)通过注意力机制集中于相邻节点来计算。如图2所示,说明了我们的上层策略中采用的GAT模块。GAT的输入是将节点按照时间t编码的特征向量集合,它由
表示,其中N代表节点数目,行人数目与节点数目相同,F表示特征维度(即特征向量的维度,具体可以在网络中间的隐藏层设置)。所有节点的特征通过线性变换(表示输出的维度)转换为各种中间表示。然后将注意力机制应用于这些节点,并使用以下公式计算一对相邻节点(i,j)之间的关联系数:
其中,测量在时间步长t处节点j附近对节点i的影响权重,是连接节点i和j的权重矩阵的连接函数,是单层前馈神经网络(只包含一个输出层,输出层上节点的值(输出值)通过输入值乘以权重值直接得到)的可学习权重向量,T代表转换此可学习权重向量。LR表示一种激活函数,全称是LeakyReLU,exp是分子和分母都以e为底的指数运算,这样做的目的是简化计算,因为以e为底的指数运算在推导后是不变的。
考虑到在使用图神经网络时,在空间划分中提供排他集的限制是不可避免的,我们使用软分配方法来避免过度重叠。因此,我们使用交叉熵损失使每个节点的权重向量接近一个one-hot向量,从而更容易在行人轨迹连续的空间上分离行人终点意图。公式定义如下:
(2)人类是以目标为条件的主体,建模目标将持续为未来轨迹预测提供更准确、更具体的信息。我们结合过去的观测值(即历史轨迹)和查询的目标位置详细说明了我们随后的轨迹预测,以推断出各种准确的推断。受PECNet(预测条件终点网络)的启发,在培训阶段,我们训练了一个CVAE模块来模拟Ω i 的子意图。该子意图也被称为当前序列的期望局部行人目标。CVAE遵循双变量高斯分布,对多个可能的潜在未来目标进行采样,并将其与历史轨迹特征连接起来,以产生我们的意图推断,即预测的行人终点。
此外,为了增强分层框架的鲁棒性,我们提出了一种独立性损失,以保持行人意图的独立性,公式定义如下:
在短期轨迹预测期间,行人有一个中间目标,该目标被描述为对轨迹预测产生影响的内在因素。中间目标是局部点且不稳定,这意味着人的意图受到行人之间产生的局部交互的影响。因此,在设计意图特征提取部分时,我们集成交互特征以捕获全局交互对行人终点意图的影响。交互功能表示在场景中获得的全局行人交互,并使用注意机制来区分不同行人之间的影响。
集成交互特征后,下一步是将聚合的隐藏状态馈送到GCN中。GCN具有轻量级网络参数,适用于处理节点信息较少的图结构,且计算量较低。利用GCN的特征聚合机制,对每个意图节点的全局结构信息进行编码并用于细化其特征,从而提取图中每个行人的意图。每个节点形成的向量不仅表示行人的最终意图,还包含其他邻居周围的最终意图的影响。通过这种聚合机制,可以充分了解每个节点的邻域拓扑和分布特征。意图特征的分布为提取行人的意图提供了充分的支持。GCN可以聚合交互图和意图的节点,并学习人类意图表示,公式定义如下:
其中是中间状态,通过LSTM集成意图推理;即是通过LSTM获得的中间特征向量集合,涵盖编码的隐藏信息,用于推断行人终点意图。是GCN权重,用于对意图特征进行加权。AINT是行人意图终点的加权邻接矩阵。δ表示GCN函数,聚合GCN所有层的信息,以形成行人的意图特征。
(3)以前基于序列预测的方法已经提出了一些体系结构,如LSTMs、GRUs。然而,时间卷积网络是一种新型结构,其性能优于两种典型的递归网络,具有更高的精度和更直接的结构。对这一结论的解释是基于信息循环网络的记忆保留特性。从理论上讲,循环网络可以把握长期的历史。TCN本质上显示了更大的扩展内存,因此更适合于一些历史悠久的域或任务。
一旦上层策略对行人之间的交互进行建模,中层策略就会推断出中间意图。然后,下层策略即轨迹预测器,利用编码-解码的方式负责通过以更可接受的拟合度处理分层信息来完成预测任务,公式定义如下:
如图3所示,TCN可以与因果卷积一起视为2D FCN。行人的轨迹序列实际上是一系列二维坐标。2D FCN具有统一输入和输出长度的属性。
将训练集、测试集按照7:3的比例划分。在训练过程中用验证集不断验证模型训练效果,训练过程中不断迭代、更新模型参数使得损失函数值不断降低。训练轮数设置600轮,当损失函数值(公式为步骤(6)中定义的总损失函数)达到接近不变时,认为已经达到了模型的最优状态。
最后使用测试集,输入模型行人过去8帧共3.2秒的历史轨迹信息,使用GAT和GCN获取行人间的交互信息和终点意图信息,最后将它们一同串行拼接在一起输入到轨迹预测网络中进行预测未来12帧共4.8秒的行人未来轨迹,并且结合平均位移误差ADE、终点位移误差FDE的指标衡量模型精确程度。两个性能指标的值越小越好。ADE、FDE公式定义如下:
表1、几种行人轨迹预测方法与本发明方法的性能指标的对比
通过采用上层策略将其与下层策略相结合,以探索对预测评价指标的影响。上层策略利用GAT模块来模拟行人之间的交互。由于考虑了行人外部交互对自身轨迹的影响,最终预测结果将更符合社会规范,即使行人成群行走,碰撞概率也将大大降低。表1数据表明,本发明所提出的方法在5个公开的行人轨迹数据集上,两个评价指标ADE和FDE可以在大多数数据集做到最优,并且将5个数据集取平均之后两个评价指标性能都是最优的。
在图4中,展示了四个场景下行人预测轨迹的可视化结果。采用不同种类的线分别表示历史轨迹,真实轨迹和预测轨迹。在(a)组中,只有行人出现,场景中不存在交互。在(b)组中,两名行人朝同一方向行走。在(c)组中,上图显示两名行人朝相反方向行走,下图显示两组人朝相反方向步行。在(d)组中,所有行人以相互交互的方式成组合并。通过在不同场景中观察这些图形,可以大致得出结论,在本发明提出的分层融合式预测模型下,预测轨迹更符合行人的真实意图,更准确。大多数预测轨迹准确地把握行人的意图,避免与周围邻居发生碰撞。然而,由于缺乏环境信息的指导,结果在低密度场景中表现不佳,这是不可避免的。
本发明提供了一种基于图神经网络的分层融合式预测方法。充分考虑了内在因素和外在因素对行人未来轨迹的影响,采用图神经网络在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,探究每一个行人可能的未来轨迹分布从而寻找一条更符合真值的轨迹,通过这种方法使得轨迹预测精度得到提高。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种基于图神经网络的分层融合式预测模型,其特征在于,包括:
上层图神经网络:用于学习多个行人之间的空间交互;
中层图神经网络:用于学习行人自身的终点意图;
下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。
2.根据权利要求1所述的一种基于图神经网络的分层融合式预测模型的预测方法,其特征在于,包括以下步骤:
S01,基于在不同场景下由固定相机采集到的视频,将其划分为若干帧图片,选取一定数量的帧图片作为一组,识别每一帧图片里的行人位置并将其从图像坐标系转化为世界坐标系;获取每一组中的行人轨迹,即每个时刻下行人的世界坐标(x,y);
S02,划分行人的历史轨迹和未来预测轨迹,对于行人i来说,其历史轨迹表示为,t obs 表示为历史轨迹的时间步长;行人i的未来预测轨迹表示为,t pred 表示为未来预测轨迹的时间步长;假设一个场景下有个行人,则该场景下所有行人的历史轨迹表示为,该场景下所有行人的未来预测轨迹表示为;
S03,上层图神经网络中,为了更加方便的学习行人之间的空间交互信息,行人轨迹用图的构造来表示;创建一组反映行人相对位置的空间图G t ,定义为;其中,,V t 是空间图G t 的顶点集合,顶点集合中的集合元素的属性是行人在每个时刻下的历史轨迹坐标点;
行人被视为空间图中的节点,顶点即为节点;
3.根据权利要求2所述的预测方法,其特征在于,S01中,将视频划分为若干帧的方法为:以25Hz的采样频率将视频划分为若干帧;一定数量的帧图片为20帧。
5.根据权利要求2所述的预测方法,其特征在于,S03中,上层图神经网络采用GAT模块;
GAT模块的输入是将节点按照时间t编码的特征向量集;
然后将图注意力机制GAT应用于这些节点,并使用以下公式计算一对相邻节点(i,j)之间的关联系数:
其中,代表在时间步长t处节点j附近对节点i的影响权重;是连接节点i和节点j的权重矩阵W的连接函数;,是可学习权重向量;T代表转换此可学习权重向量;LR表示一种激活函数,全称是LeakyReLU;exp是分子和分母都以e为底的指数运算;
6.根据权利要求5所述的预测方法,其特征在于,one-hot向量是一种状态编码,将图空间中的离散节点间的特征的取值映射到欧式空间转化为[0,1],以概率的形式来体现节点间的连接关系;1表示连接状态,0表示不连接状态。
在短期轨迹预测期间,行人有一个中间目标,该目标被描述为对轨迹预测产生影响的内在因;中间目标是局部点且不稳定,行人意图受到行人之间产生的局部交互的影响;集成交互特征以捕获全局交互对行人终点意图的影响;
集成交互特征后,下一步是将聚合的隐藏状态馈送到GCN中,公式定义如下:
8.根据权利要求7所述的预测方法,其特征在于,下层图神经网络即轨迹预测器,利用编码-解码的方式:以更可接受的拟合度处理分层信息来完成预测任务,公式定义如下:
其中,表示预测的未来轨迹,TCN en 是编码器将轨迹信息编码为中间表示,TCN de 是解码器将中间表示转化为预测轨迹,TCN表示时间卷积网络输入函数,X是历史轨迹集合,表示将两个向量串行拼接操作;
其中,λ1、λ2、λ3是三个不同的权重系数,用于分配每一项损失函数所占比重大小,l表示所选用神经网络的层数;l=1,指的是上层神经网络,l=2指的是中层神经网络,l=3指的是下层神经网络;
最后使用测试集,结合平均位移误差ADE、终点位移误差FDE的指标衡量模型精确程度;
两个性能指标的值越小越好;
ADE、FDE公式定义如下:
9.根据权利要求7所述的预测方法,其特征在于,短期轨迹为将一段行人轨迹视频以2.5fps频率采样,分成若干帧,选取每20帧为一组轨迹样本,用过去的8帧轨迹来预测未来的12帧轨迹。
10.根据权利要求7所述的预测方法,其特征在于,GCN所有层包括卷积层,RuLU层,池化层和全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061521.9A CN115457081A (zh) | 2022-08-31 | 2022-08-31 | 一种基于图神经网络的分层融合式预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061521.9A CN115457081A (zh) | 2022-08-31 | 2022-08-31 | 一种基于图神经网络的分层融合式预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457081A true CN115457081A (zh) | 2022-12-09 |
Family
ID=84301622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211061521.9A Pending CN115457081A (zh) | 2022-08-31 | 2022-08-31 | 一种基于图神经网络的分层融合式预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457081A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117191046A (zh) * | 2023-11-03 | 2023-12-08 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
-
2022
- 2022-08-31 CN CN202211061521.9A patent/CN115457081A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117191046A (zh) * | 2023-11-03 | 2023-12-08 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
CN117191046B (zh) * | 2023-11-03 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadeghian et al. | Sophie: An attentive gan for predicting paths compliant to social and physical constraints | |
Gupta et al. | Cognitive mapping and planning for visual navigation | |
CN111400620B (zh) | 基于时空嵌入Self-Attention的用户轨迹位置预测方法 | |
Saputra et al. | Learning monocular visual odometry through geometry-aware curriculum learning | |
Saxena et al. | D-GAN: Deep generative adversarial nets for spatio-temporal prediction | |
CN114299723B (zh) | 一种交通流量预测方法 | |
CN114802296A (zh) | 一种基于动态交互图卷积的车辆轨迹预测方法 | |
CN110737968A (zh) | 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统 | |
CN114925836B (zh) | 基于动态多视图图神经网络的城市交通车流量推理方法 | |
CN114287023B (zh) | 用于交通预测的多传感器学习系统 | |
CN110281949B (zh) | 一种自动驾驶统一分层决策方法 | |
CN113792930B (zh) | 盲人行走轨迹预测方法、电子设备及存储介质 | |
CN114460943A (zh) | 服务机器人自适应目标导航方法及系统 | |
CN115510174A (zh) | 一种基于路网像素化的Wasserstein生成对抗流量数据插补方法 | |
CN114997307A (zh) | 一种轨迹预测方法、装置、设备及存储介质 | |
CN115690153A (zh) | 一种智能体轨迹预测方法及系统 | |
CN115659275A (zh) | 非结构化人机交互环境中的实时准确轨迹预测方法及系统 | |
Chen et al. | Pedestrian behavior prediction model with a convolutional LSTM encoder–decoder | |
CN115457081A (zh) | 一种基于图神经网络的分层融合式预测方法 | |
Wu et al. | Vision-language navigation: a survey and taxonomy | |
CN115544239A (zh) | 一种基于深度学习模型的布局偏好预测方法 | |
CN114580718A (zh) | 一种基于条件变分生成对抗网络的行人轨迹预测方法 | |
Bharilya et al. | Machine learning for autonomous vehicle's trajectory prediction: A comprehensive survey, challenges, and future research directions | |
Katyal et al. | Occupancy map prediction using generative and fully convolutional networks for vehicle navigation | |
Lu et al. | Monocular semantic occupancy grid mapping with convolutional variational auto-encoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |