CN114757975B - 基于transformer与图卷积网络的行人轨迹预测方法 - Google Patents
基于transformer与图卷积网络的行人轨迹预测方法 Download PDFInfo
- Publication number
- CN114757975B CN114757975B CN202210464974.XA CN202210464974A CN114757975B CN 114757975 B CN114757975 B CN 114757975B CN 202210464974 A CN202210464974 A CN 202210464974A CN 114757975 B CN114757975 B CN 114757975B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- sub
- decoder
- coordinate
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 48
- 230000007246 mechanism Effects 0.000 claims description 44
- 238000010606 normalization Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于transformer与图卷积网络的行人轨迹预测方法,提取出若干个时间戳内所有包含坐标的行人轨迹数据;对每一个样本的每个时间戳做一个行人关系图;把总样本集分为测试集,训练集与验证集;再用行人关系图对时序数据进行图卷积学习,让轨迹数据附有行人关系;transformer用时序数据提取出每个时间戳的时序特征向量,利用每个时间戳的时序特征向量来生成遵循双变量高斯分布的具体轨迹分布;用损失函数对预测轨迹与真实未来轨迹作对比,得出损失值,再用损失值对预测模型优化,取出最优预测模型,把测试集输入到最优预测模型,得出预测轨迹数据。本发明可准确预测出未来行人的轨迹。
Description
技术领域
本发明涉及时序数据预测的技术领域,尤其是指一种基于transformer与图卷积网络的行人轨迹预测方法。
背景技术
目前基于深度学习的行人轨迹预测的研究有很多,Social-LSTM是最早专注于行人轨迹预测的深度模型之一。Social-LSTM使用一个RNN网络来模拟每个行人的运动轨迹特征,然后使用池化机制来聚合RNN的输出,也就是把行人周围的物体轨迹特征聚合在一起,以此为辅助信息,并且与需预测行人的轨迹特征相结合,从而预测之后的轨迹。Social-LSTM假设行人轨迹遵循双变量高斯分布,预测的轨迹不是一个确定的值,而是一个高斯分布,以此来模拟行人轨迹的不确定性。该工作是同时行人关系和时序关,并且使用神经网络进行模型训练的开山之作。但Social-LSTM在考虑行人关系时只考虑了距离较近的行人,不考虑距离较远的行人,这其实不符合真实情况,并且Social-LSTM使用lstm提取时序特征,效率和效果都太查了。后来的工作,如窥视未来轨迹(PIF)和轨迹状态细化(SR-LSTM),通过视觉特征和新的池化机制扩展了Social-LSTM,以提高预测精度,但他们仍然使用了lstm这种低级的时序提取方法。基于行人轨迹遵循多模态分布的假设,Social-GAN将Social-LSTM扩展为基于递归神经网络(RNN)的生成模型,利用对抗生成网络来生成更具有鲁棒性的轨迹,Social-GAN使用了GAN作为生成模型基底,但这种方法需要生成器和判别器的完美协调,所以结果是比不上端到端的神经网络模型。Sophie使用中枢神经网络从整个场景中提取特征,然后对每个行人使用双向注意机制。随后,Sophie将注意力输出与视觉CNN输出连接起来,然后使用一个基于长短期记忆(LSTM)自动编码器的生成模型来生成未来的轨迹,该方法考虑到了场景图和视觉图的重要性,但这也只是考虑到了辅助信息,其提取行人关系和时序特征的方法并没有改变。我注意到,以前的大多数工作都围绕着两个问题来建立深度学习网络,一是如何对行人的时序特征进行提取,常见的方法使用RNN网络来模拟每个行人运动,常见的RNN网络有LSTM、GRU等,也有的学者提出RNN的参数利用效率与时间效率很低,TCN这种方法又不时被人使用。二是如何提取行人之间的互动关系,很多基于Social-LSTM方法使用池化机制组合循环网络来提取行人之间的关系,也有工作使用图卷积网络方法来表示行人关系。最近的研究表明,Social-BiGAT依赖于图形注意网络来模拟行人之间的社会互动,LSTM的输出被输入到Social-BiGAT中的图中。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于transformer与图卷积网络的行人轨迹预测方法,使用在自然语言处理中取得出色表现的transformer来提取行人轨迹的时序信息,使用图卷积网络提取行人间的关系,从而预测未来行人的轨迹。
为实现上述目的,本发明所提供的技术方案为:基于transformer与图卷积网络的行人轨迹预测方法,包括以下步骤:
1)提取出若干个时间戳内所有的行人轨迹数据,包含x、y坐标的行人信息;前Tobs个时间戳为历史轨迹数据Tobs为历史轨迹时间戳长度,/>R表示是属于实数域,n为行人个数,axis表示坐标维度,/>简称为V;后Tpred个时间戳为未来轨迹数据/>Tpred为预测轨迹时间戳长度,/>对每一个样本的每个时间戳做一个行人关系图G;V、/>G的集合为一个样本;以若干个样本为一个批进行并行处理;把总样本集分为训练集、验证集和测试集;将预测模型f()形式化为:
式中,是预测轨迹数据,φ是预测模型f()中可学习的参数;
2)先用全连接网络对V进行坐标编码,提取V的坐标特征表示Vemb,编码空间维度大小为dmodel;再用行人关系图G对Vemb进行图卷积学习,提取附有行人关系信息的行人坐标编码Vg;
3)采用transformer的编码器将附有行人关系信息的行人坐标编码Vg提取出每个时间戳的时序特征向量,用transformer的解码器以每个时间戳的时序特征向量为输入来生成具体行人轨迹分布,该行人轨迹分布遵循双变量高斯分布;
4)采用损失函数把预测轨迹数据与未来轨迹数据作对比生成损失值,再用反向传播损失值优化预测模型;在优化预测模型时,用训练集对预测模型进行训练,用验证集挑选最优预测模型,把测试集输入到最优预测模型,得出预测轨迹数据。
进一步,在步骤1)中,表示在第i秒内第j个行人的坐标,每个样本至少有两条行人轨迹;
把每个样本分为历史轨迹数据V与未来轨迹数据
式中,G为行人关系图,和/>为在一个样本中第i个行人在第t个时间戳的合速度向量、横坐标分量速度向量和纵坐标分量速度向量;/>表示第t个时间戳中,第i个行人与第j个行人的相互关系;
一个批次中包含若干个样本,便于预测模型的并行运行,再把若干个批次分为训练集、验证集与测试集,分别用来训练预测模型、取最优预测模型、测试预测模型。
进一步,在步骤2)中,把V中的x、y坐标信息进行编码与图卷积操作;
2.1)首先用nemb_axis层全连接层对x、y坐标做编码操作,公式如下:
式中,表示在全连接层第i层,第t个时间戳的行人集坐标编码;/>表示在全连接层第i-1层,第t个时间戳的行人集坐标编码;/>表示在第i层的全连接层可学习矩阵参数,*表示矩阵乘法;第一层全连接层把x、y坐标维度axis维扩展为dmodel维,当i=2,3,...,naxis_emb时,第i层全连接层的输入坐标编码维度和输出坐标编码维度都维持dmodel维;
2.2)采用图卷积神经网络利用行人关系图,把行人集坐标编码进行空间卷积运算;邻接性的归一化是图卷积正常工作的必要条件,先对每一个时间戳的行人关系图进行标准化处理,行人关系图G={G1,G2,...,Gt,...,GTobs},Gt表示第t个时间戳的行人关系图,公式如下:
式中,Gt'为第t个时间戳的标准化行人关系图,I为单位矩阵,Dt为对角节点度矩阵;
用ngcn层图卷积层赋予轨迹信息以行人关系信息,公式如下:
式中,表示在图卷积层第i层的行人集坐标编码,/>示在图卷积层第i层、第t个时刻的行人集坐标编码,Fgcn表示图卷积操作,表示表示在第i层的图卷积层可学习矩阵参数;*表示矩阵乘法;tanh为图卷积层的激活函数;最后一层图卷积完成的输出为附有行人关系信息的行人坐标编码Vg,/>
进一步,在步骤3)中,把transformer作为预测模型基底,进行轨迹预测:
用transformer以图卷积的输出为输入,考虑历史轨迹数据V对预测第i个时间戳的行人位置分布的影响;
a、位置编码,公式如下:
Vgt=Vg+τ
式中,为第t个时间戳,第n个行人的第k个特征值,τ为行人位置编码;把行人位置编码与Vg相加得到附有行人位置编码的Vgt;
b、编码器:
编码器以经过位置编码处理的Vgt为输入,经过注意力机制,提取特征Af3;Transformer的编码器有6层子编码器,每一层的子编码器结构相同,当u等于1时,下面的子编码器代表第u个子编码器;当u=2,3,…,6重复以上操作;
b1、子编码器的第一部分是多头注意力机制,公式如下:
A=Fcat(Ai)*Wa
式中,qi、ki、vi表示子编码器第i个头的查询、键、值;*为矩阵运算,qi、ki、为子编码器的第i头注意力把Vgt生成qi、ki、vi的可学习矩阵参数;Ai表示子编码器第i个头注意力机制的注意力,/>Fcat函数的作用是把多个头的注意力拼接起来,Wa为把拼接起来的Ai变化成A的可学习矩阵参数;A为附有注意力机制的行人位置编码,/>
用残差网络和标准化函数对行人特征表示进行处理,公式如下:
Af1=Fnorm(Vgt+Fdrop(A))
式中,Af1为经过残差网络和标准化函数处理的注意力,Fnorm()为标准化函数;
b2、子编码器的第二部分是前向反馈网络,公式如下:
式中,Af2为经过前向反馈网络的子编码器注意力,Fdrop为随机参数不更新函数;tanh为激活函数,/>为第一、二层全连接层可学习矩阵参数;再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:Af3=Fnorm(Af1+Fdrop(Af2)),Af3为经过残差网络和标准化函数处理的注意力;
以上的步骤为一个子编码器的过程,而transformer的编码器部分为6个这样的子编码器串行拼接;当u=1,2,...,5时,Af3为下一层子编码器的输入,当u=6时,Af3会作为整个transformer的编码器的输出,
c、解码器:
解码器的工作目标是预测第t个时间戳的行人位置解码器以编码器的输出Af3和经过了位置编码的已预测时间戳的行人位置/>为输入,输出为/>
与编码器一样,Transformer的解码器有6层子解码器,每一层的子解码器结构相同,当we等于1时,下面的子解码器代表第we个子解码器,当we=u=2,3,…,6重复以上操作;
c1、子解码器的第一部分是掩码多头注意力机制:
因为不能泄露行人未来轨迹信息,这里进行掩码操作,公式如下:
式中,为第t个时间戳的经过了位置编码的已预测时间戳的行人位置,/>表示子解码器输入在第t个时间戳的行人轨迹信息编码,y为已预测未来轨迹步长,是在解码器中行人轨迹信息编码集合,这里把简称为Vdgt;
注意力操作公式如下:
式中,表示子解码器第i个掩码多头注意力机制的查询、键、值,Vdgt为在编码器中的行人轨迹信息编码;/> 为子解码器第i个掩码多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个掩码多头注意力机制的注意力,/>为把拼接起来的变化成Adec的可学习矩阵参数;Adec为附有掩码注意力机制的行人位置编码,
用残差网络和标准化函数对行人特征表示进行处理;
Af4=Fnorm(Vdgt+Fnorm(Adec))
式中,Af4为经过残差网络和标准化函数处理的解码器掩码多头注意力,
c2、子解码器的第二部分是多头注意力机制,公式如下:
式中,表示子解码器第i个多头注意力机制的查询、键、值;这里的/>由子解码器的掩码多头注意力模块的输出生成,而/>与/>由编码器的输出生成,*为矩阵运算,/>为子解码器第i头多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个多头注意力机制的注意力,/>为把拼接起来的/>变化成Adec2的可学习矩阵参数;Adec2为结合历史轨迹数据和已预测轨迹数据的注意力,/>
用残差网络和标准化函数对Adec2进行处理,公式如下:
Af5=Fnorm(Af4+Fdrop(Adec2))
式中,Af5为经过残差网络和标准化函数处理的子解码器注意力,
c3、子解码器的第三部分是前向反馈网络,公式如下:
式中,为可学习矩阵参数,再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:
Af7=Fnorm(Af5+Fdrop(Af6))
式中,Af7为行人预测轨迹的特征,以上的步骤为一个子解码器的过程,而transformer的解码器部分为6个这样的子解码器串行拼接;当we=1,2,...,5时,这里的Af7为下一层子解码器的输入,当we=6时,Af7会作为整个transformer的解码器的输出,
以时间维度聚合每一个子解码器的输出Af7得到为每一个预测时间戳的Af7聚合;用全连接层对/>进行处理,生成高斯分布:
式中,Tr表示行人预测轨迹的高斯分布参数,Wgass为可学习变量;
d、全连接网络与双变量高斯分布
全连接网络以transformer的解码器的输出Tr为输入,输出第i个时间戳的行人位置分布,这里的行人位置分布为双变量高斯分布,公式为:
式中,P(Tri,n)为第n个行人,第i个时间戳双变量高斯分布;p()为双变量高斯分布函数,为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,Tri,n表示第i个时间戳第n个行人的高斯轨迹,所以第i个时间戳的一个行人位置分布需要五个参数,全连接层就是把transformer的解码器输出变成第i个时间戳的双变量(x,y)高斯分布。
进一步,在步骤4)中,用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值;
损失函数L(W)为:
第n个行人的损失函数为L,W为预测模型参数;为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,n_ped为样本中行人个数;
使用时间反向传播算法和梯度优化方法ADAM训练预测模型,取最优预测模型;把行人的历史轨迹数据输入最优预测模型,就能生成行人预测轨迹。
本发明与现有技术相比,具有如下优点与有益效果:
1、使用了在自然语言处理中取得出色表现的transformer来提取行人轨迹的时序信息,相比于其它行人轨迹预测工作使用lstm或者lstm的变种来提取行人轨迹时序信息,transformer使用的注意力机制能更好地提取每个时间戳位置信息对未来轨迹的影响,能够比lstm模型更好地预测行人未来轨迹。
2、使用了图卷积网络来考虑同一样本的行人集的关系,利用行人的速度向量来衡量行人间的关系,速度向量越相似,行人间的联系越大。想象一下如果两个人并排走,那这两个人有强烈的联系,而图卷积网络能很好地反映出这一点。
附图说明
图1是本发明方法的框架图。
图2是预测模型示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1和图2所示,本实施例提供了一种基于transformer与图卷积网络的行人轨迹预测方法,其具体情况如下:
1)提取出若干个时间戳内所有的行人轨迹数据,包含x、y坐标的行人信息;前Tobs个时间戳为历史轨迹数据Tobs=8,Tobs为历史轨迹时间戳长度,R表示是属于实数域,n为行人个数,axis表示坐标维度,axis=8,/>简称为V;后Tpred个时间戳为未来轨迹数据/>Tpred为预测轨迹时间戳长度,Tpred=12,/>对每一个样本的每个时间戳做一个行人关系图G;V、/>G的集合为一个样本;以若干个样本为一个批进行并行处理;把总样本集分为训练集、验证集和测试集;将预测模型f()形式化为:
式中,是预测轨迹数据,φ是预测模型f()中可学习的参数;
表示在第i秒内第j个行人的坐标,每个样本至少有两条行人轨迹;
把每个样本分为历史轨迹数据V与未来轨迹数据
式中,G为行人关系图,和/>为在一个样本中第i个行人在第t个时间戳的合速度向量、横坐标分量速度向量和纵坐标分量速度向量;/>表示第t个时间戳中,第i个行人与第j个行人的相互关系;
一个批次中包含若干个样本,便于预测模型的并行运行,再把若干个批次分为训练集、验证集与测试集,分别用来训练预测模型、取最优预测模型、测试预测模型。
2)先用全连接网络对V进行坐标编码,提取V的坐标特征表示Vemb,编码空间维度大小为dmodel;dmodel=64,再用行人关系图G对Vemb进行图卷积学习,提取附有行人关系信息的行人坐标编码Vg,具体步骤如下:
2.1)首先用3层全连接层对x、y坐标做编码操作,公式如下:
式中,表示在全连接层第i层,第t个时间戳的行人集坐标编码;/>表示在全连接层第i-1层,第t个时间戳的行人集坐标编码;/>表示在第i层的全连接层可学习矩阵参数,*表示矩阵乘法;第一层全连接层把x、y坐标维度axis维扩展为dmodel维,当i=2,3时,第i层全连接层的输入坐标编码维度和输出坐标编码维度都维持dmodel维;
2.2)采用图卷积神经网络利用行人关系图,把行人集坐标编码进行空间卷积运算;邻接性的归一化是图卷积正常工作的必要条件,先对每一个时间戳的行人关系图进行标准化处理,行人关系图Gt表示第t个时间戳的行人关系图,公式如下:
式中,Gt'为第t个时间戳的标准化行人关系图,I为单位矩阵,Dt为对角节点度矩阵;
用ngcn层图卷积层赋予轨迹信息以行人关系信息,公式如下:
式中,表示在图卷积层第i层的行人集坐标编码,/>示在图卷积层第i层、第t个时刻的行人集坐标编码,Fgcn表示图卷积操作,表示表示在第i层的图卷积层可学习矩阵参数;*表示矩阵乘法;tanh为图卷积层的激活函数;最后一层图卷积完成的输出为附有行人关系信息的行人坐标编码Vg,/>
3)采用transformer的编码器将附有行人关系信息的行人坐标编码Vg提取出每个时间戳的时序特征向量,用transformer的解码器以每个时间戳的时序特征向量为输入来生成具体行人轨迹分布,该行人轨迹分布遵循双变量高斯分布,具体如下:
把transformer作为预测模型基底,进行轨迹预测。用transformer以图卷积的输出为输入,考虑历史轨迹数据V对预测第i个时间戳的行人位置分布的影响;
a、位置编码,公式如下:
Vgt=Vg+τ
式中,为第t个时间戳,第n个行人的第k个特征值,τ为行人位置编码;把行人位置编码与Vg相加得到附有行人位置编码的Vgt;
b、编码器:
编码器以经过位置编码处理的Vgt为输入,经过注意力机制,提取特征Af3;Transformer的编码器有6层子编码器,每一层的子编码器结构相同,当u等于1时,下面的子编码器代表第u个子编码器;当u=2,3,…,6重复以上操作;
b1、子编码器的第一部分是多头注意力机制,公式如下:
A=Fcat(Ai)*Wa
式中,qi、ki、vi表示子编码器第i个头的查询、键、值;*为矩阵运算,qi、ki、为子编码器的第i头注意力把Vgt生成qi、ki、vi的可学习矩阵参数;Ai表示子编码器第i个头注意力机制的注意力,/>Fcat函数的作用是把多个头的注意力拼接起来,Wa为把拼接起来的Ai变化成A的可学习矩阵参数;A为附有注意力机制的行人位置编码,/>
用残差网络和标准化函数对行人特征表示进行处理,公式如下:
Af1=Fnorm(Vgt+Fdrop(A))
式中,Af1为经过残差网络和标准化函数处理的注意力,Fnorm()为标准化函数;
b2、子编码器的第二部分是前向反馈网络,公式如下:
式中,Af2为经过前向反馈网络的子编码器注意力,Fdrop为随机参数不更新函数;tanh为激活函数,/>为第一、二层全连接层可学习矩阵参数;再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:Af3=Fnorm(Af1+Fdrop(Af2)),Af3为经过残差网络和标准化函数处理的注意力;
以上的步骤为一个子编码器的过程,而transformer的编码器部分为6个这样的子编码器串行拼接;当u=1,2,...,5时,Af3为下一层子编码器的输入,当u=6时,Af3会作为整个transformer的编码器的输出,
c、解码器:
解码器的工作目标是预测第t个时间戳的行人位置解码器以编码器的输出Af3和经过了位置编码的已预测时间戳的行人位置/>为输入,输出为/>
与编码器一样,Transformer的解码器有6层子解码器,每一层的子解码器结构相同,当we等于1时,下面的子解码器代表第we个子解码器,当we=u=2,3,…,6重复以上操作;
c1、子解码器的第一部分是掩码多头注意力机制:
因为不能泄露行人未来轨迹信息,这里进行掩码操作,公式如下:
式中,为第t个时间戳的经过了位置编码的已预测时间戳的行人位置,/>表示子解码器输入在第t个时间戳的行人轨迹信息编码,y为已预测未来轨迹步长,是在解码器中行人轨迹信息编码集合,这里把简称为Vdgt;
注意力操作公式如下:
式中,表示子解码器第i个掩码多头注意力机制的查询、键、值,Vdgt为在编码器中的行人轨迹信息编码;/> 为子解码器第i个掩码多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个掩码多头注意力机制的注意力,/>为把拼接起来的/>变化成Adec的可学习矩阵参数;Adec为附有掩码注意力机制的行人位置编码,/>
用残差网络和标准化函数对行人特征表示进行处理;
Af4=Fnorm(Vdgt+Fnorm(Adec))
式中,Af4为经过残差网络和标准化函数处理的解码器掩码多头注意力,
c2、子解码器的第二部分是多头注意力机制,公式如下:
式中,表示子解码器第i个多头注意力机制的查询、键、值;这里的/>由子解码器的掩码多头注意力模块的输出生成,而/>与/>由编码器的输出生成,*为矩阵运算,/>为子解码器第i头多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个多头注意力机制的注意力,/>为把拼接起来的/>变化成Adec2的可学习矩阵参数;Adec2为结合历史轨迹数据和已预测轨迹数据的注意力,/>
用残差网络和标准化函数对Adec2进行处理,公式如下:
Af5=Fnorm(Af4+Fdrop(Adec2))
式中,Af5为经过残差网络和标准化函数处理的子解码器注意力,
c3、子解码器的第三部分是前向反馈网络,公式如下:
式中,为可学习矩阵参数,再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:
Af7=Fnorm(Af5+Fdrop(Af6))
式中,Af7为行人预测轨迹的特征,以上的步骤为一个子解码器的过程,而transformer的解码器部分为6个这样的子解码器串行拼接;当we=1,2,...,5时,这里的Af7为下一层子解码器的输入,当we=6时,Af7会作为整个transformer的解码器的输出,
以时间维度聚合每一个子解码器的输出Af7得到为每一个预测时间戳的Af7聚合;用全连接层对/>进行处理,生成高斯分布:
式中,Tr表示行人预测轨迹的高斯分布参数,Wgass为可学习变量;
d、全连接网络与双变量高斯分布
全连接网络以transformer的解码器的输出Tr为输入,输出第i个时间戳的行人位置分布,这里的行人位置分布为双变量高斯分布,公式为:
式中,P(Tri,n)为第n个行人,第i个时间戳双变量高斯分布;p()为双变量高斯分布函数,为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,Tri,n表示第i个时间戳第n个行人的高斯轨迹,所以第i个时间戳的一个行人位置分布需要五个参数,全连接层就是把transformer的解码器输出变成第i个时间戳的双变量(x,y)高斯分布。
4)采用损失函数把预测轨迹数据与未来轨迹数据作对比生成损失值,再用反向传播损失值优化预测模型;在优化预测模型时,用训练集对预测模型进行训练,用验证集挑选最优预测模型,把测试集输入到最优预测模型,得出预测轨迹数据。
其中,用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值,损失函数L(W)为:
第n个行人的损失函数为L,W为预测模型参数;为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,n_ped为样本中行人个数;
使用时间反向传播算法和梯度优化方法ADAM训练预测模型,取最优预测模型;把行人的历史轨迹数据输入最优预测模型,就能生成行人预测轨迹。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.基于transformer与图卷积网络的行人轨迹预测方法,其特征在于,包括以下步骤:
1)提取出若干个时间戳内所有的行人轨迹数据,包含x、y坐标的行人信息;前Tobs个时间戳为历史轨迹数据Tobs为历史轨迹时间戳长度,/>R表示是属于实数域,n为行人个数,axis表示坐标维度,/>简称为V;后Tpred个时间戳为未来轨迹数据/>Tpred为预测轨迹时间戳长度,/>对每一个样本的每个时间戳做一个行人关系图G;V、/>G的集合为一个样本;以若干个样本为一个批进行并行处理;把总样本集分为训练集、验证集和测试集;将预测模型f()形式化为:
式中,是预测轨迹数据,φ是预测模型f()中可学习的参数;
2)先用全连接网络对V进行坐标编码,提取V的坐标特征表示Vemb,编码空间维度大小为dmodel;再用行人关系图G对Vemb进行图卷积学习,提取附有行人关系信息的行人坐标编码Vg;
3)采用transformer的编码器将附有行人关系信息的行人坐标编码Vg提取出每个时间戳的时序特征向量,用transformer的解码器以每个时间戳的时序特征向量为输入来生成具体行人轨迹分布,该行人轨迹分布遵循双变量高斯分布;
4)采用损失函数把预测轨迹数据与未来轨迹数据作对比生成损失值,再用反向传播损失值优化预测模型;在优化预测模型时,用训练集对预测模型进行训练,用验证集挑选最优预测模型,把测试集输入到最优预测模型,得出预测轨迹数据。
2.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法,其特征在于,在步骤1)中,表示在第i秒内第j个行人的坐标,每个样本至少有两条行人轨迹;
把每个样本分为历史轨迹数据V与未来轨迹数据
式中,G为行人关系图, 和/>为在一个样本中第i个行人在第t个时间戳的合速度向量、横坐标分量速度向量和纵坐标分量速度向量;/>表示第t个时间戳中,第i个行人与第j个行人的相互关系;
一个批次中包含若干个样本,便于预测模型的并行运行,再把若干个批次分为训练集、验证集与测试集,分别用来训练预测模型、取最优预测模型、测试预测模型。
3.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法,其特征在于,在步骤2)中,把V中的x、y坐标信息进行编码与图卷积操作;
2.1)首先用nemb_axis层全连接层对x、y坐标做编码操作,公式如下:
式中,表示在全连接层第i层,第t个时间戳的行人集坐标编码;/>表示在全连接层第i-1层,第t个时间戳的行人集坐标编码;/>表示在第i层的全连接层可学习矩阵参数,*表示矩阵乘法;第一层全连接层把x、y坐标维度axis维扩展为dmodel维,当i=2,3,...,naxis_emb时,第i层全连接层的输入坐标编码维度和输出坐标编码维度都维持dmodel维;
2.2)采用图卷积神经网络利用行人关系图,把行人集坐标编码进行空间卷积运算;邻接性的归一化是图卷积正常工作的必要条件,先对每一个时间戳的行人关系图进行标准化处理,行人关系图Gt表示第t个时间戳的行人关系图,公式如下:
式中,G′t为第t个时间戳的标准化行人关系图,I为单位矩阵,Dt为对角节点度矩阵;
用ngcn层图卷积层赋予轨迹信息以行人关系信息,公式如下:
式中,表示在图卷积层第i层的行人集坐标编码,/>示在图卷积层第i层、第t个时刻的行人集坐标编码,Fgcn表示图卷积操作,表示在第i层的图卷积层可学习矩阵参数;*表示矩阵乘法;tanh为图卷积层的激活函数;最后一层图卷积完成的输出为附有行人关系信息的行人坐标编码Vg,/>
4.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法,其特征在于,在步骤3)中,把transformer作为预测模型基底,进行轨迹预测:
用transformer以图卷积的输出为输入,考虑历史轨迹数据V对预测第i个时间戳的行人位置分布的影响;
a、位置编码,公式如下:
Vgt=Vg+τ
式中,为第t个时间戳,第n个行人的第k个特征值,τ为行人位置编码;把行人位置编码与Vg相加得到附有行人位置编码的Vgt;
b、编码器:
编码器以经过位置编码处理的Vgt为输入,经过注意力机制,提取特征Af3;Transformer的编码器有6层子编码器,每一层的子编码器结构相同,当u等于1时,下面的子编码器代表第u个子编码器;当u=2,3,…,6重复以上操作;
b1、子编码器的第一部分是多头注意力机制,公式如下:
A=Fcat(Ai)*Wa
式中,qi、ki、vi表示子编码器第i个头的查询、键、值;*为矩阵运算,qi、ki、 为子编码器的第i头注意力把Vgt生成qi、ki、vi的可学习矩阵参数;Ai表示子编码器第i个头注意力机制的注意力,/>Fcat函数的作用是把多个头的注意力拼接起来,Wa为把拼接起来的Ai变化成A的可学习矩阵参数;A为附有注意力机制的行人位置编码,/>
用残差网络和标准化函数对行人特征表示进行处理,公式如下:
Af1=Fnorm(Vgt+Fdrop(A))
式中,Af1为经过残差网络和标准化函数处理的注意力,Fnorm()为标准化函数;
b2、子编码器的第二部分是前向反馈网络,公式如下:
式中,Af2为经过前向反馈网络的子编码器注意力,Fdrop为随机参数不更新函数;tanh为激活函数,/>为第一、二层全连接层可学习矩阵参数;再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:Af3=Fnorm(Af1+Fdrop(Af2)),Af3为经过残差网络和标准化函数处理的注意力;
以上的步骤为一个子编码器的过程,而transformer的编码器部分为6个这样的子编码器串行拼接;当u=1,2,...,5时,Af3为下一层子编码器的输入,当u=6时,Af3会作为整个transformer的编码器的输出,
c、解码器:
解码器的工作目标是预测第t个时间戳的行人位置解码器以编码器的输出Af3和经过了位置编码的已预测时间戳的行人位置/>为输入,输出为/>
与编码器一样,Transformer的解码器有6层子解码器,每一层的子解码器结构相同,当we等于1时,下面的子解码器代表第we个子解码器,当we=u=2,3,…,6重复以上操作;
c1、子解码器的第一部分是掩码多头注意力机制:
因为不能泄露行人未来轨迹信息,这里进行掩码操作,公式如下:
式中,为第t个时间戳的经过了位置编码的已预测时间戳的行人位置,Vt dgt表示子解码器输入在第t个时间戳的行人轨迹信息编码,y为已预测未来轨迹步长,是在解码器中行人轨迹信息编码集合,这里把简称为Vdgt;
注意力操作公式如下:
式中,表示子解码器第i个掩码多头注意力机制的查询、键、值,/> Vdgt为在编码器中的行人轨迹信息编码;/> 为子解码器第i个掩码多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个掩码多头注意力机制的注意力,/> 为把拼接起来的/>变化成Adec的可学习矩阵参数;Adec为附有掩码注意力机制的行人位置编码,/>
用残差网络和标准化函数对行人特征表示进行处理;
Af4=Fnorm(Vdgt+Fnorm(Adec))
式中,Af4为经过残差网络和标准化函数处理的解码器掩码多头注意力,
c2、子解码器的第二部分是多头注意力机制,公式如下:
式中,表示子解码器第i个多头注意力机制的查询、键、值;这里的由子解码器的掩码多头注意力模块的输出生成,而/>与/>由编码器的输出生成,*为矩阵运算,/> 为子解码器第i头多头注意力机制把Vdgt生成为/>的可学习矩阵参数;/>表示子解码器第i个多头注意力机制的注意力,/> 为把拼接起来的/>变化成Adec2的可学习矩阵参数;Adec2为结合历史轨迹数据和已预测轨迹数据的注意力,/>
用残差网络和标准化函数对Adec2进行处理,公式如下:
Af5=Fnorm(Af4+Fdrop(Adec2))
式中,Af5为经过残差网络和标准化函数处理的子解码器注意力,
c3、子解码器的第三部分是前向反馈网络,公式如下:
式中,为可学习矩阵参数,再用一遍残差网络及标准化函数对行人特征表示进行处理,公式如下:
Af7=Fnorm(Af5+Fdrop(Af6))
式中,Af7为行人预测轨迹的特征,以上的步骤为一个子解码器的过程,而transformer的解码器部分为6个这样的子解码器串行拼接;当we=1,2,...,5时,这里的Af7为下一层子解码器的输入,当we=6时,Af7会作为整个transformer的解码器的输出,
以时间维度聚合每一个子解码器的输出Af7得到为每一个预测时间戳的Af7聚合;用全连接层对/>进行处理,生成高斯分布:
式中,Tr表示行人预测轨迹的高斯分布参数,Wgass为可学习变量;
d、全连接网络与双变量高斯分布
全连接网络以transformer的解码器的输出Tr为输入,输出第i个时间戳的行人位置分布,这里的行人位置分布为双变量高斯分布,公式为:
式中,P(Tri,n)为第n个行人,第i个时间戳双变量高斯分布;p()为双变量高斯分布函数,为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,Tri,n表示第i个时间戳第n个行人的高斯轨迹,所以第i个时间戳的一个行人位置分布需要五个参数,全连接层就是把transformer的解码器输出变成第i个时间戳的双变量(x,y)高斯分布。
5.根据权利要求1所述的基于transformer与图卷积网络的行人轨迹预测方法,其特征在于,在步骤4)中,用损失函数把所得到的双变量高斯分布与未来轨迹数据做差值;
损失函数L(W)为:
第n个行人的损失函数为L,W为预测模型参数;为第i个时间戳,第n个行人的位置分布;/>corri,n分别表示第i个时间戳的第n个行人位置分布的x坐标的均值、y坐标的均值、x坐标的标准差、y坐标的标准差、x坐标与y坐标的相关性,n_ped为样本中行人个数;
使用时间反向传播算法和梯度优化方法ADAM训练预测模型,取最优预测模型;把行人的历史轨迹数据输入最优预测模型,就能生成行人预测轨迹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210464974.XA CN114757975B (zh) | 2022-04-29 | 2022-04-29 | 基于transformer与图卷积网络的行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210464974.XA CN114757975B (zh) | 2022-04-29 | 2022-04-29 | 基于transformer与图卷积网络的行人轨迹预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757975A CN114757975A (zh) | 2022-07-15 |
CN114757975B true CN114757975B (zh) | 2024-04-16 |
Family
ID=82332249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210464974.XA Active CN114757975B (zh) | 2022-04-29 | 2022-04-29 | 基于transformer与图卷积网络的行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757975B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997067B (zh) * | 2022-06-30 | 2024-07-19 | 南京航空航天大学 | 一种基于时空图与空域聚合Transformer网络的轨迹预测方法 |
CN116342657B (zh) * | 2023-03-29 | 2024-04-26 | 西安电子科技大学 | 一种基于编码-解码结构的tcn-gru船舶轨迹预测方法、系统、设备及介质 |
CN117493424B (zh) * | 2024-01-03 | 2024-03-22 | 湖南工程学院 | 一种不依赖地图信息的车辆轨迹预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781838A (zh) * | 2019-10-28 | 2020-02-11 | 大连海事大学 | 一种复杂场景下行人的多模态轨迹预测方法 |
CN112347923A (zh) * | 2020-11-06 | 2021-02-09 | 常州大学 | 一种基于对抗生成网络的路侧端行人轨迹预测算法 |
CN112766561A (zh) * | 2021-01-15 | 2021-05-07 | 东南大学 | 一种基于注意力机制的生成式对抗轨迹预测方法 |
CN113269114A (zh) * | 2021-06-04 | 2021-08-17 | 北京易航远智科技有限公司 | 一种基于多隐变量预测器及关键点的行人轨迹预测方法 |
CN113269115A (zh) * | 2021-06-04 | 2021-08-17 | 北京易航远智科技有限公司 | 一种基于Informer的行人轨迹预测方法 |
-
2022
- 2022-04-29 CN CN202210464974.XA patent/CN114757975B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781838A (zh) * | 2019-10-28 | 2020-02-11 | 大连海事大学 | 一种复杂场景下行人的多模态轨迹预测方法 |
CN112347923A (zh) * | 2020-11-06 | 2021-02-09 | 常州大学 | 一种基于对抗生成网络的路侧端行人轨迹预测算法 |
CN112766561A (zh) * | 2021-01-15 | 2021-05-07 | 东南大学 | 一种基于注意力机制的生成式对抗轨迹预测方法 |
CN113269114A (zh) * | 2021-06-04 | 2021-08-17 | 北京易航远智科技有限公司 | 一种基于多隐变量预测器及关键点的行人轨迹预测方法 |
CN113269115A (zh) * | 2021-06-04 | 2021-08-17 | 北京易航远智科技有限公司 | 一种基于Informer的行人轨迹预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114757975A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114757975B (zh) | 基于transformer与图卷积网络的行人轨迹预测方法 | |
Torfi et al. | 3D convolutional neural networks for cross audio-visual matching recognition | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN111694924A (zh) | 一种事件抽取方法和系统 | |
CN109443382A (zh) | 基于特征提取与降维神经网络的视觉slam闭环检测方法 | |
CN109558576B (zh) | 一种基于自注意力机制的标点符号预测方法 | |
CN112908341B (zh) | 基于多任务自注意力机制的语言学习者声纹识别方法 | |
CN103049792A (zh) | 深层神经网络的辨别预训练 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN110020626B (zh) | 一种基于注意力机制的多源异构数据身份识别方法 | |
CN111259750A (zh) | 一种基于遗传算法优化bp神经网络的水声目标识别方法 | |
Weng et al. | A one-dimensional vision transformer with multiscale convolution fusion for bearing fault diagnosis | |
CN111160163B (zh) | 一种基于区域关系建模和信息融合建模的表情识别方法 | |
CN111444399B (zh) | 回复内容的生成方法、装置、设备及可读存储介质 | |
CN115952407B (zh) | 一种考虑卫星时序性和空域交互性的多径信号识别方法 | |
CN115061103B (zh) | 基于编码器-解码器的多功能雷达功能识别方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN115860054B (zh) | 基于生成对抗网络的稀疏码本多址编解码系统 | |
CN115346261A (zh) | 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN116824366A (zh) | 一种基于局部选择和特征交互的农作物病害识别方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN115082896A (zh) | 基于拓扑图结构和深度自注意力网络的行人轨迹预测方法 | |
CN111882042A (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
CN117935849A (zh) | 一种基于多目标对比学习的水声目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |