CN113256681B - 基于时空注意力机制的行人轨迹预测方法 - Google Patents
基于时空注意力机制的行人轨迹预测方法 Download PDFInfo
- Publication number
- CN113256681B CN113256681B CN202110580013.0A CN202110580013A CN113256681B CN 113256681 B CN113256681 B CN 113256681B CN 202110580013 A CN202110580013 A CN 202110580013A CN 113256681 B CN113256681 B CN 113256681B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- frame
- feature
- dimensional
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 230000007246 mechanism Effects 0.000 title claims abstract description 84
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
基于时空注意力机制的行人轨迹预测方法,包括:采集场景中的图像信息,提取行人在图像坐标系下的位置信息;进行数据预处理,得到场景中每个行人的历史轨迹坐标;采用编码器Encoder编码行人的历史轨迹并输出特征张量;以及采用解码器Decoder迭代预测行人的未来轨迹坐标;其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息;实现了自动驾驶实际应用场景下对行人轨迹的实时有效预测,既适应车载低功耗处理器的处理能力,又提高了对行人轨迹预测的准确性,为实际自动驾驶决策提供了可靠的依据,大大提高了自动驾驶的安全性。
Description
技术领域
本公开涉及自动驾驶和计算机视觉技术领域,具体涉及一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质,尤其涉及一种基于深度学习方法在具有复杂的行人交互场景下的行人轨迹预测技术。
背景技术
随着计算机视觉技术的发展,采用计算机视觉技术进行环境感知已经成为自动驾驶系统和其它智能感知系统中不可或缺的部分。其中,行人轨迹预测在自动驾驶和视频监控领域等具有重要意义。在自动驾驶场景中,预测行人未来的轨迹,可以辅助自动驾驶汽车做出正确的决策,保障行人的生命安全,提高自动驾驶汽车的安全性和可靠性。在视频监控领域,预测行人未来的轨迹可以提前对危险的事件做出预警,保障人员生命和财产安全。可见,研究行人轨迹预具有非常重要的现实意义。
现阶段,行人轨迹预测研究方面还存在诸多难点,目前主流的论文或专利提出不同的技术尝试解决,但所提供的方法在实际自动驾驶系统使用中还存在很大的完备空间。
为了解现有技术的发展状况,本公开对已有的专利文献和论文进行了检索、比较和分析:
方案1:2016年的CVPR论文“Social lstm:Human trajectory prediction incrowded spaces”是最早采用LSTM解决行人轨迹预测的论文之一,每个行人的历史轨迹坐标被输入到长短期记忆网络(LSTM)结构中,首先进行编码,然后通过解码器解码出未来轨迹。为了利用不同行人之间的交互特征,模型中间采用池化(Pooling)层,编码若干最重要的邻居特征。但是,基于循环神经网络的结构局限于顺序处理,效率较低,且基于直觉而设计的池化层难以捕捉交互情况。
方案2:2018年CVPR论文“Social gan:Socially acceptable trajectories withgenerative adversarial networks”以及2019年CVPR论文“Sophie:An attentive ganfor predicting paths compliant to social and physical constraints”均基于LSTM结构进行轨迹的预测,并采用对抗神经网络来为行人生成多种可能的轨迹。两篇论文的方法基于循环神经网络结构,无法并行运算,引入的对抗神经网络网络还导致昂贵的训练代价。
方案3:论文“Social-STGCNN:A Social Spatio-Temporal Graph ConvolutionalNeural Network for Human Trajectory Prediction”采用图的方式建立某一帧下行人之间的交互关系,将行人视为图中的节点。对于过去的每一帧,通过图卷积的方式表征出同一场景下行人之间的交互关系,最终通过一维卷积核在每个行人的历史信息上进行卷积操作,得到未来的轨迹。该方法根据距离远近设置图的邻接矩阵,特征选取较为单一,并且通过一维卷积计算未来轨迹的方式无法捕捉行人轨迹的长距离依赖,导致预测偏差。
方案4:专利文献CN111797751A提出了一种利用行人的历史运动轨迹信息与历史头部姿态信息,共同训练并输出行人轨迹预测的模型。其对至少两帧历史行人图像中的每一帧历史行人图像进行头部姿态检测,并对连续多帧的图像中的行人进行检测和跟踪,输入到行人轨迹预测模型,输出行人轨迹。头部姿态信息的检测模块会引起性能上的开销,而模型所采用的LSTM结构导致无法并行化计算,两者共同作用不利于实时的轨迹预测。
可见,现有的行人轨迹预测方案还存在计算效率低、无法并行化;网络训练开销大,不适合自动驾驶实际使用中的预测需要;以及对交互场景下的预测效果不理想等问题。
综上,现有技术目前仍然无法解决自动驾驶实际应用场景下对行人轨迹进行实时有效预测的技术问题,影响了自动驾驶的决策。因此,如何提供一种可并行化计算,提高计算效率,减少网络训练开销,满足自动驾驶决策中对交互场景下的实时有效预测需求的行人轨迹预测技术,成为当前自动驾驶领域非常有现实意义的研究内容。
发明内容
为达到上述发明目的,本公开在如下几个方面进行了改进:
一是行人历史的轨迹和行为会表现出行人的整体趋势或者意图,是减少不确定性并进行预测的重要依据,挖掘和分析行人历史轨迹,提取有效的特征和信息,是行人轨迹预测的关键步骤。针对主流的方法一般采用循环神经网络来进行时间序列预测,包括RNN、LSTM、GRU等,典型的方法例如Social-LSTM,无法并行化,计算效率低,难以对长距离关系进行建模,容易造成性能瓶颈的技术问题,本公开基于注意力机制,有效捕捉行人历史轨迹中的关键部分,能够以并行化的风格和全局感受野保证性能。
二是人和人之间存在社交关系,结伴而行的人群会始终保持聚集状态,静止(聊天等)或同时向一个方向前进,相对而行的人为了避免碰撞,常出现绕行或者暂停。针对Social GAN等方法对位置的差值进行编码,再进行Pooling,这种基于手工设计的交互特征,具有一定程度的主观性,不利于模型学习;而一些方法采用图网络的结构,假定行人是图的顶点,利用图卷积对节点特征进行更新,融合周围行人的特征以建立不同行人之间的社交联系,图网络有利于对同一时刻下场景中的不同行人进行建模,但却无法有效解决不同时刻下行人的交互情况,以及难以平衡行人自身轨迹特征和交互特征的相互作用的技术问题,本公开中,编码器模块通过时间注意力机制、空间注意力机制以及时空注意力机制三种方式,对行人的历史轨迹和交互关系进行编码,在时间、空间两个角度,充分捕捉行人自身和不同行人之间的特征;在解码器中,通过自注意力机制和编码器-解码器注意力机制来预测未来的轨迹,最终达到了准确的预测。
三是在同一场景下,行人存在多条可能的未来轨迹,而不是单一的、确定的轨迹,例如遇到障碍物绕行,既可以从左侧穿过,也可以从右侧穿过,两种轨迹都是合理的;此外,行人的行为存在随机性,往往会出现违逆历史趋势的动作,例如转向,停止走路等。因此,生成多种轨迹的网络是必要的。常采用生成对抗神经网络生成多种可能的轨迹,或在高斯分布上进行采样得到多个轨迹。针对生成对抗网络的训练难度高,训练开销较大,高斯分布上进行采样的方式不便于辅助自动驾驶车辆的决策等技术问题,本公开通过添加噪声模块,以较低的成本,在一定程度上增加了行人轨迹的不确定性,提升了预测效果。
具体地,为了解决上述技术问题,本公开提供了一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质。
根据本公开的一个方面,本公开提供了一种基于时空注意力机制的行人轨迹预测方法,包括如下步骤:
步骤一、采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
步骤二、进行数据预处理,得到场景中每个行人的历史轨迹坐标;
步骤三、采用编码器Encoder编码行人的历史轨迹并输出特征张量;
步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
优选地,以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。
优选地,对输入时间序列进行采样,并提取每个行人的历史观测坐标值并设定预测的坐标值为:
优选地,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量;
采用第一多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征;
所述行人的历史轨迹坐标点数据序列表示为如下形式:
所述高维时序特征表示为如下形式:
其中,通过所述第一多层感知机φe,将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标,映射至16维特征;所述第一多层感知机φe设置为一层全连接层,参数为Wee,PE为位置嵌入,则所述能够进一步表示如下:
优选地,通过时间注意力机制更新每个行人的高维时序特征,得到行人时间特征;
所述行人时间特征表示如下:
其中,输入每个行人的所述高维时序特征,计算第i个行人在第t帧对于第r帧的注意力系数ATi tr,如下所示:
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征和 表示WT k的维数,对于计算出的中间系数进行Softmax操作得到注意力系数ATi tr,其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,表示利用第i个行人在第t帧和第r'帧的特征和计算出的中间系数;利用注意力系数ATi tr,更新第i个行人在第t帧的特征,得到行人时间特征计算方式如下:
优选地,通过空间注意力机制更新每个行人的所述高维时序特征,得到行人空间特征;
所述行人空间特征表示如下:
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第i个行人和第j个行人的特征和 表示WS k的维数,对于计算出的进行Softmax操作得到其中1≤j'≤N,j'代表第1至第N个行人,表示利用第t帧第i个行人和第j'个行人的特征和计算出的中间系数;利用注意力系数更新第t帧第i个行人,得到行人空间特征计算方式如下:
优选地,输入不同时刻下每个行人的所述行人空间特征,通过时间注意力机制更新每个行人的空间特征,得到行人时空特征;
所述行人时空特征表示如下:
捕捉不同时刻下不同行人之间的交互情况。
其中,WTS q和WTS k分别代表可学习的权重矩阵,并分别作用于第i个行人在t时刻和r时刻的行人空间特征和 表示WTS k的维数,对于计算出的进行Softmax操作得到其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,表示利用第i个行人在第t帧和第r'帧的行人空间特征和计算出的中间系数;利用注意力系数更新第i个行人在第t帧的行人空间特征,得到行人时空特征计算方式如下:
所述32维的特征经过第二多层感知机φh降维至24维,其中φh包括一层全连接,参数为Whh,再通过高斯分布产生8维的随机噪声enoise,将24维的特征与8维的随机噪声拼接,最终得到32维的时空混合特征表示如下:
优选地,采用解码器Decoder迭代预测行人的未来轨迹,每次迭代都使得新预测的位置坐标融合先前预测位置坐标信息以及编码器所输出的时空混合特征。
优选地,对每个行人建立一个序列,存储未来每一帧的预测特征,所述序列称为预测特征序列,所述预测特征序列中的特征维数均为32维;对于每个行人的观测序列中的最后一帧的2维轨迹坐标即第8帧的2维轨迹坐标,按照公式通过通过第三多层感知机φd升维至32维的特征并添加至预测特征序列中,其中φd为一层全连接,参数为Wdd。
其中,Wself q和Wself k分别代表可学习的权重矩阵,并分别作用于第i个行人的预测特征序列中最后一个高维特征与其它高维特征 表示Wself k的维数,对于计算出的进行Softmax操作得到其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧,表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数;利用注意力系数更新预测特征序列中最后一个高维特征,得到相应的自注意力特征计算方式如下:
其中,Wed q和Wed k分别代表可学习的权重矩阵,并分别作用于第i个行人当前的自注意力特征与编码器输出的时空混合特征 表示Wed k的维数,对于计算出的进行Softmax操作得到其中1≤t'≤tobs,t'表示第1至tobs之间的观测帧,表示利用第i个行人当前的自注意力特征与编码器输出的第t'观测帧时空混合特征计算出的中间系数;利用注意力系数更新第i个行人当前的自注意力特征得到得到高维特征计算方式如下:
优选地,判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量,如果满足,即达到了需要预测的未来12帧数量,则进行如下操作:
通过第四多层感知机φo,将每个行人的高维特征转换至预测的坐标值其中,每个行人的预测特征序列的特征数量为12,即tpred=12,首先去掉预测特征序列中的第一个预测特征,然后,通过第四多层感知机φo,按照公式将高维特征由32维降维至2维,得到每个行人在所有预测时刻的2维坐标其中φo为一层全连接,参数为Woo。
如果不满足,即没有达到需要预测的未来12帧数量,则返回到通过自注意力机制,计算特征序列中最后一个高维预测特征与其它高维预测特征的注意力关系的步骤,更新预测特征序列中最后一个高维预测特征,得到相应的自注意力特征
根据本公开的另一个方面,本公开提供了一种基于时空注意力机制的行人轨迹预测装置,包括:
图像采集装置,采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
数据预处理装置,进行数据预处理,得到场景中每个行人的历史轨迹坐标;
编码装置,采用编码器Encoder编码行人的历史轨迹并输出特征张量;
解码装置,采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
根据本公开的再一个方面,本公开提供了一种电子设备,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述方法。
根据本公开的又一个方面,本公开提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述方法。
本公开的有益效果:
1、本公开在编码器中,时间注意力机制、空间注意力机制以及时空注意力机制三种方式,能够充分挖掘单个行人的历史轨迹特征,捕捉同一时刻不同行人之间的交互关系,并对不同时刻不同行人之间的复杂关系进行建模所述编码器不依靠循环神经网络结构,特征关联的计算不受距离的影响,能够以并行化的风格和全局感受野保证预测性能;
2、在解码器中,通过自注意力机制和编解码器注意力机制,使得预测轨迹融合了历史轨迹的特征,有效表征行人瞬时或者持续的意图,并考虑到不同行人之间复杂的交互影响,提高了未来轨迹预测的准确度;
3、整个网络的结构完全去除循环神经网络,只保留注意力机制,更有利于并行化,提高了计算效率,有利于满足实际自动驾驶场景下的对行人轨迹预测的实时性要求;
4、时间注意力机制提取行人的时间特征,对于每个行人,融合了自身过去时间下的特征,而不对邻居行人特征进行融合,提高了预测的准确性。
5、空间注意力机制提取行人的空间特征,对于每个行人,融合了当前时间点下邻居行人的信息,并将该行人自身特征得到更新,考虑了社交因素,保证了预测的合理性和可靠性;
6、时空注意力机制提取行人的时空特征,不仅局限于某个时刻的行人交互,更综合了某段时间内行人之间的整体交互情况,进一步保证了预测可靠性。
7、网络结构具有全局感受野,可以对充分对不同时刻不同行人的轨迹特征建立关联,防止信息的损失和压缩,进一步提高了预测的准确性。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。通过结合附图对本公开的实施例进行详细描述,本公开的上述和其它目的、特征、优点将更加清楚。
图1示出了根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程
图2示出了编码器Encoder对行人坐标特征进行编码的流程
图3示出了时间注意力机制
图4示出了空间注意力机制
图5示出了解码器Decoder迭代预测行人的未来轨迹的流程
图6示出了解码器Decoder的结构
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本公开使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本公开的目的之一是提供一种基于时空注意力机制的行人轨迹预测方法。
图1是根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程图。如图1所示,输入的数据为当前场景中每个行人的历史轨迹坐标,第一步使用编码器Encoder编码行人的历史轨迹并输出特征张量,第二步采用解码器Decoder迭代预测行人的未来轨迹坐标。
自动驾驶过程中,传感器感知到场景中存在一个或者多个行人,系统需要对行人的未来轨迹进行预测,本公开的基于时空注意力机制的行人轨迹预测方法能够适用多种视角,不仅适用于通常的以监控场景为代表的俯视拍摄视角,而且十分适用于以自动驾驶汽车为代表的平视视角,即本公开既适用于自动驾驶或辅助驾驶过程中实时对道路上的行人进行轨迹分析,也适用于普通监控场景下对所拍摄的行人进行轨迹分析,尤其适用于自动驾驶决策中对交互场景下的实时有效预测,采用并行化计算,提高计算效率,减少网络训练开销,适用于实际自动驾驶车辆中的低功耗车载处理器处理能力的同时还保证了对行人轨迹的实时有效预测,大大提高了系统的决策能力。
本公开适用于以下两种情境:一个具体的情境是拍摄的设备为高处监控相机,角度为俯视拍摄,在这种情况下,每个行人在所拍摄的图像的像素坐标系下的坐标值能够近似为世界坐标系下的绝对位置;另一个具体的情境为自动驾驶汽车的车载相机所拍摄的前方道路场景,行人的轨迹基于图像坐标系,预测未来轨迹能够辅助自动驾驶系统的决策。因此,本公开适用范围广泛,且能够有效解决自动驾驶过程中对行人轨迹预测的实时性和可靠性要求问题。本公开实施例中,以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并获取自动驾驶汽车感知系统提供的的行人在图像坐标系下的位置信息。
在步骤S110中,由于输入的数据为视频形式的时间序列信息,为了能够满足自动驾驶汽车的实时性要求和在不损失精度的情况下降低计算复杂度,本公开对输入时间序列进行采样,并提取每个行人的历史观测坐标值如下:
其中,tobs表示观测的帧数,i表示第i个行人,N表示当前场景的行人数量,
定义预测的坐标值为:
其中i表示第i个行人,N表示当前场景的行人数量,tpred表示预测的帧数。
具体地,输入的视频的原始帧率为25FPS,即原始1帧时长为0.04秒,本公开按照原始10帧为单位进行采样,即按照0.4秒的间隔进行采样,新的1帧时长为0.4秒,设置tobs=8且tpred=12,通过每个行人的历史的8帧坐标信息去预测未来12帧的坐标信息,即通过历史的3.2秒坐标信息预测未来4.8秒的坐标信息。
在步骤S120中,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量,编码器Encoder通过注意力机制,融合了每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
图2示出了编码器Encoder对行人坐标特征进行编码的流程。
在步骤S121中,为了增强和丰富原始数据特征,并保留轨迹点的时序关系,采用多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征具体地,输入的第i个行人的历史轨迹坐标为2维坐标通过多层感知机φe,将2维的坐标特征,映射至16维特征,多层感知机φe可以设置为一层全连接层,参数为Wee,PE为位置嵌入,其中t表示轨迹点的帧号,de表示特征维度,de=16,2d和2d+1表示特征的第2d维度和第2d+1维度,其中
在步骤S122中,参见图3,通过时间注意力机制更新每个行人的高维时序特征得到行人时间特征其中,时间注意力是指每个行人对自身的历史轨迹坐标做一次注意力操作,可以提取单个行人历史的轨迹特征,挖掘行人的整体运动趋势和意图。具体地,输入每个行人的高维时序特征根据下式,计算第i个行人在第t帧对于第r帧的注意力系数
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征和 表示WT k的维数,对于计算出的需要进行Softmax操作得到注意力系数其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,表示利用第i个行人在第t帧和第r'帧的特征和计算出的中间系数;利用注意力系数更新第i个行人在第t帧的特征,得到行人时间特征计算方式如下。
在步骤S123中,参见图4,通过空间注意力机制更新每个行人的高维时序特征得到行人空间特征其中,空间注意力机制是指每个行人对当前时刻的场景下的其他行人做一次注意力操作,可以使得每个行人融合同一时刻下不同行人的特征,并能捕捉到行人之间的交互关系。具体地,输入每个行人的高维时序特征根据下式,计算在第t帧第i个行人对第j个行人的注意力系数
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第i个行人和第j个行人的特征和 表示WS k的维数,对于计算出的需要进行Softmax操作得到其中1≤j'≤N,j'代表第1至第N个行人,表示利用第t帧第i个行人和第j'个行人的特征和计算出的中间系数。利用注意力系数更新第t帧第i个行人,得到行人空间特征计算方式如下。
在步骤S124中,输入不同时刻下每个行人的空间特征通过时间注意力机制更新每个行人的空间特征,得到行人时空特征能够捕捉不同时刻下不同行人之间的交互情况,对更复杂的交互关系进行建模,提高预测的精度。具体地,输入每个行人的空间特征根据下式,计算第i个行人在第t帧空间特征对于第r帧空间特征的注意力系数
其中,WTS q和WTS k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的行人空间特征和 表示WTS k的维数,对于计算出的需要进行Softmax操作得到利用注意力系数其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,表示利用第i个行人在第t帧和第r'帧的行人空间特征和计算出的中间系数。利用注意力系数更新第i个行人在第t帧的行人空间特征,得到行人时空特征计算方式如下。
在步骤S125中,通过拼接操作(concatenate)将行人时间特征和行人时空特征拼接,并通过多层感知机φh进行降维,为了能够生成多条备选的轨迹,需要在降维特征中加入噪声,并恢复到原有维度。具体地,行人时间特征和行人时空特征维数均为16,通过拼接操作(concatenate)将行人时间特征和时空特征拼接,即将两个16维特征拼接,得到32维的特征。32维的特征经过多层感知机φh降维至24维,其中φh包括一层全连接,参数为Whh,再通过高斯分布产生8维的随机噪声enoise,将24维的特征与8维的随机噪声拼接,最终得到32维的时空混合特征
在步骤S130中,采用解码器Decoder迭代预测行人的未来轨迹,每次迭代都使得新预测的位置坐标融合了先前预测位置坐标信息以及编码器所输出的时空混合特征。
图5示出了解码器Decoder迭代预测行人的未来轨迹的流程。
在步骤S131中,通过多层感知机φd,将每个行人输入的最后一帧轨迹的坐标进行升维,得到高维预测特征并添加到预测特征序列中。具体地,为了后续迭代生成未来的轨迹,对每个行人建立一个序列,存储未来每一帧的预测特征,该序列称为预测特征序列,序列中的特征维数均为32维。对于每个行人的观测序列中的最后一帧的2维轨迹坐标即第8帧的2维轨迹坐标,按照公式通过通过多层感知机φd升维至32维的特征并添加至预测特征序列中,其中φd为一层全连接,参数为Wdd。
在步骤S132中,参见图6,通过自注意力机制,计算特征序列中最后一个高维预测特征与其它高维预测特征的注意力关系,更新预测特征序列中最后一个高维预测特征,得到相应的自注意力特征具体地,对每个行人的预测特征序列特征序列中最后一个高维特征通过注意力机制,根据下式,计算第i个行人的预测特征序列中最后一个高维特征与其它高维特征的注意力系数
其中,Wself q和Wself k分别代表可学习的权重矩阵,并分别作用于第i个行人的预测特征序列中最后一个高维特征与其它高维特征 表示Wself k的维数,对于计算出的进行Softmax操作得到其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧,表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数。利用注意力系数更新预测特征序列中最后一个高维特征,得到相应的自注意力特征计算方式如下。
在步骤S133中,参见图6,通过注意力机制,计算当前的自注意力特征与编码器输出的时空混合特征的关系,更新当前的自注意力特征,得到高维特征具体地,对于步骤S132得到的32维自注意力特征根据下式,计算第i个行人的当前的自注意力特征与与编码器输出的时空混合特征的注意力系数
其中,Wed q和Wed k分别代表可学习的权重矩阵,并分别作用于第i个行人当前的自注意力特征与编码器输出的时空混合特征 表示Wed k的维数,对于计算出的αedi nt,进行Softmax操作得到其中1≤t'≤tobs,t'表示第1至tobs之间的观测帧,表示利用第i个行人当前的自注意力特征与编码器输出的第t'观测帧时空混合特征计算出的中间系数;利用注意力系数更新第i个行人当前的自注意力特征得到得到高维特征计算方式如下:
在步骤S135中,判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量,如果满足,即达到了需要预测的未来12帧数量,则跳转至步骤S136;否则,跳转至步骤S132。
在步骤S136中,每个行人的预测特征序列的特征数量已经满足了需要预测的时刻数量,通过多层感知机φo,将每个行人的高维特征转换至预测的坐标值具体地,每个行人的预测特征序列的特征数量为12,即tpred=12,首先去掉预测特征序列中的第一个预测特征,然后,通过多层感知机φo,按照公式将高维特征由32维降维至2维,得到每个行人在所有预测时刻的2维坐标其中φo为一层全连接,参数为Woo。
本公开的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。
本公开领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
综上所述,本公开所述方法具有如下优势:
1、整个网络的结构完全去除循环神经网络,只保留注意力机制,更有利于并行化,提高计算效率;
2、时间注意力机制提取行人的时间特征,对于每个行人,融合了自身过去时间下的特征,而不对邻居行人特征进行融合;
3、空间注意力机制提取行人的空间特征,对于每个行人,融合了当前时间点下邻居行人的信息,并将该行人自身特征得到更新,考虑了社交因素;
4、时空注意力机制提取行人的时空特征,不仅局限于某个时刻的行人交互,更综合了某段时间内行人之间的整体交互情况;
5、网络结构具有全局感受野,可以对充分对不同时刻不同行人的轨迹特征建立关联,防止信息的损失和压缩。
可见,本公开在实际自动驾驶应用中,既适应车载低功耗处理器的处理能力,又保证了对于复杂行人轨迹预测的实时性和有效性,提高了对行人轨迹预测的准确性,为实际自动驾驶决策提供了可靠的依据,大大提高了自动驾驶的安全性。
至此,已经结合附图所示的优选实施方法描述了本公开的技术方案,但是,本领域技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定,本公开的保护范围显然不局限于这些具体实施方式。在不偏离本公开的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案仍处于本公开的范围内。
Claims (24)
1.一种基于时空注意力机制的行人轨迹预测方法,其特征在于,包括:
步骤一、采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
步骤二、进行数据预处理,得到场景中每个行人的历史轨迹坐标;
步骤三、采用编码器Encoder编码行人的历史轨迹并输出特征张量;
步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息;
其中,对输入时间序列进行采样,并提取每个行人的历史观测坐标值并设定预测的坐标值为:
其中,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量;
采用第一多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征;
所述行人的历史轨迹坐标点数据序列表示为如下形式:
所述高维时序特征表示为如下形式:
其中,通过所述第一多层感知机φe,将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标,映射至16维特征;所述第一多层感知机φe设置为一层全连接层,参数为Wee,PE为位置嵌入,则所述能够进一步表示如下:
通过时间注意力机制更新每个行人的高维时序特征,得到行人时间特征;
所述行人时间特征表示如下:
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征和 表示的维数,对于计算出的中间系数进行Softmax操作得到注意力系数其中1≤r′≤t,r′表示位于第1帧和第t帧之间的第r′帧,表示利用第i个行人在第t帧和第r′帧的特征和计算出的中间系数;利用注意力系数更新第i个行人在第t帧的特征,得到行人时间特征计算方式如下:
2.根据权利要求1所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。
4.根据权利要求1或3所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
通过空间注意力机制更新每个行人的所述高维时序特征,得到行人空间特征;
所述行人空间特征表示如下:
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第i个行人和第j个行人的特征和 表示的维数,对于计算出的进行Softmax操作得到其中1≤j′≤N,j′代表第1至第N个行人,表示利用第t帧第i个行人和第j′个行人的特征和计算出的中间系数;利用注意力系数更新第t帧第i个行人,得到行人空间特征计算方式如下:
7.根据权利要求6所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
其中,和分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的行人空间特征和表示WTS k的维数,对于计算出的进行Softmax操作得到其中1≤r′≤t,r′表示位于第1帧和第t帧之间的第r′帧,表示利用第i个行人在第t帧和第r′帧的行人空间特征和计算出的中间系数;利用注意力系数更新第i个行人在第t帧的行人空间特征,得到行人时空特征计算方式如下:
11.根据权利要求10所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
采用解码器Decoder迭代预测行人的未来轨迹,每次迭代都使得新预测的位置坐标融合先前预测位置坐标信息以及编码器所输出的时空混合特征。
15.根据权利要求14所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
其中,Wself q和Wself k分别代表可学习的权重矩阵,并分别作用于第i个行人的预测特征序列中最后一个高维特征与其它高维特征 表示Wself k的维数,对于计算出的中间系数进行Softmax操作得到其中0≤n″≤n,表示第0帧至第n帧之间的所有预测帧,表示利用第i个行人的预测特征序列中最后一个高维特征与第n″帧高维特征计算出的中间系数;利用注意力系数更新预测特征序列中最后一个高维特征,得到相应的自注意力特征计算方式如下:
18.根据权利要求16所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
其中,Wed q和Wed k分别代表可学习的权重矩阵,并分别作用于第i个行人当前的自注意力特征与编码器输出的时空混合特征 表示Wed k的维数,对于计算出的进行Softmax操作得到其中1≤t′≤tobs,t′表示第1至tobs之间的观测帧,表示利用第i个行人当前的自注意力特征与编码器输出的第t′观测帧时空混合特征计算出的中间系数;利用注意力系数更新第i个行人当前的自注意力特征得到高维特征计算方式如下:
21.根据权利要求20所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量,如果满足,即达到了需要预测的未来12帧数量,则进行如下操作:
通过第四多层感知机φo,将每个行人的高维特征转换至预测的坐标值其中,每个行人的预测特征序列的特征数量为12,即tpred=12,首先去掉预测特征序列中的第一个预测特征,然后,通过第四多层感知机φo,按照公式将高维特征由32维降维至2维,得到每个行人在所有预测时刻的2维坐标其中φo为一层全连接,参数为Woo;
22.一种基于时空注意力机制的行人轨迹预测装置,其特征在于,包括:
图像采集装置,采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
数据预处理装置,进行数据预处理,得到场景中每个行人的历史轨迹坐标;
编码装置,采用编码器Encoder编码行人的历史轨迹并输出特征张量;
解码装置,采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息;
其中,对输入时间序列进行采样,并提取每个行人的历史观测坐标值并设定预测的坐标值为:
其中,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量;
采用第一多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征;
所述行人的历史轨迹坐标点数据序列表示为如下形式:
所述高维时序特征表示为如下形式:
其中,通过所述第一多层感知机φe,将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标,映射至16维特征;所述第一多层感知机φe设置为一层全连接层,参数为Wee,PE为位置嵌入,则所述能够进一步表示如下:
通过时间注意力机制更新每个行人的高维时序特征,得到行人时间特征;
所述行人时间特征表示如下:
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征和 表示WT k的维数,对于计算出的中间系数进行Softmax操作得到注意力系数其中1≤r′≤t,r′表示位于第1帧和第t帧之间的第r′帧,表示利用第i个行人在第t帧和第r′帧的特征和计算出的中间系数;利用注意力系数更新第i个行人在第t帧的特征,得到行人时间特征计算方式如下:
23.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至21中任一项所述的方法。
24.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至21中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580013.0A CN113256681B (zh) | 2021-05-26 | 2021-05-26 | 基于时空注意力机制的行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580013.0A CN113256681B (zh) | 2021-05-26 | 2021-05-26 | 基于时空注意力机制的行人轨迹预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256681A CN113256681A (zh) | 2021-08-13 |
CN113256681B true CN113256681B (zh) | 2022-05-13 |
Family
ID=77184582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110580013.0A Active CN113256681B (zh) | 2021-05-26 | 2021-05-26 | 基于时空注意力机制的行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256681B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568416B (zh) * | 2021-09-26 | 2021-12-24 | 智道网联科技(北京)有限公司 | 无人车轨迹规划方法、装置和计算机可读存储介质 |
EP4181091A1 (en) * | 2021-11-16 | 2023-05-17 | Waymo Llc | Pedestrian behavior prediction with 3d human keypoints |
CN113870319B (zh) * | 2021-12-03 | 2022-03-08 | 宁波大学 | 基于图卷积特征编解码的轨迹预测系统及方法 |
CN114692941A (zh) * | 2021-12-30 | 2022-07-01 | 江南大学 | 基于多注意力的公司财务预测方法 |
CN114372116B (zh) * | 2021-12-30 | 2023-03-21 | 华南理工大学 | 一种基于lstm和时空注意力机制的车辆轨迹预测方法 |
CN114638408B (zh) * | 2022-03-03 | 2024-10-15 | 南京航空航天大学 | 一种基于时空信息的行人轨迹预测方法 |
CN114885293B (zh) * | 2022-04-26 | 2022-12-20 | 和智信(山东)大数据科技有限公司 | 一种基于深度学习的信令轨迹恢复方法、系统及存储介质 |
CN115071762B (zh) * | 2022-08-22 | 2022-12-16 | 北京理工大学前沿技术研究院 | 面向城市场景下行人轨迹预测方法、模型及存储介质 |
CN115829171B (zh) * | 2023-02-24 | 2023-05-09 | 山东科技大学 | 一种联合时空信息和社交互动特征的行人轨迹预测方法 |
CN115966313B (zh) * | 2023-03-09 | 2023-06-09 | 创意信息技术股份有限公司 | 基于人脸识别的一体化管理平台 |
CN116807458A (zh) * | 2023-07-04 | 2023-09-29 | 中原工学院 | 一种基于注意力机制的人体步态轨迹预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428763A (zh) * | 2020-03-17 | 2020-07-17 | 陕西师范大学 | 一种基于场景约束gan的行人轨迹预测方法 |
CN112766561A (zh) * | 2021-01-15 | 2021-05-07 | 东南大学 | 一种基于注意力机制的生成式对抗轨迹预测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409499B (zh) * | 2018-09-20 | 2022-03-15 | 北京航空航天大学 | 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法 |
WO2021003379A1 (en) * | 2019-07-03 | 2021-01-07 | Waymo Llc | Agent trajectory prediction using anchor trajectories |
CN115605918A (zh) * | 2019-10-04 | 2023-01-13 | 伟摩有限责任公司(Us) | 时空嵌入 |
CN111553232B (zh) * | 2020-04-22 | 2023-04-07 | 陕西师范大学 | 基于场景状态迭代的门循环单元网络行人轨迹预测方法 |
CN111862672B (zh) * | 2020-06-24 | 2021-11-23 | 北京易航远智科技有限公司 | 基于顶视图的停车场车辆自定位及地图构建方法 |
CN111968375B (zh) * | 2020-08-27 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 交通流量的预测方法、装置、可读存储介质及电子设备 |
CN112215337B (zh) * | 2020-09-30 | 2024-05-14 | 江苏大学 | 一种基于环境注意力神经网络模型的车辆轨迹预测方法 |
CN112686281B (zh) * | 2020-12-08 | 2024-10-18 | 深圳先进技术研究院 | 基于时空注意力和多级lstm信息表达的车辆轨迹预测方法 |
-
2021
- 2021-05-26 CN CN202110580013.0A patent/CN113256681B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428763A (zh) * | 2020-03-17 | 2020-07-17 | 陕西师范大学 | 一种基于场景约束gan的行人轨迹预测方法 |
CN112766561A (zh) * | 2021-01-15 | 2021-05-07 | 东南大学 | 一种基于注意力机制的生成式对抗轨迹预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113256681A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113256681B (zh) | 基于时空注意力机制的行人轨迹预测方法 | |
WO2016156236A1 (en) | Method and electronic device | |
US12008762B2 (en) | Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds | |
Palazzo et al. | Domain adaptation for outdoor robot traversability estimation from RGB data with safety-preserving loss | |
Valada et al. | Towards robust semantic segmentation using deep fusion | |
CN113392725B (zh) | 基于视频数据的行人过街意图识别方法 | |
Hou et al. | Fast recurrent fully convolutional networks for direct perception in autonomous driving | |
Paravarzar et al. | Motion prediction on self-driving cars: A review | |
Feng et al. | Using appearance to predict pedestrian trajectories through disparity-guided attention and convolutional LSTM | |
CN115861383A (zh) | 一种拥挤空间下多信息融合的行人轨迹预测装置及方法 | |
CN114581488A (zh) | 基于第一人称视角视频的行人轨迹预测方法及装置 | |
WO2022171590A1 (en) | Method for determining a degradation degree of a captured image, computer program product, computer-readable storage medium as well as assistance system | |
US20230343062A1 (en) | Tracking users across image frames using fingerprints obtained from image analysis | |
CN110111358B (zh) | 一种基于多层时序滤波的目标跟踪方法 | |
Bono et al. | End-to-end (instance)-image goal navigation through correspondence as an emergent phenomenon | |
CN115690732A (zh) | 一种基于细粒度特征提取的多目标行人跟踪方法 | |
Mehtab | Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors | |
Amirloo et al. | Self-supervised simultaneous multi-step prediction of road dynamics and cost map | |
US20230227073A1 (en) | Vehicular autonomous control system based on learned and predicted vehicle motion | |
CN113902776B (zh) | 目标行人轨迹预测方法、装置、电子设备及存储介质 | |
Bolimera et al. | Ego Vehicle Lane Detection and Key Point Determination Using Deep Convolutional Neural Networks and Inverse Projection Mapping | |
CN118711143A (zh) | 基于改进DeepSort框架的隧道场景中车辆跟踪方法 | |
Kenk et al. | Driving Perception in Challenging Road Scenarios: An Empirical Study | |
Kosman et al. | Vision-Guided Forecasting--Visual Context for Multi-Horizon Time Series Forecasting | |
Yang et al. | FHPE-Net: Pedestrian Intention Prediction Using Fusion with Head Pose Estimation Based on RNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |