CN113256681A - 基于时空注意力机制的行人轨迹预测方法 - Google Patents

基于时空注意力机制的行人轨迹预测方法 Download PDF

Info

Publication number
CN113256681A
CN113256681A CN202110580013.0A CN202110580013A CN113256681A CN 113256681 A CN113256681 A CN 113256681A CN 202110580013 A CN202110580013 A CN 202110580013A CN 113256681 A CN113256681 A CN 113256681A
Authority
CN
China
Prior art keywords
pedestrian
frame
attention mechanism
ith
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110580013.0A
Other languages
English (en)
Other versions
CN113256681B (zh
Inventor
陈禹行
董铮
李雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yihang Yuanzhi Technology Co Ltd
Original Assignee
Beijing Yihang Yuanzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yihang Yuanzhi Technology Co Ltd filed Critical Beijing Yihang Yuanzhi Technology Co Ltd
Priority to CN202110580013.0A priority Critical patent/CN113256681B/zh
Publication of CN113256681A publication Critical patent/CN113256681A/zh
Application granted granted Critical
Publication of CN113256681B publication Critical patent/CN113256681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

基于时空注意力机制的行人轨迹预测方法,包括:采集场景中的图像信息,提取行人在图像坐标系下的位置信息;进行数据预处理,得到场景中每个行人的历史轨迹坐标;采用编码器Encoder编码行人的历史轨迹并输出特征张量;以及采用解码器Decoder迭代预测行人的未来轨迹坐标;其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息;实现了自动驾驶实际应用场景下对行人轨迹的实时有效预测,既适应车载低功耗处理器的处理能力,又提高了对行人轨迹预测的准确性,为实际自动驾驶决策提供了可靠的依据,大大提高了自动驾驶的安全性。

Description

基于时空注意力机制的行人轨迹预测方法
技术领域
本公开涉及自动驾驶和计算机视觉技术领域,具体涉及一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质,尤其涉及一种基于深度学习方法在具有复杂的行人交互场景下的行人轨迹预测技术。
背景技术
随着计算机视觉技术的发展,采用计算机视觉技术进行环境感知已经成为自动驾驶系统和其它智能感知系统中不可或缺的部分。其中,行人轨迹预测在自动驾驶和视频监控领域等具有重要意义。在自动驾驶场景中,预测行人未来的轨迹,可以辅助自动驾驶汽车做出正确的决策,保障行人的生命安全,提高自动驾驶汽车的安全性和可靠性。在视频监控领域,预测行人未来的轨迹可以提前对危险的事件做出预警,保障人员生命和财产安全。可见,研究行人轨迹预具有非常重要的现实意义。
现阶段,行人轨迹预测研究方面还存在诸多难点,目前主流的论文或专利提出不同的技术尝试解决,但所提供的方法在实际自动驾驶系统使用中还存在很大的完备空间。
为了解现有技术的发展状况,本公开对已有的专利文献和论文进行了检索、比较和分析:
方案1:2016年的CVPR论文“Social lstm:Human trajectory prediction incrowded spaces”是最早采用LSTM解决行人轨迹预测的论文之一,每个行人的历史轨迹坐标被输入到长短期记忆网络(LSTM)结构中,首先进行编码,然后通过解码器解码出未来轨迹。为了利用不同行人之间的交互特征,模型中间采用池化(Pooling)层,编码若干最重要的邻居特征。但是,基于循环神经网络的结构局限于顺序处理,效率较低,且基于直觉而设计的池化层难以捕捉交互情况。
方案2:2018年CVPR论文“Social gan:Socially acceptable trajectories withgenerative adversarial networks”以及2019年CVPR论文“Sophie:An attentive ganfor predicting paths compliant to social and physical constraints”均基于LSTM结构进行轨迹的预测,并采用对抗神经网络来为行人生成多种可能的轨迹。两篇论文的方法基于循环神经网络结构,无法并行运算,引入的对抗神经网络网络还导致昂贵的训练代价。
方案3:论文“Social-STGCNN:A Social Spatio-Temporal Graph ConvolutionalNeural Network for Human Trajectory Prediction”采用图的方式建立某一帧下行人之间的交互关系,将行人视为图中的节点。对于过去的每一帧,通过图卷积的方式表征出同一场景下行人之间的交互关系,最终通过一维卷积核在每个行人的历史信息上进行卷积操作,得到未来的轨迹。该方法根据距离远近设置图的邻接矩阵,特征选取较为单一,并且通过一维卷积计算未来轨迹的方式无法捕捉行人轨迹的长距离依赖,导致预测偏差。
方案4:专利文献CN111797751A提出了一种利用行人的历史运动轨迹信息与历史头部姿态信息,共同训练并输出行人轨迹预测的模型。其对至少两帧历史行人图像中的每一帧历史行人图像进行头部姿态检测,并对连续多帧的图像中的行人进行检测和跟踪,输入到行人轨迹预测模型,输出行人轨迹。头部姿态信息的检测模块会引起性能上的开销,而模型所采用的LSTM结构导致无法并行化计算,两者共同作用不利于实时的轨迹预测。
可见,现有的行人轨迹预测方案还存在计算效率低、无法并行化;网络训练开销大,不适合自动驾驶实际使用中的预测需要;以及对交互场景下的预测效果不理想等问题。
综上,现有技术目前仍然无法解决自动驾驶实际应用场景下对行人轨迹进行实时有效预测的技术问题,影响了自动驾驶的决策。因此,如何提供一种可并行化计算,提高计算效率,减少网络训练开销,满足自动驾驶决策中对交互场景下的实时有效预测需求的行人轨迹预测技术,成为当前自动驾驶领域非常有现实意义的研究内容。
发明内容
为达到上述发明目的,本公开在如下几个方面进行了改进:
一是行人历史的轨迹和行为会表现出行人的整体趋势或者意图,是减少不确定性并进行预测的重要依据,挖掘和分析行人历史轨迹,提取有效的特征和信息,是行人轨迹预测的关键步骤。针对主流的方法一般采用循环神经网络来进行时间序列预测,包括RNN、LSTM、GRU等,典型的方法例如Social-LSTM,无法并行化,计算效率低,难以对长距离关系进行建模,容易造成性能瓶颈的技术问题,本公开基于注意力机制,有效捕捉行人历史轨迹中的关键部分,能够以并行化的风格和全局感受野保证性能。
二是人和人之间存在社交关系,结伴而行的人群会始终保持聚集状态,静止(聊天等)或同时向一个方向前进,相对而行的人为了避免碰撞,常出现绕行或者暂停。针对Social GAN等方法对位置的差值进行编码,再进行Pooling,这种基于手工设计的交互特征,具有一定程度的主观性,不利于模型学习;而一些方法采用图网络的结构,假定行人是图的顶点,利用图卷积对节点特征进行更新,融合周围行人的特征以建立不同行人之间的社交联系,图网络有利于对同一时刻下场景中的不同行人进行建模,但却无法有效解决不同时刻下行人的交互情况,以及难以平衡行人自身轨迹特征和交互特征的相互作用的技术问题,本公开中,编码器模块通过时间注意力机制、空间注意力机制以及时空注意力机制三种方式,对行人的历史轨迹和交互关系进行编码,在时间、空间两个角度,充分捕捉行人自身和不同行人之间的特征;在解码器中,通过自注意力机制和编码器-解码器注意力机制来预测未来的轨迹,最终达到了准确的预测。
三是在同一场景下,行人存在多条可能的未来轨迹,而不是单一的、确定的轨迹,例如遇到障碍物绕行,既可以从左侧穿过,也可以从右侧穿过,两种轨迹都是合理的;此外,行人的行为存在随机性,往往会出现违逆历史趋势的动作,例如转向,停止走路等。因此,生成多种轨迹的网络是必要的。常采用生成对抗神经网络生成多种可能的轨迹,或在高斯分布上进行采样得到多个轨迹。针对生成对抗网络的训练难度高,训练开销较大,高斯分布上进行采样的方式不便于辅助自动驾驶车辆的决策等技术问题,本公开通过添加噪声模块,以较低的成本,在一定程度上增加了行人轨迹的不确定性,提升了预测效果。
具体地,为了解决上述技术问题,本公开提供了一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质。
根据本公开的一个方面,本公开提供了一种基于时空注意力机制的行人轨迹预测方法,包括如下步骤:
步骤一、采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
步骤二、进行数据预处理,得到场景中每个行人的历史轨迹坐标;
步骤三、采用编码器Encoder编码行人的历史轨迹并输出特征张量;
步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
优选地,以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。
优选地,对输入时间序列进行采样,并提取每个行人的历史观测坐标值并设定预测的坐标值为:
Figure RE-GDA0003151343510000041
其中i表示第i个行人,N表示当前场景的行人数量,t表示预测第t 帧,tpred表示预测的总帧数,
Figure RE-GDA0003151343510000042
表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值。
优选地,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量;
采用第一多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征;
所述行人的历史轨迹坐标点数据序列表示为如下形式:
Figure RE-GDA0003151343510000043
其中,tobs表示观测的帧数,i表示第i个行人,N表示当前场景的行人数量,t表示预测第t帧,tobs表示观测的总帧数,
Figure RE-GDA0003151343510000044
表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值;
所述高维时序特征表示为如下形式:
Figure RE-GDA0003151343510000051
其中,通过所述第一多层感知机φe,将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标,映射至16维特征;所述第一多层感知机φe设置为一层全连接层,参数为Wee,PE为位置嵌入,则所述
Figure RE-GDA0003151343510000052
能够进一步表示如下:
Figure RE-GDA0003151343510000053
Figure RE-GDA0003151343510000054
Figure RE-GDA0003151343510000055
其中t表示轨迹点的帧号,de表示特征维度,de=16,2d和2d+1表示特征的第2d维度和第2d+1维度,其中
Figure RE-GDA0003151343510000056
优选地,通过时间注意力机制更新每个行人的高维时序特征,得到行人时间特征;
所述行人时间特征表示如下:
Figure RE-GDA0003151343510000057
其中,输入每个行人的所述高维时序特征,计算第i个行人在第t帧对于第r帧的注意力系数ATi tr,如下所示:
Figure RE-GDA0003151343510000058
Figure RE-GDA0003151343510000059
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征
Figure RE-GDA00031513435100000510
Figure RE-GDA00031513435100000511
Figure RE-GDA00031513435100000512
表示WT k的维数,对于计算出的中间系数
Figure RE-GDA00031513435100000513
进行Softmax操作得到注意力系数ATi tr,其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,
Figure RE-GDA00031513435100000514
表示利用第i个行人在第t帧和第r'帧的特征
Figure RE-GDA00031513435100000515
Figure RE-GDA00031513435100000516
计算出的中间系数;利用注意力系数ATi tr,更新第i个行人在第t帧的特征,得到行人时间特征
Figure RE-GDA00031513435100000517
计算方式如下:
Figure RE-GDA00031513435100000518
其中WT v代表可学习的权重矩阵,作用于第r'帧的特征
Figure RE-GDA0003151343510000061
优选地,所述WT q、WT k、WT v维数均为4×16,每层注意力的头数为4,注意力机制的层数为2,得到的行人时间特征
Figure RE-GDA0003151343510000062
的维数为16。
优选地,通过空间注意力机制更新每个行人的所述高维时序特征,得到行人空间特征;
所述行人空间特征表示如下:
Figure RE-GDA0003151343510000063
其中,输入每个行人的高维时序特征
Figure RE-GDA0003151343510000064
计算在t时刻第i个行人对第j个行人的注意力系数
Figure RE-GDA0003151343510000065
如下所示:
Figure RE-GDA0003151343510000066
Figure RE-GDA0003151343510000067
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第 i个行人和第j个行人的特征
Figure RE-GDA0003151343510000068
Figure RE-GDA0003151343510000069
Figure RE-GDA00031513435100000610
表示WS k的维数,对于计算出的
Figure RE-GDA00031513435100000611
进行Softmax操作得到
Figure RE-GDA00031513435100000612
其中1≤j'≤N,j'代表第1至第N个行人,
Figure RE-GDA00031513435100000613
表示利用第t帧第i个行人和第j'个行人的特征
Figure RE-GDA00031513435100000614
Figure RE-GDA00031513435100000615
计算出的中间系数;利用注意力系数
Figure RE-GDA00031513435100000616
更新第t帧第i个行人,得到行人空间特征
Figure RE-GDA00031513435100000617
计算方式如下:
Figure RE-GDA00031513435100000618
其中WS v代表可学习的权重矩阵,作用于第t帧第j'个行人的特征
Figure RE-GDA00031513435100000619
优选地,所述WS q、WS k、WS v维数均为4×16,每层注意力的头数为4,注意力机制的层数为2,得到的行人空间特征
Figure RE-GDA00031513435100000620
的维数为16。
优选地,输入不同时刻下每个行人的所述行人空间特征,通过时间注意力机制更新每个行人的空间特征,得到行人时空特征;
所述行人时空特征表示如下:
Figure RE-GDA00031513435100000621
捕捉不同时刻下不同行人之间的交互情况。
优选地,输入每个行人的所述行人空间特征
Figure RE-GDA0003151343510000071
计算第i个行人在t时刻空间特征对于r时刻空间特征的注意力系数
Figure RE-GDA0003151343510000072
计算方式如下:
Figure RE-GDA0003151343510000073
Figure RE-GDA0003151343510000074
其中,WTS q和WTS k分别代表可学习的权重矩阵,并分别作用于第i个行人在t时刻和r时刻的行人空间特征
Figure RE-GDA0003151343510000075
Figure RE-GDA0003151343510000076
Figure RE-GDA0003151343510000077
表示WTS k的维数,对于计算出的
Figure RE-GDA0003151343510000078
进行Softmax操作得到
Figure RE-GDA0003151343510000079
其中1≤r'≤t,r'表示位于第 1帧和第t帧之间的第r'帧,
Figure RE-GDA00031513435100000710
表示利用第i个行人在第t帧和第r'帧的行人空间特征
Figure RE-GDA00031513435100000711
Figure RE-GDA00031513435100000712
计算出的中间系数;利用注意力系数
Figure RE-GDA00031513435100000713
更新第i个行人在第t帧的行人空间特征,得到行人时空特征
Figure RE-GDA00031513435100000714
计算方式如下:
Figure RE-GDA00031513435100000715
其中WTS v代表可学习的权重矩阵,作用于r'时刻的行人空间特征
Figure RE-GDA00031513435100000716
优选地,所述WTS q、WTS k、WTS v维数均为4×16,每层注意力的头数为 4,注意力机制的层数为2,得到的行人时空特征
Figure RE-GDA00031513435100000717
的维数为16。
优选地,通过拼接操作(concatenate)将所述行人时间特征
Figure RE-GDA00031513435100000718
和所述行人时空特征
Figure RE-GDA00031513435100000719
进行拼接,并通过第二多层感知机φh进行降维,在降维特征中加入噪声,并恢复到原有维度,以生成多条备选的轨迹。
优选地,所述行人时间特征
Figure RE-GDA00031513435100000720
和所述行人时空特征
Figure RE-GDA00031513435100000721
的维数均为16,通过拼接操作(concatenate)将前述两个16维特征拼接,得到32维的特征;
所述32维的特征经过第二多层感知机φh降维至24维,其中φh包括一层全连接,参数为Whh,再通过高斯分布产生8维的随机噪声enoise,将24 维的特征与8维的随机噪声拼接,最终得到32维的时空混合特征
Figure RE-GDA00031513435100000722
表示如下:
Figure RE-GDA00031513435100000723
优选地,采用解码器Decoder迭代预测行人的未来轨迹,每次迭代都使得新预测的位置坐标融合先前预测位置坐标信息以及编码器所输出的时空混合特征。
优选地,通过第三多层感知机φd,将每个行人输入的最后一帧轨迹的坐标
Figure RE-GDA0003151343510000081
进行升维,得到高维预测特征
Figure RE-GDA00031513435100000819
并添加到预测特征序列中。
优选地,对每个行人建立一个序列,存储未来每一帧的预测特征,所述序列称为预测特征序列,所述预测特征序列中的特征维数均为32维;对于每个行人的观测序列中的最后一帧的2维轨迹坐标
Figure RE-GDA0003151343510000082
即第8帧的2维轨迹坐标,按照公式
Figure RE-GDA0003151343510000083
通过通过第三多层感知机φd升维至32维的特征
Figure RE-GDA0003151343510000084
并添加至预测特征序列中,其中φd为一层全连接,参数为Wdd
优选地,通过自注意力机制,计算特征序列中最后一个高维预测特征
Figure RE-GDA0003151343510000085
与其它高维预测特征
Figure RE-GDA0003151343510000086
的注意力关系,更新预测特征序列中最后一个高维预测特征,得到相应的自注意力特征
Figure RE-GDA0003151343510000087
优选地,对每个行人的预测特征序列特征序列中最后一个高维特征
Figure RE-GDA0003151343510000088
通过注意力机制,计算第i个行人的预测特征序列中最后一个高维特征与其它高维特征
Figure RE-GDA0003151343510000089
的注意力系数
Figure RE-GDA00031513435100000810
计算方式如下:
Figure RE-GDA00031513435100000811
Figure RE-GDA00031513435100000812
其中,Wself q和Wself k分别代表可学习的权重矩阵,并分别作用于第i个行人的预测特征序列中最后一个高维特征
Figure RE-GDA00031513435100000813
与其它高维特征
Figure RE-GDA00031513435100000814
Figure RE-GDA00031513435100000815
表示Wself k的维数,对于计算出的
Figure RE-GDA00031513435100000816
进行Softmax操作得到
Figure RE-GDA00031513435100000817
其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧,
Figure RE-GDA00031513435100000818
表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数;利用注意力系数
Figure RE-GDA0003151343510000091
更新预测特征序列中最后一个高维特征,得到相应的自注意力特征
Figure RE-GDA0003151343510000092
计算方式如下:
Figure RE-GDA0003151343510000093
其中Wself v代表可学习的权重矩阵,作用于tobs+n”时刻的行人高维特征
Figure RE-GDA0003151343510000094
其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧。
优选地,其中Wself q、Wself k、Wself v维数均为8×32,每层注意力的头数为4,注意力机制的层数为2,得到的自注意力特征
Figure RE-GDA0003151343510000095
的维数为32。
优选地,通过注意力机制,计算当前的自注意力特征
Figure RE-GDA0003151343510000096
与编码器输出的时空混合特征
Figure RE-GDA0003151343510000097
的关系,更新当前的自注意力特征,得到高维特征
Figure RE-GDA0003151343510000098
优选地,对于得到的32维自注意力特征
Figure RE-GDA0003151343510000099
计算第i个行人的当前的自注意力特征
Figure RE-GDA00031513435100000910
与与编码器输出的时空混合特征
Figure RE-GDA00031513435100000911
的注意力系数
Figure RE-GDA00031513435100000912
计算方式如下:
Figure RE-GDA00031513435100000913
Figure RE-GDA00031513435100000914
其中,Wed q和Wed k分别代表可学习的权重矩阵,并分别作用于第i个行人当前的自注意力特征
Figure RE-GDA00031513435100000915
与编码器输出的时空混合特征
Figure RE-GDA00031513435100000916
Figure RE-GDA00031513435100000917
表示Wed k的维数,对于计算出的
Figure RE-GDA00031513435100000918
进行Softmax操作得到
Figure RE-GDA00031513435100000919
其中1≤t'≤tobs,t'表示第1至tobs之间的观测帧,
Figure RE-GDA00031513435100000920
表示利用第i个行人当前的自注意力特征与编码器输出的第t'观测帧时空混合特征计算出的中间系数;利用注意力系数
Figure RE-GDA00031513435100000921
更新第i个行人当前的自注意力特征
Figure RE-GDA0003151343510000101
得到得到高维特征
Figure RE-GDA0003151343510000102
计算方式如下:
Figure RE-GDA0003151343510000103
其中Wed v代表可学习的权重矩阵,作用于第t'帧的编码器输出的时空混合特征
Figure RE-GDA0003151343510000104
优选地,其中Wed q、Wed k、Wed v维数均为8×32,每层注意力的头数为 4,注意力机制的层数为2,得到的高维特征
Figure RE-GDA0003151343510000105
的维数为32。
优选地,将高维特征
Figure RE-GDA0003151343510000106
加入到每个行人的预测特征序列中,每个行人的预测特征序列的特征数量增加1。
优选地,判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量,如果满足,即达到了需要预测的未来12帧数量,则进行如下操作:
通过第四多层感知机φo,将每个行人的高维特征
Figure RE-GDA0003151343510000107
转换至预测的坐标值
Figure RE-GDA0003151343510000108
其中,每个行人的预测特征序列的特征数量为12,即tpred=12,首先去掉预测特征序列中的第一个预测特征,然后,通过第四多层感知机φo,按照公式
Figure RE-GDA0003151343510000109
将高维特征
Figure RE-GDA00031513435100001010
由32维降维至2维,得到每个行人在所有预测时刻的2维坐标
Figure RE-GDA00031513435100001011
其中φo为一层全连接,参数为Woo
如果不满足,即没有达到需要预测的未来12帧数量,则返回到通过自注意力机制,计算特征序列中最后一个高维预测特征
Figure RE-GDA00031513435100001012
与其它高维预测特征
Figure RE-GDA00031513435100001013
的注意力关系的步骤,更新预测特征序列中最后一个高维预测特征,得到相应的自注意力特征
Figure RE-GDA00031513435100001014
根据本公开的另一个方面,本公开提供了一种基于时空注意力机制的行人轨迹预测装置,包括:
图像采集装置,采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
数据预处理装置,进行数据预处理,得到场景中每个行人的历史轨迹坐标;
编码装置,采用编码器Encoder编码行人的历史轨迹并输出特征张量;
解码装置,采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
根据本公开的再一个方面,本公开提供了一种电子设备,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述方法。
根据本公开的又一个方面,本公开提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述方法。
本公开的有益效果:
1、本公开在编码器中,时间注意力机制、空间注意力机制以及时空注意力机制三种方式,能够充分挖掘单个行人的历史轨迹特征,捕捉同一时刻不同行人之间的交互关系,并对不同时刻不同行人之间的复杂关系进行建模所述编码器不依靠循环神经网络结构,特征关联的计算不受距离的影响,能够以并行化的风格和全局感受野保证预测性能;
2、在解码器中,通过自注意力机制和编解码器注意力机制,使得预测轨迹融合了历史轨迹的特征,有效表征行人瞬时或者持续的意图,并考虑到不同行人之间复杂的交互影响,提高了未来轨迹预测的准确度;
3、整个网络的结构完全去除循环神经网络,只保留注意力机制,更有利于并行化,提高了计算效率,有利于满足实际自动驾驶场景下的对行人轨迹预测的实时性要求;
4、时间注意力机制提取行人的时间特征,对于每个行人,融合了自身过去时间下的特征,而不对邻居行人特征进行融合,提高了预测的准确性。
5、空间注意力机制提取行人的空间特征,对于每个行人,融合了当前时间点下邻居行人的信息,并将该行人自身特征得到更新,考虑了社交因素,保证了预测的合理性和可靠性;
6、时空注意力机制提取行人的时空特征,不仅局限于某个时刻的行人交互,更综合了某段时间内行人之间的整体交互情况,进一步保证了预测可靠性。
7、网络结构具有全局感受野,可以对充分对不同时刻不同行人的轨迹特征建立关联,防止信息的损失和压缩,进一步提高了预测的准确性。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。通过结合附图对本公开的实施例进行详细描述,本公开的上述和其它目的、特征、优点将更加清楚。
图1示出了根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程
图2示出了编码器Encoder对行人坐标特征进行编码的流程
图3示出了时间注意力机制
图4示出了空间注意力机制
图5示出了解码器Decoder迭代预测行人的未来轨迹的流程
图6示出了解码器Decoder的结构
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本公开使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本公开的目的之一是提供一种基于时空注意力机制的行人轨迹预测方法。
图1是根据本公开一个实施例的基于多注意力机制的行人轨迹预测方法和系统的总体流程图。如图1所示,输入的数据为当前场景中每个行人的历史轨迹坐标,第一步使用编码器Encoder编码行人的历史轨迹并输出特征张量,第二步采用解码器Decoder迭代预测行人的未来轨迹坐标。
自动驾驶过程中,传感器感知到场景中存在一个或者多个行人,系统需要对行人的未来轨迹进行预测,本公开的基于时空注意力机制的行人轨迹预测方法能够适用多种视角,不仅适用于通常的以监控场景为代表的俯视拍摄视角,而且十分适用于以自动驾驶汽车为代表的平视视角,即本公开既适用于自动驾驶或辅助驾驶过程中实时对道路上的行人进行轨迹分析,也适用于普通监控场景下对所拍摄的行人进行轨迹分析,尤其适用于自动驾驶决策中对交互场景下的实时有效预测,采用并行化计算,提高计算效率,减少网络训练开销,适用于实际自动驾驶车辆中的低功耗车载处理器处理能力的同时还保证了对行人轨迹的实时有效预测,大大提高了系统的决策能力。
本公开适用于以下两种情境:一个具体的情境是拍摄的设备为高处监控相机,角度为俯视拍摄,在这种情况下,每个行人在所拍摄的图像的像素坐标系下的坐标值能够近似为世界坐标系下的绝对位置;另一个具体的情境为自动驾驶汽车的车载相机所拍摄的前方道路场景,行人的轨迹基于图像坐标系,预测未来轨迹能够辅助自动驾驶系统的决策。因此,本公开适用范围广泛,且能够有效解决自动驾驶过程中对行人轨迹预测的实时性和可靠性要求问题。本公开实施例中,以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并获取自动驾驶汽车感知系统提供的的行人在图像坐标系下的位置信息。
在步骤S110中,由于输入的数据为视频形式的时间序列信息,为了能够满足自动驾驶汽车的实时性要求和在不损失精度的情况下降低计算复杂度,本公开对输入时间序列进行采样,并提取每个行人的历史观测坐标值如下:
Figure RE-GDA0003151343510000151
其中,tobs表示观测的帧数,i表示第i个行人,N表示当前场景的行人数量,
定义预测的坐标值为:
Figure RE-GDA0003151343510000152
其中i表示第i个行人,N表示当前场景的行人数量,tpred表示预测的帧数。
具体地,输入的视频的原始帧率为25FPS,即原始1帧时长为0.04 秒,本公开按照原始10帧为单位进行采样,即按照0.4秒的间隔进行采样,新的1帧时长为0.4秒,设置tobs=8且tpred=12,通过每个行人的历史的8帧坐标信息去预测未来12帧的坐标信息,即通过历史的3.2秒坐标信息预测未来4.8秒的坐标信息。
在步骤S120中,采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量,编码器Encoder通过注意力机制,融合了每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
图2示出了编码器Encoder对行人坐标特征进行编码的流程。
在步骤S121中,为了增强和丰富原始数据特征,并保留轨迹点的时序关系,采用多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列
Figure RE-GDA0003151343510000153
进行升维,得到高维时序特征
Figure RE-GDA0003151343510000154
具体地,输入的第i个行人的历史轨迹坐标为2维坐标
Figure RE-GDA0003151343510000161
通过多层感知机φe,将2维的坐标特征,映射至16维特征,多层感知机φe可以设置为一层全连接层,参数为 Wee,PE为位置嵌入,其中t表示轨迹点的帧号,de表示特征维度,de=16, 2d和2d+1表示特征的第2d维度和第2d+1维度,其中
Figure RE-GDA0003151343510000162
Figure RE-GDA0003151343510000163
Figure RE-GDA0003151343510000164
Figure RE-GDA0003151343510000165
在步骤S122中,参见图3,通过时间注意力机制更新每个行人的高维时序特征
Figure RE-GDA0003151343510000166
得到行人时间特征
Figure RE-GDA0003151343510000167
其中,时间注意力是指每个行人对自身的历史轨迹坐标做一次注意力操作,可以提取单个行人历史的轨迹特征,挖掘行人的整体运动趋势和意图。具体地,输入每个行人的高维时序特征
Figure RE-GDA0003151343510000168
根据下式,计算第i个行人在第t帧对于第r帧的注意力系数
Figure RE-GDA0003151343510000169
Figure RE-GDA00031513435100001610
Figure RE-GDA00031513435100001611
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征
Figure RE-GDA00031513435100001612
Figure RE-GDA00031513435100001613
Figure RE-GDA00031513435100001614
表示WT k的维数,对于计算出的
Figure RE-GDA00031513435100001615
需要进行Softmax操作得到注意力系数
Figure RE-GDA00031513435100001616
其中1≤r'≤t,r'表示位于第 1帧和第t帧之间的第r'帧,
Figure RE-GDA00031513435100001617
表示利用第i个行人在第t帧和第r'帧的特征
Figure RE-GDA00031513435100001618
Figure RE-GDA00031513435100001619
计算出的中间系数;利用注意力系数
Figure RE-GDA00031513435100001620
更新第i个行人在第t 帧的特征,得到行人时间特征
Figure RE-GDA00031513435100001621
计算方式如下。
Figure RE-GDA00031513435100001622
其中WT v代表可学习的权重矩阵,作用于第r'帧的特征
Figure RE-GDA00031513435100001623
在本实施例中,WT q、WT k、WT v维数均为4×16,每层注意力的头数为 4,注意力机制的层数为2,得到的行人时间特征
Figure RE-GDA00031513435100001624
的维数为16。
在步骤S123中,参见图4,通过空间注意力机制更新每个行人的高维时序特征
Figure RE-GDA0003151343510000171
得到行人空间特征
Figure RE-GDA0003151343510000172
其中,空间注意力机制是指每个行人对当前时刻的场景下的其他行人做一次注意力操作,可以使得每个行人融合同一时刻下不同行人的特征,并能捕捉到行人之间的交互关系。具体地,输入每个行人的高维时序特征
Figure RE-GDA0003151343510000173
根据下式,计算在第t帧第i个行人对第j个行人的注意力系数
Figure RE-GDA0003151343510000174
Figure RE-GDA0003151343510000175
Figure RE-GDA0003151343510000176
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第 i个行人和第j个行人的特征
Figure RE-GDA0003151343510000177
Figure RE-GDA0003151343510000178
Figure RE-GDA0003151343510000179
表示WS k的维数,对于计算出的
Figure RE-GDA00031513435100001710
需要进行Softmax操作得到
Figure RE-GDA00031513435100001711
其中1≤j'≤N,j'代表第1至第N个行人,
Figure RE-GDA00031513435100001712
表示利用第t帧第i个行人和第j'个行人的特征
Figure RE-GDA00031513435100001713
Figure RE-GDA00031513435100001714
计算出的中间系数。利用注意力系数
Figure RE-GDA00031513435100001715
更新第t帧第i个行人,得到行人空间特征
Figure RE-GDA00031513435100001716
计算方式如下。
Figure RE-GDA00031513435100001717
其中WS v代表可学习的权重矩阵,作用于第t帧第j'个行人的特征
Figure RE-GDA00031513435100001718
在本实施例中,WS q、WS k、WS v维数均为4×16,每层注意力的头数为 4,注意力机制的层数为2,得到的行人空间特征
Figure RE-GDA00031513435100001719
的维数为16。
在步骤S124中,输入不同时刻下每个行人的空间特征
Figure RE-GDA00031513435100001720
通过时间注意力机制更新每个行人的空间特征,得到行人时空特征
Figure RE-GDA00031513435100001721
能够捕捉不同时刻下不同行人之间的交互情况,对更复杂的交互关系进行建模,提高预测的精度。具体地,输入每个行人的空间特征
Figure RE-GDA00031513435100001722
根据下式,计算第i个行人在第t帧空间特征对于第r帧空间特征的注意力系数
Figure RE-GDA00031513435100001723
Figure RE-GDA00031513435100001724
Figure RE-GDA0003151343510000181
其中,WTS q和WTS k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的行人空间特征
Figure RE-GDA0003151343510000182
Figure RE-GDA0003151343510000183
Figure RE-GDA0003151343510000184
表示WTS k的维数,对于计算出的
Figure RE-GDA0003151343510000185
需要进行Softmax操作得到
Figure RE-GDA0003151343510000186
利用注意力系数
Figure RE-GDA0003151343510000187
其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,
Figure RE-GDA0003151343510000188
表示利用第i 个行人在第t帧和第r'帧的行人空间特征
Figure RE-GDA0003151343510000189
Figure RE-GDA00031513435100001810
计算出的中间系数。利用注意力系数
Figure RE-GDA00031513435100001811
更新第i个行人在第t帧的行人空间特征,得到行人时空特征
Figure RE-GDA00031513435100001812
计算方式如下。
Figure RE-GDA00031513435100001813
其中WTS v代表可学习的权重矩阵,作用于r'时刻的行人空间特征
Figure RE-GDA00031513435100001814
在本实施例中,WTS q、WTS k、WTS v维数均为4×16,每层注意力的头数为4,注意力机制的层数为2,得到的行人时空特征
Figure RE-GDA00031513435100001815
的维数为16。
在步骤S125中,通过拼接操作(concatenate)将行人时间特征
Figure RE-GDA00031513435100001816
和行人时空特征
Figure RE-GDA00031513435100001817
拼接,并通过多层感知机φh进行降维,为了能够生成多条备选的轨迹,需要在降维特征中加入噪声,并恢复到原有维度。具体地,行人时间特征
Figure RE-GDA00031513435100001818
和行人时空特征
Figure RE-GDA00031513435100001819
维数均为16,通过拼接操作(concatenate)将行人时间特征和时空特征拼接,即将两个 16维特征拼接,得到32维的特征。32维的特征经过多层感知机φh降维至24维,其中φh包括一层全连接,参数为Whh,再通过高斯分布产生8 维的随机噪声enoise,将24维的特征与8维的随机噪声拼接,最终得到32 维的时空混合特征
Figure RE-GDA00031513435100001820
Figure RE-GDA00031513435100001821
在步骤S130中,采用解码器Decoder迭代预测行人的未来轨迹,每次迭代都使得新预测的位置坐标融合了先前预测位置坐标信息以及编码器所输出的时空混合特征。
图5示出了解码器Decoder迭代预测行人的未来轨迹的流程。
在步骤S131中,通过多层感知机φd,将每个行人输入的最后一帧轨迹的坐标
Figure RE-GDA0003151343510000191
进行升维,得到高维预测特征
Figure RE-GDA0003151343510000192
并添加到预测特征序列中。具体地,为了后续迭代生成未来的轨迹,对每个行人建立一个序列,存储未来每一帧的预测特征,该序列称为预测特征序列,序列中的特征维数均为32维。对于每个行人的观测序列中的最后一帧的2维轨迹坐标
Figure RE-GDA0003151343510000193
即第8帧的2维轨迹坐标,按照公式
Figure RE-GDA0003151343510000194
通过通过多层感知机φd升维至32维的特征
Figure RE-GDA0003151343510000195
并添加至预测特征序列中,其中φd为一层全连接,参数为Wdd
在步骤S132中,参见图6,通过自注意力机制,计算特征序列中最后一个高维预测特征
Figure RE-GDA0003151343510000196
与其它高维预测特征
Figure RE-GDA0003151343510000197
的注意力关系,更新预测特征序列中最后一个高维预测特征,得到相应的自注意力特征
Figure RE-GDA0003151343510000198
具体地,对每个行人的预测特征序列特征序列中最后一个高维特征
Figure RE-GDA0003151343510000199
通过注意力机制,根据下式,计算第i个行人的预测特征序列中最后一个高维特征与其它高维特征
Figure RE-GDA00031513435100001910
的注意力系数
Figure RE-GDA00031513435100001911
Figure RE-GDA00031513435100001912
Figure RE-GDA00031513435100001913
其中,Wself q和Wself k分别代表可学习的权重矩阵,并分别作用于第i个行人的预测特征序列中最后一个高维特征
Figure RE-GDA00031513435100001914
与其它高维特征
Figure RE-GDA00031513435100001915
Figure RE-GDA00031513435100001916
表示Wself k的维数,对于计算出的
Figure RE-GDA00031513435100001917
进行Softmax操作得到
Figure RE-GDA00031513435100001918
其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧,
Figure RE-GDA00031513435100001919
表示利用第i个行人的预测特征序列中最后一个高维特征与第n”帧高维特征计算出的中间系数。利用注意力系数
Figure RE-GDA00031513435100001920
更新预测特征序列中最后一个高维特征,得到相应的自注意力特征
Figure RE-GDA00031513435100001921
计算方式如下。
Figure RE-GDA00031513435100001922
其中Wself v代表可学习的权重矩阵,作用于tobs+n”时刻的行人高维特征
Figure RE-GDA0003151343510000201
其中0≤n”≤n,表示第0帧至第n帧之间的所有预测帧。
在本实施例中,Wself q、Wself k、Wself v维数均为8×32,每层注意力的头数为4,注意力机制的层数为2,得到的自注意力特征
Figure RE-GDA0003151343510000202
的维数为32。
在步骤S133中,参见图6,通过注意力机制,计算当前的自注意力特征
Figure RE-GDA0003151343510000203
与编码器输出的时空混合特征
Figure RE-GDA0003151343510000204
的关系,更新当前的自注意力特征,得到高维特征
Figure RE-GDA0003151343510000205
具体地,对于步骤S132得到的32维自注意力特征
Figure RE-GDA0003151343510000206
根据下式,计算第i个行人的当前的自注意力特征
Figure RE-GDA0003151343510000207
与与编码器输出的时空混合特征
Figure RE-GDA0003151343510000208
的注意力系数
Figure RE-GDA0003151343510000209
Figure RE-GDA00031513435100002010
Figure RE-GDA00031513435100002011
其中,Wed q和Wed k分别代表可学习的权重矩阵,并分别作用于第i个行人当前的自注意力特征
Figure RE-GDA00031513435100002012
与编码器输出的时空混合特征
Figure RE-GDA00031513435100002013
Figure RE-GDA00031513435100002014
表示Wed k的维数,对于计算出的αedi nt,进行Softmax操作得到
Figure RE-GDA00031513435100002015
其中1≤t'≤tobs,t'表示第1至tobs之间的观测帧,
Figure RE-GDA00031513435100002016
表示利用第i个行人当前的自注意力特征与编码器输出的第t'观测帧时空混合特征计算出的中间系数;利用注意力系数
Figure RE-GDA00031513435100002017
更新第i个行人当前的自注意力特征
Figure RE-GDA00031513435100002018
得到得到高维特征
Figure RE-GDA00031513435100002019
计算方式如下:
Figure RE-GDA00031513435100002020
其中Wed v代表可学习的权重矩阵,作用于第t'帧的编码器输出的时空混合特征
Figure RE-GDA00031513435100002021
在本实施例中,Wed q、Wed k、Wed v维数均为8×32,每层注意力的头数为4,注意力机制的层数为2,得到的高维特征
Figure RE-GDA0003151343510000211
的维数为32。
在步骤S134中,将高维特征
Figure RE-GDA0003151343510000212
加入到每个行人的预测特征序列中,每个行人的预测特征序列的特征数量增加1。
在步骤S135中,判断每个行人的预测特征序列的特征数量是否满足需要预测的时刻数量,如果满足,即达到了需要预测的未来12帧数量,则跳转至步骤S136;否则,跳转至步骤S132。
在步骤S136中,每个行人的预测特征序列的特征数量已经满足了需要预测的时刻数量,通过多层感知机φo,将每个行人的高维特征
Figure RE-GDA0003151343510000213
转换至预测的坐标值
Figure RE-GDA0003151343510000214
具体地,每个行人的预测特征序列的特征数量为12,即tpred=12,首先去掉预测特征序列中的第一个预测特征,然后,通过多层感知机φo,按照公式
Figure RE-GDA0003151343510000215
将高维特征
Figure RE-GDA0003151343510000216
由32维降维至2维,得到每个行人在所有预测时刻的2维坐标
Figure RE-GDA0003151343510000217
其中φo为一层全连接,参数为Woo
本公开的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。
本公开领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
综上所述,本公开所述方法具有如下优势:
1、整个网络的结构完全去除循环神经网络,只保留注意力机制,更有利于并行化,提高计算效率;
2、时间注意力机制提取行人的时间特征,对于每个行人,融合了自身过去时间下的特征,而不对邻居行人特征进行融合;
3、空间注意力机制提取行人的空间特征,对于每个行人,融合了当前时间点下邻居行人的信息,并将该行人自身特征得到更新,考虑了社交因素;
4、时空注意力机制提取行人的时空特征,不仅局限于某个时刻的行人交互,更综合了某段时间内行人之间的整体交互情况;
5、网络结构具有全局感受野,可以对充分对不同时刻不同行人的轨迹特征建立关联,防止信息的损失和压缩。
可见,本公开在实际自动驾驶应用中,既适应车载低功耗处理器的处理能力,又保证了对于复杂行人轨迹预测的实时性和有效性,提高了对行人轨迹预测的准确性,为实际自动驾驶决策提供了可靠的依据,大大提高了自动驾驶的安全性。
至此,已经结合附图所示的优选实施方法描述了本公开的技术方案,但是,本领域技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定,本公开的保护范围显然不局限于这些具体实施方式。在不偏离本公开的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案仍处于本公开的范围内。

Claims (10)

1.一种基于时空注意力机制的行人轨迹预测方法,其特征在于,包括:
步骤一、采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
步骤二、进行数据预处理,得到场景中每个行人的历史轨迹坐标;
步骤三、采用编码器Encoder编码行人的历史轨迹并输出特征张量;
步骤四、采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
2.根据权利要求1所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
以自动驾驶汽车预设的车载相机为采集设备,采集车辆前方和两侧区域的图像信息,并实时提取自动驾驶汽车感知系统提供的行人在图像坐标系下的位置信息。
3.根据权利要求1或2所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
对输入时间序列进行采样,并提取每个行人的历史观测坐标值并设定预测的坐标值为:
Figure RE-FDA0003151343500000011
其中i表示第i个行人,N表示当前场景的行人数量,t表示预测第t帧,tpred表示预测的总帧数,
Figure RE-FDA0003151343500000012
表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值。
4.根据权利要求2或3所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
采用编码器Encoder编码每个行人的历史轨迹并输出每个行人的特征张量;
采用第一多层感知机φe和位置嵌入对每个行人的历史轨迹坐标点数据序列进行升维,得到高维时序特征;
所述行人的历史轨迹坐标点数据序列表示为如下形式:
Figure RE-FDA0003151343500000013
其中,tobs表示观测的帧数,i表示第i个行人,N表示当前场景的行人数量,t表示预测第t帧,tobs表示观测的总帧数,
Figure RE-FDA0003151343500000021
表示第i个行人在第t帧的x轴方向坐标值和y轴方向坐标值;
所述高维时序特征表示为如下形式:
Figure RE-FDA0003151343500000022
其中,通过所述第一多层感知机φe,将表示为2维坐标特征的输入的第i个行人的历史轨迹坐标,映射至16维特征;所述第一多层感知机φe设置为一层全连接层,参数为Wee,PE为位置嵌入,则所述
Figure RE-FDA0003151343500000023
能够进一步表示如下:
Figure RE-FDA0003151343500000024
Figure RE-FDA0003151343500000025
Figure RE-FDA0003151343500000026
其中t表示轨迹点的帧号,de表示特征维度,de=16,2d和2d+1表示特征的第2d维度和第2d+1维度,其中
Figure RE-FDA0003151343500000027
5.根据权利要求4所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
通过时间注意力机制更新每个行人的高维时序特征,得到行人时间特征;
所述行人时间特征表示如下:
Figure RE-FDA0003151343500000028
其中,输入每个行人的所述高维时序特征,计算第i个行人在第t帧对于第r帧的注意力系数ATi tr,如下所示:
Figure RE-FDA0003151343500000029
Figure RE-FDA00031513435000000210
其中,WT q和WT k分别代表可学习的权重矩阵,并分别作用于第i个行人在第t帧和第r帧的特征
Figure RE-FDA00031513435000000211
Figure RE-FDA00031513435000000212
Figure RE-FDA00031513435000000213
表示WT k的维数,对于计算出的中间系数
Figure RE-FDA0003151343500000031
进行Softmax操作得到注意力系数ATi tr,其中1≤r'≤t,r'表示位于第1帧和第t帧之间的第r'帧,
Figure RE-FDA0003151343500000032
表示利用第i个行人在第t帧和第r'帧的特征
Figure RE-FDA0003151343500000033
Figure RE-FDA0003151343500000034
计算出的中间系数;利用注意力系数ATi tr,更新第i个行人在第t帧的特征,得到行人时间特征
Figure RE-FDA0003151343500000035
计算方式如下:
Figure RE-FDA0003151343500000036
其中WT v代表可学习的权重矩阵,作用于第r'帧的特征
Figure RE-FDA0003151343500000037
6.根据权利要求5所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
所述WT q、WT k、WT v维数均为4×16,每层注意力的头数为4,注意力机制的层数为2,得到的行人时间特征
Figure RE-FDA0003151343500000038
的维数为16。
7.根据权利要求5或6所述的一种基于时空注意力机制的行人轨迹预测方法,其特征在于,
通过空间注意力机制更新每个行人的所述高维时序特征,得到行人空间特征;
所述行人空间特征表示如下:
Figure RE-FDA0003151343500000039
其中,输入每个行人的高维时序特征
Figure RE-FDA00031513435000000310
计算在第t帧第i个行人对第j个行人的注意力系数
Figure RE-FDA00031513435000000311
如下所示:
Figure RE-FDA00031513435000000312
Figure RE-FDA00031513435000000313
其中,WS q和WS k分别代表可学习的权重矩阵,并分别作用于第t帧第i个行人和第j个行人的特征
Figure RE-FDA00031513435000000314
Figure RE-FDA00031513435000000315
Figure RE-FDA00031513435000000316
表示WS k的维数,对于计算出的
Figure RE-FDA00031513435000000317
进行Softmax操作得到
Figure RE-FDA00031513435000000318
其中1≤j'≤N,j'代表第1至第N个行人,
Figure RE-FDA00031513435000000319
表示利用第t帧第i个行人和第j'个行人的特征
Figure RE-FDA00031513435000000320
Figure RE-FDA00031513435000000321
计算出的中间系数;利用注意力系数
Figure RE-FDA00031513435000000322
更新第t帧第i个行人,得到行人空间特征
Figure RE-FDA00031513435000000323
计算方式如下:
Figure RE-FDA00031513435000000324
其中WS v代表可学习的权重矩阵,作用于第t帧第j'个行人的特征
Figure RE-FDA0003151343500000041
8.一种基于时空注意力机制的行人轨迹预测装置,其特征在于,包括:
图像采集装置,采集场景中的图像信息,提取行人在图像坐标系下的位置信息;
数据预处理装置,进行数据预处理,得到场景中每个行人的历史轨迹坐标;
编码装置,采用编码器Encoder编码行人的历史轨迹并输出特征张量;
解码装置,采用解码器Decoder迭代预测行人的未来轨迹坐标;
其中,所述编码器Encoder通过注意力机制,融合每个行人自身的历史轨迹信息以及同一场景下不同行人之间的交互信息。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至24中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至24中任一项所述的方法。
CN202110580013.0A 2021-05-26 2021-05-26 基于时空注意力机制的行人轨迹预测方法 Active CN113256681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580013.0A CN113256681B (zh) 2021-05-26 2021-05-26 基于时空注意力机制的行人轨迹预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580013.0A CN113256681B (zh) 2021-05-26 2021-05-26 基于时空注意力机制的行人轨迹预测方法

Publications (2)

Publication Number Publication Date
CN113256681A true CN113256681A (zh) 2021-08-13
CN113256681B CN113256681B (zh) 2022-05-13

Family

ID=77184582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580013.0A Active CN113256681B (zh) 2021-05-26 2021-05-26 基于时空注意力机制的行人轨迹预测方法

Country Status (1)

Country Link
CN (1) CN113256681B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568416A (zh) * 2021-09-26 2021-10-29 智道网联科技(北京)有限公司 无人车轨迹规划方法、装置和计算机可读存储介质
CN113870319A (zh) * 2021-12-03 2021-12-31 宁波大学 基于图卷积特征编解码的轨迹预测系统及方法
CN114372116A (zh) * 2021-12-30 2022-04-19 华南理工大学 一种基于lstm和时空注意力机制的车辆轨迹预测方法
CN114692941A (zh) * 2021-12-30 2022-07-01 江南大学 基于多注意力的公司财务预测方法
CN114885293A (zh) * 2022-04-26 2022-08-09 和智信(山东)大数据科技有限公司 一种基于深度学习的信令轨迹恢复方法、系统及存储介质
CN115071762A (zh) * 2022-08-22 2022-09-20 北京理工大学前沿技术研究院 面向城市场景下行人轨迹预测方法、模型及存储介质
CN115829171A (zh) * 2023-02-24 2023-03-21 山东科技大学 一种联合时空信息和社交互动特征的行人轨迹预测方法
CN115966313A (zh) * 2023-03-09 2023-04-14 创意信息技术股份有限公司 基于人脸识别的一体化管理平台
EP4181091A1 (en) * 2021-11-16 2023-05-17 Waymo Llc Pedestrian behavior prediction with 3d human keypoints
CN116807458A (zh) * 2023-07-04 2023-09-29 中原工学院 一种基于注意力机制的人体步态轨迹预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409499A (zh) * 2018-09-20 2019-03-01 北京航空航天大学 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法
CN111428763A (zh) * 2020-03-17 2020-07-17 陕西师范大学 一种基于场景约束gan的行人轨迹预测方法
CN111553232A (zh) * 2020-04-22 2020-08-18 陕西师范大学 基于场景状态迭代的门循环单元网络行人轨迹预测方法
CN111862672A (zh) * 2020-06-24 2020-10-30 北京易航远智科技有限公司 基于顶视图的停车场车辆自定位及地图构建方法
CN111968375A (zh) * 2020-08-27 2020-11-20 北京嘀嘀无限科技发展有限公司 交通流量的预测方法、装置、可读存储介质及电子设备
US20210001897A1 (en) * 2019-07-03 2021-01-07 Waymo Llc Agent trajectory prediction using anchor trajectories
CN112215337A (zh) * 2020-09-30 2021-01-12 江苏大学 一种基于环境注意力神经网络模型的车辆轨迹预测方法
US20210103744A1 (en) * 2019-10-04 2021-04-08 Waymo Llc Spatio-temporal embeddings
CN112686281A (zh) * 2020-12-08 2021-04-20 深圳先进技术研究院 基于时空注意力和多级lstm信息表达的车辆轨迹预测方法
CN112766561A (zh) * 2021-01-15 2021-05-07 东南大学 一种基于注意力机制的生成式对抗轨迹预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409499A (zh) * 2018-09-20 2019-03-01 北京航空航天大学 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法
US20210001897A1 (en) * 2019-07-03 2021-01-07 Waymo Llc Agent trajectory prediction using anchor trajectories
US20210103744A1 (en) * 2019-10-04 2021-04-08 Waymo Llc Spatio-temporal embeddings
CN111428763A (zh) * 2020-03-17 2020-07-17 陕西师范大学 一种基于场景约束gan的行人轨迹预测方法
CN111553232A (zh) * 2020-04-22 2020-08-18 陕西师范大学 基于场景状态迭代的门循环单元网络行人轨迹预测方法
CN111862672A (zh) * 2020-06-24 2020-10-30 北京易航远智科技有限公司 基于顶视图的停车场车辆自定位及地图构建方法
CN111968375A (zh) * 2020-08-27 2020-11-20 北京嘀嘀无限科技发展有限公司 交通流量的预测方法、装置、可读存储介质及电子设备
CN112215337A (zh) * 2020-09-30 2021-01-12 江苏大学 一种基于环境注意力神经网络模型的车辆轨迹预测方法
CN112686281A (zh) * 2020-12-08 2021-04-20 深圳先进技术研究院 基于时空注意力和多级lstm信息表达的车辆轨迹预测方法
CN112766561A (zh) * 2021-01-15 2021-05-07 东南大学 一种基于注意力机制的生成式对抗轨迹预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUANMAN LI ET AL: "Temporal Pyramid Network with Spatial-Temporal Attention for PedestrianTrajectory Prediction", 《IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING》 *
朱琪超: "高速公路用户出行行为预测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568416A (zh) * 2021-09-26 2021-10-29 智道网联科技(北京)有限公司 无人车轨迹规划方法、装置和计算机可读存储介质
EP4181091A1 (en) * 2021-11-16 2023-05-17 Waymo Llc Pedestrian behavior prediction with 3d human keypoints
CN113870319A (zh) * 2021-12-03 2021-12-31 宁波大学 基于图卷积特征编解码的轨迹预测系统及方法
CN113870319B (zh) * 2021-12-03 2022-03-08 宁波大学 基于图卷积特征编解码的轨迹预测系统及方法
CN114372116B (zh) * 2021-12-30 2023-03-21 华南理工大学 一种基于lstm和时空注意力机制的车辆轨迹预测方法
CN114692941A (zh) * 2021-12-30 2022-07-01 江南大学 基于多注意力的公司财务预测方法
CN114372116A (zh) * 2021-12-30 2022-04-19 华南理工大学 一种基于lstm和时空注意力机制的车辆轨迹预测方法
CN114885293A (zh) * 2022-04-26 2022-08-09 和智信(山东)大数据科技有限公司 一种基于深度学习的信令轨迹恢复方法、系统及存储介质
CN114885293B (zh) * 2022-04-26 2022-12-20 和智信(山东)大数据科技有限公司 一种基于深度学习的信令轨迹恢复方法、系统及存储介质
CN115071762A (zh) * 2022-08-22 2022-09-20 北京理工大学前沿技术研究院 面向城市场景下行人轨迹预测方法、模型及存储介质
CN115071762B (zh) * 2022-08-22 2022-12-16 北京理工大学前沿技术研究院 面向城市场景下行人轨迹预测方法、模型及存储介质
CN115829171A (zh) * 2023-02-24 2023-03-21 山东科技大学 一种联合时空信息和社交互动特征的行人轨迹预测方法
CN115966313A (zh) * 2023-03-09 2023-04-14 创意信息技术股份有限公司 基于人脸识别的一体化管理平台
CN115966313B (zh) * 2023-03-09 2023-06-09 创意信息技术股份有限公司 基于人脸识别的一体化管理平台
CN116807458A (zh) * 2023-07-04 2023-09-29 中原工学院 一种基于注意力机制的人体步态轨迹预测方法

Also Published As

Publication number Publication date
CN113256681B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN113256681B (zh) 基于时空注意力机制的行人轨迹预测方法
Akilan et al. Video foreground extraction using multi-view receptive field and encoder–decoder DCNN for traffic and surveillance applications
Levi et al. Stixelnet: A deep convolutional network for obstacle detection and road segmentation.
Baluja et al. Expectation-based selective attention for visual monitoring and control of a robot vehicle
WO2016156236A1 (en) Method and electronic device
Dong et al. A hybrid spatial–temporal deep learning architecture for lane detection
Rong et al. Driver intention anticipation based on in-cabin and driving scene monitoring
WO2021097421A1 (en) Conditional entropy coding for efficient video compression
Hua et al. Small obstacle avoidance based on RGB-D semantic segmentation
CN113392725B (zh) 基于视频数据的行人过街意图识别方法
Singh et al. Multi-input fusion for practical pedestrian intention prediction
Maye et al. Bayesian on-line learning of driving behaviors
CN115861383A (zh) 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
Feng et al. Using appearance to predict pedestrian trajectories through disparity-guided attention and convolutional LSTM
Yang et al. Interpretable detection of distribution shifts in learning enabled cyber-physical systems
CN114581488A (zh) 基于第一人称视角视频的行人轨迹预测方法及装置
WO2022171590A1 (en) Method for determining a degradation degree of a captured image, computer program product, computer-readable storage medium as well as assistance system
CN113807298A (zh) 行人过街意图预测方法、装置、电子设备及可读存储介质
US20230343062A1 (en) Tracking users across image frames using fingerprints obtained from image analysis
Chen et al. A survey on deep-learning methods for pedestrian behavior prediction from the egocentric view
US12008762B2 (en) Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds
Amirloo et al. Self-supervised simultaneous multi-step prediction of road dynamics and cost map
Fang et al. Multi-modal experts network for autonomous driving
Genitha et al. AI based Real-Time Traffic Signal Control System using Machine Learning
CN113902776B (zh) 目标行人轨迹预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant