CN118052844A - 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法 - Google Patents

一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法 Download PDF

Info

Publication number
CN118052844A
CN118052844A CN202310172344.XA CN202310172344A CN118052844A CN 118052844 A CN118052844 A CN 118052844A CN 202310172344 A CN202310172344 A CN 202310172344A CN 118052844 A CN118052844 A CN 118052844A
Authority
CN
China
Prior art keywords
pedestrian
motion
network
vector
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310172344.XA
Other languages
English (en)
Inventor
何友国
杨永鑫
袁朝春
蔡英凤
田力威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202310172344.XA priority Critical patent/CN118052844A/zh
Publication of CN118052844A publication Critical patent/CN118052844A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法,系统由全局信息提取模块、Transformer主干网络和CVAE网络分组成。全局信息提取模块由自车车速提取网络与空间运动转换模型组成,负责对自车车速的估计以及获取自车与目标行人的空间运动关系,进而完成车辆自身运动特性以及行人历史运动轨迹与人车间的运动关系等全局信息的提取。Transformer主干网络模块负责学习行人运动轨迹,通过引入稀疏注意力机制,实现对注意力机制的优化,减少网络的内存消耗并提高网络的预测效率,解决了行人轨迹预测算法运行效率低,内存消耗大的问题。CVAE网络负责生成多个合理的预测轨迹样本,避免了对训练数据的过拟合,提高了算法的鲁棒性与普适性。

Description

一种基于全局信息提取和Transformer模型的行人轨迹预测 系统及方法
技术领域
本发明涉及自动驾驶行人轨迹预测技术领域,具体为一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法。
背景技术
随着人工智能与计算机视觉的发展,自动驾驶系统也在不断进步,智能车辆能够检测和识别道路、汽车、行人等众多交通因素。但仅仅识别行驶环境是不够的,预测周围行人未来的轨迹,对保证行人与车辆安全是非常必要的。而且,行人轨迹预测的准确性和实时性可以为智能汽车提供更充足的决策时间以及更精准的规划路径,减少甚至避免可能发生的交通事故。尽管这项任务很重要,但由于行人行为模式是高度自由随机的,并且与周围全局环境有着紧密的联系,如:车辆自身运动特性,行人历史运动轨迹与人车间的运动关系等,因此需要一种有效的行人轨迹预测算法。
对行人轨迹的预测需要对多个可能影响行人轨迹的因素进行研究。现有的轨迹算法有从行人的穿行意图入手的方法,通过判断行人是否由穿越路口意图来帮助预测。有通过关注行人起始点与终点位置的方法,研究行人在短距离内有可能的运动轨迹来实现对轨迹的预测。有采用微元法,将行人的未知的轨迹看作一段段直线,计算行人每段运动的角度,并融合了多种行人运动信息,以此对行人轨迹进行预测。上述方法虽然取得了较好的预测效果,但缺乏对影响行人轨迹全局信息的提取与融合,导致模型不能学习到全面的特征信息。而且,上述算法大多采用循环神经网络为构架,其缺少对数据的并行处理能力,造成了算法由较大的空间复杂度与时间复杂度。
因此,本发明提出一种基于全局信息提取和Transformer模型的行人轨迹预测算法,采用全局信息模块提取全局信息线索,采用Transformer网络架构提高算法实时性,并将Transformer网络与CVAE网络相结合,提高算法鲁棒性。进而解决了行人轨迹预测算法鲁棒性差,运算效率低的问题,达到快速、准确预测出行人轨迹的效果。通过查阅资料,目前基于全局信息提取和Transformer模型的行人轨迹预测算法的方法尚未见到报道。
发明内容
本发明的目的在于提供一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法,以解决第一视角下的行人轨迹预测问题。
本发明的预测系统由全局信息提取模块、Transformer主干网络模块和CVAE网络模块组成。全局信息提取模块由自车车速提取网络与空间运动转换模型组成,负责对自车车速的估计以及获取自车与目标行人的空间运动关系,进而完成车辆自身运动特性以及行人历史运动轨迹与人车间的运动关系等全局信息的提取。Transformer主干网络模块负责学习行人运动轨迹,通过引入稀疏注意力机制,实现对注意力机制的优化,减少网络的内存消耗并提高网络的预测效率,解决了行人轨迹预测算法运行效率低,内存消耗大的问题。CVAE网络模块负责生成多个合理的预测轨迹样本,避免了对训练数据的过拟合,提高了算法的鲁棒性与普适性。
此外,基于上述系统,本发明还提出了行人轨迹预测方法,提高了行人轨迹预测的准确度与鲁棒性,降低了运算成本,提高了检测效率。
本发明的技术方案:
本发明系统由全局信息提取模块、Transformer主干网络模块和CVAE网络模块组成。全局信息提取模块负责完成对自车车速的估计并获得自车与目标行人的空间运动关系。Transformer主干网络负责学习行人运动轨迹并对后续时刻的行人运动轨迹进行预测。CVAE网络模块负责生成多个合理的预测轨迹样本。
本发明所述全局信息提取模块如下:
全局信息提取模块由自车车速提取网络与空间运动转换模型组成。
自车车速估计网络,预测获得自车车速。为了获取自车车速特征,本发明使用光流计算车速。将从车载相机视频中获取的照片输入到光流法RAFT中,并将得到的光流图片输入到Efficeient Net网络中得到自车车速。具体如下:
将行人轨迹图片输入到网络中,对其进行特征提取,Feature Encoder由6个残差层组成,对输入的图片进行下采样,提取其1/8分辨率的特征图,并使用了一个Content网络提取图片的特征,提取的上下文特征映射在递归模块中使用,下式为Feature Encoder的特征张量gθ
视觉相似度计算为所有特征图对的内积,得到一个称为相关体积的四维张量C,它提供了关于大小像素位移的关键信息,并在C的最后两个维度使用核大小为1,2,4,8进行池化,构建4层相关金字塔,保持前两个维度不变,迭代更新采用门控循环单元(GRU)序列,它结合了之前计算的所有数据,而后使用上采样,得到高分辨率光流场的维度为H×W×2的张量;
从上述得到的光流图像得到每个像素间X坐标和Y坐标像素的偏移量并保存为npy矩阵,将其输入到由MBConv结构构成的网络中,并通过一个全连接层获得自车车速。
空间运动转换模型,对车速与相关运动信息建立空间运动转换模型,得到车辆与目标行人空间运动关系。为了获取汽车与行人之间的运动联系,建立空间运动转换模型。以车辆本身视为动参考系,地面本身为定参考系,将所有运动分为三类:
1)绝对运动:目标行人在地面上的运动,
2)相对运动:目标行人在摄像机中的运动,
3)牵连运动:车辆和车载摄像机本身的运动。
并由:
得到车辆与目标行人的运动关系。其中表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移。
由此得到所有时间内汽车与行人之间的空间运动关系:
是所有绝对运动的矢量位移,/>是所有牵连运动的矢量位移,/>是所有相对矢量位移。
通过上述过程,为对预测行人运动轨迹提供全局线索信息。
本发明所述Transformer主干网络模块如下:
将获取的全局信息与行人轨迹输入到网络中,首先进行stamp编码,通过该种编码方式,可以将多种信息输入到Transformer中。Stamp编码包括信息嵌入与位置编码,可以尽可能的保留提取到的全局信息特征。
对Transformer-编码器进行优化,对注意力机制中所需的内存空间和注意力矩阵相乘的二次点乘所造成的计算代价进行优化,引入了概率稀疏自注意力机制,使用注意力机制的核平滑概率公式查询稀疏性,从而计算并得到在注意力机制中占较大比例的query项,从而对注意力机制进行优化。
对Transformer-解码器的初始化序列进行位置编码,为了缓解Transformer在解码时速度的下降,本发明采用填充推理的方式。输入解码器的向量采用以下表示方式:
通过Transformer-解码器得到预测的轨迹,并计算损失函数。
本发明所述CVAE网络模块如下:
未来轨迹的预测具有内在的模糊性和不确定性。本发明为了解决这个问题引入一个生成模型CVAE,其通过引入隐变量Z来学习预测轨迹Y在输入轨迹X下的分布。Y为最终预测得到的轨迹,X为提前观测的轨迹。
CVAE由以下三个部分组成:后验网络、先验网络和生成网络。
先验网络:从输入行人轨迹X中采样得到隐变量。
后验网络:训练时,因可获得行人完全的轨迹,从完整的轨迹中采样得到隐变量。测试时,直接从输入轨迹中采样得到隐变量。
生成网络:由隐变量和输入轨迹X得到完整的预测的行人轨迹Y。
本发明提出的预测方法包括如下步骤:
S1,通过全局信息模块对全局信息特征提取,获取全局线索信息;
S2,将全局线索信息与当前行人轨迹进行编码,对后续行人运动轨迹进行预测;
S3,通过CVAE网络辅助预测轨迹。
进一步,所述S1的具体过程如下:
将行人轨迹图片输入到网络中,对其进行特征提取,Feature Encoder由6个残差层组成,对输入的图片进行下采样,提取其1/8分辨率的特征图,并使用一个Content网络提取图片的特征,提取的上下文特征映射在递归模块中使用,下式为Feature Encoder的特征张量gθ
视觉相似度计算为所有特征图对的内积,得到一个称为相关体积的四维张量C,它提供了关于大小像素位移的关键信息,并在C的最后两个维度使用核大小为1,2,4,8进行池化,构建4层相关金字塔,保持前两个维度不变,迭代更新采用门控循环单元(GRU)序列,它结合了之前计算的所有数据,而后使用上采样,得到高分辨率光流场的维度为H×W×2的张量图像;
根据得到的光流图像得到每个像素间X坐标和Y坐标像素的偏移量并保存为npy矩阵,将其输入到由MBConv结构构成的网络中,并通过一个全连接层获得自车车速;
将自车车速估计网络估计得到的自车车速与行人运动信息输入到空间运动转换模型中,以地面为定参考系,行人为动参考系,得到下面三种运动:
相对运动:行人相对于车载摄像头的运动
牵连运动:车辆本身的运动
绝对运动:行人相对于地面的运动
并且在一帧的时间内,用如下公式来得到汽车与行人之间的空间运动关系:
表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量速度,/>表示相对运动的矢量速度;
由此得到所有时间内汽车与行人之间的空间运动关系:
是所有绝对运动的矢量位移,/>是所有牵连运动的矢量位移,/>是所有相对矢量位移。
进一步,所述S2的具体过程如下:
行人的观测轨迹定义为:
行人的未来轨迹定义为:
其中表示第i个行人观测的轨迹,/>表示第i个行人未来预测的轨迹,/>表示第i个行人在t时刻的坐标,tobs表示观察行人轨迹持续的时间,tfu表示未来行人轨迹持续的时间,N表示车辆周围行人数量;
将观测的行人轨迹与全局线索信息进行stamp编码,假设嵌入的第i个行人的轨迹序列和全局信息类型得到的特征维数为d_model,使用PE(pos)表示位置嵌入,并使用一个可学习的戳嵌入SE(pos)将所有附加全局信息嵌入到模型中,为了保证维数,使用一维卷积将维度扩展到d_model,输入向量如下:
经过stamp编码后,输入到注意力机制中,注意力机制的核平滑概率分布形式:
是第i个Saq,/>是第i个Sak,M表示过滤函数:/>其中i个查询的关注机制的概率分布为/>
为均匀分布概率(/>询向量的长度)
为了比较两种分布之间的相似性,引入KL散度来获得第i个查询稀疏度的公式:
当F(aqi,S(ak))越大,该项在注意力中的权重越大,在自我注意机制的点乘中起主导作用,选择N=lnLQ个queries并使用上述方法,对于缺失的时间点,使用Value向量的平均值进行填充;
Transformer-编码器在输入特征向量经过一次注意力机制后,通过Conv1d与MaxPool层进行下采样,而后再输入到注意力机制中,与前一个注意力机制参数不共享,通过重复三次该过程得到第一层特征映射,再取输入特征向量的后一半输入到Tranformer-编码器中得到第二层的特征映射,将其组合成输出特征向量:
其中Encoder表示Transformer-编码器,Wencoder表示对应参数。
进一步,所述S3的具体过程如下:
引入一个高斯潜变量Z,对观测轨迹后Bobs的预测轨迹Bfu分布进行优化和预测,CVAE包括三部分:先验网络(Pω(Z|Xt))、后验网络(Qγ(Z|Xt,Yt))和生成网络(Rψ(Y|Xt,Z)),分别用ω、γ、ψ来表示上述三个网络,由ψ获得的轨迹分布特征用hψ表示,并与Transformer-解码器的输出特征相结合,得到预测结果。
本发明的有益效果:
1、通过建立了车速估计网络与空间运动转换模型,提取行人与车辆信息线索与之间的内在联系与相互作用,帮助本发明的网络能学习到更多的信息,提高预测精准度。
2、通过对Transformer的自注意力机制进行优化,提高了训练速度,减少了模型的内存消耗,并提高了网络的对模型的预测精度。
3、通过引入CVAE生成模型,引入隐变量Z,通过学习观察到的行人轨迹来辅助预测行人未来行动轨迹,提高了预测的准确度。
附图说明
图1为基于全局信息提取和Transformer模型的行人轨迹预测算法的流程示意图。
图2为自车车速估计网络结构。
图3为行人和车辆空间运动转换模型。
图4为stamp编码结构。
图5为Transformer-编码器结构。
图6为条件变分自动编码器结构。
具体实施方式
本发明提供了一种基于全局信息提取和Transformer模型的行人轨迹预测算法,以解决第一视角下的行人轨迹预测问题。本发明系统部分由全局信息提取模块、Transformer主干网络和CVAE网络分组成。全局信息提取模块由自车车速提取网络与空间运动转换模型组成,负责对自车车速的估计以及获取自车与目标行人的空间运动关系,进而完成车辆自身运动特性以及行人历史运动轨迹与人车间的运动关系等全局信息的提取。Transformer主干网络模块负责学习行人运动轨迹,通过引入稀疏注意力机制,实现对注意力机制的优化,减少网络的内存消耗并提高网络的预测效率,解决了行人轨迹预测算法运行效率低,内存消耗大的问题。CVAE网络负责生成多个合理的预测轨迹样本,避免了对训练数据的过拟合,提高了算法的鲁棒性与普适性。基于上述模块,本发明所提出的算法提高了行人轨迹预测的准确度与鲁棒性,降低了运算成本,提高了检测效率。
下面参照附图并结合实例对本发明的构思、具体预测方法进行清楚完整地描述。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明实施例,本领域技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护范围。
如附图1所示,为本发明框架图。将数据集中的行人轨迹图片与数据划分为训练集和测试集。将行人轨迹图片输入到自车车速估计网络中,获得自车车速。接下来,自车车速与获取的行人运动信息一起输入到空间运动转换模型中,获取行人与车辆之间的内在运动关系。将上述获得的运动特征信息与行人轨迹数据进行stamp编码并输入到优化的Transformer网络与CVAE网络中,最后输出得到预测行人轨迹。
(1)通过全局信息模块对全局信息特征提取
本发明自车车速估计网络的网络结构如图2所示,将行人轨迹图片输入到网络中,对其进行特征提取,Feature Encoder由6个残差层组成,对输入的图片进行下采样,提取其1/8分辨率的特征图,并使用了一个Content网络提取图片的特征,提取的上下文特征映射在递归模块中使用。下式为Feature Encoder的特征张量gθ
表示矩阵的维度,H为输入特征矩阵的高,W为输入特征矩阵的宽
视觉相似度计算为所有特征图对的内积。因此,得到一个称为相关体积的四维张量C,它提供了关于大小像素位移的关键信息。并在C的最后两个维度使用核大小为1,2,4,8进行池化,构建4层相关金字塔,保持前两个维度不变,这种相关信息张量可以保证同时捕捉到较大和较小的像素位移。迭代更新是一个门控循环单元(GRU)序列,它结合了本发明之前计算的所有数据。而后使用上采样,得到高分辨率光流场的维度为H×W×2的张量。
从上述得到的光流图像得到每个像素间X坐标和Y坐标像素的偏移量并保存为npy矩阵,将其输入到由MBConv结构构成的网络中,并通过一个全连接层获得自车车速。
为了获得汽车与行人之间的运动联系,本发明建立了行人和车辆空间轨迹之间相关性的转换模型,如图3。将自车车速估计网络估计得到的自车车速与行人运动信息输入到空间运动转换模型中,以地面为定参考系,行人为动参考系,由此可以得到下面三种运动:
相对运动:行人相对于车载摄像头的运动
牵连运动:车辆本身的运动
绝对运动:行人相对于地面的运动
并且在一帧的时间内,可以用如下公式来得到汽车与行人之间的空间运动关系:
表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量速度,/>表示相对运动的矢量速度。
并由此得到所有时间内汽车与行人之间的空间运动关系:
i:在观测时间内的第i个行人
是所有绝对运动的矢量位移,/>是所有牵连运动的矢量位移,/>是所有相对矢量位移。
(2)Transformer-编码器得到全局信息线索后,将全局信息线索与行人轨迹进行编码。
行人的观测轨迹定义为:
行人的未来轨迹定义为:
其中表示第i个行人观测的轨迹,/>表示第i个行人未来预测的轨迹,/>表示第i个行人在t时刻的坐标这里的坐标表示目标行人输入图片的像素点坐标,tobs表示观察行人轨迹持续的时间,tfu表示未来行人轨迹持续的时间,N表示车辆周围行人数量。
将观测的行人轨迹与全局线索信息进行stamp编码,stamp编码结构如图4表示,假设嵌入的第i个行人的轨迹序列和全局信息类型得到的特征维数为d_model。本发明使用PE(pos)表示位置嵌入,并使用一个可学习的戳嵌入SE(pos)将所有附加全局信息嵌入到模型的输入中。通过上述方法,Transformer的编码器和解码器之间的查询密钥不匹配导致的预测精度下降将得到缓解。为了保证维数,本发明使用一维卷积将维度扩展到d_model,输入向量如下:
Bi表示第i个行人,Lseq表示映射到向量的长度。
Transformer-编码器对序列进行编码,编码过程如图5,经过stamp编码后,输入到注意力机制中。本发明对注意力机制进行了优化,注意力机制的核平滑概率分布形式:
k表示非负核函数,v表示value function(值函数),表示在/>分布下/>的期望;
是第i个Saq,/>是第i个Sak,M表示过滤函数:/>
Saq的集合,Sak是/>的集合;
其中i个查询的关注机制的概率分布为d为隐藏层的维度;
为均匀分布概率,/>为查询向量的长度;
为了比较两种分布之间的相似性,引入KL散度来获得第i个查询稀疏度的公式:
当F(aqi,S(ak))越大,该项在注意力中启的权重越大,在自我注意机制的点乘中起主导作用。选择N=lnLQ个queries并使用上述方法,对于缺失的时间点,使用Value向量的平均值进行填充。
上述为对注意力机制的优化。Transformer-编码器在输入特征向量经过一次注意力机制后,通过Conv1d与MaxPool层进行下采样,而后再输入到注意力机制中,与前一个注意力机制参数不共享。通过重复三次该过程得到第一层特征映射,再取输入特征向量的后一半输入到Tranformer-编码器中得到第二层的特征映射,将其组合成输出特征向量:
其中Encoder表示Transformer-编码器,Wencoder表示对应参数。
(3)CVAE网络辅助预测轨迹
通过引入一个高斯潜变量Z,对观测轨迹后Bobs的预测轨迹Bfu分布进行优化和预测。CVAE主要由三个网络结构组成:先验网络(Pω(Z|Xt))、后验网络(Qγ(Z|Xt,Yt))和生成网络(Rψ(Y|Xt,Z))。为了方便起见,本发明分别用ω、γ、ψ来表示上述三个网络。由ψ获得的轨迹分布特征用hψ表示,并与Transformer-解码器的输出特征在最低维度下进行拼接,得到预测结果。CVAE的结构如图6所示。
训练期间,使用Transformer-编码器对观测轨迹与未来真实轨迹进行编码,得到特征向量hobs+fu与hobs,计算过程如下:
表示将观测与真实轨迹同时输入到Transformer-解码器中、/>表示仅将观测轨迹输入到Transformer-解码器中;
将观测轨迹的特征向量hobs通过先验网络ω计算出高斯分布的均值和方差∑Q,得到分布/>将包含真实未来轨迹的特征向量hobs+fu通过后验网络γ计算出高斯分布的均值/>和方差∑P,得到分布/>
计算分布和/>之间的KL散度,让概率Pω(Z|Xt)逐渐逼近Qγ(Z|Xt,Yt),其KL散度计算公式如下:
其中KLD表示KL散度函数,LKL为KL损失函数。
测试期间,因无法获得真实未来轨迹,只能得到特征向量hobs,而后基于先验网络ω生成概率分布采样得到隐变量Z。
生成网络ψ基于上述采样得到的隐变量Z与观测轨迹的特征向量hobs得到预测轨迹分布特征hψ
(4)通过Transformer-解码器预测轨迹
通过Transformer-解码器预测行人轨迹。Transformer-解码器的输入为开始符号Xtoken与占位符X0,其长度分别为tobs/2与tfu。Xtoken采用在[tobs/2,tobs]时间段内序列初始化,占位符X0使用对Transformer-解码器的输入序列进行位置编码得到/> 表示第i个行人轨迹的Decoder输入。结合隐变量hE与/>得到特征向量
其中Decoder表示Transformer-解码器,Wdecoder表示对应参数。
特征向量hD与轨迹分布特征hψ经过全连接层生成预测轨迹Bpred,公式如下:
Bpred=σ(hD,hψ;Wσ) (16)
其中,σ表示全连接层,Wσ表示对应参数。
计算损失函L,本发明输出为m条轨迹,记第k条预测轨迹为第k条实际轨迹为B(k),使用均方根误差损失函数,L的具体表达式如下:
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,包括:全局信息提取模块、Transformer主干网络模块和CVAE网络模块;全局信息提取模块负责完成对自车车速的估计并获得自车与目标行人的空间运动关系,为预测行人运动轨迹提供全局线索信息,Transformer主干网络模块负责学习行人运动轨迹并对后续时刻的行人运动轨迹进行预测,CVAE网络模块负责生成若干个合理的预测轨迹样本。
2.根据权利要求1所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,所述全局信息提取模块包括自车车速提取网络模块与空间运动转换模型模块;
自车车速估计网络模块:使用光流计算车速,将从车载相机视频中获取的照片输入到光流法RAFT中,并将得到的光流图片输入到Efficeient Net网络中得到自车车速;
空间运动转换模型模块:对车速与相关运动信息建立空间运动转换模型,得到车辆与目标行人空间运动关系,以车辆本身视为动参考系,地面本身为定参考系,将所有运动分为三类:1)目标行人在地面上的运动,2)目标行人在摄像机中的运动,3)车辆和车载摄像机本身的运动,根据:
得到车辆与目标行人的运动关系,其中表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移。
3.根据权利要求2所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,自车车速估计网络模块具体的处理过程如下:
将行人轨迹图片输入到网络中,对其进行特征提取,Feature Encoder由6个残差层组成,对输入的图片进行下采样,提取其1/8分辨率的特征图,并使用了一个Content网络提取图片的特征,提取的上下文特征映射在递归模块中使用,下式为Feature Encoder的特征张量gθ
视觉相似度计算为所有特征图对的内积,得到一个称为相关体积的四维张量C,它提供了关于大小像素位移的关键信息,并在C的最后两个维度使用核大小为1,2,4,8进行池化,构建4层相关金字塔,保持前两个维度不变,迭代更新采用门控循环单元(GRU)序列,它结合了之前计算的所有数据,而后使用上采样,得到高分辨率光流场的维度为H×W×2的张量;
从上述得到的光流图像得到每个像素间X坐标和Y坐标像素的偏移量并保存为npy矩阵,将其输入到由MBConv结构构成的网络中,并通过一个全连接层获得自车车速。
4.根据权利要求2所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,空间运动转换模型模块的具体处理过程如下:
将自车车速估计网络模块估计得到的自车车速与行人运动信息输入到空间运动转换模型中,以地面为定参考系,行人为动参考系,得到下面三种运动:
相对运动:行人相对于车载摄像头的运动
牵连运动:车辆本身的运动
绝对运动:行人相对于地面的运动
并且在一帧的时间内,用如下公式来得到汽车与行人之间的空间运动关系:
表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量速度,/>表示相对运动的矢量速度;
由此得到所有时间内汽车与行人之间的空间运动关系:
是所有绝对运动的矢量位移,/>是所有牵连运动的矢量位移,/>是所有相对矢量位移。
5.根据权利要求1所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,所述Transformer主干网络模块:将获取的全局信息与行人轨迹输入到网络中,首先进行stamp编码,通过该编码,可以将多种信息输入到Transformer中,Stamp编码包括信息嵌入与位置编码,尽可能的保留提取到的全局信息特征;
Transformer-编码器的优化,对注意力机制中所需的内存空间和注意力矩阵相乘的二次点乘所造成的计算代价进行优化,引入了概率稀疏自注意力机制,使用注意力机制的核平滑概率公式查询稀疏性,计算并得到在注意力机制中占较大比例的query项,从而对注意力机制进行优化;
Transformer-解码器的初始化序列进行位置编码,采用填充推理方式,输入解码器的向量采用以下表示方式:
通过Transformer-解码器得到预测的轨迹,并计算损失函数。
6.根据权利要求1所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统,其特征在于,所述CVAE网络模块:通过引入隐变量Z来学习预测轨迹Y在输入轨迹X下的分布,其包括三部分:后验网络、先验网络和生成网络;
先验网络:从输入行人轨迹X中采样得到隐变量;
后验网络:训练时,从完整的行人轨迹中采样得到隐变量,测试时,直接从输入轨迹中采样得到隐变量;
生成网络:由隐变量和输入轨迹X得到完整的预测的行人轨迹Y。
7.一种基于全局信息提取和Transformer模型的行人轨迹预测系统的行人轨迹预测方法,其特征在于,包括如下步骤:
S1,通过全局信息模块对全局信息特征提取,获取全局线索信息;
S2,将全局线索信息与当前行人轨迹进行编码,对后续行人运动轨迹进行预测;
S3,通过CVAE网络辅助预测轨迹。
8.根据权利要求7所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统的行人轨迹预测方法,其特征在于,所述S1的具体过程如下:
将行人轨迹图片输入到网络中,对其进行特征提取,Feature Encoder由6个残差层组成,对输入的图片进行下采样,提取其1/8分辨率的特征图,并使用一个Content网络提取图片的特征,提取的上下文特征映射在递归模块中使用,下式为Feature Encoder的特征张量gθ
视觉相似度计算为所有特征图对的内积,得到一个称为相关体积的四维张量C,它提供了关于大小像素位移的关键信息,并在C的最后两个维度使用核大小为1,2,4,8进行池化,构建4层相关金字塔,保持前两个维度不变,迭代更新采用门控循环单元(GRU)序列,它结合了之前计算的所有数据,而后使用上采样,得到高分辨率光流场的维度为H×W×2的张量图像;
根据得到的光流图像得到每个像素间X坐标和Y坐标像素的偏移量并保存为npy矩阵,将其输入到由MBConv结构构成的网络中,并通过一个全连接层获得自车车速;
将自车车速估计网络估计得到的自车车速与行人运动信息输入到空间运动转换模型中,以地面为定参考系,行人为动参考系,得到下面三种运动:
相对运动:行人相对于车载摄像头的运动
牵连运动:车辆本身的运动
绝对运动:行人相对于地面的运动
并且在一帧的时间内,用如下公式来得到汽车与行人之间的空间运动关系:
表示绝对运动的矢量位移,/>表示牵连运动的矢量位移,/>表示相对运动的矢量位移,/>表示绝对运动的矢量速度,/>表示牵连运动的矢量速度,/>表示相对运动的矢量速度;
由此得到所有时间内汽车与行人之间的空间运动关系:
是所有绝对运动的矢量位移,/>是所有牵连运动的矢量位移,/>是所有相对矢量位移。
9.根据权利要求7所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统的行人轨迹预测方法,其特征在于,所述S2的具体过程如下:
行人的观测轨迹定义为:
行人的未来轨迹定义为:
其中表示第i个行人观测的轨迹,/>表示第i个行人未来预测的轨迹,/>表示第i个行人在t时刻的坐标,tobs表示观察行人轨迹持续的时间,tfu表示未来行人轨迹持续的时间,N表示车辆周围行人数量;
将观测的行人轨迹与全局线索信息进行stamp编码,假设嵌入的第i个行人的轨迹序列和全局信息类型得到的特征维数为d_model,使用PE(pos)表示位置嵌入,并使用一个可学习的戳嵌入SE(pos)将所有附加全局信息嵌入到模型中,为了保证维数,使用一维卷积将维度扩展到d_model,输入向量如下:
经过stamp编码后,输入到注意力机制中,注意力机制的核平滑概率分布形式:
是第i个Saq,/>是第i个Sak,M表示过滤函数:/>其中i个查询的关注机制的概率分布为/>
为均匀分布概率(/>询向量的长度)
为了比较两种分布之间的相似性,引入KL散度来获得第i个查询稀疏度的公式:
当F(aqi,S(ak))越大,该项在注意力中的权重越大,在自我注意机制的点乘中起主导作用,选择N=lnLQ个queries并使用上述方法,对于缺失的时间点,使用Value向量的平均值进行填充;
Transformer-编码器在输入特征向量经过一次注意力机制后,通过Conv1d与MaxPool层进行下采样,而后再输入到注意力机制中,与前一个注意力机制参数不共享,通过重复三次该过程得到第一层特征映射,再取输入特征向量的后一半输入到Tranformer-编码器中得到第二层的特征映射,将其组合成输出特征向量:
其中Encoder表示Transformer-编码器,Wencoder表示对应参数。
10.根据权利要求7所述的一种基于全局信息提取和Transformer模型的行人轨迹预测系统的行人轨迹预测方法,其特征在于,所述S3的具体过程如下:
引入一个高斯潜变量Z,对观测轨迹后Bobs的预测轨迹Bfu分布进行优化和预测,CVAE包括三部分:先验网络(Pω(Z|Xt))、后验网络(Qγ(Z|Xt,Yt))和生成网络(Rψ(Y|Xt,Z)),分别用ω、γ、ψ来表示上述三个网络,由ψ获得的轨迹分布特征用hψ表示,并与Transformer-解码器的输出特征相结合,得到预测结果。
CN202310172344.XA 2023-02-24 2023-02-24 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法 Pending CN118052844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310172344.XA CN118052844A (zh) 2023-02-24 2023-02-24 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310172344.XA CN118052844A (zh) 2023-02-24 2023-02-24 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法

Publications (1)

Publication Number Publication Date
CN118052844A true CN118052844A (zh) 2024-05-17

Family

ID=91052705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310172344.XA Pending CN118052844A (zh) 2023-02-24 2023-02-24 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法

Country Status (1)

Country Link
CN (1) CN118052844A (zh)

Similar Documents

Publication Publication Date Title
Chen et al. Real time object detection, tracking, and distance and motion estimation based on deep learning: Application to smart mobility
US20230316742A1 (en) Image processing method, apparatus and device, and computer-readable storage medium
CN111598089B (zh) 一种基于深度学习的车牌矫正与识别方法
Mahjourian et al. Geometry-based next frame prediction from monocular video
CN110070025B (zh) 基于单目图像的三维目标检测系统及方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
Cheng et al. S3Net: 3D LiDAR sparse semantic segmentation network
CN116129390B (zh) 一种增强曲线感知的车道线精准检测方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN114581887A (zh) 车道线的检测方法、装置、设备和计算机可读存储介质
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN114445465A (zh) 一种基于融合逆强化学习的轨迹预测方法
CN114648551B (zh) 轨迹预测方法及装置
CN113554039A (zh) 基于多注意力机制的动态图像的光流图生成方法和系统
CN115293986A (zh) 一种多时相遥感图像云区重建方法
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
CN118052844A (zh) 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法
Elhadidy et al. Improved semantic segmentation of low-resolution 3d point clouds using supervised domain adaptation
EP4152274A1 (en) System and method for predicting an occupancy probability of a point in an environment, and training method thereof
CN114494433A (zh) 图像处理方法、装置、设备和计算机可读存储介质
CN114119615A (zh) 一种融合空间注意力和自注意变换网络的雷达分割方法
Ren et al. T-UNet: A novel TC-based point cloud super-resolution model for mechanical lidar
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
Koornstra Predicting Ego-Bicycle Trajectory: An LSTM-based Approach Using Camera and IMU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination