CN115690157A - 一种基于Transformer的毫米波雷达行人轨迹预测方法 - Google Patents
一种基于Transformer的毫米波雷达行人轨迹预测方法 Download PDFInfo
- Publication number
- CN115690157A CN115690157A CN202211371915.4A CN202211371915A CN115690157A CN 115690157 A CN115690157 A CN 115690157A CN 202211371915 A CN202211371915 A CN 202211371915A CN 115690157 A CN115690157 A CN 115690157A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- track
- vector
- future
- millimeter wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Radar Systems Or Details Thereof (AREA)
Abstract
一种基于Transformer的毫米波雷达行人轨迹预测方法,使用毫米波雷达定位方法完成行人的水平空间坐标定位;然后使用基于二分图匹配的历史轨迹跟踪模块,完成对行人历史轨迹的跟踪;最后使用基于Transformer的行人轨迹预测模型(Transformer‑based Trajectories Prediction Model,TTPM)完成对行人未来轨迹的预测。本方法使用邻近历史轨迹编码器和未来轨迹编码器来处理因他人产生的行人轨迹变化。TTPA有效降低了行人轨迹预测的平均位移误差及最终位移误差。
Description
技术领域
本发明属于雷达定位领域,具体涉及一种基于Transformer的毫米波雷达行人轨迹预测方法。
背景技术
随着传感器技术和机器学习技术的发展,研究人员提出了许多人类行为识别系统,这些系统通常使用摄像机、可穿戴设备、射频设备等传感器来检测分析人类的某些行为,如行人的定位。行人定位主要用于了解行人目标的数量、位置、行走轨迹及行进方向,可以用于无人移动平台导航、智能家居、楼宇监控、人机交互等场景。
比较常见的定位方法有立体视觉定位、激光雷达定位等,相较于基于深度摄像机的立体视觉定位存在的隐私性差、激光雷达费用昂贵等问题,毫米波雷达兼具环境适应能力强、有穿透能力、隐私安全性高、低成本、定位精度高等一些列优势。
人员定位中的行人轨迹预测对于无人移动平台的运动是一个至关重要的课题,只有准确的预测行人的移动方向,无人移动平台才能合理地规划行驶路线,及时、安全地避开行人。
早期的轨迹预测算法主要基于运动学预测行人未来轨迹。但是基于运动学的行人轨迹预测难以胜任长时轨迹预测。由于被逐渐证实在长期序列建模任务中更有效,LSTM神经网络成为轨迹预测领域中最常用的模型。基于LSTM的网络模型对单行人轨迹预测比卡尔曼滤波方法效果更好,但是对于多行人场景,行人的行进路线存在交互关系,仅基于单行人的历史轨迹进行轨迹建模,忽略了其他行人轨迹的影响,因此该网络模型难以胜任多行人轨迹预测。同时由于LSTM的顺序结构,其计算速度和性能难以提高。
Transformer结构起初被广泛应用于大多数自然语言处理任务,可以依靠其强大注意力机制和可并行化来提高模型计算速度和性能,因此Transformer网络在行人轨迹预测领域具有很大的潜力。基于行人的历史速度向量,使用Transformer网络预测行人未来速度向量从而得到行人位置。然而其只是针对单个行人的建模,对更广泛的行人场景欠缺一定的鲁棒性。
发明内容
为了更好的解决毫米波雷达行人轨迹预测问题,本发明提出一种基于Transformer的毫米波雷达行人轨迹预测方法,基于行人通常会按照避免与其他行人碰撞的路线行进这一客观条件,通过构建行人动态图来捕捉行人间复杂的空间交互关系,并利用Transformer网络结构建立行人轨迹预测模型,得到了基于Transformer的行人轨迹预测模型 (Transformer-based Trajectories Prediction Model,TTPM)。
一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:包含以下步骤:
步骤1,利用双目摄像机和毫米波雷达,获取图像和回波数据,进而得到行人的水平空间坐标定位;
步骤2,将行人的水平空间坐标和对应的定位时间组合作为行人的状态向量;
步骤3,利用行人的状态向量构造存在最佳匹配的二分图;
步骤4,利用KM算法解决寻找加权二分图的最佳匹配,通过连续地将当前最新定位结果匹配到轨迹上,进而获得所有行人在一定时间段内的历史轨迹序列;
步骤5,对获得的历史轨迹使用卡尔曼滤波,消除轨迹中存在的噪声,获得真实的行人历史轨迹;
步骤6,使用行人运动状态图来确定可能对目标行人造成影响的邻近行人,并构造邻近行人历史轨迹;
步骤7,分别将目标行人的历史轨迹、邻近行人的历史轨迹输入行人历史轨迹编码器和临近历史轨迹编码器,并通过基于正弦和余弦函数的位置编码为输入的行人运动状态添加时序信息;
步骤8,基于Transformer的行人轨迹预测模型TTPM使用未来轨迹编码器来建模行人未来所处的位置对更远未来时刻位置造成的影响;
步骤9,三种轨迹编码器基于Transformer提供的注意力机制对轨迹进行编码,同时生成记忆向量,然后拼接行人历史轨迹编码器与邻近历史轨迹编码器生成的记忆向量来汇总两种轨迹对行人未来轨迹的影响;
步骤10,TTPM使用池化及多层感知器来提取数据的分布特征,并基于重采样技术生成行人位置潜状态,最终使用未来轨迹解码器根据行人位置潜状态生成对目标行人未来轨迹的预测。
进一步地,步骤1中包括如下步骤:
步骤1-1,双目摄像机获取待测区域的深度数据矩阵和RGB图像矩阵;毫米波雷达并行地获取回波数据;
步骤1-2,使用人体姿态估计算法从RGB图像矩阵中计算行人人体关键点的像素坐标,再从深度图像中获取关键点的像素坐标的空间笛卡尔坐标,计算空间水平坐标(X,Y);
步骤1-3,对回波数据使用AOA算法,将步骤1-2中的坐标(X,Y) 作为标签,将所得数据输入卷积神经网络,得到准确的雷达回波模型;
步骤1-4,对步骤1-2中的数据使用OS-CFAR算法去噪后,使用 DBSCAN聚类算法对人员反射信号点分簇,提取每一簇的的中心后通过坐标映射,得到行人在雷达极坐标系中的坐标(R,θ);
步骤1-5,将(X,Y)通过坐标变换后,得到对应的极坐标,将其与毫米波雷达得到的极坐标(R,θ)使用KM加权二分图匹配算法,得到最终行人水平空间坐标(xi,yi)。
进一步地,步骤2包括如下步骤:
步骤2-1,根据获取的水平空间坐标定位,当存在多条行人轨迹,每条轨迹的最后一次定位发生于t-1时刻,水平空间坐标为(xi,yi),行人的状态向量表示为ui=(t-1,xi,yi),i=1,2,...,q;
步骤2-2,设当前t时刻共产生k个水平空间定位结果(xj,yj),每个定位结果的状态向量表示为vj=(t,xj,yj),j=1,2,...,k。
进一步地,步骤3包括如下步骤:
步骤3-1,将每个最近出现过的行人的最后状态向量作为构成二分图的子图U的顶点;当前时刻各个行人的状态向量构成二分图的另一子图V的顶点;
步骤3-2,为步骤3-1中构造的子图U和V中的每一对顶点添加无向边(u,v),u∈Uv∈V,每条无向边的权重为顶点u和v之间的欧几里得距离;
步骤3-3,考虑到毫米波雷达实际定位过程中,存在二分图中每个子图的顶点数不相同的问题,对数量少的子图添加虚拟顶点。
进一步地,步骤6包括如下步骤:
步骤6-2,构造行人运动状态图G=(V,E)来动态模拟行人和与其相邻行人的交互关系;将每个行人表示为顶点v∈V,当两个行人vi和 vj的距离过近时,认为会对彼此的行进轨迹会产生影响,因此建立无向边e=(vi,vj)∈E,无向边e的权重为两行人之间的欧几里得距离;
步骤6-3,对于图中每一个行人vi,将所有与vi存在无向边的行人v的运动状态与vi的运动状态合并,将运动状态向量中的6个维度逐维相加,将不定长的相邻行人状态序列转为定长的邻近历史轨迹 Xedge,且Xedge与行人历史轨迹Xobs有相同的维度和大小。
进一步地,步骤7中,行人历史轨迹编码器接收行人历史轨迹的输入,进行向量编码后和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作;邻近历史轨迹编码器接收邻近历史轨迹的输入,进行向量编码后和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作;两个编码器的输出进行拼接得到记忆向量C。
进一步地,步骤7中,向行人运动状态中添加时序信息步骤如下:
其中,频率ωd定义如下:
利用正余弦函数对轨迹序列进行位置编码,保证了对于时间长度不同的两个轨迹序列,任何两个运动状态之间的距离也是一致的,使模型在面对不同长度的输入轨迹序列时具有泛化能力。
进一步地,步骤8中的未来轨迹编码器,接收未来轨迹的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终进行前馈操作并输出。
进一步地,步骤8包括如下分步骤:
步骤8-1,未来轨迹编码器在行人自身历史轨迹以及邻近行人历史轨迹的基础上建模行人的未来轨迹概率分布p(Y|Xobs,Xedge)。
步骤8-2,将行人潜状态定义为Z,行人未来轨迹概率分布可以定义为以下公式:
p(Y|Xobs,Xedge)=∫p(Y|Xobs,Xedge,Z)p(Z|Xobs,Xedge)dZ
其中,p(Z|Xobs,Xedge)是由行人历史轨迹Xobs及邻近行人历史轨迹 Xedge推断出的高斯先验分布。
步骤8-3,为了近似估计p(Z|Xobs,Xedge)和p(Y|Xobs,Xedge,Z)的概率分布,利用行人历史轨迹编码器、邻近历史轨迹编码器、未来轨迹编码器、未来轨迹解码器四个部分组成编码-解码器网络。
进一步地,步骤10中的未来轨迹解码器,首先接收行人潜状态 Z的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终通过前馈以及残差和归一化操作输出行人未来位置,并再进行向量编码至残差和归一化操作的循环流程。
本发明的有益效果:
(1)利用本方法中提及的二分图匹配历史轨迹的方案,不需要人员数量的先验信息,也不要求被定位的目标数量固定,对于人员流动较大场景下的行人轨迹跟踪问题有良好的解决能力。
(2)相比Transformer模型,TTPM使用了邻近状态序列编码器,捕捉了行人空间交互关系,在多行人场景下对行人轨迹预测的准确率更高。
(3)相比其他常用模型,TTPM将目标行人历史轨迹与邻近历史轨迹纳入建模考虑中,并在预测过程中考虑了行人未来轨迹对其更远未来时刻的影响,从而更准确的预测行人未来轨迹。
附图说明
图1是本发明实施例中行人轨迹预测方法的算法框架图。
图2是本发明实施例中算法框架图中的行人轨迹预测图。
图3是本发明实施例中行人历史轨迹编码器和邻近历史轨迹编码器结构图。
图4是本发明实施例中未来轨迹编码器结构图。
图5是本发明实施例中未来轨迹解码器结构图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明是一种基于Transformer的毫米波雷达行人轨迹预测方法。
步骤1,使用双目摄像机和毫米波雷达共同作用的人员定位方法完成行人的水平空间坐标定位。
定位方法如下:
步骤1-1,双目摄像机获取待测区域的深度数据矩阵和RGB图像矩阵;毫米波雷达并行地获取回波数据。
步骤1-2,使用人体姿态估计算法从RGB图像矩阵中计算人体关键点的像素坐标,再从深度图像中获取关键点的像素坐标的空间笛卡尔坐标,计算空间水平坐标(X,Y)。
步骤1-3,对回波数据使用AOA算法,将1-2中的坐标(X,Y)作为标签,将所得数据输入卷积神经网络,得到准确的雷达回波模型。
步骤1-4,对步骤1-2中的数据使用OS-CFAR算法去噪后,使用 DBSCAN聚类算法对人员反射信号点分簇,提取每一簇的的中心后通过坐标映射,得到人员在雷达极坐标系中的坐标(R,θ)。
步骤1-5,将(X,Y)通过坐标变换后,得到对应的极坐标,将其与毫米波雷达得到的极坐标(R,θ)使用KM加权二分图匹配算法,得到最终人员水平空间坐标(xi,yi)。
步骤2,根据水平空间坐标定位信息获取相关目标的状态向量。
状态向量获取方法如下:
步骤2-1,根据获取的水平空间坐标定位,当存在多条行人轨迹,每条轨迹的最后一次定位发生于t-1时刻,空间坐标为(xi,yi),行人的状态向量表示为ui=(t-1,xi,yi),i=1,2,...,q。
步骤2-2,设当前t时刻共产生k个水平空间定位结果(xj,yj),每个定位结果的状态向量表示为vj=(t,xj,yj),j=1,2,...,k。
步骤3,利用状态向量构造存在最佳匹配的二分图。
存在最佳匹配的二分图的构造过程如下:
步骤3-1,每个最近出现过的行人的最后状态向量ui(i=1,2,...,q) 作为构成二分图的子图U的顶点,当前时刻各个行人的状态向量构成二分图的另一子图V的顶点,然后为U和V中的每一对顶点添加无向边(u,v),u∈Uv∈V,每条无向边的权重为顶点u和v之间的欧几里得距离。
步骤3-2,考虑到毫米波雷达实际定位过程中,存在二分图中每个子图的顶点数不相同的问题,对数量少的子图添加虚拟顶点。假设一个目标在当前时刻走出定位范围或者因为噪声或遮挡原因发生漏检,可以向子图V添加一个虚拟顶点v'。类似的,如果出现一个新的目标,造成子图U中的顶点数少于V,也会向子图U添加一个新的顶点u'。对于这两种情况,可以将所有与虚拟顶点关联的无向边权重定义为d0。添加虚拟顶点后,能够使得二分图存在最佳匹配。
步骤4,通过KM算法来寻找二分图的最佳匹配,通过连续的将当前最新定位结果匹配到现有或新建的轨迹上,进而获得所有行人在一定时间段内的历史轨迹序列。
步骤5,对历史轨迹序列使用卡尔曼滤波,消除轨迹中存在的噪声,还原行人真实历史轨迹。
步骤6,还原行人历史轨迹后,使用行人运动状态图来确定可能对目标行人造成影响的邻近行人,将行人的运动状态表示为一个6维状态向量,其中包括行人的位置向量速度向量以及加速度向量构造行人运动状态图G=(V,E)来动态模拟行人和与其相邻行人的交互关系。将每个行人表示为顶点v∈V,当两个行人vi和vj的距离过近时,认为他们对彼此的行进轨迹会产生影响,因此建立无向边e=(vi,vj)∈E,无向边e的权重为两行人之间的欧几里得距离。对于图中每一个行人vi,将所有与vi存在无向边的行人v 的运动状态与vi的运动状态合并,将运动状态向量中的6个维度逐维相加,将不定长的相邻行人状态序列转为定长的邻近历史轨迹Xedge,且Xedge与行人历史轨迹Xobs有相同的维度和大小。
步骤7,使用嵌入向量编码模块与位置编码模块将输入的轨迹序列映射为便于模型学习的向量,并使用一种基于正弦和余弦函数的位置编码方法来为输入的行人运动状态添加时序信息。
向行人运动状态中添加时序信息步骤如下:
其中,频率ωd定义如下:
利用正余弦函数对轨迹序列进行位置编码,保证了对于时间长度不同的两个轨迹序列,任何两个运动状态之间的距离也是一致的,使模型在面对不同长度的输入轨迹序列时具有泛化能力。
步骤8,构造邻近历史轨迹,使用基于Transformer的行人历史轨迹编码器和邻近历史轨迹编码器,对相邻行人轨迹及目标行人自身历史轨迹赋予不同的注意力,建模对目标行人未来轨迹的影响,两种编码器如图3所示。
行人历史轨迹编码器接收行人历史轨迹的输入,进行向量编码后和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作。邻近历史轨迹编码器和行人历史轨迹编码器类似,接收邻近历史轨迹输入,通过类似的流程操作。最终两者的输出进行拼接得到记忆向量C。
除了行人自身的历史轨迹和邻近行人的历史轨迹外,行人未来所处的位置同样会对更远未来时刻的位置造成影响,TTPM使用未来轨迹编码器来建模这种影响因素。
未来轨迹编码器原理如下:
步骤8-1,未来轨迹编码器在行人自身历史轨迹以及邻近行人历史轨迹的基础上建模行人的未来轨迹,行人未来轨迹的定义为Y,其概率为p(Y|Xobs,Xedge)。
步骤8-2,将行人潜状态定义为Z,行人未来轨迹概率分布可以定义为以下公式:
p(Y|Xobs,Xedge)=∫p(Y|Xobs,Xedge,Z)p(Z|Xobs,Xedge)dZ
其中,p(Z|Xobs,Xedge)是由行人历史轨迹Xobs及邻近行人历史轨迹 Xedge推断出的高斯先验分布。
步骤8-3,为了近似估计p(Z|Xobs,Xedge)和p(Y|Xobs,Xedge,Z)的概率分布,利用行人历史轨迹编码器、邻近历史轨迹编码器、未来轨迹编码器、未来轨迹解码器四个部分组成编码-解码器网络,其中未来轨迹编码器结构如图4,未来轨迹解码器结构如图5。
未来轨迹编码器,接收未来轨迹的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终进行前馈操作并输出。
未来轨迹解码器,首先接收行人潜状态Z的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终通过前馈以及残差和归一化操作输出行人未来位置,并再进行向量编码至残差和归一化操作的循环流程。
步骤9,三种轨迹编码器基于Transformer提供的注意力机制对轨迹进行编码,同时生成记忆向量,然后拼接行人历史轨迹编码器与邻近历史轨迹编码器生成的记忆向量来汇总两种轨迹对行人未来轨迹的影响。
通过向量编码和位置编码将行人历史轨迹和邻近历史轨迹编码为带有时间戳信息的嵌入向量。分别将位置编码后的嵌入向量输入行人历史轨迹编码器和邻近历史轨迹编码器。在分别对嵌入向量完成编码后,将输出的两个向量拼接为记忆向量,记忆向量汇总了行人历史轨迹和邻近历史轨迹的影响。使用一个平均池化层来从所有历史轨迹中提取特征。然后,利用多层感知器(multi layerperception,MLP) 将映射到高斯先验概率分布并得到高斯参数。通过Gumbel-Softmax 重参数技巧,可以得到潜状态的采样值Zp。
与获得先验概率分布的方法类似,使用平均池化层来从未来轨迹中提取未来轨迹特征,然后利用MLP将未来轨迹特征映射到近似后验分布q(Z|Y,Xobs,Xedge)并得到高斯参数(μq,σq)。最后使用 Gumbel-Softmax重参数技巧,得到潜在状态的采样值Zq。
步骤10,根据上步方法,使用池化及多层感知器来提取数据的分布特征,并基于重采样技术生成行人位置潜状态Zp和Zq,在训练时通过反向传播减小Zp与Zq的差异,最终使用未来轨迹解码器根据行人位置潜状态生成对目标行人未来轨迹的预测。
未来轨迹预测方法如下:
步骤10-1,解码器的输入序列可以表示为其中模型预测的行人未来位置的初始值由行人历史状态序列Xobs的最后时间步的状态特征赋值。通过位置编码将时间戳加入每个ft中得到嵌入向量,将嵌入向量输入第一个Multi-HeadAttention并输出查询向量。
步骤10-2,将查询向量与记忆向量C的键值对编码输入第二个 Multi-HeadAttention,然后前馈网络输出下一时间步的未来状态。
步骤10-3,通过最小化预测轨迹和未来轨迹之间的均方差,根据 q(Z|Y,Xobs,Xedge)的后验概率分布近似的拟合p(Y|Xobs,Xedge,Z)的条件似然分布。
在毫米波雷达定位任务中,毫米波雷达定位存在虚警和漏检现象,易使得对行人的轨迹跟踪出现间断,或者错匹配定位结果与行人轨迹。存在间断或者错匹配的行人历史轨迹将对轨迹预测模型的性能产生难以预估的影响。为了验证本方法的有效性,利用基于Njupt-radar 数据集中体操房测试数据,分别对1~5人场景下对行人轨迹跟踪的能力做了测试,测试过程中所有实验人员均沿着某一条预设轨迹匀速行走。
为了对本方法的跟踪效果进行定量分析,统计了不同人数场景下跟踪结果的丢失跟踪率(丢失跟踪的次数占总跟踪次数的比率)、身份切换率(每条预设轨迹出现不同身份行人轨迹的次数占总跟踪次数的比率)、平均跟踪误差(跟踪结果与预设轨迹的误差)。
结果如表1所示,在一人场景下本方法的跟踪效果最好,没有出现丢失跟踪和身份切换的情况,且平均跟踪误差较低。尽管随着人数的增加,出现了更多丢失跟踪和身份切换,但是在5人及以下场景内,本方法对行人的轨迹跟踪仍保持较低的丢失跟踪率、身份切换率和平均跟踪误差。
表1跟踪效果
人数 | 丢失跟踪率 | 身份切换率 | 平均跟踪误差 |
1人 | 0% | 0% | 14.35cm |
2人 | 1.25% | 1.11% | 16.68cm |
3人 | 2.28% | 1.55% | 19.62cm |
4人 | 3.21% | 2.12% | 21.37cm |
5人 | 4.17% | 2.68% | 24.74cm |
为对本方法性能进行定量分析,轨迹预测评价指标包括:
平均位移误差(MeanAverage Displacement,MAD):在未来T 个时间步内,每个时间步预测位置与行人真实位置之间欧式距离误差的平均值。第i人的MAD数学定义如下:
最终位移误差(FinalAverage Displacement,FAD):最后一个时间步中,预测轨迹与行人真实轨迹之间欧式距离的平均值。第i人的 FAD数学定义如下:
测试所用数据集为Njupt-radar,为了增强数据集充分训练TTPM 网络模型,对Njupt-radar中每数据帧使用毫米波雷达人员定位方法得到定位结果后,将定位结果分别进行平移、旋转坐标变换,然后将行人定位结果制作为历史轨迹序列。
Njupt-radar数据集包含6种不同场景,在经过数据集扩充后共得到133758条行人轨迹序列,这些轨迹序列平均包含行人连续的154 次定位结果,每次定位结果间隔0.2秒(Δt=0.2)。本试验验证中将 70%的行人轨迹序列用作训练,30%的数据用于测试。
本发明所提出的TTPM在Njupt-radar数据集上基于预测时常的关于MAD与FAD指标结果如表2所示。
表2 Njupt-radar数据集TTPM的MAD和FAD指标
本实验基于行人历史4秒的行走轨迹分别预测了行人未来1秒、 2秒、3秒的轨迹。实验结果表明,本发明所提出的TTPM具有较低的MDE和FDE误差,尽管随着预测时长的增加,MAD和FAD误差都在增大,但是TTPM显示出了较慢的误差增长速度。
相比Transformer模型,TTPM使用了邻近状态序列编码器,捕捉了行人空间交互关系,因此在多行人场景下对行人轨迹预测的准确率更高。
为了验证TTPM的鲁棒性,除了基于上述自建的Njupt-radar毫米波雷达数据集,本实验还基于以下公共数据集对TTPM算法进行测试。
GC数据集:从纽约中央火车站监控视频中采样了6001帧RGB 图像,约一小时时长的视频图像,帧间隔0.8秒,包含手动标记的12684 名行人的步行轨迹,行人坐标以RGB图像像素坐标系为基准。
ETH数据集:包含两个场景(ETH场景和Hotel场景)的RGB 图像,共750个不同行人的标注轨迹,帧间隔0.4秒。
UCY数据集:包含两种场景ZARA场景和UCY场景,其中ZARA 场景包含两个部分,ZARA-01和ZARA-02,共786个不同行人的标注轨迹,帧间隔0.4秒。
由于各数据集对行人轨迹的采样率不同,为了统一使用历史4秒轨迹预测未来4秒轨迹,本实验对各数据集的设置也不同。对于GC 数据集,本实验基于历史5帧轨迹预测未来5帧轨迹。对于ETH和 UCY数据集,本实验基于历史10帧轨迹预测未来10帧轨迹。相比于Njupt-radar的校园场景,GC数据集、ETH数据集、UCY数据集的数据集采集地点为广场或路口,行人更加密集,行人之间空间交互更加频繁。测试结果如表3所示。
表3公共数据集中TTPM的MAD和FAD指标
实验结果表明,TTPM通过邻近状态序列编码器和未来状态序列编码器,很好得对行人空间位置关系建模,在行人密集的场景对行人未来的轨迹预测性能优秀。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (10)
1.一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:包含以下步骤:
步骤1,利用双目摄像机和毫米波雷达,获取图像和回波数据,进而得到行人的水平空间坐标定位;
步骤2,将行人的水平空间坐标和对应的定位时间组合作为行人的状态向量;
步骤3,利用行人状态向量构造存在最佳匹配的二分图;
步骤4,利用KM算法解决寻找加权二分图的最佳匹配,通过连续地将当前最新定位结果匹配到轨迹上,进而获得所有行人在一定时间段内的历史轨迹序列;
步骤5,对获得的历史轨迹使用卡尔曼滤波,消除轨迹中存在的噪声,获得真实的行人历史轨迹;
步骤6,使用行人运动状态图来确定可能对目标行人造成影响的邻近行人,并构造邻近行人历史轨迹;
步骤7,分别将目标行人的历史轨迹、邻近行人的历史轨迹输入行人历史轨迹编码器和临近历史轨迹编码器,并通过基于正弦和余弦函数的位置编码为输入的行人运动状态添加时序信息;
步骤8,基于Transformer的行人轨迹预测模型TTPM使用未来轨迹编码器来建模行人未来所处的位置对更远未来时刻位置造成的影响;
步骤9,三种轨迹编码器基于Transformer提供的注意力机制对轨迹进行编码,同时生成记忆向量,然后拼接行人历史轨迹编码器与邻近历史轨迹编码器生成的记忆向量来汇总两种轨迹对行人未来轨迹的影响;
步骤10,TTPM使用池化及多层感知器来提取数据的分布特征,并基于重采样技术生成行人位置潜状态,最终使用未来轨迹解码器根据行人位置潜状态生成对目标行人未来轨迹的预测。
2.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤1中包括如下步骤:
步骤1-1,双目摄像机获取待测区域的深度数据矩阵和RGB图像矩阵;毫米波雷达并行地获取回波数据;
步骤1-2,使用人体姿态估计算法从RGB图像矩阵中计算行人人体关键点的像素坐标,再从深度图像中获取关键点的像素坐标的空间笛卡尔坐标,计算空间水平坐标(X,Y);
步骤1-3,对回波数据使用AOA算法,将步骤1-2中的坐标(X,Y)作为标签,将所得数据输入卷积神经网络,得到准确的雷达回波模型;
步骤1-4,对步骤1-2中的数据使用OS-CFAR算法去噪后,使用DBSCAN聚类算法对人员反射信号点分簇,提取每一簇的的中心后通过坐标映射,得到行人在雷达极坐标系中的坐标(R,θ);
步骤1-5,将(X,Y)通过坐标变换后,得到对应的极坐标,将其与毫米波雷达得到的极坐标(R,θ)使用KM加权二分图匹配算法,得到最终行人的水平空间坐标(xi,yi)。
3.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤2包括如下步骤:
步骤2-1,根据获取的水平空间坐标定位,当存在多条行人轨迹,每条轨迹的最后一次定位发生于t-1时刻,水平空间坐标为(xi,yi),行人的状态向量表示为ui=(t-1,xi,yi),i=1,2,…,q;
步骤2-2,设当前t时刻共产生k个水平空间定位结果(xj,yj),每个定位结果的状态向量表示为vj=(t,xj,yj),j=1,2,…,k。
4.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤3包括如下步骤:
步骤3-1,将每个最近出现过的行人的最后状态向量作为构成二分图的子图U的顶点;当前时刻各个行人的状态向量构成二分图的另一子图V的顶点;
步骤3-2,为步骤3-1中构造的子图U和V中的每一对顶点添加无向边(u,v),u∈Uv∈V,每条无向边的权重为顶点u和v之间的欧几里得距离;
步骤3-3,考虑到毫米波雷达实际定位过程中,存在二分图中每个子图的顶点数不相同的问题,对数量少的子图添加虚拟顶点。
5.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤6包括如下步骤:
步骤6-2,构造行人运动状态图G=(V,E)来动态模拟行人和与其相邻行人的交互关系;将每个行人表示为顶点v∈V,当两个行人vi和vj的距离过近时,认为会对彼此的行进轨迹会产生影响,因此建立无向边e=(vi,vj)∈E,无向边e的权重为两行人之间的欧几里得距离;
步骤6-3,对于图中每一个行人vi,将所有与vi存在无向边的行人v的运动状态与vi的运动状态合并,将运动状态向量中的6个维度逐维相加,将不定长的相邻行人状态序列转为定长的邻近历史轨迹Xedge,且Xedge与行人历史轨迹Xobs有相同的维度和大小。
6.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤7中,行人历史轨迹编码器接收行人历史轨迹的输入,进行向量编码后和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作;邻近历史轨迹编码器接收邻近历史轨迹的输入,进行向量编码后和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作;两个编码器的输出进行拼接得到记忆向量C。
7.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤7中,向行人运动状态中添加时序信息步骤如下:
其中,频率ωd定义如下:
利用正余弦函数对轨迹序列进行位置编码,保证了对于时间长度不同的两个轨迹序列,任何两个运动状态之间的距离也是一致的,使模型在面对不同长度的输入轨迹序列时具有泛化能力。
8.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤8中的未来轨迹编码器,接收未来轨迹的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,接着进行前馈以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终进行前馈操作并输出。
9.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤8包括如下分步骤:
步骤8-1,未来轨迹编码器在行人自身历史轨迹以及邻近行人历史轨迹的基础上建模行人的未来轨迹概率分布p(Y|Xobs,Xedge)。
步骤8-2,将行人潜状态定义为Z,行人未来轨迹概率分布可以定义为以下公式:
p(Y|Xobs,Xedge)=∫p(Y|Xobs,Xedge,Z)p(Z|Xobs,Xedge)dZ
其中,p(Z|Xobs,Xedge)是由行人历史轨迹Xobs及邻近行人历史轨迹Xedge推断出的高斯先验分布。
步骤8-3,为了近似估计p(Z|Xobs,Xedge)和p(Y|Xobs,Xedge,Z)的概率分布,利用行人历史轨迹编码器、邻近历史轨迹编码器、未来轨迹编码器、未来轨迹解码器四个部分组成编码-解码器网络。
10.根据权利要求1所述的一种基于Transformer的毫米波雷达行人轨迹预测方法,其特征在于:步骤10中的未来轨迹解码器,首先接收行人潜状态Z的输入,通过向量编码,和位置编码一并进行多头注意力机制以及残差和归一化操作,然后和通过键值对输入的记忆向量C再此进行多头注意力机制以及残差和归一化操作,最终通过前馈以及残差和归一化操作输出行人未来位置,并再进行向量编码至残差和归一化操作的循环流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211371915.4A CN115690157A (zh) | 2022-11-03 | 2022-11-03 | 一种基于Transformer的毫米波雷达行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211371915.4A CN115690157A (zh) | 2022-11-03 | 2022-11-03 | 一种基于Transformer的毫米波雷达行人轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115690157A true CN115690157A (zh) | 2023-02-03 |
Family
ID=85047296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211371915.4A Pending CN115690157A (zh) | 2022-11-03 | 2022-11-03 | 一种基于Transformer的毫米波雷达行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115690157A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116184352A (zh) * | 2023-04-26 | 2023-05-30 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 基于轨迹估计的射频目标侦测系统 |
-
2022
- 2022-11-03 CN CN202211371915.4A patent/CN115690157A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116184352A (zh) * | 2023-04-26 | 2023-05-30 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 基于轨迹估计的射频目标侦测系统 |
CN116184352B (zh) * | 2023-04-26 | 2023-08-22 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 基于轨迹估计的射频目标侦测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210362596A1 (en) | End-To-End Tracking of Objects | |
Mittal et al. | Adapting convolutional neural networks for indoor localization with smart mobile devices | |
CN107818571B (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
Sadeghian et al. | Sophie: An attentive gan for predicting paths compliant to social and physical constraints | |
Luo et al. | Fast and furious: Real time end-to-end 3d detection, tracking and motion forecasting with a single convolutional net | |
US20190188533A1 (en) | Pose estimation | |
Schulz et al. | Tracking multiple moving targets with a mobile robot using particle filters and statistical data association | |
Fan et al. | Point spatio-temporal transformer networks for point cloud video modeling | |
Liu et al. | A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving | |
KR20200096409A (ko) | 자율 주행 차량을 위한 포인트 클라우드 고스트 효과 검출 시스템 | |
JP2019527832A (ja) | 正確な位置特定およびマッピングのためのシステムおよび方法 | |
CN109556607A (zh) | 一种快速处理移动机器人定位“绑架”问题的方法 | |
CN109389641A (zh) | 室内地图综合数据生成方法及室内重定位方法 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
Redžić et al. | Image and wlan bimodal integration for indoor user localization | |
CN111291690A (zh) | 路线规划方法、路线规划装置、机器人及介质 | |
CN109636828A (zh) | 基于视频图像的物体跟踪方法及装置 | |
CN115900710A (zh) | 基于视觉信息的动态环境导航方法 | |
CN115690157A (zh) | 一种基于Transformer的毫米波雷达行人轨迹预测方法 | |
Akilandeswari et al. | Design and development of an indoor navigation system using denoising autoencoder based convolutional neural network for visually impaired people | |
CN111402632A (zh) | 一种交叉口行人运动轨迹的风险预测方法 | |
CN106127119A (zh) | 基于彩色图像和深度图像多特征的联合数据关联方法 | |
Wu et al. | Smart explorer: Recognizing objects in dense clutter via interactive exploration | |
Postnikov et al. | Conditioned Human Trajectory Prediction using Iterative Attention Blocks | |
Llorca et al. | Assistive pedestrian crossings by means of stereo localization and rfid anonymous disability identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |