CN115661199A - 一种频域视角下智能体轨迹预测方法、系统、设备及介质 - Google Patents

一种频域视角下智能体轨迹预测方法、系统、设备及介质 Download PDF

Info

Publication number
CN115661199A
CN115661199A CN202211293163.4A CN202211293163A CN115661199A CN 115661199 A CN115661199 A CN 115661199A CN 202211293163 A CN202211293163 A CN 202211293163A CN 115661199 A CN115661199 A CN 115661199A
Authority
CN
China
Prior art keywords
spectrum
trajectory
agent
key
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211293163.4A
Other languages
English (en)
Inventor
尤新革
夏北浩
彭勤牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211293163.4A priority Critical patent/CN115661199A/zh
Publication of CN115661199A publication Critical patent/CN115661199A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能体轨迹预测领域,公开了一种频域视角下智能体轨迹预测方法、系统、设备及介质,方法包括:构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。本发明从频域视角重新看待轨迹预测,从粗粒度的全局规划到更为细粒度的交互偏好描述,细致地反映智能体在不同尺度上的行为偏好。

Description

一种频域视角下智能体轨迹预测方法、系统、设备及介质
技术领域
本发明属于智能体轨迹预测领域,尤其涉及一种频域视角下智能体轨迹预测方法、系统、设备及介质。
背景技术
目前,轨迹预测旨在考虑潜在影响因素来推断代理可能的未来轨迹。这是一项重要但具有挑战性的任务,可广泛应用于行为分析、机器人导航、自动驾驶、目标检测与跟踪等任务。现有的一部分工作主要研究了交互因素对轨迹预测的影响,包括社会交互(SocialInteraction)和场景交互(Physical Interaction)。另有一部分工作探索了如何对轨迹进行更好的更好的建模,它们往往使用不同的神经网络编码智能体轨迹,如长短期记忆网络(Long-Short Term Memory Networks,LSTM)、图卷积网络(Graph Convolution Network,GCN)和变形金刚网络(Transformers)。
大多数现有方法将轨迹预测视为时间序列生成任务并逐步生成轨迹点,然而这难以细致地反映智能体在不同尺度上的行为偏好。换言之,现有工作主要聚焦于智能体行为的动态变化,但缺乏在不同时间尺度上的分层描述。例如,智能体在运动时,往往先明确目的地(运动趋势),然后在实际运动过程中再调整具体的运动细节(行为偏好)。尽管已有一些方法使用具有注意力机制的神经网络(如:Transformers)作为骨干网络来建模智能体的运动状态,但它们仍难以直接描述智能体在不同时间尺度上详细地运动差异。
傅里叶变换(Fourier transform,FT)在信号处理领域取得了巨大成功,例如图像去噪、边缘提取、图像超分辨率等。傅立叶变换将信号分解为一系列在不同频率上具有不同幅度和相位的正弦曲线。此外,这些正弦曲线具备反映不同频率尺度下的差异化频率响应的特性,这在原始信号中难以直接获得。
已有一些工作将傅立叶变换应用于类似于轨迹预测的任务中。但是,它们只是通过图傅里叶变换建模智能体间的交互关系,并没有使用傅立叶变换直接对轨迹进行建模。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有方法缺乏对轨迹的整体的描述即难以很好地刻画智能体的运动趋势。
(2)现有的分层轨迹预测方法更多地关注能否更加准确地预测“目的地”(即轨迹的整体趋势),忽略了对交互行为的精细建模。
(3)现有方法往往将轨迹预测视为时间序列生成任务并逐步生成轨迹点,然而这难以细致地反映智能体在不同尺度上的行为偏好。
发明内容
针对现有技术存在的问题,本发明提供了一种频域视角下智能体轨迹预测方法、系统、设备及介质。
本发明是这样实现的,一种频域视角下智能体轨迹预测方法,所述频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
进一步,所述粗粒度关键点估计子网络包括:
步骤一,对智能体的观察轨迹进行离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤二,综合使用多层感知机一MLPt和多层感知机二MLPi得到随机噪声特征fi和高维特征ft,拼接得到fe,f_e表示嵌入向量;
步骤三,使用关键点Transformer Tk(此处也可以使用长短记忆网络LSTM,时间卷积网络TCN。因为Transformer更擅长于长距离关系的建模)对所述fe进行编码;
步骤四,使用解码器MLPe预测智能体的N个关键点轨迹谱[Akey,Φkey];
步骤五,通过最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化所述粗粒度关键点估计子网络,从而预测所述关键点轨迹谱。
进一步,所述智能体的观察轨迹为:
Figure BDA0003902098370000031
表示一个智能体在时间t的二维坐标,给定一个视频片段{I},其中{I}包含M个智能体在时间[1,2,...,th]的观察轨迹
Figure BDA0003902098370000032
Xi表示第i个智能体的观察轨迹,用于预测M个智能体在未来时间段[th+1,th+2,...,th+tf]的潜在轨迹坐标点
Figure BDA0003902098370000033
进一步,所述步骤一的具体过程为:
对观测轨迹
Figure BDA0003902098370000034
的每个维度应用1D-DFT获得观测轨迹谱
Figure BDA0003902098370000035
包括幅度谱A={ax,ay}和相位谱Φ={φx,φy}:
Figure BDA0003902098370000036
Figure BDA0003902098370000037
其中,DFT表示离散傅里叶变换函数。1D-DFT:一维离散傅立叶变换。
进一步,所述步骤二的具体过程为:
首先,对随机噪声向量
Figure BDA0003902098370000038
进行采样;然后,使用多层感知机二MLPi编码噪声变量z获得随机噪声特征fi
使用多层感知机一MLPt编码智能体的观测轨迹谱
Figure BDA0003902098370000041
得到高维特征ft
最后将所述ft与所述fi拼接得到嵌入向量fe,公式为:
Figure BDA0003902098370000042
Figure BDA0003902098370000043
Figure BDA0003902098370000044
其中,fe表示,[a,b]表示向量{a,b}在最后一维上的拼接,为了说明[,]这个操作表示拼接,这里a,b是说有两个向量,类似于举例说明。
进一步,所述步骤三的具体过程为:
先将嵌入的向量fe被传递到Transformer编码器,将观测轨迹谱(ax,ay,φx,φy)输入到Transformer解码器;所述Transformer编码器用作特征提取器,不包含最终输出层;
然后使用多层感知机三MLPe聚合不同频率节点的特征,从而得到行为特征f,表达式为:
Figure BDA0003902098370000045
进一步,所述步骤四的具体过程为:
所述轨迹谱[Akey,Φkey]的表达式为:
Figure BDA0003902098370000046
其中,Nkey表示轨迹谱关键点的数目。
进一步,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的真实的关键点空间坐标ykey作为标签,所述ykey从完整的未来轨迹真值(Ground Truth)中获取;同时,利用离散傅里叶逆变换(IDFT)获得预测的关键点空间坐标
Figure BDA0003902098370000047
通过最小化真实的ykey和预测的
Figure BDA0003902098370000048
之间的平均欧几里得距离来优化子网络,从而学习预测相应的关键点的轨迹谱;
所述平均欧几里得距离为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
Figure BDA0003902098370000051
其中,
Figure BDA0003902098370000052
Figure BDA0003902098370000053
{\hat{Y}}_{i=1}^m表示的M个智能体的预测轨迹。其中Y表示的是M个智能体的轨迹,y表示的是单个智能体的轨迹。Y有\hat表示是预测轨迹,Y没有\hat表示轨迹的真值(Ground Truth)。
p是position的缩写,表示坐标点(×,y),t_1,...,t_{N_key}表示的关键点所在的时刻。
其中,IDFT表示离散傅里叶逆变换函数。
进一步,所述细粒度频谱插值子网络包括:
首先,将所述关键点的轨迹谱[Akey,Φkey]输入,获得表征特征
Figure BDA0003902098370000054
Figure BDA0003902098370000055
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数,其中Nkey<tf;Nkey表示关键点的数目;tf表示预测时间段的长度。
然后,首先获得交互表征C,具体如下:
将t时刻的场景图像记作It。在进行后续进行模型推导过程中,需要将智能体的轨迹坐标归一化为统一的单位。智能体的轨迹坐标可以用世界坐标、像素坐标或网格坐标表示,(x,y)为世界坐标(单位为米)、(px,py)为单位为像素值的坐标(单位为pixel)、(gx,gy)为网格坐标(单位为1),当智能体的轨迹坐标通过编码后形成迁移图像,图像上的单位为像素,在编码前需要将轨迹坐标转换为像素坐标,其中,世界坐标与像素坐标存在映射关系为(px,py)=m(x,y),m表示世界坐标与像素坐标的转换因子。
通过两个独立的子模块,将观测轨迹和场景图像转移到一个聚焦语义对齐的交互表征C。
物理迁移子模块:在数据集上训练时,使用某一个场景中所有可用的轨迹作为监督信息,从而建立场景图像及智能体活动的联系。其中,首先使用核密度估计方法来获得某个数据集中的轨迹概率密度(以像素为单位),如下:
Figure BDA0003902098370000061
其中,R表示数据集中记录到智能体出现位置坐标的数目,h表示核函数的带宽,(x,y)表示世界坐标,K(x,y)表示核密度函数,(px i,py i)表示数据集中对应i(此处应严格与智能体i区分,此处i仅表示数字i)的像素坐标。为了加速计算,在本发明中取
Figure BDA0003902098370000062
其次,利用映射函数(gx,gy)=mp→g(px,py)将场景图像分成H×W个网格,从而获得每个网格的活动语义的监督标签l[I(gx,gy)],如下:
l[I(gx,gy)]=∫∫Dp(x,y)dx dy
其中,D={(x,y)|mp→g(x,y)=(gx,gy)}表示该网格所覆盖像素坐标的集合,mp→g表示网格坐标与像素坐标的转换因子,因此在训练模型时可以利用活动语义的监督标签l[I(gx,gy)]和场景图像I(gx,gy)。
然后,引入可训练的卷积神经网络(记作G(·))去生成对应网格化的智能体活动概率分布
Figure BDA0003902098370000063
其中RH×W表示网格化的场景图像,如下:
Figure BDA0003902098370000071
在本发明中,最小化活动语义标签l[I(gx,gy)]与可训练卷积神经网络给出的智能体活动概率预测
Figure BDA0003902098370000072
的像素级误差。它能保证网络在测试时仅依靠场景图像
Figure BDA0003902098370000073
直接获得活动语义
Figure BDA0003902098370000074
社会迁移子模块:给定网格Ei∈RH×W,智能体i的轨迹为Xi,其周围智能体(记作J,J表示i周围所有智能体的集合),轨迹为
Figure BDA0003902098370000075
定义智能体i的社会交互能量Ei和能量函数f如下:
Figure BDA0003902098370000076
其中,Ei表示智能体i的社会交互关系能量,f表示能量函数,
Figure BDA0003902098370000077
Figure BDA0003902098370000078
是初始能量函数,j表示i周围的智能体,Xi表示智能体i的轨迹,
Figure BDA00039020983700000715
表示j的轨迹(
Figure BDA0003902098370000079
的上标“/i”表示除i外的周围智能体),(gx,gy)表示i的网格坐标,
Figure BDA00039020983700000710
表示j的网格坐标,P0是先验预测器(输出为网格坐标),θij表示智能体i与j之间的相对能量增长因子,{h1,h2,h3}是能量函数f的带宽,{λ1,λ2,λ3}为超参数。
社会交互能量Ei由三项子能量组成,第一项子能量
Figure BDA00039020983700000711
表示智能体i的潜在意图即未来可能的目的地,其中,
Figure BDA00039020983700000712
表示智能体i自身与自身的交互;第二项子能量
Figure BDA00039020983700000713
描述智能体i与周围其他智能体J(J表示i周围所有智能体的集合)的交互关系,令
Figure BDA00039020983700000714
表示智能体i在观测时间内的位移方向,因此相对能量增长因子可表示如下:
Figure BDA0003902098370000081
第三项子能量
Figure BDA0003902098370000082
刻画社会亲密度(安全的社交距离),用以限制智能体i的活动。
因此,本方案从能量的视角ε={Ei}表示社会交互关系,而不是通过历史轨迹
Figure BDA0003902098370000083
上下文特征:物理迁移子模块从场景图像中获得活动语义
Figure BDA0003902098370000084
社会迁移子模块以能量的视角ε={Ei}描述社会交互关系。迁移图像(社会交互和场景交互的融合表征)
Figure BDA0003902098370000085
表示社会交互行为及场景交互行为对智能体未来轨迹规划带来的协同影响,则Ci被定义为:
Figure BDA0003902098370000086
使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
fc表示交互表征通过MLPc之后提取的特征。
其次,使用插值Transformer Ti来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征
Figure BDA0003902098370000087
传递给Ti的编码器,并将关键点轨迹谱
Figure BDA0003902098370000088
传递给Ti的解码器;Ti被用作预测完整的轨迹谱
Figure BDA0003902098370000089
最后,通过IDFT获得重建轨迹
Figure BDA00039020983700000810
Figure BDA00039020983700000811
Figure BDA00039020983700000812
因此,潜在的预测轨迹表示如下:
Figure BDA0003902098370000091
其中,[th:,:]表示张量的切片操作;th表示观测时间段的长度;
tf表示预测时间段的长度。
切片操作是指我最后重建的轨迹是th+tf这段时间内的轨迹,但是我只需要[th+1,th+2,...,th+tf]长度为tf的预测时间段内的预测估计,所以就相当于把前th长度内的轨迹切除,只要后面tf时间段内的轨迹。
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分(完整的轨迹谱除去关键点轨迹谱剩余的频谱
)来反映智能体更为精细的交互细节;
通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
Figure BDA0003902098370000092
其中,
Figure BDA0003902098370000093
y分别表示预测的轨迹,和预测轨迹的真值(Ground Truth)。
Figure BDA0003902098370000094
pt分别表示t时刻的预测的轨迹坐标点,和预测轨迹坐标点的真值
进一步,所述频域视角下智能体轨迹预测方法还包括:
利用联合损失函数训练所述分层预测网络,所述联合损失函数L为:
Figure BDA0003902098370000095
本发明的另一目的在于提供一种实施所述频域视角下智能体轨迹预测方法的频域视角下智能体轨迹预测系统,所述频域视角下智能体轨迹预测系统包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述频域视角下智能体轨迹预测系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
本发明在不同频率尺度上分层预测智能体的未来轨迹,包括:(1)整体规划,即智能体的粗略的运动趋势。轨迹频谱中的低频部分(缓慢变化的部分)将反映智能体运动的整体规划。(2)交互偏好,即智能体的交互关系。轨迹频谱中的高频部分(快速变化的部分)将描述智能体快速变化的运动差异,从而进一步表征其个性化的交互偏好。从不同的维度对轨迹进行更为精准的预测,即从粗粒度的全局规划到更为细粒度的交互偏好描述。
本发明从频域视角重新看待轨迹预测,从粗粒度的全局规划到更为细粒度的交互偏好描述,更加全面立体地反映智能体在不同尺度上的行为偏好。
现有的大部分方法将轨迹当作时间序列,因此他们通常在时间域上处理轨迹。然后,准确地说,轨迹是时空序列,它不仅与时间相关,也与空间位置相关。常见的时间序列如股价,只包含时间变量,并无空间变量。所以只从时间域处理轨迹不够恰当,当从频域建模轨迹,能获得更好描述轨迹的表征。
图像处理中利用傅里叶变换处理Lena.jpg,本发明发现低频部分是图像的轮廓,高频部分是图像的细节(突变部分)。同理,在轨迹中,本发明通过轨迹的高低频去描述轨迹,进一步可以探究高频、低频是如何影响轨迹,从而能可控地根据场景的差异自适应预测多样化的轨迹。
本发明的技术方案转化后的预期收益和商业价值为:可以为目标检测与跟踪中部分遮挡问题提供新思路,提出基于预测的检测或者跟踪算法,根据已知的检测/跟踪算法获取目标的位置(坐标点),然后通过本发明的预测算法计算出目标进入遮挡后可能的未来位置(坐标点)。在行为分析中,可以提供更为合理或精细的轨迹,以满足感官上的需求,进一步地能让元宇宙/VR/AR中的人物行为更为逼真。
本发明的技术方案是否克服了技术偏见:克服了之前的方法只从时间域上建模轨迹,本发明从频域上处理轨迹,获得了更为准确的效果以及更为合理的预测轨迹。
附图说明
图1是本发明实施例提供的轨迹预测整体架构图。
图2(a)---(i)是本发明实施例提供的方法能满足不同的12中场景。尤其是场景h,发现本发明的方法给出的预测轨迹符合交通规则及社会常识,预测的轨迹均绕着转盘。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
进一步,所述粗粒度关键点估计子网络包括:
步骤一,首先对智能体的观察轨迹使用离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤二,使用一个多层感知机MLPt将智能体的观测轨迹谱
Figure BDA0003902098370000121
嵌入到高维特征ft中;
步骤三,使用关键点Transformer Tk对fe进行编码;
步骤四,使用解码器MLPe来预测智能体的N个关键点(Nkey<tf)的轨迹谱[Akey,Φkey];
步骤五,最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化粗粒度关键点估计子网络,从而学习预测所述关键点的轨迹谱。
进一步,所述智能体的观察轨迹为:
Figure BDA0003902098370000122
表示一个智能体在时间t的二维坐标。给定一个视频片段{I},其中{I}包含M个智能体在时间[1,2,...,th]的观察轨迹
Figure BDA0003902098370000123
表示第i个智能体的观察轨迹),轨迹预测旨在预测智能体在未来时间段[th+1,th+2,...,th+tf]的潜在轨迹坐标点
Figure BDA0003902098370000124
进一步,所述步骤一的具体过程为:
对观测轨迹
Figure BDA0003902098370000125
的每个维度应用1D-DFT以获得它们的频谱,包括幅度谱A={ax,ay}和相位谱Φ={φx,φy}:
Figure BDA0003902098370000131
Figure BDA0003902098370000132
进一步,所述步骤二的具体过程为:
首先,对随机噪声向量
Figure BDA0003902098370000133
进行采样;然后,使用另一个多层感知机MLPi编码噪声变量z获得随机噪声特征fi;最后将ft与fi拼接得到fe,公式为:
Figure BDA0003902098370000134
Figure BDA0003902098370000135
Figure BDA0003902098370000136
其中,fe表征智能体未来轨迹的多样性,[a,b]表示向量{a,b}在最后一维上的拼接。
所述步骤三的具体过程为:
嵌入的向量fe被传递到Transformer编码器,观测轨迹谱(ax,ay,φx,φy)被输入到Transformer解码器;此处的Transformer用作特征提取器,它不包含最终输出层;使用另一个多层感知机MLPe聚合不同频率节点的特征,从而推断行为特征f,表达式为:
Figure BDA0003902098370000137
进一步,所述步骤四的具体过程为:
所述轨迹谱[Akey,Φkey]的表达式为:
Figure BDA0003902098370000138
其中,Nkey表示轨迹谱关键点的数目;
进一步,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的关键点空间坐标ykey(从完整的未来轨迹真值(Ground Truth)中获取)作为标签;同时,将利用离散傅里叶逆变换(IDFT)来获得预测的关键点的关键空间坐标
Figure BDA0003902098370000141
将通过最小化真实的ykey和预测的
Figure BDA0003902098370000142
之间的平均欧几里得距离来优化子网络,从而学习预测相应的关键点的轨迹谱;
所述平均欧几里得距离即为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
Figure BDA0003902098370000143
其中,
Figure BDA0003902098370000144
Figure BDA0003902098370000145
其中,IDFT表示离散傅里叶逆变换函数。
进一步,所述细粒度频谱插值子网络包括:
首先,输入所述关键点的轨迹谱[Akey,Φkey]获得表征
Figure BDA0003902098370000146
Figure BDA0003902098370000147
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数;
然后,使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
其次,使用插值Transformer Ti来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征
Figure BDA0003902098370000148
传递给Ti的编码器,并将关键点轨迹谱
Figure BDA0003902098370000149
传递给Ti的解码器;Ti被用作预测完整的轨迹谱
Figure BDA0003902098370000151
最后,通过IDFT获得重建轨迹
Figure BDA0003902098370000152
Figure BDA0003902098370000153
Figure BDA0003902098370000154
因此,潜在的预测轨迹之一表示如下:
Figure BDA0003902098370000155
其中,[th:,:]表示张量的切片操作;
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分来反映智能体更为精细的交互细节;
通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
Figure BDA0003902098370000156
进一步,所述频域视角下智能体轨迹预测方法还包括:
利用联合损失函数训练所述分层预测网络,所述联合损失函数L为:
Figure BDA0003902098370000157
本发明实施例还提供了一种频域视角下智能体轨迹预测系统,包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器一解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合实验过程的数据、图表等进行描述。
Figure BDA0003902098370000161
其中,eth、hotel、univ、zara1、zara2为5个数据集,图中的性能指标是越小越好。从表格中,可以看出本发明的方法取得了最佳的效果,与之前的方法相比,性能指标最大提高了62.5%/72%。
模型名称 性能指标
S-GAN 27.25/41.44
SoPhie 16.27/29.38
Multiverse 14.78/27.09
SimAug 12.03/23.98
PECNet 9.96/15.88
MANTR 8.96/17.76
LB-EBM 8.87/15.61
SpecTGNN 8.21/12.41
Y-net 7.85/11.85
我们的方法 7.12/11.39
其中,这是在SDD数据集上本发明实施例提供的方法与其他方法的定量结果比较,图中的性能指标是越小越好。从表格中,可以看出本发明的方法取得了最佳的效果,与之前的方法相比,性能指标最大提高了73.9%/72.5%。
本发明实施例提供的方法这不同场景下进行的轨迹预测。其中,实线为观测轨迹,团状的分布为预测轨迹。从图2中本发明实施例提供的方法能满足不同的场景。尤其是场景h,发现本发明的方法给出的预测轨迹符合交通规则及社会常识,预测的轨迹均绕着转盘。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体,或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所做的做的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种频域视角下智能体轨迹预测方法,其特征在于,所述频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
2.如权利要求1所述频域视角下智能体轨迹预测方法,其特征在于,所述粗粒度关键点估计子网络包括:
步骤一,对智能体的观察轨迹进行离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤二,综合使用多层感知机一MLPt和多层感知机二MLPi得到随机噪声特征fi和高维特征ft,拼接得到fe
步骤三,使用关键点Transformer Tk,或长短记忆网络LSTM,或时间卷积网络TCN,对所述fe进行编码;
步骤四,使用解码器MLPe预测智能体的N个关键点轨迹谱[Akey,Φkey];
步骤五,通过最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化所述粗粒度关键点估计子网络,从而预测所述关键点轨迹谱。
3.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述智能体的观察轨迹为:
Figure FDA0003902098360000011
表示一个智能体在时间t的二维坐标,给定一个视频片段{I},其中{I}包含M个智能体在时间[1,2,...,th]的观察轨迹
Figure FDA0003902098360000012
Xi表示第i个智能体的观察轨迹,用于预测智能体在未来时间段[th+1,th+2,...,th+tf]的潜在轨迹坐标点
Figure FDA0003902098360000021
4.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述步骤一的具体过程为:
对观测轨迹
Figure FDA0003902098360000022
的每个维度应用1D-DFT获得观测轨迹谱
Figure FDA0003902098360000023
包括幅度谱A={ax,ay}和相位谱Φ={φx,φy}:
Figure FDA0003902098360000024
Figure FDA0003902098360000025
其中,DFT表示离散傅里叶变换函数。
5.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述步骤二的具体过程为:
首先,对随机噪声向量
Figure FDA0003902098360000026
进行采样;然后,使用多层感知机二MLPi编码噪声变量z获得随机噪声特征fi
使用多层感知机一MLPt编码智能体的观测轨迹谱
Figure FDA0003902098360000027
得到高维特征ft
最后将所述ft与所述fi拼接得到fe,公式为:
Figure FDA0003902098360000028
Figure FDA0003902098360000029
Figure FDA00039020983600000210
其中,fe表示,[a,b]表示向量{a,b}在最后一维上的拼接。
6.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述步骤三的具体过程为:
先将嵌入的向量fe被传递到Transformer编码器,将观测轨迹谱(ax,ay,φx,φy)输入到Transformer解码器;所述Transformer编码器用作特征提取器,不包含最终输出层;
然后使用多层感知机三MLPe聚合不同频率节点的特征,从而得到行为特征f,表达式为:
Figure FDA0003902098360000031
所述步骤四的具体过程为:
所述轨迹谱[Akey,Φkey]的表达式为:
Figure FDA0003902098360000032
其中,Nkey表示轨迹谱关键点的数目。
7.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的真实的关键点空间坐标ykey作为标签,所述ykey从完整的未来轨迹真值(Ground Truth)中获取;同时,利用离散傅里叶逆变换(IDFT)获得预测的关键点空间坐标
Figure FDA0003902098360000033
通过最小化真实的ykey和预测的
Figure FDA0003902098360000034
之间的平均欧几里得距离来优化子网络,从而学习预测相应的关键点的轨迹谱;
所述平均欧几里得距离为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
Figure FDA0003902098360000035
其中,
Figure FDA0003902098360000036
Figure FDA0003902098360000037
其中,IDFT表示离散傅里叶逆变换函数;
所述细粒度频谱插值子网络包括:
首先,将所述关键点的轨迹谱[Akey,Φkey]输入,获得表征特征
Figure FDA0003902098360000038
Figure FDA0003902098360000039
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数,其中Nkey<tf
然后,使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
其次,使用插值TransformerTi来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征
Figure FDA0003902098360000041
传递给Ti的编码器,并将关键点轨迹谱
Figure FDA0003902098360000042
传递给Ti的解码器;Ti被用作预测完整的轨迹谱
Figure FDA0003902098360000043
最后,通过IDFT获得重建轨迹
Figure FDA0003902098360000044
Figure FDA0003902098360000045
Figure FDA0003902098360000046
因此,潜在的预测轨迹之一表示如下:
Figure FDA0003902098360000047
其中,[th:,:]表示张量的切片操作;
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分来反映智能体更为精细的交互细节;
通过它的变量将通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
8.如权利要求1所述频域视角下智能体轨迹预测方法,其特征在于,所述频域视角下智能体轨迹预测方法还包括:
利用联合损失函数训练所述分层预测网络,所述联合损失函数L为:
Figure FDA0003902098360000048
9.一种实施如权利要求1-8任意一项所述频域视角下智能体轨迹预测方法的频域视角下智能体轨迹预测系统,其特征在于,所述频域视角下智能体轨迹预测系统包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8任意一项所述频域视角下智能体轨迹预测方法的步骤。
CN202211293163.4A 2022-10-21 2022-10-21 一种频域视角下智能体轨迹预测方法、系统、设备及介质 Pending CN115661199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211293163.4A CN115661199A (zh) 2022-10-21 2022-10-21 一种频域视角下智能体轨迹预测方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211293163.4A CN115661199A (zh) 2022-10-21 2022-10-21 一种频域视角下智能体轨迹预测方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN115661199A true CN115661199A (zh) 2023-01-31

Family

ID=84988804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211293163.4A Pending CN115661199A (zh) 2022-10-21 2022-10-21 一种频域视角下智能体轨迹预测方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115661199A (zh)

Similar Documents

Publication Publication Date Title
Kipf et al. Conditional object-centric learning from video
Chen et al. Backbone is all your need: A simplified architecture for visual object tracking
CN110799992B (zh) 使用模拟和域适配以用于机器人控制
Yi et al. ASSD: Attentive single shot multibox detector
JP6662902B2 (ja) 空間的変換モジュール
US20230419113A1 (en) Attention-based deep reinforcement learning for autonomous agents
Xu et al. Diverse human motion prediction guided by multi-level spatial-temporal anchors
Xie et al. Deepmatcher: a deep transformer-based network for robust and accurate local feature matching
EP3855388A1 (en) Image processing device and operation method thereof
Beeching et al. Egomap: Projective mapping and structured egocentric memory for deep RL
US10832180B2 (en) Artificial intelligence system that employs windowed cellular automata to create plausible alternatives
Mi et al. Training-free uncertainty estimation for neural networks
JPWO2020240808A1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
US9436912B1 (en) Symmetric schema instantiation method for use in a case-based reasoning system
Chen et al. Sim-to-real 6d object pose estimation via iterative self-training for robotic bin picking
Ma et al. Few-shot end-to-end object detection via constantly concentrated encoding across heads
Bounareli et al. One-Shot Neural Face Reenactment via Finding Directions in GAN’s Latent Space
CN116912923A (zh) 一种图像识别模型训练方法和装置
Lee et al. Learning multiple probabilistic degradation generators for unsupervised real world image super resolution
Azizi et al. Location dependency in video prediction
Takase Feature combination mixup: novel mixup method using feature combination for neural networks
CN115661199A (zh) 一种频域视角下智能体轨迹预测方法、系统、设备及介质
Ai et al. Invariance is key to generalization: Examining the role of representation in sim-to-real transfer for visual navigation
Molnár et al. Representation learning for point clouds with variational autoencoders
CN113516182B (zh) 视觉问答模型训练、视觉问答方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination