CN115661199A - 一种频域视角下智能体轨迹预测方法、系统、设备及介质 - Google Patents
一种频域视角下智能体轨迹预测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN115661199A CN115661199A CN202211293163.4A CN202211293163A CN115661199A CN 115661199 A CN115661199 A CN 115661199A CN 202211293163 A CN202211293163 A CN 202211293163A CN 115661199 A CN115661199 A CN 115661199A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- trajectory
- agent
- key
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000001228 spectrum Methods 0.000 claims abstract description 96
- 230000002452 interceptive effect Effects 0.000 claims abstract description 16
- 239000003795 chemical substances by application Substances 0.000 claims description 111
- 230000008569 process Effects 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 16
- 230000003997 social interaction Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000010399 physical interaction Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 abstract description 12
- 230000000694 effects Effects 0.000 description 8
- 230000005012 migration Effects 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000003102 growth factor Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能体轨迹预测领域,公开了一种频域视角下智能体轨迹预测方法、系统、设备及介质,方法包括:构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。本发明从频域视角重新看待轨迹预测,从粗粒度的全局规划到更为细粒度的交互偏好描述,细致地反映智能体在不同尺度上的行为偏好。
Description
技术领域
本发明属于智能体轨迹预测领域,尤其涉及一种频域视角下智能体轨迹预测方法、系统、设备及介质。
背景技术
目前,轨迹预测旨在考虑潜在影响因素来推断代理可能的未来轨迹。这是一项重要但具有挑战性的任务,可广泛应用于行为分析、机器人导航、自动驾驶、目标检测与跟踪等任务。现有的一部分工作主要研究了交互因素对轨迹预测的影响,包括社会交互(SocialInteraction)和场景交互(Physical Interaction)。另有一部分工作探索了如何对轨迹进行更好的更好的建模,它们往往使用不同的神经网络编码智能体轨迹,如长短期记忆网络(Long-Short Term Memory Networks,LSTM)、图卷积网络(Graph Convolution Network,GCN)和变形金刚网络(Transformers)。
大多数现有方法将轨迹预测视为时间序列生成任务并逐步生成轨迹点,然而这难以细致地反映智能体在不同尺度上的行为偏好。换言之,现有工作主要聚焦于智能体行为的动态变化,但缺乏在不同时间尺度上的分层描述。例如,智能体在运动时,往往先明确目的地(运动趋势),然后在实际运动过程中再调整具体的运动细节(行为偏好)。尽管已有一些方法使用具有注意力机制的神经网络(如:Transformers)作为骨干网络来建模智能体的运动状态,但它们仍难以直接描述智能体在不同时间尺度上详细地运动差异。
傅里叶变换(Fourier transform,FT)在信号处理领域取得了巨大成功,例如图像去噪、边缘提取、图像超分辨率等。傅立叶变换将信号分解为一系列在不同频率上具有不同幅度和相位的正弦曲线。此外,这些正弦曲线具备反映不同频率尺度下的差异化频率响应的特性,这在原始信号中难以直接获得。
已有一些工作将傅立叶变换应用于类似于轨迹预测的任务中。但是,它们只是通过图傅里叶变换建模智能体间的交互关系,并没有使用傅立叶变换直接对轨迹进行建模。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有方法缺乏对轨迹的整体的描述即难以很好地刻画智能体的运动趋势。
(2)现有的分层轨迹预测方法更多地关注能否更加准确地预测“目的地”(即轨迹的整体趋势),忽略了对交互行为的精细建模。
(3)现有方法往往将轨迹预测视为时间序列生成任务并逐步生成轨迹点,然而这难以细致地反映智能体在不同尺度上的行为偏好。
发明内容
针对现有技术存在的问题,本发明提供了一种频域视角下智能体轨迹预测方法、系统、设备及介质。
本发明是这样实现的,一种频域视角下智能体轨迹预测方法,所述频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
进一步,所述粗粒度关键点估计子网络包括:
步骤一,对智能体的观察轨迹进行离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤二,综合使用多层感知机一MLPt和多层感知机二MLPi得到随机噪声特征fi和高维特征ft,拼接得到fe,f_e表示嵌入向量;
步骤三,使用关键点Transformer Tk(此处也可以使用长短记忆网络LSTM,时间卷积网络TCN。因为Transformer更擅长于长距离关系的建模)对所述fe进行编码;
步骤四,使用解码器MLPe预测智能体的N个关键点轨迹谱[Akey,Φkey];
步骤五,通过最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化所述粗粒度关键点估计子网络,从而预测所述关键点轨迹谱。
进一步,所述智能体的观察轨迹为:
令表示一个智能体在时间t的二维坐标,给定一个视频片段{I},其中{I}包含M个智能体在时间[1,2,...,th]的观察轨迹Xi表示第i个智能体的观察轨迹,用于预测M个智能体在未来时间段[th+1,th+2,...,th+tf]的潜在轨迹坐标点
进一步,所述步骤一的具体过程为:
其中,DFT表示离散傅里叶变换函数。1D-DFT:一维离散傅立叶变换。
进一步,所述步骤二的具体过程为:
最后将所述ft与所述fi拼接得到嵌入向量fe,公式为:
其中,fe表示,[a,b]表示向量{a,b}在最后一维上的拼接,为了说明[,]这个操作表示拼接,这里a,b是说有两个向量,类似于举例说明。
进一步,所述步骤三的具体过程为:
先将嵌入的向量fe被传递到Transformer编码器,将观测轨迹谱(ax,ay,φx,φy)输入到Transformer解码器;所述Transformer编码器用作特征提取器,不包含最终输出层;
然后使用多层感知机三MLPe聚合不同频率节点的特征,从而得到行为特征f,表达式为:
进一步,所述步骤四的具体过程为:
所述轨迹谱[Akey,Φkey]的表达式为:
其中,Nkey表示轨迹谱关键点的数目。
进一步,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的真实的关键点空间坐标ykey作为标签,所述ykey从完整的未来轨迹真值(Ground Truth)中获取;同时,利用离散傅里叶逆变换(IDFT)获得预测的关键点空间坐标
所述平均欧几里得距离为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
其中,
{\hat{Y}}_{i=1}^m表示的M个智能体的预测轨迹。其中Y表示的是M个智能体的轨迹,y表示的是单个智能体的轨迹。Y有\hat表示是预测轨迹,Y没有\hat表示轨迹的真值(Ground Truth)。
p是position的缩写,表示坐标点(×,y),t_1,...,t_{N_key}表示的关键点所在的时刻。
其中,IDFT表示离散傅里叶逆变换函数。
进一步,所述细粒度频谱插值子网络包括:
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数,其中Nkey<tf;Nkey表示关键点的数目;tf表示预测时间段的长度。
然后,首先获得交互表征C,具体如下:
将t时刻的场景图像记作It。在进行后续进行模型推导过程中,需要将智能体的轨迹坐标归一化为统一的单位。智能体的轨迹坐标可以用世界坐标、像素坐标或网格坐标表示,(x,y)为世界坐标(单位为米)、(px,py)为单位为像素值的坐标(单位为pixel)、(gx,gy)为网格坐标(单位为1),当智能体的轨迹坐标通过编码后形成迁移图像,图像上的单位为像素,在编码前需要将轨迹坐标转换为像素坐标,其中,世界坐标与像素坐标存在映射关系为(px,py)=m(x,y),m表示世界坐标与像素坐标的转换因子。
通过两个独立的子模块,将观测轨迹和场景图像转移到一个聚焦语义对齐的交互表征C。
物理迁移子模块:在数据集上训练时,使用某一个场景中所有可用的轨迹作为监督信息,从而建立场景图像及智能体活动的联系。其中,首先使用核密度估计方法来获得某个数据集中的轨迹概率密度(以像素为单位),如下:
其中,R表示数据集中记录到智能体出现位置坐标的数目,h表示核函数的带宽,(x,y)表示世界坐标,K(x,y)表示核密度函数,(px i,py i)表示数据集中对应i(此处应严格与智能体i区分,此处i仅表示数字i)的像素坐标。为了加速计算,在本发明中取
其次,利用映射函数(gx,gy)=mp→g(px,py)将场景图像分成H×W个网格,从而获得每个网格的活动语义的监督标签l[I(gx,gy)],如下:
l[I(gx,gy)]=∫∫Dp(x,y)dx dy
其中,D={(x,y)|mp→g(x,y)=(gx,gy)}表示该网格所覆盖像素坐标的集合,mp→g表示网格坐标与像素坐标的转换因子,因此在训练模型时可以利用活动语义的监督标签l[I(gx,gy)]和场景图像I(gx,gy)。
其中,Ei表示智能体i的社会交互关系能量,f表示能量函数, 是初始能量函数,j表示i周围的智能体,Xi表示智能体i的轨迹,表示j的轨迹(的上标“/i”表示除i外的周围智能体),(gx,gy)表示i的网格坐标,表示j的网格坐标,P0是先验预测器(输出为网格坐标),θij表示智能体i与j之间的相对能量增长因子,{h1,h2,h3}是能量函数f的带宽,{λ1,λ2,λ3}为超参数。
社会交互能量Ei由三项子能量组成,第一项子能量表示智能体i的潜在意图即未来可能的目的地,其中,表示智能体i自身与自身的交互;第二项子能量描述智能体i与周围其他智能体J(J表示i周围所有智能体的集合)的交互关系,令表示智能体i在观测时间内的位移方向,因此相对能量增长因子可表示如下:
上下文特征:物理迁移子模块从场景图像中获得活动语义社会迁移子模块以能量的视角ε={Ei}描述社会交互关系。迁移图像(社会交互和场景交互的融合表征)表示社会交互行为及场景交互行为对智能体未来轨迹规划带来的协同影响,则Ci被定义为:
使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
fc表示交互表征通过MLPc之后提取的特征。
其次,使用插值Transformer Ti来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征传递给Ti的编码器,并将关键点轨迹谱传递给Ti的解码器;Ti被用作预测完整的轨迹谱最后,通过IDFT获得重建轨迹
因此,潜在的预测轨迹表示如下:
其中,[th:,:]表示张量的切片操作;th表示观测时间段的长度;
tf表示预测时间段的长度。
切片操作是指我最后重建的轨迹是th+tf这段时间内的轨迹,但是我只需要[th+1,th+2,...,th+tf]长度为tf的预测时间段内的预测估计,所以就相当于把前th长度内的轨迹切除,只要后面tf时间段内的轨迹。
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分(完整的轨迹谱除去关键点轨迹谱剩余的频谱
)来反映智能体更为精细的交互细节;
通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
进一步,所述频域视角下智能体轨迹预测方法还包括:
利用联合损失函数训练所述分层预测网络,所述联合损失函数L为:
本发明的另一目的在于提供一种实施所述频域视角下智能体轨迹预测方法的频域视角下智能体轨迹预测系统,所述频域视角下智能体轨迹预测系统包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述频域视角下智能体轨迹预测系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
本发明在不同频率尺度上分层预测智能体的未来轨迹,包括:(1)整体规划,即智能体的粗略的运动趋势。轨迹频谱中的低频部分(缓慢变化的部分)将反映智能体运动的整体规划。(2)交互偏好,即智能体的交互关系。轨迹频谱中的高频部分(快速变化的部分)将描述智能体快速变化的运动差异,从而进一步表征其个性化的交互偏好。从不同的维度对轨迹进行更为精准的预测,即从粗粒度的全局规划到更为细粒度的交互偏好描述。
本发明从频域视角重新看待轨迹预测,从粗粒度的全局规划到更为细粒度的交互偏好描述,更加全面立体地反映智能体在不同尺度上的行为偏好。
现有的大部分方法将轨迹当作时间序列,因此他们通常在时间域上处理轨迹。然后,准确地说,轨迹是时空序列,它不仅与时间相关,也与空间位置相关。常见的时间序列如股价,只包含时间变量,并无空间变量。所以只从时间域处理轨迹不够恰当,当从频域建模轨迹,能获得更好描述轨迹的表征。
图像处理中利用傅里叶变换处理Lena.jpg,本发明发现低频部分是图像的轮廓,高频部分是图像的细节(突变部分)。同理,在轨迹中,本发明通过轨迹的高低频去描述轨迹,进一步可以探究高频、低频是如何影响轨迹,从而能可控地根据场景的差异自适应预测多样化的轨迹。
本发明的技术方案转化后的预期收益和商业价值为:可以为目标检测与跟踪中部分遮挡问题提供新思路,提出基于预测的检测或者跟踪算法,根据已知的检测/跟踪算法获取目标的位置(坐标点),然后通过本发明的预测算法计算出目标进入遮挡后可能的未来位置(坐标点)。在行为分析中,可以提供更为合理或精细的轨迹,以满足感官上的需求,进一步地能让元宇宙/VR/AR中的人物行为更为逼真。
本发明的技术方案是否克服了技术偏见:克服了之前的方法只从时间域上建模轨迹,本发明从频域上处理轨迹,获得了更为准确的效果以及更为合理的预测轨迹。
附图说明
图1是本发明实施例提供的轨迹预测整体架构图。
图2(a)---(i)是本发明实施例提供的方法能满足不同的12中场景。尤其是场景h,发现本发明的方法给出的预测轨迹符合交通规则及社会常识,预测的轨迹均绕着转盘。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,在若干“关键”频率部分上预测智能体轨迹的“最小”频谱,即智能体运动的整体规划,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
进一步,所述粗粒度关键点估计子网络包括:
步骤一,首先对智能体的观察轨迹使用离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤三,使用关键点Transformer Tk对fe进行编码;
步骤四,使用解码器MLPe来预测智能体的N个关键点(Nkey<tf)的轨迹谱[Akey,Φkey];
步骤五,最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化粗粒度关键点估计子网络,从而学习预测所述关键点的轨迹谱。
进一步,所述智能体的观察轨迹为:
令表示一个智能体在时间t的二维坐标。给定一个视频片段{I},其中{I}包含M个智能体在时间[1,2,...,th]的观察轨迹表示第i个智能体的观察轨迹),轨迹预测旨在预测智能体在未来时间段[th+1,th+2,...,th+tf]的潜在轨迹坐标点
进一步,所述步骤一的具体过程为:
进一步,所述步骤二的具体过程为:
其中,fe表征智能体未来轨迹的多样性,[a,b]表示向量{a,b}在最后一维上的拼接。
所述步骤三的具体过程为:
嵌入的向量fe被传递到Transformer编码器,观测轨迹谱(ax,ay,φx,φy)被输入到Transformer解码器;此处的Transformer用作特征提取器,它不包含最终输出层;使用另一个多层感知机MLPe聚合不同频率节点的特征,从而推断行为特征f,表达式为:
进一步,所述步骤四的具体过程为:
所述轨迹谱[Akey,Φkey]的表达式为:
其中,Nkey表示轨迹谱关键点的数目;
进一步,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的关键点空间坐标ykey(从完整的未来轨迹真值(Ground Truth)中获取)作为标签;同时,将利用离散傅里叶逆变换(IDFT)来获得预测的关键点的关键空间坐标将通过最小化真实的ykey和预测的之间的平均欧几里得距离来优化子网络,从而学习预测相应的关键点的轨迹谱;
所述平均欧几里得距离即为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
其中,
其中,IDFT表示离散傅里叶逆变换函数。
进一步,所述细粒度频谱插值子网络包括:
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数;
然后,使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
其次,使用插值Transformer Ti来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征传递给Ti的编码器,并将关键点轨迹谱传递给Ti的解码器;Ti被用作预测完整的轨迹谱最后,通过IDFT获得重建轨迹
因此,潜在的预测轨迹之一表示如下:
其中,[th:,:]表示张量的切片操作;
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分来反映智能体更为精细的交互细节;
通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
进一步,所述频域视角下智能体轨迹预测方法还包括:
利用联合损失函数训练所述分层预测网络,所述联合损失函数L为:
本发明实施例还提供了一种频域视角下智能体轨迹预测系统,包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器一解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合实验过程的数据、图表等进行描述。
其中,eth、hotel、univ、zara1、zara2为5个数据集,图中的性能指标是越小越好。从表格中,可以看出本发明的方法取得了最佳的效果,与之前的方法相比,性能指标最大提高了62.5%/72%。
模型名称 | 性能指标 |
S-GAN | 27.25/41.44 |
SoPhie | 16.27/29.38 |
Multiverse | 14.78/27.09 |
SimAug | 12.03/23.98 |
PECNet | 9.96/15.88 |
MANTR | 8.96/17.76 |
LB-EBM | 8.87/15.61 |
SpecTGNN | 8.21/12.41 |
Y-net | 7.85/11.85 |
我们的方法 | 7.12/11.39 |
其中,这是在SDD数据集上本发明实施例提供的方法与其他方法的定量结果比较,图中的性能指标是越小越好。从表格中,可以看出本发明的方法取得了最佳的效果,与之前的方法相比,性能指标最大提高了73.9%/72.5%。
本发明实施例提供的方法这不同场景下进行的轨迹预测。其中,实线为观测轨迹,团状的分布为预测轨迹。从图2中本发明实施例提供的方法能满足不同的场景。尤其是场景h,发现本发明的方法给出的预测轨迹符合交通规则及社会常识,预测的轨迹均绕着转盘。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体,或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所做的做的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种频域视角下智能体轨迹预测方法,其特征在于,所述频域视角下智能体轨迹预测方法包括:
构建分层预测网络从不同的频率尺度预测智能体的未来轨迹,所述分层预测网络包括两个子网络:
粗粒度关键点估计子网络,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值子网络,用于根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
2.如权利要求1所述频域视角下智能体轨迹预测方法,其特征在于,所述粗粒度关键点估计子网络包括:
步骤一,对智能体的观察轨迹进行离散傅里叶变换(DFT)来获得智能体在观察时间[1,2,...,th]的轨迹谱;
步骤二,综合使用多层感知机一MLPt和多层感知机二MLPi得到随机噪声特征fi和高维特征ft,拼接得到fe;
步骤三,使用关键点Transformer Tk,或长短记忆网络LSTM,或时间卷积网络TCN,对所述fe进行编码;
步骤四,使用解码器MLPe预测智能体的N个关键点轨迹谱[Akey,Φkey];
步骤五,通过最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化所述粗粒度关键点估计子网络,从而预测所述关键点轨迹谱。
7.如权利要求2所述频域视角下智能体轨迹预测方法,其特征在于,所述步骤五的具体过程为:
当训练粗粒度子网络时,将智能体的真实的关键点空间坐标ykey作为标签,所述ykey从完整的未来轨迹真值(Ground Truth)中获取;同时,利用离散傅里叶逆变换(IDFT)获得预测的关键点空间坐标
所述平均欧几里得距离为平均关键点损失(Average Keypoints Loss,LAKL),表达式为:
其中,
其中,IDFT表示离散傅里叶逆变换函数;
所述细粒度频谱插值子网络包括:
其中,此处的MLPt与粗粒度网络中的MLPt不同享参数,其中Nkey<tf;
然后,使用MLPc对交互表征C进行编码,通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互,所述交互表征C来自模型CSCNet;
fc=MLPc(C)
其次,使用插值TransformerTi来学习轨迹谱偏差进而重建完整的轨迹谱,将拼接后的特征传递给Ti的编码器,并将关键点轨迹谱传递给Ti的解码器;Ti被用作预测完整的轨迹谱最后,通过IDFT获得重建轨迹
因此,潜在的预测轨迹之一表示如下:
其中,[th:,:]表示张量的切片操作;
最后,细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱,将剩余的频谱部分来反映智能体更为精细的交互细节;
通过它的变量将通过平均逐点损失(Average Point-wise Loss,LAPL)优化细粒度子网络。
9.一种实施如权利要求1-8任意一项所述频域视角下智能体轨迹预测方法的频域视角下智能体轨迹预测系统,其特征在于,所述频域视角下智能体轨迹预测系统包括:
粗粒度关键点估计模块,用于在较低的时空分辨率上预测智能体的关键点轨迹谱,通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性;
细粒度频谱插值模块,用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8任意一项所述频域视角下智能体轨迹预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211293163.4A CN115661199A (zh) | 2022-10-21 | 2022-10-21 | 一种频域视角下智能体轨迹预测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211293163.4A CN115661199A (zh) | 2022-10-21 | 2022-10-21 | 一种频域视角下智能体轨迹预测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115661199A true CN115661199A (zh) | 2023-01-31 |
Family
ID=84988804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211293163.4A Pending CN115661199A (zh) | 2022-10-21 | 2022-10-21 | 一种频域视角下智能体轨迹预测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661199A (zh) |
-
2022
- 2022-10-21 CN CN202211293163.4A patent/CN115661199A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kipf et al. | Conditional object-centric learning from video | |
Chen et al. | Backbone is all your need: A simplified architecture for visual object tracking | |
CN110799992B (zh) | 使用模拟和域适配以用于机器人控制 | |
Yi et al. | ASSD: Attentive single shot multibox detector | |
JP6662902B2 (ja) | 空間的変換モジュール | |
US20230419113A1 (en) | Attention-based deep reinforcement learning for autonomous agents | |
Xu et al. | Diverse human motion prediction guided by multi-level spatial-temporal anchors | |
Xie et al. | Deepmatcher: a deep transformer-based network for robust and accurate local feature matching | |
EP3855388A1 (en) | Image processing device and operation method thereof | |
Beeching et al. | Egomap: Projective mapping and structured egocentric memory for deep RL | |
US10832180B2 (en) | Artificial intelligence system that employs windowed cellular automata to create plausible alternatives | |
Mi et al. | Training-free uncertainty estimation for neural networks | |
JPWO2020240808A1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
US9436912B1 (en) | Symmetric schema instantiation method for use in a case-based reasoning system | |
Chen et al. | Sim-to-real 6d object pose estimation via iterative self-training for robotic bin picking | |
Ma et al. | Few-shot end-to-end object detection via constantly concentrated encoding across heads | |
Bounareli et al. | One-Shot Neural Face Reenactment via Finding Directions in GAN’s Latent Space | |
CN116912923A (zh) | 一种图像识别模型训练方法和装置 | |
Lee et al. | Learning multiple probabilistic degradation generators for unsupervised real world image super resolution | |
Azizi et al. | Location dependency in video prediction | |
Takase | Feature combination mixup: novel mixup method using feature combination for neural networks | |
CN115661199A (zh) | 一种频域视角下智能体轨迹预测方法、系统、设备及介质 | |
Ai et al. | Invariance is key to generalization: Examining the role of representation in sim-to-real transfer for visual navigation | |
Molnár et al. | Representation learning for point clouds with variational autoencoders | |
CN113516182B (zh) | 视觉问答模型训练、视觉问答方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |