CN115661199A

CN115661199A - 一种频域视角下智能体轨迹预测方法、系统、设备及介质

Info

Publication number: CN115661199A
Application number: CN202211293163.4A
Authority: CN
Inventors: 尤新革; 夏北浩; 彭勤牧
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-31

Abstract

本发明属于智能体轨迹预测领域，公开了一种频域视角下智能体轨迹预测方法、系统、设备及介质，方法包括：构建分层预测网络从不同的频率尺度预测智能体的未来轨迹，所述分层预测网络包括两个子网络：粗粒度关键点估计子网络，在若干“关键”频率部分上预测智能体轨迹的“最小”频谱，即智能体运动的整体规划，用于在较低的时空分辨率上预测智能体的关键点轨迹谱，通过设计编码器－解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性；细粒度频谱插值子网络，用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。本发明从频域视角重新看待轨迹预测，从粗粒度的全局规划到更为细粒度的交互偏好描述，细致地反映智能体在不同尺度上的行为偏好。

Description

一种频域视角下智能体轨迹预测方法、系统、设备及介质

技术领域

本发明属于智能体轨迹预测领域，尤其涉及一种频域视角下智能体轨迹预测方法、系统、设备及介质。

背景技术

目前，轨迹预测旨在考虑潜在影响因素来推断代理可能的未来轨迹。这是一项重要但具有挑战性的任务，可广泛应用于行为分析、机器人导航、自动驾驶、目标检测与跟踪等任务。现有的一部分工作主要研究了交互因素对轨迹预测的影响，包括社会交互(SocialInteraction)和场景交互(Physical Interaction)。另有一部分工作探索了如何对轨迹进行更好的更好的建模，它们往往使用不同的神经网络编码智能体轨迹，如长短期记忆网络(Long-Short Term Memory Networks，LSTM)、图卷积网络(Graph Convolution Network，GCN)和变形金刚网络(Transformers)。

大多数现有方法将轨迹预测视为时间序列生成任务并逐步生成轨迹点，然而这难以细致地反映智能体在不同尺度上的行为偏好。换言之，现有工作主要聚焦于智能体行为的动态变化，但缺乏在不同时间尺度上的分层描述。例如，智能体在运动时，往往先明确目的地(运动趋势)，然后在实际运动过程中再调整具体的运动细节(行为偏好)。尽管已有一些方法使用具有注意力机制的神经网络(如：Transformers)作为骨干网络来建模智能体的运动状态，但它们仍难以直接描述智能体在不同时间尺度上详细地运动差异。

傅里叶变换(Fourier transform，FT)在信号处理领域取得了巨大成功，例如图像去噪、边缘提取、图像超分辨率等。傅立叶变换将信号分解为一系列在不同频率上具有不同幅度和相位的正弦曲线。此外，这些正弦曲线具备反映不同频率尺度下的差异化频率响应的特性，这在原始信号中难以直接获得。

已有一些工作将傅立叶变换应用于类似于轨迹预测的任务中。但是，它们只是通过图傅里叶变换建模智能体间的交互关系，并没有使用傅立叶变换直接对轨迹进行建模。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有方法缺乏对轨迹的整体的描述即难以很好地刻画智能体的运动趋势。

(2)现有的分层轨迹预测方法更多地关注能否更加准确地预测“目的地”(即轨迹的整体趋势)，忽略了对交互行为的精细建模。

(3)现有方法往往将轨迹预测视为时间序列生成任务并逐步生成轨迹点，然而这难以细致地反映智能体在不同尺度上的行为偏好。

发明内容

针对现有技术存在的问题，本发明提供了一种频域视角下智能体轨迹预测方法、系统、设备及介质。

本发明是这样实现的，一种频域视角下智能体轨迹预测方法，所述频域视角下智能体轨迹预测方法包括：

构建分层预测网络从不同的频率尺度预测智能体的未来轨迹，所述分层预测网络包括两个子网络：

粗粒度关键点估计子网络，在若干“关键”频率部分上预测智能体轨迹的“最小”频谱，即智能体运动的整体规划，用于在较低的时空分辨率上预测智能体的关键点轨迹谱，通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性；

细粒度频谱插值子网络，用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。

进一步，所述粗粒度关键点估计子网络包括：

步骤一，对智能体的观察轨迹进行离散傅里叶变换(DFT)来获得智能体在观察时间[1，2，...，t_h]的轨迹谱；

步骤二，综合使用多层感知机一MLP_t和多层感知机二MLP_i得到随机噪声特征f_i和高维特征f_t，拼接得到f_e，f_e表示嵌入向量；

步骤三，使用关键点Transformer T_k(此处也可以使用长短记忆网络LSTM，时间卷积网络TCN。因为Transformer更擅长于长距离关系的建模)对所述f_e进行编码；

步骤四，使用解码器MLP_e预测智能体的N个关键点轨迹谱[A^key，Φ^key]；

步骤五，通过最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化所述粗粒度关键点估计子网络，从而预测所述关键点轨迹谱。

进一步，所述智能体的观察轨迹为：

令

表示一个智能体在时间t的二维坐标，给定一个视频片段{I}，其中{I}包含M个智能体在时间[1，2，...，t_h]的观察轨迹

X_i表示第i个智能体的观察轨迹，用于预测M个智能体在未来时间段[t_h+1，t_h+2，...，t_h+t_f]的潜在轨迹坐标点

进一步，所述步骤一的具体过程为：

对观测轨迹

的每个维度应用1D-DFT获得观测轨迹谱

包括幅度谱A＝{a_x，a_y}和相位谱Φ＝{φ_x，φ_y}：

其中，DFT表示离散傅里叶变换函数。1D-DFT：一维离散傅立叶变换。

进一步，所述步骤二的具体过程为：

首先，对随机噪声向量

进行采样；然后，使用多层感知机二MLP_i编码噪声变量z获得随机噪声特征f_i；

使用多层感知机一MLP_t编码智能体的观测轨迹谱

得到高维特征f_t；

最后将所述f_t与所述f_i拼接得到嵌入向量f_e，公式为：

其中，f_e表示，[a，b]表示向量{a，b}在最后一维上的拼接，为了说明[，]这个操作表示拼接，这里a，b是说有两个向量，类似于举例说明。

进一步，所述步骤三的具体过程为：

先将嵌入的向量f_e被传递到Transformer编码器，将观测轨迹谱(a_x，a_y，φ_x，φ_y)输入到Transformer解码器；所述Transformer编码器用作特征提取器，不包含最终输出层；

然后使用多层感知机三MLP_e聚合不同频率节点的特征，从而得到行为特征f，表达式为：

进一步，所述步骤四的具体过程为：

所述轨迹谱[A^key，Φ^key]的表达式为：

其中，N_key表示轨迹谱关键点的数目。

进一步，所述步骤五的具体过程为：

当训练粗粒度子网络时，将智能体的真实的关键点空间坐标y^key作为标签，所述y^key从完整的未来轨迹真值(Ground Truth)中获取；同时，利用离散傅里叶逆变换(IDFT)获得预测的关键点空间坐标

通过最小化真实的y^key和预测的

之间的平均欧几里得距离来优化子网络，从而学习预测相应的关键点的轨迹谱；

所述平均欧几里得距离为平均关键点损失(Average Keypoints Loss，L_AKL)，表达式为：

其中，

{\hat{Y}}_{i＝1}^m表示的M个智能体的预测轨迹。其中Y表示的是M个智能体的轨迹，y表示的是单个智能体的轨迹。Y有\hat表示是预测轨迹，Y没有\hat表示轨迹的真值(Ground Truth)。

p是position的缩写，表示坐标点(×，y)，t_1，...，t_{N_key}表示的关键点所在的时刻。

其中，IDFT表示离散傅里叶逆变换函数。

进一步，所述细粒度频谱插值子网络包括：

首先，将所述关键点的轨迹谱[A^key，Φ^key]输入，获得表征特征

其中，此处的MLP_t与粗粒度网络中的MLP_t不同享参数，其中N_key＜t_f；N_key表示关键点的数目；t_f表示预测时间段的长度。

然后，首先获得交互表征C，具体如下：

将t时刻的场景图像记作I_t。在进行后续进行模型推导过程中，需要将智能体的轨迹坐标归一化为统一的单位。智能体的轨迹坐标可以用世界坐标、像素坐标或网格坐标表示，(x，y)为世界坐标(单位为米)、(p_x，p_y)为单位为像素值的坐标(单位为pixel)、(g_x，g_y)为网格坐标(单位为1)，当智能体的轨迹坐标通过编码后形成迁移图像，图像上的单位为像素，在编码前需要将轨迹坐标转换为像素坐标，其中，世界坐标与像素坐标存在映射关系为(p_x，p_y)＝m(x，y)，m表示世界坐标与像素坐标的转换因子。

通过两个独立的子模块，将观测轨迹和场景图像转移到一个聚焦语义对齐的交互表征C。

物理迁移子模块：在数据集上训练时，使用某一个场景中所有可用的轨迹作为监督信息，从而建立场景图像及智能体活动的联系。其中，首先使用核密度估计方法来获得某个数据集中的轨迹概率密度(以像素为单位)，如下：

其中，R表示数据集中记录到智能体出现位置坐标的数目，h表示核函数的带宽，(x，y)表示世界坐标，K(x，y)表示核密度函数，(p_x ⁱ，p_y ⁱ)表示数据集中对应i(此处应严格与智能体i区分，此处i仅表示数字i)的像素坐标。为了加速计算，在本发明中取

其次，利用映射函数(g_x，g_y)＝m_p→g(p_x，p_y)将场景图像分成H×W个网格，从而获得每个网格的活动语义的监督标签l[I(g_x，g_y)]，如下：

l[I(g_x，g_y)]＝∫∫_Dp(x，y)dx dy

其中，D＝{(x，y)|m_p→g(x，y)＝(g_x，g_y)}表示该网格所覆盖像素坐标的集合，m_p→g表示网格坐标与像素坐标的转换因子，因此在训练模型时可以利用活动语义的监督标签l[I(g_x，g_y)]和场景图像I(g_x，g_y)。

然后，引入可训练的卷积神经网络(记作G(·))去生成对应网格化的智能体活动概率分布

其中R^H×W表示网格化的场景图像，如下：

在本发明中，最小化活动语义标签l[I(g_x，g_y)]与可训练卷积神经网络给出的智能体活动概率预测

的像素级误差。它能保证网络在测试时仅依靠场景图像

直接获得活动语义

社会迁移子模块：给定网格Eⁱ∈R^H×W，智能体i的轨迹为Xⁱ，其周围智能体(记作J，J表示i周围所有智能体的集合)，轨迹为

定义智能体i的社会交互能量Eⁱ和能量函数f如下：

其中，Eⁱ表示智能体i的社会交互关系能量，f表示能量函数，

是初始能量函数，j表示i周围的智能体，Xⁱ表示智能体i的轨迹，

表示j的轨迹(

的上标“/i”表示除i外的周围智能体)，(g_x，g_y)表示i的网格坐标，

表示j的网格坐标，P₀是先验预测器(输出为网格坐标)，θ_ij表示智能体i与j之间的相对能量增长因子，{h₁，h₂，h₃}是能量函数f的带宽，{λ₁，λ₂，λ₃}为超参数。

社会交互能量Eⁱ由三项子能量组成，第一项子能量

表示智能体i的潜在意图即未来可能的目的地，其中，

表示智能体i自身与自身的交互；第二项子能量

描述智能体i与周围其他智能体J(J表示i周围所有智能体的集合)的交互关系，令

表示智能体i在观测时间内的位移方向，因此相对能量增长因子可表示如下：

第三项子能量

刻画社会亲密度(安全的社交距离)，用以限制智能体i的活动。

因此，本方案从能量的视角ε＝{Eⁱ}表示社会交互关系，而不是通过历史轨迹

上下文特征：物理迁移子模块从场景图像中获得活动语义

社会迁移子模块以能量的视角ε＝{Eⁱ}描述社会交互关系。迁移图像(社会交互和场景交互的融合表征)

表示社会交互行为及场景交互行为对智能体未来轨迹规划带来的协同影响，则Cⁱ被定义为：

使用MLP_c对交互表征C进行编码，通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互，所述交互表征C来自模型CSCNet；

f_c＝MLP_c(C)

fc表示交互表征通过MLPc之后提取的特征。

其次，使用插值Transformer T_i来学习轨迹谱偏差进而重建完整的轨迹谱，将拼接后的特征

传递给T_i的编码器，并将关键点轨迹谱

传递给T_i的解码器；T_i被用作预测完整的轨迹谱

最后，通过IDFT获得重建轨迹

因此，潜在的预测轨迹表示如下：

其中，[t_h：，：]表示张量的切片操作；th表示观测时间段的长度；

tf表示预测时间段的长度。

切片操作是指我最后重建的轨迹是th+tf这段时间内的轨迹，但是我只需要[th+1，th+2，...，th+tf]长度为tf的预测时间段内的预测估计，所以就相当于把前th长度内的轨迹切除，只要后面tf时间段内的轨迹。

最后，细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱，将剩余的频谱部分(完整的轨迹谱除去关键点轨迹谱剩余的频谱

)来反映智能体更为精细的交互细节；

通过平均逐点损失(Average Point-wise Loss，L_APL)优化细粒度子网络。

其中，

y分别表示预测的轨迹，和预测轨迹的真值(Ground Truth)。

p_t分别表示t时刻的预测的轨迹坐标点，和预测轨迹坐标点的真值

进一步，所述频域视角下智能体轨迹预测方法还包括：

利用联合损失函数训练所述分层预测网络，所述联合损失函数L为：

本发明的另一目的在于提供一种实施所述频域视角下智能体轨迹预测方法的频域视角下智能体轨迹预测系统，所述频域视角下智能体轨迹预测系统包括：

粗粒度关键点估计模块，用于在较低的时空分辨率上预测智能体的关键点轨迹谱，通过设计编码器-解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性；

细粒度频谱插值模块，用于在交互表征的帮助下根据所述关键点轨迹谱从更高的时空分辨率上重建完整轨迹谱。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述频域视角下智能体轨迹预测方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述频域视角下智能体轨迹预测系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

本发明在不同频率尺度上分层预测智能体的未来轨迹，包括：(1)整体规划，即智能体的粗略的运动趋势。轨迹频谱中的低频部分(缓慢变化的部分)将反映智能体运动的整体规划。(2)交互偏好，即智能体的交互关系。轨迹频谱中的高频部分(快速变化的部分)将描述智能体快速变化的运动差异，从而进一步表征其个性化的交互偏好。从不同的维度对轨迹进行更为精准的预测，即从粗粒度的全局规划到更为细粒度的交互偏好描述。

本发明从频域视角重新看待轨迹预测，从粗粒度的全局规划到更为细粒度的交互偏好描述，更加全面立体地反映智能体在不同尺度上的行为偏好。

现有的大部分方法将轨迹当作时间序列，因此他们通常在时间域上处理轨迹。然后，准确地说，轨迹是时空序列，它不仅与时间相关，也与空间位置相关。常见的时间序列如股价，只包含时间变量，并无空间变量。所以只从时间域处理轨迹不够恰当，当从频域建模轨迹，能获得更好描述轨迹的表征。

图像处理中利用傅里叶变换处理Lena.jpg，本发明发现低频部分是图像的轮廓，高频部分是图像的细节(突变部分)。同理，在轨迹中，本发明通过轨迹的高低频去描述轨迹，进一步可以探究高频、低频是如何影响轨迹，从而能可控地根据场景的差异自适应预测多样化的轨迹。

本发明的技术方案转化后的预期收益和商业价值为：可以为目标检测与跟踪中部分遮挡问题提供新思路，提出基于预测的检测或者跟踪算法，根据已知的检测/跟踪算法获取目标的位置(坐标点)，然后通过本发明的预测算法计算出目标进入遮挡后可能的未来位置(坐标点)。在行为分析中，可以提供更为合理或精细的轨迹，以满足感官上的需求，进一步地能让元宇宙/VR/AR中的人物行为更为逼真。

本发明的技术方案是否克服了技术偏见：克服了之前的方法只从时间域上建模轨迹，本发明从频域上处理轨迹，获得了更为准确的效果以及更为合理的预测轨迹。

附图说明

图1是本发明实施例提供的轨迹预测整体架构图。

图2(a)---(i)是本发明实施例提供的方法能满足不同的12中场景。尤其是场景h，发现本发明的方法给出的预测轨迹符合交通规则及社会常识，预测的轨迹均绕着转盘。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的频域视角下智能体轨迹预测方法包括：

进一步，所述粗粒度关键点估计子网络包括：

步骤一，首先对智能体的观察轨迹使用离散傅里叶变换(DFT)来获得智能体在观察时间[1，2，...，t_h]的轨迹谱；

步骤二，使用一个多层感知机MLP_t将智能体的观测轨迹谱

嵌入到高维特征f_t中；

步骤三，使用关键点Transformer T_k对f_e进行编码；

步骤四，使用解码器MLP_e来预测智能体的N个关键点(N_key＜t_f)的轨迹谱[A^key，Φ^key]；

步骤五，最小化关键点的真实空间坐标和预测空间坐标的平均欧几里得距离优化粗粒度关键点估计子网络，从而学习预测所述关键点的轨迹谱。

进一步，所述智能体的观察轨迹为：

令

表示一个智能体在时间t的二维坐标。给定一个视频片段{I}，其中{I}包含M个智能体在时间[1，2，...，t_h]的观察轨迹

表示第i个智能体的观察轨迹)，轨迹预测旨在预测智能体在未来时间段[t_h+1，t_h+2，...，t_h+t_f]的潜在轨迹坐标点

进一步，所述步骤一的具体过程为：

对观测轨迹

的每个维度应用1D-DFT以获得它们的频谱，包括幅度谱A＝{a_x，a_y}和相位谱Φ＝{φ_x，φ_y}：

进一步，所述步骤二的具体过程为：

首先，对随机噪声向量

进行采样；然后，使用另一个多层感知机MLP_i编码噪声变量z获得随机噪声特征f_i；最后将f_t与f_i拼接得到f_e，公式为：

其中，f_e表征智能体未来轨迹的多样性，[a，b]表示向量{a，b}在最后一维上的拼接。

所述步骤三的具体过程为：

嵌入的向量f_e被传递到Transformer编码器，观测轨迹谱(a_x，a_y，φ_x，φ_y)被输入到Transformer解码器；此处的Transformer用作特征提取器，它不包含最终输出层；使用另一个多层感知机MLP_e聚合不同频率节点的特征，从而推断行为特征f，表达式为：

进一步，所述步骤四的具体过程为：

所述轨迹谱[A^key，Φ^key]的表达式为：

其中，N_key表示轨迹谱关键点的数目；

进一步，所述步骤五的具体过程为：

当训练粗粒度子网络时，将智能体的关键点空间坐标y^key(从完整的未来轨迹真值(Ground Truth)中获取)作为标签；同时，将利用离散傅里叶逆变换(IDFT)来获得预测的关键点的关键空间坐标

将通过最小化真实的y^key和预测的

所述平均欧几里得距离即为平均关键点损失(Average Keypoints Loss，L_AKL)，表达式为：

其中，

其中，IDFT表示离散傅里叶逆变换函数。

进一步，所述细粒度频谱插值子网络包括：

首先，输入所述关键点的轨迹谱[A^key，Φ^key]获得表征

其中，此处的MLP_t与粗粒度网络中的MLP_t不同享参数；

然后，使用MLP_c对交互表征C进行编码，通过CNN将场景视觉图像和轨迹以能量图形式共同编码社会交互及物理交互，所述交互表征C来自模型CSCNet；

f_c＝MLP_c(C)

传递给T_i的编码器，并将关键点轨迹谱

传递给T_i的解码器；T_i被用作预测完整的轨迹谱

最后，通过IDFT获得重建轨迹

因此，潜在的预测轨迹之一表示如下：

其中，[t_h：，：]表示张量的切片操作；

最后，细粒度频谱插值子网络利用插值Transformer将关键点的轨迹谱插值成完整的轨迹频谱，将剩余的频谱部分来反映智能体更为精细的交互细节；

进一步，所述频域视角下智能体轨迹预测方法还包括：

本发明实施例还提供了一种频域视角下智能体轨迹预测系统，包括：

粗粒度关键点估计模块，用于在较低的时空分辨率上预测智能体的关键点轨迹谱，通过设计编码器一解码器结构生成多个潜在的预测轨迹描述智能体未来行为的不确定性和随机性；

本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合实验过程的数据、图表等进行描述。

其中，eth、hotel、univ、zara1、zara2为5个数据集，图中的性能指标是越小越好。从表格中，可以看出本发明的方法取得了最佳的效果，与之前的方法相比，性能指标最大提高了62.5％/72％。

模型名称	性能指标
		S-GAN	27.25/41.44
SoPhie	16.27/29.38
		Multiverse	14.78/27.09
SimAug	12.03/23.98
		PECNet	9.96/15.88
MANTR	8.96/17.76
		LB-EBM	8.87/15.61
SpecTGNN	8.21/12.41
		Y-net	7.85/11.85
我们的方法	7.12/11.39

其中，这是在SDD数据集上本发明实施例提供的方法与其他方法的定量结果比较，图中的性能指标是越小越好。从表格中，可以看出本发明的方法取得了最佳的效果，与之前的方法相比，性能指标最大提高了73.9％/72.5％。

本发明实施例提供的方法这不同场景下进行的轨迹预测。其中，实线为观测轨迹，团状的分布为预测轨迹。从图2中本发明实施例提供的方法能满足不同的场景。尤其是场景h，发现本发明的方法给出的预测轨迹符合交通规则及社会常识，预测的轨迹均绕着转盘。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体，或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所做的做的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。