CN113269114B

CN113269114B - 一种基于多隐变量预测器及关键点的行人轨迹预测方法

Info

Publication number: CN113269114B
Application number: CN202110624797.2A
Authority: CN
Inventors: 陈禹行; 林华东; 李雪; 范圣印
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-02-02
Anticipated expiration: 2041-06-04
Also published as: CN113269114A

Abstract

本发明涉及一种基于多隐变量预测器及关键点的行人轨迹预测方法，属于计算机视觉和自动驾驶技术领域。该方法包括以下步骤：①轨迹序列经过Informer‑编码器处理得到特征向量；②通过两个不同的隐变量预测器分别生成轨迹隐变量和关键点隐变量；③通过关键点隐变量生成轨迹关键点，并初始化Informer‑解码器；④Informer‑解码器结合轨迹隐变量生成预测轨迹，最后计算损失函数。本发明采用Informer作为基础网络，引入两个不同的隐变量预测器分别预测轨迹和关键点的隐变量，基于关键点隐变量预测轨迹关键点，再用轨迹关键点初始化解码器并计算关键点的损失。可用于自动驾驶车辆对于行人、车辆等代理的轨迹预测，帮助车辆更好地进行决策，保护交通安全。

Description

一种基于多隐变量预测器及关键点的行人轨迹预测方法

技术领域

本发明涉及一种基于多隐变量预测器及关键点的行人轨迹预测方法，属于计算机视觉和自动驾驶技术领域。

背景技术

自动驾驶行业也已经持续火热多年，但是行业内对于何时能真正实现无人驾驶还尚无定论。其中一个很重要的原因是，在复杂场景下，难以对周边行人的轨迹做出合理的预判。所以，如果无法攻克这个难题，再完美的决策和控制技术都不可能实现绝对安全的无人驾驶。因此，近年来行人轨迹预测逐渐成为计算机视觉领域一个热门的研究问题。行人作为弱势群体，最需要得到外界的保护。在人类驾驶中，司机可以通过判断行人的运动状态，从而做出正确的决策，避免交通事故的发生。然而，自动驾驶系统若仅通过检测和跟踪行人，难以做出合理的决策。如果检测到行人就停止，会增加交通拥挤度，而错误地选择继续前行，会导致碰撞的发生。为此，对行人未来轨迹做出合理的预测，可以提高交通系统的安全性和通畅性。然而，行人轨迹预测存在很大的挑战，主要由于人类行为的复杂性以及外部的刺激。运动行为可能受自身的目标意图、周围主体的行为、主体之间的社会关系、社会规则和环境的拓扑结构等所影响。此外，为了在实践中取得有效的结果，轨迹预测必须具有鲁棒性和实时性。

为了解现有技术的发展状况，本发明对已有的专利和论文进行了检索、比较和分析，筛选出如下与本发明相关度比较高的技术方案：

方案1：2016年的CVPR论文“Social lstm:Human trajectory prediction incrowded spaces”是最早使用长短期记忆网络(LSTM)来建模并预测行人的轨迹，同时引入社会池化层(Social Pooling Layer)来提取行人之间的交互信息。然而，像LSTM之类的循环神经网络只能顺序处理序列，并行处理能力差，效率低。

方案2：2018年CVPR论文“Social gan:Socially acceptable trajectories withgenerative adversarial networks”引入生成对抗网络(GAN)实现多轨迹预测。SocialGAN同样基于LSTM，所以存在处理效率低下的问题。同时，GAN在训练过程中存在梯度消失、模式崩溃、稳定性差等问题。

方案3：2020年ICPR论文“Transformer Networks for Trajectory Forecasting”基于Transformer进行轨迹预测。Transformer解决了无法并行化的问题，但仍然存在以下三个缺陷：1.自注意力机制导致平方级别的时间复杂度。2.堆叠的网络导致内存占用率高。3.逐步解码预测，导致推理速度很慢，预测存在累积的误差。

可见，现有的行人轨迹预测技术存在网络开销大、训练速度慢、推理速度慢等性能问题，不适合在实际场景中应用；以及训练过程稳定性差的问题，具体表现在：

一是内存开销大。Transformer通常堆叠Transformer blocks形成多层的体系结构，Transformer blocks包括多头注意力机制、前馈网络、层归一化和残差连接器等，结果导致Transformer内存占用率高。

二是训练和推理速度慢。LSTM顺序处理序列，缺乏并行处理的能力，因此效率低下。Transformer基于自注意力机制，没有循环结构，可以并行处理数据。但是，自注意力机制会导致平方级别的运算时间复杂度。另外，Transformer基于编码器-解码器结构，推理阶段采用逐步解码方式，即只有完成t时刻的预测才能继续预测t+1时刻，导致推理速度很慢。

三是GAN的局限性。GAN在训练过程中存在以下三个问题。1)GAN的最终目标是要达到纳什均衡，但是很难使生成器和判别器同时收敛，且经常出现震荡，实验结果随机，难以复现。2)当判别器非常准确时，判别器的损失很快收敛到0，从而无法提供可靠的路径使生成器的梯度继续更新，造成生成器梯度消失。3)对于不同的输入生成相似的样本，最坏的情况仅生成一个单独的样本，造成模式坍塌。

发明内容

本发明旨在提供一种性能强、准确率高的基于多隐变量预测器及关键点的行人轨迹预测方法，针对内存开销大的问题，本发明采用Informer的自注意力蒸馏技术，在保留关键信息的情况下大幅度减小内存占用。针对训练和推理速度慢的问题，本发明采用Informer的概率稀疏自注意力机制和生成式解码器。针对GAN的局限性，本发明基于编码器-解码器结构，同时引入关键点隐变量预测器和轨迹隐变量预测器，独立预测关键点和轨迹的隐变量，基于关键点隐变量预测轨迹关键点，并计算关键点的损失，提高预测精度。

本发明的目的是这样实现的，一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：该方法包括以下步骤：

步骤S110，对轨迹序列进行位置编码，并输入Informer-编码器得到特征向量；

步骤S120，基于特征向量，轨迹隐变量预测器生成轨迹隐变量h₁，关键点隐变量预测器生成关键点隐变量h₂；

步骤S130，通过关键点隐变量h₂生成轨迹关键点，并用轨迹关键点初始化Informer-解码器对应的位置；

步骤S140，对Informer-解码器的初始化序列进行位置编码，然后结合轨迹隐变量h₁生成预测轨迹，最后计算损失函数。

本发明的优点和技术效果是：

1、采用Informer的自注意力蒸馏技术、概率稀疏自注意力机制以及生成式解码器作为基础网络的核心技术，提高训练速度和推理速度，减少网络的内存开销，并提高预测精度。

2、引入关键点隐变量预测器和轨迹隐变量预测器，独立预测关键点和轨迹的隐变量，提升关键点的预测精度。

3、基于关键点隐变量预测轨迹关键点，轨迹关键点选择中间点和终点，再用轨迹关键点初始化解码器对应的位置，使轨迹受到更多的约束，提高模型的预测精度。

4、计算关键点的损失，提高关键点的预测精度，增强对预测轨迹的约束能力。

5、本发明可用于自动驾驶车辆对于行人、车辆等代理的轨迹预测，帮助车辆更好地进行决策，保护交通安全。自动驾驶车辆对行人、车辆等代理的轨迹预测，采用Informer的自注意力蒸馏技术、概率稀疏自注意力机制以及生成式解码器作为基础网络的核心技术。引入两个不同的隐变量预测器分别预测轨迹和关键点的隐变量。基于关键点隐变量预测轨迹关键点，再用轨迹关键点初始化解码器对应的位置，并计算关键点的损失。

附图说明

图1是本发明基于多隐变量预测器及关键点的行人轨迹预测方法的总体流程图。

图2是本发明基于多隐变量预测器及关键点的行人轨迹预测方法的网络结构图。

图3是本发明Informer-编码器的处理流程图。

图4是本发明条件变分自编码器网络结构图。

图5是本发明隐变量预测器的处理流程图。

图6是本发明Informer-解码器的处理流程图。

图7是本发明高斯随机神经网络结构图。

图8是本发明混合高斯随机神经网络和条件变分自编码器的网络结构图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

如附图1所示：一种基于多隐变量预测器及关键点的行人轨迹预测方法，该方法包括以下步骤：

步骤S110，对轨迹序列进行位置编码，并输入Informer-编码器得到特征向量。

步骤S120，基于特征向量，轨迹隐变量预测器生成轨迹隐变量h₁，关键点隐变量预测器生成关键点隐变量h₂。

步骤S130，通过关键点隐变量h₂生成轨迹关键点，并用轨迹关键点初始化Informer-解码器对应的位置。

本发明行人轨迹预测模型的网络结构如图2所示。

(1)通过Informer-编码器提取特征向量

在所述步骤S110中，对轨迹序列进行位置编码，再送入Informer-编码器得到特征向量，具体步骤如图3流程图所示。

首先，定义行人的观测轨迹序列和未来真实轨迹序列，具体表达式如下：

其中，N表示轨迹的总条数，X_i表示第i条观测轨迹，t_obs表示观测轨迹持续的时间。Y_i表示第i条未来真实轨迹，t_pred表示未来轨迹持续的时间。表示轨迹i在t时刻的坐标，

步骤S111，输入观测轨迹序列。

步骤S112，对模式进行判断，因为模型在训练阶段和推理阶段存在不一样的流程。若不在训练阶段，则直接到步骤S114；若处在训练阶段，则跳到步骤S113。

步骤S113，输入未来真实轨迹序列。

步骤S114，对序列进行位置编码。位置编码的公式如下：

其中，PE表示被编码的向量，其中t表示坐标在序列中的位置。2k或2k+1表示向量的第2k或2k+1个维度，编码的维度为d_model。最后，把2维的坐标序列映射到d_model维度，并和位置编码后的向量PE进行相加，得到嵌入位置信息后的高维向量。具体的公式如下：

其中，δ表示多层感知机，W是其对应的参数，PE是位置编码后的向量，是嵌入位置信息的高维向量。

步骤S115，Informer-编码器对序列进行编码，得到特征向量。在训练阶段，编码器需要对观测轨迹和未来真实轨迹进行编码，分别输出两个特征向量h_X和h_Y。在推理阶段，未来真实轨迹不可知，所以只对观测轨迹进行编码得到h_X，具体的计算过程如下：

其中，Encoder表示Informer-编码器，W_encoder是其对应的参数。

(2)生成关键点隐变量和轨迹隐变量

在所述步骤S120中，基于特征向量，轨迹隐变量预测器生成隐变量h₁，关键点隐变量预测器生成隐变量h₂。轨迹隐变量预测器和关键点隐变量预测器均采用条件变分自编码器网络，但是输入有所不同。下面以轨迹隐变量预测器的实现为例。

轨迹隐变量预测器网络如图4所示。网络包含先验网络和识别网络两个子网络，虚线表示在测试阶段使用，实线表示在训练和测试阶段都使用。识别网络是后验概率Q(Z|X,Y)的实现，先验网络P_θ(Z|X)是先验概率P(Z|X)的实现，其中/>θ分别是两个网络对应的参数。隐变量预测器的具体流程如图5所示。

步骤S121，观测轨迹的特征向量h_X通过先验网络计算高斯分布的均值μ_p和方差∑_p，得到N(μ_p,∑_p)。

步骤S122，判断当前所处的模式，因为本发明在训练阶段和推理阶段的流程不一样。若不在训练阶段，则直接跳到步骤S126。若在训练阶段，则跳到步骤S123。

步骤S123，输入未来真实轨迹的特征向量h_Y，并通过识别网络计算高斯分布的均值μ_q和方差∑_q，得到N(μ_q,∑_q)。

步骤S124，计算N(μ_q,∑_q)和和N(μ_p,∑_p)之间的KL散度，让概率P(Z|X)逼近Q(Z|X,Y)，具体计算公式如下：

L_KLD＝KLD(N(μ_q,∑_q)||N(μ_p,∑_p))

其中，KLD表示KL散度函数，L_KLD表示KL散度损失。

步骤S125，基于识别网络生成的概率分布N(μ_q,∑_q)，采样得到隐变量h₁。

步骤S126，基于先验网络生成的概率分布N(μ_p,∑_p)，采样得到隐变量h₁。

对于关键点隐变量预测器，识别网络是后验概率的实现，即选择它的中间点和终点作为输入。最后，采样得到的关键点隐变量记为h₂。

(3)基于关键点隐变量生成轨迹关键点

在所述步骤S130中，通过关键点隐变量h₂生成轨迹关键点，并用轨迹关键点初始化Informer-解码器对应的位置。轨迹关键点选择中间点和终点，即和t_obs+t_pred时刻的坐标，分别记作p₁和p₂。通过两个多层感知机MLP1和MLP2分别来预测p₁和p₂，具体的计算公式如下：

p₁＝δ(h₂；W₁)

p₂＝δ(h₂；W₂)

其中，δ表示多层感知机，h₂是轨迹关键点隐变量，W₁和W₂是两个网络对应的参数。

Informer-解码器的输入包含开始符号X_token和占位符X₀两部分，长度分别为和t_pred。X_token采用X_i在/>时间内序列来初始化。X₀在/>和t_pred位置分别用p₁和p₂初始化，其余部分用0初始化。

(4)通过Informer-解码器预测轨迹

在所述步骤S140中，对Informer-解码器的初始化序列进行位置编码，然后结合轨迹隐变量h₁生成预测轨迹，最后计算损失函数，流程如图6所示。

步骤S141，对初始化序列进行位置编码，位置编码的方法与步骤S114相同。生成的位置嵌入表示为

步骤S142，结合隐变量h₁和生成特征向量/>具体计算公式如下：

其中，Decoder表示Informer-解码器，W_decoder是其对应的参数。

步骤S143，将特征向量经过全连接层生成预测轨迹具体公式如下：

其中ψ表示全连接层，W_ψ是其对应的参数。

步骤S144，计算损失函数L。本发明输出多模态轨迹，记第k条轨迹为损失函数包括四部分：多样性损失函数、关键点损失函数、轨迹隐变量预测器的KL散度损失L_KLD1、关键点隐变量预测器的KL散度损失L_KLD2。多样性损失函数为多条轨迹的最小误差。L的具体表达式如下：

所述的轨迹隐变量预测器和关键点隐变量预测器可以用高斯随机神经网络、混合高斯随机神经网络和条件变分自编码器的网络，下面分别介绍这两个网络。

1)高斯随机神经网络

高斯随机神经网络如图7所示，网络包含一个先验网络P_θ(Z|X)，θ对应网络的参数。先验网络获取h_X，并预测高斯分布N(μ_p,∑_p)。最后，从N(μ_p,∑_p)中采样隐变量h。

2)混合高斯随机神经网络和条件变分自编码器的网络

混合高斯随机神经网络和条件变分自编码器的网络如图8所示，网络包含先验网络1——R_ν(Z|X)、先验网络2——P_θ(Z|X)、识别网络——三个子网络，其中ν、θ、分别是三个网络对应的参数。虚线表示在测试阶段使用，实线表示在训练和测试阶段都使用。

在训练阶段，先验网络1获取h_X，并预测高斯分布N(μ_r,∑_r)，基于N(μ_r,∑_r)获得隐变量h₁。先验网络2获取h_X，并预测高斯分布N(μ_p,∑_p)；识别网络获取h_X和h_Y，并预测高斯分布N(μ_q,∑_q)。然后，计算N(μ_q,∑_q)和N(μ_p,∑_p)之间的KL散度，并基于N(μ_q,∑_q)采样隐变量h₂。最后，将h₁和h₂进行拼接，得到h。

在推理阶段，先验网络1获取h_X，并预测高斯分布N(μ_r,∑_r)，基于N(μ_r,∑_r)获得隐变量h₁。先验网络2获取h_X，并预测高斯分布N(μ_p,∑_p)，基于N(μ_p,∑_p)采样隐变量h₂。最后，将h₁和h₂进行拼接，得到h。

Claims

1.一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：该方法包括以下步骤：

步骤S140，对Informer-解码器的初始化序列进行位置编码，然后结合轨迹隐变量h₁生成预测轨迹，最后计算损失函数；

在所述步骤S140中，对Informer-解码器的初始化序列进行位置编码，将位置编码后的序列输入Informer-解码器并结合轨迹隐变量h₁产生特征向量，基于特征向量生成预测轨迹，最后计算损失函数，具体步骤为：

步骤S141，对初始化序列进行位置编码，生成的位置嵌入表示为

位置编码的公式如下：

其中，PE表示被编码的向量，其中t表示坐标在序列中的位置；2k或2k+1表示向量的第2k或2k+1个维度，编码的维度为d_model；最后，把2维的坐标序列映射到d_model维度，并和位置编码后的向量PE进行相加，得到嵌入位置信息后的高维向量；具体的公式如下：

其中，δ表示多层感知机，W_ee是其对应的参数，PE是位置编码后的向量，是嵌入位置信息的高维向量；

其中，Decoder表示Informer-解码器，W_decoder是其对应的参数；

其中，ψ表示全连接层，W_ψ是其对应的参数；

步骤S144，计算损失函数L，输出为多模态轨迹，记第k条轨迹为损失函数包括四部分：多样性损失函数、关键点损失函数、轨迹隐变量预测器的KL散度损失L_KLD1、关键点隐变量预测器的KL散度损失L_KLD2，多样性损失函数为多条轨迹的最小误差，L的具体表达式如下：

其中，Y_i表示第i条未来真实轨迹。

2.根据权利要求1所述的一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：在所述步骤S110中，根据模式选择是否输入未来真实轨迹序列，对轨迹序列进行位置编码，再送入Informer-编码器得到特征向量；

其中，N表示轨迹的总条数，X_i表示第i条观测轨迹，t_obs表示观测轨迹持续的时间，Y_i表示第i条未来真实轨迹，t_pred表示未来轨迹持续的时间，表示轨迹i在t时刻的坐标，

步骤S111，输入观测轨迹序列；

步骤S112，对模式进行判断，若不在训练阶段，则直接到步骤S114；若处在训练阶段，则跳到步骤S113；

步骤S113，输入未来真实轨迹序列；

步骤S114，对序列进行位置编码；位置编码的公式如下：

步骤S115，Informer-编码器对序列进行编码，得到特征向量；在训练阶段，编码器需要对观测轨迹和未来真实轨迹进行编码，分别输出两个特征向量h_X和h_Y；在推理阶段，未来真实轨迹不可知，所以只对观测轨迹进行编码得到h_X，具体的计算过程如下：

其中，Encoder表示Informer-编码器，W_encoder是其对应的参数。

3.根据权利要求1所述的一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：在所述步骤S120中，轨迹隐变量预测器和关键点隐变量预测器均采用条件变分自编码器网络，但是输入有所不同；网络包含先验网络和识别网络两个子网络，测试阶段只使用先验网络，并基于先验网络得到隐变量；训练阶段同时使用先验网络和识别网络，并基于识别网络得到隐变量；识别网络是后验概率Q(Z|X,Y)的实现，先验网络P_θ(Z|X)是先验概率P(Z|X)的实现，其中/>θ分别是两个网络对应的参数；

步骤S121，观测轨迹的特征向量h_X通过先验网络计算高斯分布的均值μ_p和方差∑_p，得到N(μ_p,∑_p)；

步骤S122，判断当前所处的模式，若不在训练阶段，则直接跳到步骤S126，若在训练阶段，则跳到步骤S123；

步骤S123，输入未来真实轨迹的特征向量h_Y，并通过识别网络计算高斯分布的均值μ_q和方差∑_q，得到N(μ_q,∑_q)；

L_KLD＝KLD(N(μ_q,∑_q)||N(μ_p,∑_p))

其中，KLD表示KL散度函数，L_KLD表示KL散度损失；

步骤S125，基于识别网络生成的概率分布N(μ_q,∑_q)，采样得到隐变量h₁；

步骤S126，基于先验网络生成的概率分布N(μ_p,∑_p)，采样得到隐变量h₁；

对于关键点隐变量预测器，识别网络是后验概率的实现，即选择它的中间点和终点作为输入，最后，采样得到的关键点隐变量记为h₂。

4.根据权利要求1所述的一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：在所述步骤S130中，轨迹关键点选择中间点和终点，即和t_obs+t_pred时刻的坐标，分别记作p₁和p₂，基于关键点隐变量h₂，通过两个多层感知机MLP1和MLP2分别来预测p₁和p₂，具体的计算公式如下：

p₁＝δ(h₂；W₁)

p₂＝δ(h₂；W₂)

其中，δ表示多层感知机，h₂是轨迹关键点隐变量，W₁和W₂是两个网络对应的参数；

Informer-解码器的输入包含开始符号X_token和占位符X₀两部分，长度分别为和t_pred，X_token采用X_i在/>时间内序列来初始化，X₀在/>和t_pred位置分别用p₁和p₂初始化，其余部分用0初始化。

5.根据权利要求1所述的一种基于多隐变量预测器及关键点的行人轨迹预测方法，其特征在于：所述的轨迹隐变量预测器和关键点隐变量预测器用高斯随机神经网络、混合高斯随机神经网络和条件变分自编码器的网络。