CN112215193B

CN112215193B - 一种行人轨迹预测方法及系统

Info

Publication number: CN112215193B
Application number: CN202011145543.4A
Authority: CN
Inventors: 梁荣钦; 李元满; 李霞; 王娜
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2023-07-18
Anticipated expiration: 2040-10-23
Also published as: CN112215193A

Abstract

本发明公开了一种行人轨迹预测方法及系统，首先本发明将预设时间段内单一分辨率的行人轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上多分辨率的行人轨迹；然后采用时间金字塔网络对多分辨率的行人轨迹进行编码和解码以同时建模行人全局和局部运动行为，从而学习到更加真实的、鲁棒的行人未来轨迹；进一步地，本发明利用融合网络以将学习到的多分辨率行人轨迹信息进行高度融合，从而学习到精细化的行人轨迹；最后采用多监督训练策略以同时监督多种分辨率下的行人轨迹；此策略能够从粗糙到精细地建模行人轨迹，有效提高了行人轨迹预测的精度。此外，时间金字塔网络可作为辅助模块，能轻松扩展到其他序列预测框架，带来性能上的大幅提升。

Description

一种行人轨迹预测方法及系统

技术领域

本发明涉及轨迹预测技术领域，具体涉及一种行人轨迹预测方法及系统。

背景技术

行人轨迹预测是指根据行人过去一段时间内的历史轨迹，预测其未来一段时间内的行走轨迹。其在机器人自然导航、自动驾驶系统决策、监测系统识别可疑活动等方面具有广泛应用，对于研究智能驾驶和智慧城市等领域有着重要意义。

研究行人轨迹预测这一问题，主要存在以下难点：1)多模态性：相同的行人历史轨迹可能会有多种可接受的、不同的未来轨迹。2)社会交互：行人的行走受到周围人的影响，行人之间的相互作用可以使他们保持并行、改变方向或速度以避免行走过程中发生碰撞。目前一部分方法采用循环神经网络构建编解码器来预测行人轨迹，然而这类方法无法建模行人行走的多模态性。另一些方法采用生成式对抗网络或图网络来建模行人运动行为，但是这些方法均采用单一分辨率的方式(即固定时间步长)对输入、输出的轨迹进行编码和解码。因此现有技术未能充分利用运动行为的时间关系，难以同时建模行人的全局和局部运动行为，导致轨迹预测的精度并不理想。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中行人轨迹预测结果精度低的缺陷，从而提供一种行人轨迹预测方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种行人轨迹预测方法，包括如下步骤：

将预设时间段内单一分辨率的行人历史轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上具有多分辨率的时间金字塔层级行人历史轨迹；

将时间金字塔层级行人历史轨迹输入生成器，提取时间金字塔层级行人未来轨迹特征，并对行人未来轨迹特征进行全局运动行为到局部运动行为的融合，生成具有不同分辨率的时间金字塔层级行人未来轨迹；

将具有不同分辨率的时间金字塔层级行人未来轨迹通过融合网络，生成精细化行人轨迹，判别器对生成的精细化行人未来轨迹进行判别；

对生成器和判别器组成的生成式对抗网络进行训练，将训练好的网络模型作为行人轨迹预测模型；

将预设时间段内的行人历史轨迹输入行人轨迹预测模型中，输出未来预设时间段内精细化的行人轨迹预测结果。

在一实施例中，所述对行人未来轨迹特征进行全局运动行为到局部运动行为的融合，生成具有不同分辨率的时间金字塔层级行人未来轨迹的步骤包括：

通过编码器对时间金字塔层级行人历史轨迹进行编码后，由解码器进行解码并自顶向下融合全局运动行为到局部运动行为，生成具有不同分辨率的时间金字塔层级行人未来轨迹。

在一实施例中，编码器和解码器采用长短期记忆网络进行编解码。

在一实施例中，对生成式对抗网络进行训练时的损失函数通过以下公式表示：

min_Gmax_DL_avd+L_s+L_f，

其中，L_avd表示生成式对抗训练的损失函数；X表示历史轨迹，Y表示真实的未来轨迹，z表示噪声，P_data(X,Y)表示(X，Y)的真实的数据分布；D(X,Y)表示真实行人轨迹在判别器的判别分数，训练判别器过程中期望D(X,Y)尽可能接近1；D(X,G(z,X))表示生成器预测的未来轨迹的判别分数；在训练生成器阶段期望其尽可能接近1，以表示预测的轨迹接近真实轨迹；在训练判别器阶段期望其尽可能接近0，以表示判别器能将真实轨迹与预测的轨迹区分出来；E表示计算对应的期望，L_s表示时间金字塔层级行人未来轨迹的损失函数，L_f表示精细化行人轨迹的损失函数；

通过在训练判别器阶段最大化L_avd，在训练生成器阶段最小化L_avd+L_s+L_f来更新优化模型。

在一实施例中，采用多监督的方式同时监督时间金字塔层级行人轨迹和精细化行人轨迹，多监督训练的损失函数通过以下公式表示：

其中，L_s表示时间金字塔层级行人轨迹的损失函数；是未来轨迹的真实金字塔源；/>表示不同层级的时间金字塔层级预测轨迹；l表示第l层，i表示行人i；超参数λ_l与/>的轨迹长度成反比；L_f表示精细化行人轨迹的损失函数，/>表示预测的行人i的精细化轨迹，Y_i表示对应的真实行人未来轨迹，N表示一个场景里行人的个数。

在一实施例中，所述预设融合网络包括多个卷积层。

第二方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面的行人轨迹预测方法。

第三方面，本发明实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例第一方面的行人轨迹预测方法。

本发明技术方案，具有如下优点：

1、本发明提供了一种行人轨迹预测方法及系统。首先本发明将预设时间段内单一分辨率的行人历史轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上多分辨率的行人轨迹；然后采用时间金字塔网络对多分辨率的行人历史轨迹进行编码和解码以同时建模行人全局和局部运动行为，从而学习到更加真实的、鲁棒的行人未来轨迹；进一步地，本发明提出融合网络以将学习到的多分辨率行人轨迹信息进行高度融合，从而学习到精细化的行人轨迹；此外时间金字塔网络可作为辅助模块，能够轻松扩展到其他序列预测框架，从而带来性能上的大幅提升。

2、本发明提供的一种行人轨迹预测方法及系统，采用多监督训练策略以同时监督多种分辨率的行人轨迹。此策略能够从粗糙到精细地建模行人轨迹，有效提高了行人轨迹预测的精度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明实施例中提供的行人轨迹预测方法的一个具体示例的工作流程图；

图2为本发明实施例中提供的生成式对抗网络的总框架图；

图3为本发明实施例中提供的融合网路的示意图；

图4为本发明实施例中提供的行人轨迹预测系统的一个具体示例的模块组成图；

图5为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种行人轨迹预测方法，可以应用于自动驾驶的决策系统、机器人的自主导航、监测系统监测可疑活动、智能跟随系统等领域，如图1所示，该方法包括如下步骤：

步骤S1：将预设时间段内单一分辨率的行人历史轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上具有多分辨率的时间金字塔层级行人历史轨迹。

在本发明实施例中，时间压缩调制可以采用间隔为2的均匀采样对输入的行人轨迹进行压缩；时间膨胀调制可以通过对每两帧之间采用三样条插值法进行插值，仅作为一具体实施例进行说明，但并不以此为限。如图2所示，在本发明实施例构建的时间金字塔层级为5(可以根据实际需求选择层级数目，此处设为5仅作为举例说明)。

步骤S2：将时间金字塔层级行人历史轨迹输入生成器，提取时间金字塔层级行人未来轨迹特征，并对行人未来轨迹特征进行全局运动行为到局部运动行为的融合，生成具有不同分辨率的时间金字塔层级行人未来轨迹。

本发明实施例将时间金字塔层级行人历史轨迹输入由编码器和解码器组成的生成器。时间金字塔层级行人轨迹通过编码器进行编码，然后通过解码器进行解码并自顶向下融合全局运动行为到局部运动行为，生成具有不同分辨率的时间金字塔层级行人轨迹。其中，编码器和解码器可以采用长短期记忆网络进行编解码(LSTM,Long Short-TermMemory)，但不限于此方法。图2中采用的编解码模型以Social GAN为基线，但不限于此方法，不同层级的编解码过程，共享编解码模型的参数。

步骤S3：将具有不同分辨率的时间金字塔层级行人轨迹通过融合网络，生成精细化行人轨迹，判别器对生成的精细化行人轨迹进行判别。

本发明实施例，时间压缩调制或时间膨胀调制对不同层级的轨迹进行压缩或膨胀(这部分统称为解金字塔操作)以构建相同分辨率的行人轨迹，然后通过如图3所示的卷积神经网络进行进一步的融合，最后生成精细化的行人轨迹。图3中卷积层的卷积核大小为1×1，通道数分别为8、4、1，仅以此作为举例，不以此为限，实际情况可以由用户自行调整不同的通道数。

步骤S4：对生成器和判别器组成的生成式对抗网络进行训练，将训练好的网络模型作为行人轨迹预测模型。

如图2所示的为生成式对抗网络的总框架图。生成器(Generator)生成多分辨率的时间金字塔层级行人未来轨迹以及精细化的行人未来轨迹，判别器(Discriminator)对生成的精细化轨迹进行判别。图2中假设当前场景中存在三个行人，以同时预测场景中三个行人的未来轨迹作为举例，判别器最终分别得出三个行人未来轨迹的判别分数，仅以此为例不以此为限，在实际应用中根据具体需求确定。在对生成式对抗网络进行训练时的损失函数通过以下公式表示：

min_Gmax_DL_avd+L_s+L_f，

其中，L_avd表示生成对抗训练的损失函数；X表示历史轨迹；Y表示真实的未来轨迹；z表示噪声；P_data(X,Y)表示(X，Y)的真实的数据分布；D(X,Y)表示真实行人轨迹在判别器的判别分数，训练判别器过程中期望D(X,Y)尽可能接近1；D(X,G(z,X))表示生成器预测的未来轨迹的判别分数；在训练生成器阶段期望其尽可能接近1，以表示预测的轨迹接近真实轨迹，在训练判别器阶段期望其尽可能接近0，以表示判别器能将真实轨迹与预测的轨迹区分出来；E表示计算对应的期望，L_s表示中时间金字塔层级行人轨迹的损失函数；L_f表示精细化行人轨迹的损失函数；

通过在训练判别器阶段最大化L_avd，在训练生成器阶段最小化L_avd+L_s+L_f来更新优化模型，将满足损失函数条件的网络模型确定为训练好的网络模型，作为行人轨迹预测模型。

在训练过程中，采用多监督的方式同时监督时间金字塔层级行人轨迹和精细化行人轨迹，多监督训练的损失函数通过以下公式表示：

步骤S5：将预设时间段内的行人历史轨迹输入行人轨迹预测模型中，输出未来预设时间段内精细化的行人轨迹预测结果。

实际应用中，行人轨迹预测模型的输入为行人历史轨迹，例如是当前时刻之前的几秒内的行人轨迹，行人轨迹预测模型可以预测未来几秒内的行人轨迹，仅作为举例，不以此为限。

本发明实施例提供的行人轨迹预测方法，通过构建时间金字塔层级行人轨迹设计了时间金字塔网络。该网络以多种分辨率对行人轨迹进行编码和解码以同时建模行人全局和局部运动行为，从而学习到更加真实的、鲁棒的行人未来轨迹；然后通过融合网络以将学习到的多分辨率行人轨迹信息进行高度融合，从而学习到精细化的行人轨迹；进一步地，采用多监督训练策略，同时监督多种分辨率的行人轨迹，有效提高了行人轨迹预测的精度。此外，时间金字塔网络可作为辅助模块，能轻松扩展到其他序列预测框架，带来性能上的大幅提升。

实施例2

本发明实施例提供一种行人轨迹预测系统，如图4所示，包括：

行人轨迹预处理模块1，用于将预设时间段内单一分辨率的行人历史轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上具有多分辨率的时间金字塔层级行人轨迹；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

行人轨迹生成判别模块2，用于将时间金字塔层级行人历史轨迹输入生成器，提取时间金字塔层级行人轨迹特征，并对行人未来轨迹特征进行全局运动行为到局部运动行为的融合，生成具有不同分辨率的时间金字塔层级行人未来轨迹；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

轨迹融合及判别模块3，用于将具有不同分辨率的时间金字塔层级行人未来轨迹通过融合网络，生成精细化行人轨迹，判别器对生成的精细化行人轨迹进行判别；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

生成式对抗网络训练模块4，用于对生成器和判别器组成的生成式对抗网络进行训练，将训练好的网络模型作为行人轨迹预测模型；此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

行人轨迹预测结果输出模块5，用于将预设时间段内的行人历史轨迹输入行人轨迹预测模型中，输出未来预设时间段内精细化行人轨迹预测结果。此模块执行实施例1中的步骤S5所描述的方法，在此不再赘述。

本发明实施例提供的行人轨迹预测系统，通过构建时间金字塔层级行人轨迹设计了一个时间金字塔网络。该网络以多种分辨率对行人轨迹进行编码和解码以同时建模行人全局和局部运动行为，从而学习到更加真实的、鲁棒的行人未来轨迹；然后通过融合网络以将学习到的多分辨率行人轨迹信息进行高度融合，从而学习到精细化的行人轨迹；进一步地，采用多监督训练策略，同时监督多种分辨率的行人轨迹，有效提高了行人轨迹预测的精度。此外，时间金字塔网络可作为辅助模块，能轻松扩展到其他序列预测框架，带来性能上的大幅提升。

实施例3

本发明实施例提供一种计算机设备，如图5所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图5以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例1中的行人轨迹预测方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的行人轨迹预测方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种行人轨迹预测方法，其特征在于，包括如下步骤：

将时间金字塔层级行人历史轨迹输入生成器，提取时间金字塔层级行人未来轨迹特征，并通过编码器对时间金字塔层级行人历史轨迹进行编码后，由解码器进行解码并自顶向下融合全局运动行为到局部运动行为，生成具有不同分辨率的时间金字塔层级行人未来轨迹；

将具有不同分辨率的时间金字塔层级行人未来轨迹通过融合网络，生成精细化行人轨迹，判别器对生成的精细化行人轨迹进行判别；

对生成器和判别器组成的生成式对抗网络进行训练，将训练好的网络模型作为行人轨迹预测模型，对生成式对抗网络进行训练时的损失函数通过以下公式表示：

min_Gmax_DL_avd+L_s+L_f，

其中，L_avd表示生成式对抗训练的损失函数；X表示历史轨迹，Y表示真实的未来轨迹，z表示噪声，P_data(X,Y)表示(X，Y)的真实的数据分布；D(X,Y)表示真实行人轨迹在判别器的判别分数；训练判别器过程中期望D(X,Y)尽可能接近1；D(X,G(z,X))表示生成器预测的未来轨迹的判别分数；在训练生成器阶段期望其尽可能接近1，以表示预测的轨迹接近真实轨迹；在训练判别器阶段期望其尽可能接近0，以表示判别器能将真实轨迹与预测的轨迹区分出来；E表示计算对应的期望，L_s表示时间金字塔层级行人未来轨迹的损失函数；L_f表示精细化行人未来轨迹的损失函数；

通过在训练判别器阶段最大化L_avd，在训练生成器阶段最小化

L_avd+L_s+L_f来更新优化模型；

2.根据权利要求1所述的行人轨迹预测方法，其特征在于，编码器和解码器采用长短期记忆网络进行编解码。

3.根据权利要求1所述的行人轨迹预测方法，其特征在于，采用多监督的方式同时监督时间金字塔层级行人轨迹和精细化行人轨迹，多监督训练的损失函数通过以下公式表示：

其中，L_s表示时间金字塔层级行人轨迹的损失函数；是未来轨迹的真实金字塔源；/>表示不同层级的时间金字塔层级行人未来轨迹；l表示第l层，i表示行人i；超参数λ_l与/>的轨迹长度成反比；L_f表示精细化行人未来轨迹的损失函数，/>表示预测的行人i的精细化轨迹，Y_i表示对应的真实行人未来轨迹，N表示一个场景里行人的个数。

4.根据权利要求1所述的行人轨迹预测方法，其特征在于，所述融合网络包括多个卷积层。

5.一种行人轨迹预测系统，其特征在于，包括：

行人轨迹预处理模块，用于将预设时间段内单一分辨率的行人历史轨迹进行时间压缩调制和时间膨胀调制，构建时间维度上具有多分辨率的时间金字塔层级行人历史轨迹；

行人轨迹生成判别模块，用于将时间金字塔层级行人历史轨迹输入生成器，提取时间金字塔层级行人未来轨迹特征，并通过编码器对时间金字塔层级行人历史轨迹进行编码后，由解码器进行解码并自顶向下融合全局运动行为到局部运动行为，生成具有不同分辨率的时间金字塔层级行人未来轨迹；

轨迹融合及判别模块，用于将具有不同分辨率的时间金字塔层级行人轨迹输入融合网络，生成精细化行人未来轨迹，判别器对生成的精细化行人轨迹进行判别；

生成式对抗网络训练模块，用于对生成器和判别器组成的生成式对抗网络进行训练，将训练好的网络模型作为行人轨迹预测模型，对生成式对抗网络进行训练时的损失函数通过以下公式表示：

min_Gmax_DL_avd+L_s+L_f，

L_avd+L_s+L_f来更新优化模型；

行人轨迹预测结果输出模块，用于将预设时间段内的行人历史轨迹输入行人轨迹预测模型中，输出未来预设时间段内精细化行人轨迹预测结果。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-4任一项所述的行人轨迹预测方法。

7.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-4任一项所述的行人轨迹预测方法。