CN114581488A

CN114581488A - 基于第一人称视角视频的行人轨迹预测方法及装置

Info

Publication number: CN114581488A
Application number: CN202210255593.0A
Authority: CN
Inventors: 陈禹行; 董铮; 李雪; 范圣印
Original assignee: Suzhou Yihang Yuanzhi Intelligent Technology Co ltd
Current assignee: Suzhou Yihang Yuanzhi Intelligent Technology Co ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-03

Abstract

本公开提供一种基于第一人称视角视频的行人轨迹预测方法，包括：获取行人的观测轨迹特征；获取行人意图特征；对观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征；将修正观测轨迹特征映射至符合第一预设概率的模型的分布空间，在符合第一预设概率的模型的分布空间中进行采样，获得第一采样数据，将第一采样数据与修正观测轨迹特征进行融合，获得第一采样特征张量；基于第一采样特征张量获得至少一条未来预测轨迹的预测终点；基于第一采样特征张量及至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹。本公开还提供了基于第一人称视角视频的行人轨迹预测装置、电子设备、可读存储介质及计算机程序产品。

Description

基于第一人称视角视频的行人轨迹预测方法及装置

技术领域

本公开涉及自动驾驶技术领域，本公开尤其涉及一种基于第一人称视角视频的行人轨迹预测方法、装置、电子设备、可读存储介质及计算机程序产品。

背景技术

第一人称的行人轨迹预测对自动驾驶车辆的决策控制具有重要的意义。现阶段，自动驾驶车辆一般配备相机传感器，采集车辆周围的高分辨率第一人称视频图像数据。行人属于城市交通中的重要参与者，行人具有复杂的行为，并且自身容易受到伤害，准确预测车载相机第一人称视角下的行人轨迹，有助于车辆提前采取措施，保障行人的生命财产安全，提高驾驶安全系数。

当前自动驾驶车辆中的感知系统，一般集成了相当成熟、稳定的行人检测和跟踪的算法，而第一人称的行人轨迹预测任务可以视为行人检测、跟踪的下游任务。

2018年的《Future person localization in first-person videos》，提出了一个在可穿戴相机拍摄的第一人称视频中预测行人未来位置的框架，穿戴者的自我运动会显著影响视频中的行人位置，而目标行人的尺度与第一人称视角透视原理具有相关性，行人的位姿可以表征其未来的运动，该框架合并了行人尺度、行人位置、行人位姿、自我运动四个信息，达到了较高的性能，但行人位姿信息无法表征复杂的动作语义。

2019年的《Forecasting pedestrian trajectory with machine-annotatedtraining data》，认为基于自动驾驶汽车第一人称视角的行人轨迹预测重要且富有挑战，但其受限于数据集的标注，因此引入了可扩展的机器标注方案来解决缺乏训练数据的问题，使用自动行人检测和跟踪算法来从未标记的数据中学习，以在没有人工标注的情况下生成边界框。此外，提出了动态轨迹预测器(DTP)，基于匀速直线运动模型(CV)和均加速直线运动模型(CA)的初步轨迹，结合连续帧光流特征的修正，预测未来一秒内行人轨迹，但光流计算耗时，不利于实时预测。

2021年的《BiTraP:Bi-Directional Pedestrian Trajectory Prediction withMulti-Modal Goal Estimation》，在条件变分自编码器的框架下，采用门控循环单元(GRU)编码行人的观测轨迹，并设计了基于终点的双向GRU解码器，减少累计误差，在第一人称和第三人称视角下达到了较高的预测精度。但是，循环神经网络的引入，导致无法并行化训练，不具备全局的感受野，此外，仅输入轨迹单模态的信息，无法表征行人复杂的运动。

综上所述可知，现有技术存在如下技术问题：

一是无法高效提取行人观测轨迹特征。行人的轨迹数据具有时序、一维的特点，现有的研究中，多采用循环神经网络、注意力机制进行特征提取。但是，循环神经网络单元需逐时间处理行人轨迹，无法并行化，在训练时效率较低，而且不具备全局感受野。基于自注意力机制的Transformer模型具有更大的网络容量和全局感受野，根据输入的不同，计算出自适应的注意力系数，能灵活应对各种情形的轨迹，但由于轨迹数据具有低维的特点，一般为平面坐标系中的坐标点，基于Transformer的模型容易导致轨迹特征提取网络的过拟合，从而影响网络性能。因此，两种网络结构并非提取轨迹特征的最优选择。

二是观测轨迹特征无法表征行人复杂的行为。第一人称的行人轨迹为坐标表示，观测轨迹序列表明了行人的历史运动趋势，有助于预测其未来轨迹，但是，行人未来运动方向、速度存在突变的可能性，例如突然停止、突然转向，行人同时具有复杂的行为，例如由伫立不动转变为穿越马路等。因此，完全依赖观测轨迹特征的方式会导致在一系列场景下的轨迹预测错误。此类复杂的场景可视为困难样本，在第一人称轨迹预测任务中是一项极大的挑战。

发明内容

为了解决上述技术问题中的至少一个，本公开提供一种基于第一人称视角视频的行人轨迹预测方法、装置、电子设备、可读存储介质及计算机程序产品。

根据本公开的一个方面，提供一种基于第一人称视角视频的行人轨迹预测方法，包括：

基于第一人称视角视频获取行人的观测轨迹，基于行人的观测轨迹获取行人的观测轨迹特征；基于第一人称视角视频获取行人意图特征；

基于所述观测轨迹特征和所述行人意图特征，获取混合特征，基于所述混合特征对所述观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征；

将所述修正观测轨迹特征映射至符合第一预设概率的模型的分布空间，在所述符合第一预设概率的模型的分布空间中进行采样，获得第一采样数据，将所述第一采样数据与所述修正观测轨迹特征进行融合，以获得第一采样特征张量；

基于所述第一采样特征张量获得至少一条未来预测轨迹的预测终点；

基于所述第一采样特征张量及所述至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，基于行人的观测轨迹获取行人的观测轨迹特征，包括：

提取行人的观测轨迹的局部及全局特征以获得在一段连续时间内行人的观测轨迹特征。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，提取行人的观测轨迹的局部及全局特征，包括：

通过线性映射将所述观测轨迹的各个轨迹点的数据表示形式从低维度转换为高维度；

将转换后的高维度表示的轨迹点通过局部特征提取器提取局部特征；

将所述局部特征通过全局特征提取器提取全局特征。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，基于第一人称视角视频获取行人意图特征，包括：

通过视频特征提取网络提取行人在观测轨迹所在的视频帧的时空特征，将所述视频帧的时空特征作为行人的行人意图特征；

其中，所述时空特征为表示是否行动的二分类行人意图特征，所述时空特征通过行动意图识别器的二分类器进行识别，以获得与所述时空特征对应的行人意图类型。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，对所述观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征，包括：

将表示所述行人意图特征的特征张量与表示所述观测轨迹特征的特征张量进行拼接，得到混合特征张量；

将所述混合特征张量输入多层感知机，经所述多层感知机学习，获得表示改进所述行人意图特征的特征张量与所述观测轨迹特征的特征张量关系的控制参数；

基于所述控制参数对所述观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，所述符合第一预设概率的模型的分布空间为服从预设均值及预设方差的多维正态分布空间。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，所述符合第一预设概率的模型的分布空间基于经由行人未来真值轨迹特征及所述结合行人意图的修正观测轨迹特征训练之后的符合第二预设概率的模型的分布空间获得。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，基于所述符合第二预设概率的模型的分布空间获得所述符合第一预设概率的模型的分布空间，包括：

将行人未来真值轨迹特征、所述结合行人意图的修正观测轨迹特征映射为符合第二预设概率的模型的分布空间，通过训练，使得所述符合第二预设概率的模型的分布空间逼近所述符合第一预设概率的模型的分布空间。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，对所述符合第二预设概率的模型进行的训练，包括：

提取行人未来真值轨迹的局部及全局特征；

将所述行人未来真值轨迹的局部及全局特征与所述结合行人意图的修正观测轨迹特征进行拼接之后，输入识别网络，所述识别网络为符合第二预设概率的模型；

通过训练，使得所述符合第二预设概率的模型的分布空间逼近所述符合第一预设概率的模型的分布空间。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，基于所述第一采样特征张量及所述至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹，包括：

基于未来预测轨迹的预测终点，生成未来预测轨迹的中间过程轨迹点；

基于未来预测轨迹的中间过程轨迹点及所述预测终点，生成基于预测终点指导的未来预测轨迹。

根据本公开的至少一个实施方式的基于第一人称视角视频的行人轨迹预测方法，基于未来预测轨迹的预测终点，生成未来预测轨迹的中间过程轨迹点，包括：

对预测终点特征张量进行基于线性映射的升维，获得升维后的预测终点特征张量；

将所述第一采样特征张量与所述升维后的预测终点特征张量进行拼接操作，获得混合轨迹特征；

将所述混合轨迹特征输入至多层感知机中，以获取基于预测终点指导的未来预测轨迹的中间过程轨迹点。

根据本公开的另一个方面，提供一种基于第一人称视角视频的行人轨迹预测装置，包括：

轨迹特征获取模块，所述轨迹特征获取模块基于第一人称视角视频获取行人的观测轨迹，基于行人的观测轨迹获取行人的观测轨迹特征；

行人意图识别模块，所述行人意图识别模块基于第一人称视角视频获取行人意图特征；

轨迹修正模块，所述轨迹修正模块基于所述观测轨迹特征和所述行人意图特征，获取混合特征，基于所述混合特征对所述观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征；

先验网络模块，所示先验网络模块为符合第一预设概率的模型；

采样特征生成模块，所述采样特征生成模块对映射至符合第一预设概率的模型的分布空间的修正观测轨迹特征进行采样，获得第一采样数据，将所述第一采样数据与所述修正观测轨迹特征进行融合，以获得第一采样特征张量；

轨迹终点生成模块，所述轨迹终点生成模块基于所述第一采样特征张量获得至少一条未来预测轨迹的预测终点；

预测轨迹生成模块，所述预测轨迹生成模块基于所述第一采样特征张量及所述至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行本公开的任一个实施方式的行人轨迹预测方法。

根据本公开的又一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开的任一个实施方式的行人轨迹预测方法。

根据本公开的再一个方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开的任一个实施方式的行人轨迹预测方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的一个实施方式的基于第一人称视频的行人轨迹预测方法的流程示意图。

图2是本公开的又一个实施方式的基于第一人称视角视频的行人轨迹预测方法流程示意图。

图3是本公开的一个实施方式的将结合行人行动意图的行动轨迹映射为符合第一预设概率模型或符合第二预设概率模型的分布空间的方法流程示意图。

图4是本公开的一个实施方式的基于意图的轨迹控制与改进方法的示意图。

图5是本公开的一个实施方式的基于第一人称视角视频的行人轨迹预测网络的结构示意图。

图6是本公开的一个实施方式的基于第一人称视角视频的行人轨迹预测装置的结构示意框图。

图7是本公开的又一个实施方式的基于第一人称视角视频的行人轨迹预测装置的结构示意框图。

附图标记说明

1000 行人轨迹预测装置

1002 轨迹特征获取模块

1004 行人意图识别模块

1006 轨迹修正模块

1008 先验网络模块

1010 识别网络模块

1012 采样特征生成模块

1014 轨迹终点生成模块

1016 预测轨迹生成模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施方式将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施方式的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施方式时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本公开使用的术语是为了描述具体实施方式的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

下文结合图1至图7对本公开的基于第一人称视角视频的行人轨迹预测方法、装置、电子设备、可读存储介质及计算机程序产品进行详细说明。

图1是本公开的一个实施方式的基于第一人称视角视频的行人轨迹预测方法的流程示意图。

参考图1，本公开的一个实施方式的基于第一人称视角视频的行人轨迹预测方法S100，包括：

基于观测轨迹特征和行人意图特征，获取混合特征，基于混合特征对观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征；

将修正观测轨迹特征映射至符合第一预设概率的模型的分布空间，在符合第一预设概率的模型的分布空间中进行采样，获得第一采样数据，将第一采样数据与修正观测轨迹特征进行融合，以获得第一采样特征张量；

基于第一采样特征张量获得至少一条未来预测轨迹的预测终点；

基于第一采样特征张量及至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹。

图2是根据本公开的又一个实施方式的基于第一人称视角视频的行人轨迹预测方法的流程示意图。

如图2所示，本公开的基于第一人称视角视频的行人轨迹预测方法S100，可以包括训练阶段和预测阶段。

在训练阶段，通过对视频中若干个视频帧中的行人的观测轨迹、未来真值轨迹及行人行动意图进行训练，以便对观测轨迹的视频帧的后续若干视频帧的行人进行未来的行动轨迹预测。具体的，包括步骤S102和步骤S104。

在步骤S102中，将结合行人行动意图的观测轨迹映射为符合第一预设概率模型的分布空间，其中，结合行人行动意图的观测轨迹通过行人行动意图对观测轨迹修正后生成。

本公开的行人轨迹预测方法的应用场景中的视频包括自动驾驶过程中从行驶中的车辆视角拍摄的第一人称视角视频，例如，自动驾驶车辆配备光学相机实时采集车辆前方的道路及场景图像，场景中存在若干行人(可以是一个行人，也可以是两个以上的行人)。车辆的自动驾驶感知系统中的检测模块可以检测出行人在视频图像中的外接框，自动驾驶感知系统中的跟踪模块可以关联视频不同帧中的同一行人。本公开中的第一人称视角视频数据，优选地，首先经过了检测模块和跟踪模块的预处理，之后通过本公开的行人轨迹预测方法实时地对每一帧中行人第一人称轨迹进行预测。

在本公开中，观测时长可以为0.5秒，预测时长可以为1.5秒，观测时长对应观测轨迹，预测时长在训练时对应未来真值轨迹，预测时长在预测时对应未来预测轨迹。

本公开中，对于行人的运动轨迹，包括观测轨迹、未来真值轨迹、结合行人行动意图的观测轨迹以及后文步骤中涉及的未来预测轨迹，优选地使用统一的轨迹和轨迹中的轨迹点的表示形式。各个轨迹点基于对第一人称视角视频预处理后生成，对于原始的行人外接框坐标(x_lt,y_lt,x_rb,y_rb)，本公开优选地将行人外接框的左上角和右下角坐标转换为中心点坐标、宽、高及其一阶差分，根据归一化的原则，对处理后的坐标除以视频的分辨率，值将坐标值映射在0至1之间，在不同的数据集中，横轴坐标、纵轴坐标除以相应的分辨率值。更具体地，行人i的观测轨迹可以表示为

T表示当前时刻，行人i的未来真值轨迹表示为

其中，观测轨迹点表示为

未来真值轨迹点在训练阶段作为输入时，表示为

在计算误差时，无需进行预处理，因此，表示为

表示行人外接框的中心点坐标值和宽高值，

表示行人外接框的中心点坐标值和宽高值的一阶差分，m为观测帧数，n为预测帧数，本公开中，优选地，m取15，n取45，相关变量计算方式如下：

其中，行人外接框的四个角的对应点在X轴和Y轴的坐标，Xrb表示外接框右下角对应点在X轴坐标值，Xlt表示外接框左上角对应点的X轴坐标值，Yrb表示外接框右下角对应点在Y轴坐标值，Ylt表示外接框左上角对应点在Y轴坐标值。

在步骤S104中，将行人未来真值轨迹、结合行人行动意图的观测轨迹映射为符合第二预设概率模型的分布空间，通过训练，使得第二预设概率模型的分布空间逼近步骤S102中的第一预设概率模型的分布空间。经过步骤S102和步骤S104，完成了第一人称视角视频的行人轨迹训练过程。

在预测阶段，基于行人的观测轨迹、行动意图预测行人的未来运动轨迹。在训练之后，可以对第一人称视角视频的行人轨迹进行预测。预测过程包括步骤S106至步骤S112。

由于在训练过程和预测过程中，都需要对观测轨迹进行编码以生成观测轨迹特征。而训练过程中，还另外需要结合行人未来真值轨迹对观测轨迹进行编码以生成观测轨迹特征(将行人未来真值轨迹、结合行人行动意图的观测轨迹映射为符合预设第二预设概率模型的分布空间)，基于未来真值轨迹的有关数据信息进行对符合第一预测概率模型的分布空间进行调整，使得符合第二预设概率模型的分布空间逼近中的符合第一预设概率模型的分布空间，以便进行未来轨迹预测。因此，图3示出了将结合行人行动意图的行动轨迹映射为符合第一预设概率模型或预设第二预设概率模型的分布空间的方法流程示意图(即：基于意图的行人轨迹编码的方法)，如图3所示，将结合行人行动意图的行动轨迹映射为符合第一预设概率模型或预设第二预设概率模型的分布空间的方法S200，包括以下步骤。

在步骤S201中，提取行人观测轨迹的局部及全局特征。具体地，对于观测轨迹X_traj，首先进行线性映射，将原始的8维输入增强至32维：

其中，

表示线性层与ReLU激活函数。而后，进行轨迹局部特征提取：

其中，

为局部特征提取器，本公开优选地采用1D卷积实现，卷积核大小为5，为了保持特征张量的维度不变，设置Padding大小为2，1D卷积层数为4。局部特征提取器提取连续5帧的轨迹点，相较于原始的轨迹序列，局部的特征包含了轨迹更高层的语义信息，利于后续的特征提取过程，降低了训练的难度。而后，将轨迹局部特征

输入到全局特征提取器，进行全局特征提取：

其中，

为全局特征提取器，本公开采用多层感知机实现。先将轨迹局部特征

改变为1维尺寸，而后经过多层感知机的处理，编码为256维的特征张量

全局特征提取器将完整的行人轨迹编码为一段固定的特征张量，提取到了行人在一段连续时间内的轨迹特征，即包含了运动方向、速度等。多层感知机对局部特征的处理具有全局的感受野，不同时刻、不同通道的局部轨迹全连接，充分挖掘了轨迹序列坐标所蕴含的内在联系。

在步骤S202中，提取基于视频的行人行人意图特征。具体地，可以选用一般的视频特征提取网络，例如TCN、TSM、TEA等，提取行人当前视频帧的时空特征，并基于行人的过街意图识别数据集进行预训练，使得网络提取能够影响行人轨迹的潜在因素，例如行人细腻的动作特征，例如步态、身体动作、头部转向等，最终，将行人过街意图二分类前的特征张量C_multi作为行人行人意图特征，特征张量C_multi经二分类器分类后，得到的类别分别对应各个行动姿态的是否具有过街意图。本实施方式的视频特征提取网络，提取行人的时空特征，并根据行人过街意图识别的数据集，预训练视频特征提取网络，将行人过街意图二分类前的特征张量作为行人意图特征，根据意图特征控制与改进观测轨迹特征，达到更鲁棒的特征提取效果。

在步骤S203中，基于行人的意图特征，改进和控制行人的观测轨迹特征。如图4所示，基于行人行动意图的轨迹控制与改进方法示意图。具体地，行人的意图特征包含更为丰富的细节，且具有单一轨迹点坐标无法表征的语义，因此，通过行人行人意图特征，可以控制与改进观测轨迹特征张量

达到鲁棒的编码效果。对于意图二分类层前的行人的意图特征张量C_multi，将C_multi与观测轨迹X_traj编码的特征张量

进行拼接(Concat)操作，得到混合的特征张量

利用多层感知机学习C_multi与

的控制和改进关系，以加强行人行人意图特征的合理性，如下式所示：

其中，多层感知机的输出C_multi,X的维度与

相同，经过Sigmoid激活函数，将C_multi,X映射至[0,1]范围内，如下式所示：

β＝Sigmoid(C_multi,X)

最后，控制变量β(即：β作为改进所述行人意图特征的特征张量与所述观测轨迹特征的特征张量关系的控制参数)与观测轨迹编码的特征张量

进行哈达玛积(Hadamardproduct)，控制变量β作为掩码改变原有的

中的值，以达到控制和改进轨迹特征的效果，如下式所示：

在步骤S204中，通过先验网络，将行人的观测轨迹特征映射为服从均值为

方差为

的多维正态分布P(即第一预设概率模型)。具体地，先验网络P(Z|X,C)基于行人的轨迹信息以及意图信息，拟合隐空间张量Z的概率分布，而条件X,C等价于修正的轨迹特征

在本公开中，给定一个强假设，先验网络P(Z|X,C)生成服从均值为

方差为

的多维正态分布。由于无法直接通过修正的轨迹特征计算均值与方差，采用神经网络模型代替计算：

首先，将修正的轨迹特征

输入到多层感知机中，输出64维的特征张量，分为两部分，分别是32维的均值

和32维的方差

在步骤S205中，判断是否处于训练阶段，若未处于训练阶段(即处于推理阶段)，那么跳转至步骤S206，若处于训练阶段，则跳转至步骤S207。

在步骤S206中，输出正态分布的均值、方差以及行人的观测轨迹特征。具体地，输出先验网络P(Z|X,C)所映射的多维正态分布(即第二预设概率模型)的均值

方差

以及观测轨迹特征

在步骤S207中，提取行人未来真值轨迹的局部及全局特征。具体地，对于行人未来真值轨迹Y_traj，首先进行线性映射，将原始的8维输入增强至32维：

其中，

表示线性层与ReLU激活函数。而后，进行轨迹局部特征提取：

其中，

为局部特征提取器，本公开采用1D卷积实现，卷积核大小为5，为了保持特征张量的维度不变，设置Padding大小为2，1D卷积层数为4。局部特征提取器提取连续5帧的轨迹点，并抽象出局部的特征。而后，将轨迹局部特征

输入到全局特征提取器，进行全局特征提取：

其中，

改变为1维尺寸，而后经过多层感知机的处理，将完整的行人未来轨迹编码为256维的特征张量

在步骤S208中，通过识别网络，将行人的观测轨迹特征映射为服从均值为μ_Zq、方差为

的多维正态分布Q。识别网络Q(Z|X,Y,C)基于行人未来轨迹真值信息、观测轨迹信息、意图信息，拟合隐空间张量Z的概率分布。其中，未来轨迹真值Y_traj经过局部及全局特征提取器编码为

而观测轨迹信息和意图信息转化为修正的轨迹特征

将

与

进行拼接(Concat)操作得到

作为识别网络的输入。与先验网络类似，在本公开中，识别网络强假设为服从均值为μ_Zq、方差为

的正态分布，采用神经网络模型代替计算：

具体地，将

输入到多层感知机中，输出64维的特征张量，分成两部分，分别是32维的均值

和32维的方差

在步骤S209中，通过KLD损失函数，使得正态分布P逼近于正态分布Q。具体地，为了使得先验网络P(Z|X,C)表征出正确的概率分布，将P(Z|X,C)逼近识别网络Q(Z|X,Y,C)，利用KLD损失函数进行训练，如下式：

Loss_KLD＝D_KL(Q(Z|X,Y,C)||P(Z|X,C))

在步骤S210中，输出正态分布的均值、方差以及结合行人的观测轨迹特征。具体地，输出先验网络所映射的正态分布Q(Z|X,Y,C)的均值μ_Zq、方差

以及观测轨迹特征

在步骤S106中，将结合行人行动意图的观测轨迹映射为符合第一预设概率模型的分布空间，在第一预设概率模型的分布空间中采样，获得第一采样数据。

在步骤S108中，将第一采样数据与结合了行人行人意图特征的观测轨迹特征进行拼接，形成第一采样特征张量。

步骤S106和步骤S108的具体实施中，在隐空间(第一预设概率模型的分布空间)中进行采样，并融合行人的轨迹特征。具体地，在测试阶段(即预测阶段)，直接在先验网络的隐空间张量Z_p中采样K次，获得K个采样变量

将

与修正的轨迹特征

进行拼接(Concat)，得到采样特征张量

对应地，在训练阶段时，通过在识别网络的隐空间张量Z_q中采样K次，获得K个采样变量

将

与修正的观测轨迹特征

进行拼接(Concat)操作，即得到的采样特征张量为

在步骤S110中，将第一采样特征张量输入轨迹终点生成器，生成未来预测轨迹中的预测终点，未来预测轨迹包括多个预测终点。根据采样特征张量，生成行人未来的多轨迹的终点。具体地，首先，对于给定的采样特征张量

通过轨迹终点生成器，生成未来轨迹的终点。本公开中，轨迹终点生成器由多层感知机实现：

其中，多层感知机的输出维度为4，分别代表未来轨迹终点矩形外接框的中心点坐标以及宽、高值，表示为

在条件变分自编码器的框架下，对隐空间采样K次，经过轨迹终点生成器后会得到K个终点。由于生成轨迹的终点直接决定中心点位移误差CFDE，且明显影响过程轨迹的生成，为了提高网络对生成终点的准确程度，且保证生成的终点具有多样性，而非趋同，因此，在损失函数中，加入最优终点损失一项，如下所示：

其中，在宽松的策略下，选取K个终点中最接近真值

的一个以计算Loss_endpont。

在步骤S112中，基于各个预测终点，生成各个预测终点之间的中间过程轨迹点，由中间过程轨迹点和预测终点共同构成未来预测轨迹。基于预测终点指导，生成行人未来的中间过程轨迹。具体地，基于采样特征张量和预测终点，全连接式地生成过程轨迹，最大程度减小累积误差，实现并行化未来轨迹生成，增强生成的过程轨迹间的相关性，每个过程轨迹点均具有全局的感受野。

首先，将终点坐标

经过线性映射进行升维增强，如下式所示：

采样特征张量

中包含了修正的轨迹特征与隐空间张量，将

与增强的终点特征

进行拼接(Concat)操作，得到混合轨迹特征

如下式所示：

而后，将混合轨迹特征

输入至多层感知机中，直接解码出基于终点指导的未来的轨迹，即中间过程轨迹，如下式所示：

为了约束预测的中间过程轨迹

设置过程轨迹的损失函数，采用宽松的策略，仅选用与真值过程轨迹

差距最小的损失值进行梯度回传，如下式所示：

需要说明的是，在上述步骤S102到步骤S112的各个步骤，观测轨迹、未来真值轨迹是从包含行人运动的视频帧中提取的行人的运动轨迹，未来真值轨迹对应的视频帧在观测轨迹对应的视频帧的序列之后，观测轨迹、未来真值轨迹或结合行人行动意图的观测轨迹通过各个轨迹中的多个轨迹点的组合表示，轨迹中的各个轨迹点通过基于行人在视频帧中的位置及覆盖行人边界的外接矩形的尺寸表示。

图5是根据本公开的一个实施方式的基于意图的第一人称视角行人轨迹预测网络的结构示意图。

如图5所示，基于意图的第一人称视角行人轨迹预测网络结构，包括：

多模态行人意图识别网络，接多模态信息作为输入，提取基于视频的行人行人意图特征作为输出，其中，行人行动意图包括多种。具体地，多模态信息以视频帧序列为代表，多模态信息还可以包括自车速度、行人轨迹、位姿等。具体地，该识别网络可以选用一般的视频特征提取网络，例如TCN、TSM、TEA等，通过提取行人当前视频帧的时空特征，并基于行人的过街意图识别数据集进行预训练，使得行人意图网络提取能够影响行人轨迹的潜在因素，例如行人细腻的动作特征，例如步态、身体动作、头部转向等，再融合其他模态特征，最终，将行人过街意图二分类前的特征张量C_multi作为行人行人意图特征。

局部及全局轨迹特征提取器，接收表示观测轨迹X_traj或未来真值轨迹Y_traj的数据，提取局部特征，并基于局部特征提取全局特征并输出。本实施方式的局部及全局轨迹特征提取器，首先通过低计算成本对行人的局部轨迹进行特征提取，捕捉短时间间隔内行人的轨迹属性，而后用全局特征提取器，在全感受野下，对完整的行人特征进行编码，得到轨迹特征张量。

轨迹控制与改进模块，接收表示行人行动意图的数据和表示观测轨迹的数据，基于行人行人意图特征修正观测轨迹并输出，输出结合行人行动意图的运动轨迹。

先验网络模块，接收轨迹控制与改进模块输出的结合行人行人意图特征的观测轨迹，将行人的观测轨迹特征映射为服从均值为

方差为

的多维正态分布P。在本实施方式中，给定一个强假设，先验网络P(Z|X,C)生成服从均值为

方差为

首先，将修正的轨迹特征

和32维的方差

输出正态分布的均值、方差以及行人的观测轨迹特征。具体地，输出先验网络P(Z|X,C)所映射的多维正态分布的均值

方差

以及观测轨迹特征

识别网络模块，通过识别网络，将行人的观测轨迹特征映射为服从均值为μ_Zq、方差为

的多维正态分布Q。识别网络Q(Z|X,Y,C)基于行人未来轨迹真值信息、观测轨迹信息、行动意图信息，拟合隐空间张量Z的概率分布。其中，未来轨迹真值Y_traj经过局部及全局特征提取器编码为

而观测轨迹信息和意图信息转化为修正的轨迹特征

将

与

进行拼接(Concat)操作得到

的正态分布，采用神经网络模型代替计算：

具体地，将

和32维的方差

此时，通过KLD损失函数，使得正态分布P逼近于正态分布Q，以便完成训练，进而通过已经训练的基于意图的第一人称视角行人轨迹预测结构进行轨迹预测。具体地，为了使得先验网络P(Z|X,C)表征出正确的概率分布，将P(Z|X,C)逼近识别网络Q(Z|X,Y,C)，利用KLD损失函数进行训练，如下式：

Loss_KLD＝D_KL(Q(Z|X,Y,C)||P(Z|X,C))

轨迹终点生成器，在先验网络模块生成的数据空间中采样，基于采样数据，生成未来预测轨迹中的预测终点，未来预测轨迹包括多个预测终点。具体地，在测试阶段，直接在先验网络的隐空间张量Z_p中采样K次，获得K个采样变量

将

与修正的轨迹特征

进行拼接(Concat)，得到采样特征张量

根据采样特征张量，生成行人未来的多轨迹的终点。具体地，首先，对于给定的采样特征张量

通过轨迹终点生成器，生成未来轨迹的终点。本公开中，轨迹终点生成器可以由多层感知机实现：

优选地，多层感知机的输出维度为4，分别代表未来轨迹终点矩形外接框的中心点坐标以及宽、高值，表示为

其中，在宽松的策略下，选取K个终点中最接近真值

的一个以计算Loss_endpont。

过程轨迹生成器，基于各个所述预测终点，生成各个预测终点之间的中间过程轨迹点，由所述中间过程轨迹点和所述预测终点共同构成未来预测轨迹。即：基于终点指导，生成行人未来的中间过程轨迹。具体地，基于采样特征张量和预测终点，全连接式地生成过程轨迹，最大程度减小累积误差，实现并行化未来轨迹生成，增强生成的过程轨迹间的相关性，每个过程轨迹点均具有全局的感受野。首先，将终点坐标

经过线性映射进行升维增强，如下式所示：

采样特征张量

中包含了修正的轨迹特征与隐空间张量，将

与增强的终点特征

进行拼接(Concat)操作，得到混合轨迹特征

如下式所示：

而后，将混合轨迹特征

为了约束预测的中间过程轨迹

差距最小的损失值进行梯度回传，如下式所示：

需要说明的是，本实施方式中的相关模块涉及的技术实施细节，与本公开的基于第一人称视角视频的行人轨迹预测方法中对应，此处不再赘述。

本实施方式采用的基于条件变分自编码器框架，具体为基于条件变分自编码器的多轨迹预测框架。条件变分自编码器的实现思路，将输入映射为正态分布，而后在正态分布采样，得到多种输出，刚好符合“输入一条轨迹，输出多种可能轨迹”的应用场景需求。需要说明的是，本实施方式中基于条件变分自编码器框架，更换为生成对抗网络也可以实现多轨迹的预测。

本实施方式提供的基于第一人称视角视频的行人轨迹预测网络结构，网络架构分为编码器、解码器两个阶段。在编码器阶段，将输入映射为隐空间张量的概率分布，而解码器通过在隐空间张量中的多次采样，使得网络具备生成多种未来轨迹的能力。由于低维的轨迹特征无法表征行人复杂的行为，而行人的意图特征会显著影响行人的轨迹，因此，本文根据基于视频数据提取的行人意图特征，改进和控制观测轨迹特征，以提高轨迹预测的精度。

根据本公开的一个实施方式的基于第一人称视角视频的行人轨迹预测装置1000，包括：

轨迹特征获取模块1002，轨迹特征获取模块1002基于第一人称视角视频获取行人的观测轨迹，基于行人的观测轨迹获取行人的观测轨迹特征；

行人意图识别模块1004，行人意图识别模块1004基于第一人称视角视频获取行人意图特征；

轨迹修正模块1006，轨迹修正模块1006基于观测轨迹特征和行人意图特征，获取混合特征，基于混合特征对观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征；

先验网络模块1008，先验网络模块1008为符合第一预设概率的模型；

采样特征生成模块1012，采样特征生成模块1012对映射至符合第一预设概率的模型的分布空间的修正观测轨迹特征进行采样，获得第一采样数据，将第一采样数据与修正观测轨迹特征进行融合，以获得第一采样特征张量；

轨迹终点生成模块1014，轨迹终点生成模块1014基于第一采样特征张量获得至少一条未来预测轨迹的预测终点；

预测轨迹生成模块1016，预测轨迹生成模块1016基于第一采样特征张量及至少一条未来预测轨迹的预测终点，生成至少一条基于预测终点指导的未来预测轨迹。

其中，本公开的基于第一人称视角视频的行人轨迹预测装置1000可以完全通过计算机软件程序架构的方式实现，参考图6，也可以基于采用处理器的硬件架构实现。

根据本公开的又一个实施方式的基于第一人称视角视频的行人轨迹预测装置1000，包括：

轨迹特征获取模块1002，从行人运动轨迹中提取局部特征，基于局部特征提取全局特征。

行人意图识别模块1004，包含行人运动的视频帧中提取与行人运动轨迹对应的行人的行人意图特征。

轨迹修正模块1006，将表示行人运动轨迹的局部及全局特征结合行人的行动意图进行修正，获得修正后的行人运动轨迹。

先验网络模块1008，将结合行人行动意图的观测轨迹映射为符合第一预设概率模型的分布空间。

识别网络模块1010，将行人未来真值轨迹、结合行人行动意图的观测轨迹映射为符合预设第二预设概率模型的分布空间，通过训练，使得第二预设概率模型的分布空间逼近第一预设概率模型的分布空间。

采样特征生成模块1012，在第一预设概率模型的分布空间中采样，获得第一采样数据，将第一采样数据与结合了行人行人意图特征的观测轨迹特征进行拼接，形成第一采样特征张量。

轨迹终点生成模块1014，将第一采样特征张量输入轨迹终点生成模块，生成未来预测轨迹中的预测终点，未来预测轨迹包括多个预测终点。

预测轨迹生成模块1016，基于各个预测终点，生成各个预测终点之间的中间过程轨迹点，由中间过程轨迹点和预测终点共同构成未来预测轨迹。

本实施方式的基于第一人称视角视频的行人轨迹预测装置也可以通过计算机软件程序架构的方式实现，也可以如图7所示，采用处理器的硬件架构实现。

本公开提供的基于意图的第一人称视角视频行人轨迹预测方法及装置，采用视频特征提取网络，提取车载相机拍摄的高分辨率视频中行人的时空特征，根据行人过街意图识别的数据集，预训练视频特征提取网络，将行人过街意图二分类前的特征张量作为行人意图特征。基于条件变分自编码器的框架，根据行人的观测轨迹和意图特征，预测行人多种可能的未来轨迹。在编码器中，设计了局部及全局轨迹特征提取器，并设计了基于意图的轨迹控制与改进模块，其通过行人潜在的意图，调整控制观测轨迹特征，以应对更为复杂的行人运动语义。在解码器中，生成未来轨迹的终点，并在终点的指导下解码过程轨迹，防止误差累积。

本公开的基于第一人称视角视频的行人轨迹预测装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种基于第一人称视角视频的行人轨迹预测方法，其特征在于，包括：

基于所述第一采样特征张量获得至少一条未来预测轨迹的预测终点；以及

2.根据权利要求1所述的基于第一人称视角视频的行人轨迹预测方法，其特征在于，基于行人的观测轨迹获取行人的观测轨迹特征，包括：

3.根据权利要求2所述的基于第一人称视角视频的行人轨迹预测方法，其特征在于，提取行人的观测轨迹的局部及全局特征，包括：

将转换后的高维度表示的轨迹点通过局部特征提取器提取局部特征；以及

将所述局部特征通过全局特征提取器提取全局特征。

4.根据权利要求2所述的基于第一人称视角视频的行人轨迹预测方法，其特征在于，基于第一人称视角视频获取行人意图特征，包括：

5.根据权利要求2所述的基于第一人称视角视频的行人轨迹预测方法，其特征在于，对所述观测轨迹特征进行修正，获得结合行人意图的修正观测轨迹特征，包括：

将所述混合特征张量输入多层感知机，经所述多层感知机学习，获得表示改进所述行人意图特征的特征张量与所述观测轨迹特征的特征张量关系的控制参数；以及

6.根据权利要求1所述的基于第一人称视角视频的行人轨迹预测方法，其特征在于，所述符合第一预设概率的模型的分布空间为服从预设均值及预设方差的多维正态分布空间。

7.一种基于第一人称视角视频的行人轨迹预测装置，其特征在于，包括：

轨迹终点生成模块，所述轨迹终点生成模块基于所述第一采样特征张量获得至少一条未来预测轨迹的预测终点；以及

8.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至6中任一项所述的行人轨迹预测方法。

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的行人轨迹预测方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述权利要求1至6中任一项所述的行人轨迹预测方法。