CN115690160A

CN115690160A - 一种低帧率视频行人轨迹预测方法与系统

Info

Publication number: CN115690160A
Application number: CN202211433705.3A
Authority: CN
Inventors: 李伟湋; 路玉卿; 钱薇; 高培雪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-02-03
Anticipated expiration: 2042-11-16
Also published as: CN115690160B

Abstract

本发明公开了一种低帧率视频行人轨迹预测方法与系统。该方法包括：获取视频数据集，并进行预处理；统计每帧图像与该帧图像之后数帧图像之间的行人运动方向分布情况；以相邻的两帧为目标，分别提取视频内容特征信息和轨迹点信息，并与运动方向分布信息进行拼接；使用基于MLP的预测模型来输出相邻两帧之间的缺失帧的信息，并补充行人的观测轨迹信息；基于时空亲和力度量计算目标行人受临近行人的交互影响；结合目标行人轨迹点信息以及受邻近行人的交互影响，使用LSTM解码器来输出预测的行人轨迹。本发明考虑了行人的运动方向分布情况，并补全视频中的缺失帧信息，进而使得模型在处理低帧率视频时能够获得更精确的预测结果。

Description

一种低帧率视频行人轨迹预测方法与系统

技术领域

本发明涉及行人轨迹预测领域，具体是一种处理低帧率视频数据的行人轨迹预测学习方法与系统。

背景技术

行人轨迹预测指的是给定一段行人的观测轨迹序列，预测其将来一段时间的运动轨迹序列。行人轨迹预测能够有效降低行人轨迹变化造成的潜在碰撞事故风险，因此对于导航，自动驾驶，智能交通，城市规划等领域都有广泛的应用价值。然而，大多数现有的行人轨迹预测算法都是针对对高帧率视频数据进行处理，但是，在一些特殊情况或极端环境下，难以为模型提供高帧率的清晰视频数据；另一方面，行人的运动方向往往具有很大的不确定性，而大多数现有的行人轨迹预测算法没有考虑到。

发明内容

发明目的：针对现有技术的不足，本发明的目的在于提供一种处理低帧率视频数据的行人轨迹预测方法与系统，用于降低视频帧率不足对模型训练效果的影响，提高模型预测结果的准确性。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种低帧率视频行人轨迹预测方法，包括如下步骤：

(1)获取视频图像数据集，并对视频图像进行预处理，获取视频中行人的观测轨迹序列；

(2)计算每帧图像与该帧图像之后数帧图像之间的行人运动方向分布信息；

(3)以相邻的两帧为目标，分别提取其视频内容特征信息和轨迹点信息，并将提取到的视频内容特征信息，轨迹点信息和运动方向分布信息进行拼接；

(4)使用基于MLP的预测模型来输出相邻两帧之间的缺失帧的信息，并使用生成的缺失帧信息补充行人的观测轨迹序列；

(5)基于补充后的观测轨迹序列计算行人间的时空亲和力，进而得到目标行人受邻近行人的交互影响；

(6)结合目标行人轨迹点信息以及受邻近行人的交互影响，使用LSTM的解码器对行人轨迹进行预测。

进一步地，所述步骤(2)中第t帧图像中第i个行人的运动方向分布信息表示为：

其中s表示角度划分区间数，

表示该行人在t时刻的运动方向分布在第j个角度区间内的概率。

其中

分别表示该行人在t时刻、t+k时刻的位置坐标，t_pred表示预测的时刻数。C(θ,j,s)是一个计数函数，其具体计算方法为：

进一步地，所述步骤(3)中使用卷积神经网络(CNN)来提取行人在视频中的内容特征：对于行人i在t时刻的每个空间位置

从以

为中心的视频中截取一个图像

将

输入到卷积神经网络框架中，计算得出计算得出视觉特征信息

第i个行人的第t帧视频内容特征

其中t_obs表示观测的时刻数。

最终将第t帧图像的内容特征信息，轨迹点信息和运动方向分布信息串联起来，形成图像特征信息。

进一步地，所述步骤(4)中使用三层MLP模型来输出缺失帧的信息，可以表示为：

式中，f_i ^t表示第t帧视频图像和第t+1帧视频图像的特征信息，表示为

W₁，W₂，W₃表示带有ReLU非线性激活函数的三层MLP的权重。用

表示第i个行人在第t帧与第t+1帧中间生成的补充帧上的位置，将补充帧中的轨迹信息插入到观测轨迹序列

中，补充后的观测轨迹由如下公式表示：

进一步地，所述步骤(5)中对于任何第j个行人，将其在第t帧图像中与第i个行人的时空亲和力定义为：

其中

是对空间位置

与

求内积操作，P_t表示第t帧图像中除目标行人外所有行人的集合。采用Softmax方式对内积进行归一化，得到时空亲和力度量。

邻近行人对目标行人i的交互影响向量

如下所示：

其中，N_i(k)表示距离目标行人i最近的k个邻近行人的集合。O_j表示一个长度为k的one-hot向量，只在第j个元素处取1，其余元素取0。

进一步地，所述步骤(6)中的LSTM解码器可以表示为：

其中

表示第i个行人补帧后的观测轨迹序列X_i′中t时刻的轨迹信息和

和交互影响

拼接后的特征信息，

表示预测出的行人轨迹信息，W_l表示模型中的参数。最终的损失函数可表示为

其中n表示场景中的行人总数，

分别表示预测和真实轨迹序列中的坐标值。

基于相同的发明构思，本发明提供的一种低帧率视频行人轨迹预测系统，包括：

预处理模块，用于获取视频图像数据集，进行视频图像数据的预处理，并从视频中提取出行人的观测轨迹序列；

运动方向分布计算模块，用于计算每帧图像与该帧图像之后数帧图像之间的行人运动方向分布信息；

缺失帧补全模块，用于以相邻的两帧为目标，分别提取其视频内容特征信息和轨迹点信息，并将提取到的视频内容特征信息，轨迹点信息和运动方向分布信息进行拼接；以及使用基于MLP的预测模型来输出相邻两帧之间的缺失帧的信息，并生成的缺失帧信息补充行人的观测轨迹序列；

社会交互模块，用于基于补充后的观测轨迹序列计算行人间的时空亲和力，进而得到目标行人受邻近行人的交互影响；

以及预测模块，用于结合目标行人轨迹点信息以及受邻近行人的交互影响，使用LSTM解码器对行人轨迹进行预测。

基于相同的发明构思，本发明提供的一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的低帧率视频行人轨迹预测方法的各个步骤。

有益效果：鉴于大多数现有的行人轨迹预测算法都是针对高帧率视频数据进行处理，但是，在一些特殊情况或极端环境下，难以为模型提供高帧率的清晰视频数据；另一方面，行人的运动方向往往具有很大的不确定性，这种不确定性往往很难用一个具体的方向或数值来表示，而大多数现有的行人轨迹预测算法没有考虑到这种行人运动方向的不确定性。基于这两个问题，本发明提出的低帧率视频行人轨迹预测方法，考虑了行人运动方向分布情况，并将其与视频内容特征信息、轨迹点信息进行融合，以补全低帧率视频中的缺失帧信息，同时还考虑了目标行人受邻近行人的交互影响，使得模型应用在低帧率视频的行人轨迹预测问题中时，能更精确地预测出结果。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，本发明实施例公开的一种低帧率视频行人轨迹预测方法，首先获取视频图像数据集，对视频图像数据进行预处理，获取视频中行人的观测轨迹序列；其次计算每帧图像与该帧图像之后数帧图像之间的行人运动方向分布信息，以相邻的两帧为目标，分别提取其视频内容特征信息和轨迹点信息，并将提取到的视频内容特征信息，轨迹点信息和运动方向分布信息进行拼接；接着使用基于MLP的预测模型来输出相邻两帧之间的缺失帧的信息，并生成的缺失帧信息补充行人的观测轨迹序列；然后基于补充后的观测轨迹序列计算行人间的时空亲和力，进而得到目标行人受邻近行人的交互影响；最后，结合目标行人轨迹点信息以及受邻近行人的交互影响，使用LSTM的解码器对行人轨迹进行预测。本发明在处理低帧率视频的行人轨迹预测项目中，能够获得很好的效果。本发明实施例的各步骤的详细过程如下：

(1)获取视频数据，对视频中的行人观测轨迹进行提取，以便于输入后续的模型中。对行人轨迹预测的问题可以被定义为：在一个场景中，给定场景中n个行人过去的t_obs个坐标，预测出每个行人接下来的t_pred个坐标。假设一个场景中有n个行人，对第i个行人的观测轨迹被定义为：

其中

表示该行人在t₀时刻的位置坐标，该行人的预测行为轨迹为

其中

表示模型预测的该行人在t_obs+1时刻的位置坐标。

(2)使用一个运动方向分布计算模块来计算每帧图像与该帧图像之后数帧图像之间的行人运动方向分布情况。由于行人的运动方向往往具有很大的不确定性，这种不确定性往往很难用一个具体的方向或数值来表示。因此，本发明用了一个数学分布来描述一个行人的预测运动方向。在第t帧图像中，第i个行人的运动方向分布可以表示为：

其中s表示角度划分区间数，

其中C(θ,j,s)是一个计数函数，其具体计算方法为：

(3)本发明实施例主要使用了卷积神经网络(CNN)来提取行人在视频中的内容特征。具体来说，对于行人i在t时刻的每个空间位置

从以

为中心的视频中截取一个图像

我们将

输入到卷积神经网络框架中，输出第i个行人的第t帧视频内容特征

即：

W_conv表示卷积神经网络参数。

(4)在一些特殊情况或极端环境下，难以为模型提供高帧率的清晰视频数据，而不得不使用较低帧率的视频预测行人的移动轨迹。在低帧率视频数据的行人轨迹预测过程中，由于输入的数据信息不足，会对模型最终行人轨迹预测的准确性起到极大的负面作用。为了解决视频帧率不足的问题，我们采用了视频插帧技术，从视频中相邻的两帧中提取特征，来输出两帧间缺失帧的信息。

为了得出缺失帧视频的信息，本发明实施例使用三层MLP模型来输出缺失帧的信息，可以表示为：

式中，W₁，W₂，W₃表示带有ReLU非线性激活函数的三层MLP的权重。

表示第i个行人在第t帧与第t+1帧中间生成的补充帧上的位置。

表示第t帧视频图像和第t+1帧视频图像的特征信息，主要是将这帧图像中的内容特征信息，轨迹点信息和运动方向分布特征信息串联起来，因此f_i ^t可以表示为：

在完成了视频补帧之后，我们将补充帧中的轨迹信息插入到观测轨迹序列

中。补充后的观测轨迹由如下公式表示：

(5)在现实生活中，行人的运动轨迹不仅受到目的地的影响，还会受到与其相邻的其他行人的影响。因此本发明实施例使用了一个社会交互模块来计算目标行人受到一定范围内其他行人的交互影响。社会交互模块主要将行人的位置作为输入，计算每个目标行人受到的邻居行人的交互影响。

社会交互模块主要由两部分组成：时空亲和力部分和局部池化部分。时空亲和力部分主要用于计算第t帧图像中，目标行人与其他行人之间的时空亲和力度量。我们对所有行人的位置进行线性组合，用于衡量每个行人对目标行人影响的大小。对于任何第j个行人，将其在第t帧图像中与第i个行人的时空亲和力定义为：

其中

是对

与

对于局部池化部分，主要考虑到目标行人的运动只会受到邻近行人的交互影响。本发明寻找到每个目标行人的k个距离最近的行人。然后，可以计算得到其他行人对目标行人i的交互影响向量

如下所示：

(6)为了最终得到一个行人的轨迹序列，本发明实施例使用一个LSTM的解码器来将输入的行人特征进行计算，以预测目标行人的未来轨迹。LSTM解码器可以表示为：

其中

表示拼接后的特征信息，

表示预测出的行人轨迹信息，W_l表示模型中的参数。

最终的损失函数可表示为

其中n表示当前场景中的行人总数，||·||₂表示L2范数，

和Y_i分别表示预测和真实的轨迹序列，

分别表示预测和真实轨迹序列中的坐标值。

在完成了模型的训练之后，对于待预测的行人轨迹视频，将其输入到模型中，即可输出目标行人的预测轨迹序列。

基于相同的发明构思，本发明实施例提供的一种低帧率视频行人轨迹预测系统，包括：预处理模块，用于获取视频图像数据集，进行视频图像数据的预处理，并从视频中提取出行人的观测轨迹序列；运动方向分布计算模块，用于计算每帧图像与该帧图像之后数帧图像之间的行人运动方向分布信息；缺失帧补全模块，用于以相邻的两帧为目标，分别提取其视频内容特征信息和轨迹点信息，并将提取到的视频内容特征信息，轨迹点信息和运动方向分布信息进行拼接；以及使用基于MLP的预测模型来输出相邻两帧之间的缺失帧的信息，并生成的缺失帧信息补充行人的观测轨迹序列；社会交互模块，用于基于补充后的观测轨迹序列计算行人间的时空亲和力，进而得到目标行人受邻近行人的交互影响；以及预测模块，用于结合目标行人轨迹点信息以及受邻近行人的交互影响，使用LSTM解码器对行人轨迹进行预测。

基于相同的发明构思，本发明实施例提供的一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述方法的各个步骤。