CN115861383A

CN115861383A - 一种拥挤空间下多信息融合的行人轨迹预测装置及方法

Info

Publication number: CN115861383A
Application number: CN202310125822.1A
Authority: CN
Inventors: 王庆伟; 王程; 邱鹏飞; 张巍; 温竹华; 李�杰; 陈上远; 任学百
Original assignee: Shanxi Qingzhong Technology Co ltd
Current assignee: Shanxi Qingzhong Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-03-28
Anticipated expiration: 2043-02-17
Also published as: CN115861383B

Abstract

本发明提供了一种拥挤空间下多信息融合的行人轨迹预测装置及方法，属于计算机深度学习技术领域；解决了传统静态场景特征提取难的问题；包括如下步骤：构建历史轨迹提取模块对原始数据集进行预处理，获取某对象的历史坐标点位；构建道路特征提取模块对静态场景中的道路特征进行提取；构建行人社交池模块模拟邻居的位置距离和运动方向特征对人体运动的影响；构建端点条件预测模块在数据集中提取历史轨迹以及轨迹的终点位置；预测模块将上述四个模块所提取到的特征，在通道上采用concat方式融合起来，得到包含了道路特征、社交特征、目标终点特征的融合特征向量，将融合特征向量传入神经网络中，预测某对象下一步的位置；本发明应用于行人轨迹预测。

Description

一种拥挤空间下多信息融合的行人轨迹预测装置及方法

技术领域

本发明提供了一种拥挤空间下多信息融合的行人轨迹预测装置及方法，属于计算机深度学习技术领域。

背景技术

行人轨迹预测在实际生活中有着相当大的作用，在深度学习崛起的背景条件下，计算机对于图像、文本的理解上了一个新高度，自动驾驶以及近期的具有社会意识的机器人，比如无人餐车、无人送货车逐渐走进人们的生活。自动驾驶最重要的目标就是避免交通事故，保障乘车人员和行人的安全。对于自动驾驶而言，对周围环境的目标检测是最基础的一步。记录目标检测的历史结果，并通过算法分析、预测未来短时间内汽车周围目标的运动轨迹。自动驾驶汽车根据预测结果提前调整自己的行驶方向以及速度，从而提高了自动驾驶的安全性与灵活性。行人轨迹预测对预防拥挤场景下的踩踏事件也有帮助，通过行人轨迹预测，分析踩踏趋势，提前做出预警，能够减少踩踏事件的发生。因此预测行人轨迹是非常必要的。

行人轨迹预测是一个序列生成问题，通过历史运动信息，预测未来一段时间内的行人坐标。这需要模型对行人运动信息有很好的总结能力。最初的行人轨迹预测模型是直接将原始坐标点输入Lstm网络，这样做非常简单，但准确度不够，因为往往实际行人的轨迹会受到诸多因素的影响。

行人轨迹预测目前存在以下三种挑战：

1.动态场景：动态场景包括了其他行人、自行车、车辆等目标，当目标行人与周围的行人对向行走时，会产生避让行为，行人通过调整自己的行走轨迹避免与其他行人相撞。

2.静态场景：静态场景非常复杂，包括人行道、草坪、路口等，人们更倾向于在道路上行走，而不是草地。

3.主观意图：行人行走轨迹通常与其目的地相关联，通常情况下，行人会选择距离目的地最短的路径。

最初的行人轨迹预测模型尝试用手工设计的方法来解决动态场景问题，通过速度、距离、方向的公式设计，来分析行人之间的相互影响，这种手工设计的方式非常繁琐，并且灵活性不够。随着Lstm、RNN等时序深度学习网络兴起，行人轨迹预测不再需要进行复杂的手工设计，而是让模型从大量的数据中学习到动态场景中的隐含信息。Social-Lstm为每一位行人分配了一个lstm，并设计了一个社交池化层将一定范围内对象的状态联系起来，以解决动态场景中人与人的交互问题。随后的研究中，尝试了不同的社会信息模型，比如SS-LSTM中的圆形占用图以及角度行人网格（APG）。MI-LSTM中通过手工标记道路关键点的方式，尝试解决静态场景的问题，但这种方式容易使模型混淆真实目标和道路关键点，并且灵活性低，需要对不同场景中的障碍物进行标注。随后出现的“next”模型，采用一个多任务的模型，尝试将人的主观意图作用轨迹预测上，活动预测任务辅助行人轨迹预测任务，使模型可以在多条路径中选出最优路径。

在处理时序问题时，大多采用的lstm、RNN等时序网络模型，而时序网络模型的特点是：下一个时刻的输出结果，需要等待上一个时刻的输出共同计算得出。因此导致采用Lstm、RNN网络的行人轨迹预测模型预测速度慢，在实时性要求很高的自动驾驶中，可能会因为实时性不高而产生不可弥补的错误，并且这种通过上一次输出结果计算下一个输出的模型容易出现“错误累积”现象。

发明内容

本发明为了解决传统静态场景特征提取难的问题，提出了一种拥挤空间下多信息融合的行人轨迹预测装置及方法。

为了解决上述技术问题，本发明采用的技术方案为：一种拥挤空间下多信息融合的行人轨迹预测装置，包括多GPU服务器，所述多GPU服务器上设置有多个处理器、显卡和显存，所述多GPU服务器连接行人轨迹监测摄像头或视频终端；

所述多GPU服务器上搭载有多信息融合的行人轨迹预测方法的计算机程序，所述处理器用于执行上述多信息融合的行人轨迹预测方法的计算机程序，所述多信息融合的行人轨迹预测方法包括历史轨迹提取模块、道路特征提取模块、行人社交池模块和端点条件预测模块、预测模块，所述历史轨迹提取模块用于获取目标对象的历史坐标点，所述道路特征提取模块用于将静态场景中的道路特征提取出来，所述行人社交池模块用于对人与人之间的互动进行捕捉和模拟，所述端点条件预测模块用于提取目标对象的历史轨迹和轨迹的终点位置，所述预测模块用于预测目标对象的下一步行动轨迹。

一种拥挤空间下多信息融合的行人轨迹预测方法，包括如下步骤：

S1：构建历史轨迹提取模块对原始数据集进行预处理，获取某对象的历史坐标点位；

S2：构建道路特征提取模块对静态场景中的道路特征进行提取；

S3：构建行人社交池模块：通过社会影响因子模型捕捉人与人之间复杂和微妙的互动，利用社会影响因子图来汇集附近人群的隐藏状态，模拟邻居的位置距离和运动方向特征对人体运动的影响；

S4：构建端点条件预测模块：所述端点条件预测模块在数据集中提取历史轨迹以及轨迹的终点位置，在训练阶段，通过两个编码器，一个用于历史轨迹编码，另外一个用来终点位置的编码，把这两个编码器所得到的结果融合起来，输入到潜在编码器Elatent中，用来得到VAE的均值和方差，再通过得到的均值和方差得到潜在的未来终点样本，将得到的未来终点样本和编码后的历史轨迹再拼接起来，送入到潜在解码器Dlatent中得到最终的预测的终点；

S5：预测模块：所述预测模块采用焦点注意力机制，将上述历史轨迹提取模块、道路特征提取模块、行人社交池模块、端点条件预测模块所提取到的特征，在通道上采用concat方式融合起来，得到包含了道路特征、社交特征、目标终点特征的融合特征向量，将融合特征向量传入神经网络中，预测某对象下一步的位置。

所述历史轨迹提取模块对原始数据集进行预处理，获取某对象历史坐标点位，其中原始数据集每间隔设定时间进行一次标注导致很多点位的缺失，采用线性插值法，对缺失帧的数据进行补齐，然后每隔10帧取一个点位，通过前8个点位，预测未来12个点位。

所述步骤S2提取道路特征的具体过程如下：

S2.1：首先传入数据集原始帧，通过角点检测方法检测出行人，并对噪声进行剔除；

S2.2：然后通过光流对角点进行跟踪，得到视频中对象的行走轨迹；

S2.3：对光流跟踪到的行人轨迹图，进行核密度估计，得到平滑的道路特征图；

S2.4：将得到的平滑的道路特征图作为标签，用来训练道路特征提取网络，得到一个训练后的道路特征。

所述步骤S3中社会影响因子模型采用社会影响因子图池化层对邻居的位置距离和运动方向特征赋予不同的权重，其中社会影响因子图池化层在边长为L的方形网格中，表示邻居的隐藏状态，边长L的方形网格限定了对当前目标行人产生影响的范围；

社会影响因子图的网格数为n，在每个时间步长t中，所有的邻居Om都有自己的位置向量P，位置向量P采用独热编码的表示形式，大小为n*1，表示Om在社会影响因子图中的位置，位置向量P的每个元素表示Om与目标行人的相对位置，若邻居Om存在于任何网格中，则P向量对应元素被设为1，否则为0；

位置向量P仅包含邻居的相对位置信息，根据内外层赋不同权重，计算目标行人与邻居行人在t时刻的方向角，得到为位置向量P维度相同的方向向量D，将位置向量P与方向向量D融合得到向量H，向量H包含了相邻行人的在t时刻的隐藏状态。

所述社会影响因子图的n个网络中目标行人和邻居对向而行时，通过计算邻居与目标行人的方向角，依据方向角设置不同的权重，面向目标行人的邻居，且处于近距离影响的网格，影响因子较大，分配以更大的权重，处于远距离影响的邻居或方向角偏离目标行人的邻居，影响因子小，分配权重更低。

所述预测模型采用卷积神经网络，网络输入8个坐标位置，以及8个位置的道路信息、社交信息、姿势信息，首先将8个坐标信息，编码为64*1的向量，便得到了8*64*1的二维网格，将其余特征resize到8*64*1，采用concat方式进行融合最终得到8*64*4；

然后进行带padding的卷积，使输入维度输出维度保持不变，经过一个上采样层将8变为16，然后逐渐下采样到12，得到维度为12*64*4，最终输出12个预测点，完成预测。

所述端点条件预测模块在预测阶段，将直接从正态分布中去样本，并且与编码后的历史轨迹再拼接起来，将编码后的历史轨迹和编码后的端点融合，送入主干网络中。

本发明相对于现有技术具备的有益效果为：本发明采用一种通过拥挤空间的行人轨迹自动提取静态场景特征的方法来解决传统静态场景特征提取难的问题，并提出一种社交池化层解决行人之间的动态交互问题，使用端点VAE对行人目的地进行建模，提高模型预测准确度。预测采用卷积神经网络，提高了模型的并行能力，预测速度比传统模型更快。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明行为轨迹预测装置的结构示意图；

图2为本发明行人轨迹预测方法的流程图；

图3为本发明道路特征提取模块的结构示意图；

图4为行人互动的四个示例场景示意图；

图5为本发明社会影响因子图的示意图；

图6为本发明行人社交池模块中将位置向量P与方向向量D融合得到向量H的过程示意图；

图7为本发明端点条件预测模块的结构示意图。

具体实施方式

本发明提出了一种拥挤空间下多信息融合的行人轨迹预测装置，如图1所示，包括多GPU服务器，所述多GPU服务器上设置有多个处理器、显卡和显存，所述多GPU服务器连接行人轨迹监测摄像头或视频终端；

本发明的工作均部署在一个多GPU的服务器上，该服务器配备了四个内核数为16的英特尔至强E5-2683 V4处理器，内存大小为512GB；配备了8块英伟达GTX2080的显卡（GPU），共88GB显存。服务器运行在CentOS 7.7.1908的操作系统上。使用的编程语言为Python，涉及的深度学习平台是Pytorch。

本发明还提出了一种在拥挤空间场景下使用卷积神经网络进行多信息融合的行人轨迹预测方法，所要解决的问题是：1.在行人轨迹预测领域，采用卷积神经网络可以容易的进行并行化计算，大大提高预测速度。2.融合更多影响行人轨迹的因素特征，用来提高行人轨迹预测的可靠性。3.削弱传统的时序模型预测所产生的错误累积现象。基于静态场景和动态场景的挑战，本发明融合多种信息以提升轨迹预测的准确性，这其中包括行人历史轨迹信息、道路场景信息、人与人之间的交互信息。

本发明所提出的方法采用卷积神经网络进行预测。卷积运算的计算效率高，可以高度并行化。因此卷积神经网络可以一次性输出所有预测坐标，可以削弱“错误累积”现象，这是时序模型无法做到的，本发明使用卷积神经网络来处理时序的行人轨迹预测问题。

本发明的方法将在卷积神经网络来处理行人轨迹预测的基础上，增加处理静态场景、动态场景以及端点VAE模块。本发明利用拥挤空间的场景特点，使用一个可训练的卷积神经网络来生成道路特征，这样做的好处是，能够根据不同的场景来拟合出道路信息，提升模型对不同道路环境的适应能力。本发明还设计了一个社会影响图来解决动态场景问题，将目标行人的邻居放在一个网格内，并根据不同的情况分配对应的影响权重。端点VAE通过数据集的历史轨迹以及行人行走的端点来生成一个端点的分布，然后将其应用在预测过程中，根据端点反过来推断行走轨迹。

本发明提出的基于卷积神经网络的拥挤空间下多信息融合的行人轨迹预测方法，如图2所示，包括如下模块：

模块1：历史轨迹提取模块

该模块对原始数据集进行预处理，获取某对象历史坐标点位。原始数据集，每0.4s进行一次标注，这其中导致很多点位的缺失。首先采用线性插值法，对缺失帧的数据进行补齐，然后每隔10帧取一个点位，以确保当前场景对象的数据来自同一帧，然后通过前8个点位，预测未来12个点位。

以zara1数据集为例，该数据集一共包含148条行人轨迹，每0.4s进行一次标注，由于本发明需要使用8个位置预测未来的12个位置，因此训练阶段一次需要使用到20个点。而数据集大部分行人轨迹不满足此要求，并且所标注的标签大多不保持在同一帧，因此需要对原始数据集进行插值、统一帧的操作。

首先为每个行人分配一个id以便后续操作，然后采用线性插值法，对缺失帧的数据进行补齐（假设，某人标签帧从1开始，到256结束，仅对其中9帧进行标注，采用线性插值将256帧的数据全部补齐），然后每隔10帧取一个点位，以确保当前场景对象的数据来自同一帧，然后通过前8个点位，预测未来12个点位。

模块2：道路特征提取模块

由于静态场景，如人行道、草坪对行人轨迹预测有着较大影响，人往往更倾向于在道路上走路，而不是草坪，因此需要在原始的轨迹信息模块之上，加入道路特征，使得预测的轨迹受到道路限制，不至于预测到人行道路之外，或障碍物之中。该模块是一个可训练的道路特征提取网络，以应对不同场景，其结构如图3所示。

①首先传入数据集原始帧，通过角点检测方法（Shi-Tomasi角点检测、Harris角点检测）检测出行人，由于焦点检测不是直接对人进行识别，因此角点检测出的点并不一定都是行人，这些点通常是一些静止的背景，需要对这种噪声进行剔除。

②然后通过光流（Optical Flow）对角点进行跟踪，得到视频中对象的行走轨迹。由于数据集获取自拥挤空间，因此大量的行人轨迹便可以粗略的描述道路轮廓。

③对光流跟踪到的行人轨迹图，进行核密度估计（KDE），得到平滑的道路特征图。

④将得到的平滑的道路特诊图作为标签，用来训练道路特征提取网络，这样便能得到一个训练后的道路特征。

上述道路特征提取模块的理论基础如下：

①光流

光流是由观察者和场景之间的相对运动引起的视觉场景中物体、表面和边缘的运动模式。一般而言，光流是由于场景中前景目标本身的移动、观测者运动，或者两者的共同运动所产生的。光流在很多领域中都被用到，例如视频中的运动目标检测，视频压缩等等。

在分析光流时，需要用到两个重要假设：

1.对象的像素强度在连续帧之间不会改变。

2.相邻像素具有相似的运动。

下面运用这两个假设来推导光流公式。光流法实际是通过检测图像像素点的强度随时间的变化进而推断出物体移动速度及方向的方法。假设该移动很小，那么可以根据泰勒级数得出：

；

；/>

。

求解光流方程有很多方法，其中最著名的便是Lucas-Kanade方法。它应用了之前提到的第二个假设，即所有相邻像素都将具有相似的运动。对于每一个像素，Lucas-Kanade方法选取与它相邻的8个像素进行分析。根据假设，所有9个像素都有相同的运动。所以现在需要求解只有2个未知变量的9个方程组。这样的方程组没有唯一解，这里本发明使用最最小二乘拟合方法获得一个最优近似解。

②核密度估计

统计学中，核密度估计，即Kernel Density Estimation，用以基于有限的样本推断总体数据的分布，因此，核密度估计的结果即为样本的概率密度函数估计，根据该估计的概率密度函数，就可以得到数据分布的一些性质，如数据的聚集区域，由此得到平滑的道路特征图。

模块3：行人社交池模块（社会影响因子池化）

在拥挤的空间中，人们很容易受到周围行人动作的影响。为避免与人相撞，行人会改变自己的移动方向。如图4所示为行人互动的四个示例场景。黑色三角形和浅灰色三角形分别表示目标行人的历史轨迹和预期的一步未来位置；其他颜色的三角形，表示其他行人的历史轨迹；三角形较小的角，指示行人运动的轨迹方向。(4a)表示没有对向行人的运动场景；因此，预计目标是线性前进的。在(4b)中，存在“有人从我的左前方接近我”的运动场景，这将影响目标向右走，以避免可能发生的碰撞。在(4c)和(4d)中，出现了“我右边的人即将从我身边经过”的另一种运动场景；因此，目标行人向左走。

行人社交池模块通过社会影响因子模型捕捉人与人之间上述复杂和微妙的互动，利用社会影响因子图来汇集附近人群的隐藏状态，模拟邻居的位置距离和运动方向等特征对人体运动的影响。社会影响因子图如图5所示。

每个社会影响因子图都有16个网格，内外两层有不同的语义描述，图（5c）所示，内外层所表达的含义是“近距离影响”、“远距离影响”。图（5a）中黑色的行人为当前目标，其他处于网格的邻居，视为对目标行人有影响力的人。邻居整体上分为两类，一类为“同向行走”，一类为“对向行走”，该模块认为，邻居的运动方向和距离，对于目标行人的运动轨迹起着至关重要的影响。目标行人和邻居同向行走，此时邻居对目标行人的轨迹影响小，应当分配更低的权重，再根据L、C表示远距离跟随者以及近距离跟随者。目标行人和邻居对向而行时，目标行人避让的可能性更大，通过计算邻居与目标行人的方向角，依据方向角设置不同的权重，面向目标行人的邻居，且处于网格C，影响因子较大，分配以更大的权重，处于L的邻居或方向角偏离目标行人的邻居，影响因子小，分配权重更低。

社会影响因子图池化层，在边长为L的方形网格中，表示邻居的隐藏状态，边长L的方形网格限定了对当前目标行人产生影响的范围。社会影响因子图的网格数为16。在每个时间步长t中，所有的邻居Om都有自己的位置向量P，位置向量P采用独热编码的表示形式，大小为16*1，表示Om在社会影响因子图中的位置。位置向量P的每个元素表示Om与目标行人的相对位置，若邻居Om存在于任何网格中，则P向量对应元素被设为1，否则为0。

位置向量P仅包含邻居的相对位置信息，根据内外层赋不同权重，计算目标行人与邻居行人在t时刻的方向角，得到为位置向量P维度相同的方向向量D。将位置向量P与方向向量D融合得到向量H，它包含了相邻行人的在t时刻的隐藏状态，其过程如图6所示。

模块4：端点条件预测模块（Endpoint VAE模块）

VAE（variational autoencoder）是一个产生式模型，可以产生看起来像本发明的训练数据的样本。VAE将会提供一个空间，称之为潜在空间（latent space），可以从中采样出一些点。任何这些点都可以被解码器解码成一个合理的类似输入的图像。

端点条件预测模块图如7所示。首先在数据集中提取历史轨迹以及轨迹的终点位置，如图（7a）是提取的历史轨迹，图（7b）的黑色点是提取的端点。在训练阶段，有两个编码器，一个用于历史轨迹编码，另外一个用来终点位置的编码，对应图中Trajectoriesencoding和endpoint encoding。把这两个编码器所得到的结果融合起来，输入到潜在编码器Elatent中，用来得到VAE的均值和方差，再通过得到的均值和方差得到潜在的未来终点样本Z，将得到的Z和编码后的历史轨迹再拼接起来，送入到潜在解码器Dlatent中得到最终的预测的终点。注意红色部分仅用于训练阶段，因为预测期间，是无法得到行人轨迹端点的。如果是在预测（验证）阶段，将直接从正态分布中去样本Z，并且与编码后的历史轨迹再拼接起来，因为再验证阶段是无法得到行人轨迹的终点的。将编码后的历史轨迹和编码后的端点融合，送入主干网络中。

模块5：预测模块

该模块采用了Focal Attention注意力机制。将以上4个模块所提取到的特征，在通道上采用concat方式融合起来，得到融合特征向量Q，它包含了道路特征、社交特征、目标终点特征，

，M代表融合的特征数量，T_obs代表历史轨迹长度，d代表编码器将轨迹点进行编码后的大小。qt是一个重要的参与特征向量，它总结了输入特征Q中的显著线索。采用了一个有效的焦点注意Focal Attention，它最初被提议对一系列图像进行多模态推理，用于视觉问题的回答。其关键思想是将多个特征投射到一个相关的空间中，在这个空间中，区分特征可以更容易地被注意机制捕捉到。为此，本发明在每个时刻t处计算一个相关矩阵/>

，其中每个条目/>

都是使用点积相似性来度量的，/>

表示t-1时刻下行人的预测位置，T表示矩阵的转置，/>

表示融合后的特征向量，其中i，j代表矩阵下标，：代表从该维度提取所有元素的切片操作符。然后计算两个注意矩阵：

；

A矩阵通过max函数，对相关矩阵S每一行取最大值，再由softmax函数进行归一化，其中

表示t时刻相关矩阵第i行的所有元素，：表示从该维度提取所有元素的切片操作符。B矩阵通过softmax函数，对相关矩阵S的每一行进行归一化，然后拼接而成，/>

代表矩阵S的第一行所有元素，/>

代表矩阵S的第M行所有元素。

最后，参与的特征向量由下式表示：

；

表示通过注意力机制计算所得到的低维特征向量，/>

代表注意矩阵A在t时刻的第j个元素，/>

代表注意矩阵B在t时刻的第j行第k列的元素，/>

代表融合特征向量。

如上所述，焦点注意力模型建立了不同特征之间的相关性，并将其归纳为一个低维参与向量。之后将qt传入网络中，以预测下一步的位置。该模块采用卷积神经网络，网络输入8个坐标位置，以及8个位置的道路信息、社交信息、姿势信息，首先将8个坐标信息，编码为64*1的向量，便得到了8*64*1的二维网格。将其余特征resize到8*64*1，采用concat方式进行融合最终得到8*64*4。然后进行带padding的卷积，使输入维度输出维度保持不变，经过一个上采样层将8变为16，然后逐渐下采样到12，得到维度为12*64*4，最终输出12个预测点，完成预测。

关于本发明具体结构需要说明的是，本发明采用的各部件模块相互之间的连接关系是确定的、可实现的，除实施例中特殊说明的以外，其特定的连接关系可以带来相应的技术效果，并基于不依赖相应软件程序执行的前提下，解决本发明提出的技术问题，本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及，由上述技术特征带来的常规使用方法、可预期技术效果，除具体说明的以外，均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容，或属于本领域常规技术、公知常识等现有技术，无需赘述，使得本案提供的技术方案是清楚、完整、可实现的，并能根据该技术手段重现或获得相应的实体产品。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种拥挤空间下多信息融合的行人轨迹预测装置，其特征在于：包括多GPU服务器，所述多GPU服务器上设置有多个处理器、显卡和显存，所述多GPU服务器连接行人轨迹监测摄像头或视频终端；

2.一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：包括如下步骤：

3.根据权利要求2所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述历史轨迹提取模块对原始数据集进行预处理，获取某对象历史坐标点位，其中原始数据集每间隔设定时间进行一次标注导致很多点位的缺失，采用线性插值法，对缺失帧的数据进行补齐，然后每隔10帧取一个点位，通过前8个点位，预测未来12个点位。

4.根据权利要求2所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述步骤S2提取道路特征的具体过程如下：

5.根据权利要求2所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述步骤S3中社会影响因子模型采用社会影响因子图池化层对邻居的位置距离和运动方向特征赋予不同的权重，其中社会影响因子图池化层在边长为L的方形网格中，表示邻居的隐藏状态，边长L的方形网格限定了对当前目标行人产生影响的范围；

6.根据权利要求5所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述社会影响因子图的n个网络中目标行人和邻居对向而行时，通过计算邻居与目标行人的方向角，依据方向角设置不同的权重，面向目标行人的邻居，且处于近距离影响的网格，影响因子较大，分配以更大的权重，处于远距离影响的邻居或方向角偏离目标行人的邻居，影响因子小，分配权重更低。

7.根据权利要求3所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述预测模型采用卷积神经网络，网络输入8个坐标位置，以及8个位置的道路信息、社交信息、姿势信息，首先将8个坐标信息，编码为64*1的向量，便得到了8*64*1的二维网格，将其余特征resize到8*64*1，采用concat方式进行融合最终得到8*64*4；

8.根据权利要求2所述的一种拥挤空间下多信息融合的行人轨迹预测方法，其特征在于：所述端点条件预测模块在预测阶段，将直接从正态分布中去样本，并且与编码后的历史轨迹再拼接起来，将编码后的历史轨迹和编码后的端点融合，送入主干网络中。