CN113920170A

CN113920170A - 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质

Info

Publication number: CN113920170A
Application number: CN202111405862.9A
Authority: CN
Inventors: 纪庆革; 郭珊珊; 郭佳俊; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-01-11
Anticipated expiration: 2041-11-24
Also published as: CN113920170B

Abstract

本发明涉及行人轨迹预测技术，具体为结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质，其方法包括：获取行人轨迹预测的公开数据集，划分训练集和测试集；对视频数据和行人轨迹数据进行预处理，获得静态场景图像；对静态场景图像语义分割得到语义分割图像；构建行人轨迹时空图，构建每一帧的空间图，将所有时间序列的空间图组成时空图；对静态场景图像和时空图使用不同卷积网络进行特征提取，得到场景特征张量和行人特征张量，融合得到组合特征张量后输入行人轨迹预测模型，预测行人未来的轨迹。本发明能够把场景上下文中包含的语义信息、行人间关系共同建模，并保留行人与场景之间的空间关系，提高了行人轨迹预测精度。

Description

结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质

技术领域

本发明涉及行人轨迹预测技术，特别涉及结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质。

背景技术

为了更好地利用智能科技改变人们的生活，依托于人工智能技术发展起来的智能交通、自动驾驶和智能机器人技术成为了时下的重要攻克点。在这些应用领域中，都需要能够准确地判断现实情形下各种运动物体的运动状态，并能预测出运动物体未来可能的情形，以便更好的选择更加有利的行动。行人轨迹预测是对现实场景进行预测的一个典型问题，它的解决方案能够在稍作调整后应用到如车辆等其他物体的轨迹预测中。

现有的行人轨迹预测方法主要分为基于手工建模的传统方法和基于数据驱动的机器学习方法。

手工方法通过抽象出对行人轨迹影响较大的几种因素，并通过建模来模拟它们对行人行走轨迹的作用，通过对目标行人各指标进行计算得到未来目标行人轨迹的预测结果。其中最经典的传统方法是Helbing提出的社会力模型，他将行人运动的驱使因素分为表示行人自身意愿的“自驱力”和代表自身与外界交互的“社会力”。通过牛顿第二定律和对行人自驱力、行人与行人之间的排斥力、行人与障碍物之间的排斥力的计算，更新行人的速度和坐标以估测行人运动轨迹。

和传统方法相比，基于数据驱动的行人轨迹预测方法具有更强的鲁棒性和泛化能力，通过各式神经网络学习数据中已知的行人运动轨迹来预测未来的行人轨迹坐标。其中的经典方法有Social-LSTM、STGCNN等。数据驱动方法大都关注于如何建模场景上下文约束对行人运动的影响或多个行人之间的社会互动的影响，但是同时考虑建模场景约束和社会关系约束的方法并不多。现有的一些结合方法中也仅仅采用一些如SR或者在网络最后一层进行简单连接的方式，不能在建模行人社会关系的同时保持场景与行人之间的空间关系。

同时，广泛应用的使用LSTM网络进行行人轨迹预测方法是通过上一时间的行人坐标作为输入的一部分，逐步预测下一时间的行人坐标，这会造成位移偏差的积累而降低准确度。大部分建模行人社会关系的网络也仅仅能建模目标行人与周围行人之间的关系，而忽略了远处行人的影响，并不能较好的建模全局上的行人社会关系。

总的来说，现有技术中关于行人轨迹预测的方法多专注于建模行人与行人之间的社会关系，一些考虑静态场景对行人轨迹影响的研究仅仅是使用简单的卷积-池化操作直接提取视频中某帧图片的特征向量，再和学习到的行人特征向量做简单的连接用以后续的预测网络。这些方法不能够保留行人当前位置和静态场景之间的空间对应关系，也不能完全把场景与行人位置关系和行人与行人之间社会关系共同提取并适配于后续的预测工作。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供能够同时考虑到静态场景信息和行人之间社会关系，并且结合了时序网络和图卷积网络的行人轨迹预测方法、系统及存储介质，适用于复杂场景下行人未来轨迹的预测。

本发明的轨迹预测方法通过下述技术方案实现：结合场景上下文和行人社会关系的行人轨迹预测方法，包括以下步骤：

S1、获取关于行人轨迹预测的公开数据集，其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表；

S2、划分训练集和测试集；

S3、数据预处理，对于视频数据，获取每段不同视频中抹去运动行人后对应的静态场景图像；对于行人轨迹数据，根据时间帧进行采样，得到统一帧间隔和帧数的轨迹，并对不同数据集中行人坐标尺度进行归一化；

S4、对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中，并对得到的图像进行统一调整，得到语义分割图像；

S5、构建行人轨迹时空图，使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图，并将行人轨迹中所有时间序列的空间图组成时空图，用来表示轨迹中行人与行人之间的社会关系；

S6、分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取，得到场景特征张量和行人特征张量，再使用特征融合方法得到最后的组合特征张量；

S7、预测行人轨迹，先对预测网络进行训练，得到训练好的行人轨迹预测模型并保存；再把组合特征张量输入行人轨迹预测模型，预测行人未来的轨迹。

本发明结合场景上下文和行人社会关系的行人轨迹预测系统，包括：

数据获取模块，用于获取关于行人轨迹预测的公开数据集，其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表；

数据集划分模块，用于划分训练集和测试集；

数据预处理模块，对于视频数据，获取每段不同视频中抹去运动行人后对应的静态场景图像；对于行人轨迹数据，根据时间帧进行采样，得到统一帧间隔和帧数的轨迹，并对不同数据集中行人坐标尺度进行归一化；

语义分割模块，用于对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中，并对得到的图像进行统一调整，得到语义分割图像；

时空图构建模块，用于构建行人轨迹时空图，使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图，并将行人轨迹中所有时间序列的空间图组成时空图，用来表示轨迹中行人与行人之间的社会关系；

特征提取与特征融合模块，用于分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取，得到场景特征张量和行人特征张量，再使用特征融合方法得到最后的组合特征张量；

行人轨迹预测模块，先对预测网络进行训练，得到训练好的行人轨迹预测模型并保存；再把组合特征张量输入行人轨迹预测模型，预测行人未来的轨迹。

本发明的存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由计算机处理器执行时，用于实现本发明行人轨迹预测方法的各步骤。

本发明相对于现有技术具有如下的优点及效果：

1.本发明提出的结合场景上下文和行人社会关系的行人轨迹预测方法，能够把场景上下文中包含的语义信息、行人与行人之间关系共同建模，并保留行人与场景之间的空间关系，取得了提高行人轨迹预测精度的效果。

2.在本发明中，利用行人位置对应的语义标签和行人坐标共同构建时空图的顶点，并在考虑时空图连接关系时同时考虑行人之间物理距离和语义标签差距，这使得本发明能够联合建模场景中所有行人社会关系和行人与场景之间语义关系，对行人轨迹的预测精度高。

3.在提取场景上下文信息时，本发明没有直接使用视频数据中截取的图像帧作为场景图象信息，而是使用算法提取出消除了视频中所有运动物体而得到的静态场景背景图像；同时，在本发明中使用场景图像的语义分割图帮助构建时空图得到行人特征张量，使用场景图像本身进行场景特征提取。这些设计使得本发明中提取出的场景特征张量以及后续使用方式更加贴近真实需求，符合客观逻辑。

4.本发明通过特征融合的方法，在用场景特征张量和行人特征张量进行融合时考虑了行人和场景之间的空间位置关系，带来了能够充分利用场景上下文信息、行人社会关系、空间信息共同帮助细化预测的技术效果。

5.在本发明中采用TCN网络通过观察到的轨迹数据一次性预测未来时间段内的所有轨迹坐标，而不是使用RNN或者LSTM将上一时间点坐标作为输入逐次得到下一时间点的坐标，具有能有效消除误差累积的优点。

附图说明

图1是本发明的行人轨迹预测方法流程图；

图2是本发明行人轨迹预测过程中的数据处理过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1、2所示，本实施例中，行人轨迹预测方法具体包括以下步骤：

S1、获取关于行人轨迹预测的公开数据集，其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表。

S2、划分训练集和测试集。为了保证静态场景数据对训练好的网络模型起到一定的作用，静态场景信息能够被有效用于行人轨迹的预测，要求测试集所用的视频数据有一部分对应不同时间段但同一场景的视频段存在于训练集中,即对应的测试集和训练集来自具有同一场景的视频的不同时间段，每个视频中有一部分数据在训练集中，一部分数据在测试集中；本实施例中，一共有五个视频，训练数据和测试数据划分的比例为8：2。

S3、进行数据预处理。对于视频数据，使用KNN算法获取每段不同视频中抹去运动行人后对应的静态场景图像；对于行人轨迹数据，根据时间帧进行采样，得到统一帧间隔和帧数的轨迹，并对不同数据集中行人坐标尺度进行归一化。

在数据预处理过程中，对视频数据进行静态场景提取时，先使用KNN算法对视频进行动态对象和静态场景划分，得到静态场景图像，对得到的静态场景图像进行图像过滤处理，并通过不断调整过滤算法中的过滤阈值以保证运动物体在划分后的静态场景图象中留存的噪声和阴影影响最小；再对得到的静态场景图像进行图像处理，消除行人所在区域存留的阴影和椒盐噪声，得到剔除了所有动态行人之后该视频对应的静态场景图象I。

对记载了每个时间帧上所有行人坐标点的行人轨迹数据表，以每m帧作为间隔等距采样，再根据行人在n个采样点上构成的轨迹线性程度提取出非线性的行人轨迹坐标，以此作为行人轨迹预测的坐标数据集，其中行人轨迹坐标的计算公式如下：

其中{X,Y}指行人的世界坐标轨迹序列，T₁和T_pre分别指轨迹开始和结束的时间；

分别指第i个行人在t时间的x坐标和y坐标，t指行人所在的时间帧，i指该行人的编号，N指轨迹中所有行人的总数，T_1～pre指轨迹中的时间帧。本实施例中时间采样间隔m取值为10，每条行人坐标轨迹对应的时间帧长度T_1～pre取值为15，即n取值为15。

S4、对静态场景图像进行语义分割。对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中，并对得到的图像进行统一调整，得到分割后的场景语义图像，即语义分割图像。

本实施例中，使用预训练好的Fast-SCNN网络作为语义分割网络，对提取出的静态场景图像进行分辨率统一调整后，输入Fast-SCNN网络中进行语义分割，并把得到的分割图调整回原来的图片大小，得到语义分割图像I’。

S5、构建行人轨迹时空图。使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图，并将行人轨迹中所有时间序列的空间图组成时空图，用来表示轨迹中行人与行人之间的社会关系。具体包括以下步骤：

S51、设t时刻的时间帧一共有N个行人，以行人的坐标位置

和语义分割图像I’中行人所在坐标位置

对应的语义标签

构成空间图的顶点集：

V_t＝{V_t ⁱ|i＝1，2......N}

顶点集中每个顶点

包含一个行人坐标位置及其所在位置对应的语义标签

S52、以i、j顶点是否有连接关系作为空间图的边集

构建t时刻对应的二维空间图G_t；若i、j顶点对应的行人之间的最短距离d(v_i,v_j)小于等于确定阈值D，则认为i、j顶点之间具有连接关系，

否则

为了衡量两个顶点i、j之间的相关性，对每条边

计算权重值：

其中

指边

对应的权重值，

指顶点

和顶点

的连接边。

S53、对时间0→T所有时刻的行人信息都构造相应的二维空间图G_0～T，则得到时空图G。

S6、特征提取和特征融合。分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取，得到场景特征张量和行人特征张量，再使用特征融合方法得到最后的组合特征张量。

对于静态场景图像，使用在imageNet上预训练好的VGGNet-19作为特征提取网络，把每个视频数据对应的静态场景图像I输入网络进行特征提取，得到场景特征向量Feature_scene。

S61、特征提取的过程包括：对于时空图，使用图卷积神经网络作为特征提取网络。对于一个时空图G中t时刻对应的空间图G_t，其中有顶点集V_t＝{V_t ⁱ|i＝1，2......N},边集

对空间图G_t中的每个顶点

进行图卷积操作：假设B(v_i)＝{v_j|d(v_i,v_j)≤D}为顶点

的邻接节点集，Ω作为对应B(v_i)的候选节点集，则图卷积操作公式为：

其中p(·)为采样函数，σ为激活函数，l(即英文字母L的小写)表示网络层数。每个空间图G_t的每个顶点

在进行图卷积操作后得到长度为P的特征向量

则T序列长度的行人轨迹时空图对应了大小为T×N×P的行人时空图特征向量{FeatureG}。

S62、特征融合的过程包括：建立一个和静态场景图像I大小相同的空间张量V_t，把每个行人的特征张量

按照坐标位置嵌入V_t中，并与场景特征张量Feature_scene连接得到张量FeatureV_t＝V_t+Feature_scene。把FeatureV_t添加到行人特征张量

中作为残差，得到最后的组合特征张量

S7、预测行人轨迹。先对预测网络进行训练，使用轨迹坐标的负对数似然估计作为损失函数，在训练过程中以最小化损失函数为目的进行反向传播和参数迭代得到训练好的行人轨迹预测模型并保存；再把组合特征张量输入行人轨迹预测模型，预测行人未来的轨迹；最后把真实轨迹和预测轨迹进行计算分析，得到模型准确率。

本实施例中，使用时间卷积神经网络TCN作为轨迹预测网络，TCN接受经特征融合产生后的组合特征张量

并将时间维度视为特征通道，由一系列残差连接的CNN组成，输出一系列的行人未来轨迹坐标

其中，行人未来轨迹是一个遵循以下规律的双变量高斯分布：

其中，

表示t时间第i个行人的位置，

和

分别表示第i行人在t时刻的x坐标和y坐标，

为高斯分布函数，

分别为分布的均值、方差和偏移值，T_pre为轨迹长度，N为轨迹中行人总数。TCN轨迹预测网络中使用所预测的行人未来轨迹坐标

的负对数似然估计作为损失函数。

除了本实施例提及的方式外，还能做如下变换：使用其他算法消除视频中的运动行人而得到静态场景图片，并在其他流程采用和本实施例相同或相似的行人轨迹预测方法；使用其他语义分割方法作为提取静态场景语义分割图像的手段，并在其他流程采用和本实施例相同或相似的行人轨迹预测方法等。

实施例2

本实施例与实施例1基于相同的发明构思，所提出的行人轨迹预测系统具体包括：

数据集划分模块，用于划分训练集和测试集；为了保证静态场景数据对训练好的网络模型起到一定的作用，静态场景信息能够被有效用于行人轨迹的预测，要求测试集所用的视频数据有一部分对应不同时间段但同一场景的视频段存在于训练集中,即对应的测试集和训练集来自具有同一场景的视频的不同时间段，每个视频中有一部分数据在训练集中，一部分数据在测试集中；

实施例3

与实施例1基于相同的发明构思，本实施例提供一种存储介质，存储介质上存储有计算机可执行指令，当计算机可执行指令由计算机处理器执行时，用于实现实施例1的行人轨迹预测方法。其中，存储介质可以是任何各种类型的存储器设备或存储设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.结合场景上下文和行人社会关系的行人轨迹预测方法，其特征在于，包括以下步骤：

S2、划分训练集和测试集；

2.根据权利要求1所述的行人轨迹预测方法，其特征在于，步骤S3在数据预处理过程中，对视频数据进行静态场景提取时，先使用KNN算法对视频进行动态对象和静态场景划分，得到静态场景图像，对得到的静态场景图像进行图像过滤处理，并通过不断调整过滤算法中的过滤阈值以保证运动物体在划分后的静态场景图象中留存的噪声和阴影影响最小；再对得到的静态场景图像进行图像处理，消除行人所在区域存留的阴影和椒盐噪声，得到剔除了所有动态行人之后该视频对应的静态场景图象。

3.根据权利要求1所述的行人轨迹预测方法，其特征在于，步骤S3在数据预处理过程中，对记载了每个时间帧上所有行人坐标点的行人轨迹数据表，以每m帧作为间隔等距采样，再根据行人在n个采样点上构成的轨迹线性程度提取出非线性的行人轨迹坐标，以此作为行人轨迹预测的坐标数据集。

4.根据权利要求3所述的行人轨迹预测方法，其特征在于，步骤S3中行人轨迹坐标的计算公式如下：