CN110781838B

CN110781838B - 一种复杂场景下行人的多模态轨迹预测方法

Info

Publication number: CN110781838B
Application number: CN201911033767.3A
Authority: CN
Inventors: 刘洪波; 张睿; 杨丽平; 江同棒; 张博; 李鹏; 帅真浩; 马茜; 林正奎
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-05-26
Anticipated expiration: 2039-10-28
Also published as: CN110781838A

Abstract

本发明公开了一种复杂场景下行人的多模态轨迹预测方法，包括以下步骤：使用视觉几何组16层卷积神经网络进行图片特征提取；使用全连接层对轨迹数据进行特征处理；输入轨迹数据特征向量VS进入生成对抗网络完成编码解码网络功能；输入图片特征数据及轨迹特征数据至物理、社会注意力模块考虑地形限制及行人交互；通过更新完的生成器部分得到更好的轨迹生成预测结果；得到的稳定轨迹预测模型SPM。本发明可以有效的提高预测的精度，并且可以生成多条合理的预测轨迹，不仅能根据原始图片的特征信息提取到相关地形限制信息，而且能够考虑到同一复杂场景下不同行人之间的社交交互情况。本发明能够更加快速和准确地预测行人未来轨迹。

Description

一种复杂场景下行人的多模态轨迹预测方法

技术领域

本发明涉及一种多模态轨迹预测技术，特别是一种复杂场景下行人的多模态轨迹预测方法。

背景技术

在现代中国社会，随着人口的不断增加，由此而来的复杂情况下的场景也越来越普遍发生，如公园集会、火车站广场、大型演唱会出入口、马拉松体育运动等。这些复杂场景中，我们经常要考虑到行人聚集、分散、避险和排队等不同可能的社交甚至公共安防问题，而在如此广阔复杂场景中，如果只靠人工识别对当前场景进行调控管理的话，效率不免太过低下，极大地影响人群导流速度和安全避让效率。所以，复杂场景下的行人轨迹未来趋势的预测必须紧紧贴近最新技术，通过现行最优的机器学习/深度学习等人工智能相关方法对复杂场景下行人轨迹预测进行处理，得到自动快速高效地预测策略，并且可以实时统计复杂场景下行人或人群的流量，甚至对异常目标行为进行检测报警处理，据此再给出相应地调控管理方法(导流/分流，避让/先行等)，就可以极大地提升公共安全研究与预防的效率，更好地保障公共场所的交通疏散和公共行人的人身安全。

近年来随着计算性能及深度学习的发展，基于数据驱动的建模方式成为研究热点，由于行人轨迹本质上就是一个时序序列，由此也提出了主要以循环神经网络为代表的建模方式。但循环神经网络无法进行高层次的空间关系建模，这种技术不仅难以模拟到行人运动时的可能性的聚集与扩散趋势，而且不考虑整体背景地形因素的限制，极大地制约了预测准确性的提高。通常以循环神经网络为代表的建模方式对于行人未来轨迹预测，一般只给出一种大概平均的轨迹预测结果，考虑不到行人未来趋势的多模态可能，不符合行人行走的客观规律。因此到目前为止，对于复杂场景下行人轨迹预测问题，考虑的总体因素并不全面，使用的对应方法并不是完全针对轨迹预测而准备，导致复杂场景下行人轨迹预测问题准确程度没有得到很好的提升。

发明内容

为解决现有技术存在的上述问题，本发明要提出一种能够在复杂场景下提高行人的轨迹预测精度的并考虑到地形背景和行人交互的复杂场景下行人的多模态轨迹预测方法。

为了实现上述目的，本发明的技术方案如下：一种复杂场景下行人的多模态轨迹预测方法，包括以下步骤：

A、使用视觉几何组16层卷积神经网络进行图片特征提取

视觉几何组16层卷积神经网络把数据集对应的原始背景图片帧作为输入放入端到端的神经网络中进行学习、并把图片数据进行抽象和压缩。具体步骤如下：

A1、输入的不同数据集的原始图片具有不同的分辨率大小，采用函数transforms.Resize(X,224,224)调整到同一尺寸224*224分辨率，其中transforms代表深度学习pytorch框架中图像预处理包模块。

A2、将调整后的同一尺寸的原始图片输入到已经预训练过的视觉几何组16层卷积神经网络中，并对视觉几何组16层卷积神经网络最后一层进行维度微调，编码成特征向量V，使之前的224*224高维度变成512*14*14维度，具体如下式所示：

V＝nn.Sequential(vggmodel()) (1)

其中，nn代表神经网络函数基类名称，Sequential为有序的容器函数，对视觉几何组16层卷积神经网络进行最后一层的维度微调。

A3、对上述特征向量V在时间维度上进行维度合并操作，进行连结操作，得到T*N*196*512的物理地形特征向量Vp，其中T代表时间帧数，N代表当前场景行人数目，具体公式如下：

Vp＝nn.Conv2d(V) (2)

其中，nn代表神经网络函数基类名称，Conv2d为深度学习pytorch框架中的二维卷积神经网络函数。

B、使用全连接层对轨迹数据进行特征处理

对数据集中具有时序依赖关系的连续轨迹数据进行处理，得到目标行人与场景内其他行人的相对位移，将此相对位移数据放入端到端的全连接神经网络层中进行学习，进行对应的特征提取，得到用于行人交互分析的轨迹数据特征向量VS，具体公式如下：

其中，

是通过将行人j关于行人i的相对位移输入到全连接层而获得的固定长度的特征向量，/>

分别代表行人i在时刻t时的x、y坐标，W _fe是全连接层的权重，FC代表全连接神经网络，VS是针对所有时刻t及所有行人的/>

集合的轨迹数据特征向量。

C、输入轨迹数据特征向量VS进入生成对抗网络完成编码解码网络功能

C1、在进入生成器部分的编码网络结构之后，编码后的轨迹数据特征向量进入引入的社会注意力机制单元，编码后的轨迹帧向量特征提取在动态循环单元流程中完成，考虑不同行人之间交互信息，再将之前得到的Vp物理地形特征向量输入到物理注意力机制单元，考虑到地形限制因素，具体公式如下：

其中，

表示在t-1时刻行人i对应的生成器中编码器LSTM的隐藏状态。它包含了用于计算每个/>

的物理地形限制信息和社会行人交互信息。/>

和/>

函数分别代表引入的物理注意力机制模块和社会注意力机制模块，/>

和/>

分别代表物理注意力机制模块及社会注意力模块输出的物理特征向量和社会特征向量。

C2、结合上一步骤得到的物理特征向量

和社会特征向量/>

加入高斯噪声z向量，输入至生成器模块的解码器部分，进行解码处理，将解码后的结果通过全连接层生成预测轨迹，具体公式如下：/>

其中，z是从标准高斯正态分布里取样的噪声向量，LSTM是标准的简单长短期记忆网络，MLP是使用线性整流激活函数的多层感知器。W_decoder和W_mlp分别对应LSTM层和MLP层的权重与偏差。

对应LSTM层生成的预测轨迹隐藏向量，/>

对应生成的预测的x、y坐标数据。

D、将上一步骤生成的预测轨迹数据

输入鉴别器，与真实未来轨迹进行对比验证，并据此按照交叉熵损失函数的大小变化，利用反向传播算法，对生成器部分进行生成器损失参数的更新，使其经过鉴别器得到的误差损失越来越小，之后再通过更新完的生成器部分得到更好的轨迹生成预测结果，重新进行生成、鉴别过程，具体公式如下：

其中，

和Y_i ^t是t时刻生成预测轨迹和真实未来轨迹的行人坐标，h_Di连接所有时刻的/>

Y_Di是分类真/假的结果。W_fc、W_dis和W_mlp分别是FC、LSTM以及MLP三种不同网络的权重。

E、根据最大最小博弈原理，不断依照真实未来轨迹与预测未来轨迹的偏差，更新生成模型的损失参数，直到鉴别器区分不出生成的轨迹与真实未来轨迹的区别时，停止模型训练，将此时得到的最后轨迹预测模型保存为.pt文件，这就是得到的稳定轨迹预测模型SPM。

E1、将用于测试的数据集数据输入上面得到的稳定模型SPM中观察结果，自定义参数K，设置生成器部分生成多少条多模态的轨迹，预测未来最可能的K个时序轨迹序列坐标；

E2、将得到的预测结果根据单应性矩阵将真实世界坐标转换为图片上的像素点坐标，将预测轨迹标注在原始图像上进行可视化，得到多条可行的预测轨迹路线，对行人未来轨迹规划及整体场景的调控起到最大化辅助的作用。

结束。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用的基于生成对抗网络的方法预测的轨迹更加符合物理约束和社会规范，且通过生成器的采样可以产生多条合理的轨迹。故本发明借助生成对抗网络的思想，并使用注意力机制来融合行人之间的相对位置信息进而对行人交互进行建模。实验表明该方法可以有效的提高预测的精度，并且可以生成多条合理的预测轨迹。与现有的社会生成对抗网络、长短期记忆网络方法相比，本发明不仅能根据原始图片的特征信息提取到相关地形限制信息，而且能够考虑到同一复杂场景下不同行人之间的社交交互情况。相比较固定的卷积循环网络结构,本发明使用的生成对抗网络不仅在结构上以及空间数据预测更新上有很大改进，而且能根据训练数据不断学习到预测时应当考虑到的所有特征参数，减少了特征冗余，能够更加快速和准确地预测行人未来轨迹。

2、本发明采用生成对抗网络的方式，其最大最小博弈框架能根据设定的不同给定参数，生成多条可能地未来预测轨迹。这样生成的多模态的轨迹预测更加符合行人行走地客观规律，提高了模型的泛化能力。

附图说明

图1是物理注意力模块结构图。

图2是社会注意力模块结构图。

图3是针对行人的多模态预测结果可视化图之一。

图4是针对行人的多模态预测结果可视化图之二。

图5是针对行人的多模态预测结果可视化图之三。

图6是针对行人的多模态预测结果可视化图之四。

图7是本发明的流程框架图。

具体实施方式

下面结合附图对本发明再进行进一步地描述。按照图7所示的流程对复杂场景下行人轨迹预测的方法来介绍。

如图1所示，首先将数据集对应的原始背景图片帧作为输入放入视觉几何组16层卷积神经网络中进行学习及编码，得到隐藏的地形特征向量。将此物理地形特征向量输入到物理注意力模块，对其进行均值操作后再用双曲正切激活函数进行数据处理，使用全连接层进行维度对接后，与原始的物理地形特征向量连结起来，再过一层全连接网络进行维度转换后，进行归一化指数操作，与前面使用全连接层更改维度后的物理地形特征向量进行点乘，将点乘结果在特定维度上相加，得到需要的物理地形限制信息。

如图2所示，再将数据集中具有时序依赖关系的连续轨迹数据处理成相对位移数据，放入端到端的全连接神经网络层中进行学习、并把此相对位移数据进行特征提取。待提取完成轨迹数据特征向量，将其输入社会注意力模块，先通过不同的全连接层与隐藏特征向量进行维度对接，连结以后输入多层感知器网络进行特征嵌入，之后在其特定维度上取最大值，输出得到社会行人交互信息。从而实现了物理地形和行人交互信息的深度提取。

以此类推，直到输入连续轨迹帧在生成网络中训练完成。将得到的生成预测轨迹输入到鉴别器中，不断依照真实未来轨迹与预测未来轨迹的偏差，更新模型参数，得到最后稳定的轨迹预测模型。最后将测试的历史轨迹输入得到的稳定模型中观察结果，将得到的预测数据序列根据单应性矩阵将真实世界坐标转换为图片上的像素点坐标，从而将预测轨迹标注在原始图像上进行可视化，得到多条可行的预测轨迹路线，同时也将行人历史轨迹与真实未来轨迹在原始图片上可视化，方便更清晰地对比预测效果地好坏与多模态预测的实现。本发明具体实施效果如图3-6所示，虚线的起点为预测的目标行人，其历史轨迹为细虚线，接续的粗实线为目标行人未来真实轨迹，使用本发明方法得到的多模态预测轨迹序列为后面多条并排的细实线。图3中目标行人真实轨迹为向上行走，经本发明预测得到的轨迹为向上的一个范围内的多条可行轨迹。图4中目标行人真实轨迹为向右行走，经本发明预测得到的轨迹为向右的一个范围内的多条可行轨迹。图5中目标行人同样向右行走，预测得到的为向右的一个范围内的多条可行轨迹。图6中目标行人真实轨迹为向左行走，经本发明预测得到的真实轨迹为向左的一个范围内的多条可行轨迹。通过图3-6可以看出使用本发明方法得到的预测轨迹序列其运动趋势预测准确且很好的将其未来多条可行的运动轨迹预测出来，从广度上增加了预测的准确性。

本发明不局限于本实施例，任何在本发明披露的技术范围内的等同构思或者改变，均列为本发明的保护范围。