CN113781527B

CN113781527B - 一种基于多交互时空图网络的行人轨迹预测方法和系统

Info

Publication number: CN113781527B
Application number: CN202111324614.1A
Authority: CN
Inventors: 杨铀; 阚倩; 黄馨圣子; 刘琼
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-08
Anticipated expiration: 2041-11-10
Also published as: CN113781527A; US11495055B1

Abstract

本发明公开一种基于多交互时空图网络的行人轨迹预测方法和系统，属于行人轨迹预测领域。包括：提取各视频帧中各行人的多交互特征；对视频序列中的每一帧，将该帧中每个行人抽象为顶点，各行人和其他行人连接起来作为边，顶点属性为该行人多交互特征，得到多交互时空图网络；对于每个多交互时空图，获取该时空图中每个行人和其他行人的空间依赖关系，通过各行人之间空间依赖关系优化各顶点属性；将同一行人相邻时间点的顶点连接起来，获取行人时间依赖关系，进而推断未来时刻的轨迹。本发明将多交互行人特征作为顶点属性，模拟行人和环境上下文交互，从空间维度考虑了行人之间的交互，从时间维度上考虑行人本身的交互，提升复杂场景中的预测精度。

Description

一种基于多交互时空图网络的行人轨迹预测方法和系统

技术领域

本发明属于行人轨迹预测领域，更具体地，涉及一种基于多交互时空图网络的行人轨迹预测方法和系统。

背景技术

了解人群中的行人行为对于视觉引导应用（如自动驾驶、智能监控系统等）至关重要。对行人轨迹预测的研究最早可以追溯到Helbing和Molnar的Social Forces[1]，这个工作中提出的手工提取的特征模拟了行人之间的排斥效应和吸引效应。最近，许多研究使用深度神经网络来模拟行人之间的相互作用，常用的深度神经网络包括RNN、GAN、GNN、Attention Mechanism等。此外，一些研究认为与上下文的交互作用，在一些复杂场景的预测中起着重要的作用。行人轨迹预测的两个关键技术在于：（1）轨迹是多重交互作用的结果，应该尽可能充分地考虑各种交互因素。（2）需要对这些交互进行建模以充分利用丰富的交互信息。

论文“Spatio-temporal graph transformer networks for pedestriantrajectory prediction”中提出了一种方法，利用Transformer来预测行人轨迹。技术流程如图1所示。主要包括两个部分：时间Transformer和空间Transformer。(1)时间Transformer。时间Transformer模块的输入是行人轨迹特征的一组集合，输出是更新过后的行人轨迹特征。核心技术是利用自注意力机制计算出每个行人对应的query矩阵，key矩阵和value矩阵。然后再利用多头注意力机制，就能够计算出每个行人带有时间依赖关系的注意力权重，进而更新每个行人带有时间依赖关系的轨迹特征。(2)空间Transformer。空间Transformer模块的主要作用是提取行人之间的空间交互。该模块的关键思想就是自注意力机制可以被当作在无向图中传递的信息。因此将同一时刻同一空间内所有行人构成一张图，就可以在这张图上利用空间Transformer更新每个行人带有空间交互的轨迹特征。

但该方法仍然存在如下两个缺点：（1）只考虑了行人之间的交互关系。但是行人的轨迹不止受到其他行人的影响，还会受到环境上下文的影响。例如，行人碰到障碍物会绕开，看到汽车会避让。环境和行人的交互也深刻影响了周围行人，欠缺环境对行人的交互影响，导致在特殊复杂场景下的行人轨迹预测精度低。（2）Transformer对建模行人交互的作用研究得不够深入，尤其是模型中Transformer和图网络结合这一部分得研究还有待加强，对于行人之间的交互影响的模拟不够准确，进一步导致行人轨迹预测精度低。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于多交互时空图网络的行人轨迹预测方法和系统，其目的在于提取更符合行人行走场景的特征，提高行人轨迹预测精度，尤其是复杂室外场景。

为实现上述目的，按照本发明的第一方面，提供了一种多交互行人特征提取方法，对输入视频序列中的每一帧，进行以下操作：通过场景分割和卷积操作，提取该帧的全局上下文特征；通过网格化和位置映射，提取该帧中各行人的局部上下文特征；采用注意力机制融合全局上下文特征和各行人的局部上下文特征，得到该帧中各行人的全局-局部上下文特征；提取该帧中各行人的轨迹特征；拼接该帧中各行人的全局-局部上下文特征和轨迹特征，得到该帧中各行人的多交互特征。

优选地，所述注意力机制如下:

，其中，

表示第

个行人，

表示第

个视频帧，

表示全局-局部上下文特征，

表示全局上下文特征，

表示局部上下文特征，

表示

操作，

表示将每个元素加起来。

有益效果：本发明通过一种新颖的注意力机制，通过

操作为

中每一块局部上下文特征分配自适应权重，并通过

操作得到进一步压缩的全局信息。此外，还通过

来强调局部信息，这样做进一步提升了在一些复杂场景（例如行人和环境交互比较多的场景）中行人轨迹预测的精度。

为实现上述目的，按照本发明的第二方面，提供了一种基于多交互时空图网络的行人轨迹预测方法，该方法包括：S1.采用如第一方面所述的方法，提取各视频帧中各行人的多交互特征；S2.对视频序列中的每一帧，将该帧中每个行人抽象为顶点，各行人和场景中的其他行人连接起来作为边，顶点属性为对应该行人的多交互特征，得到多交互时空图网络；S3.对于每个多交互时空图，获取该时空图中每个行人和其他行人的空间依赖关系，通过各行人之间的空间依赖关系优化各顶点属性；S4.将同一行人在相邻时间点的顶点连接起来，获取每个行人的时间依赖关系，进而推断未来时刻的轨迹。

优选地，步骤S3中，采用GCN衡量行人之间的交互权重，所述GCN中，空间图的权重邻接矩阵

所示：

，其中，

表示时刻，

表示行人序号，

表示行人

和

之间的欧氏距离；顶点特征通过GCN被优化和聚合：

，其中，

表示

的顶点度矩阵，I表示单位矩阵，

表示归一化的拉普拉斯矩阵，

表示学习到的线性变换的权重矩阵，

表示激活函数，

表示GCN过程，

表示第

帧中所有行人的多交互特征。

有益效果：针对现有的空间维度上行人间交互权重的优化问题，本发明通过GCN来完成该优化过程，由于GCN的邻接矩阵采用行人间的距离来计算的，而行人间的距离直接影响了行人间交互的强弱，因此较为准确地衡量了行人间的交互权重。

优选地，在GCN之后，串联Transformer，Transformer的自注意力机制如下：

，其中，

表示query向量，

表示key向量，

是每个query的维数，

表示value向量，

表示注意力头序号，

表示Transformer的自注意力机制过程，

表示多交互特征；多头注意力机制用于通过不同的方面捕获更加丰富的信息：

，其中，

表示注意力的头数，

表示多头注意力机制过程，

表示拼接操作。

有益效果：本发明针对现有的基于图结构的优化方法存在全局信息传递效率低的问题，本发明通过在GCN的基础上结合Transformer，由于Transformer自注意力机制非常适合在顶点之间传输信息，以及它的长距离属性使得从浅层到深层有效地利用全局信息成为可能，因此，Transformer与GCN相结合来优化行人之间的交互权重，更有效地传递全局信息，捕获更丰富的信息，深入挖掘行人之间的交互关系，进而提升行人轨迹预测的准确性。

为实现上述目的，按照本发明的第三方面，提供了一种基于多交互时空图网络的行人轨迹预测系统，该系统包括：计算机可读存储介质和处理器；所述计算机可读存储介质用于存储可执行指令；所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第二方面所述的基于多交互时空图网络的行人轨迹预测方法。

为实现上述目的，按照本发明的第四方面，提供了一种计算机可读存储介质，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行第一方面所述的多交互行人特征提取方法，或者第二方面所述的基于多交互时空图网络的行人轨迹预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

（1）现有技术中通常只使用轨迹特征作为行人特征，导致在一些复杂场景中不能非常精确地预测行人轨迹，本发明提出一种新的行人轨迹特征提取方法，通过引入全局-局部上下文特征，其中，全局上下文特征反映/表征了行人所处的整个场景对行人的交互影响，局部上下文特征反映/表征了行人周围的场景对行人的交互影响，并通过注意力机制来结合局部与全局上下文特征，再结合轨迹特征，得到行人的多交互特征。由于全局-局部上下文特征中包含了行人和环境的交互，提升了在一些复杂场景（例如行人和环境交互比较多的场景）中行人轨迹预测的精度。

（2）行人的轨迹不止受到其他行人的影响，还会受到环境上下文的影响。例如，行人碰到障碍物会绕开，看到汽车会避让。环境和行人的交互也深刻影响了周围行人。但是现有行人轨迹预测方法只考虑了行人之间的交互关系，欠缺环境对行人的交互影响，导致在特殊复杂场景下的行人轨迹预测精度低。本发明提出一种新的行人轨迹预测方法，通过提取多交互行人特征，作为顶点属性，模拟行人和环境上下文的交互，同时，从空间维度考虑了行人之间的交互，从时间维度上考虑行人本身的交互，从而提升了在一些复杂场景中的行人轨迹预测精度。

附图说明

图1是现有技术中利用Transformer来预测行人轨迹方法流程图。

图2是本发明提供的一种基于多交互时空图网络的行人轨迹预测方法流程图。

图3是本发明提供的多交互特征提取过程示意图。

图4是本发明提供的多交互优化过程示意图，其中，点表示行人，点之间的线表示顶点特征更新优化的过程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于多交互时空图网络的行人轨迹预测方法，如图2所示，该方法分成三部分：多交互特征提取、多交互图建模和多交互优化，下面将分别详细介绍。假设在观察到的长度为

的视频序列中有X个行人，本发明的目标是预测未来长度为

的序列中这X个行人的轨迹坐。

（1）多交互特征提取

在现有技术中，要么只使用了局部上下文信息，要么只使用了全局上下文信息。如果没有全局上下文，一些远离行人的重要信息可能会丢失。例如，行人想要乘坐远处的公交车，因此公交车的位置在轨迹预测中起着关键作用。另一方面，如果没有局部上下文信息，则很难对与周围场景和对象的交互进行清晰的建模。例如，行人需要绕过他前面的障碍物。

本发明提出了一种新的特征提取方式，如图3所示，首先提取局部和全局上下文信息，然后通过注意机制将它们结合起来。这样，具有丰富全局信息的全局上下文和具有特定行人周围关键局部信息的局部上下文都参与到捕获与上下文的交互中。此外，还从视频中提取了轨迹特征。将轨迹特征和上下文信息特征结合起来，共同表征多交互特征。

为了提取全局上下文信息，本发明使用预先训练好的场景分割模型来提取视频帧的场景特征图，并通过卷积操作对其进行裁剪。通过这样的方式，特定行人周围的上下文特征可以被很容易地提取，同时全局上下文可以在不丢失关键信息的情况下被压缩。经过这些步骤之后，本发明得到了全局上下文特征

。

为了在视频帧当中提取每个行人的局部上下文特征

，本发明对每个行人和像素网格之间建立了一个联系。例如，将原始视频帧划分为P*P个网格，同样将全局上下文特征分为P*P个网格。如果行人属于原始视频帧划分后的位置为（1,1）的网格，那么其局部上下文特征就用全局上下文特征位置为(1,1)的网格特征来表示。利用这种方式，本发明可以很方便地获得局部上下文特征，这与全局上下文特征是紧密相关的，并且包含着丰富的与该行人相关的周围景物的上下文信息。

在获取全局和局部的上下文特征之后，本发明提出了一种注意力机制，既强调局部信息，又能充分考虑全局信息。首先，本发明利用

操作来优化

当中每个网格的权重，因此，每个网格自适应地分配一个权重，用于衡量对特定行人的影响。其次，本发明将每个网格优化过之后的特征相加来进一步压缩全局上下文信息。第三，本发明将

和处理过后的

加起来得到全局-局部上下文特征

。这步操作将全局和局部信息用一种简洁有效的方式结合起来。另外，局部上下文特征权重被进一步增强，因为全局上下文也包含了局部上下文。注意力机制的定义如公式（1）所示：

(1)

其中，

表示

操作，

表示将每个元素加起来。

（2）多交互图建模

在得到包含上下文交互信息的特征之后，利用时空图对多个交互进行建模。下面将从三个部分来介绍本模块：图的构造，空间聚合机制和时间聚合机制。

(i)图的构造

本发明中行人与上下文的交互体现在图的构造中。图的构造分为三个部分：顶点和边的性质、图的连通性和顶点的特征。

首先，图在时间和空间两个维度被连接。这可以被表示为

，其中，

表示第t帧的空间图，

被定义为

，

表示第t帧顶点的集合，

表示第t帧边的集合。其中，

。

其次，在空间维度上本发明采用全连接的方式，所有行人都和场景中的其他行人连接起来。时间维度上同一行人在相邻时间点的顶点被连接起来。

第三，为了将上下文信息之间的交互引入本发明的方法，本发明将轨迹特征和上下文交互特征拼接起来作为一个顶点特征。通过这种方式，可以以一种有效且简单的方式获得与上下文的交互，并将其合并到图网络结构中，从而便于后续的聚合和预测。

(ii)空间聚合机制

在空间维度上，本发明采用GCN来衡量行人之间的交互权重。具体来说，在GCN中，行人

和

之间的欧氏距离被用于计算空间图的邻接矩阵。权重邻接矩阵

定义如公式(2)所示：

(2)

其中，

表示时刻，

表示行人序号，

表示行人

和

之间的欧氏距离。

然后顶点特征通过GCN被优化和聚合，具体方式如公式(3)所示：

(3)

其中，

表示

的顶点度矩阵，I表示单位矩阵，

表示归一化的拉普拉斯矩阵，

表示学习到的线性变换的权重矩阵，

表示激活函数，

表示GCN过程，

表示第

帧中所有行人的多交互特征。

(iii)时间聚合机制

在空间维度上获取包含上下文交互以及和其他行人交互的聚集紧凑特征后，还应该考虑时间上的交互关系，这也对应于与行人本身的交互。因为行人的未来轨迹会受到过去轨迹的深刻影响。时间维度上的构图是将同一行人在不同时间点的顶点连接起来。接下来采用因果卷积、加权归一化、激活函数、dropout和残差连接等操作（改进CNN），更新行人顶点，更新后的顶点特征包括与该行人过去轨迹的交互关系。此外，该时间聚合机制还得到了未来轨迹的高斯分布，便于预测未来多样性的可能路径。

所述改进CNN包括依次串联的：第一层，用于将每个顶点的维度降为5维，分别表示预测轨迹的X/Y均值、X/Y标准差和相关系数；第二层，用于将观测视频帧序列长度变成待预测的序列长度；第三至第五层中的每一层都包括因果卷积、加权归一化、激活函数和残差连接等操作，用于得到行人的时间交互依赖特征。

根据预测轨迹的X/Y均值、X/Y标准差和相关系数，可得到最终的预测轨迹坐标。

（3）多交互优化

通过上述图模型建模获得的行人顶点特征可以处理一些典型和常规场景。然而，现有的基于图结构的优化方法由于全局信息传递效率低的问题，仍有改进的余地。首先，行人之间的相互作用是微妙的，不能用距离一个因素来衡量。其次，图模型在传输全局信息时存在一定的局限性。第三，GCN在融合多模态特征方面存在缺陷。因此，需要一种注意力机制来更好地建模这些因素。此外，它还应完全适应图结构。

在本发明中，将Transformer和GCN以一种区别于现有技术的新颖的方式结合起来做进一步的优化。Transformer在处理多头自我注意机制的序列数据方面非常有效。本发明还需要考虑如何在空间维度上采用Transformer，以及如何适应图结构。首先，自注意力机制非常适合在顶点之间传输信息。然后，与接受野有限的CNN相比，Transformer的长距离属性使得从浅层到深层有效地利用全局信息成为可能。图4显示了多交互优化的过程。

为了说明，本发明只画了一个顶点的优化过程。基于上述考虑，对于

，它的query向量、key向量、value向量相应被标记为

，

和

。Transformer的自注意力机制如公式(4)所示：

(4)

其中，

表示query向量，

表示key向量，

是每个query的维数，

表示value向量，

表示注意力头序号，

表示Transformer的自注意力机制过程，

表示多交互特征；

(5)

其中，

表示注意力的头数，

表示多头注意力机制过程，

表示拼接操作。

当然，在多交互优化这一模块中，GCN和Transformer结合的方式也可以是先Transformer更新权重，再GCN更新权重。

经过空间聚合和时间聚合后，顶点的属性得到更新。

采用训练样本训练，本实施例中训练样本为相邻8个视频帧，对应标签为观测视频帧之后12个连续帧中行人轨迹。待训练完成，即可使用观测8个视频帧进行轨迹预测。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。