CN116128122B

CN116128122B - 一种考虑突发因素的城市轨道交通短时客流预测方法

Info

Publication number: CN116128122B
Application number: CN202310001447.XA
Authority: CN
Inventors: 张金雷; 杨立兴; 章树鑫; 徐猛; 李克平; 李小红; 高自友
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-09-12
Anticipated expiration: 2043-01-03
Also published as: CN116128122A

Abstract

本发明公开了一种考虑突发因素的城市轨道交通短时客流预测方法。该方法包括：获取第T‑1时段内的历史客流特征矩阵，社交媒体矩阵，突发确诊病例矩阵以及城市轨道交通多重图网络；利用构建的深度学习模型学习映射函数，以融合客流数据、社交媒体数据和突发确诊病例数据，预测下一个时间步的客流信息。本发明有效提升了突发事件期间客流预测的准确性，可以为城市轨道交通系统客流数据预测提供有效工具。

Description

一种考虑突发因素的城市轨道交通短时客流预测方法

技术领域

本发明涉及交通客流预测技术领域，更具体地，涉及一种考虑突发因素的城市轨道交通短时客流预测方法。

背景技术

动态建模复杂的客流时空相关性是实现突发事件期间准确客流预测的关键问题。为实现突发事件期间精确的城市轨道交通短时客流预测，一些学者展开深入研究。

经分析，目前突发事件期间的客流预测方案存在以下缺陷：1)但现有模型一般基于预定义图展开建模，鲜有提出利用动态图思想捕捉客流的空间依赖性，导致模型预测效果不佳；2)现有大多数的深度学习模型在预测客流时仅考虑历史客流数据，事实上影响客流变化的因素很多，利用相关数据捕捉不同因素对客流的影响有利于提高预测的准确性，值得进一步研究。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种考虑突发因素的城市轨道交通短时客流预测方法。该方法包括以下步骤：

获取第T-1时段内的历史客流特征矩阵P^T-1，社交媒体矩阵S^T-1，突发确诊病例矩阵C^T-1以及城市轨道交通多重图网络G_b；

利用构建的深度学习模型学习映射函数f并预测下一个时间步t的客流，表示为：

y_t＝f(P^T-1，S^T-1，C^T-1，G_b)

其中，多重图网络被定义为S＝{s₁，s₂，...，s_n}表示站点集合，n是站点数量，e_ij∈E表示站点的虚拟边，A_b是权重矩阵，B表示图结构的数量。

与现有技术相比，本发明的优点在于，借助优化的自注意力机制和自适应多图卷积结构，构建一种切实有效的深度学习框架，同时将突发事件期间客流数据、突发确诊病例、相关社交媒体数据量有机融合，以充分研究突发事件对客流变化的影响，捕捉客流动态复杂的时空特征，在满足短时客流预测“实时性”要求的同时，提高了突发事件期间客流的预测精度。

附图说明

图1是根据本发明一个实施例的考虑突发因素的城市轨道交通短时客流预测方法的流程图；

图2是根据本发明一个实施例的ST-former模型的架构图；

图3是根据本发明一个实施例的Scalar Attention Embedding计算过程示意图；

图4是根据本发明一个实施例的客流局部特征图；

图5是根据本发明一个实施例的扩散因果卷积示意图；

图6是根据本发明一个实施例的多源数据融合模块示意图；

图7是根据本发明一个实施例的客流周期性表示示意图；

图8是根据本发明一个实施例的客流数据与突发事件相关数据对比示意图；

图9是根据本发明一个实施例的南宁地铁站点预测效果比较图；

附图中，Causal-Convolution ProbSparse Attention(CPSA)-基于因果卷积的自注意力机制；Adaptive Multi-Graph Convolution Network(AMGCN)-自适应多图卷积网络；Feature Extract Block-特征提取模块；Temporal Convolution Block-时间卷积模块；Multi-source Data Fusion-多源数据融合模块；Encoder-编码器；Decoder-解码器；Fully-Connection Layer-全连接层；Social Media-社交媒体；Confirmed cases-确诊病例；Passenger Flow Matrix-客流矩阵。

具体实施方式

参见图1所示，所提供的考虑突发因素的城市轨道交通短时客流预测方法总体上包括：步骤S110，获取第T-1时段内的历史客流特征矩阵，社交媒体矩阵，突发确诊病例矩阵以及城市轨道交通多重图网络；步骤S120，利用构建的深度学习模型学习映射函数，以融合客流数据、社交媒体数据和突发确诊病例数据，预测下一个时间步的客流信息。在下文的描述中，首先定义所要解决的科学问题，进而介绍所提出的深度学习框架ST-former。

一、问题定义

本发明旨在利用历史AFC(自动售检票系统)数据及其他可靠数据源，借助深度学习模型，预测突发事件期间城市轨道交通全网车站的短时进站流。

定义一(客流矩阵)：AFC数据主要包括以下信息：乘客ID卡卡号，乘客到达时间，乘客到达站点；乘客离开时间；乘客离开站点。已知车站n在时刻t-1到时刻t的所有乘客出行信息，共包含ts个时间段(时间步)，p_n(t)表示车站n在第t个时间段内统计的客流量，定义如下的客流矩阵：

其中，P^T∈R^N×TS表示在第T个时段城市轨道交通网络各个车站观察到的进站流，N表示城市轨道交通网络站点个数，TS表示第T个时段内包含的时间步。例如，以历史12个时间步的客流数据预测下一时间步的客流Y_t。

定义二(社交媒体数据矩阵)：给定突发事件期间相关社交媒体数据和确诊病例数据，s_n(t)和c_n(t)可以定义为车站n在第T个时段的统计量(相关社交媒体数据量以及确诊病例数)。需要注意的是，在本文中，假设社交媒体数据和确诊病例数据对每个地铁站点的影响一致，且社交媒体数据和确诊病例数据的观测时段与客流数据的时段保持一致，社交媒体数据矩阵S^T、突发确诊数据矩阵C^T与客流特征矩阵PT形状相同。

定义三(多重图结构)：基于特定的领域知识(拓扑、相似度等)，构造多个图来表示地铁站点间的各种空间关系。这些图被定义为其中S＝{s₁，s₂，...，s_n}表示站点集合，n是地铁站点数量，e_ij∈E表示站点的虚拟边。为表示地铁网络不同空间特征，定义了权重矩阵A_b，B表示图结构的数量。例如，考虑了三种空间关系，分别为物理连接性、功能相似性以及OD关联性。

邻接图(Adjacent Graph)：为了表示整个城市轨道交通网络的物理连接性，在一个实施例中，构建了一个邻接矩阵A∈R^N×N，由0-1变量组成。邻接矩阵的表达式如下：

功能相似性图(Functional Similarity Graph)：除了城市轨道交通网络的物理特性，功能相似性也是空间相关性的重要因素。一些节点(站点)在现实中没有连接或者距离很远，但它们在城市轨道交通网络中承担着相似的功能(商业中心、通勤或换乘枢纽)，因此具备相似的客流模式。定义为站点s_i的历史客流特征数据，其中C表示客流特征的数量，TS表示在时段t内的时间步，站点s_i和站点s_j的相似性权重定义如下：

给定一个预先设置的阈值权重通过比较计算得到的权重与阈值权重构建功能相似性矩阵。功能相似性矩阵定义如下：

OD关联性图(OD-based Correlation Graph)：考虑到目标站点的OD信息可以反映目标站点与其他站点的连接紧密程度，可以从原始AFC数据中提取不同节点之间的OD特征，构建基于OD的权重矩阵。站点s_i和站点s_j间的OD关联性定义如下：

其中，count(i，j)表示由i到j的乘客总数。最终基于OD的权值矩阵A_OD是通过选择权值大于阈值的边或选择top-k值的边来定义的，因此基于OD的权值矩阵定义如下：

为了方便计算，可以对所有矩阵采用归一化处理。为保证自信息的传递，矩阵中加入自环(即将对角线元素设置为1)。归一化的矩阵可以通过如下计算：

问题定义：给定在第T-1时段内的历史客流矩阵P^T-1，社交媒体特征矩阵S^T-1，突发确诊病例矩阵C^T-1以及城市轨道交通多重图网络学习映射函数f并预测下一个时间步t的客流，表示为：

y_t＝f(P^T-1，S^T-1，C^T-1，G_b) (8)

其中f表示训练过程中要学习的模型。

二、关于注意力机制和图卷积网络

ProbSparse Attention：注意力机制是针对查询(query)下的值集合(value)和键值(key)之间的相关性建模。分配给每个值(value)的相关权重是由查询(query)的兼容性函数和与该值相关的相应键(key)计算的。数理上，注意力机制可以看作一个将查询(query)和一组键值(key-value)对映射到输出的函数，其中查询、键和值都是向量，输出计算结果是该值的加权和。

Transformer提出基于“Scaled Dot-Product”的注意力机制，该机制通过查询(query)和值(value)之间的点积计算每个值得相关权值。具体来说，给定列数为d_k的查询(query)和键(key)(此处假定查询和键具有相同的列数)以及列数为d_v的值(value)，注意力机制定义为：

然而，研究发现，值(value)之间的注意力权值的分布具有潜在稀疏性，在进行查询(query)和键值(key)之间的计算时采用一些“选择”计数策略(只选择部分主要的查询与键值计算)并不会影响效果，并且降低了计算消耗和内存占用，可以解决长时预测中长序列输入输出导致内存不足的问题。本模型中，ProbSparse Attention被用于关注主要的查询(query)，为了区分重要的查询，第i个查询的稀疏度定义如下：

其中，第一项是q_i对所有键值的Log-Sum-Exp(LSE)，第二项是它们的算术平均值。如果第i个查询(query)获得到一个更大的M(q_i，K)，其“重要性”系数就更高，即在稀疏分布中具有较高的优势。基于查询(query)的稀疏度，ProbSparse Attention可以仅关注top-u个主要的查询，其定义如下：

其中，表示与Q大小相同的稀疏矩阵，仅包含top-u个主要的查询(query)，u由恒定的采样因子c根据公式u＝c·lnL_Q所控制。

为联合处理来自不同表示子空间的信息，需要考虑多头注意机制。给定查询键以及值其中d_model表示输入的特征大小，多头注意力机制首先将查询(query)，键(key)以及值(value)线性变换至不同子空间，然后并行计算注意力，多头注意力机制可以定义为：

MultiHead(Q，K，V)＝Concat(Head₁，Head₂，…，Head_H)W^o (12)

其中，H表示多头数，分别为Q、K、V的投影权重矩阵，表示最后输出的投影矩阵。例如，默认d_k＝d_v＝d_model/H。

图卷积网络(GCN)：交通网络可以采用图形式组织，然而，最初的研究通常将交通流网络视为一个网格结构，导致提取隐藏的空间属性的能力较差。由于图卷积网络具有捕捉图结构中节点间的空间相关性的强大能力，越来越多的研究将其应用于交通预测领域，其基本思想是利用相邻节点的拓扑信息集成其特征，以学习目标节点表示。具体来说，给定一个节点，GCN首先整合其邻接特征以生成中间表示，接着通过线性投影和非线性激活函数处理该表示，从而推导出目标节点的表示。考虑到由Kipf等人(Kipf，T.N.&Welling，M.(2016)，″Semi-supervised classification with graph convolutional networks″，arXiv preprint arXiv：1609.02907)提出的基于一阶滤波器的图卷积神经网络的良好表现性能，在一个实施例中，将以该版本GCN进行研究，其定义如下：

Z^l＝GCN(Z^(l-1))＝σ(AZ^(l-1)W^(l-1)) (13)

其中，表示第1-1层的输入特征矩阵，W1-1表示第1-1层的权重矩阵，σ(·)表示非线性激活函数，A∈R^N×N表示带有自环的归一化邻接矩阵，定义如下：

其中，表示带有自环的邻接矩阵，表示邻接矩阵的对角度矩阵。

三、模型结构

ST-former模型的框架如图2所示，其主要思想是学习突发事件期间城市轨道交通进站流的复杂动态时空依赖性，以便准确预测突发事件期间地铁的进站流。模型基于编码器-解码器框架构建，编码器和解码器均由多个相同的子层堆叠而成以实现深度建模，每个子层间采用残差连接以此优化训练过程。在将客流数据输入至模型以前，需要对其采取嵌入操作(Embedding)，例如，采用Scalar Attention Embedding模块实现嵌入操作，一方面实现客流数据特征映射满足模型输入需求，另一方面强化重点特征便于刻画客流演变趋势。在Encoder中，每个子层由Causal-Convolution ProbSparse Self-Attention(CPSA)，Adaptive Multi-Graph Convolution Network(AMGCN)以及Feature Extract Block(FE)组成。CPSA可以以较低的计算量和内存对动态时间依赖性进行建模；AMGCN以自适应的方式动态学习多图的空间依赖性；FE则用于强化由CPSA和AMGCN捕捉到的时空特征，便于下一层映射重点特征，因此其输入是CPSA和AMGCN输出的融合矩阵。在Decoder中，每个子层由带有掩码的CPSA，规范化的自注意力机制以及Temporal Convolution组成。与CPSA的功能相似，带有掩码的CPSA用于对Decoder输入序列的时间依赖性进行建模，同时确保左侧每个位置无法学习到后面位置的信息特征；规范化的自注意力机制将Encoder的输出与Decoder的输入进行融合，确保Decoder序列中每个位置上的信息都处理原始输入序列所有位置的信息；Temporal Convolution则用于捕捉客流动态长时的全局时间依赖性。为细化突发事件期间的地铁客流演变趋势特征，刻画突发事件对客流变化的影响，本发明提出Multi-sourceData Fusion融合突发确诊病例数据和相关社交媒体数据，从而学习突发事件对客流变化的影响。最后，全连接网络将客流数据特征映射至样本空间以获取预测值。

Scalar Attention Embedding：由于客流特征具有稀疏性(除局部特征峰值和边缘特征值外，其他特征值不突出)，因此本发明提出Scalar Attention Embedding，一方面实现特征映射，满足模型输入要求；另一方面强化特征，关注突出特征。图3为ScalarAttention Embedding的总体框架。考虑到卷积神经网络丰富的表示能力可以显著提升特征学习的性能，使用卷积操作加强特征表示是一个可行的方法。Woo和Park等提出了卷积注意力模块(CBAM)，通过学习特征增强或抑制，从而增强CNN的表示能力。鉴于CBAM在捕捉特征方面的良好性能，本发明应用其组件之一的空间注意力(spatial attention)模块增强特征表示。需要注意的是，此处“空间”指的是图像的通道轴，与城市轨道交通客流的“空间”特性并不相同。

空间注意力模块旨在利用特征的空间关系来强化特征。由于客流特征矩阵是二维矩阵，因此首先利用2D卷积核(kernelsize＝3，stride＝1，padding＝1)将特征矩阵映射至d_model维，以获得嵌入特征矩阵沿通道轴使用池化操作被证明可以有效关注重点部分，因此本发明沿嵌入特征矩阵的通道轴使用平均池化(Average-Pooling)和最大池化(Max-Pooling)，并将二者连接以生成特征图。获得特征图以后，使用卷积层生成空间注意力图用以编码特征是否强调或抑制。空间注意力图定义如下：

其中，σ表示Sigmoid激活函数，Conv2D^7×7表示卷积核大小为7×7的二维卷积操作。为细化客流特征，使用元素相乘法将空间注意力图映射至嵌入特征矩阵中，该过程利用广播机制沿通道轴扩展空间注意力图的维度以实现同元素相乘。整体计算过程总结如下：

其中，表示元素相乘，P′表示细化的特征输出。

Encoder：模型的Encoder部分由输入一层映射层和L_en层相同的且带有残差连接的encoder层组成。每个encoder层由三部分组成，分别是Causal-ConvolutionProbSparseSelf-Attention机制(CPSA)，Adaptive Multi-Graph Convolution Network(AMGCN)以及Features Extract Block(FE)。CPSA可以动态建模客流的局部时间依赖性；AMGCN旨在捕捉除显示空间相关性之外的多种不同类型的隐藏空间相关性。FE则用于对注意力权重较高的特征进行提炼，并在下一层进行聚焦特征映射。

1)Casual-Convolution ProbSparse Self-Attention

正如上述提到，多头注意力机制能够联合关注来自不同表示子空间的信息。在许多研究中，多头注意力机制将查询(query)、键(key)和值(value)视为相同符号表示序列，从而关注同一序列不同表示子空间中的信息。该机制为不考虑时间距离的全局复杂相关动态捕获提供了一种有效的方法，从而实现精确的长期预测。然而，多头注意力机制最初主要针对离散数据(如单词等)，导致无法考虑连续数据的局部趋势特征。以图4的客流曲线为例，其中A、B、C分别表示不同时刻下的数据点，A和B的客流量相同。在这种情况下如果采用最初的多头注意力处理客流数据，数据点A和B将会因为具有相同客流量而被赋予更高的相关性，事实上二者的局部趋势显著不同，这说明二者的客流模式不同。相反，数据点A和C虽然客流数据不同，但存在相似的局部特征，二者极有可能分别位于早晚高峰时段，具有相近的客流模式，应当赋予更高的相关性。因此使用初始的多头注意力机制处理连续时间序列数据可能导致相关性权重分配错误。

由于卷积运算可以通过考虑局部上下文来计算特征表示，因此本发明提出基于因果卷积(Causal Convolution)的自注意力机制(CPSA)，该机制可以考虑客流局部演化趋势，以解决初始的多头自注意力机制造成的相关性权重分配错误问题。与初始的多头注意力机制相比，CPSA在计算注意力分数之前，将查询(query)和键值(key)的线性投影替换为因果卷积操作，以建模客流的局部演变趋势，同时避免提前学习到未来客流特征。因果卷积操作通过“扩张”操作获得更大的感受野以处理局部时间趋势捕捉的问题，同时仅考虑当前位置左边的历史客流数据避免提前学习到未来特征，图5为扩散因果卷积的具体操作。

此外，本发明使用ProbSparse自注意力机制替换最初的自注意力机制，关注具有更高注意力权重的优势表示以减少时间复杂度和内存占用，从而解决大规模时序处理中长序列输入导致内存不足问题。总的来说，CPSA可以定义为如下公式：

MultiHead(Q，K，V)＝Concat(ConvHead₁，ConvHead₂，…，ConvHead_h)W^o (17)

其中，和表示Q和K的卷积核，表示投影权重矩阵，″*″表示因果卷积操作，″·″表示线性投影，并且所有的节点共享权重。

2)Adaptive Multi-Graph Convolution

传统的GCN模型通常依靠单一的预定义邻接矩阵构造图结构，并且邻接节点间的权重在学习过程中通常保持不变。然而，节点间的空间依赖性通常随时间变化而变化，仅依靠单一的邻接矩阵无法充分捕捉多重的动态的空间依赖性。例如，实际中没有相邻的两个节点可能具有相同的客流特征，而实际中相邻的两个节点可能没有联系。因此，将传统的图卷积模型应用于动态复杂的客流预测并不合适。

在一个实施例中，本发明提出一个基于自适应邻接矩阵的自适应多图卷积网络(AMGCN)。具体来说，自适应矩阵并不需要任何先验知识，并且通过随机梯度下降实现端到端学习。例如，首先随机初始化两个含有可学习参数的节点嵌入(node embedding)然后通过以下公式生成自适应邻接矩阵：

通过N_i与N_j相乘，可以求出节点i和节点j之间的空间依赖权值。使用ReLU激活函数可以忽略节点间较弱的相关性，使用Softmax激活函数可以归一化自适应邻接矩阵。本质上讲，自适应邻接矩阵是对节点之间不确定关系的补充，但仅仅使用自适应邻接矩阵无法充分反映复杂多重的空间依赖性，同时缺乏可解释性。因此，增加其他先验知识可以充分挖掘隐藏的空间依赖性并增加可解释性。

在一个实施例中，本发明构建了三种类型的图分别表示不同类型的空间关系，分别是邻接矩阵、功能相似矩阵以及OD权值矩阵。这些图结构首先通过一种经典的图嵌入技术，即特征映射转换为空间嵌入(spatial embedding)计算得到空间嵌入后，模型采用一种可学习的近似自注意机制来生成空间相关权值矩阵其中S^ij _b∈S_b表示节点i与节点j的第b个空间相关性。

给定自适应邻接矩阵和空间相关性权值矩阵首先进行图卷积操作，接着将聚合的表示通过线性投影转化为最终的空间信息输出Z^l，计算过程表示如下：

Z^l＝Linear(Concat(Z¹ ₁，…，Z^l _b)) (22)

其中，表示第l-1层的第b个输入特征矩阵，W^(l-1)表示第l-1层的权值矩阵，σ(·)表示非线性激活函数，表示元素相加操作。

3)特征提取模块(Features Extract Block)

考虑到由自注意力计算得到的注意力权值具有稀疏性(仅有少数节点具有较高的注意力权值，其他节点对全局序列影响较小)，本发明提出特征提取模块以专注具有较高注意力权值的特征便于下一层进行更为集中的特征自注意力映射。模型第j层到第j+1层的特征提取操作可以定义如下：

其中，[·]_SA表示自注意力机制模块CPSA，AttentionConv(·)表示通道注意力模块和空间注意力模块，二者是CBAM的重要组成部分，通过将跨通道注意力和空间注意力结合起来，专注于具有高注意力权值的特征。在AttentionConv(·)模块，本发明依次使用带有RELU激活函数的通道注意力和空间注意力模块以便每个分支均可以学习要强调的信息。接着使用MaxPool操作对特征进行下采样，以便专注于主要特征并在下一层进行更为集中的特征注意力映射。

Decoder：模型的Decoder由一层输出层和L_de层相同的且带有残差连接的decoder层堆叠而成。每个decoder层由三部分组成，分别是带有掩码(Masking)的CPSA，规范化的自注意力机制以及时间卷积模块。

①带有掩码的CPSA

该模块旨在捕捉decoder序列，其工作原理与CPSA基本相似。唯一不同是采用掩码操作避免每个位置学习到后面位置的特征。掩码设置为一个T×T矩阵，其对角线上方元素设置为-∞，其他位置均为0，因此带有掩码的CPSA可以定义为以下公式：

②规范自注意力模块

该模块将Encoder的输出与每一个decoder层相连接，将Encoder的输出视为键(key)和值(value)，将带有掩码的CPSA的输出视为查询(query)进行注意力计算，使Decoder可以沿时间维度自适应地参与编码特征。

③时间卷积模块

为进一步捕捉客流的动态长时时间依赖性，本发明在规范注意力机制后加入时间卷积模块，该模块主要由扩散因果卷积以及时间注意力组成。由于传统的卷积运算通过叠加卷积层实现对时间序列数据长期时间依赖性的学习，计算成本较大，因此本发明采用“扩散”操作来增大卷积过程中的感受野，以较低的计算成本捕捉长期历史时间特征。另外，为避免提前学习到未来的时间特征信息，该模块同时运用了因果卷积，仅考虑当前位置左侧的历史信息。为关注客流数据的主要时间特征，本发明还使用时间注意力沿时间维度提取重要的时间特征。与CBAM相似，本发明沿时间维度使用MaxPool和AvgPool以获取时间注意力权值，根据该注意力权值通过元素相乘获取重要的时间特征。另外，使用残差连接优化训练过程并加速模型的收敛。

Multi-source Data Fusion：多源数据融合模块通过将突发事件数据、突发事件相关社交媒体数据与客流数据相融合，以强化客流随时间演变的趋势特征，刻画突发事件对客流变化的影响，图6为数据融合模块的主要框架。

为合理地融合特征数据，本发明在建模过程中根据特征数据相关性分析，按比例分配突发确诊数据和突发事件相关社交媒体数据的动态相关性。具体来说，首先将社交媒体数据和突发确诊数据映射为4维特征矩阵(batch-size，channels，station-number，timesteps)，接着将通道维度线性化为5个通道，社交媒体数据与突发事件数据占比为3：2。在按比例分配后，使用卷积核大小为3×3的2D卷积处理特征矩阵，以捕捉时间特性并使特征矩阵的维度与客流矩阵保持一致。另外沿时间维度采用池化操作以进一步提炼时间趋势特征，最后将特征数据矩阵与客流矩阵进行相乘从而完成数据融合。

Multiple Periodicity：客流数据往往具有明显的周期性，因此本发明进一步考虑了隐藏在客流数据中的两类周期性模式，分别是周周期性(weekly periodicity)和日周期性(daily periodicity)。周周期性是指每周同一时段客流的相似特征，主要由规律性的出行活动造成，例如通勤上下班或者上学放学。日周期性是指相邻两天同一时段的客流特征，例如相邻两个工作日的客流具有相似的高峰趋势。为准确描述客流的周期特性，除历史TS个时间步的客流数据外，本发明引入另外两类数据类型。

Weekly Periodic

为捕捉周周期性，本发明考虑上周同一时段步长为TS的客流数据，可以表示为例如，所研究的时间段是早上6点到晚上23点共17个小时，假设时间间隔(例如10min，30min等)为tl，时间步为ts，当前时间片为t，每周周期可以定义为：

Daily Periodic

类似地，为捕捉每日周期性，考虑了昨天同一时间段时间步长为TS的客流，得到每日周期张量其定义如下：

在获取每周周期张量和每日周期张量后，将历史TS个时间步的客流张量与之拼接，得到一个新的客流张量P^T∈R^N×(3*TS)作为模型的输入。图7展示了三种不同客流周期张量在时间轴上的表示。

四、模型评价

为进一步验证本发明的效果，在真实数据集上验证ST-former的预测性能。验证过程和实验结果参见下文。

1)数据集

实验采用的数据集是广西省南宁市城市轨道交通AFC数据集，该数据集主要包括2020年1月6日到2020年5月31日南宁地铁早上6点到晚上11点的AFC数据，涵盖突发事件的爆发、稳定以及改善阶段，具体数据集描述参见表1。实验中，采用10分钟、15分钟等多个时间粒度分别提取各站点的进站客流数据，车站编号根据地铁线路和车站邻接关系排序。

实验中，还从新浪微博爬取特定时期(与客流数据的时段一致)内包含“突发事件”、“南宁”的相关博客。由于爬取微博数量不足，对微博数据进行扩样处理，最终得到与客流序列数据一致的社交媒体序列数据。另外，从中国卫健委网站收集了南宁市2020年1月6日到2020年5月31日的突发事件每日确诊病例，整理得到与客流序列数据一致的突发确诊病例数据。

表1：数据集描述

此处，对客流数据、突发确诊数据以及突发事件相关微博数据的相关性进行简单分析，三者数据波动如图8所示和表2。相关性分析结果中，三者的皮尔逊系数的绝对值均大于0.55，表现为显著关系。其中突发事件期间客流数据与突发事件相关社交媒体数据的皮尔逊系数为-0.814，表明二者存在显著的负相关性；而突发事件期间客流数据和突发确诊病例数据的皮尔逊系数为-0.585，表明二者具有适中的负相关性。因此有理由相信除历史客流数据，与突发事件相关的数据源同样可用于突发事件期间城市轨道交通客流预测。

表2：客流数据与突发事件数据相关性计算

2)模型配置

在台式电脑上进行实验，模型使用PyTorch搭建。超参数设置为：本实验以12：4：5的比例将南宁地铁客流数据集按时间划分训练集、验证集和测试集。所有数据使用Min-Max归一化方法归一化至[0,1]的范围内并输入模型中。模型分别由三层encoder层和三层decoder层堆叠而成。经过fine-tuning后，模型的特征大小d_model为24，多头数H为3，历史时间步TS为12，batchsize为32。为提升训练效果避免过拟合，每个encoder层和decoder层加入概率为0.1的dropout层。模型的优化器为Adam，其学习率为0.0005。同时采用EarlyStopping进行迭代，其参数patience设置为100。训练前，对所有数据进行归一化，在得到预测结果后，将其逆归一化至原标度范围，便于结果进行评价。

3)评价指标

本发明使用均方误差Mean Square Error(MSE)作为损失函数，使用均方根误差Root Mean Square Error(RMSE)、平均绝对误差Mean Absolute Error(MAE)和加权平均绝对百分比误差weighted Mean Absolute Percentage Error(WMAPE)作为模型预测效果的评价指标。

其中，为预测值，X_i为真实值，N为所有预测值的数目。

4)基准模型

为全面评价ST-former的预测性能，将在南宁地铁突发事件期间客流数据集上比较ST-former与基准模型的预测效果。

基准模型包括：ARIMA：是一种常见的时间序列处理模型，实验中将滞后阶数、差度以及移动平均阶数经过分别设定为2、1和1。CNN：搭建了一个常规的2D卷积神经网络，由一个CNN层和两个全连接层组成。模型输入是地铁全网61个地铁站点历史12个时间步的进站流序列；输出是地铁全网61个地铁站点下一个时间步的进站客流。LSTM：搭建了一个常规的LSTM模型，由两个隐藏层和两个全连接层组成。T-GCN：该模型结合了GCN和GRU以捕捉交通流的时空相关性。实验中提出一个由三层t-gcn层和一层全连接层组成的T-GCN模型。ST-ResNet：使用三个残差卷积单元分支搭建模型，无考虑额外因素(天气、日期属性等)对预测效果影响。模型的其他参数设置与原文保持一致。ConvLSTM：搭建一个包含三层隐藏层和两层全连接层的ConvLSTM模型。模型其他参数设置与原文保持一致。DCRNN：该模型通过使用双向随机游走捕捉空间相关性，将交通流建模为有向图中的扩散过程，同时利用encoder-decoder框架捕捉时间依赖性，通过github上的代码实现该模型，其余参数设置与CNN保持一致。Transformer：搭建了包含三层encoder和三层decoder的Transformer框架其中多头数设置为8，特征大小d_model为512，Transformer的输出将输入到两层全连接层进行预测，每层全连接层包含128个神经元，其余参数设置与CNN保持一致。MGT：该模型是原始Transformer的一个变体，包含了三种类型的注意力机制，通过三种注意力机制充分捕捉客流时空特征。Informer：该模型是Transformer的变体，实验中搭建了含有三层encoder和三层decoder的Informer框架，其中多头数为8，特征大小d_model为512，其余参数设置与CNN保持一致。

五、结果分析

1)线网级预测性能研究

在南宁地铁客流数据集上的预测效果参见表3。从表3中可以知道ST-former在不同时间粒度的预测效果均优于其他基准模型。在10分钟时间粒度下，ST-former相较于基准模型中表现最好的模型预测指标MAE、RMSE和WMAPE分别提升了3.95％、2.95％和3.04％。在15分钟、60分钟时间粒度下ST-former均取得了类似的预测效果，其中MAE分别提升了3.84％和5.20％，RMSE分别提升了3.52％和5.21％，WMAPE分别提升了3.17％和5.22％。

T-GCN作为一种典型的基于GCN的时空图数据预测模型，利用GCN和GRU获取客流数据的时空相关性，但受限于GCN在捕捉动态空间依赖性的能力以及GRU无法并行计算的缺陷，该模型在预测性能上远差于ST-former。DCRNN利用RNN的优势建模时间相关性，同时基于双向随机游走的图卷积提取空间相关性，但模型仅依靠一个预定义的邻接矩阵并不足以捕捉交通流网络中的动态空间相关性，导致预测效果有限。ConvLSTM将卷积结构集成至LSTM中，以同时捕获时间相关性和空间相关性，但缺乏对图结构的建模，限制了模型捕获复杂空间相关性的能力。ST-ResNet利用基于卷积的残差网络对空间相关性进行建模，并利用三种残差网络对序列的实时性、周期性和趋势特性进行建模。同样，该模型没有考虑交通流网络的图结构，无法充分捕捉动态空间依赖关系。Graph WaveNet针对GCN只能捕捉静态空间相关性的问题，开发了自适应图卷积以捕捉隐藏的空间属性，同时模型利用一维扩张卷积捕获长期时间依赖性，但建模长时时间依赖性需要叠加多层CNN网络，计算成本高。

基于Transformer的预测模型使用多头注意力机制建模多重时间依赖性。然而过长的时间序列输入会导致Transformer在运算过程中存在内存瓶颈，因此初始Transformer模型并不适合长时间序列预测；而Informer克服了计算过程中内存瓶颈的问题，以较低的计算成本和内存保持着较高的预测容量。但这两个模型忽略了城市轨道交通的空间相关性，导致在部分时间粒度下的预测效果不好。另外一个基于Transformer的模型MGT将图结构集成到模型中，通过元学习向注意力层注入相关信息以引导注意力机制建模空间和时间异质性，该模型最初提出时是用于道路交通流预测，而地铁客流的时空特性与道路交通流的时空特性明显不同，导致模型在南宁地铁数据集上预测效果不佳。

与上述现有模型相比，ST-former在三个时间粒度下的预测误差均达到最小。模型提出CPSA建模复杂的时间依赖性，同时考虑当前的实时周期性、日周期性和周周期性以全面捕捉全局时间依赖性。此外，模型提出了一个全新的自适应多图卷积网络(AMGCN)，以考虑具有多种隐藏空间模式(物理连通性、功能相似性、OD关联性)的动态空间依赖性。模型进一步将突发确诊数据与相关社交媒体数据与客流数据进行融合，以强化客流随时间演变的趋势特征，并描述突发事件对客流的影响。最终的实验结果验证了该模型的优越性。

表3：模型预测效果评价指标表

在表3中，预测效果最好的模型其评价指标加粗表示。由表3可知：

对于RMSE，在10分钟粒度下预测指标相比较目前预测效果最优模型，从18.074下降到17.543；在15分钟粒度下，预测指标从24.725下降到23.910；在60分钟粒度下，预测指标从79.128下效果提升74.655，效果分别提升2.94％，3.3％，5.65％。

对于MAE，在10分钟粒度下预测指标相比较目前预测效果最优模型，从9.920下降到9.789；在15分钟粒度下，预测指标从13.520下降到13.066；在60分钟粒度下，预测指标从43.273下效果提升41.032，效果分别提升1.32％，3.36％，5.18％。

对于WMAPE，在10分钟粒度下预测指标相比较目前预测效果最优模型，从17.10％下降到16.83％；在15分钟粒度下，预测指标从15.46％下降到14.95％；在60分钟粒度下，预测指标从12.45％下效果提升11.75％，效果分别提升1.58％，3.3％，5.62％。

2)站点级预测性能研究

不同地铁站点具有不同的客流模式，会影响模型在不同地铁站点的预测效果。选择了三个不同类型的车站验证ST-former的鲁棒性，图9为不同车站的客流预测结果(选取了5月25日至5月31日共计一周的预测效果进行可视化)。第一个车站是亭洪路站，毗邻商业中心，具有明显的商业中心性质；第二个车站是广西大学站，该车站是一个典型的通勤车站，大量乘客上下班都会经过该站；第三个车站是南宁火车站，该车站是一个大型的换乘枢纽，可以实现多种交通方式的换乘，车站客流以换乘客流为主。

总体而言，虽然该三个车站的客流模式不尽相同，但三者在突发事件期间均出现了客流骤减的情况，说明突发事件影响了乘客的出行。具体分析三个车站的客流预测情况，首先图9(a)为亭洪路站的预测效果图，可以看出ST-former对该站点客流的总体趋势预测效果良好。工作日该站台客流呈现明显的早晚高峰特征，且晚高峰客流明显高于早高峰，ST-former提出的Casual-Convolution ProbSprase Attention可以充分捕捉客流的局部趋势特征，克服了客流预测局部峰值预测欠拟合问题。至于周末，由于大量乘客不用上班，客流自然有所减少，但该站点位于主要商业中心附近，人们会选择周末来此休闲放松，因此周末从下午开始客流呈上升趋势，直至晚上的客流高峰。ST-former提出了TemporalConvolution模块以拟合周末客流总体变化趋势，同时Casual-Convolution ProbSpraseAttention可以精确刻画客流的局部峰值，但模型对客流波动的刻画效果有待加强。

图9(b)为广西大学站的客流预测效果图，可以看出无论总体客流趋势还是局部客流波动，模型均表现出良好的预测性能。工作日期间该站点呈现明显的早晚高峰客流特征，但与亭洪路站不同，站点的早高峰客流显著高于晚高峰；至于周末时段，由于周六可能存在加班情况，因此周六客流仍具备早晚高峰特征，周日人们一般选择休息因此客流无明显通勤特征。ST-former中的Feature Extract Block可以提取客流的重要特征(局部峰值、边缘值等)，显著提高了模型的预测能力。

图9(c)为南宁火车站的客流预测效果图。与前两个车站不同，南宁火车站作为典型的换乘车站，客流不具备明显的通勤特征(早晚高峰特征)，其客流量明显大于其他两个车站，另外该站点在下午和晚上客流存在两个高峰，且周末客流量大于工作日客流量，符合人们倾向选择周末远行的一般规律。所提出的模型ST-former可以捕捉客流的总体变化趋势，因此在南宁火车站的客流预测效果良好。

3)消融实验研究

为进一步分析ST-former不同组成部分对模型预测性能的影响，在南宁地铁数据集上进行消融实验，选择以60分钟为时间粒度的数据形式进行验证。

Adaptive Multi-Graph Convolution Block：为验证自适应多图卷积的效果，考虑了如下三种ST-former的变体形式。ST-former with single graph：仅考虑邻接矩阵以建模客流的空间依赖性，其目的是证明使用多重图有利于充分捕捉复杂的空间依赖性。ST-former with general GCN：模型中所有自适应多图卷积模块替换为GCN模块以研究自适应多图卷积的有效性。需要注意此处仅使用邻接矩阵建模客流的空间依赖性，因为其他图不满足GCN的输入。ST-former without Adaptive Multi-Graph Convolution Block：移除ST-former中所有的自适应多图卷积模块以研究多重空间依赖性对客流预测的重要性。

上述模型除了所研究的模块设置不同，采用与ST-former一致的参数设置，模型的预测效果指标参见表4。从表4可以发现，ST-former without AMGCN的预测效果最差，表明在客流预测中考虑复杂多重的空间依赖性是非常有必要的；ST-former with singlegraph的预测效果要优于ST-former General GCN，验证了AMGCN在捕捉动态空间依赖性方面的能力要优于传统的GCN模型；当同时考虑所有图结构(邻接矩阵、功能相似性矩阵以及OD关联性矩阵)时，模型的预测效果达到最优，验证了自适应多图卷积网络在动态建模客流的复杂空间依赖性的可靠性和有效性。

表4：AMGCN的消融实验结果

Causal-Convolution ProbSparse Self-Attention：为验证CPSA的有效性，还进行了ST-former的两种变体进行消融实验，分别是：ST-formerwithcanonicalself-attention：将模型Encoder和Decoder中所有的CPSA模块替换为规范化的多头自注意力模块，以验证ProbSparse Self-Attention的有效性，并且依然保留Causal-ConvolutionOperation。ST-former with probsparseself-attention：CPSA模块中所有的Causal-Convolution Operation均替换为线性映射(Linear Projection)，其目的在于研究Causal-Convlution Operation对于注意力机制的提升效果。

上述模型除了研究的自注意机制以外，采用与ST-former一致的模型设置。参见表5，可以看出ST-former with Canonical Self-Attention的预测结果在所有模型中是最差的，这是因为规范化的自注意力机制在处理长序列时序预测问题时会造成高计算费用和内存瓶颈，无法直接应用于长时客流预测。由于CPSA可以通过因果卷积操作挖掘客流的局部时间趋势，从而使ST-former具备建模局部时间依赖性的能力。因此，ST-former比ST-former with ProbSparse Self-Attention的预测效果更好，这也充分阐述了CPSA在处理长时客流预测房买卖的有效性。

表5：CPSA的消融实验结果

Multi-source Data Fusion：为研究突发事件对客流的影响，对客流数据、突发确诊病例数据以及相关社交媒体数据的所有可能的数据组合类型的预测效果进行研究。需要注意由于实验对地铁客流进行预测，所以在所有可能的数据组合中，客流数据均是必不可少的，因此一共存在以下四种可能的数据组合类型。

除了输入的数据组合以外，所有模型参数设置与ST-former保持一致。表6展示了不同数据组合下ST-former的预测指标，可以看出当ST-former仅考虑客流数据而不考虑其他突发事件相关数据时预测效果最差；而当模型考虑其他突发事件相关数据时，预测误差相应减少。仅考虑确诊病例数据时，ST-former的预测效果差于仅考虑突发事件相关社交媒体数据，这是由于突发事件相关社交媒体数据与客流数据的相关性要高于突发确诊数据与客流数据的相关性。当ST-former考虑了所有突发事件相关数据后，其预测效果最佳，这说明突发事件相关数据可以反映突发事件对地铁客流数据造成的扰动从而提高突发事件期间客流预测的准确性。

表6：不同数据组合的消融实验

Feature Extract Block：为了解释特征提取模块在ST-former中的有效性，进行了控制变量实验。

Periodicity Modeling：为了进一步研究客流周期性对预测效果的影响，比较分析单一周期性和多周期性下ST-former的预测效果。通过对实验结果进行分析可知(结合表7)，单一周期性下(仅考虑过去TS时间步的历史客流数据)ST-former的评价指标最差，表明多周期性有利于ST-former从多维度(远期、中期和短期)捕捉客流的时间演变趋势特征，掌握客流固有的周期性规律从而提高模型的预测精度。移除特征提取模块的ST-former表现性能同样不如ST-former，表明该模块可以专注于主要的注意力点从而增强客流的时空特征。

表7：多重周期性和特征提取模块的消融实验

综上所述，本发明通过编码再解码的过程，能够更充分地融合提取的客流时空特征，提高预测精度；并且提出了自适应多图卷积网络对图神经网络进行创新，充分考虑城市轨道交通系统多种空间关系并利用自适应方式动态学习客流的空间相关性，不仅可以捕捉地铁网络站点显性的物理连通性，还可以建模站点间隐藏的空间依赖性，从而可以学习到更全面的空间关系；对注意力机制进行大幅改进，克服了传统注意力机制中计算量庞大，内存占比较高的缺陷，同时加入卷积操作有利于捕捉趋势特征。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。

Claims

1.一种考虑突发因素的城市轨道交通短时客流预测方法，包括以下步骤：

y_t＝f(P^T-1，S^T-1，C^T-1，G_b)

其中，多重图网络被定义为S＝{s₁，s₂，...，s_n}表示站点集合，n是站点数量，e_ij∈E表示站点的虚拟边，A_b是权重矩阵，B表示图结构的数量；

其中，所述深度学习模型是基于编码器-解码器的框架，编码器和解码器均由多个相同的子层堆叠，每个子层间采用残差连接，其中：

在编码器中，每个子层包含基于因果卷积的自注意力机制模块，自适应多图卷积网络和特征提取模块，该基于因果卷积的自注意力机制模块用于学习所述历史客流特征矩阵的时间特征，该自适应多图卷积网以自适应方式动态学习所述城市轨道交通多重图网络的空间特征，该特征提取模块用于融合所述时间特征和所述空间特征，获得融合矩阵；

在解码器中，每个子层包含带有掩码的基于因果卷积的自注意力机制模块，规范化的自注意力机制模块和时间卷积模块，该带有掩码的基于因果卷积的自注意力机制模块用于对解码器输入序列的时间依赖性进行建模，该规范化的自注意力机制模块用于将编码器的输出与解码器的输入进行融合，该时间卷积模块连接所述规范化的自注意力机制模块，用于捕捉客流动态长时的全局时间依赖性；

解码器的输出连接到全连接层，该全连接层用于接收来自多源数据融合模块的输出，以融合所述社交媒体矩阵和所述突发确诊病例矩阵，进而将解码器输出的客流数据特征映射至样本空间以获取预测值；

其中，所述深度学习模型采用Scalar Attention Embedding模块执行嵌入操作，包括以下步骤：

利用二维卷积核将所述历史客流特征矩阵映射至d_model维，以获得嵌入特征矩阵其中TS表示在时段t内的时间步，N表示城市轨道交通网络站点数目；

沿嵌入特征矩阵的通道轴使用平均池化和最大池化，并将平均池化结果和最大池化结果连接以生成特征图；

针对所获得的特征图，使用卷积层生成空间注意力图用以编码特征是否强调或抑制；

使用元素相乘法将空间注意力图映射至嵌入特征矩阵中，该过程利用广播机制沿通道轴扩展空间注意力图的维度，整体计算过程表示为：

其中，表示元素相乘，P′表示细化的特征输出。

2.根据权利要求1所述的方法，其特征在于，其中，所述空间注意力图定义为：

其中，σ表示Sigmoid激活函数，Conv2D^7×7表示卷积核大小为7×7的二维卷积操作，AvgPool表示平均池化，MaxPool表示最大池化。

3.根据权利要求1所述的方法，其特征在于，所述基于因果卷积的自注意力机制模块在计算注意力分数之前，将查询query和键值key的线性投影替换为因果卷积操作，所述因果卷积操作通过“扩张”操作获得更大的感受野以建模客流的局部演变趋势，并仅考虑当前位置左边的历史客流数据。

4.根据权利要求1所述的方法，其特征在于，所述历史客流特征矩阵包含客流数据中的两类周期性模式，分别是周周期性和日周期性，周周期性是指每周同一时段客流的相似特征；日周期性是指相邻两天同一时段的客流特征。

5.根据权利要求1所述的方法，其特征在于，所述城市轨道交通多重图网络是三种类型的图结构分别是邻接矩阵、功能相似矩阵以及OD权值矩阵，这三种类型的图结构首先经特征映射转换为空间嵌入计算得到空间嵌入后，采用可学习的近似自注意机制来生成空间相关权值矩阵其中S^ij _b∈S_b表示节点i与节点j的第b个空间相关性：

给定自适应邻接矩阵和空间相关性权值矩阵首先进行图卷积操作，接着将聚合的表示通过线性投影转化为最终的空间信息输出Z^l，计算过程表示为：

Z^l＝Linear(Concat(Z^l ₁，…，Z^l _b))

6.根据权利要求1所述的方法，其特征在于，所述多源数据融合模块执行以下步骤：

将所述社交媒体矩阵和所述突发确诊病例矩阵映射为4维特征矩阵，接着将通道维度线性化为5个通道，其中社交媒体数据与突发事件数据占比为3：2；

使用卷积核大小为3×3的二维卷积处理特征矩阵，以捕捉时间特性并使特征矩阵的维度与客流特征矩阵保持一致，并且沿时间维度采用池化操作进一步提取时间趋势特征；

将特征矩阵与客流特征矩阵进行相乘，完成数据融合。

7.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。