CN115081717B

CN115081717B - 融合注意力机制和图神经网络的轨道交通客流预测方法

Info

Publication number: CN115081717B
Application number: CN202210734171.1A
Authority: CN
Inventors: 李之红; 张晶; 王子男; 王晓雨; 许晗
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-03-24
Anticipated expiration: 2042-06-27
Also published as: CN115081717A

Abstract

本发明涉及城市轨道交通客流数据分析技术领域，提出一种融合注意力机制和图神经网络的轨道交通客流预测方法，包括：采用基于注意力机制的时空图卷积模型，利用训练集对时空图卷积模型进行训练，获得第一预测客流量数据；计算第一预测客流量数据的损失，优化时空图卷积模型；将测试集输入优化后的时空图卷积模型，输出第二预测客流量数据；计算第二预测客流量数据的损失，将两损失进行对比，判断优化后的时空图卷积模型是否出现欠拟合或者过拟合现象，若是，则调整模型中的超参数设置；若否，则将第二预测客流量数据认定为最终客流量数据。如此方案解决现有技术中相关预测方法不足和预测结果误差大等问题，实现预测结果精准无误。

Description

融合注意力机制和图神经网络的轨道交通客流预测方法

技术领域

本发明涉及城市轨道交通客流数据分析技术领域，尤其涉及一种融合注意力机制和图神经网络的轨道交通客流预测方法、系统、电子设备以及计算机可读存储介质。

背景技术

近年来，我国城市轨道交通由大规模建设转为大规模安全服役阶段，轨道交通网络规模不断扩大，客流运营与管理压力日益提升，轨道交通网络供给与客流需求运力匹配的协调至关重要。在当前新技术、新算法和新理念的综合加持下，轨道交通系统迎来了一大波创新性的研究成果，轨道交通客流预测方法的研究也受到广泛的关注。准确的客流预测在轨道交通列车调控、轨道交通警报发布、服务效率提升的工作中起到至关重要的作用。然而，在城市轨道交通客流规模扩张和城市用地布局多变的复杂环境下，轨道交通“网-线-站”多粒度动态客流预测非常困难，同时在外部因素的干扰下，例如环境因素、节假日、大型活动等，高度的非线性和不确定性给客流预测带来了严峻的挑战。因此，构建融合巨量异构客流和复杂外在因素的轨道交通高精度预测模型是极为迫切。

目前，国内外在轨道交通乘客出行特征的研究中完成了丰富的工作，但是将乘客区域出行特征融合客流预测工作的较少。在轨道交通客流预测中，网络中站点的随地理位置的不同，具有的客流分布特征不同，且受周围例如重大活动、极端天气等影响时客流产生突变，整体客流是非线性的，基于数理统计分析的预测模型在面对较大变动的客流时往往不能实现良好的预测效果。在基于数理统计分析和浅层机器学习的模型中，通常需要通过组合模型进行交通预测工作以达到高精度的预测效果，且面对的预测对象为单条道路或者单个站点，在整个轨道线网中通常不能进行高精度的预测。而在基于深度学习的模型中，深度模型单体总体显示了高于数理统计分析和浅层机器学习模型的预测性能，且在融合CNN模块后可以进行区域性的预测工作，但是CNN的局限性在于其结构只能针对规则的网格结构进行空间特征的提取，这也就是学者们在基于CNN模型的研究中大多预测对象对可以将道路划分为网格结构的交通流数据，在轨道交通网络中各个站点之间呈现明显的非欧结构，无法使用CNN模型作为其预测框架。GCN图神经网络模型可以根据轨道交通网络拓扑结构进行站点间空间关系的学习，将基于区域预测的深度学习模型应用于轨道交通客流预测领域。在针对图神经网络的研究中，虽然学者可以将深度学习模型应用于轨道交通线网的预测中，但目前考虑到对站点客流属性加强的研究较少。

发明内容

本发明的目的在于解决背景技术中的至少一个技术问题，提供一种融合注意力机制和图神经网络的轨道交通客流预测方法、系统、电子设备和计算机可读存储介质。

为实现上述发明目的，本发明提供一种融合注意力机制和图神经网络的轨道交通客流预测方法，包括：

获取历史轨道交通客流量数据，将所述历史轨道交通客流量数据分为训练集和测试集；

采用基于注意力机制的图时空图卷积模型，利用所述训练集对所述时空图卷积模型进行训练，获得第一预测客流量数据；

计算所述第一预测客流量数据与真实客流量数据之间的损失，优化所述时空图卷积模型；

将所述测试集输入优化后的所述时空图卷积模型，输出第二预测客流量数据；

计算所述第二预测客流量数据与真实客流量数据之间的损失，将该损失与所述第一预测客流量数据与真实客流量数据之间的损失进行对比，判断优化后的所述时空图卷积模型是否出现欠拟合或者过拟合现象，若是，则调整优化后的所述时空图卷积模型中的超参数设置，调整后再对所述测试集进行测试，输出最终预测客流量数据；若否，则将所述第二预测客流量数据认定为最终客流量数据。

根据本发明的一个方面，所述时空图卷积模型包括图卷积网络GCN层、双向长短时记忆神经网络BiLSTM层、激活层和损失函数计算层。

根据本发明的一个方面，所述图卷积网络GCN层将轨道交通线网所有站点的客流量提取出空间维度的特征，计算公式为：

选择2层图卷积作为图卷积网络GCN层属性，

其中，D表示度矩阵，对角线上的元素为图中各个顶点的度，

表示每个顶点的度；A表示以轨道交通线网为基础建立的邻接矩阵；

表示邻接矩阵A上i行j列的值；i表示矩阵的第i行；j表示矩阵的第j列；

为优化后的邻接矩阵；

为优化后的度矩阵；

为单位矩阵；L表示拉普拉斯矩阵；U表示是拉普拉斯矩阵经过特征值分解得到的正交矩阵；

是矩阵U的转置，T为转置符号；

为n个特征值构成的对角阵；

为特征值；

表示第l层的特征矩阵；

表示在特定层L层中的可训练权重矩阵；

为线网进站客流量特征矩阵；

表示激活函数。

根据本发明的一个方面，所述双向长短时记忆神经网络BiLSTM层对融合了所述空间维度的特征的客流量提取出时间维度的特征，其中单向的LSTM模型计算公式为：

其中，

表示遗忘层输出的遗忘权重结果；

为遗忘门中

和

的权重矩阵；

表示t时刻2层图神经网络输出的隐藏层的隐藏状态；

为当前时刻输入的外部特征序列；

为遗忘门中的偏置参数；

表示记忆层输出的记忆权重结果；

为记忆门中

和

的权重矩阵；

为记忆门中的偏置参数；

表示描述当前细胞记忆状态的参数；sigmiod、tanh为激活函数；

表示记忆细胞状态储存单元中

和

的权重矩阵；

表示记忆细胞状态储存单元中的偏置参数；

表示t-1时刻的记忆状态；

表示当前时刻的记忆状态；

表示输出层输出的遗忘权重结果；

为输出门中

和

的权重矩阵；

为输出门中的偏置参数；

表示模型t时刻的输出；

将正反两个方向的LSTM模型输出

和

结合得到BiLSTM输出；

；

其中，

表示BiLSTM模型t时刻的输出。

根据本发明的一个方面，所述激活层为全连接层，全连接层将BiLSTM输出的多维向量进行维度转变，最终得到所需维度进行输出，计算过程如以下公式：

其中，y表示记

时刻输出的进站客流预测值；Q为总时间步长。

根据本发明的一个方面，所述损失函数计算层采用损失函数loss计算预测客流量数据与真实客流量数据之间的损失，计算公式为：

其中，y_t为预测客流量数据，y_yt为真实客流量数据，

为正则化系数，

为L2正则化项。

根据本发明的一个方面，所述注意力机制的计算公式包括：

其中，F_t为预测客流量数据y_t对应的特征向量；

表示训练时的赋予包含了输入序列中

之前时刻的进站客流信息向量h_t的权重，由第

个时刻输出的隐藏状态

，以及h_t决定的；

表示j时刻注意力权重打分情况；

表示k时刻注意力权重打分情况；h_j表示j时刻的隐藏层状态；k和j表示相应时刻；

在所述注意力机制的解码器中，由F_t影响的对应预测客流量数据

计算公式为：

其中，s_t表示t时刻输出的隐藏状态，s_t-1表示t-1时刻输出的隐藏状态，y_t-1表示t-1时刻对应的客流量数据，

对应的深度学习模型。

为实现上述目的，本发明还提供一种融合注意力机制和图神经网络的轨道交通客流预测系统，包括：

数据获取模块，获取历史轨道交通客流量数据，将所述历史轨道交通客流量数据分为训练集和测试集；

模型训练模块，采用基于注意力机制的时空图卷积模型，利用所述训练集对所述时空图卷积模型进行训练，获得第一预测客流量数据；

模型优化模块，计算所述第一预测客流量数据与真实客流量数据之间的损失，优化所述时空图卷积模型；

客流量预测模块，将所述测试集输入优化后的所述时空图卷积模型，输出第二预测客流量数据；

客流量校准模块，计算所述第二预测客流量数据与真实客流量数据之间的损失，将该损失与所述第一预测客流量数据与真实客流量数据之间的损失进行对比，判断优化后的所述时空图卷积模型是否出现欠拟合或者过拟合现象，若是，则调整优化后的所述时空图卷积模型中的超参数设置，调整后再对所述测试集进行测试，输出最终预测客流量数据；若否，则将所述第二预测客流量数据认定为最终客流量数据。

为实现上述目的，本发明还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的融合注意力机制和图神经网络的轨道交通客流预测方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的融合注意力机制和图神经网络的轨道交通客流预测方法。

根据本发明的方案，本发明提出的是考虑巨量客流特征的轨道交通路网客流的预测方法。结合GCN模型（图卷积网络模型）可以捕捉轨道交通线网站点间空间关系的优点和BiLSTM模型（双向长短时记忆神经网络模型）对时间序列数据高精度预测优点，构建轨道交通客流短时预测模型框架BT-GCN。考虑轨道交通时空特征，融合注意力机制（Attention,ATT），捕捉历史进站客流数据与当前时刻进站客流量的相关程度并将相关程度以权重的形式表示。本发明所提模型可以综合考虑进站客流时空特征并以历史数据相关时间点对时空属性进行加强工作，从而进行准确的客流预测。

本发明依靠神经网络，将快速获得的规定时间段内各个站点的进出站客流数据映射到高维特征空间中的特性进行各种特征的学习，得到不同时间和不同站点之间的相关特征值。本发明提出的ATT-BT-GCN模型是由BT-GCN和注意力机制两个模块组成的神经网络模型。该模型用于轨道交通客流预测，在传统的轨道交通线网客流预测工作中增加对历史数据特征和外部影响特征的增强工作，进一步提升时空图卷积模型在轨道交通线网客流预测中的精度。本发明一方面提高了中短期进站客流预测的稳定性，另一方面在面对客流峰值以及非周期性客流变化时模型预测精度高于BT-GCN模型，且在低进站客流值情况下预测精度提高更加明显。这对轨道交通列车调控、轨道交通警报发布、以及服务效率提升的工作中起到至关重要的作用。

附图说明

图1示意性表示根据本发明的一种实施方式的融合注意力机制和图神经网络的轨道交通客流预测方法的流程图；

图2表示时空图卷积模型的结构图；

图3示意性表示融合注意力机制的时空图卷积模型（ATT-BT-GCN）的结构框图；

图4示意性表示根据本发明的一种实施方式的融合注意力机制和图神经网络的轨道交通客流预测系统的结构框图；

图5表示不同隐藏单元数下MAE、RMSE对比图；

图6表示不同隐藏单元数下Accuracy、R²和EVS对比图；

图7表示轨道线网中整体站点在早高峰时段的客流量实际值状态图；

图8表示轨道线网中整体站点在早高峰时段通过ATT-BT-GCN模型预测的客流量预测值状态图；

图9表示轨道线网中整体站点在平峰时段的客流量实际值状态图；

图10表示轨道线网中整体站点在平峰时段通过ATT-BT-GCN模型预测的客流量预测值状态图；

图11表示轨道线网中整体站点在晚高峰时段的客流量实际值状态图；

图12表示轨道线网中整体站点在晚高峰时段通过ATT-BT-GCN模型预测的客流量预测值状态图；

图13表示不同预测时长下ATT-BT-GCN模型RMSE变化图；

图14表示不同预测时长下ATT-BT-GCN模型MAE变化图。

具体实施方式

现在将参照示例性实施例来论述本发明的内容。应当理解，论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。

图1示意性表示根据本发明的一种实施方式的融合注意力机制和图神经网络的轨道交通客流预测方法的流程图。如图1所示，在本实施方式中，根据本发明的融合注意力机制和图神经网络的轨道交通客流预测方法，包括以下步骤：

a. 获取历史轨道交通客流量数据，将历史轨道交通客流量数据分为训练集和测试集；

b. 采用基于注意力机制的时空图卷积模型，利用训练集对时空图卷积模型进行训练，获得第一预测客流量数据；

c. 计算第一预测客流量数据与真实客流量数据之间的损失，优化时空图卷积模型；

d. 将测试集输入优化后的时空图卷积模型，输出第二预测客流量数据；

e. 计算第二预测客流量数据与真实客流量数据之间的损失，将该损失与第一预测客流量数据与真实客流量数据之间的损失进行对比，判断优化后的时空图卷积模型是否出现欠拟合或者过拟合现象，若是，则调整优化后的时空图卷积模型中的超参数设置，调整后再对测试集进行测试，输出最终预测客流量数据；若否，则将第二预测客流量数据认定为最终客流量数据。

根据本发明的一种实施方式，在上述a步骤中，基于研究区域内地铁运营AFC系统收集的乘客进出站数据，通过以15min粒度为单位的客流聚合工作，得到历史轨道交通客流量数据，将所述历史轨道交通客流量数据分为训练集和测试集；

根据本发明的一种实施方式，在上述b和c步骤中，时空图卷积模型包括图卷积网络GCN层、双向长短时记忆神经网络BiLSTM层、激活层和损失函数计算层，图2表示时空图卷积模型的结构图（BT-GCN）。

其中，将研究实践范围内每个时间段轨道交通线网所有站点的进站客流客流量矩阵X作为输入信息送入图卷积网络GCN层进行空间维度的特征提取工作，在本实施方式中，选择2层图卷积作为图卷积网络GCN层属性，其计算公式如下：

其中，D表示度矩阵，对角线上的元素为图中各个顶点的度，

为优化后的邻接矩阵；

为优化后的度矩阵；

是矩阵U的转置，T为转置符号；

为n个特征值构成的对角阵；

为特征值；

表示第l层的特征矩阵；

表示在特定层L层中的可训练权重矩阵；

为线网进站客流量特征矩阵；

表示激活函数。

进一步地，在本实施方式中，双向长短时记忆神经网络BiLSTM层对融合了所述空间维度的特征的客流量提取出时间维度的特征，此时双向长短时记忆神经网络BiLSTM层中的单项LSTM模型三个门控制单元公式采用以下公式：

其中，

表示遗忘层输出的遗忘权重结果；

为遗忘门中

和

的权重矩阵；

表示t时刻2层图神经网络输出的隐藏层的隐藏状态；

为当前时刻输入的外部特征序列；

为遗忘门中的偏置参数；

表示记忆层输出的记忆权重结果；

为记忆门中

和

的权重矩阵；

为记忆门中的偏置参数；

表示记忆细胞状态储存单元中

和

的权重矩阵；

表示记忆细胞状态储存单元中的偏置参数；

表示t-1时刻的记忆状态；

表示当前时刻的记忆状态；

表示输出层输出的遗忘权重结果；

为输出门中

和

的权重矩阵；

为输出门中的偏置参数；

表示模型t时刻的输出。

将正反两个方向的LSTM模型输出

和

结合得到BiLSTM输出；

。

由此可以得到分别经过图卷积网络GCN层和双向长短时记忆神经网络BiLSTM层后融合了时间和空间特征属性的轨道交通线网进站客流。

进一步地，在本实施方式中，激活层为全连接层，计算过程如以下公式：

其中，y表示记

时刻输出的进站客流预测值；Q为总时间步长；

表示BiLSTM模型t时刻的输出。

进一步地，在本实施方式中，损失函数计算层在针对轨道交通线网进站客流预测的过程中，为了追求预测误差的最小化，采用损失函数

来判定预测的结果好坏，同时还要防止过度关注测试集误差时所导致的模型过拟合情况。因此在损失函数的计算中，定义

为模型预测值（即第一预测客流量数据），

为实际的进站客流量（即真实客流量数据），引入

正则化项

加强模型的抗扰动性，具体计算公式如下：

其中，

为正则化系数，合理的系数

可以减小正则化中代价函数最值参数，起到避免模型的过拟合现象，但是过大的系数

会导致模型欠拟合现象的出现。故在本实施方式中通过逐渐增大系数

值的方式找出模型最适合的正则化系数

，从而优化上述基于（融合）注意力机制的时空图卷积模型。

进一步地，在本实施方式中，注意力机制的计算公式包括：

其中，F_t为预测客流量数据y_t对应的特征向量；Q为总时间步长；

表示训练时的赋予包含了输入序列中

之前时刻的进站客流信息向量h_t的权重，由第

个时刻输出的隐藏状态

，以及h_t决定的；

表示j时刻注意力权重打分情况；

表示k时刻注意力权重打分情况；h_j表示j时刻的隐藏层状态；k和j表示相应时刻。

在所述注意力机制的解码器中，由

影响的对应预测客流量数据

计算公式为：

对应的深度学习模型。

图3示意性表示融合注意力机制的时空图卷积模型（ATT-BT-GCN）的结构框图。在本实施方式中，在对上述时空图卷积模型训练的同时引入注意力机制的帮助对目标相关特征进行强化聚焦，达到为模型减少参数、加快学习效率以及提高预精度的效果。

进一步地，根据本发明的一种实施方式，在上述d和e步骤中，将测试集输入上述优化后的时空图卷积模型后会得到第二预测客流量数据。得到第二客流量数据后，按照上述方式，通过损失函数

来计算第二预测客流量数据与真实客流量数据之间的损失，然后将该损失与上述第一预测客流量数据与真实客流量数据之间的损失进行对比，通过对比结果判断优化后的时空图卷积模型是否出现欠拟合或者过拟合现象，若是（欠拟合：两者损失值很大，且模型损失函数未收敛；过拟合：训练集损失值很小，但预测集损失随迭代次数的增加变大），则调整优化后的时空图卷积模型中的超参数（对于欠拟合可以进行增加迭代次数和增大学习率的策略；对于过拟合可以采用提前终止模型或者增加数据集等策略来避免）设置，调整后再对测试集进行测试，输出最终预测客流量数据；若否（模型损失函数基本收敛，且预测集和训练集损失值差距小于10%），则将上述第二预测客流量数据认定为最终客流量数据。如此方案可以有效地提高本发明的预测轨道交通客流的模型的稳定性，加强模型的抗扰动性，使得轨道交通客流的预测结果精准有效，对于轨道交通列车调控、轨道交通警报发布、以及服务效率提升的工作中起到至关重要的作用。

根据本发明的上述方案，本发明提出的是考虑巨量客流特征的轨道交通路网客流的预测方法。结合GCN模型（图卷积网络模型）可以捕捉轨道交通线网站点间空间关系的优点和BiLSTM模型（双向长短时记忆神经网络模型）对时间序列数据高精度预测优点，构建轨道交通客流短时预测模型框架BT-GCN。考虑轨道交通时空特征，融合注意力机制（Attention,ATT），捕捉历史进站客流数据与当前时刻进站客流量的相关程度并将相关程度以权重的形式表示。本发明所提模型可以综合考虑进站客流时空特征并以历史数据相关时间点对时空属性进行加强工作，从而进行准确的客流预测。

为实现上述目的，本发明还提供一种融合注意力机制和图神经网络的轨道交通客流预测系统，其结构框图如图4所示，具体包括：

数据获取模块，获取历史轨道交通客流量数据，将历史轨道交通客流量数据分为训练集和测试集；

模型训练模块，采用基于注意力机制的时空图卷积模型，利用训练集对时空图卷积模型进行训练，获得第一预测客流量数据；

模型优化模块，计算第一预测客流量数据与真实客流量数据之间的损失，优化时空图卷积模型；

客流量预测模块，将测试集输入优化后的时空图卷积模型，输出第二预测客流量数据；

客流量校准模块，计算第二预测客流量数据与真实客流量数据之间的损失，将该损失与第一预测客流量数据与真实客流量数据之间的损失进行对比，判断优化后的时空图卷积模型是否出现欠拟合或者过拟合现象，若是，则调整优化后的时空图卷积模型中的超参数设置，调整后再对测试集进行测试，输出最终预测客流量数据；若否，则将第二预测客流量数据认定为最终客流量数据。

根据本发明的一种实施方式，在上述数据获取模块中，基于研究区域内地铁运营AFC系统收集的乘客进出站数据，通过以15min粒度为单位的客流聚合工作，得到历史轨道交通客流量数据，将历史轨道交通客流量数据分为训练集和测试集；

根据本发明的一种实施方式，在上述模型训练模块和模型优化模块中，时空图卷积模型包括图卷积网络GCN层、双向长短时记忆神经网络BiLSTM层、激活层和损失函数计算层，时空图卷积模型的结构如图2所示。

其中，将研究实践范围内每个时间段轨道交通线网所有站点的进站客流客流量作为输入信息

（t取0，1,···，n）送入图卷积网络GCN层进行空间维度的特征提取工作，在本实施方式中，选择2层图卷积作为图卷积网络GCN层属性，其计算公式如下：

式中，D表示度矩阵，对角线上的元素为图中各个顶点的度，

为优化后的邻接矩阵；

为优化后的度矩阵；

是矩阵U的转置，T为转置符号；

为n个特征值构成的对角阵；

为特征值；

表示第l层的特征矩阵；

表示在特定层L层中的可训练权重矩阵；

为线网进站客流量特征矩阵；

表示激活函数。

其中，

表示遗忘层输出的遗忘权重结果；

为遗忘门中

和

的权重矩阵；

表示t时刻2层图神经网络输出的隐藏层的隐藏状态；

为当前时刻输入的外部特征序列；

为遗忘门中的偏置参数；

表示记忆层输出的记忆权重结果；

为记忆门中

和

的权重矩阵；

为记忆门中的偏置参数；

表示记忆细胞状态储存单元中

和

的权重矩阵；

表示记忆细胞状态储存单元中的偏置参数；

表示t-1时刻的记忆状态；

表示当前时刻的记忆状态；

表示输出层输出的遗忘权重结果；

为输出门中

和

的权重矩阵；

为输出门中的偏置参数；

表示模型t时刻的输出。

其中，y表示记

时刻输出的进站客流预测值；Q为总时间步长；

表示BiLSTM模型t时刻的输出。

为模型预测值（即第一预测客流量数据），

为实际的进站客流量（即真实客流量数据），引入

正则化项

加强模型的抗扰动性，具体计算公式如下：

其中，

为正则化系数，合理的系数

值的方式找出模型最适合的正则化系数

进一步地，在本实施方式中，注意力机制的计算公式包括：

表示训练时的赋予包含了输入序列中

之前时刻的进站客流信息向量h_t的权重，由第

个时刻输出的隐藏状态

，以及h_t决定的；

表示j时刻注意力权重打分情况；

在所述注意力机制的解码器中，由F_t影响的对应预测客流量数据y_t计算公式为：

对应的深度学习模型。

融合注意力机制的时空图卷积模型（ATT-BT-GCN）的结构框图如图3所示。在本实施方式中，在对上述时空图卷积模型训练的同时引入注意力机制的帮助对目标相关特征进行强化聚焦，达到为模型减少参数、加快学习效率以及提高预精度的效果。

进一步地，根据本发明的一种实施方式，在上述客流量预测模块和客流量校准模块中，将测试集输入上述优化后的时空图卷积模型后会得到第二预测客流量数据。得到第二客流量数据后，按照上述方式，通过损失函数

为实现上述发明目的，本发明还提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上所述的融合注意力机制和图神经网络的轨道交通客流预测方法。

为实现上述发明目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上所述的融合注意力机制和图神经网络的轨道交通客流预测方法。

基于以上本发明的技术方案，为了验证本发明的效果，本发明配置以下实验验证本发明的效果：

1.实验设置

（1）实验环境

本发明的优化所述时空图卷积模型模型在Windows系统中Pycharm集成开发环境下利用Python进行编译，具体的实验环境配置如以下表1所示。

表1

（2）实验数据集

实验数据集选择2016年4月到6月武汉市轨道交通线网中全部96个站点以15min为时间粒度的进站客流量，数据集形状为

的矩阵。

（3）实验评价指标

回归评价指标是对模型预测工作效果的评价的定量指标，不同的评价方法可以从预测数据的不同角度对模型的性能进行反应。因为关于轨道交通客流预测的工作中，在每天的预测期起始点进站客流量值与峰值相比相差很远，此时段MAPE评价效果影响效果较大，且存在有些站点进站客流量为0的情况存在，故本发明所提模型选择平均绝对误差（MAE）、均方根误差（RMSE）、准确度（Accuracy）、决定系数(

)、可释方差得分（EVS）五个评价指标进行评价工作。

（4）实验超参数设置

神经网络中的超参数设置很大程度上决定了网络训练速度快慢和结果准确性。实验中的主要超参数包括6种：学习率、迭代次数、训练集和预测集大小比例、批量大小、优化器选择以及隐藏单元数。

1）学习率（learning rate）

学习率作为深度学习中的重要参数，在神经网络中通过控制模型每次利用反向传播的误差大小来控制模型的内部参数调整，使得模型向误差减小的方向发展。学习率的大小会影响到神经网络的敛散性，在本发明构建的模型中选择0.01作为学习率的大小。

2）迭代次数（epoch）

迭代次数表示神经网络模型对整体训练集的遍历次数，遍历次数越多训练越充分。经过多次实验，将迭代次数设定为3000。

3）训练集和预测集大小比例

将整体数据集分为训练数据集和预测数据集，先前学者经验表明，数据量小于万级别时将训练集和预测集比例分为4：1较为合理。处理后数据量为6451，属于万级别以下数据集，故选择4：1作为训练集和预测集大小比例。

4）批量大小（batch size）

批量大小的设置表示每次训练输入训练集中数据的个数，可以帮助神经网络模型找到正确的梯度下降方向。通过多次实验验证，设置批量大小为100时可以兼顾收敛速度和运行内存两方面收益，故选择100作为实验批量大小。

5）优化器选择（optimizer）

优化器通过优化训练中的参数降低模型的损失函数。本实验选择一种结合了Momentum和RMSProp算法的自适应学习率优化算法Adam作为优化器帮助模型寻找正确梯度下降的方向。

6）隐藏单元数（hidden units）

隐藏单元的作用是将输入数据的特征映射到高维空间中，达到对输入数据特征的线性划分工作。本实验以其余超参数数值选择为基础，将隐藏单元数分为8、16、32、64、128个数量分类，并分别做了5组对比实验，以选择的评价指标作为最终选取隐藏单元数量的依据。

ATT-BT-GCN模型在不同隐藏单元下的预测效果如以下表2所示。将评价指标以自身性质为基础分为以低值为目标的MAE、RMSE以及以高值为目标的Accuracy、R2、EVS两类进行分析。

表2

由表2可知，在MAE和RMSE评价指标中，当隐藏单元数为64时，MAE和RMSE值同时达到最小，相较其他隐藏单元数分别降低了4.36%-21.23%和4.94%-23.42%。

在Accuracy、R²和EVS评价指标中，隐藏单元为16、32、64、128时数值相近，其中单元数为64时略高一点。两类评价指标的对比分别如图5和图6所示。

故选择隐藏单元为64作为输入。

综上所述，本发明提出的ATT-BT-GCN模型超参数设置如以下表3所示。

表3

（5）基线模型的选择

基线模型以不同模型的典型特点分别选择了线性模型ARIMA、浅层机器学习方法SVR、循环神经网络方法BiLSTM、图卷积方法GCN以及本发明提出的基础模型BT-GCN。

2.实验结果分析

（1）实验结果

在预测工作中，经过3000次迭代，本发明提出的ATT-BT-GCN模型达到收敛状态，未出现过拟合情况。所有模型都以前1小时的进站客流量分别对15min、30min、60min后的进站客流量进行预测，并分别作为短期、中期、长期的预测结果，具体模型预测结果如表4所示。

表4

注：*表示数值很小或负值，其预测效果小于直接取历史平均值预测效果。

由表4可知，实验结果表明，本发明提出的ATT-BT-GCN模型在短期和中期的预测中有着优异的预测效果，在长期预测结果中，ATT-BT-GCN模型与BT-GCN模型预测精度相似，总体来说，本发明提出的ATT-BT-GCN模型有着最好的预测性能。

轨道线网中整体站点在早高峰、平峰和晚高峰时段的对比情况如下图7-12所示，其中，在早高峰时段轨道网络进站客流分布相较晚高峰和平峰时段分布更加均匀，反映了居住区域的分布，在晚高峰和平峰时段进站客流分布相似，主要集中于办公区域。ATT-BT-GCN模型在不同时段的进站客流预测中捕捉的整体线网客流分布特征与实际进站客流分布吻合。

而且，在考虑不同预测时长的预测效果对比中，ARIMA模型的稳定性最强，预测时长对其影响最小，但是不同时长下的误差值最大；本发明提出的ATT-BT-GCN模型在短期和中期预测中效果最好，相较基线模型在短期预测中RMSE和MAE分别降低了7.33%-63.29%和9.38%-66.65%，中期预测中RMSE和MAE分别降低了12.30%-62.60%和15.37%-66.71%，在长期预测中模型精度下降速度较大，其中RMSE略高于BT-GCN模型0.93%，相较其他基线模型降低了22.16%-47.57%，MAE相比基线模型同样是最优选择，分别降低了2.58%-53.97%。

由此可知，本发明提出的ATT-BT-GCN模型在中短期进站客流预测中有着较强的稳定性，在短期预测中有着最好的预测效果，在中期进站客流预测中误差值相较基线模型下降比例最大，模型性价比最高，随着预测时间的上升融合注意力机制的效果下降明显，在长期预测中预测效果与不包含注意力机制的BT-GCN模型相近。

综上所述，本发明的ATT-BT-GCN模型在中短期的客流预测中有着突出的效果。不同预测时长下的RMSE和MAE对比图如图13和图14所示。

不仅如此，本发明的ATT-BT-GCN模型在面对客流峰值以及非周期性客流变化时模型预测精度高于BT-GCN模型，且在低进站客流值情况下预测精度提高更加明显。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

另外，在本发明实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

Claims

1.融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，包括：

2.根据权利要求1所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述时空图卷积模型包括图卷积网络GCN层、双向长短时记忆神经网络BiLSTM层、激活层和损失函数计算层。

3.根据权利要求2所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述图卷积网络GCN层将轨道交通线网所有站点的客流量提取出空间维度的特征，计算公式为：

选择2层图卷积作为图卷积网络GCN层属性，

I_N＝UU^T

其中，D表示度矩阵，对角线上的元素为图中各个顶点的度，D_i，i表示每个顶点的度；A表示以轨道交通线网为基础建立的邻接矩阵；A_i，j表示邻接矩阵A上i行j列的值；i表示矩阵的第i行；j表示矩阵的第j列；

为优化后的邻接矩阵；

为优化后的度矩阵；I_N为单位矩阵；L表示拉普拉斯矩阵；U表示是拉普拉斯矩阵经过特征值分解得到的正交矩阵；U^T是矩阵U的转置，T为转置符号；Λ为n个特征值构成的对角阵；λ_n为特征值；H⁽²⁾表示第2层的特征矩阵；W⁽⁰⁾和W⁽¹⁾分别表示在特定层0层和1层中的可训练权重矩阵；X为线网进站客流量特征矩阵；σ(·)表示激活函数。

4.根据权利要求3所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述双向长短时记忆神经网络BiLSTM层对融合了所述空间维度的特征的客流量提取出时间维度的特征，其中单向的LSTM模型计算公式为：

h_t＝O_t*tanh(C_t)

其中，f_t表示遗忘层输出的遗忘权重结果；W_f为遗忘门中

和x_t的权重矩阵；

表示t时刻2层图神经网络输出的隐藏层的隐藏状态；x_t为当前时刻输入的外部特征序列；b_f为遗忘门中的偏置参数；i_t表示记忆层输出的记忆权重结果；W_i为记忆门中

和x_t的权重矩阵；b_i为记忆门中的偏置参数；

表示描述当前细胞记忆状态的参数；sigmiod、tanh为激活函数；W_C表示记忆细胞状态储存单元中

和x_t的权重矩阵；b_C表示记忆细胞状态储存单元中的偏置参数；C_t-1表示t-1时刻的记忆状态；C_t表示当前时刻的记忆状态；O_t表示输出层输出的遗忘权重结果；W_O为输出门中

和x_t的权重矩阵；b_O为输出门中的偏置参数；h_t表示模型t时刻的输出；

将正反两个方向的LSTM模型输出

和

结合得到BiLSTM输出；

其中，HBI_t表示BiLSTM模型t时刻的输出。

5.根据权利要求4所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述激活层为全连接层，全连接层将BiLSTM输出的多维向量进行维度转变，最终得到所需维度进行输出，计算过程如以下公式：

其中，y表示记时刻输出的进站客流预测值；Q为初始时间步。

6.根据权利要求5所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述损失函数计算层采用损失函数loss计算预测客流量数据与真实客流量数据之间的损失，计算公式为：

loss＝||y_yt-y_t||+λL_reg

其中，y_t为预测客流量数据，y_yt为真实客流量数据，λ为正则化系数，L_reg为L2正则化项。

7.根据权利要求6所述的融合注意力机制和图神经网络的轨道交通客流预测方法，其特征在于，所述注意力机制的计算公式包括：

e_tj＝σ(s_t-1，h_j)

其中，F_t为预测客流量数据y_t对应的特征向量；α_tj表示训练时的赋予包含了输入序列中x_t之前时刻的进站客流信息向量h_t的权重，由第t-1个时刻输出的隐藏状态s_t-1，以及h_t决定的；e_tj表示j时刻注意力权重打分情况；e_tk表示k时刻注意力权重打分情况；h_j表示j时刻的隐藏层状态；k和j表示相应时刻；

s_t＝σ(s_t-1，y_t-1，F_t)

y_t＝g(y_t-1，s_t，F_t)

其中，s_t表示t时刻输出的隐藏状态，s_t-1表示t-1时刻输出的隐藏状态，y_t-1表示t-1时刻对应的客流量数据，g(·)对应的深度学习模型。

8.融合注意力机制和图神经网络的轨道交通客流预测系统，其特征在于，包括：

9.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的融合注意力机制和图神经网络的轨道交通客流预测方法。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的融合注意力机制和图神经网络的轨道交通客流预测方法。