CN116468186B

CN116468186B - 一种航班链延误时间预测方法、电子设备及存储介质

Info

Publication number: CN116468186B
Application number: CN202310702548.XA
Authority: CN
Inventors: 丁建立; 黄辉; 曹卫东
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-25
Anticipated expiration: 2043-06-14
Also published as: CN116468186A

Abstract

本发明提供了一种航班链延误时间预测方法、电子设备和存储介质，方法包括：获取航班运行数据集DF和气象数据集DW；获取航班延误时间数据集DT；基于DF、DT和DW获取融合数据集MD；基于MD中的飞行日期和飞行器的尾号，从MD中获取航班链，得到多条航班链；利用所述多条航班链作为训练样本对初始航班链延误时间预测模型中进行训练，得到目标航班链延误时间预测模型；利用所述目标航班链延误时间预测模型对待预测的航班链中未运行的航班的延误信息进行预测。本发明能够提高航班链延误信息的预测精度。

Description

一种航班链延误时间预测方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种航班链延误时间预测方法、电子设备及存储介质。

背景技术

航班链是指在实际运行过程中，同一航空器在同一天中往往会被指派执行多个连续的航班任务，这些连续航班就构成了一条航班链。

随着航空交通规模的不断扩大，航空交通网络趋于复杂化，在这个复杂的航空交通网络中，航班链相互交织，每个机场、每架航班都紧密相关。这就导致了航班发生延误时，可能发生延误波及效应，在无法得到适当的处理时，会导致大面积航班延误。为了解决这个复杂的问题，需要探索一种有效的方法，在能够综合考虑多方因素同时，从航班链整体的角度出发，尽可能地挖掘航空交通网络中的时空相关性，预测预估航班链的运行状态，达到早发现早预防的目的。

随着深度学习和大数据技术的飞速发展，神经网络模型已经成为航班延误时间预测领域的研究新兴技术，其中卷积神经网络、循环神经网络、图神经网络等是常见的神经网络模型。

当前，关于航班延误的一些预测方法，虽然在机场延误预测和小范围航班延误预测方面取得了一定的成果，但应对大范围航班链延误时间预测是具有预测精度不足和时效性不佳的问题。究其原因仍存在以下不足。1）现有的预测方法大多针对单个机场或者局限于小部分航空交通网络。航空交通网络是一个整体，孤立的研究分析很难充分挖掘航班延误的关联因素，精准预测航班运行态势。2）现有的预测方法训练和预测过程多中使用小样本数据，无法应对真实环境下海量、高纬度数据。3）大多数方法没能充分考虑气象因素影响。因此，提高大范围航班链延误预测的精度和时效性是值得探讨的课题。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种航班链延误时间预测方法，所述方法包括如下步骤：

S100，获取航班运行数据集DF={DF₁，DF₂，……，DF_i，……，DF_n}和气象数据集DW={DW₁，DW₂，……，DW_r，……，DW_m}，其中，第i个航班运行数据DF_i=（N_i，C_i，SA_i，RA_i，TPSF_i，TPAD_i，TRSF_i，TRAD_i，M_i，E_i，S_i，Ag_i，P_i，L_i，H_i，D_i），N_i为第i个航班的航班号，C_i为第i个航班对应的航空公司的ID，SA_i为第i个航班的起飞机场的ID，RA_i为第i个航班的到达机场的ID，TPSF_i为第i个航班的计划起飞时间，TPAD_i为第i个航班的计划降落时间，TRSF_i为第i个航班的实际起飞时间，TRAD_i为第i个航班的实际降落时间，M_i为第i个航班对应的飞行器的ID，E_i为第i个航班对应的飞行器的尾号，S_i为第i个航班对应的航班状态，Ag_i为第i个航班对应的飞行器的年龄，P_i为第i个航班对应的飞行器的用户承载量，L_i为第i个航班对应的飞行距离，H_i为第i个航班对应的飞行高度，D_i为第i个航班对应的飞行日期；i的取值为1到n，n为DF中的航班数量；第r个气象数据DW_r=（MT_r，A_r，T_r，V_r，GV_r，VB_r，SC_r，SW_r），其中，MT_r为第r个气象数据的监测时间，A_r为第r个气象数据对应的机场的ID，T_r为第r个气象数据中的气温，V_r为第r个气象数据中的风速，GV_r为第r个气象数据中的阵风风速，VB_r为第r个气象数据中的能见度，SC_r为第r个气象数据中的云层状态，SW_r为第r个气象数据中的天气状态；r的取值为1到m，m为DW中的气象数据的数量；

S200，获取航班延误时间数据集DT={DT₁，DT₂，……，DT_i，……，DT_n}，第i个航班延误时间数据DT_i=（DLT_i，DRT_i），其中，DLT_i为第i个航班的离港延误时间，DRT_i为第i个航班的到港延误时间；

S300，基于DF、DT和DW获取融合数据集MD={MD₁，MD₂，……，MD_i，……，MD_n}，其中，第i个融合数据MD_i=DF_i+DT_i+FWS_i+RWS_i+FWR_i+RWR_i，FWS_i为SA_i在TPSF_i之前的第一设定时间段内对应的气象数据，RWS_i为SA_i在TPSF_i之后的第二设定时间段内对应的气象数据，FWR_i为RA_i在TPAD_i之前的第三设定时间段内对应的气象数据，RWR_i为RA_i在TPAD_i之后的第四设定时间段内对应的气象数据，+表示数据拼接；

S400，基于MD中的飞行日期和飞行器的尾号，从MD中获取航班链，得到多条航班链；每个航班链包括飞行器的尾号相同并且飞行日期相同的多个融合数据；

S500，利用所述多条航班链作为训练样本对初始航班链延误时间预测模型中进行训练，得到目标航班链延误时间预测模型；其中，所述初始航班链延误时间预测模型采用编码器-解码器架构；

S600，利用所述目标航班链延误时间预测模型对待预测的航班链中未运行的航班的延误信息进行预测。

本发明实施例提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

本发明实施例还提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明实施例提供的航班链延误时间预测方法，充分考虑了航班运行特点和航班链的时空关联特性，依据Fastformer和GraphSAGE模型架构搭建航班链延误预测模型。在编码器中，采用基于加性注意力机制和区域聚合卷积的时间特征提取通道，能够在降低运算复杂的同时充分提取相关特征；在空间特征提取通道中，通过改进GraphSAGE模型的抽样和聚合方式，可以精准的捕捉复杂的交通网络中关键节点信息。并通过可学习门控网络充分融合时空关联特征。在解码器中，通过单向卷积模块汇聚局部相关延误时间特征，并通过时空稀疏交叉注意力机制充分挖掘时空关联特征和延误时间的内在联系。本发明能够提高大范围例如国内所有机场的航班链延误预测的计算效率和预测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的航班链延误时间预测方法的流程图；

图2为本发明实施例提供的航班链延误时间预测模型的架构图；

图3和图4为本发明实施例的实验效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种航班链延误时间预测方法，如图1所示，所述方法可包括如下步骤：

S100，获取航班运行数据集DF={DF₁，DF₂，……，DF_i，……，DF_n}和气象数据集DW={DW₁，DW₂，……，DW_r，……，DW_m}，其中，第i个航班运行数据DF_i至少包括第i个航班对应的飞行器的尾号、飞行日期和延误信息，所述延误信息包括离港延误时间和到港延误时间；i的取值为1到n，n为DF中的航班数量；DW_r为DW中的第r个气象数据，r的取值为1到m，m为DW中的气象数据的数量。

在本发明实施例中，航班运行数据和气象数据可基于历史数据获取，具体可从机场数据提供平台获取得到。在本发明实施例中，DF_i=（N_i，C_i，SA_i，RA_i，TPSF_i，TPAD_i，TRSF_i，TRAD_i，M_i，E_i，S_i，Ag_i，P_i，L_i，H_i，D_i），N_i为第i个航班的航班号，C_i为第i个航班对应的航空公司的ID，SA_i为第i个航班的起飞机场的ID，RA_i为第i个航班的到达机场的ID，TPSF_i为第i个航班的计划起飞时间，TPAD_i为第i个航班的计划降落时间，TRSF_i为第i个航班的实际起飞时间，TRAD_i为第i个航班的实际降落时间，M_i为第i个航班对应的飞行器的ID，E_i为第i个航班对应的飞行器的尾号，S_i为第i个航班对应的航班状态，Ag_i为第i个航班对应的飞行器的年龄，P_i为第i个航班对应的飞行器的用户承载量，L_i为第i个航班对应的飞行距离，H_i为第i个航班对应的飞行高度，D_i为第i个航班对应的飞行日期。

DW_r=（MT_r，A_r，T_r，V_r，GV_r，VB_r，SC_r，SW_r），其中，MT_r为第r个气象数据的监测时间，A_r为第r个气象数据对应的机场的ID，T_r为第r个气象数据中的气温，V_r为第r个气象数据中的风速，GV_r为第r个气象数据中的阵风风速，VB_r为第r个气象数据中的能见度，SC_r为第r个气象数据中的云层状态，SW_r为第r个气象数据中的天气状态。

在本发明实施例中，机场的ID可为机场三字码。航班状态可为现有的航班状态信息，例如可包括航班取消、航班值机关闭、航班开放、航班保护、登机口开放办理等状态信息。

在本发明实施例中，可按照预设的监测时间间隔采集每个机场的气象数据，例如，每1小时采集一次数据。

在本发明一示意性实施例中，上述航班运行数据和气象数据的具体定义基于专家经验获取得到。在本发明另一实施例中，上述航班运行数据和气象数据的具体定义基于如下步骤获取得到：

S101，获取设定历史时间段内的航班运行数据和气象数据作为实验数据，并对实验数据中的缺失数据进行处理。

由于气象因素和人为因素等原因，一年中每个月航班运行状态具有很大的差异，在本发明实施例中，使用2017至2018年的航班运行数据和气象数据作为实验数据，其中航班运行数据69115358条，气象数据3551212条，这些实验数据包含了国内大小四百余个机场之间的航班信息，平均每天的航班数量为1.2万架次，平均在某一时刻存在超过百余条航班链同时运行。通过对数据集检查发现，航班运行数据中63个特征和气象数据中12个特征的缺失率超过了70%，对以上这些特征采取直接删除的方式处理。

对于剩余的目标特征，仍然存在不同程度的缺失，由于特征类型复杂，需要采取不同的缺失填充方式。对于数值型的特征，采取以0填充或者均值填充的方式。对于对象型的特征，采取以下两种填充方式：一是对于具有时间顺序性的特征，使用上一时刻特征值填充；其余对象型特征采取标志位填充，即将缺失值视为相同的对象值。对于时间相关的类型特征，缺失率较低，且该类特征直接影响航班延误结果，采取直接删除含有缺失的数据。部分特征填充方式如表1所示：

表1

S102，对处理后的实验数据进行编码处理，得到编码处理后的数据。

实验数据包含多种类型的数据特征，为了能够使用神经网络模型进行运算，需要将不同类型的特征编码为模型能够计算的浮点类型。在此，选取混合编码的方式对数据集进行编码。具体地，可包括：

S1021，对实验数据中属于时间类型的数据，使用独热编码和位置编码方式进行编码，以及对实验数据中不属于时间类型的数据，使用James-Stein Encoder编码方式进行编码，得到数值型数据。

在本发明实施例中，对于时间类型特征，首先提取时间特征的年、月、日、时、分、秒、的时间标签信息，然后使用独热编码分别对时间标签进行编码，并将编码之后的向量按照同一纬度拼接就得到了时间特征的向量表示。然后使用位置编码，生成对应的映射矩阵，将时间向量映射到模型输入所在维度，进而表示时间特征的顺序信息。使用该编码方式的好处，一是解决独热向量维度过大的问题，二是考虑到Transformer结构本身不携带顺序信息，通过位置编码可以充分表示航班的时序特性。

对于其他对象类型特征例如飞机型号、航空公司名称等，可采用James-SteinEncoder编码的方式。James-Stein Encoder编码是以数据的目标特征作为编码依据，通过分析观测特征和总体特征对应目标值的方差和均值得到观测特征的编码表示。本发明实施例中，实验目标为预测航班链中航班的延误时间，则目标特征为每条航班运行数据的离港和进港延误时间，James-Stein Encoder编码算法步骤可为现有技术。

S1022，使用Min-max编码方式对数值型数据编码，得到编码处理后的数据。

最后，所有特征均转换为数值类型特征，对于数值类型的特征，可采用Min-max编码进行归一化编码处理，得到编码处理后的数据。

S103，对编码处理后的数据，根据方差过滤和卡方检验相关性分析，得到所述航班运行数据和所述气象数据。

S200，获取航班延误时间数据集DT={DT₁，DT₂，……，DT_i，……，DT_n}，第i个航班延误时间数据DT_i=（DLT_i，DRT_i），其中，DLT_i为第i个航班的离港延误时间，DRT_i为第i个航班的到港延误时间。

在本发明实施例中，DLT_i=TRSF_i-TPSF_i，DRT_i满足条件：如果TRAD_i＜TPAD_i，即，如果航班提前到达，则视为不延误，DRT_i=0，如果TRAD_i＞TPAD_i，DRT_i=TRAD_i-TPAD_i。

S300，基于DF、DT和DW获取融合数据集MD={MD₁，MD₂，……，MD_i，……，MD_n}，其中，第i个融合数据MD_i=DF_i+DT_i+FWS_i+RWS_i+FWR_i+RWR_i，FWS_i为SA_i在TPSF_i之前的第一设定时间段内对应的气象数据，RWS_i为SA_i在TPSF_i之后的第二设定时间段内对应的气象数据，FWR_i为RA_i在TPAD_i之前的第三设定时间段内对应的气象数据，RWR_i为RA_i在TPAD_i之后的第四设定时间段内对应的气象数据，+表示数据拼接。

在本发明实施例中，所述第一设定时间段的时长t1=b1×△t，所述第二设定时间段的时长t2=b2×△t，所述第三设定时间段的时长t3=b2×△t，所述第四设定时间段的时长t4=b1×△t，b1和b2为正整数，并且，b1＜b2，△t为气象数据的监测时间间隔，例如△t=1小时。在一个示意性实施例中，b1=1，b2=2，即1条航班数据（由航班运行数据和航班延误时间数据构成）关联6条气象数据，分别为起飞机场在飞机起飞时间前的1小时，在飞机起飞时间后的1小时和2小时的气象数据，以及到达机场在飞机降落时间前的1小时、2小时，在飞机降落时间后的1小时的气象数据。

S400，基于MD中的飞行日期和飞行器的尾号，从MD中获取航班链，得到多条航班链；每个航班链包括飞行器的尾号相同并且飞行日期相同的多个融合数据，即多个航班。

在本发明实施例中，在得到航班数据和气象数据的融合数据集之后，使用数据集中的日期和飞机尾号作为键值，抽取航班链。这里，由于现实情况差异，航班链长度不相同，由于过短的航班链中航班延误及效应不明显，所以在此处理时，增加了条件选择机制，只保留长度大于3的航班链。最终共提取航班链3276428条，航班链最大长度为14。即每个航班链的融合数据数量k满足：4≤k≤14。

S500，利用所述多条航班链作为训练样本对初始航班链延误时间预测模型中进行训练，得到目标航班链延误时间预测模型，其中，所述初始航班链延误时间预测模型的架构为编码器-解码器结构。

具体地，本发明实施例中，所述编码器-解码器架构包括编码器组、解码器组和时间预测模块，其中，所述编码器组包括依次连接的Z个编码器，所述解码器组包括依次连接的Z个解码器。如图2所示（图2仅示出编码器组的最后一个编码器和解码器组中的最后一个解码器），每个编码器包括基于Fastformer的时间特征提取通道、基于GraphSAGE的空间特征提取通道以及门控融合模块。每个解码器包括带掩码的单向卷积模块和时空稀疏交叉注意力模块。

其中，每个编码器的门控融合模块的输入端分别与对应的时间特征提取通道和空间特征提取通道的输出端连接，第1至第Z-1个编码器中的每个编码器的门控融合模块的输出端分别与下一个编码器的时间特征提取通道和空间特征提取通道的输入端连接，第Z个编码器的门控融合模块的输出端分别与每个解码器的时空稀疏交叉注意力模块的输入端连接，即下一个编码器的输入为上一个编码器的输出，编码器组的最终输出由最后一个编码器输出。每个解码器的带掩码的单向卷积模块的输出端与所述时空稀疏交叉注意力模块的输入端连接，第1至第Z-1个解码器中的每个解码器的时空稀疏交叉注意力模块的输出端与下一个解码器的带掩码的单向卷积模块的输入端连接，第Z个时空稀疏交叉注意力模块的输出端与所述时间预测模块连接，即下一个解码器的输入为上一个解码器的输出，解码器组的最终输出由最后一个解码器输出。

其中，输入到所述编码器组的融合数据不包括航班延误时间数据，具体输入到编码器组的第1个编码器中，输入到所述解码器组中的融合数据仅包括航班延误时间数据，具体输入到解码器组的第1个解码器中。

在本发明实施例中，Z的取值可基于实际需要进行设置，在一个示意性实施例中，Z=6。

Fastformer模型是一种高效序列特征提取模型，该模型在原生Transformer模型的基础上做出改进，继承了Transformer对于序列化数据优秀的特征提取能力，此外其改进的加性注意力机制能够在线性复杂度下实现有效的上下文建模，相较于自注意力计算复杂度高、阻碍训练并行化的缺陷，打破了模型对长序列训练样本的内存和批量处理限制。在航班链延误预测问题中，航班之间具有严密的顺序特性，同一航班链中的航班具有强时间相关性。假设c(m₀,…，m_a，…，m_G)为一条长度为G的航班链，m_{_a}为当前正在执行的航班，m_{_i}的前序航班(m₀，…，m__(a-1))的运行状态对m_i以及后序航班(m_(a+1)，…，m_{_G})的运行状态具有直接的影响，即需要找寻函数f，能够通过前序航班运行状态预测后续航班延误时间x_a=f(x₀，x₁，…，x_(a-1))。使用Fastformer模型的注意力机制能够有效挖掘同一航班链中航班之间的关联性，从而提取时间关联特征。

进一步地，在本发明实施例中，所述基于Fastformer的时间特征提取通道用于执行如下操作：

S501，对当前输入的样本数据中的航班的顺序进行编码。

由于自注意力机制并不能表达航班数据的顺序特性，首先使用位置编码提前编码航班在航班链中的时间顺序，位置编码计算方式可为现有技术。

S502，使用多头自注意力机制计算编码后的每个航班链中的航班运行数据之间的时间相关性，得到对应的相关性特征。

本领域技术人员知晓，任何使用多头自注意力机制计算编码后的每个航班链中的航班运行数据之间的时间相关性，得到对应的相关性特征的方法均属于本发明的保护范围。

S503，对所述相关性特征进行聚合卷积处理，得到航班链时间特征。

本发明实施例中，针对航班链运行特点，为了增强模型对时序相关性的捕捉能力，本发明加入了区域聚合卷积模块。该模块的构思源于GraphSAGE模型的聚合思想，通过使用改进的卷积操作，该模块能够将当前航班与其前h个前序航班的特征进行有意义的融合，进而强化模型针对邻近前序航班对当前航班运行状态的影响的扑捉能力。具体来说，区域聚合卷积模块通过指定滑动窗口大小h，选取当前航班的h个前序航班，使用卷积机制聚合这些航班的特征，然后通过权重参数融合数据特征并生成新的特征表示。这样一来，模型就能更加准确地模拟出在实际航班链运行过程中可能存在的时序相关性信息。最后通过全连接网络整合不同时间步的时间关联特征，同时在网络传播中使用残差连接的方式，改善随着网络复杂的增加带来的梯度消失的问题，并通过使用归一化优化网络训练。

具体地，航班链时间特征中的第g个航班链中的第x个航班的时间特征F_gx满足如下条件：F_gx=a_gx×FR_gx+（1-a）×∑^x _z=x-hw_gz×FR_gz，FR_gx为第i个航班运行数据在第g个航班链对应的相关性特征中的特征，a_gx为第x个航班的融合权重，h为设定的卷积窗口大小，w_gz为第g个航班链中的第z个航班对应的卷积权重，g的取值为1到H，H为航班链时间特征中的航班链数量，x的取值为1到Zg，Zg为第g个航班链中的航班数量。

本领域技术人员知晓，航班链时间特征为多维特征矩阵或者特征张量。

在本发明实施例中，基于GraphSAGE的空间特征提取通道旨在挖掘延误状态在机场之间传播的影响以及不同航班链之间的交叉联系。在航空交通网络中，机场之间通过航班相互连接，因此机场的运行状态受到相邻机场的波及影响。为此，本发明首先采用图嵌入模块对输入的航班链数据进行图嵌入表示。该嵌入操作基于航班的起降机场，将航班链转化为图，然后得到交通图中节点的特征矩阵和节点之间的邻接矩阵。接下来是基于GraphSAGE模型的图特征提取模块，旨在挖掘延误信息在航空交通网络图结构中的传播规律。为了在保留有效信息的前提下提高模型的运行效率，本发明针对GraphSAGE模型的抽象和聚合方法做了改进。同时，本发明引入图解释模块来将机场节点的特征信息装换位到航班数据的空间特征。通过该通道的优化，可以更加准确地捕捉到不同机场之间的状态传播信息，进而提高航班延误预测的准确性。

具体地，所述基于GraphSAGE的空间特征提取通道用于执行如下操作：

S510，对当前输入的样本数据进行图嵌入表示，得到每个航班链对应的航空交通网络图，并获取所述航空交通网络图中节点的特征矩阵和节点之间的邻接矩阵。

在本发明实施例中，网络图中的每个节点表示一个机场。节点的特征可包括机场的属性、规模等信息，以及当前时间窗口下机场的繁忙程度等实时数据，邻接矩阵为机场节点之间的联系。

S510可具体包括：

S5101，获取当前输入的样本数据中的所有机场；

S1502，根据所有机场对应的航班运行数据构建网络图；

S1503，分别根据起飞机场和到达机场匹配航班数据，得到起飞机场的数据集M^d和到达机场的数据集M^a；

S1504，根据每个机场的数据集构造节点之间的邻接矩阵，为了更好的表达机场之间的关联性，使用带权重的邻接矩阵表示机场之间的关联程度，矩阵元素的计算满足如下条件：如果机场1和机场2之间没有航班，则这两个机场对应的节点之间的权重为0，如果机场1和机场2之间的航班数量为B，则这两个机场对应的节点之间的权重为B。

S1505，根据机场在时间窗下起降航班数量刻画机场繁忙程度，机场繁忙程度BL=（ma+md）/L，ma和md分别表示一个时间窗内进港和离港的航班数量，L为一个时间窗的大小。

S1506，根据机场匹配数据集构造机场节点特征矩阵,每个机场节点的特征向量X=CONCAT（M^d，M^a，BL），CONCAT（）为拼接函数，表示拼接操作。

S511，基于每个节点的静态属性和动态特征获取每个节点的权重，并基于获取的权重对节点进行采样。

为了将更多的重要信息融合到采样过程中，提高预测的准确性，本发明引入动态权重来改变节点的采样概率。具体来说，动态权重是根据节点的静态属性和动态特征计算得到的。静态属性包括机场大小、跑道规模等属性特征，动态特征主要由当前时间窗的机场繁忙程度以及当前的天气状态决定。在采样的时候会根据节点的权重调整数据分布，原先随机抽样权重相同的时候为均匀分布，加入权重之后会修改概率分布，这样，使得权重大的节点被抽到的概率高。

S512，利用LSTM神经网络作为聚合函数对邻接节点的特征进行聚合，每个邻接节点的聚合特征。

为了在聚合过程中保留一定的时序特征，本发明采用LSTM神经网络作为聚合函数。并且为了更好的聚合关键节点特征，在聚合过程中使用交通图的邻接矩阵作为聚合权重，保证了特征传递的真实性。聚合操作公式如下所示：

X^（L） _v=AGG（X^（L-1） _v，LSTM^（L）（{X^（L-1） _u∣u∈N（v）}））

其中，X^（L-1） _v为节点v在第L-1层时的特征向量，X^（L） _v为节点v在第L层时的特征向量。 LSTM^（L）为第L层的LSTM神经网络，用于对节点的邻居特征向量进行聚合。LSTM^（L）（{X^（L ^-1） _u∣u∈N（v）}）表示将节点v的邻居节点的特征向量进行拼接后输入到LSTM网络中，AGG表示根据邻接矩阵聚合邻居节点特征。

在本发明实施例中，考虑到航空交通网络图是一个稠密图，本发明采用两层聚合的方式进行聚合，能够获取主要节点的特征，更加切合民航业务逻辑，能够进一步提升图特征提取的准确性和效率。

S513，对每个节点和对应的邻接节点的特征进行加权融合，得到每个节点的融合特征。

可根据每个节点的邻接矩阵的权重进行加权求和，得到融合了自身节点的特征和邻接节点的特征的节点特征。

S514，对属于同一航班链的节点的融合特征进行拼接，得到对应的航班链空间特征。为了将时空特征融合到模型中，需要使用一个图解释模块来对GraphSAGE模块提取的空间特征进行还原。为此，本发明根据输入数据的起飞机场和到达机场查询对应节点的特征向量，并将两组机场节点的特征信息转换为航班数据的空间特征Os。具体公式为：Os=CONCAT（Xd，Xa）。

其中，Xd，Xa分别表示起飞机场和到达机场的节点特征矩阵。

最后为了能够与时间特征进行融合，在该通道中使用全连接网络统一数据维度，并通过残差连接和归一化融合空间相关性。

本发明实施例提供的基于GraphSAGE的空间特征提取通道可以更加准确地捕捉到航班延误在不同机场之间的传播规律，提高航班延误预测的准确性和稳定性。

由于直接将时间特征和空间特征简单的相加或者拼接并不能有效地融合航空交通网络的时空特征，因此，本发明使用了门控机制，设置可学习参数，使模型能够有效的学习航班数据的时空关联性。门控融合模块可以控制模型中的信息传递，输入数据经过时间特征提取通道和空间特征提取通道提取出时空相关特征，首先通过对时间特征进行维度转换，使其和空间特征满足矩阵乘法维度要求，然后采取乘积的形式计算融合权重，然后根据计算出的融合权重对时空特征进行相加融合，得到时空关联特征，即基于所述航班链时间特征和所述航班链空间特征融合得到时空关联特征，具体融合方式为：O_ST=W×O_S+(1-W)×O_T。O_ST为时空关联特征，W为融合权重，O_S为时间特征，O_T为空间特征。

在本发明实施例中，输入到所述解码器中的数据仅包括航班延误时间数据，即为航班链中所有航班的进港和离港延误时间。以下对解码器的结构进行说明。

在本发明实施例中，带掩码的单项卷积模块设计的目的是最大限度地找寻航班延误信息的时间相关性。该模块具有两个关键特征：掩码和单向。具体而言，该模块使用类似自注意力的掩码机制，遮盖未来时间步延误时间信息，并通过滑动掩码窗口模拟航班顺序运行效果。同时本发明实施例基于航班链特征设计了单向卷积机制，其中“单向”有两层意思，一方面卷积核只会按照航班链维度进行计算，只会影响航班链内部时间特征；另一方面代表前向的“偏卷积”计算，只会计算该航班和前序航班的时间特征。带掩码的单项卷积模块输出的特征的计算公式为：Z_uv=∑^W _g=1K_gX_u+g，v，其中，Z_uv为带掩码的单项卷积模块输出的特征矩阵的第u行、第v列元素的值，K_g为列卷积核第g个元素的值，W为列卷积核大小。

在该模块中，首先模型会通过全连接网络将输入的时间数据映射到模型的计算维度，然后使用大小为W的列卷积核，使其按照航班链维度滑动计算。通过该运算，能够将当前航班的延误时间信息和其前序航班的延误数据结合得到综合的延误特征。这些信息将被有机地融合到我们的模型中，进而提高模型的时空感知能力和预测性能。

进一步地，在本发明实施例中，所述时空稀疏交叉注意力模块通过筛选注意力对象和Local Attention机制充分挖掘时空关联特征和航班延误时间的关联性。具体地，所述时空稀疏交叉注意力模块用于执行如下操作：

S10，获取带掩码的单向卷积模块输出的特征矩阵的差异矩阵。

本发明的发明人，受到长时间序列预测模型Informer中Prob-Sparse自注意力机制的启发，本文提出了时空稀疏交叉注意力模块。在该模块中，首先使用概率分布p和均匀分布q的差异来衡量带掩码的单向卷积模块输出的特征矩阵的注意力强弱，以此找到关联性强的数据特征。具体地，计算该特征矩阵的最大平均注意力权重，并使用归一化方法将其转化为一个概率分布p。然后，基于KL散度的计算方法，计算均匀分布q和概率分布p各项之间差异度，并将其作为注意力权重调整的依据。计算公式为D_KL=log（p/q）。本发明实施例中，使用该公式来计算注意力概率分布与均匀分布之间的差异矩阵，进而得到带掩码的单向卷积模块输出的特征矩阵的差异矩阵。差异矩阵的数值的正负代表了数据特征相关性的强弱。

S11，获取差异矩阵中的大于设定值的特征值作为目标特征值。

在本发明实施例中，设定值可为0。

S12，获取目标特征值b对应的计算区域内的交叉注意力值LA_b=Softmax（（Q_b/d_s）^1/2×V_b），Q_b为门控融合模块输出的时空关联特征中与目标特征值b对应的目标区域对应的特征矩阵，d_s为时空关联特征中的每个特征向量的维度，V_b为带掩码的单向卷积模块输出的特征矩阵中与目标特征值b对应的目标区域对应的特征矩阵；b的取值为1到M，M为目标特征值的数量。Softmax（）为激活函数。

为了有效利用计算资源并提高模型性能，本发明采用的局部注意力（LocalAttention）方法计算最终的交叉注意力值。相对于全局注意力，局部注意力可以更加精确地捕捉到关键信息，同时也解决了全局注意力计算资源浪费的问题。同时在之前的单向卷积模块中就已经融合了部分临近的数据特征，通过局部注意力也不会存在无法感知全局的问题。具体地，在计算注意力矩阵时，本发明定义一个计算范围，仅计算带掩码的单向卷积模块输出的特征矩阵和门控融合模块输出的时空关联特征矩阵在强注意力范围内的值。这样可以避免计算大量无用的注意力值，节省计算资源，并能够更加准确地提取关键信息，提高模型的信息提取能力。

S13，将M个目标特征值对应的交叉注意力值进行融合，得到对应的输出特征。

将得到的M个目标特征值对应的交叉注意力值进行求和，得到时空稀疏交叉注意力模块输出的输出特征。

在本发明实施例中，时间预测模块可包括全连接网络，全连接网络的激活函数为Relu函数。时空稀疏交叉注意力模块输出的特征通过时间预测模块，会得到每个航班链中的后续航班延误时间。

在本发明实施例中，航班链延误时间预测模型的目标为预测航班链中所有后续航班的进港和离港延误时间，采取回归任务常用的评价指标来评估模型性能，分别为平均绝对误差（Mean Absolute Error，MAE）、均方根误差（RootMean Squared Error，RMSE）和可解释性方差（Explained Variance，EV）。

本发明实施例中，使用17年全年数据作为模型训练数据，分别选取具有代表性的月份18年的1、2、7、8月作为测试集和验证集。

本领域技术人员知晓，使用训练样本对初始航班链延误时间预测模型中进行训练的方法可为现有方法。

具体地，将待预测的航班链输入到目标航班链延误时间预测模型中，模型会根据待预测的航班链的运行计划和当前的运行航班的延误时间信息预测后序所有航班的延误时间。

为了验证本发明实施例提供的模型的有效性，在此设计了模型对比实验，通过与其它流行模型的实验效果进行对比来验证本模型的性能。

1. 实验设置

本发明设置以下4种基准模型作为实验对比。

1) LSTM+GCN：传统的时序预测模型结合基础的图卷积神经网络。

2) Transformer+GCN：整体采用原生Transformer模型，在编码器中增加GCN通道，并通过门控网络融合时空相关特征。

3) Fastformer+GCN：整体框架与实验(2)类似，不同点将其中的注意力机制改为加性注意力机制。

4) TransFormer+GraphSAGE：整体框架与实验(2)类似，不同点将其中GCN通道改为GraphSAGE模型。

5) STGCN：时空图卷网络，该模型在航班延误时间预测问题上取得了很好的效果。

以上所选择的模型都是时序数据预测和图神经网络的经典模型和组合，并且这些模型在一些研究领域已经验证了可行性，在此使用这些基准模型和本文提出的航班链延误预测模型（以下称ST-Former模型）进行对比实验，每个模型使用的数据和目标特征均相同，通过模型评价指标比较训练和预测效果，以此验证本模型的有效性。

2. 实验结果及分析

在相同的实验场景下，本发明完成了对本发明提供的模型和对比实验模型的训练和预测效果对比，表2列出了模型的训练速度、预测速度以及误差效果，为了直观展示模型的速度差异，表中采用比值的形式展示。

表2

通过上述实现效果可以看出，在面对大规模交通网络时，本发明提出的预测模型在训练和预测上的效率都取得了显著的提升。对于预测效果，就三个评估指标而言，本发明提出的模型在进港延误时间预测和离港延误时间预测都取得了最佳的实验效果。

究其原因本发明提出的模型具有以下优势：相较于传统神经网络模型，本发明提供的模型分别使用加性自注意力机制、区域聚合卷积和基于航班链特征改进的GraphSAGE模型充分挖掘航班之间时空相关特征，并使用可学习的门控融合模块学习最佳的关联方式融合时空特征，在解码器中通过单向卷积和交叉注意机制最大限度地计算时空关联特征和延误时间的相关性，这使得该模型的预测精度大大提高。此外，借助Fastformer模型中的加性注意力机制，大大降低了注意力值的计算复杂度；通过改进GrapSAGE模型，精准计算相关节点，节省了大量的计算资源；使用稀疏的交叉注意力机制，省去无用的注意力计算，使得模型的运算效率有了显著的提升。而且依托注意力机制对于长时间序列预测的优势，本发明提供的模型能够更好的预测长航班链中后续航班延误时间。

此外，为了测试模型的性能，本发明设计了不同模型在不同数据批量大小训练方式下的性能对比试验，选择表现较好的两组对比模型Transformer+GraphSAGE和Fastformer+GCN与本文模型进行实验对比，由于实验环境限制，本发明选择了50，100，200，300，400的批量大小作为实验变量，实验评价指标包括训练耗时和平均绝对误差（离港和进港延误），实验效果如图3和图4所示。

图3和图4展示了模型在不同数据批量大小的训练耗时和预测误差表现。结果显示，在相同的批量数据训练条件下，本发明的模型具备最优的效果，同时也更适应于大批量数据。图3展示了模型的运算速度的对比，通过比较可以看出，对比模型随着批量的增大，模型训练时间会大幅度增加。而本发明提出的ST-Former模型，得益于加性自注意力机制和抽样聚合的学习模式，并在稀疏局部注意力的加持下，模型效率显著提升。图4展示了不同模型使用不同批量数据训练的预测误差情况。结果表明，随着批量大小的增加，模型可以学习更多相关特征，从而提高预测精度。但是过大的批量会导致过多的噪点特征，反而会影响模型性能。本发明的模型针对这点改进的区域汇聚卷积模块、单向卷积模块以及稀疏交叉注意力模块能够更好的捕捉关键信息，从而提高模型特征提取能力。

综上所述，通过对比实验可以看出，本发明的模型针对大范围航空交通网络改进并结合了Fastformer和GraphSAGE模型，充分保留了两大模型吞吐量大、运算效率高和预测精度高的优点。此外，针对航班链运行特征改进的解码器结构，能够充分利用有限计算资源，精准提取关键信息。

为了验证本发明提供的模型中的功能模块提供积极作用，在此设计了模块消融实验，操作方法类似控制变量法，通过对模型中不同模块的增删，对比模块对模型预测效果的影响，验证模块的有效性。

1.实验设置

为了探究区域聚合卷积模块、双通道时空特征融合模块和改进的解码器模块对模型效果的影响。对照组设置如下：

1) Fastformer：原生Fastformer模型，实验采用原生Fastformer和全连接网络组合模型。

2) 改进编码器的Fastformer：在Fastformer模型的编码器中增加区域聚合卷积模块。

3) Fastformer+GraphSAGE：在Fastformer模型的编码器中添加基于改进的GraphSAGE的空间特征提取通道和时空特征融合模块。

4) 改进解码器的Fastformer：使用单向卷积模块和时空稀疏交叉注意力模块改进Fastformer模型的解码器。实验结果如下表3所示：

表3

2.实验结果及分析

通过表3可以看出，实验组2）相较于实验组1）在运算速度上有一定程度的下降，但是模型的预测精度有了一定的提升，究其原因是因为本文提出的区域聚合卷积模块是根据航班链延误波及特征进行针对性改进的特征提取模块，该模块重点关注临近航班的数据特征，减少相对距离较远航班之间相互影响的发生。同样，实验组3）在运算速度上有一定程度的下降，但是预测精度显著提升。这是因为通过增加基于GraphSAGE的空间特征提取通道，增加了模型的计算复杂度，但是通过GraphSAGE模型，能够充分挖掘不同航班链之间的航班的空间相关性，综合更多的相关因素。实验组4）相较于实验组1）虽说在预测精度上没有大程度的提升，但是通过单向卷积替代注意力运算，并通过稀疏交叉注意力的方式一定程度上降低了模型解码器的运算复杂度，使得模型在预测精度提升的同时还能兼顾计算效率。本文模型相较于实验组1）中的原生Fastformer模型，虽然稍许增加运算耗时，但是大大提升了模型的准确度。

综上所述，本申请提出的改进模块皆对模型效果有着不同程度的提升，这也验证了模块具有积极作用，双通道时空特征融合模块和单项卷积模块能够充分提取数据中的时空关联特征，更好的挖掘航班之间的潜在联系，区域聚合卷积和时空稀疏交叉注意力机制减少无关因素的影响，精准把握对航班链运行状态具有关键性影响的因素。

根据上述内容可知，本发明实施例提供的航班链延误时间预测方法，基于民航业务逻辑特点从数据处理和模型构建两方面进行改进。在数据处理上，通过航班气象数据融合、混合数据编码对数据进行预处理，并通过特征选取与航班链提取构造航班链数据集。充分表现航班运行数据特点，为模型构建提供了有效的数据支持。在模型构建上，充分考虑了航班运行特点和航班链的时空关联特性，依据Fastformer和GraphSAGE模型架构搭建航班链延误预测模型。在编码器中，采用基于加性注意力机制和区域聚合卷积的时间特征提取通道，能够在降低运算复杂的同时充分提取相关特征；在空间特征提取通道中，通过改进GraphSAGE模型的抽样和聚合方式，可以精准的捕捉复杂的交通网络中关键节点信息。并通过可学习门控网络充分融合时空关联特征。在解码器中，通过单向卷积模块汇聚局部相关延误时间特征，并通过时空稀疏交叉注意力机制充分挖掘时空关联特征和延误时间的内在联系。通过实验表明，本发明实施例提供的航班链延误时间预测方法在大范围航班链延误预测问题上取得了优异的效果，并在计算效率和预测精度方面有显著提升。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种航班链延误时间预测方法，其特征在于，所述方法包括如下步骤：

S500，利用所述多条航班链作为训练样本对初始航班链延误时间预测模型进行训练，得到目标航班链延误时间预测模型；其中，所述初始航班链延误时间预测模型采用编码器-解码器架构；

S600，利用所述目标航班链延误时间预测模型对待预测的航班链中未运行的航班的延误信息进行预测；

其中，所述编码器-解码器架构包括编码器组、解码器组和时间预测模块，其中，所述编码器组包括依次连接的E个编码器，所述解码器组包括依次连接的Z个解码器，每个编码器包括基于Fastformer的时间特征提取通道、基于GraphSAGE的空间特征提取通道以及门控融合模块；每个解码器包括带掩码的单向卷积模块和时空稀疏交叉注意力模块；其中，每个编码器的门控融合模块的输入端分别与对应的时间特征提取通道和空间特征提取通道的输出端连接，第1至第Z-1个编码器中的每个编码器的门控融合模块的输出端分别与下一个编码器的时间特征提取通道和空间特征提取通道的输入端连接，第Z个编码器的门控融合模块的输出端分别与每个解码器的时空稀疏交叉注意力模块的输入端连接，每个解码器的带掩码的单向卷积模块的输出端与所述时空稀疏交叉注意力模块的输入端连接，第1至第Z-1个解码器中的每个解码器的时空稀疏交叉注意力模块的输出端与下一个解码器的带掩码的单向卷积模块的输入端连接，第Z个时空稀疏交叉注意力模块的输出端与所述时间预测模块连接；

其中，输入到所述编码器组的融合数据不包括航班延误时间数据，输入到所述解码器组中的融合数据仅包括航班延误时间数据；

所述基于Fastformer的时间特征提取通道用于执行如下操作：

S501，对当前输入的样本数据中的航班的顺序进行编码；

S502，使用多头自注意力机制计算编码后的每个航班链中的航班运行数据之间的时间相关性，得到对应的相关性特征；

S503，对所述相关性特征进行聚合卷积处理，得到航班链时间特征，其中，航班链时间特征中的第g个航班链中的第x个航班的时间特征F_gx满足如下条件：F_gx=a_gx×FR_gx+（1-a）×∑^x _z=x-hw_gz×FR_gz，FR_gx为第i个航班运行数据在第g个航班链对应的相关性特征中的特征，a_gx为第x个航班的融合权重，h为设定的卷积窗口大小，w_gz为第g个航班链中的第z个航班对应的卷积权重，g的取值为1到H，H为航班链时间特征中的航班链数量，x的取值为1到Zg，Zg为第g个航班链中的航班数量；

所述基于GraphSAGE的空间特征提取通道用于执行如下操作：

S510，对当前输入的样本数据进行图嵌入表示，得到每个航班链对应的航空交通网络图，并获取所述航空交通网络图中节点的特征矩阵和节点之间的邻接矩阵；

S511，基于每个节点的静态属性和动态特征获取每个节点的权重，并基于获取的权重对节点进行采样；

S512，利用LSTM神经网络作为聚合函数对邻接节点的特征进行聚合，得到每个邻接节点的聚合特征；

S513，对每个节点和对应的邻接节点的特征进行加权融合，得到每个节点的融合特征；

S514，对属于同一航班链的节点的融合特征进行拼接，得到对应的航班链空间特征；

所述时空稀疏交叉注意力模块用于执行如下操作：

S10，获取带掩码的单向卷积模块输出的特征矩阵的差异矩阵；

S11，获取差异矩阵中的大于设定值的特征值作为目标特征值；

S12，获取目标特征值b对应的计算区域内的交叉注意力值LA_b=Softmax（Q_b/d_s）^1/2）×V_b，Q_b为门控融合模块输出的时空关联特征中与目标特征值b对应的目标区域对应的特征矩阵，d_s为时空关联特征中的每个特征向量的维度，V_b为带掩码的单向卷积模块输出的特征矩阵中与目标特征值b对应的目标区域对应的特征矩阵，所述时空关联特征基于所述航班链时间特征和所述航班链空间特征融合得到；b的取值为1到M，M为目标特征值的数量；Softmax（）为激活函数；S13，将M个目标特征值对应的交叉注意力值进行融合，得到对应的输出特征。

2.根据权利要求1所述的方法，其特征在于，所述航班运行数据和所述气象数据通过如下步骤获取：

S101，获取设定历史时间段内的航班运行数据和气象数据作为实验数据，并对实验数据中的缺失数据进行处理；

S102，对处理后的实验数据进行编码处理，得到编码处理后的数据；

S103，对编码处理后的数据，根据方差过滤和卡方检验相关性分析，得到所述航班运行数据和所述气象数据；

其中，S102具体包括：

S1021，对实验数据中属于时间类型的数据，使用独热编码和位置编码方式进行编码，以及对实验数据中不属于时间类型的数据，使用James-Stein Encoder编码方式进行编码，得到数值型数据；

3.根据权利要求1所述的方法，其特征在于，每个航班链包括的融合数据的数量k满足：4≤k≤14。

4.根据权利要求1所述的方法，其特征在于，所述第一设定时间段的时长t1=b1×△t，所述第二设定时间段的时长t2=b2×△t，所述第三设定时间段的时长t3=b2×△t，所述第四设定时间段的时长t4=b1×△t，b1和b2为正整数，并且，b1＜b2，△t为气象数据的监测时间间隔。

5.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-4中任意一项的所述方法。

6.一种电子设备，其特征在于，包括处理器和权利要求5中所述的非瞬时性计算机可读存储介质。