CN115222150B

CN115222150B - 一种基于Stacking的航班延误预测方法及系统

Info

Publication number: CN115222150B
Application number: CN202210987252.2A
Authority: CN
Inventors: 汪许诺; 王湛; 孙梦圆; 田勇; 叶文婧; 梁满佳; 张田; 牛科新; 陈锦辉
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2024-02-20
Anticipated expiration: 2042-08-17
Also published as: CN115222150A

Abstract

本发明公开了一种基于Stacking的航班延误预测方法及系统，方法包括：获取待预测机场的历史数据和实时数据；对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集；对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；将实时重要特征集的数据输入最优预测模型，得到航班延误最终预测结果。本发明提供了考虑动态特征的航班延误预测的方法。

Description

一种基于Stacking的航班延误预测方法及系统

技术领域

本发明涉及一种基于Stacking的航班延误预测方法及系统，属于航班延误预测技术领域。

背景技术

随着中国民航的飞速发展，航班延误成为民用航空界的一个重要问题。由于延误的传播性，枢纽机场的航班延误通常会在其他机场以及整个航空运输网络上传播，如果缺乏有效的监测和控制，随着时间的推移，这种延迟传播会产生额外的成本费用、影响乘客满意度以及造成机场运营能力低下。

航班的准时性是评估航空公司和机场的重要指标。航班延误预测有利于机场调整资源分配，快速分析延误原因，并及时采取措施以减少或消除延误、抑制延误的传播。目前的研究多数仅考虑了静态特征，例如航空公司、机型，尚未考虑航路上的拥堵程度等动态特征。并且在处理日期数据时，简单地采用One-Hot编码，而忽略了日期的周期性。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于Stacking的航班延误预测方法及系统，本发明提供了考虑动态特征的航班延误预测的方法。为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于Stacking的航班延误预测方法，包括：

获取待预测机场的历史数据和实时数据，包括历史航班数据、历史气象数据、实时航班数据、实时气象数据；

对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集，所述特征集包括航班属性、天气、日期、进离场压力和巡航压力；

对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；

采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；其中，所述预先构建的预测模型采用stacking方法，由不同的学习器堆叠形成，所述预先构建的预测模型共有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入；

将实时重要特征集的数据输入最优预测模型，得到预测结果，即为航班延误最终预测结果。

结合第一方面，进一步地，所述预处理，包括：

删除历史航班数据和实时航班数据中货运航班、私人飞机和取消航班的数据；

删除历史航班数据和实时航班数据中延误时间前1％和后1％的数据。

结合第一方面，进一步地，所述构建用于预测的历史特征数据集和实时特征数据集，包括：

所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间；其中，待预测机场是否为基地是0-1哑变量；飞机容量由飞机座位数衡量，根据座位数等级进行划分，是离散变量，前序航班根据飞机注册号来识别；

所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度，τ为需要提前τ小时预测航班的延误情况；

所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日；其中，是否为节假日是0-1哑变量；

所述进离场压力反映机场的拥堵情况，定义为单位时间Δt内的计划航班数以及实际航班数，通过下式计算：

式(1)中，NS为待预测航班计划进/离场时间前后内的计划航班数，n^s为计划航班数量；NA为预测航班时间前Δt内的实际航班数，n^a为实际航班数量；

所述巡航压力反映航路情况，定义为同一航路上或相似航路上航班的延误情况，通过下式计算：

式(2)中，CP_i为航班i的巡航压力，F为与航班i使用相同航路或相似航路的航班集合，为航班i的计划进/离场时间，/>为航班j的实际进/离场时间，d_j为航班j的延误时间，SC_j是航班j所在航路与航班i所在航路的相似系数，τ为需要提前τ小时预测航班的延误情况，tc_j为时间系数，/>与/>的间隔越大，时间系数越小，符号/>为向下取整函数。

结合第一方面，进一步地，所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理，包括：

航空公司、飞机机型等级使用One-Hot编码进行处理；

前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理；

待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性，风向采用角度来度量，为了体现出周期性，使用正余弦函数进行编码处理，通过下式表示：

式(3)中，CAC为转换过后的特征，V为原始特征变量，T为特征的周期。

结合第一方面，进一步地，所述重要特征筛选，包括：

使用Boruta算法进行特征选择，使用Z-score表示每个特征的重要性，Z-score的计算公式如下：

式(4)中，X为该特征在所有树中的平均精度损失，σ为相应的标准差；

复制每个特征，得到影子特征，影子特征与原始特征拼接构成新的特征矩阵，如果原始特征的Z-score高于所有影子特征的Z-score，则该特征为重要特征；

在所有影子特征中找出最大的Z-score记为Z_max，选取原始特征的Z-score大于Z_max的原始特征为重要特征。

结合第一方面，进一步地，所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，包括：

将用历史重要特征集中80％的数据作为训练集D，20％的数据作为测试集T；

使用K折交叉验证的方法，将训练集D随机划分为K个大小相似的子集D₁,…,D_K；

对于基础学习器i，每次从D₁,…,D_K中选取1个子集为测试集，剩余K-1个子集为训练集，直到K个子集均做过测试集，K个测试集的训练结果构成基础学习器i的输出P_i，每次预测原始测试集T的结果取平均值记为p_i；

将训练集和测试集分别输入每个基础学习器，使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标，公式如下：

式(5)中，H(x_i)为航班i的预测结果，y_i为航班i的实际延误值，M为样本总数；

基于评价指标，从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器；

将最优的N个基础学习器的结果水平拼接，得到P＝(P₁,P₂,...,P_N)，p＝(p₁,p₂,...,p_N)，P、p分别作为元学习器的训练集D’与测试集T’；

基于最优的N个基础学习器，将训练集D’与测试集T’输入元学习器，对比不同元学习器情况下的评价指标，从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器；

所述最优的N个基础学习器为第一层，最优的1个元学习器为第二层，得到最优预测模型。

第二方面，本发明提供了一种基于Stacking的航班延误预测系统，包括：

获取模块：用于获取待预测机场的历史数据和实时数据，包括历史航班数据、历史气象数据、实时航班数据、实时气象数据；

第一处理模块：用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集，所述特征集包括航班属性、天气、日期、进离场压力和巡航压力；

第二处理模块：用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；

第三处理模块：用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；其中，所述预先构建的预测模型采用stacking方法，由不同的学习器堆叠形成，所述预先构建的预测模型共有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入；

实时预测模块：用于将实时重要特征集的数据输入最优预测模型，得到预测结果，即为航班延误最终预测结果。

第三方面，本发明提供了一种计算设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

第四方面，本发明提供了计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明实施例所提供的一种基于Stacking的航班延误预测方法及系统所达到的有益效果包括：

本发明获取待预测机场的历史数据和实时数据，包括历史航班数据、历史气象数据、实时航班数据、实时气象数据；对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集，所述特征集包括航班属性、天气、日期、进离场压力和巡航压力；本发明在进行航班延误预测时考虑了航路上的进离场压力、巡航压力、拥堵程度等动态特征；

本发明对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；集成学习包括bagging、boosting和stacking，本文采用stacking方法，是目前提升机器学习效果最好的方法，将复杂的问题迁移到多个相对简单的学习器进行求解，并不需要复杂的调参和特征选择；

本发明将实时重要特征集的数据输入最优预测模型，得到预测结果，即为航班延误最终预测结果；本发明采用待预测机场的历史数据进行模型训练和优化，得到最优预测模型用于根据实时数据进行航班延误预测，提供了考虑动态特征的航班延误预测方法，有利于机场调整资源分配，快速分析延误原因，并及时采取措施以减少或消除延误、抑制延误的传播。

附图说明

图1是本发明实施例1提供的一种基于Stacking的航班延误预测方法的实施例的流程图；

图2是本发明实施例2中的一种基于Stacking的航班延误预测方法中日期编码处理的示意图；

图3是本发明实施例2中的一种基于Stacking的航班延误预测方法中stacking方法的原理图；

图4是本发明实施例2中的一种基于Stacking的航班延误预测方法中预测值和实际值的散点图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供一种基于Stacking的航班延误预测方法，包括：

采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；其中，所述预先构建的预测模型有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入；

实施例二：

本实施例采用实施例1所述的方法在具体场景中进行测试。

本实施例中，选取了北京首都国际机场2019年1月1日至2020年1月31日的离场航班数据，共320042条数据，并且以北京-义乌的离场航班为例进行延误预测。

具体步骤如下：

步骤1：对获取到的数据进行预处理。

步骤1.1：删除货运航班、私人飞机和取消航班的数据；

步骤1.2：删除延误时间前和后1％的数据。

本实施例中，预处理后的北京-义乌的离场航班共9576条数据。

步骤2：构建用于预测的特征数据集。

步骤2.1：航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间；其中，待预测机场是否为基地是0-1哑变量；飞机容量由飞机座位数衡量，根据座位数等级进行划分，如表1所示，是离散变量，前序航班根据飞机注册号来识别。

表1机型座位数等级表

步骤2.2：天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度，τ为需要提前τ小时预测航班的延误情况。

步骤2.3：日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日；其中，是否为节假日是0-1哑变量。

步骤2.4：进离场压力反映机场的拥堵情况，定义为单位时间Δt内的计划航班数以及实际航班数，本实例中，Δt＝30min，通过下式计算：

式(1)中，NS为待预测航班计划进/离场时间前后内的计划航班数，n^s为计划航班数量；NA为预测航班时间前Δt内的实际航班数，n^a为实际航班数量。

步骤2.5：巡航压力反映航路情况，定义为同一航路上或相似航路上航班的延误情况，通过下式计算：

步骤3：对特征数据集进行二次处理。二次处理为对离散数据进行编码处理、对连续数据进行标准化处理。

步骤3.1：航空公司、飞机机型等级使用One-Hot编码进行处理。

步骤3.2：前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理；

步骤3.3：待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性，风向采用角度来度量，如图2所述，为了体现出时间周期性，使用正余弦函数进行编码处理，通过下式表示：

步骤4：重要特征筛选。

Boruta算法是基于随机森林算法构建的一种特征选择方法，本实施例使用Boruta算法进行特征选择，使用Z-score表示每个特征的重要性，Z-score的计算公式如下：

在所有影子特征中找出最大的Z-score记为Z_max，选取原始特征的Z-score大于Z_max的原始特征为重要特征，得到重要特征集。

步骤5：构建预测模型。

集成学习包括bagging、boosting和stacking。本发明采用stacking方法，如图3所示，预测模型有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入。

基础学习器从Linear Regression(LR)、the K-nearest Neighbour(KNN)algorithm、Support Vector Regression(SVR)、Random Forest(RF)、Artificial NeuralNetwork(ANN)、Light Gradient Boosting Machine(LGBM)、AdaBoost中选择表现最优的N个模型，并且分别作为备选元学习器进行预测，通常来说，元学习器应该是一种相对简单的机器学习算法以避免过拟合，因此，将Lasso Regression也作为备选元学习器进行预测。

本实施例中基础学习器有5个。

步骤6：预测模型训练与优化，得到最优预测模型。

将用重要特征集中80％的数据作为训练集D，20％的数据作为测试集T。

使用K折交叉验证的方法，将训练集D随机划分为K个大小相似的子集D₁,…,D_K。

对于基础学习器i，每次从D₁,…,D_K中选取1个子集为测试集，剩余K-1个子集为训练集，直到K个子集均做过测试集，K个测试集的训练结果构成基础学习器i的输出P_i，每次预测原始测试集T的结果取平均值记为p_i。

式(5)中，H(x_i)为航班i的预测结果，y_i为航班i的实际延误值，M为样本总数。

如图4所示，基于评价指标，找到最优的5个基础学习器，分别为Support VectorRegression(SVR)、Random Forest(RF)、Artificial Neural Network(ANN)、LightGradient Boosting Machine(LGBM)和AdaBoost。

将最优的5个基础学习器的结果水平拼接，得到P＝(P₁,P₂,...,P₅)，p＝(p₁,p₂,...,p₅)，P、p分别作为元学习器的训练集D’与测试集T’。

基于最优的5个基础学习器，将训练集D’与测试集T’输入元学习器，对比不同元学习器情况下的评价指标，找到最优的1个元学习器，为AdaBoost。其MAE为8.43min，MAPE为6.98％。

最优的5个基础学习器为第一层，最优的1个元学习器为第二层，得到最优预测模型。

步骤7：将实时数据经过步骤1-4处理后得到的实时重要特征集的数据输入最优预测模型，得到预测结果，即为航班延误最终预测结果。

实施例三：

本发明实施例提供了一种基于Stacking的航班延误预测系统，包括：

实施例四：

本发明实施例提供一种计算设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例五：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Stacking的航班延误预测方法，其特征在于，包括：

对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集，特征集包括航班属性、天气、日期、进离场压力和巡航压力；所述构建用于预测的历史特征数据集和实时特征数据集，包括：

式(2)中，CP_i为航班i的巡航压力，F为与航班i使用相同航路或相似航路的航班集合，为航班i的计划进/离场时间，/>为航班j的实际进/离场时间，d_j为航班j的延误时间，SC_j是航班j所在航路与航班i所在航路的相似系数，τ为需要提前τ小时预测航班的延误情况，tc_j为时间系数，/>与/>的间隔越大，时间系数越小，符号/>为向下取整函数；

对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理，包括：

航空公司、飞机机型等级使用One-Hot编码进行处理；

式(3)中，CAC为转换过后的特征，V为原始特征变量，T为特征的周期；

所述重要特征筛选，包括：

在所有影子特征中找出最大的Z-score记为Z_max，选取原始特征的Z-score大于Z_max的原始特征为重要特征；

采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；其中，所述预先构建的预测模型采用stacking方法，由不同的学习器堆叠形成，所述预先构建的预测模型共有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入；所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，包括：

所述最优的N个基础学习器为第一层，最优的1个元学习器为第二层，得到最优预测模型；

2.根据权利要求1所述的基于Stacking的航班延误预测方法，其特征在于，所述预处理，包括：

3.一种基于Stacking的航班延误预测系统，其特征在于，包括：

第一处理模块：用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集，特征集包括航班属性、天气、日期、进离场压力和巡航压力；所述构建用于预测的历史特征数据集和实时特征数据集，包括：

第二处理模块：用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选，得到历史重要特征集和实时重要特征集；所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理，包括：

航空公司、飞机机型等级使用One-Hot编码进行处理；

所述重要特征筛选，包括：

第三处理模块：用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，得到最优预测模型；其中，所述预先构建的预测模型采用stacking方法，由不同的学习器堆叠形成，所述预先构建的预测模型共有两层，第一层为N个基础学习器，第二层为一个元学习器，第一层的输出水平堆叠作为第二层的输入；所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化，包括：

4.一种计算设备，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1～2任一项所述方法的步骤。

5.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～2任一项所述方法的步骤。