CN115222150B - 一种基于Stacking的航班延误预测方法及系统 - Google Patents

一种基于Stacking的航班延误预测方法及系统 Download PDF

Info

Publication number
CN115222150B
CN115222150B CN202210987252.2A CN202210987252A CN115222150B CN 115222150 B CN115222150 B CN 115222150B CN 202210987252 A CN202210987252 A CN 202210987252A CN 115222150 B CN115222150 B CN 115222150B
Authority
CN
China
Prior art keywords
time
flight
data
historical
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210987252.2A
Other languages
English (en)
Other versions
CN115222150A (zh
Inventor
汪许诺
王湛
孙梦圆
田勇
叶文婧
梁满佳
张田
牛科新
陈锦辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210987252.2A priority Critical patent/CN115222150B/zh
Publication of CN115222150A publication Critical patent/CN115222150A/zh
Application granted granted Critical
Publication of CN115222150B publication Critical patent/CN115222150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Stacking的航班延误预测方法及系统,方法包括:获取待预测机场的历史数据和实时数据;对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集;对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;将实时重要特征集的数据输入最优预测模型,得到航班延误最终预测结果。本发明提供了考虑动态特征的航班延误预测的方法。

Description

一种基于Stacking的航班延误预测方法及系统
技术领域
本发明涉及一种基于Stacking的航班延误预测方法及系统,属于航班延误预测技术领域。
背景技术
随着中国民航的飞速发展,航班延误成为民用航空界的一个重要问题。由于延误的传播性,枢纽机场的航班延误通常会在其他机场以及整个航空运输网络上传播,如果缺乏有效的监测和控制,随着时间的推移,这种延迟传播会产生额外的成本费用、影响乘客满意度以及造成机场运营能力低下。
航班的准时性是评估航空公司和机场的重要指标。航班延误预测有利于机场调整资源分配,快速分析延误原因,并及时采取措施以减少或消除延误、抑制延误的传播。目前的研究多数仅考虑了静态特征,例如航空公司、机型,尚未考虑航路上的拥堵程度等动态特征。并且在处理日期数据时,简单地采用One-Hot编码,而忽略了日期的周期性。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于Stacking的航班延误预测方法及系统,本发明提供了考虑动态特征的航班延误预测的方法。为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于Stacking的航班延误预测方法,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
结合第一方面,进一步地,所述预处理,包括:
删除历史航班数据和实时航班数据中货运航班、私人飞机和取消航班的数据;
删除历史航班数据和实时航班数据中延误时间前1%和后1%的数据。
结合第一方面,进一步地,所述构建用于预测的历史特征数据集和实时特征数据集,包括:
所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,是离散变量,前序航班根据飞机注册号来识别;
所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况;
所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量;
所述进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,通过下式计算:
式(1)中,NS为待预测航班计划进/离场时间前后内的计划航班数,ns为计划航班数量;NA为预测航班时间前Δt内的实际航班数,na为实际航班数量;
所述巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,/>为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,/>与/>的间隔越大,时间系数越小,符号/>为向下取整函数。
结合第一方面,进一步地,所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理,包括:
航空公司、飞机机型等级使用One-Hot编码进行处理;
前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,为了体现出周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期。
结合第一方面,进一步地,所述重要特征筛选,包括:
使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征。
结合第一方面,进一步地,所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,包括:
将用历史重要特征集中80%的数据作为训练集D,20%的数据作为测试集T;
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数;
基于评价指标,从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器;
将最优的N个基础学习器的结果水平拼接,得到P=(P1,P2,...,PN),p=(p1,p2,...,pN),P、p分别作为元学习器的训练集D’与测试集T’;
基于最优的N个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器;
所述最优的N个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型。
第二方面,本发明提供了一种基于Stacking的航班延误预测系统,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
第三方面,本发明提供了一种计算设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
第四方面,本发明提供了计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明实施例所提供的一种基于Stacking的航班延误预测方法及系统所达到的有益效果包括:
本发明获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;本发明在进行航班延误预测时考虑了航路上的进离场压力、巡航压力、拥堵程度等动态特征;
本发明对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;集成学习包括bagging、boosting和stacking,本文采用stacking方法,是目前提升机器学习效果最好的方法,将复杂的问题迁移到多个相对简单的学习器进行求解,并不需要复杂的调参和特征选择;
本发明将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果;本发明采用待预测机场的历史数据进行模型训练和优化,得到最优预测模型用于根据实时数据进行航班延误预测,提供了考虑动态特征的航班延误预测方法,有利于机场调整资源分配,快速分析延误原因,并及时采取措施以减少或消除延误、抑制延误的传播。
附图说明
图1是本发明实施例1提供的一种基于Stacking的航班延误预测方法的实施例的流程图;
图2是本发明实施例2中的一种基于Stacking的航班延误预测方法中日期编码处理的示意图;
图3是本发明实施例2中的一种基于Stacking的航班延误预测方法中stacking方法的原理图;
图4是本发明实施例2中的一种基于Stacking的航班延误预测方法中预测值和实际值的散点图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供一种基于Stacking的航班延误预测方法,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例二:
本实施例采用实施例1所述的方法在具体场景中进行测试。
本实施例中,选取了北京首都国际机场2019年1月1日至2020年1月31日的离场航班数据,共320042条数据,并且以北京-义乌的离场航班为例进行延误预测。
具体步骤如下:
步骤1:对获取到的数据进行预处理。
步骤1.1:删除货运航班、私人飞机和取消航班的数据;
步骤1.2:删除延误时间前和后1%的数据。
本实施例中,预处理后的北京-义乌的离场航班共9576条数据。
步骤2:构建用于预测的特征数据集。
步骤2.1:航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,如表1所示,是离散变量,前序航班根据飞机注册号来识别。
表1机型座位数等级表
步骤2.2:天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况。
步骤2.3:日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量。
步骤2.4:进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,本实例中,Δt=30min,通过下式计算:
式(1)中,NS为待预测航班计划进/离场时间前后内的计划航班数,ns为计划航班数量;NA为预测航班时间前Δt内的实际航班数,na为实际航班数量。
步骤2.5:巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,/>为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,/>与/>的间隔越大,时间系数越小,符号/>为向下取整函数。
步骤3:对特征数据集进行二次处理。二次处理为对离散数据进行编码处理、对连续数据进行标准化处理。
步骤3.1:航空公司、飞机机型等级使用One-Hot编码进行处理。
步骤3.2:前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
步骤3.3:待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,如图2所述,为了体现出时间周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期。
步骤4:重要特征筛选。
Boruta算法是基于随机森林算法构建的一种特征选择方法,本实施例使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征,得到重要特征集。
步骤5:构建预测模型。
集成学习包括bagging、boosting和stacking。本发明采用stacking方法,如图3所示,预测模型有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入。
基础学习器从Linear Regression(LR)、the K-nearest Neighbour(KNN)algorithm、Support Vector Regression(SVR)、Random Forest(RF)、Artificial NeuralNetwork(ANN)、Light Gradient Boosting Machine(LGBM)、AdaBoost中选择表现最优的N个模型,并且分别作为备选元学习器进行预测,通常来说,元学习器应该是一种相对简单的机器学习算法以避免过拟合,因此,将Lasso Regression也作为备选元学习器进行预测。
本实施例中基础学习器有5个。
步骤6:预测模型训练与优化,得到最优预测模型。
将用重要特征集中80%的数据作为训练集D,20%的数据作为测试集T。
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数。
如图4所示,基于评价指标,找到最优的5个基础学习器,分别为Support VectorRegression(SVR)、Random Forest(RF)、Artificial Neural Network(ANN)、LightGradient Boosting Machine(LGBM)和AdaBoost。
将最优的5个基础学习器的结果水平拼接,得到P=(P1,P2,...,P5),p=(p1,p2,...,p5),P、p分别作为元学习器的训练集D’与测试集T’。
基于最优的5个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,找到最优的1个元学习器,为AdaBoost。其MAE为8.43min,MAPE为6.98%。
最优的5个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型。
步骤7:将实时数据经过步骤1-4处理后得到的实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例三:
本发明实施例提供了一种基于Stacking的航班延误预测系统,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例四:
本发明实施例提供一种计算设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例五:
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于Stacking的航班延误预测方法,其特征在于,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,特征集包括航班属性、天气、日期、进离场压力和巡航压力;所述构建用于预测的历史特征数据集和实时特征数据集,包括:
所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,是离散变量,前序航班根据飞机注册号来识别;
所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况;
所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量;
所述进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,通过下式计算:
式(1)中,NS为待预测航班计划进/离场时间前后内的计划航班数,ns为计划航班数量;NA为预测航班时间前Δt内的实际航班数,na为实际航班数量;
所述巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,/>为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,/>与/>的间隔越大,时间系数越小,符号/>为向下取整函数;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理,包括:
航空公司、飞机机型等级使用One-Hot编码进行处理;
前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,为了体现出周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期;
所述重要特征筛选,包括:
使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,包括:
将用历史重要特征集中80%的数据作为训练集D,20%的数据作为测试集T;
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数;
基于评价指标,从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器;
将最优的N个基础学习器的结果水平拼接,得到P=(P1,P2,...,PN),p=(p1,p2,...,pN),P、p分别作为元学习器的训练集D’与测试集T’;
基于最优的N个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器;
所述最优的N个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
2.根据权利要求1所述的基于Stacking的航班延误预测方法,其特征在于,所述预处理,包括:
删除历史航班数据和实时航班数据中货运航班、私人飞机和取消航班的数据;
删除历史航班数据和实时航班数据中延误时间前1%和后1%的数据。
3.一种基于Stacking的航班延误预测系统,其特征在于,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,特征集包括航班属性、天气、日期、进离场压力和巡航压力;所述构建用于预测的历史特征数据集和实时特征数据集,包括:
所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,是离散变量,前序航班根据飞机注册号来识别;
所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况;
所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量;
所述进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,通过下式计算:
式(1)中,NS为待预测航班计划进/离场时间前后内的计划航班数,ns为计划航班数量;NA为预测航班时间前Δt内的实际航班数,na为实际航班数量;
所述巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,/>为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,/>与/>的间隔越大,时间系数越小,符号/>为向下取整函数;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理,包括:
航空公司、飞机机型等级使用One-Hot编码进行处理;
前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,为了体现出周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期;
所述重要特征筛选,包括:
使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,包括:
将用历史重要特征集中80%的数据作为训练集D,20%的数据作为测试集T;
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数;
基于评价指标,从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器;
将最优的N个基础学习器的结果水平拼接,得到P=(P1,P2,...,PN),p=(p1,p2,...,pN),P、p分别作为元学习器的训练集D’与测试集T’;
基于最优的N个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器;
所述最优的N个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
4.一种计算设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1~2任一项所述方法的步骤。
5.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~2任一项所述方法的步骤。
CN202210987252.2A 2022-08-17 2022-08-17 一种基于Stacking的航班延误预测方法及系统 Active CN115222150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210987252.2A CN115222150B (zh) 2022-08-17 2022-08-17 一种基于Stacking的航班延误预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210987252.2A CN115222150B (zh) 2022-08-17 2022-08-17 一种基于Stacking的航班延误预测方法及系统

Publications (2)

Publication Number Publication Date
CN115222150A CN115222150A (zh) 2022-10-21
CN115222150B true CN115222150B (zh) 2024-02-20

Family

ID=83615608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210987252.2A Active CN115222150B (zh) 2022-08-17 2022-08-17 一种基于Stacking的航班延误预测方法及系统

Country Status (1)

Country Link
CN (1) CN115222150B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118070237A (zh) * 2024-04-25 2024-05-24 山东建筑大学 一种基于Sentinel-2影像的湖泊水体叶绿素a浓度反演方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232535A (zh) * 2020-09-18 2021-01-15 南京航空航天大学 一种基于监督学习的航班离场平均延误预测方法
CN112465256A (zh) * 2020-12-08 2021-03-09 华中科技大学 一种基于Stacking模型融合的楼宇用电量预测方法和系统
CN113159361A (zh) * 2020-12-03 2021-07-23 安徽大学 基于VDM和Stacking模型融合的短期负荷预测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9819930B2 (en) * 2015-05-26 2017-11-14 Omnivision Technologies, Inc. Time of flight imaging with improved initiation signaling
CN110334839B (zh) * 2019-04-15 2021-05-14 北京航空航天大学 航班延误预测方法、装置、设备及存储介质
GB2584625A (en) * 2019-05-28 2020-12-16 Sita Information Networking Computing Uk Ltd System and method for flight arrival time prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232535A (zh) * 2020-09-18 2021-01-15 南京航空航天大学 一种基于监督学习的航班离场平均延误预测方法
CN113159361A (zh) * 2020-12-03 2021-07-23 安徽大学 基于VDM和Stacking模型融合的短期负荷预测方法及系统
CN112465256A (zh) * 2020-12-08 2021-03-09 华中科技大学 一种基于Stacking模型融合的楼宇用电量预测方法和系统

Also Published As

Publication number Publication date
CN115222150A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
Zhang et al. Bayesian neural networks for flight trajectory prediction and safety assessment
Yanto et al. Aircraft fuel burn performance study: A data-enhanced modeling approach
CN110503245B (zh) 一种机场航班大面积延误风险的预测方法
Choi et al. Artificial neural network models for airport capacity prediction
CN110443448B (zh) 一种基于双向lstm的飞机机位分类预测方法和系统
CN111582584B (zh) 基于航空公司公平性的航段运行时间优化方法
Khan et al. Prediction of aircraft trajectory and the associated fuel consumption using covariance bidirectional extreme learning machines
CN110796315B (zh) 基于时效信息和深度学习的离港航班延误预测方法
CN115222150B (zh) 一种基于Stacking的航班延误预测方法及系统
Ballakur et al. Empirical evaluation of gated recurrent neural network architectures in aviation delay prediction
CN116956757A (zh) 出港航班滑行时间预测方法、电子设备和存储介质
Hatıpoğlu et al. Flight delay prediction based with machine learning
Schösser et al. On the Performance of Machine Learning Based Flight Delay Prediction–Investigating the Impact of Short-Term Features
Behere A Reduced Order Modeling Methodology for the Parametric Estimation and Optimization of Aviation Noise
CN117252493A (zh) 一种航班链延误动态预测模型构建方法和预测方法
Kalyani et al. Machine learning model-based prediction of flight delay
Zhang et al. Method of vertiport capacity assessment based on queuing theory of unmanned aerial vehicles
CN115130380A (zh) 一种基于机器学习的战略航班时刻表延误分布预测方法
CN112926809B (zh) 一种基于聚类和改进的xgboost的航班流量预测方法及系统
CN112308285B (zh) 信息处理方法、装置、电子设备和计算机可读存储介质
Brito et al. A Machine Learning-based Predictive Model of Airspace Sector Occupancy
CN113807579A (zh) 一种基于机器学习的航班抵港延误时间预测方法
Rahul et al. Flight delay prediction using random forest classifier
Tarasonok et al. Models for forecasting flight delays
Huang et al. A High-Precision Method for Evaluating Sector Capacity in Bad Weather Based on an Improved WITI Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant