CN115222150A - 一种基于Stacking的航班延误预测方法及系统 - Google Patents
一种基于Stacking的航班延误预测方法及系统 Download PDFInfo
- Publication number
- CN115222150A CN115222150A CN202210987252.2A CN202210987252A CN115222150A CN 115222150 A CN115222150 A CN 115222150A CN 202210987252 A CN202210987252 A CN 202210987252A CN 115222150 A CN115222150 A CN 115222150A
- Authority
- CN
- China
- Prior art keywords
- data
- flight
- time
- real
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000010006 flight Effects 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 22
- 238000013459 approach Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 6
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 claims description 4
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000013256 coordination polymer Substances 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Stacking的航班延误预测方法及系统,方法包括:获取待预测机场的历史数据和实时数据;对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集;对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;将实时重要特征集的数据输入最优预测模型,得到航班延误最终预测结果。本发明提供了考虑动态特征的航班延误预测的方法。
Description
技术领域
本发明涉及一种基于Stacking的航班延误预测方法及系统,属于航班延误预测技术领域。
背景技术
随着中国民航的飞速发展,航班延误成为民用航空界的一个重要问题。由于延误的传播性,枢纽机场的航班延误通常会在其他机场以及整个航空运输网络上传播,如果缺乏有效的监测和控制,随着时间的推移,这种延迟传播会产生额外的成本费用、影响乘客满意度以及造成机场运营能力低下。
航班的准时性是评估航空公司和机场的重要指标。航班延误预测有利于机场调整资源分配,快速分析延误原因,并及时采取措施以减少或消除延误、抑制延误的传播。目前的研究多数仅考虑了静态特征,例如航空公司、机型,尚未考虑航路上的拥堵程度等动态特征。并且在处理日期数据时,简单地采用One-Hot编码,而忽略了日期的周期性。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于Stacking的航班延误预测方法及系统,本发明提供了考虑动态特征的航班延误预测的方法。为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于Stacking的航班延误预测方法,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
结合第一方面,进一步地,所述预处理,包括:
删除历史航班数据和实时航班数据中货运航班、私人飞机和取消航班的数据;
删除历史航班数据和实时航班数据中延误时间前1%和后1%的数据。
结合第一方面,进一步地,所述构建用于预测的历史特征数据集和实时特征数据集,包括:
所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,是离散变量,前序航班根据飞机注册号来识别;
所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况;
所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量;
所述进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,通过下式计算:
所述巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,与的间隔越大,时间系数越小,符号为向下取整函数。
结合第一方面,进一步地,所述二次处理为对离散数据进行编码处理、对连续数据进行标准化处理,包括:
航空公司、飞机机型等级使用One-Hot编码进行处理;
前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,为了体现出周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期。
结合第一方面,进一步地,所述重要特征筛选,包括:
使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征。
结合第一方面,进一步地,所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,包括:
将用历史重要特征集中80%的数据作为训练集D,20%的数据作为测试集T;
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK;
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi;
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数;
基于评价指标,从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器;
将最优的N个基础学习器的结果水平拼接,得到P=(P1,P2,...,PN),p=(p1,p2,...,pN),P、p分别作为元学习器的训练集D’与测试集T’;
基于最优的N个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器;
所述最优的N个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型。
第二方面,本发明提供了一种基于Stacking的航班延误预测系统,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
第三方面,本发明提供了一种计算设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
第四方面,本发明提供了计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明实施例所提供的一种基于Stacking的航班延误预测方法及系统所达到的有益效果包括:
本发明获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;本发明在进行航班延误预测时考虑了航路上的进离场压力、巡航压力、拥堵程度等动态特征;
本发明对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;集成学习包括bagging、boosting和stacking,本文采用stacking方法,是目前提升机器学习效果最好的方法,将复杂的问题迁移到多个相对简单的学习器进行求解,并不需要复杂的调参和特征选择;
本发明将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果;本发明采用待预测机场的历史数据进行模型训练和优化,得到最优预测模型用于根据实时数据进行航班延误预测,提供了考虑动态特征的航班延误预测方法,有利于机场调整资源分配,快速分析延误原因,并及时采取措施以减少或消除延误、抑制延误的传播。
附图说明
图1是本发明实施例1提供的一种基于Stacking的航班延误预测方法的实施例的流程图;
图2是本发明实施例2中的一种基于Stacking的航班延误预测方法中日期编码处理的示意图;
图3是本发明实施例2中的一种基于Stacking的航班延误预测方法中stacking方法的原理图;
图4是本发明实施例2中的一种基于Stacking的航班延误预测方法中预测值和实际值的散点图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供一种基于Stacking的航班延误预测方法,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例二:
本实施例采用实施例1所述的方法在具体场景中进行测试。
本实施例中,选取了北京首都国际机场2019年1月1日至2020年1月31日的离场航班数据,共320042条数据,并且以北京-义乌的离场航班为例进行延误预测。
具体步骤如下:
步骤1:对获取到的数据进行预处理。
步骤1.1:删除货运航班、私人飞机和取消航班的数据;
步骤1.2:删除延误时间前和后1%的数据。
本实施例中,预处理后的北京-义乌的离场航班共9576条数据。
步骤2:构建用于预测的特征数据集。
步骤2.1:航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,如表1所示,是离散变量,前序航班根据飞机注册号来识别。
表1机型座位数等级表
步骤2.2:天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况。
步骤2.3:日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量。
步骤2.4:进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,本实例中,Δt=30min,通过下式计算:
步骤2.5:巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
式(2)中,CPi为航班i的巡航压力,F为与航班i使用相同航路或相似航路的航班集合,为航班i的计划进/离场时间,为航班j的实际进/离场时间,dj为航班j的延误时间,SCj是航班j所在航路与航班i所在航路的相似系数,τ为需要提前τ小时预测航班的延误情况,tcj为时间系数,与的间隔越大,时间系数越小,符号为向下取整函数。
步骤3:对特征数据集进行二次处理。二次处理为对离散数据进行编码处理、对连续数据进行标准化处理。
步骤3.1:航空公司、飞机机型等级使用One-Hot编码进行处理。
步骤3.2:前序航班的延误时间、进离场压力、巡航压力、温度、大气压、相对湿度、风速和水平能见度使用Z-score标准化进行处理;
步骤3.3:待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节具有周期性,风向采用角度来度量,如图2所述,为了体现出时间周期性,使用正余弦函数进行编码处理,通过下式表示:
式(3)中,CAC为转换过后的特征,V为原始特征变量,T为特征的周期。
步骤4:重要特征筛选。
Boruta算法是基于随机森林算法构建的一种特征选择方法,本实施例使用Boruta算法进行特征选择,使用Z-score表示每个特征的重要性,Z-score的计算公式如下:
式(4)中,X为该特征在所有树中的平均精度损失,σ为相应的标准差;
复制每个特征,得到影子特征,影子特征与原始特征拼接构成新的特征矩阵,如果原始特征的Z-score高于所有影子特征的Z-score,则该特征为重要特征;
在所有影子特征中找出最大的Z-score记为Zmax,选取原始特征的Z-score大于Zmax的原始特征为重要特征,得到重要特征集。
步骤5:构建预测模型。
集成学习包括bagging、boosting和stacking。本发明采用stacking方法,如图3所示,预测模型有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入。
基础学习器从Linear Regression(LR)、the K-nearest Neighbour(KNN)algorithm、Support Vector Regression(SVR)、Random Forest(RF)、Artificial NeuralNetwork(ANN)、Light Gradient Boosting Machine(LGBM)、AdaBoost中选择表现最优的N个模型,并且分别作为备选元学习器进行预测,通常来说,元学习器应该是一种相对简单的机器学习算法以避免过拟合,因此,将Lasso Regression也作为备选元学习器进行预测。
本实施例中基础学习器有5个。
步骤6:预测模型训练与优化,得到最优预测模型。
将用重要特征集中80%的数据作为训练集D,20%的数据作为测试集T。
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK。
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi。
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数。
如图4所示,基于评价指标,找到最优的5个基础学习器,分别为Support VectorRegression(SVR)、Random Forest(RF)、Artificial Neural Network(ANN)、LightGradient Boosting Machine(LGBM)和AdaBoost。
将最优的5个基础学习器的结果水平拼接,得到P=(P1,P2,...,P5),p=(p1,p2,...,p5),P、p分别作为元学习器的训练集D’与测试集T’。
基于最优的5个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,找到最优的1个元学习器,为AdaBoost。其MAE为8.43min,MAPE为6.98%。
最优的5个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型。
步骤7:将实时数据经过步骤1-4处理后得到的实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例三:
本发明实施例提供了一种基于Stacking的航班延误预测系统,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
实施例四:
本发明实施例提供一种计算设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例五:
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种基于Stacking的航班延误预测方法,其特征在于,包括:
获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
2.根据权利要求1所述的基于Stacking的航班延误预测方法,其特征在于,所述预处理,包括:
删除历史航班数据和实时航班数据中货运航班、私人飞机和取消航班的数据;
删除历史航班数据和实时航班数据中延误时间前1%和后1%的数据。
3.根据权利要求1所述的基于Stacking的航班延误预测方法,其特征在于,所述构建用于预测的历史特征数据集和实时特征数据集,包括:
所述航班属性包括航班所属航空公司、航空公司是否将待预测机场作为基地、飞机容量、前序航班的延误时间;其中,待预测机场是否为基地是0-1哑变量;飞机容量由飞机座位数衡量,根据座位数等级进行划分,是离散变量,前序航班根据飞机注册号来识别;
所述天气包括待预测航班计划进/离场时间前τ小时的温度、大气压、相对湿度、风向、风速、水平能见度,τ为需要提前τ小时预测航班的延误情况;
所述日期包括待预测航班计划进/离场时间为一天中的第几个小时、一周中的第几天、一年中的第几个月、季节、是否为节假日;其中,是否为节假日是0-1哑变量;
所述进离场压力反映机场的拥堵情况,定义为单位时间Δt内的计划航班数以及实际航班数,通过下式计算:
所述巡航压力反映航路情况,定义为同一航路上或相似航路上航班的延误情况,通过下式计算:
6.根据权利要求1所述的基于Stacking的航班延误预测方法,其特征在于,所述采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,包括:
将用历史重要特征集中80%的数据作为训练集D,20%的数据作为测试集T;
使用K折交叉验证的方法,将训练集D随机划分为K个大小相似的子集D1,…,DK;
对于基础学习器i,每次从D1,…,DK中选取1个子集为测试集,剩余K-1个子集为训练集,直到K个子集均做过测试集,K个测试集的训练结果构成基础学习器i的输出Pi,每次预测原始测试集T的结果取平均值记为pi;
将训练集和测试集分别输入每个基础学习器,使用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标,公式如下:
式(5)中,H(xi)为航班i的预测结果,yi为航班i的实际延误值,M为样本总数;
基于评价指标,从基础学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost中找到最优的N个基础学习器;
将最优的N个基础学习器的结果水平拼接,得到P=(P1,P2,...,PN),p=(p1,p2,...,pN),P、p分别作为元学习器的训练集D’与测试集T’;
基于最优的N个基础学习器,将训练集D’与测试集T’输入元学习器,对比不同元学习器情况下的评价指标,从元学习器Linear Regression、the K-nearest Neighbouralgorithm、Support Vector Regression、Random Forest、Artificial Neural Network、Light Gradient Boosting Machine、AdaBoost、Lasso Regression中找到最优的1个元学习器;
所述最优的N个基础学习器为第一层,最优的1个元学习器为第二层,得到最优预测模型。
7.一种基于Stacking的航班延误预测系统,其特征在于,包括:
获取模块:用于获取待预测机场的历史数据和实时数据,包括历史航班数据、历史气象数据、实时航班数据、实时气象数据;
第一处理模块:用于对获取到的历史数据和实时数据分别进行预处理后构建用于预测的历史特征数据集和实时特征数据集,所述特征集包括航班属性、天气、日期、进离场压力和巡航压力;
第二处理模块:用于对历史特征数据集和实时特征数据集分别进行二次处理和重要特征筛选,得到历史重要特征集和实时重要特征集;
第三处理模块:用于采用历史重要特征集的数据对预先构建的预测模型进行训练和优化,得到最优预测模型;其中,所述预先构建的预测模型采用stacking方法,由不同的学习器堆叠形成,所述预先构建的预测模型共有两层,第一层为N个基础学习器,第二层为一个元学习器,第一层的输出水平堆叠作为第二层的输入;
实时预测模块:用于将实时重要特征集的数据输入最优预测模型,得到预测结果,即为航班延误最终预测结果。
8.一种计算设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1~6任一项所述方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987252.2A CN115222150B (zh) | 2022-08-17 | 2022-08-17 | 一种基于Stacking的航班延误预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987252.2A CN115222150B (zh) | 2022-08-17 | 2022-08-17 | 一种基于Stacking的航班延误预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115222150A true CN115222150A (zh) | 2022-10-21 |
CN115222150B CN115222150B (zh) | 2024-02-20 |
Family
ID=83615608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210987252.2A Active CN115222150B (zh) | 2022-08-17 | 2022-08-17 | 一种基于Stacking的航班延误预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222150B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070237A (zh) * | 2024-04-25 | 2024-05-24 | 山东建筑大学 | 一种基于Sentinel-2影像的湖泊水体叶绿素a浓度反演方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160353084A1 (en) * | 2015-05-26 | 2016-12-01 | Omnivision Technologies, Inc. | Time of flight imaging with improved initiation signaling |
US20210005090A1 (en) * | 2019-04-15 | 2021-01-07 | Beihang University | Method and apparatus for predicting flight delay, device and storage medium |
CN112232535A (zh) * | 2020-09-18 | 2021-01-15 | 南京航空航天大学 | 一种基于监督学习的航班离场平均延误预测方法 |
CN112465256A (zh) * | 2020-12-08 | 2021-03-09 | 华中科技大学 | 一种基于Stacking模型融合的楼宇用电量预测方法和系统 |
CN113159361A (zh) * | 2020-12-03 | 2021-07-23 | 安徽大学 | 基于VDM和Stacking模型融合的短期负荷预测方法及系统 |
US20220215760A1 (en) * | 2019-05-28 | 2022-07-07 | Sita Information Networking Computing Uk Limited | System and method for flight arrival time prediction |
-
2022
- 2022-08-17 CN CN202210987252.2A patent/CN115222150B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160353084A1 (en) * | 2015-05-26 | 2016-12-01 | Omnivision Technologies, Inc. | Time of flight imaging with improved initiation signaling |
US20210005090A1 (en) * | 2019-04-15 | 2021-01-07 | Beihang University | Method and apparatus for predicting flight delay, device and storage medium |
US20220215760A1 (en) * | 2019-05-28 | 2022-07-07 | Sita Information Networking Computing Uk Limited | System and method for flight arrival time prediction |
CN112232535A (zh) * | 2020-09-18 | 2021-01-15 | 南京航空航天大学 | 一种基于监督学习的航班离场平均延误预测方法 |
CN113159361A (zh) * | 2020-12-03 | 2021-07-23 | 安徽大学 | 基于VDM和Stacking模型融合的短期负荷预测方法及系统 |
CN112465256A (zh) * | 2020-12-08 | 2021-03-09 | 华中科技大学 | 一种基于Stacking模型融合的楼宇用电量预测方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070237A (zh) * | 2024-04-25 | 2024-05-24 | 山东建筑大学 | 一种基于Sentinel-2影像的湖泊水体叶绿素a浓度反演方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115222150B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11635545B2 (en) | Real-time weather forecasting for transportation systems | |
Yanto et al. | Aircraft fuel burn performance study: A data-enhanced modeling approach | |
CN111144631B (zh) | 基于贝叶斯网络算法的航班延误实时概率预测方法 | |
US20210133370A1 (en) | Optimizing Aircraft Flows at Airports Using Data Driven Predicted Capabilities | |
CN107818382B (zh) | 航班到达时间预测方法 | |
CN109993225A (zh) | 一种基于无监督学习的空域复杂度分类方法及装置 | |
CN111582584B (zh) | 基于航空公司公平性的航段运行时间优化方法 | |
Diana | Can machines learn how to forecast taxi-out time? A comparison of predictive models applied to the case of Seattle/Tacoma International Airport | |
CN110443448A (zh) | 一种基于双向lstm的飞机机位分类预测方法和系统 | |
CN113341919B (zh) | 一种基于时序数据长度优化的计算系统故障预测方法 | |
CN111415039B (zh) | 一种基于非负张量分解的航班延误模式分析方法 | |
CN114943356A (zh) | 一种机场到港旅客乘坐出租车短时需求集成预测方法 | |
CN115222150A (zh) | 一种基于Stacking的航班延误预测方法及系统 | |
CN110796315A (zh) | 基于时效信息和深度学习的离港航班延误预测方法 | |
US20150106313A1 (en) | Predictive modeling of high-bypass turbofan engine deterioration | |
Hatıpoğlu et al. | Flight delay prediction based with machine learning | |
Tang | Airline flight delay prediction using machine learning models | |
CN114219116A (zh) | 对流天气影响终端区的容量预测方法 | |
Behere | A Reduced Order Modeling Methodology for the Parametric Estimation and Optimization of Aviation Noise | |
CN115130380A (zh) | 一种基于机器学习的战略航班时刻表延误分布预测方法 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
CN112308285B (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
Jain et al. | Using Deep Learning to Predict Unstable Approaches for General Aviation Aircraft | |
Tarasonok et al. | Models for forecasting flight delays | |
Qi et al. | Departure Flight Delay Prediction and Visual Analysis Based on Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |