CN115130380A - 一种基于机器学习的战略航班时刻表延误分布预测方法 - Google Patents
一种基于机器学习的战略航班时刻表延误分布预测方法 Download PDFInfo
- Publication number
- CN115130380A CN115130380A CN202210739628.8A CN202210739628A CN115130380A CN 115130380 A CN115130380 A CN 115130380A CN 202210739628 A CN202210739628 A CN 202210739628A CN 115130380 A CN115130380 A CN 115130380A
- Authority
- CN
- China
- Prior art keywords
- flight
- strategic
- distribution
- machine learning
- schedule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 76
- 238000010801 machine learning Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000010006 flight Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于机器学习的战略航班时刻表延误分布预测方法,基于历史航班运行数据用正太分布拟合每个航班的延误分布,将得到的延误分布拼接到战略航班时刻表得到数据集合;选择用于战略航班时刻表中用于航班延误分布预测的特征,并对不同类型的特征进行编码;使用机器学习算法进行学习,预测战略性航班时刻表中航班延误分布信息,对于预测结果,提出评价指标对不同机器学习算法的预测结果进行评价;最后选择性能较优的机器学习算法预测战略航班时刻表的延误分布。该方法为航班时刻协调员提供战略时刻表潜在的延误分布信息,在发现机场准时性能瓶颈情况下,采取行动减少航班延误,支持战略航班时刻表性能评估和战略航班时刻表优化。
Description
技术领域
本发明涉及机器学习的方法,特别涉及一种基于机器学习的战略航班时刻表延误分布预测方法。
背景技术
近年来,航空运输需求持续增长,航空运输服务质量逐步提高。然而,由于机场和空域容量增长速度有限,航空运输系统逐渐暴露出容量饱和、运行效率低下等现象,航班延误问题愈发严峻。特别是在一些枢纽机场,航空运输需求远远超过机场容量,因此需要对需求和容量进行管理,以提高容量利用效率、保证航班服务质量。
目前获得的战略航班时刻表并未给出相关航班的潜在延误信息,战略航班时刻表对机场准时性性能的实际影响是未知的,而且战略航班会在未来的一个航季中多次执行,其延误状态充满不确定性。为了解决这一问题,需要一种方法来预测战略航班时刻表中潜在的航班延误分布信息。
发明内容
发明目的:本发明目的是提供一种基于机器学习的战略航班时刻表延误分布预测方法。
技术方案:所述基于机器学习的战略航班时刻表延误分布预测方法,包括如下步骤:
步骤1:获取战略航班时刻表和历史航班运行数据;
步骤2:正太分布拟合历史航班运行数据的航班延误分布;
步骤3:选择用于航班延误分布预测的特征并进行相应的编码;
步骤4:使用机器学习算法进行训练,预测战略航班时刻表中航班延误分布;
步骤5:提出评价指标对不同机器学习算法的预测结果进行评价;
步骤6:选择性能较优的机器学习算法预测战略航班时刻表的延误分布;
进一步地,所述步骤1中战略航班时刻表和历史航班运行数据包括航班号、飞机类型、起飞机场、目的机场、班次、预计/实际出发时间和预计/实际到达时间。
进一步地,所述步骤2中航班延误分布拟合使用正太分布拟合得到每个航班的均值μ和方差σ。
进一步地,所述步骤3中选择用于航班延误分布预测的特征包括机型、机场、年、周、航司、战略出发时间、战略到达时间、班次、基地航空、飞行时间和航班数量,对分类变量使用Beta目标编码,数值变量使用最小最大化编码,三角变换变量进行三角变换编码。
进一步地,所述步骤4中使用机器学习算法包括损失函数为平均绝对误差(MeanAbsolute Error,MAE)的多层感知机(Multilayer Perceptron,MLP)、损失函数为分位数(Quantile)的MLP、轻量化梯度提升机(Light Gradient Boosting Machine,LightGBM)和随机森林(Random Forest,RF)。
进一步地,所述步骤5中评价指标选择的是不同置信水平下预测正确率、不同间隔水平下区域面积和分布相似度,使用这三个指标对战略航班时刻表延误分布的预测结果进行评估。
有益效果:本发明可以为航班时刻协调员提供战略时刻表潜在的延误分布信息,在发现机场准时性能瓶颈的情况下,采取必要的行动来减少航班延误。能够对战略航班时刻表性能评估,支持战略航班时刻表的优化。
附图说明
图1为本发明的方法流程图;
图2航班延误分布直方图、核密度曲线和正太分布拟合曲线的一个示例;
图370%置信水平下的正确预测示例;
图420min间隔水平的预测示例;
图5两个分布间Wasserstein距离示例。
具体实施方式
如图1所示,本实施例的基于机器学习的战略航班时刻表延误分布预测方法,具体步骤如下:
步骤1:获取战略航班时刻表和历史航班运行数据;
获取以下数据:①战略航班时刻表数据(见表1),包括航班号、飞机类型、起飞机场、目的机场、班次、预计出发时间和预计到达时间。②历史航班运行数据,包括实际出发时间和实际到达时间。
表1战略航班时刻表
步骤2:正太分布拟合历史航班运行数据的航班延误分布;
航班延误分布拟合使用正太分布拟合得到每个航班的均值μ和方差σ,拟合过程如图2。
步骤3:选择用于航班延误分布预测的特征并进行相应的编码;
所述步骤3中选择用于航班延误分布预测的特征包括机型、机场、年、周、航司、战略出发时间、战略到达时间、班次、基地航空、飞行时间和航班数量。对各个特征的描述见表2。对分类变量使用Beta目标编码,数值变量使用最小最大化编码,三角变换变量进行三角变换编码。
表2用于航班延误分布预测算法的特征描述
λ(j)=τ/(N(j)+τ) (2)
上述约束条件中,表达式(1)-(3)表示Beta目标编码的过程,其中μprior表示先验分布均值,i表示第几个样本,N表示样本数量,yi表示样本值,j表示某个level的y值(这里的level值表示该特征中有多少个分类变量类别),τ表示先验分布的有效样本量,λ(j)是一个超参数,用于控制估计中的平滑量,x(j)表示此level下的样本;
表达式(4)表示最小最大化处理,x表示该变量值,min表示变量中最小值,max表示变量中最大值;
表达式(5)表示三角变换编码处理,以一天时间t为例,使用sin和coS进行编码转换确保时间t的周期性;
步骤4:使用机器学习算法进行训练,预测战略航班时刻表中航班延误分布;
将数据划分为训练集和测试集,划分比例5:1,算法为回归预测算法,目标是预测战略航班时刻表中各个航班服从的正太分布的均值μ和方差σ。机器学习算法包括RF、LightGBM和MLP,训练学习过程使用随机搜索调优超参数。六倍交叉验证得到不同算法的回归预测结果。
步骤5:提出评价指标对不同机器学习算法的预测结果进行评价;
战略航班时刻表的延误分布预测结果评价指标包括以下指标:①不同置信水平下预测正确率。②不同间隔水平下区域面积。③分布相似度。不同置信水平下预测正确率定义如下,算法预测得到单个航班延误分布的均值和标准差,生成对应的正太分布曲线,在不同置信水平下如果真实延误分布的均值落在此置信区间内,此次预测为一次正确的预测。图3给出了一个航班在70%置信水平下的一次正确的预测。不同间隔水平下预测的区域面积定义如下,算法预测得到单个航班的延误分布均值和标准差,生成对应的正太分布曲线,真实延误分布的均值在不同间隔水平下对应x轴上两点,区域面积越大表示预测越准确,图4给出了一个真是延误分布均值为30min,延误间隔水平为20min的一个示例。用Wasserstein距离度量真实延误分布和预测延误分布的差异,值越小表示预测越精准,图5给出了两个分布间Wasserstein距离的示例。
W(P,Q)=infγ∈Π(P,Q)E(x,y)~γ[||x-y||] (8)
表达式(8)表示Wasserstein距离的计算方式,式中:P,Q表示两个要计算Wasserstein距离的分布,x表示起始点,y表示要推到的目标点,r表示操作的代价,∏(P,Q)表示分布P,Q所有可能的联合分布,总代价使用期望最大(Expectation Maximum,EM)方法求得最小值。
基于对单个航班的预测结果评价指标,从整体角度提出对应的三个指标对预测结果进行分析。①不同置信水平下预测准确率。准确率定义如下,战略航班时刻表中在此置信水平下被正确预测的航班所占比例。②不同间隔水平下平均区域面积。区域面积定义如下,战略航班时刻表中在此间隔水平下区域面积的平均值。③分布相似度频率分布。Wasserstein距离的频率分布图,瘦高的频率分布图代表优良的预测性能。
步骤6:选择性能较优的机器学习算法预测战略航班时刻表的延误分布;
选择性能较优的机器学习算法预测战略航班时刻表的延误分布。
Claims (6)
1.一种基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:包括如下步骤:
步骤1:获取战略航班时刻表和历史航班运行数据;
步骤2:正太分布拟合历史航班运行数据的航班延误分布;
步骤3:选择用于航班延误分布预测的特征并进行相应的编码;
步骤4:使用机器学习算法进行训练,预测战略航班时刻表中航班延误分布;
步骤5:提出评价指标对不同机器学习算法的预测结果进行评价;
步骤6:选择性能较优的机器学习算法预测战略航班时刻表的延误分布。
2.根据权利要求1所述的基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:所述步骤1中战略航班时刻表和历史航班运行数据包括航班号、飞机类型、起飞机场、目的机场、班次、预计/实际出发时间和预计/实际到达时间。
3.根据权利要求1所述的基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:所述步骤2中航班延误分布拟合使用正太分布拟合得到每个航班的均值μ和方差σ。
4.根据权利要求1所述的基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:所述步骤3中选择用于航班延误分布预测的特征包括机型、机场、年、周、航司、战略出发时间、战略到达时间、班次、基地航空、飞行时间和航班数量,对分类变量使用Beta目标编码,数值变量使用最小最大化编码,三角变换变量进行三角变换编码。
5.根据权利要求1所述的基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:所述步骤4中使用机器学习算法包括损失函数为平均绝对误差(Mean AbsoluteError,MAE)的多层感知机(Multilayer Perceptron,MLP)、损失函数为分位数(Quantile)的MLP、轻量化梯度提升机(Light Gradient Boosting Machine,LightGBM)和随机森林(Random Forest,RF)。
6.根据权利要求1所述的基于机器学习的战略航班时刻表延误分布预测方法,其特征在于:所述步骤5中评价指标选择的是不同置信水平下预测正确率、不同间隔水平下区域面积和分布相似度,使用这三个指标对战略航班时刻表延误分布的预测结果进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210739628.8A CN115130380A (zh) | 2022-06-28 | 2022-06-28 | 一种基于机器学习的战略航班时刻表延误分布预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210739628.8A CN115130380A (zh) | 2022-06-28 | 2022-06-28 | 一种基于机器学习的战略航班时刻表延误分布预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115130380A true CN115130380A (zh) | 2022-09-30 |
Family
ID=83380155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210739628.8A Pending CN115130380A (zh) | 2022-06-28 | 2022-06-28 | 一种基于机器学习的战略航班时刻表延误分布预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115130380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681413A (zh) * | 2023-08-03 | 2023-09-01 | 中航信移动科技有限公司 | 一种航班到达时间确定方法、电子设备及存储介质 |
-
2022
- 2022-06-28 CN CN202210739628.8A patent/CN115130380A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681413A (zh) * | 2023-08-03 | 2023-09-01 | 中航信移动科技有限公司 | 一种航班到达时间确定方法、电子设备及存储介质 |
CN116681413B (zh) * | 2023-08-03 | 2023-10-27 | 中航信移动科技有限公司 | 一种航班到达时间确定方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021082393A1 (zh) | 基于大数据深度学习的机场场面可变滑出时间预测方法 | |
US11501039B2 (en) | Optimizing aircraft flows at airports using data driven predicted capabilities | |
Schultz et al. | Predictive classification and understanding of weather impact on airport performance through machine learning | |
CN110503245B (zh) | 一种机场航班大面积延误风险的预测方法 | |
Khan et al. | Prediction of aircraft trajectory and the associated fuel consumption using covariance bidirectional extreme learning machines | |
Zhang et al. | Data‐driven flight time prediction for arrival aircraft within the terminal area | |
CN113284369B (zh) | 一种基于ads-b实测航路数据的预测方法 | |
CN113657671B (zh) | 一种基于集成学习的航班延误预测方法 | |
CN111882114B (zh) | 一种短时交通流量预测模型构建方法及预测方法 | |
CN113341919A (zh) | 一种基于时序数据长度优化的计算系统故障预测方法 | |
CN115130380A (zh) | 一种基于机器学习的战略航班时刻表延误分布预测方法 | |
CN117764631A (zh) | 基于源端静态数据建模的数据治理优化方法及系统 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
US20240256995A1 (en) | Controlling resource requirements | |
Antici et al. | Augmenting ML-based Predictive Modelling with NLP to Forecast a Job's Power Consumption | |
CN115222150B (zh) | 一种基于Stacking的航班延误预测方法及系统 | |
CN116404637A (zh) | 电力系统短期负荷预测方法和电力系统短期负荷预测装置 | |
Sridhar et al. | Lessons learned in the application of machine learning techniques to air traffic management | |
SAHADEVAN et al. | Predictability improvement of scheduled flights departure time variation using supervised machine learning | |
Ying et al. | Terminal Traffic Flow Prediction Method Under Convective Weather Using Deep Learning Approaches. | |
Brito et al. | A Machine Learning-based Predictive Model of Airspace Sector Occupancy | |
Zhao et al. | Research and comparison on identification and prediction methods of air traffic network congestion | |
CN108172027A (zh) | 概率性航路扇区交通需求预测方法 | |
CN108364091A (zh) | 概率性航路扇区交通需求预测流量管理系统 | |
Nivitha et al. | An Ensemble Approach for Flight Delay Prediction Through Spatiotemporal Parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |