CN116910465A

CN116910465A - 基于机器学习的空中交通流量管理延误分布预测方法

Info

Publication number: CN116910465A
Application number: CN202310630527.1A
Authority: CN
Inventors: 赵征; 袁嘉玲; 李昌城; 刘盈
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-10-20
Anticipated expiration: 2043-05-31
Also published as: CN116910465B

Abstract

本发明公开了一种基于机器学习的空中交通流量管理延误分布预测方法，针对目前ATFM Delay预测指标体系的构建及预测方法难以为空中交通流量管理部门延误预警机制提供决策支持的问题，提出一种包括特征筛选、权值计算、模型参数优化的ATFM Delay分布预测方法。构建ATFM Delay预测网络模型，以航班在航线上可能通过的容需不平衡节点(机场和航路点)作为ATFM Delay预测网络中的节点，航线为边构建了有向网络图。为了避免ATFM Delay产生和发生地点不一致的情况，不再以单个航班作为预测对象，确定ATFM Delay预测网络中的边为预测对象。

Description

基于机器学习的空中交通流量管理延误分布预测方法

技术领域

本发明属于航空空中交通管理技术领域，具体涉及一种基于机器学习的空中交通流量管理延误分布预测方法。

背景技术

空中交通流量管理延误Air Traffic Flow Management delay，ATFM Delay是航空器运营人要求的目标起飞时刻TTOT(Target Take-Off Time，目标起飞时刻)与空中交通流量管理职能部门首次分配的起飞时刻CTOT(Calculated Take-Off Time，计算起飞时刻)的时间间隔。在空中交通流量管理系统中，输入TTOT后，流量管理系统将判断航班在航线上通过的拥堵(容需不平衡)节点(机场或航路点)，流量管理系统将针对该节点的超容航空器队列进行过点时间排序，计算出排序后的过点时刻，并反推航班的CTOT。

ATFM Delay可根据研究需要，分解为不同对象的延误，进而有针对性地实施空域网络运行性能及容量评估。ATFM Delay可以定量反映空域网络容需失衡导致拥堵的时空分布，是空中交通流量管理策略执行效果的重要评估参数。通过对ATFM Delay影响因素挖掘与预测技术研究，提高ATFM Delay的可预测性，精准把握民航在关键节点(机场和航路点)容需匹配情况的现状，提升航班计划执行的动态性和灵活性，实现提前部署空中交通流量管理策略的目标，为全国航路航线网规划提供理论依据。

目前对ATFM Delay的相关研究主要集中在ATFM Delay实际应用研究、ATFM Delay的指标体系构建、ATFM Delay预测模型三方面。相关研究基于大量历史数据确定了ATFMDelay的阈值并能够准确对ATFM Delay产生的原因进行归类，为后续延误的预测和优化提供了理论支撑。在ATFM Delay预测算法研究方面主要集中在传统机器学习和深度学习，预测准确度不高，需要进一步进行算法优化或使用联合算法对延误进行更加精准的预测。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于机器学习的空中交通流量管理延误分布预测方法，在ATFM Delay原因记录信息缺乏的情况下能够基于复杂网络做出短时ATFM Delay分布精确预测。

为达到上述目的，本发明采用的技术方案如下：

本发明基于机器学习的空中交通流量管理延误分布预测方法，包括：

S1，数据收集及预处理：将ATFM Delay指标涉及的基础数据进行收集并剔除异常数据；

S2，建立ATFM Delay原始数据集：根据数据收集情况，确定网络范围，选定机场和航路点经纬度信息构建ATFM Delay预测网络图；计算ATFM Delay预测网络图中节点的PageRank值，基于PageRank值构建初始ATFM Delay预测指标体系，形成ATFM Delay预测原始数据集；

S3，特征筛选过程：根据初始ATFM Delay预测指标体系中数据的特点，对数据进行分箱处理，计算WOE值和IV值，根据IV值剔除部分弱价值特征和无用特征，形成最终的ATFMDelay预测指标体系；

S4，特征权值计算过程：将最终的ATFM Delay预测指标体系中的指标数据和每个指标的IV值进行标准化，将标准化的IV值作为特征数据的权值，与对应的指标数据相结合，形成加权ATFM Delay预测数据集；

S5，对加权ATFM Delay预测数据集进行测试集和训练集划分；

S6，将SVM模型中的惩罚因子c和核函数参数g作为PSO算法中的粒子进行迭代优化，获得优化的惩罚因子c和核函数参数g，再输入到SVM模型中；

S7，将ATFM Delay预测训练样本，输入到SVM模型中进行训练，得到空中交通流量管理延误分布的预测结果，输出预测准确度，作为适应度值；

S8，计算粒子的适应度值Pbest，并与个体经历过的最好位置的适应度值相比，如果更好，则进行替代，并同时对全局极值Gbest进行更新，储存此时的个体极值Pbest和全局极值Gbest。直至达到最大迭代次数，输出最优预测结果和此时的c与g值。

进一步的，所述ATFM Delay指标涉及的基础数据包含航班计划数据、天气预报数据和四维航迹数据。

进一步的，所述S2包括以下内容：

S21，根据数据收集情况，确定网络范围，选定机场和航路点经纬度信息构建ATFMDelay预测网络图；

S22，在一条航线计划经过的多个航路点中识别出承载着较大流量压力或多条航线交汇点，作为关键航路点R；设定关键航路点流量：关键航路点R在时刻t的流量指的是计划过点时刻落在时间窗口[t-w/2,t+w/2]内的所有关键航路点R的数量，其中w为时间窗大小；

S23，根据有向加权复杂网络节点的PageRank计算方法计算机场节点的动态Pagerank值，使用不加权的PageRank值计算方式计算关键航路点R的PageRank值；

S24，基于PageRank值构建初始ATFM Delay预测指标体系，形成ATFM Delay预测原始数据集。

进一步的，将航程和两个机场之间所有经过航路点的预计过点流量累加之和作为机场节点的动态PageRank值计算的权值，即得到机场节点的PageRank值，并且，在计算PageRank值加入时间信息，得到机场节点的动态PageRank值。

进一步的，计算机场节点的动态PageRank值，公式如下：

其中，w(V_i，V_j)表示有向边(V_i，V_j)的权值；dij表示V_i和V_j之间的航程距离；f_ij ^t表示过点时间落在[t-w/2,t+w/2]之间，V_i和V_j之间所有经过航路点的预计过点流量累加之和；μ、γ为系数，可依据预测效果进行调整；表示t时刻，V_i机场节点的PageRank值；表示t时刻，机场节点V_j的PageRank值；t时刻根据预测对象的计划离港时间进行确定，w为时间窗口。

进一步的，使用不加权的PageRank值计算方式计算关键航路点R的静态PageRank值，计算公式如下：

其中，表示预计过点时间落在[t-w/2,t+w/2]之间，航路点V_i的PageRank值；/>表示预计过点时间落在[t-w/2,t+w/2]，航路点V_j的PageRank值；t时刻根据预测对象经过的航路点的预计过点时间进行确定，w为时间窗口。

进一步的，所述ATFM Delay预测指标包含起飞机场、目的地机场、空域网络、航线性质四大类。

进一步的，所述S3包括以下内容：

S31，采用等宽分箱和决策树分箱对ATFM Delay预测指标集进行数据分箱处理；

S32，计算每个指标的WOE值和IV值。

进一步的，所述S4包括以下内容：

S41，将指标数据和IV值分别标准化，将标准化的IV值作为特征数据的权值：

其中，x_ij表示第i个特征的第j个变量；IV_i′表示标准化后的特征值；IV_i′表示标准化后第i个变量的IV值；

S42，计算加权特征值，形成加权ATFM Delay预测数据集

y_ij表示加权特征值。

本发明的有益效果：

本发明针对目前ATFM Delay预测指标体系的构建及预测方法难以为空中交通流量管理部门延误预警机制提供决策支持的问题，提出一种包括特征筛选、权值计算、模型参数优化的ATFM Delay分布预测方法。构建ATFM Delay预测网络模型，以航班在航线上可能通过的容需不平衡节点(机场和航路点)作为ATFM Delay预测网络中的节点，航线为边构建了有向网络图。为了避免ATFM Delay产生和发生地点不一致的情况，不再以单个航班作为预测对象，确定ATFM Delay预测网络中的边为预测对象。在ATFM Delay预测指标构建阶段，提出一些创新性指标计算方法。包括关键航路点识别及预计过点流量计算、网络节点加权Pagerank值计算方法。在ATFM Delay分布预测阶段，提出了IV-PSO-SVM模型。首先利用IV值对特征进行筛选及特征权值计算。将加权ATFM Delay预测数据集输入到SVM模型，利用PSO算法对SVM关键参数进行优化。

选取2021年10月1日～11月30日，6：00～24：00时段全国机场的航班计划数据、天气预报数据、四维航迹数据进行融合，有效数据共37023条，进行ATFM Delay预测实证分析。模型预测结果表明：IV-PSO-SVM模型预测准确度高达到96.4％，预测准确度较SVM模型、PSO-SVM模型分别提高了13.5％、9.05％。

附图说明

图1为ATFM Delay预测网络示意图；

图2为关键航路点流量计算流程图；

图3为ATFM Delay预测流程图；

图4为基于四种预测模型的ROC曲线图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

实施例1

本申请提供一种基于机器学习的空中交通流量管理延误分布预测方法，包括：

S4，特征权值计算过程：将筛选过的指标数据和每个指标的IV值进行标准化，将标准化的IV值作为特征数据的权值，与对应的指标数据相结合，形成加权ATFM Delay预测数据集；

S5，对加权ATFM Delay预测数据集进行测试集和训练集划分；

本申请预测方法创新点在于：

1.结合了IV值(信息价值)用于特征筛选过程，提高了预测准确度。

2.不再以单个航班为预测对象，应用系统和整体的概念，构建了网络模型进行预测。

3.在预测指标上，由于ATFM Delay与普通的航班延误不同，延误原因和数据难以获取，本文提出了一些复杂的指标，比如：机场加权PageRank值、主要航路点计划过点流量、航路点PageRank值。

进一步的，本实施提供的ATFM Delay指标涉及的基础数据包含航班计划数据、天气预报数据和四维航迹数据。

下文对ATFM Delay预测网络模型进行详细介绍：

本文以航班CTOT和TTOT的差值判断航班是否发生ATFM Delay，计算方法如式(1)所示。

其中，D＝0代表航班没有产生ATFM Delay，D＝1代表航班产生了ATFM Delay。

ATFM Delay一般发生在起飞机场，作用于受控航班。产生ATFM Delay的地点可以是起飞机场、目的地机场或航线上某个航路点等。本文不以单个航班的ATFM Delay作为预测对象，而是从整体性和网络性的角度实现对ATFM Delay预测。

根据网络图的基本概念以及ATFM Delay产生过程，提出ATFM Delay预测网络图的定义：以机场和航路点为节点，航线为边构建有向网络图。其中，航路点为航线计划经过的点。如果两个机场之间有航线经过，则这两个机场之间就存在一条有向边，边的起点表示起飞机场，边的终点表示目的地机场。ATFM Delay预测网络模型用G表示，G＝(V,E)。V表示节点集合，E表示边的集合。网络的节点个数为n＝|V|,边的个数为m＝|E|。(V₁，V₂)表示节点V1到节点V2的一条有向边。

进一步的，所述S2包括以下内容：

S22，在航线中的多个航路点中识别出承载着较大流量压力或多条航线交汇点，作为关键航路点R；设定关键航路点流量：关键航路点R在时刻t的流量指的是计划过点时刻落在时间窗口[t-w/2,t+w/2]内的所有关键航路点R的数量，其中w为时间窗大小；

关于ATFM Delay预测指标的建立：

根据ATFM Delay产生机理，提出了关键航路点计划流量、网络节点加权的Pagerank值等指标，首先对本发明提出的一些复杂型指标进行解释说明。

关键航路点计划流量

ATFM Delay是由于空中交通流量管理系统判断航班在航线上会通过拥堵节点(机场或航路点)排队，暂缓航班起飞而产生的延误。航路点的流量越大，航路点成为容量瓶颈的可能性越大，ATFM Delay程度越严重，故可将航路点流量作为ATFM Delay关键影响因素。一个城市对可能存在一条或多条空中交通线，为了简化实验，本发明根据航线的使用的频次，确定城市对之间唯一的飞行路线。而一条航线存在多个航路点，为了筛选出对ATFMDelay影响更大的航路点，首先要识别航线上的关键航路点。通常情况下，关键航路点为承载着较大流量压力或多条航线交汇点。

关键航路点流量：关键航路点R在时刻t的流量指的是计划过点时刻落在时间时间窗口[t-w/2,t+w/2]内的所有关键航路点R的数量，其中w为时间窗大小。

网络节点加权的Pagerank值

节点在网络中重要程度越高，成为容量瓶颈的可能性越大，故ATFM Delay发生可能性与严重程度越高。PageRank算法可以定义在任何有向网络图上，描述随机游走者沿着有向图随机访问各个节点的行为。在一定条件下，极限情况访问每个节点的概率收敛到平稳分布，这是各个节点的平稳概率值就是其PageRank值，该值可以表示节点的重要程度。PageRank值计算过程是一个迭代过程，PageRank算法的公式定义如下：

其中，PR(V_i)为节点V_i的PageRank值；PR(V_j)为指向节点V_i的节点V_j的PageRank值；Count(V_j)为节点的出链数量；α为阻尼系数，阻尼系数越大，区分节点的相对重要性能力越强。

本文针对传统PageRank算法存在的平均分配不合理性的问题，并参考有向加权复杂网络节点的PageRank计算方法，加入网络关联边的方向和权值大小，提高重要节点的PageRank值，提出机场节点在机场网络和航路点在空域网络节点中的PageRank计算方式，从而精准地度量节点的重要度。

本实施例中，将航程和两个机场之间所有经过航路点的预计过点流量累加之和作为机场节点的动态PageRank值计算的权值，即得到机场节点的PageRank值，并且，在计算PageRank值加入时间信息，得到机场节点的动态PageRank值。

计算机场节点的动态PageRank值，公式如下：

综上，构建ATFM Delay预测指标体系，如表1所示：将ATFM Delay预测指标归为起飞机场、目的地机场、空域网络、航线性质四大类。

表1ATFM Delay预测指标体系

进一步的，所述S3包括以下内容：

S32，计算每个指标的WOE值和IV值。

进一步的，数据分箱(Binning)是依据一定的规则进行分组，使数据变得离散化，从而提高模型的稳定性与鲁棒性。连续性特征分箱处理可分为等宽分箱、等频分箱、决策树分箱、卡方分箱四类。根据表1构建的ATFM Delay预测指标体系数据特点，本发明仅考虑等宽分箱和决策树分箱进行数据分箱处理。

数据分箱后，才能计算WOE(weight of evidence)值和IV(Infromation Value)值。WOE的实质是表示当前分箱中好坏样本的各自占总体好坏样本比例的差异，可以用来衡量特征的预测强度。IV值用来表示特征对目标预测的贡献程度，一般来说，IV值越高，该特征的预测能力越强，WOE值和IV值计算公式如下：

其中，为变量第i个分箱的WOE值；、分别为变量第i个分箱中坏、好客户的个数；分别为总体坏、好客户数。

将特征数据和IV值分别标准化后，将标准化的IV值作为特征数据的权值，增大高价值特征的数值，提高特征数据对预测目标的信息贡献程度。

所述S4包括以下内容：

其中，x_ij表示第i个特征的第j个变量；表示标准化后的特征值；/>表示标准化后第i个变量的IV值；

S42，计算加权特征值，形成加权ATFM Delay预测数据集

y_ij表示加权特征值。

下面结合具体案例对本申请方案的效果进行进一步阐述：

如图1所示为ATFM Delay预测网络的简要示意图，在该网络中，ATFM Delay预测对象为AC边、BD边、CA边、DB边。

如图4所示，将IV-PSO-SVM模型分别与SVM、PSO-SVM、IV-SVM模型对比。可以直观看到，ROC曲线在逐步向左上角移动，AUC值(曲线下方面积，取值在0和1之间)也在逐步增大。对比初始的SVM模型，PSO-SVM、IV-SVM模型的预测准确度都有所提高，分别为0.88和0.92。IV-SVM模型预测准确度提升幅度较PSO-SVM模型大，表明寻找最优的特征子集对预测结果有较大影响。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.基于机器学习的空中交通流量管理延误分布预测方法，其特征在于，包括：

S5，对加权ATFM Delay预测数据集进行测试集和训练集划分；

S8，计算粒子的适应度值Pbest，并与个体经历过的最好位置的适应度值相比，如果更好，则进行替代，并同时对全局极值Gbest进行更新，储存此时的个体极值Pbest和全局极值Gbest，直至达到最大迭代次数，输出最优预测结果和此时的c与g值。

2.根据权利要求1所述的预测方法，其特征在于，所述ATFM Delay指标涉及的基础数据包含航班计划数据、天气预报数据和四维航迹数据。

3.根据权利要求1所述的预测方法，其特征在于，所述S2包括以下内容：

4.根据权利要求3所述的预测方法，其特征在于，将航程和两个机场之间所有经过航路点的预计过点流量累加之和作为机场节点的动态PageRank值计算的权值，即得到机场节点的PageRank值，并且，在计算PageRank值加入时间信息，得到机场节点的动态PageRank值；使用不加权的PageRank值计算方式计算关键航路点R的静态PageRank值，得到关键航路点R的静态PageRank值。

5.根据权利要求4所述的预测方法，其特征在于，计算机场节点的动态PageRank值，公式如下：

6.根据权利要求4所述的预测方法，其特征在于，使用不加权的PageRank值计算方式计算关键航路点R的静态PageRank值，计算公式如下：

其中，表示预计过点时间落在[t-w/2,t+w/2]之间，航路点V_i的PageRank值；表示预计过点时间落在[t-w/2,t+w/2]，航路点V_j的PageRank值；t时刻根据预测对象经过的航路点的预计过点时间进行确定，w为时间窗口。

7.根据权利要求4所述的预测方法，其特征在于，所述ATFM Delay预测指标包含起飞机场、目的地机场、空域网络、航线性质四大类。

8.根据权利要求1所述的预测方法，其特征在于，所述S3包括以下内容：

S32，计算每个指标的WOE值和IV值。

9.根据权利要求1所述的预测方法，其特征在于，所述S4包括以下内容：

S42，计算加权特征值，形成加权ATFM Delay预测数据集

y_ij＝X_i′_j×IV_i′(6)

y_ij表示加权特征值。