CN116384814A

CN116384814A - 基于机器学习对多因素影响下机场跑道容量的评估方法

Info

Publication number: CN116384814A
Application number: CN202310293985.0A
Authority: CN
Inventors: 邵荃; 李雅聪; 唐小卫; 陆溪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-07-04

Abstract

本发明针对预测精度和可靠性问题，应用循环神经网络方法，公开基于机器学习对多因素影响下机场跑道容量的评估方法。该方法通过最大互信息系数对可能的影响因素进行相关性分析，筛选出强特征变量作为模型输入，并对数据进行预处理；将LSTM与注意力机制结合，确定不同气象因素对机场容量预测的影响，定义了模型的损失函数和输出方式，构建了完整的LSTM‑Attention机场容量评估模型。该发明融合相关性分析，能够较全面地考虑机场容量影响因素，融合多源数据时空特征并将其对机场容量的影响进行量化；通过改进的算法降低模型训练复杂度并提升评估结果的稳定性与准确性，以达到对机场容量精准量化的目的，确保对机场运行的基础保障。

Description

基于机器学习对多因素影响下机场跑道容量的评估方法

技术领域

本发明属于民航机场容量评估领域，具体涉及基于机器学习的多因素影响下的机场容量评估方法。

背景技术

近年来，随着航空运输业迅速发展，航空运输需求与实际民航运力发展不平衡，机场拥堵以及航班延误的问题日益严峻，甚至引发旅客不满。扩大机场容量可以有效缓解机场拥堵，但由于机场改扩建周期长、投资大，短期内难以实现。容量评估的有效性与准确性是影响流量管理实施效果的关键，对机场运行容量的高估会导致机场拥挤和航班延误，对机场运行容量的低估则会导致稀缺机场资源的浪费，因此对机场容量的准确评估是有必要的，但也是非常复杂且具有挑战性的。

目前的机场容量评估方法主要有基于历史统计数据分析的评估方法；基于管制员工作负荷的评估方法；基于数学计算模型的评估方法以及基于计算机仿真的评估方法四种。现有方法多适用于离线机场容量评估，但由于跑道配置、天气条件以及需求等的不确定性，并非先验可知的，不适用于实时的机场容量预测。近年来，伴随这大量机场运行数据的生成与累积，利用人工智能以及数据驱动的方法出现，在大量数据基础上实现对隐藏信息的挖掘与快速分析。尽管已经有这方面的研究，但是如何精准、全面且高效的实时研究更为需要，深入挖掘大量历史数据的时空关联特性，进行相关性分析以筛选出强关联特征，而注意力机制的引入可以实现模型速度与精度优化，科学高效的机场容量评估对于减少流量管理的工作负荷、降低机场拥挤度以及预防航班延误等具有重要现实意义。

发明内容

发明目的：本发明针对现有机场容量评估滞后，无法实时评估且考虑因素不够全面的问题，在考虑气象条件的基础上，考虑跑道配置、主关联机场航班、前序航班延误情况等因素，通过最大互信息系数进行相关性分析以排除弱相关因素，结合注意力机制，提供基于改进的LSTM预测方法，旨在实现对机场容量精准全面实时评估的目的，从而为解决后续机场拥堵、航班延误等实际问题的研究提供基础。

技术方案：本发明提供基于机器学习的多因素影响下的机场容量评估方法，包括以下步骤：

S1、获取机场航班起降数据、机场运行数据以及气象数据，构建机场容量评估数据集；

S2、基于互信息系数对影响机场容量的数据进行相关性分析，过滤掉弱相关性数据；

S3、对过滤掉弱相关性数据的机场容量评估数据集进行数据预处理，并划分训练集与测试集；

S4、构建基于注意力机制的LSTM长短期记忆神经网络机场容量预测模型，利用所述训练集进行预测模型的训练，利用所述测试集进行预测模型的测试；

S5、获取包括机场航班起降数据、机场运行数据以及气象数据的机场容量数据，输入到训练好的预测模型，得到机场容量评估结果，并通过性能指标对预测模型的性能进行量化。

优选的，所述步骤S1中：

所述机场航班起降数据包括：日期、航班号、机型、计划到/离港时间、实际到/离港时间、单位时间内机场的实际进场架次、单位时间内机场的实际离场架次；主关联机场航班数据；前序单位时间段内航班延误情况数据；

所述机场运行数据包括：跑道构型数据；

所述气象数据包括：风向、风速、能见度、云底高、温度、湿度、海平面气压、降水量、阵风、暴雨暴雪。

优选的，所述步骤S1中，将日期、计划到/离港时间、实际到/离港时间、风速、温度、湿度、海平面气压定义为连续型变量；将航班号、机型、单位时间内机场的实际进场架次、单位时间内机场的实际离场架次、主关联机场航班数据、前序单位时间段内航班延误情况数据、跑道构型数据、风向、能见度、云底高、降水量、阵风、暴雨暴雪定义为离散型变量。

优选的，所述步骤S2包括以下步骤：

S2-1、通过互信息系数衡量离散型变量与机场容量之间的相关程度，互信息系数I(X；Y)定义为：

其中X为输入特征数据，Y为目标变量即机场容量数据，P(X,Y)是X和Y的联合概率分布函数，P(X)和P(Y)分别为X和Y的边缘概率分布函数；

通过最大互信息系数对连续型变量进行处理，当X和Y在散点图网格中表现出相近的概率密度分布时，将二者的互信息系数计算出来后进行正则化运算，来评估两者之间的相关性，过滤掉弱相关性离散型变量，最大互信息系数计算公式如下：

其中，a、b为二维坐标系中的网格分布参数，a和b的取值满足a*b＜B(n)，B(n)＝n^0.6表示搜索网格数的上界，n代表机场容量评估数据集的样本数量，I(X,Y)代表某一a、b取值下，X、Y的最大互信息值。

优选的，所述步骤S3包括以下步骤：

S3-1、对过滤掉弱相关性离散型变量的机场容量评估数据集进行异常值检验处理，将明显偏离机场容量评估数据集的数据视为异常值并剔除，并对于噪声数据做平滑处理；

S3-2、对剔除异常值后的机场容量评估数据集进行缺失值处理，采用拉格朗日插值法进行填补；

S3-3、采用最小-最大归一化方法对连续型变量进行转化处理，转化函数为：

其中，X_norm是连续型变量的归一化向量，X是连续型变量的原始向量，X_max和X_min分别为连续型变量的最大和最小值；

S3-4、采用独热编码对离散型变量进行处理；

S3-5、针对机场航班起降数据、机场运行数据以及气象数据不同来源的数据采样间隔不一致导致时间维度上信息不统一的问题，规定以30min或1h为时间间隔；

S3-6、将机场容量评估数据集划分为训练集和测试集。

优选的，所述步骤S4中：

基于注意力机制的LSTM长短期记忆神经网络机场容量预测模型包括输入层、隐藏层、注意力机制层、Dropout层以及输出层。

优选的，所述步骤S4中：

所述输入层由归一化后的输入特征组成，输入节点个数为输入特征的维度；长短期记忆神经网络层数为2层，神经元个数分别为256个和32个；

所述隐藏层包括遗忘门f_t，输入门i_t和输出门o_t；其中，遗忘门和输出门使用的神经元的函数为Sigmoid激活函数，而在输入门将Sigmoid激活函数与双曲正切tanh函数相结合，各层神经元的输出表达式如下：

遗忘门：f_t＝σ(W_f[h_t-1+x_t]+b_f)

输入门：i_t＝σ(W_i[h_t-1,x_t]+b_i)

输出门：o_t＝σ(W_o[h_t-1,x_t]+b₀)

新细胞状态：

隐藏层状态值：h_t＝o_t·tanh(c_t)

其中，f_t、i_t、o_t分别为遗忘门、输入门和输出门，σ和tanh表示Sigmoid激活函数和双曲正切tanh激活函数，W_f、W_i和W_o分别为遗忘门、输入门和输出门的权重系数矩阵，b_f、b_i和b_o分别为遗忘门、输入门和输出门的偏置项，x_t为输入特征向量，c_t和c_t-1分别为t时刻和t-1时刻的LSTM单元状态，

为单元的候选状态，h_t为t时刻单元的输出隐藏状态向量；

所述注意力机制层：

s_t＝tanh(W_th_t+b_t)

其中，s_t为t时刻输入特征向量的概率分布值，h_t为t时刻单元的输出隐藏状态向量，W_t、b_t分别为注意力机制层权重系数矩阵和偏置项，α_t为注意力权重矩阵，V为注意力机制层输出；

每层输出经过所述Dropout层，防止过拟合；

所述输出层由全连接层构成，所述输出层节点个数为输出特征的维度，令输出特征维度为1，公式如下：

y_t＝LSTM(x_t,h_t-1,c_t)。

其中，x_t为输入特征向量，h_t-1为t-1时刻单元的输出隐藏状态向量，c_t为t时刻的LSTM单元状态。

优选的，所述步骤S5包括以下步骤：

S5-1、用前n个时刻的机场容量数据预测下一个时刻机场容量数据，即将{i-n,i-n+1,...,i-2,i-1,i}时刻的机场容量数据输入到训练好的结合注意力机制的长短期记忆模型中，预测出i+1时刻的数据作为机场容量预测值，对预测结果进行反归一化，完成解码；

S5-2、用均方根误差RMSE来评价基于注意力机制的LSTM长短期记忆神经网络机场容量预测模型的性能，其计算公式为：

其中，n为样本数量，f_i为真实值，

为预测模型的预测值。

有益效果：本发明在考虑气象条件基础上对现有机场容量影响因素进行补充，完善现有机场容量评估影响因素；其次，本发明引入最大互信息系数方法，更为精准地对影响机场容量的特征进行筛选，弥补了现有研究缺乏对于最初参数相关性分析，参数的选取主要依靠人为主观选择的不足；此外，本发明引入注意力机制对LSTM模型进行改进，既解决了传统循环神经网络存在的长期依赖问题，又改进了梯度爆炸与梯度消失的问题，有效提升了机场容量评估的准确性与稳定性，并且可以应用到不同的机场，从而提升模型的适用性。并且具有较强的实用性，有利于推进机场容量评估技术的发展。

附图说明

图1是基于机器学习的机场容量评估流程框图；

图2是本发明提供的方法图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明提供了基于机器学习的机场容量评估方法，包括所需机场容量和气象数据处理，数据集的构建，模型框架的构建以及机场容量评估模型训练。适用于对多因素影响下的机场容量进行评估，训练的模型有较好的适用性，可以更为精准地完成机场容量的评估。如图1所示，具体包括以下步骤：

步骤一、获取机场航班起降数据、机场运行数据以及相应的气象数据详细信息，构建机场容量评估数据集。

所述步骤一具体为：

所述机场运行数据包括：跑道构型数据；

所述气象数据包括：风向、风速、能见度、云底高、温度、湿度、海平面气压、降水量、阵风、暴雨暴雪等特殊天气；

进一步地，所述步骤1具体属性为：将日期、计划到/离港时间、实际到/离港时间、风速、温度、湿度、海平面气压定义为连续型变量，将航班号、机型、单位时间内机场的实际进场架次、单位时间内机场的实际离场架次、主关联机场航班数据、前序单位时间段内航班延误情况数据、跑道构型数据、风向、能见度、云底高、降水量、阵风、暴风雨暴雪定义为离散型变量。此外，本发明定义主关联机场为在考虑航班频次、延误架次以及航班延误总时间等因素影响下，关联程度较大的机场，其对应的航班数据为主关联机场航班数据；

步骤二、基于最大互信息系数对可能影响机场容量的因素进行相关性分析，过滤掉弱影响指标，筛选出对机场容量影响较大的因素，完成特征选择。

所述步骤二具体为：

S2-1、通过互信息系数衡量各个特征因素与机场容量之间相关程度，互信息系数I(X；Y)定义公式：

其中，X、Y分别为随机变量，其中X为输入特征数据，Y为目标变量即机场容量数据，P(X,Y)是X和Y的联合概率分布函数，P(X)和P(Y)分别为X和Y的边缘概率分布函数；

当两个变量在散点图网格中表现出相近的概率密度分布时，将二者的互信息系数计算出来后进行正则化运算，来评估两者之间的相关性，最终确定关联性较强的特征向量作为机场容量评估模型的输入向量，计算公式如下：

其中，a、b为二维坐标系中的网格分布参数即将x、y划分为a列b行，a和b的取值需满足a*b＜B(n)，通常情况下，B(n)＝n^0.6表示搜索网格数的上界，n代表数据集的样本数量，I(x,y)代表某一a、b取值下，x、y的最大互信息值。

最大互信息系数取值范围含义，如表1所示：

表1 最大互信息系数MIC取值范围的含义

步骤三、对确定的强关联特征数据进行数据预处理，并划分训练集与测试集。

所述步骤三具体为：

S3-1、对步骤S2获取的数据进行异常值检验处理，将明显偏离机场容量评估数据集的数据视为异常值并剔除，并对于噪声数据做平滑处理；

其中，X_norm是输入特征数据的归一化向量，X是输入特征数据的原始向量，X_max和X_min分别为输入特征数据的最大和最小值；

S3-4、采用独热编码对离散型变量进行处理；

S3-6、将机场容量评估数据集划分为训练集和测试集。

步骤四、采用长短期记忆神经网络模型和深度学习中的注意力机制方法，构建基于注意力机制的LSTM机场容量预测模型，利用所述训练集完成模型训练和测试。

所述步骤四具体为：

S4-1、基于LSTM-Attention模型对训练集的机场容量进行评估训练；

S4-2、搭建具有输入层、隐藏层、注意力机制层、Dropout层以及输出层并结合注意力机制的LSTM长短期记忆神经网络机场容量预测模型，利用所构建模型找到数据属性的非线性关系，根据训练结果进行特征学习，如图2所示。

所述步骤S4-2具体为：

初始化长短期记忆神经网络模型参数，

输入层由归一化后的输入特征组成，输入节点个数为输入特征的维度；LSTM神经网络层数为2层，神经元个数分别为256个和32个，第一层设置较高的神经元以确保能够学习足够的信息；在第二层中，对数据进行压缩，以建立更少的神经元，减少冗余信息的干扰。隐藏层用于记忆数据中的有用信息，遗忘无用信息，进而完成对数据的筛选，包括遗忘门，输入门和输出门。其中，遗忘门和输出门使用的神经元的函数为Sigmoid激活函数，而在输入门将Sigmoid激活函数与双曲正切tanh函数相结合，各层神经元的输出表达式：

遗忘门：f_t＝σ(W_f[h_t-1+x_t]+b_f)

输入门：i_t＝σ(W_i[h_t-1,x_t]+b_i)

输出门：o_t＝σ(W_o[h_t-1,x_t]+b₀)

新细胞状态：

隐藏层状态值：h_t＝o_t·tanh(c_t)

为单元的候选状态，h_t为t时刻单元的输出隐藏状态向量；

当输入序列经过第二层LSTM输出后，可以得到每个时刻机场容量状态以及最后输出的隐藏状态与记忆值，由于不同时刻的信息对当前时刻的状态预测所产生的比重不同，一般时间相近的影响较大，因此，引入深度学习中的注意力机制对不同时刻产生的信息的重要性进行评估，根据不同时刻不同输入特征对输出结果的重要性，给神经网络隐藏层赋予不同的权值，实现对信息的输入和输出之间的相关性的重要度计算，最后确定相应时刻的关注程度占所有时刻的关注程度的比重，具体的计算公式如下：

s_t＝tanh(W_th_t+b_t)

其中，s_t为t时刻特征向量的概率分布值，h_t为t时刻单元的输出隐藏状态向量，W_t、b_t分别为注意力机制层权重系数矩阵和偏置项，α_t为注意力权重矩阵，V为特征表示即注意力机制层输出；

每层输出经过dropout层，防止过拟合；输出层由全连接层构成，输出层节点个数为输出特征的维度，本实例中输出特征维度为1，即为待预测时刻机场容量值，输出结果计算公式如下：

y_t＝LSTM(x_t,h_t-1,c_t)

步骤五、将当前机场气象等信息数据输入到训练好的模型通过测试集进行预测，得到机场容量评估结果，并通过性能指标对预测性能进行量化。

所述步骤五具体为：

S5-1、用前n个时刻的机场容量数据预测下一个时刻机场容量评估值，即将{i-n,i-n+1,...,i-2,i-1,i}时刻的机场容量输入到训练好的结合注意力机制的长短期记忆模型中，预测出i+1时刻的数据作为机场容量预测值，对预测结果进行反归一化，完成解码；

S5-2、用训练模型的均方根误差RMSE来评价模型的预测精度，其计算公式为：

其中，_n为样本数量，f_i为真实值，

为模型的预测值。

以上所揭露的仅为本发明较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.基于机器学习对多因素影响下机场跑道容量的评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于机器学习对多因素影响下机场跑道容量的评估方法，其特征在于，所述步骤S1中：

所述机场运行数据包括：跑道构型数据；

3.根据权利要求2所述的基于机器学习对多因素影响下机场跑道容量的评估方法,其特征在于，所述步骤S1中，将日期、计划到/离港时间、实际到/离港时间、风速、温度、湿度、海平面气压定义为连续型变量；将航班号、机型、单位时间内机场的实际进场架次、单位时间内机场的实际离场架次、主关联机场航班数据、前序单位时间段内航班延误情况数据、跑道构型数据、风向、能见度、云底高、降水量、阵风、暴雨暴雪定义为离散型变量。

4.根据权利要求3所述的基于机器学习对多因素影响下机场跑道容量的评估方法,其特征在于，所述步骤S2包括以下步骤：