CN116151479B

CN116151479B - 一种航班延误预测方法及预测系统

Info

Publication number: CN116151479B
Application number: CN202310347075.6A
Authority: CN
Inventors: 屈景怡; 陈博
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-30
Anticipated expiration: 2043-04-04
Also published as: CN116151479A

Abstract

本发明属于交通延误预测方法技术领域，公开了一种航班延误预测方法及预测系统。设定SA‑CycleMLP网络模型的初始参数，对获取的历史航班信息和气象数据进行预处理，并进行融合及编码后输入SA‑CycleMLP网络模型进行训练，得到基于SA‑CycleMLP网络的航班延误预测模型；将待预测的航班的信息输入到航班延误预测模型，利用SA‑CycleMLP网络进行特征提取；通过预测结构处理航班信息，获得航班的延误信息，并生成每个航班对应的延误等级，从而在应用可视化系统中显示预测航班的延误信息。本发明对航班延误预测具有很好的预测性能，准确率高达92.51%；对于样本数量少的延误航班也具有更好精确率。

Description

一种航班延误预测方法及预测系统

技术领域

本发明属于交通延误预测技术领域，尤其涉及一种航班延误预测方法及预测系统。

背景技术

伴随着航班数量的日益增多，因流量导致的航班延误问题也愈加凸显。如果航班延误问题不能够解决，那将对航空的服务质量和经济效益产生非常重要的影响，而且严重威胁着民航系统的安全。对航班延误的提前预测，并及时通知旅客和相关部门，让各方根据预测结果做好应对工作，能够有效的降低航班延误造成的经济损失。

针对航班延误预测，一般可分为利用机器学习进行航班延误预测和利用深度学习进行航班延误预测。机器学习进行航班延误预测多利用先验知识计算样本权重，再融合进入机器学习模型中，但是随着数据特征变得复杂，很多数据特征很难量化，导致预测时的后验密度函数的推导和计算变得困难。随着深度学习的不断发展，对于数据规模的不断增大，数据维度的不断扩大的数据集，深度学习有了更好的效果表现，充分利用样本内隐含的空间特征和样本间的特征来进行算法的迭代学习。提升数据隐藏价值的利用率，使得航班延误预测的整体准确率有了很大的提升。但是深度学习的方法会存在因为数据不平衡导致模型学习偏差的问题，使得预测延误的航班时准确率偏低，所谓数据不平衡表示在同一个数据集中的某类数据的样本数量与其他类别数据的样本数量差距过大。而在航班延误预测的过程中，重度延误的航班数量远远少于不延误航班的数量，而重度延误航班被错误分类的代价也要远远大于不延误航班被错误分类的代价。

通过上述分析，现有技术存在的问题及缺陷为：现有技术中，对航班延误的准确率低；航班数据存在特征数量较少的问题，使用卷积神经网络在对数据进行卷积计算时会造成细节特征的损失；对于数据集样本数量不均衡的情况，对延误航班的预测精准率低；应用与部署实用性差。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种航班延误预测方法及预测系统，尤其涉及一种基于SA-CycleMLP（Shuffle Attention CycleMLP 融合ShuffleAttention注意力机制的循环全连接网络）的航班延误预测方法。

所述技术方案如下：航班延误预测方法，包括以下步骤：

S1，设定SA-CycleMLP网络的初始参数以及训练方式的初始参数；

S2，获取历史的航班数据及气象数据，并通过数据预处理、数据融合、数据编码构建数据集；将构建好的数据集输入设定初始参数后的SA-CycleMLP网络进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；

S3，将待预测的航班的信息输入到所述航班延误预测模型，通过设定初始参数后的SA-CycleMLP网络对待预测的航班的信息进行特征提取，再通过置换注意力机制模块进行特征提取整合；

S4，通过预测结构判别待预测的航班的延误类别，获得待预测的航班对应每个类别的概率，基于所述概率获取待预测的航班的延误类别信息；

S5，将获取的待预测的航班的延误类别信息通过前端框架ECharts进行可视化分析。

在步骤S1中，SA-CycleMLP网络的初始参数包括：补丁嵌入模块中的补丁大小以及输出编码特征维度、融合注意力机制的循环多层感知机模块中的扩展比以及融合注意力机制的循环多层感知机模块的重复次数；

训练方式的初始参数包括：Focal Loss损失函数的平衡参数

、Focal Loss损失函数的聚焦参数/>

、训练时的学习率以及训练时的优化器。

在步骤S2中，获取历史的航班数据及气象数据采用离线传输方式获取。

在步骤S2中，所述数据预处理采用直接删除和邻值填充两种方式；其中，对于航班信息特征存在缺失值的数据采用直接删除的方式；对于气象特征存在缺失值的数据采用邻值填充的方式；

所述数据融合是将航班数据中的起飞时间或者降落时间与气象数据中的记录时间相匹配融合，使航班数据拥有在起飞时间或者在降落时间的气象数据特征；再根据航班延误时间为航班数据进行延误等级的划分，并为航班数据打上延误等级标签；

所述数据编码中，对于数值型特征采用Min-Max归一化编码，对于离散型特征采用CatBoost编码。

在步骤S2中，将构建好的数据集输入设定初始参数后的SA-CycleMLP网络进行训练，得到基于SA-CycleMLP网络的航班延误预测模型，包括以下步骤：

将构建好的数据集输入SA-CycleMLP网络中的补丁嵌入模块，利用补丁嵌入模块和融合注意力机制的循环多层感知机模块提取特征，根据提取到的特征预测航班的类别信息；利用Focal Loss损失函数将得到的类别信息进行修正，通过Softmax激活函数的全连接层分类器得到航班最终的分类，完成训练得到基于SA-CycleMLP网络的航班延误预测模型。

在一个实施例中，利用Focal Loss损失函数将得到的类别信息进行修正包括：

多分类交叉熵损失函数修改得到Focal Loss损失函数，多分类交叉熵损失函数计算公式为：

Focal Loss损失函数计算公式为：

式中，

为多分类交叉熵损失函数，/>

为Focal Loss损失函数，y为真实值，/>

为航班延误状态的预测值；I为航班延误等级个数，X_i为第X个样本第i个类别，

为第X个样本第i个类别的真实标签，/>

为第X个样本第i个真实类别的预测概率；等式中的/>

项表示用于惩罚远离真实类别的预测概率；/>

为Focal Loss损失函数的平衡参数的值，/>

为Focal Loss损失函数的聚焦参数，/>

代表第i类的平衡参数的值。

在一个实施例中，利用补丁嵌入模块和融合注意力机制的循环多层感知机模块提取特征包括：将大小为H×W的原始输入矩阵，通过补丁嵌入模块分割成多个补丁，循环多层感知机模块包括三个并行的Cycle FC算子模块，Cycle FC算子模块连接有具有两个线性层和中间一个GELU非线性的Channel MLP模块；在Cycle FC算子模块和Channel MLP模块之前连接有应用LN层，LN层是对输入数据进行归一化的操作；再通过注意力机制模块，并在注意力机制模块之后使用跳跃连接，整个融合注意力机制的循环多层感知机模块描述为：

式中，Cycle FC表示Cycle FC算子模块，Channel MLP表示Channel MLP模块，Shuffle Attention表示注意力机制模块；

为Cycle FC算子模块的输出，/>

为ChannelMLP模块的输出，/>

为注意力机制模块的输出；/>

为前一次注意力机制模块的输出；/>

为输出次数，L为正整数，/>

表示应用LN层前一次注意力机制模块的输出；

所述Cycle FC算子模块利用可变形卷积在通道上进行位置偏移，使得采样为阶梯状采样，并感知相邻的上下文，将感受野扩大到一个伪核的大小；将采样点沿着通道尺寸投影到空间表面，获得尺寸为

的投影区域，并将此投影区域定义为伪核的大小；

Cycle FC算子模块的计算方式扩展，公式为：

式中，

表示Cycle FC算子模块的输出，i,j分别表示空间和通道的索引，/>

表示第c个输入通道第j个索引的Cycle FC算子模块的可学习权重，/>

表示时刻；C_i表示输入特征通道的数量，c表示输入通道，/>

表示第c个输入通道偏移量，量纲为/>

；

表示输入的第c个带偏移量的输入通道的特征矩阵；S_p为通道偏移后所有涉及到的计算位置在HW空间上的投影面积，/>

表示空间表面的宽，/>

表示空间表面的长。

在步骤S3中，所述通过置换注意力机制模块进行特征提取整合包括：

注意力机制模块首先对于输入的特征图进行特征分组，将特征图沿着通道划分成G组，表达式为：

式中，X表示的是输入的特征图，X_K表示被划分之后的第K组特征图，R表示实数范围；X₁表示特征图被划分之后的第1组特征图，X_G表示特征图被划分之后的第G组特征图，G表示特征图划分的组数，C表示输入特征通道，H表示宽，W表示长；

表示输入特征通道划分G组的平均值；

然后，将X_K的输入沿着通道的维度分成两个分支K1和K2，所述分支K1和K2的表达式为：

式中，X_K1表示K1部分特征，X_K2表示K2部分特征；

表示输入特征通道划分G组后沿着通道的维度分成两个分支的平均值；

其中一个分支利用通道的相互关系生成通道注意力图，另一个分支利用特征的空间关系生成空间注意力图；

在通道注意力分支中，通过使用全局平均池嵌入全局信息，形成

的通道统计信息值，s表示通道统计信息值，/>

为增强特征信息的函数计算表达式，/>

通过sigmoid激活的简单门控单元，通道注意力分支的最终输出，公式如下：

式中，

表示K1部分特征通过通道注意力分支的输出，/>

表示进行sigmoid激活函数，X_K1表示K1部分特征，/>

指的是将参数s代入/>

函数计算关系式进行运算的结果，/>

运算是对s乘以一个M₁再加一个b₁，M₁为K1部分特征通过通道注意力分支的输出中缩放s的参数值；b₁为K1部分特征通过通道注意力分支的输出中缩放s的参数值；s是通道统计信息的值，/>

是参数值 />

与参数值s相乘；

在空间注意力分支中，通过组归一化获得空间统计，再采用

增强表示，通过sigmoid激活的简单门控单元，空间注意力分支的输出公式如下：

式中，

表示K2部分特征通过空间注意力分支的输出，/>

表示进行sigmoid激活函数，GN表示GroupNorm组归一化，M₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值，b₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值，/>

是参数值

与参数值s相乘；

将两个分支串联，使得通道数与输入数相同，最后将所有的子特征进行聚合后，通过Channel Shuffle层的通道随机运算符实现沿通道维度的跨组信息流；其中，将空间注意力分支与通道注意力分支特征串联聚合公式为：

式中，

表示将空间注意力分支与通道注意力分支特征串联聚合的结果。

在步骤S4中，所述预测结构为最后采用Softmax激活函数的全连接层分类器，将带气象的航班延误情况分为五类，通过Softmax激活函数为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性；然后将最大概率的等级标签作为最终的预测结果；将获取的所述待预测的航班的延误信息发布于移动端APP，利用ECharts图表对航班的延误情况做统计分析。

本发明的另一目的在于提供一种航班延误预测系统，该系统通过所述航班延误预测方法实现，该系统包括：

数据集处理得到模块，用于将历史航班数据及气象数据进行数据预处理、数据融合、数据编码，构建带有气象数据的航班的信息数据集；

深度学习的航班延误预测模型训练模块，用于设定SA-CycleMLP网络模型的初始参数，将带有气象数据的航班的信息数据集输入设定参数后的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；

航班类别信息获取模块，通过预测结构判别航班的类别，获得每个航班对应各个类别的概率，并生成每个航班对应的延误等级，预测获取航班的类别信息；

延误信息可视化分析模块，通过ECharts图表对航班延误情况进行可视化分析。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明首先设定SA-CycleMLP网络模型的初始参数，将历史航班数据及气象数据经过数据预处理、数据融合、数据编码构建出的带气象信息的航班数据集输入设定的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；将待预测的航班的信息输入到训练好的航班延误预测模型，通过SA-CycleMLP网络对航班信息进行特征提取，并通过置换注意力机制（ShuffleAttention，SA）模块进行特征提取整合；通过预测结构判别航班的延误类别，获得航班对应每个类别的概率，预测获取航班的延误类别信息；最后将预测的航班延误信息利用可视化技术进行可视化分析。本发明对航班延误预测具有很好的预测性能，准确率高达92.51%；对于样本数量少的延误航班也具有更好精确率，模式的宏平均精确率达到了84.1%、宏平均召回率达到了82.48%、宏平均F1-Score达到了82.94%；模型操作简单，易训练，易于部署。

本发明所述的航班延误预测方法，将历史航班数据及气象数据经过数据预处理、数据融合、数据编码构建出的带气象信息的航班数据集。本发明所述的航班延误预测方法，以解决航班数据集样本数量不均衡的方向出发，采用Focal Loss损失函数，调整对应样本的权重，设定时，将样本数量少的权重大于样本数量大的权重，使得分类模型更多的关注在样本数量少的类别上，以此来达到平衡样本的目的。以增大延误样本训练时的关注度，提高延误样本预测精准率，在训练过程中，有目的性的获取更多的特征信息，利用SA-CycleMLP模块对航班信息进行特征提取，并通过置换注意力机制（ShuffleAttention，SA）进行特征提取整合；最后利用预测结构判别航班的延误类别，获得航班对应每个类别的概率，在融合气象信息的航班数据集中的大量实验验证了本发明方法的有效性。

相比于现有技术本发明的优点进一步包括：本发明的整体模型对样本数量不均衡的带有气象信息的航班数据集有很好的性能。本发明提出航班延误预测方法，该模型准确率高，可达到92.51%的准确率，84.1%的宏平均精确率、82.48%的宏平均召回率、82.94%的宏平均F1-Score；完全可实现航班延误预测需求，能够对航班延误的进行提前预测，及时做好应对工作，能够有效的降低航班延误造成的经济损失。

本发明的整体模型的应用与部署简单方便。本发明提出航班延误预测方法，使用的数据集包含来自不同地区、不同机场的航班信息，因此对不同地区的航班延误预测有较好的适应能力，较好的扩大了本发明的应用范围。

相比于现有技术，本发明的优点还体现在以下几个方面：（1）本发明可提供航班延误预测服务，提供web应用使用，以及提供移动端APP使用；（2）本发明针对行业内对于不均衡的航班延误数据集的航班延误预测研究；同时利用SA注意力机制提高深度学习模型的预测准确性，以及利用Focal Loss损失函数解决了航班延误预测模型在预测时侧重于数量样本多的不延误航班的问题；（3）本发明解决了深度学习模型在用不均衡的航班延误数据集时对数量样本少的延误航班预测准确率低的问题。通过增加SA注意力机制模块，以及使用Focal Loss损失函数，大大提升了航班延误预测模型的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的航班延误预测方法流程图；

图2是本发明实施例提供的航班延误预测方法原理图；

图3是本发明实施例提供的数据集构建流程图；

图4是本发明实施例提供的航班延误预测方法的SA-CycleMLP网络的总体实施流程图；

图5是本发明实施例提供的SA-CycleMLP模块层结构示意图；

图6是本发明实施例提供的SA注意力机制模块的结构示意图；

图7（a）是本发明实施例提供的Cycle FC算子示意图；

图7（b）是本发明实施例提供的Channel FC算子示意图；

图7（c）是本发明实施例提供的Spatial FC算子示意图；

图8是本发明实施例提供的伪核以及Cycle FC的采样位置示意图；

图9是不同延误等级航班数量占比图；

图10（a）是本发明实施例提供的改进前航班延误预测结果的混淆矩阵图；

图10（b）是本发明实施例提供的改进后航班延误预测结果的混淆矩阵图；

图11（a）是本发明实施例提供的对航班延误预测展示的可视化分析图；

图11（b）是本发明实施例提供的利用ECharts图表的饼图对航班离港延误信息的可视化分析图；

图11（c）是本发明实施例提供的利用ECharts图表的饼图对航班到港延误信息的可视化分析图；

图11（d）是本发明实施例提供的利用ECharts图表的折线图对航班延误信息的可视化分析图；

图11（e）是本发明实施例提供的利用ECharts图表的柱状图对航班延误信息的可视化分析图；

图12是本发明实施例提供的基于SA-CycleMLP网络的航班延误预测系统示意图；

图中：1、数据集处理得到模块；2、深度学习的航班延误预测模型训练模块；3、航班类别信息获取模块；4、延误信息可视化分析模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

本发明涉及重要场所下航班延误预测的技术领域，尤其涉及一种航班延误预测方法、系统及应用，对航班的延误状况进行预测分析。

下面结合具体实施例对本发明的技术方案作进一步描述。

实施例1，如图1所示，本发明实施例提供的航班延误预测方法包括以下步骤：

S1，设定SA-CycleMLP网络的初始参数以及训练方式的初始参数；

S2，获取历史的航班数据及气象数据，并通过数据预处理、数据融合、数据编码构建数据集；将构建好的数据集输入设定初始参数后的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；

S3，将待预测的航班的信息输入到所述航班延误预测模型，通过设定初始参数后的SA-CycleMLP网络对待预测的航班的信息进行特征提取，再通过置换注意力机制（ShuffleAttention，SA）模块通道进行特征提取整合；

S4，通过预测结构判别待预测的航班的延误类别，获得所述待预测的航班对应每个类别的概率，基于所述概率，获取所述待预测的航班的延误类别信息；

S5，将获取的所述待预测的航班的延误信息发布于移动端APP，通过前端框架ECharts进行可视化分析。

示例性的，本发明实施例提供一种航班延误预测方法，其原理如图2所示。在步骤S1中，SA-CycleMLP网络的初始参数包括：补丁嵌入模块中的补丁大小、补丁嵌入模块的输出编码特征维度、融合注意力机制的循环多层感知机模块中的扩展比以及不同阶段中融合注意力机制的循环多层感知机模块的重复次数；训练方式的初始参数包括：Focal Loss损失函数的平衡参数

、Focal Loss损失函数的聚焦参数/>

、训练时的学习率以及训练时的优化器。

在步骤S2中，所述获取航班数据及气象数据，历史航班及气象数据采用离线传输方式；构建数据集的流程图如图3所示，历史的航班及气象数据通过数据预处理、数据融合、数据编码构建数据集的具体方法为：数据预处理采用直接删除和邻值填充两种方式，对于航班的起落时间，出发机场等一些重要的航班信息特征存在缺失值的数据采用直接删除的方式，对于当日最高气温，湿度等一些非重要的气象特征存在缺失值的数据采用邻值填充的方式，气象特征在小范围时间内的变化不会太大，所以采用邻值填充的方式，最后对存在的重复数据进行去重的操作。数据融合采用将航班数据中的起飞时间或者降落时间与气象数据中的记录时间相匹配融合，使得该航班数据拥有在起飞时间或者在降落时间的气象数据特征。再根据航班延误时间（T）为航班数据进行延误等级的划分，划分条件（1、T≤15分钟为未延误；2、15分钟＜T≤60分钟为轻度延误；3、60分钟＜T≤120分钟为中度延误；4、120分钟＜T≤240分钟为高度延误；5、T＞240分钟为重度延误）为航班数据打上延误等级标签，数据编码采用对于数值型特征采用Min-Max归一化编码，对于离散型特征采用CatBoost编码。所述基于SA-CycleMLP的航班延误预测模型，是指基于SA-CycleMLP网络，能够处理航班信息，并输出航班的延误等级情况的模型，其总体实施流程图如图4所示。

步骤S2中，将构建好的数据集输入设定参数后的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型包括以下步骤：将构建好的数据集输入SA-CycleMLP网络中的补丁嵌入模块；利用补丁嵌入模块和融合注意力机制的循环多层感知机模块提取特征；并根据提取到的特征预测航班的类别信息；再利用Focal Loss损失函数将得到的类别信息进行修正；再通过Softmax激活函数的全连接层分类器得到航班最终的分类；最终完成训练得到基于SA-CycleMLP网络的航班延误预测模型；

将得到的预测类别信息经过Focal Losss损失函数进行修正，Focal Loss损失函数由多分类交叉熵损失函数修改而来，多分类交叉熵损失函数

计算公式如式（1）所示，Focal Loss损失函数/>

计算公式如式（2）所示。

（1）

（2）

其中，

是指航班延误状态的预测值，y是真实值。I表示航班延误等级个数，本发明中的I是5。X_i表示第X个样本第i个类别，/>

表示第X个样本第i个类别的真实标签，

表示第X个样本第i个真实类别的预测概率。等式中的/>

项表示用于惩罚远离真实类别的预测概率。真实类别的预测概率越小，/>

项越大，损失就越大。总和前面的负号确保损失始终是非负的，零值表示完美的预测。Focal Loss损失函数在多分类交叉熵损失函数的基础上加入了平衡参数的值/>

以及聚焦参数/>

，/>

代表了第i类的平衡参数的值；平衡参数的值/>

能够在样本数量比例不平衡的情况下，调整对应样本的权重，设定时，将样本数量少的权重大于样本数量大的权重，使得分类模型更多的关注在样本数量少的类别上，以此来达到平衡样本的目的。其中的/>

的大小一般能够反映出样本难易分类的程度，当样本被误分时，/>

的值很小，/>

接近1，最终loss几乎不受影响，反之，

一直很大，说明模型很容易区分，则容易分类的样本的损失函数将被降低权重，不管是难分类的样本还是易分类的样本，Focal Loss损失相比于交叉熵损失都做了衰减，难分类样本相比于易分类样本衰减的少，而超参数/>

决定了这些衰减的程度，/>

越大，衰减的程度越明显。

示例性的，航班延误预测方法的SA-CycleMLP网络模型的最初学习率为0.001、在初始迭代过程中采用Adam策略，避免模型的振荡，使得模型收敛速度变得更快，模型效果更佳。根据图9所示，不同延误等级的航班数据的数量存在严重的不平衡，Focal Loss损失函数中平衡参数的值

是根据类别的频率设置，针对以上情况，将/>

设定为以下参数：不延误的/>

为0.1，低度延误的/>

为0.3，中度延误/>

为0.8，高度延误/>

为1.8，重度延误/>

为3。

进一步地，所述补丁嵌入模块是首先将大小为H×W的原始输入矩阵通过补丁嵌入模块将其分割成多个补丁；具体地，原始输入矩阵通过采用窗口大小为7且步长为4的重叠补丁嵌入模块后获得多个原始补丁；这些经过补丁嵌入模块获得的原始补丁通过线性嵌入层进一步投影到更高维度，因此，整个补丁嵌入模块生成形状为

的特征。其中，所述原始补丁为原始输入矩阵经过分割后得到的多个补丁。

所述融合注意力机制的循环多层感知机模块结构如图5所示：SA-CycleMLP Block包括三个并行的Cycle FC算子模块，其后面是具有两个线性层和中间一个GELU非线性的Channel MLP模块；在Cycle FC算子模块和Channel MLP模块之前应用LN（LayerNorm）层，LN层是对输入数据进行归一化的操作。最后再通过ShuffleAttention注意力机制模块，并在注意力机制模块之后使用跳跃连接。所以整个SA-CycleMLP Block可以描述为公式（3）-公式（5）：

（3）

（4）

（5）

式中，CycleFC表示CycleFC算子模块，Channel MLP表示Channel MLP模块，ShuffleAttention表示注意力机制模块，

为Cycle FC算子模块的输出，/>

为ChannelMLP模块的输出，/>

为注意力机制模块的输出；/>

为前一次注意力机制模块的输出；/>

为输出次数，L为正整数，/>

表示应用LN层前一次注意力机制模块的输出；

其中

分别表示Cycle FC模块、Channel MLP模块以及ShuffleAttention的输出。最终经过步骤S3进行特征的提取整合。

进一步地，所述Cycle FC的算子模块采样结构如图7（a）所示是由Channel FC算子演变而来，Channel FC算子采样结构如图7（b）所示，Channel FC算子是由特定层的内外通道维度配置，它的结构与图像的尺度无关，所以可以处理输入图像的可变尺度，有利于应对可变输入图像尺度，并且它的计算复杂度对于图像尺度是线性相关的，但是存在感受野不足的问题，不能够聚合上下文，不利于特征的提取。Cycle FC和Channel FC一样，也是沿着通道维度传导进行全连接，但不同于Spatial FC算子，Spatial FC算子采样结构如图7（c）所示，Spatial FC的采样点位于所有通道的相同的空间位置，虽然感受野变大，但是计算复杂度是图像大小的平方，Cycle FC利用可变形卷积在通道上进行特定位置的偏移，沿着通道维度进行全连接，但是并不是采样点都位于相同的空间位置，而是以阶梯式风格采样点进行采样，特定位置表示通过通道索引对通道偏移后所有涉及到的计算位置在

空间上的投影的面积进行取模从而实现采样点在限定范围内的循环偏移，使得采样为阶梯状采样，使得Cycle FC在保持与Channel FC相同复杂度，参数量和触发器的数量相同时，可以感知相邻的上下文，将感受野扩大到伪核的大小。如图8所示，阴影块为采样块，将采样块沿着通道尺寸投影到空间表面，就能获得尺寸为/>

的投影区域，并将此投影区域定义为伪核的大小。

原始的Channel FC的计算方式如公式（6）所示。

（6）

其中

表示的Channel FC算子模块的输出，c表示输入通道，/>

表示Channel FC算子模块的可学习权重，其中的/>

分别表示空间和通道的索引；C_i表示输入特征通道的数量，/>

表示输入的第c个输入通道的特征矩阵,R表示实数范围，/>

表示输入特征通道的数量，C₀表示输出特征通道的数量；/>

表示时刻。

在此基础上，Cycle FC的计算方式扩展成为公式（7）：

（7）

式中，

表示Cycle FC算子模块的输出；通过反向传播进行优化，其中的/>

分别表示空间和通道的索引；c表示输入通道，/>

表示第c个输入通道偏移量，量纲为/>

；

表示输入的第c个带偏移量的输入通道的特征矩阵。S_p为通道偏移后所有涉及到的计算位置在HW空间上的投影面积，/>

为偏移的起始位置。/>

表示空间表面的宽，/>

表示空间表面的长。/>

表示时刻。

进一步地，在步骤S3中，所述的SA（ShuffleAttention）注意力机制模块，SA模块结构如图6所示，首先对于输入的特征图进行特征分组，将特征图沿着通道划分成G组，获得

，X表示的是输入的特征图，X_K表示被划分之后的第K组特征图，R表示实数范围，X₁表示特征图被划分之后的第1组特征图，X_G表示特征图被划分之后的第G组特征图，G表示特征图划分的组数，C表示输入特征通道，H表示宽，W表示长；/>

表示输入特征通道划分G组的平均值；然后将X_K的输入沿着通道的维度分成两个分支K1和K2，所述分支K1和K2的表达式为：/>

，式中，X_K1表示K1部分特征，X_K2表示K2部分特征；/>

表示输入特征通道划分G组后沿着通道的维度分成两个分支的平均值；然后一个分支利用通道的相互关系生成通道注意力图，另一个分支利用特征的空间关系生成空间注意力图。

其中在通道注意力分支K1和K2中，首先通过使用全局平均池（GAP）嵌入全局信息，形成

的通道统计信息，其中，s表示通道统计信息值，再利用公式（8）/>

增强表示，/>

是一个能增强特征信息的函数计算表达式，/>

然后通过sigmoid激活的简单门控单元，所以通道注意力分支的最终输出如公式（9）所示；

（8）

（9）

在空间注意力分支中，首先通过组归一化（GN）获得空间统计，再采用

增强表示，同样通过sigmoid激活的简单门控单元，所以空间注意力分支的最终的输出如公式（10）所示。式中，s表示通道统计信息值，/>

表示K1部分特征通过通道注意力分支的输出，/>

表示进行sigmoid激活函数，X_K1表示K1部分特征，/>

指的是将s代入/>

的计算结果，

是参数值 />

与参数值s相乘；

（10）

式中，

表示K2部分特征通过空间注意力分支的输出，/>

表示进行sigmoid激活函数，GN表示GroupNorm组归一化，M₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值，b₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值；/>

是参数值 />

与参数值s相乘；

然后将两个分支串联，使得通道数与输入数相同。即：

式中，

最后将所有的子特征进行聚合后，通过Channel Shuffle层的通道随机运算符实现沿通道维度的跨组信息流。并且每个ShuffleAttention模块每个分支中的通道数是C/2G，所以，总参数的个数为3C/G，参数量相比其他注意力机制很少，因此几乎不会影响模型的训练速度。

所述SA-CycleMLP网络的全连接主干网络得到的特征矩阵不同于一般的卷积特征提取结构，全连接主干网络提取的特征具备更高的可靠性，再利用SA注意力机制模块结构将获得的特征结构进行再整合提取，增强了特征提取过程中重要特征的重要性。

步骤S4中，所述预测结构表示最后的采用Softmax激活函数的全连接层分类器，将带气象的航班延误情况分为5类，通过Softmax激活函数为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性。然后将最大概率的等级标签作为最终的预测结果。

示例性的，如图10所示，图10（a）展示的是Focal Loss函数改进前的混淆矩阵，图10（b）展示的是Focal Loss函数改进后的混淆矩阵，在此混淆矩阵中的每一列代表了预测的航班延误类别，每一列的总数表示预测为该延误类别的数量。矩阵中的每一行代表了数据的真实航班延误类别，每一行的总数表示真实为该延误类别的数量。而对角线上的数字就代表了每个延误类别被预测正确的个数。通过对比可以得出使用Focal Loss损失函数后的航班延误预测模型对于轻度延误、中度延误和高度延误的预测准确率有了明显的提升。

步骤S5中，所述的可视化分析，如图11（a）所示，移动端APP应用的实际页面，通过ECharts框架对航班延误信息进行展示分析中对航班延误预测结果的展示，如图11（b），图11（c）所示，是移动端APP应用的实际页面，通过ECharts框架对航班延误信息进行展示分析中利用ECharts中的饼图展示分析了离岗与到港的航班情况占比，如图11（d）所示，是移动端APP应用的实际页面，通过ECharts框架对航班延误信息进行展示分析中利用ECharts中的折线图展示分析了24小时内延误的各个时间段的数量分布，如图11（e）所示，移动端APP应用的实际页面，通过ECharts框架对航班延误信息进行展示分析中利用ECharts中的柱状图展示分析了1年中各个月份的延误数量分布。

实施例2，如图12所示，本发明实施例提供的基于SA-CycleMLP网络的航班延误预测系统包括：

数据集处理得到模块1，用于将历史航班数据及气象数据进行数据预处理、数据融合、数据编码，构建带有气象数据的航班的信息数据集；

深度学习的航班延误预测模型训练模块2，用于设定SA-CycleMLP网络模型的初始参数，将带有气象数据的航班的信息数据集输入设定参数后的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；

航班类别信息获取模块3，通过预测结构判别航班的类别，获得每个航班对应的各个类别的概率，并生成每个航班对应的延误等级，预测获取航班的类别信息；

延误信息可视化分析模块4，通过ECharts图表对航班延误情况进行可视化示出。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步地，本发明实施例提供的航班延误预测方法可在以下产品中进行应用，具体包括：

应用例1，本发明实施例提供的航班延误预测方法部署在服务器，或通过web和移动端进行应用。

应用例2，本发明实施例提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

应用例3，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

应用例4，本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

应用例5，本发明实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

应用例6，本发明实施例还提供了一种信息可视化终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户接口以实施如上述各方法实施例中的步骤，并通过可视化终端展示分析航班延误的延误信息，所述信息可视化终端不限于手机、电脑。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

为进一步说明本发明实施例提供的航班延误预测方法的积极效果，进行如下实验。

本发明实施例提供的航班延误预测方法，首先设定航班延误预测方法的SA-CycleMLP网络模型的初始参数，获取航班数据及气象数据，并将历史的航班及气象数据通过数据预处理、数据融合、数据编码构建数据集。将构建好的数据集输入设定参数后的SA-CycleMLP网络模型进行训练，得到深度学习的航班延误预测模型；将待预测的航班的信息输入到航班延误预测模型，通过SA-CycleMLP网络对航班信息进行特征提取，再通过置换注意力机制（ShuffleAttention，SA）模块通道进行特征提取整合；通过预测结构判别航班的延误类别，获得航班对应每个类别的概率，预测获取航班延误类别信息；将预测的航班延误信息通过前端框架ECharts进行可视化分析。

本发明对本发明对航班延误预测具有很好的预测性能，对于样本数量少的延误航班也具有更好精确率；模型操作简单，易训练；易于部署。本发明与现有方法性能对比表如表1所示，本发明在模型宏平均精确率、宏平均召回率、宏平均F1-score和准确率方面，本发明得到的效果最优。

表1

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种航班延误预测方法，其特征在于，该方法包括以下步骤：

S1，设定SA-CycleMLP网络的初始参数以及训练方式的初始参数；

S5，将获取的待预测的航班的延误类别信息通过前端框架ECharts进行可视化分析；

训练方式的初始参数包括：Focal Loss损失函数的平衡参数α、Focal Loss损失函数的聚焦参数γ、训练时的学习率以及训练时的优化器；

所述数据编码中，对于数值型特征采用Min-Max归一化编码，对于离散型特征采用CatBoost编码；

将构建好的数据集输入SA-CycleMLP网络中的补丁嵌入模块，利用补丁嵌入模块和融合注意力机制的循环多层感知机模块提取特征，根据提取到的特征预测航班的类别信息；利用Focal Loss损失函数将得到的类别信息进行修正，通过Softmax激活函数的全连接层分类器得到航班最终的分类，完成训练得到基于SA-CycleMLP网络的航班延误预测模型；

利用Focal Loss损失函数将得到的类别信息进行修正包括：

Focal Loss损失函数计算公式为：

式中，

为多分类交叉熵损失函数，/>

为Focal Loss损失函数，y为真实值，/>

为航班延误状态的预测值；I为航班延误等级个数，X_i为第X个样本第i个类别，y(X_i)为第X个样本第i个类别的真实标签，/>

为第X个样本第i个真实类别的预测概率；等式中的log₂项表示用于惩罚远离真实类别的预测概率；α为Focal Loss损失函数的平衡参数的值，γ为Focal Loss损失函数的聚焦参数，α_i代表第i类的平衡参数的值；

利用补丁嵌入模块和融合注意力机制的循环多层感知机模块提取特征包括：将大小为H×W的原始输入矩阵，通过补丁嵌入模块分割成多个补丁，循环多层感知机模块包括三个并行的Cycle FC算子模块，Cycle FC算子模块连接有具有两个线性层和中间一个GELU非线性的Channel MLP模块；在Cycle FC算子模块和Channel MLP模块之前连接有应用LN层，LN层是对输入数据进行归一化的操作；再通过注意力机制模块，并在注意力机制模块之后使用跳跃连接，整个融合注意力机制的循环多层感知机模块描述为：

式中，Cycle FC表示Cycle FC算子模块，Channel MLP表示Channel MLP模块，ShuffleAttention表示注意力机制模块；z^l为Cycle FC算子模块的输出，

为Channel MLP模块的输出，/>

为注意力机制模块的输出；/>

为前一次注意力机制模块的输出；l为输出次数，L为正整数，/>

表示应用LN层前一次注意力机制模块的输出；

所述Cycle FC算子模块利用可变形卷积在通道上进行位置偏移，使得采样为阶梯状采样，并感知相邻的上下文，将感受野扩大到一个伪核的大小；将采样点沿着通道尺寸投影到空间表面，获得尺寸为K_H×K_W的投影区域，并将此投影区域定义为伪核的大小；

Cycle FC算子模块的计算方式扩展，公式为：

S_p＝K_H×K_W；

式中，Y_(i，j)表示Cycle FC算子模块的输出，i,j分别表示空间和通道的索引，

表示第c个输入通道第j个索引的Cycle FC算子模块的可学习权重，T表示时刻；C_i表示输入特征通道的数量，c表示输入通道，c％表示第c个输入通道偏移量，量纲为％；/>

表示输入的第c个带偏移量的输入通道的特征矩阵；S_p为通道偏移后所有涉及到的计算位置在HW空间上的投影面积，K_H表示空间表面的宽，K_W表示空间表面的长。

2.根据权利要求1所述的航班延误预测方法，其特征在于，在步骤S2中，获取历史的航班数据及气象数据采用离线传输方式获取。

3.根据权利要求1所述的航班延误预测方法，其特征在于，在步骤S3中，所述通过置换注意力机制模块进行特征提取整合包括：

X＝[X₁，…，X_G]，X_K∈R^C/G×H×W；

式中，X表示的是输入的特征图，X_K表示被划分之后的第K组特征图，R表示实数范围；X₁表示特征图被划分之后的第1组特征图，X_G表示特征图被划分之后的第G组特征图，G表示特征图划分的组数，C表示输入特征通道，H表示宽，W表示长；C/G表示输入特征通道划分G组的平均值；

X_K1，X_K2∈R^C/2G×H×W；

式中，X_K1表示K1部分特征，X_K2表示K2部分特征；C/2G表示输入特征通道划分G组后沿着通道的维度分成两个分支的平均值；

在通道注意力分支中，通过使用全局平均池嵌入全局信息，形成s∈R^C/2G×1×1的通道统计信息值，F_c(·)为增强特征信息的函数计算表达式，F_c(·)通过sigmoid激活的简单门控单元，通道注意力分支的最终输出，公式如下：

X′_K1＝σ(F_c(s))·X_K1＝(M₁s+b₁)·X_K1；

Fc(·)＝M₁s+b₁；

式中，X′_K1表示K1部分特征通过通道注意力分支的输出，σ表示进行sigmoid激活函数，X_K1表示K1部分特征，F_c(s)指的是将参数s代入F_c(·)函数计算关系式进行运算的结果，F_c(·)运算是对s乘以一个M₁再加一个b₁，M₁为K1部分特征通过通道注意力分支的输出中缩放s的参数值；b₁为K1部分特征通过通道注意力分支的输出中缩放s的参数值；s是通道统计信息的值，M₁s是参数值M₁与参数值s相乘；

在空间注意力分支中，通过组归一化获得空间统计，再采用F_c(·)增强表示，通过sigmoid激活的简单门控单元，空间注意力分支的输出公式如下：

X′_K2＝σ(M₂s·GN(X_k2)+b₂)·X_K2；

式中，X′_K2表示K2部分特征通过空间注意力分支的输出，σ表示进行sigmoid激活函数，GN表示GroupNorm组归一化，M₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值，b₂为K2部分特征通过空间注意力分支的输出中缩放s的参数值，M₂s是参数值M₂与参数值s相乘；

X′_K＝[X′_K1，X′_K2]∈R^C/G×H×W；

式中，X′_K表示将空间注意力分支与通道注意力分支特征串联聚合的结果。

4.根据权利要求1所述的航班延误预测方法，其特征在于，在步骤S4中，所述预测结构为最后采用Softmax激活函数的全连接层分类器，将带气象的航班延误情况分为五类，通过Softmax激活函数为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性；然后将最大概率的等级标签作为最终的预测结果；将获取的所述待预测的航班的延误信息发布于移动端APP，利用ECharts图表对航班的延误情况做统计分析。

5.一种航班延误预测系统，其特征在于，该系统通过权利要求1-4任意一项所述航班延误预测方法实现，该系统包括：

数据集处理得到模块(1)，用于将历史航班数据及气象数据进行数据预处理、数据融合、数据编码，构建带有气象数据的航班的信息数据集；

深度学习的航班延误预测模型训练模块(2)，用于设定SA-CycleMLP网络模型的初始参数，将带有气象数据的航班的信息数据集输入设定参数后的SA-CycleMLP网络模型进行训练，得到基于SA-CycleMLP网络的航班延误预测模型；

航班类别信息获取模块(3)，通过预测结构判别航班的类别，获得每个航班对应各个类别的概率，并生成每个航班对应的延误等级，预测获取航班的类别信息；

延误信息可视化分析模块(4)，通过ECharts图表对航班延误情况进行可视化分析。