CN113112032A - 基于联邦学习的航班延误预测系统及方法 - Google Patents
基于联邦学习的航班延误预测系统及方法 Download PDFInfo
- Publication number
- CN113112032A CN113112032A CN202110411809.3A CN202110411809A CN113112032A CN 113112032 A CN113112032 A CN 113112032A CN 202110411809 A CN202110411809 A CN 202110411809A CN 113112032 A CN113112032 A CN 113112032A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- flight
- stage
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于联邦学习的航班延误预测系统及方法,属于航空信息处理技术领域,包括:一、对数据进行数据预处理;二、在航班预测问题中,过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,改进联邦模型的训练,确保能得到良好的预测结果;使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化;三、采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0;四、整个过程分为密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段;五、使用混淆矩阵记录预测结果,以评估模型的预测性能。本发明为优化民航业务提供了切实可用的方案。
Description
技术领域
本发明属于航空信息处理技术领域,特别是涉及一种基于联邦学习的航班延误预测系统及方法。
背景技术
近年来,航班延误问题受到越来越多的关注。根据联邦航空管理局(FAA),15分钟是判断航班延误的门槛。如果任何航班的实际起飞或到达时间超过预定时间的15分钟,则该航班被视为延误。根据民航局2019年的数据显示,由于天气原因导致的航班延误共占首位,航班延误是一个长期而复杂的问题,长期以来航空业一直深受其害。在声誉、效率和经济方面,航班延误对航空公司和机场的生产率有着巨大的影响。此外,当航班延误发生时,航空网络的性能会受到影响,并且这种类型的延误可能会传播到其他航班链,由于资源可用性的限制,这些航班链随后也会影响机场的性能。
针对航班延误问题,国内外学者进行了许多钻研。Demir等人开发了一种人工神经网络模型,该模型通过使用从机场各种传感器收集的数据和有关飞行的信息,利用人工神经网络来估计航班的起飞延误。Belcastro等人的研究了使用航班数据和天气数据,采用并行算法验证了预测超过给定阈值的延误时具有较高的准确性。Khanmohammadi等人介绍了一种多级输入层人工神经网络结构,用来对航班延误进行预测。Qin等人分析了时间因素对多个不同机场航班延误的影响,并观察了延误率在一整天内的变化,使用方差分析和K均值聚类模型预测一天中特定时间段的延迟。Rebollo等人通过考虑时间和空间延迟状态作为解释变量,提出了预测飞行延迟的模型,将延迟分类为高于或低于某个阈值,采用随机森林算法预测预期延迟。Kim等人使用递归神经网络(RNN)来预测日常航班延误。Choi等人提出了一种结合天气数据的机器学习预测模型,实现了包括决策树、随机森林和k近邻在内的不同机器学习技术来预测天气引起的航班延迟。
根据对以上文献的研究可以发现,许多航班延误问题的研究均采用基于模型的方法,需要大量的数据来建立一个准确和稳健的模型。虽然最近的技术进步使大数据的存储、处理和计算更加高效,但组合来自不同来源的数据仍然是一个重要的挑战。竞争优势、隐私问题和法规以及围绕数据主权和管辖权的问题阻碍了许多组织公开共享其数据。在这些方法中,不同机场的数据被收集到中央服务器进行进一步处理。然而,由于机场的数据关系着他们的经济效益和战略制定,数据的潜在滥用可能导致严重的隐私侵犯。在欧盟,通用数据保护条例(GDPR)规定了许多保护用户隐私的条款,并禁止组织在未经用户明确批准的情况下交换数据。在日益严格的数据安全和隐私保护立法下,很难为任何单个设备收集丰富的数据,在保护用户隐私的同时进行联邦建模具有重要意义。
典型的机器学习范例是基于单个数据集进行有针对性的预测。然而,数据资源越来越多地由不同的所有者分配和存储。通常组合来自多个来源的数据进行学习以获得更好的预测性能,但是从单个数据集学习的传统范例正经历向协作学习的转变,即来自多方的数据被用于协作训练学习模型。传统的协作学习方法是有一个中心方,即虚拟服务器,让多个数据所有者直接将他们的数据上传到服务器进行培训。虽然协作学习比基于单个数据集的学习取得了更好的性能,但对隐私的关注正在增加。在此过程中,各方的私人信息,可以被披露,这将导致隐私泄露。此外,隐私泄露问题将导致参与方之间的不信任,阻止他们将数据共享给中央服务器。因此,设计一个协议来从多方数据集训练学习模型,同时保护他们的隐私变得越来越重要。
发明内容
技术方案,为了解决上述背景技术中的技术问题:提供一种基于联邦学习的航班延误预测系统及方法,在保护数据隐私的前提下,对航班延误情况进行预测。
本发明的第一目的是提供一种基于联邦学习的航班延误预测方法,包括:
步骤一:对数据进行数据预处理。数据清洗。由于数据集中存在一些空值和异常值,在进行数据清洗操作时,删除数据中有空值和异常值的航班和气象数据,得到的用于进行实验的干净数据集。数据转换。数据集中存在一些非数字特征,将数据中的机场名称等离散数据进行one-hot编码。数据标准化。由于不同的特征具有不同的比例,因此应用特征缩放将一些特征转换为具有相同比例的新特征。
步骤二:在航班预测问题中,需要过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,可以改进模型的训练,以确保能得到良好的预测结果。为了更好地理解结果数据,使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化。
步骤三:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0.
逻辑回归在大多数情况下没有封闭形式的解。因此,需要使用非线性优化方法来寻找回归参数的最大似然估计。牛顿-拉夫森迭代法和随机梯度下降(SGD)是最常用的训练优化方法。因为牛顿-拉夫森迭代方法涉及矩阵求逆,并且大多数同态加密方案不支持除法或矩阵求逆,所以很难用同态加密方案来评估该方法。另一方面,梯度下降不需要除法运算,是同态加密逻辑回归的更好选择。因而选择随机梯度下降法来作为逻辑回归的优化方法。
对于一个预测航班延误的联邦模型,包括一个聚合中央服务器和N个参与客户端。
聚合服务器:在每一轮学习中,聚合服务器聚合上传的密文,然后将结果分发给每个参与者。
参与客户端:参与客户端是一组具有相似规模和特点且持有航班数据的大型枢纽机场。参与者的目标是通过联邦学习合作训练高质量航班延误预测模型。在每一轮联邦学习中,每个参与者在本地训练模型,加密他们自己的参数,并上传到聚合服务器。此外,他们从聚合服务器接收聚合的密文,解密后更新模型。
步骤四:整个过程主要分为五个阶段:密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段。
1.密钥生成。各机场生成密钥,其中各机场被认为是诚实的;
2.服务器初始化模型参数并发送给各个机场{1,…,N};
3.机场从同一个全局模型开始,该模型要么是随机初始化的(初始训练),要么是根据代理数据训练的。在局部模型训练期间,基于给定的学习率、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数的本地梯度,所有的机场学习者使用相同的超参数值(学习率、批量大小等)在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给服务器;
4.服务器收到来自各机场传来的计算结果,基于同态加密的特性,服务器可以在不解密的前提下聚合来自局部模型的参数,并对参数进行更新,得到一个全局模型。随后将更新后的参数传给各机场客户端;
5.机场从服务器收到新的参数后,进行解密并更新自己的参数。
为模型参数,K为迭代步数,上标表示不同的迭代步数,下标表示不同的数据拥有者,含有下标的参数表示局部模型参数,否则其为全局模型参数。
重复迭代步骤3-5过程,直到满足收敛准则。训练全局模型的过程只依赖于本地模型的更新,而不是站点上的原始数据。
步骤五:使用混淆矩阵记录预测结果,以评估模型的预测性能。真反例(TN)代表的是实际上是准时航班,预测结果也是准时航班。假正例(FP)代表实际上没有延误,但是预测结果为延误航班。假反例(FN)代表实际上是延误航班,但预测不会延误。真正例(TP)代表实际上是延误的,预测结果也是延误的。在模型比较中,主要使用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1 score进行衡量。ROC曲线能够尽量降低不平衡数据集带来的干扰,更加客观地衡量模型本身的性能,所以同时采用ROC曲线来评估模型性能。
本专利的第二发明目的是提供一种基于联邦学习的航班延误预测系统,包括:
数据预处理模块:对数据进行数据预处理;具体包括:
数据清洗,删除数据中有空值和异常值的航班和气象数据,得到用于进行实验的干净数据集;
数据转换,所述干净数据集中存在一些非数字特征,将数据中的离散数据进行one-hot编码;
数据标准化,应用特征缩放将一些特征转换为具有相同比例的新特征;
改进模块:在航班预测问题中,过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,改进联邦模型的训练,确保能得到良好的预测结果;使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化;
情况表示模块:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0;
阶段执行模块:整个过程分为密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段;
评估模块:使用混淆矩阵记录预测结果,以评估模型的预测性能。
本专利的第三发明目的是提供一种实现上述基于联邦学习的航班延误预测方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于联邦学习的航班延误预测方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于联邦学习的航班延误预测方法。
本发明的优点及积极效果为:
通过采用上述技术方案,本发明具有如下的技术效果:
在本发明中,提出了一个在多个数据所有者之间保持隐私的多方学习框架联邦学习。所提出的框架实现了不同的隐私,为各方的隐私提供了理论保障。
本发明致力于开发一个能够预测航班未来延误情况的联邦学习模型,使用来自多个大型枢纽机场数据源,以联邦学习的方式为不同的信任场景训练不同的机器学习模型。通过遵守数据保护框架,能够保证整体隐私不受来自系统的任何模式输出的影响,也不受任何中间结果的影响,同态加密还保证未经任何数据保护的任何消息交换不会被窃取,因此不会泄露任何信息,这为参与者以及模型本身的提供了端到端的隐私保证。有了这些保证,系统生产的模型可以安全地部署到生产中。本发明为数据隐私保护提供了一条新思路。
附图说明
图1为本发明优选实例的联邦学习框架图;
图2为本发明优选实例中延误时间分布图;
图3为本发明优选实例中飞行距离分布图;
图4为本发明优选实例中飞行距离-延误时间分布散点图;
图5为本发明优选实例中属性相关性热图;
图6为本发明优选实例中集中学习结果混淆矩阵图;
图7为本发明优选实例中联邦学习结果混淆矩阵图;
图8为本发明优选实例中ROC曲线图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
本申请提出了一个基于联邦学习的框架,允许航空数据分布在多个站点。联邦学习带来了从由不同组织维护的分布式数据源构建机器学习模型的范式转变。在这样一种分散的、协作的学习方式下设置,每个站点都有助于计算全局模型,同时保护自己的原始数据不被泄露给不可信的第三方。本申请的框架允许基于每个站点的本地数据训练一个全局模型,而不需要从它们各自的站点移动原始数据,最大力度的保护隐私。联邦学习应用通用数据保护条例(GDPR)数据最小化原则,因为只有学习模型,没有原始数据,且训练过程中传输的信息也被加密,集中处理。沟通模型也是暂时的,因为它们在被合并到全局模型后会立即被丢弃,这是GDPR的存储和目的限制原则的应用。
本申请融合机器学习的方法,使训练数据可以保留在本地,无需上传共享,在保护数据隐私的前提下,对航班延误情况进行预测。同时针对训练过程中会间接泄露信息的问题,采用同态加密技术对传输的参数进行加密操作。实验结果表明,用联邦建模的方法在不共享数据的情况下能达到与传统的方法相似的准确率,为优化民航业务提供了切实可用的方案。
一种基于联邦学习的航班延误预测模型,基于联邦学习的航班延误预测模型体现在两个方面,一方面利用联邦学习的框架解决数据分布的问题,另一方面针对模型传输过程中数据间接泄露问题,采用同态加密的方法对模型参数进行保护。具体表现为:首先在收集到的历史航班数据和天气数据上进行数据预处理,并对数据集进行分析。然后将处理分析后的数据送入模型进行训练。
请参阅图1至图8,具体方案为:
一种基于联邦学习的航班延误预测方法,包含下列步骤:
步骤一:对数据进行数据预处理。数据清洗。由于数据集中存在一些空值和异常值,在进行数据清洗操作时,删除数据中有空值和异常值的航班和气象数据,得到的用于进行实验的干净数据集。数据转换。数据集中存在一些非数字特征,将数据中的机场名称等离散数据进行one-hot编码。数据标准化。由于不同的特征具有不同的比例,因此应用特征缩放将一些特征转换为具有相同比例的新特征。
步骤二:在航班预测问题中,需要过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,可以改进模型的训练,以确保能得到良好的预测结果。为了更好地理解结果数据,使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化。
步骤三:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0.
逻辑回归在大多数情况下没有封闭形式的解。因此,需要使用非线性优化方法来寻找回归参数的最大似然估计。牛顿-拉夫森迭代法和随机梯度下降(SGD)是最常用的训练优化方法。因为牛顿-拉夫森迭代方法涉及矩阵求逆,并且大多数同态加密方案不支持除法或矩阵求逆,所以很难用同态加密方案来评估该方法。另一方面,梯度下降不需要除法运算,是同态加密逻辑回归的更好选择。因而选择随机梯度下降法来作为逻辑回归的优化方法。
对于一个预测航班延误的联邦模型,包括一个聚合中央服务器和N个参与客户端。
聚合服务器:在每一轮学习中,聚合服务器聚合上传的密文,然后将结果分发给每个参与者。
参与客户端:参与客户端是一组具有相似规模和特点且持有航班数据的大型枢纽机场。参与者的目标是通过联邦学习合作训练高质量航班延误预测模型。在每一轮联邦学习中,每个参与者在本地训练模型,加密他们自己的参数,并上传到聚合服务器。此外,他们从聚合服务器接收聚合的密文,解密后更新模型。
步骤四:整个过程主要分为五个阶段:密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段。
1.密钥生成。各机场生成密钥,其中各机场被认为是诚实的;
2.服务器初始化模型参数并发送给各个机场{1,…,N};
3.机场从同一个全局模型开始,该模型要么是随机初始化的(初始训练),要么是根据代理数据训练的。在局部模型训练期间,基于给定的学习率、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数的本地梯度,所有的机场学习者使用相同的超参数值(学习率、批量大小等)在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给服务器;
4.服务器收到来自各机场传来的计算结果,基于同态加密的特性,服务器可以在不解密的前提下聚合来自局部模型的参数,并对参数进行更新,得到一个全局模型。随后将更新后的参数传给各机场客户端;
5.机场从服务器收到新的参数后,进行解密并更新自己的参数。
为模型参数,K为迭代步数,上标表示不同的迭代步数,下标表示不同的数据拥有者,含有下标的参数表示局部模型参数,否则其为全局模型参数。
重复迭代步骤3-5过程,直到满足收敛准则。训练全局模型的过程只依赖于本地模型的更新,而不是站点上的原始数据。
步骤五:使用混淆矩阵记录预测结果,以评估模型的预测性能。真反例(TN)代表的是实际上是准时航班,预测结果也是准时航班。假正例(FP)代表实际上没有延误,但是预测结果为延误航班。假反例(FN)代表实际上是延误航班,但预测不会延误。真正例(TP)代表实际上是延误的,预测结果也是延误的。在模型比较中,主要使用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1 score进行衡量。ROC曲线能够尽量降低不平衡数据集带来的干扰,更加客观地衡量模型本身的性能,所以同时采用ROC曲线来评估模型性能。
本发明采用联邦学习的框架。联邦学习是指多个客户端在一个中央服务器下协作式地训练模型的设置,该设置同时保证训练数据去中心化及分散性。通过使用联邦学习,可以在不直接访问原始航空数据的情况下训练一个全局模型。具体来说,联邦学习的技术遵循服务器-客户端设置。在每一轮中,服务器从每个客户端收集更新的特征映射模型,用于模型聚合。每个客户端根据全局状态及其本地数据集执行本地计算,并向服务器发送更新。然后服务器将这些更新应用到其全局状态,训练过程一直持续到模型收敛。
联邦学习相比传统的集中学习有以下几个优点。首先,联邦学习对数据进行隔离,使数据不会对外泄露,从而满足用户的隐私保护和数据安全需求。其次,联邦学习可以保证模型质量无损。联邦模型综合了所有碎片化的独立模型,所以联邦模型的效果可以达到与碎片化的独立模型相似甚至更好的效果。除此之外,参与学习的个体在合作时地位平等,联邦学习允许参与者在传递模型参数的同时保持独立的训练。从以上可以得出结论,航空数据特别适合采用联邦学习进行处理。
在本发明中,采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0.
假设每个机场i拥有大小为Hn的数据集。在联邦模型中,具有d个特征的输入样本向量是输入样本xi的标记输出值是将它们组合成一组输入输出对对于航班延误预测任务,需要学习一个最佳模型,通过输入训练样本向量xi并确定模型参数向量来推断yi值,第i个机场相对于其模型参数w的局部损失函数为Fi(w),即
机场i完成一轮训练后,将参数上传到中心服务器。在中心服务器上,将全局预测模型问题定义如下:
其中,N表示参与学习者的数量,Fi(w)表示机场i的本地目标函数,最终训练目标是最小化全局损失函数f(w)。
如图1所示,整个过程主要分为五个阶段:密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段。
(1)密钥生成。各机场生成密钥,其中各机场被认为是诚实的;
(2)服务器初始化模型参数w0并发送给各个机场{1,…,N};
(3)机场从同一个全局模型开始,该模型要么是随机初始化的(初始训练),要么是根据代理数据训练的。在局部模型训练期间,基于给定的学习率η、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数wk的本地梯度所有的机场学习者使用相同的超参数值(学习率、批量大小等)在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给服务器;
(5)机场从服务器收到新的参数后,进行解密并更新自己的参数。
w为模型参数,K为迭代步数,w上标表示不同的迭代步数,下标表示不同的数据拥有者,含有下标的参数表示局部模型参数,否则其为全局模型参数。
重复迭代步骤(3)-(5)过程,直到满足收敛准则。训练全局模型的过程只依赖于本地模型的更新,而不是站点上的原始数据。
使用混淆矩阵记录预测结果,以评估模型的预测性能。在模型评估中,主要使用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1 score进行衡量。
下面结合图2至图8和具体的实验验证本申请技术方案的可行性:
实验环境及数据
本发明实验环境设置三台机器模拟三个不同的机场参与者,使用RAM为8G,操作系统为CentOS 7,CPU为i7-8565U的三台相同规格的机器模拟客户端,采用一个操作系统为CentOS 7的服务器作为模型聚合器。
本发明实验数据来自机场。
数据预处理
数据清洗。由于数据集中存在一些空值和异常值,在进行数据清洗操作时,删除数据中有空值和异常值的航班和气象数据,得到的用于进行实验的干净数据集。
数据转换。数据集中存在一些非数字特征,将数据中的机场名称等离散数据进行one-hot编码。
数据标准化。由于不同的特征具有不同的比例,因此应用特征缩放将一些特征转换为具有相同比例的新特征。
数据合并。由于航班数据和气象数据属于不同的数据源,航班和气象数据进行融合,得到最终的输入特征。数据融合之前需将航班数据和气象数据建立关联,确保机场所在位置与气象观测点和飞机起飞降落时间与天气观测时间可以一一对应起来。
实验过程
在航班预测问题中,需要过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,可以改进模型的训练,以确保能得到良好的预测结果。为了更好地理解结果数据,使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化。
图2显示了离港航班延误时间分布图,横轴为延误时间,纵轴为频率,其中,大约90%的延误时间落在0-50分钟之内,延误时间的中位数为11分钟,一次航班最严重的延误持续了1988分钟,长时间的延误所占比例较少。图3显示了数据集中航班飞行距离的分布。横轴为飞行距离,纵轴为频率,从图中可以看出,飞行距离主要集中在1000英里以内,平均飞行距离在803.4英里左右,最长的一次飞行为4983英里。图4为飞行距离与延误时间之间关系的散点图,可以发现飞行距离越长,产生的延误越少,延误的概率更低一些。大部分延误主要发生在3000英里的飞行距离以内;
图5以热图的形式显示了一个相关矩阵,以便确定与航班延误问题相关的最重要的特征,数值越大代表二者的相关性越强。重点是出发和到达延迟与其余特征之间的联系.该图显示了出发延迟和到达延迟之间的强相关性。
在对数据集中的数据进行分析后,开始模型训练。要对所提出的模型进行无偏评估,将用于建模的数据分成两部分,即训练集和测试集。训练集用来对模型参数进行拟合,测试集用于提供最终模型的无偏评估。训练集和测试集以7:3的比例进行划分。根据上面提出的机场状态和气象数据的特征,包括总共32个的集合特征作为预测建模的输入,机场每小时航班的延误情况作为是基于原始数据计算的标签。
整个过程主要分为五个阶段:密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段。
密钥生成。各机场生成密钥,其中各机场被认为是诚实的;
服务器初始化模型参数w0并发送给各个机场{1,…,N};
机场从同一个全局模型开始,该模型要么是随机初始化的(初始训练),要么是根据代理数据训练的。在局部模型训练期间,基于给定的学习率η、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数wk的本地梯度所有的机场学习者使用相同的超参数值(学习率、批量大小等)在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给服务器;
机场从服务器收到新的参数后,进行解密并更新自己的参数。
w为模型参数,K为迭代步数,w上标表示不同的迭代步数,下标表示不同的数据拥有者,含有下标的参数表示局部模型参数,否则其为全局模型参数。
重复迭代步骤(3)-(5)过程,直到满足收敛准则。训练全局模型的过程只依赖于本地模型的更新,而不是站点上的原始数据。
对于每个本地客户端进行训练时,最大网速配置为10MB/s,用于模型上传和下载,权重衰减系数为0.0001.学习率为0.1,批处理大小设置为256,迭代总次数迭为2000次。
为了说明联邦学习和一般机器学习方法在数据模型形成过程中的区别,同时使用了传统的集中式方法进行模型训练。在传统的集中式机器学习训练对照实验中,两个数据集的数据直接混合进行训练。
实验结果分析
使用混淆矩阵记录预测结果,以评估模型的预测性能。真反例(TN)代表的是实际上是准时航班,预测结果也是准时航班。假正例(FP)代表实际上没有延误,但是预测结果为延误航班。假反例(FN)代表实际上是延误航班,但预测不会延误。真正例(TP)代表实际上是延误的,预测结果也是延误的。在模型比较中,主要使用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1 score进行衡量。
准确性是最常用和最直观的性能指标,它是在所有样本数中,做出正确预测的样本比例,反映了整体分类结果的准确性。计算公式如下:
精确率是正确预测为延误的航班数量占全部预测为延误航班的比例。计算公式如下:
召回率是正确预测为延误航班的数量占全部实际为延误航班数量的比例。相应的计算公式如下:
为了更直观、更简洁地反映模型的性能,提出了F1值的评价指标,对Precision和Recall进行比较全面的评估。F1值是算术平均值除以几何平均值。当F1较大时,TP相对增加,FP相对减少,即准确率和召回率都相对增加。相应的计算公式如下:
图6和图7分别为联邦学习和集中学习预测结果的混淆矩阵,大部分样本可以被正确分类。表1显示了训练所得到模型的性能指标。集中学习的准确率为0.943,联邦学习的准确率为0.915,由于中间传输过程和加密操作不可避免的会对结果造成一定的精度损失,虽然联邦学习没有到达集中学习相同甚至更高的精度,但是联邦学习建模的方法在保证各方隐私的同时可以得到与传统方法相差不大的结果,误差在可接受的范围内,联邦学习方法让数据可以安全共享,因此可以证明该框架具有实用价值。
表1实验结果
准确率 | 精确率 | 召回率 | F1 score | |
联邦学习 | 0.915 | 0.889 | 0.713 | 0.791 |
集中学习 | 0.943 | 0.940 | 0.798 | 0.863 |
ROC曲线能够尽量降低不平衡数据集带来的干扰,更加客观地衡量模型本身的性能,所以同时采用ROC曲线来评估模型性能。ROC是TP与FP的关系图。AUC(Area UnderCurve)被定义为曲线下的面积,它常常用作评估标准,因为有时候不同曲线之间的差别可能不够明显,单纯观察曲线并不能清晰的说明哪个分类器的效果更好,AUC作为计算出来的曲线涵盖的面积值,能更清楚的比较分类器的效果,AUC值越大,相对应的分类器效果越好。
图8为两种方法的ROC曲线以及其AUC值的比较。由图中可知,联邦学习的AUC值为0.930,而集中学习的AUC值为0.933,两者面积只相差0.003,联邦学习可以达到以集中学习相似的性能。
综合各项指标和性能曲线结果,可以发现联邦学习能够较好的实现航班分类预测性能,得到与传统方法相似的性能。同时,联邦学习框架也体现出了相比于传统分类器在隐私保护和学习能力上的优势。
一种基于预训练卷积神经网络关系抽取系统,包括:
数据预处理模块:对数据进行数据预处理;具体包括:
数据清洗,删除数据中有空值和异常值的航班和气象数据,得到用于进行实验的干净数据集;
数据转换,所述干净数据集中存在一些非数字特征,将数据中的离散数据进行one-hot编码;
数据标准化,应用特征缩放将一些特征转换为具有相同比例的新特征;
改进模块:在航班预测问题中,过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,改进联邦模型的训练,确保能得到良好的预测结果;使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化;
情况表示模块:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0;
阶段执行模块:整个过程分为密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段;
评估模块:使用混淆矩阵记录预测结果,以评估模型的预测性能。
一种实现上述基于联邦学习的航班延误预测方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于联邦学习的航班延误预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (10)
1.一种基于联邦学习的航班延误预测方法,其特征在于,包括如下步骤:
步骤一:对数据进行数据预处理;具体包括:
数据清洗,删除数据中有空值和异常值的航班和气象数据,得到用于进行实验的干净数据集;
数据转换,所述干净数据集中存在一些非数字特征,将数据中的离散数据进行one-hot编码;
数据标准化,应用特征缩放将一些特征转换为具有相同比例的新特征;
步骤二:在航班预测问题中,过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,改进联邦模型的训练,确保能得到良好的预测结果;使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化;
步骤三:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0;
步骤四:整个过程分为密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段;
步骤五:使用混淆矩阵记录预测结果,以评估模型的预测性能。
2.根据权利要求1所述的基于联邦学习的航班延误预测方法,其特征在于,选择随机梯度下降法来作为逻辑回归的优化方法。
3.根据权利要求1所述的基于联邦学习的航班延误预测方法,其特征在于,所述联邦模型包括一个聚合中央服务器和N个参与客户端;其中:
在每一轮学习中,聚合中央服务器聚合上传的密文,然后将结果分发给每个参与客户端;
参与客户端是一组具有相似规模和特点且持有航班数据的大型枢纽机场;参与客户端通过联邦学习合作训练高质量航班延误预测模型;在每一轮联邦学习中,每个参与客户端在本地训练模型,加密自己的参数,并上传到聚合中央服务器,参与客户端从聚合中央服务器接收聚合的密文,解密后更新模型。
4.根据权利要求1所述的基于联邦学习的航班延误预测方法,其特征在于,在步骤四中:
密钥生成阶段:各机场生成密钥;
初始化阶段:中央服务器初始化模型参数并发送给各个机场{1,…,N};
模型训练阶段:机场从同一个全局联邦模型开始,该联邦模型为随机初始化的或者根据代理数据训练的之一,在局部联邦模型训练期间,基于给定的学习率、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数的本地梯度,所有的机场学习者使用相同的超参数值在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给中央服务器;
聚合阶段:中央服务器收到来自各机场传来的计算结果,基于同态加密的特性,服务器在不解密的前提下聚合来自局部模型的参数,并对参数进行更新,得到一个全局模型。随后将更新后的参数传给各机场参与客户端;
更新阶段:机场从中央服务器收到新的参数后,进行解密并更新自己的参数。
5.一种基于联邦学习的航班延误预测系统,其特征在于,包括:
数据预处理模块:对数据进行数据预处理;具体包括:
数据清洗,删除数据中有空值和异常值的航班和气象数据,得到用于进行实验的干净数据集;
数据转换,所述干净数据集中存在一些非数字特征,将数据中的离散数据进行one-hot编码;
数据标准化,应用特征缩放将一些特征转换为具有相同比例的新特征;
改进模块:在航班预测问题中,过滤掉与航班延误无关的属性,增强对数据的基本结构和特征的理解,改进联邦模型的训练,确保能得到良好的预测结果;使用Python和统计软件程序对数据进行描述性统计分析,并将分析结果可视化;
情况表示模块:采用监督分类算法逻辑回归以及横向联邦学习框架,将航班延误的情况表示为标签1,航班正常的情况表示为标签0;
阶段执行模块:整个过程分为密钥生成阶段、初始化阶段、模型训练阶段、聚合阶段和更新阶段;
评估模块:使用混淆矩阵记录预测结果,以评估模型的预测性能。
6.根据权利要求5所述的基于联邦学习的航班延误预测系统,其特征在于,选择随机梯度下降法来作为逻辑回归的优化方法。
7.根据权利要求5所述的基于联邦学习的航班延误预测系统,其特征在于,所述联邦模型包括一个聚合中央服务器和N个参与客户端;其中:
在每一轮学习中,聚合中央服务器聚合上传的密文,然后将结果分发给每个参与客户端;
参与客户端是一组具有相似规模和特点且持有航班数据的大型枢纽机场;参与客户端通过联邦学习合作训练高质量航班延误预测模型;在每一轮联邦学习中,每个参与客户端在本地训练模型,加密自己的参数,并上传到聚合中央服务器,参与客户端从聚合中央服务器接收聚合的密文,解密后更新模型。
8.根据权利要求1所述的基于联邦学习的航班延误预测系统,其特征在于,在阶段执行模块中:
密钥生成阶段:各机场生成密钥;
初始化阶段:中央服务器初始化模型参数并发送给各个机场{1,…,N};
模型训练阶段:机场从同一个全局联邦模型开始,该联邦模型为随机初始化的或者根据代理数据训练的之一,在局部联邦模型训练期间,基于给定的学习率、时期E和批处理大小B,在每个站点,计算相对于其当前模型参数的本地梯度,所有的机场学习者使用相同的超参数值在相同的逻辑回归模型上进行训练,使用相同的本地SGD优化器,并将计算后的结果加密传给中央服务器;
聚合阶段:中央服务器收到来自各机场传来的计算结果,基于同态加密的特性,服务器在不解密的前提下聚合来自局部模型的参数,并对参数进行更新,得到一个全局模型。随后将更新后的参数传给各机场参与客户端;
更新阶段:机场从中央服务器收到新的参数后,进行解密并更新自己的参数。
9.一种实现权利要求1-4任一项所述基于联邦学习的航班延误预测方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任一项所述的基于联邦学习的航班延误预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411809.3A CN113112032A (zh) | 2021-04-16 | 2021-04-16 | 基于联邦学习的航班延误预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411809.3A CN113112032A (zh) | 2021-04-16 | 2021-04-16 | 基于联邦学习的航班延误预测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113112032A true CN113112032A (zh) | 2021-07-13 |
Family
ID=76717814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110411809.3A Pending CN113112032A (zh) | 2021-04-16 | 2021-04-16 | 基于联邦学习的航班延误预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112032A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757286A (zh) * | 2023-08-16 | 2023-09-15 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
CN117540215A (zh) * | 2024-01-05 | 2024-02-09 | 中国民航大学 | 一种航班延误预测模型训练方法、电子设备和存储介质 |
CN117792641A (zh) * | 2024-02-27 | 2024-03-29 | 天津医康互联科技有限公司 | 联邦学习系统的全局评价指标获取方法及联邦学习系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1632892A2 (en) * | 1999-12-22 | 2006-03-08 | Rlm Software, Inc. | System and method for estimating aircraft flight delay |
CN109409587A (zh) * | 2018-10-09 | 2019-03-01 | 南京航空航天大学 | 一种基于天气数据挖掘的机场进离场交通流量预测方法 |
CN109934341A (zh) * | 2017-11-13 | 2019-06-25 | 埃森哲环球解决方案有限公司 | 训练、验证以及监测人工智能和机器学习的模型 |
CN110956342A (zh) * | 2020-01-02 | 2020-04-03 | 中国民航大学 | 基于注意力机制的CliqueNet航班延误预测方法 |
CN111401621A (zh) * | 2020-03-10 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 基于联邦学习的预测方法、装置、设备及存储介质 |
US20200250995A1 (en) * | 2019-01-31 | 2020-08-06 | The Boeing Company | System and method for flight delay prevention in real-time |
CN111899076A (zh) * | 2020-08-12 | 2020-11-06 | 科技谷(厦门)信息技术有限公司 | 一种基于联邦学习技术平台的航空服务定制化系统及方法 |
CN112232535A (zh) * | 2020-09-18 | 2021-01-15 | 南京航空航天大学 | 一种基于监督学习的航班离场平均延误预测方法 |
-
2021
- 2021-04-16 CN CN202110411809.3A patent/CN113112032A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1632892A2 (en) * | 1999-12-22 | 2006-03-08 | Rlm Software, Inc. | System and method for estimating aircraft flight delay |
CN109934341A (zh) * | 2017-11-13 | 2019-06-25 | 埃森哲环球解决方案有限公司 | 训练、验证以及监测人工智能和机器学习的模型 |
CN109409587A (zh) * | 2018-10-09 | 2019-03-01 | 南京航空航天大学 | 一种基于天气数据挖掘的机场进离场交通流量预测方法 |
US20200250995A1 (en) * | 2019-01-31 | 2020-08-06 | The Boeing Company | System and method for flight delay prevention in real-time |
CN110956342A (zh) * | 2020-01-02 | 2020-04-03 | 中国民航大学 | 基于注意力机制的CliqueNet航班延误预测方法 |
CN111401621A (zh) * | 2020-03-10 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 基于联邦学习的预测方法、装置、设备及存储介质 |
CN111899076A (zh) * | 2020-08-12 | 2020-11-06 | 科技谷(厦门)信息技术有限公司 | 一种基于联邦学习技术平台的航空服务定制化系统及方法 |
CN112232535A (zh) * | 2020-09-18 | 2021-01-15 | 南京航空航天大学 | 一种基于监督学习的航班离场平均延误预测方法 |
Non-Patent Citations (2)
Title |
---|
邢有洪等: "航班延误影响因素的实证分析", 《会计之友(上旬刊)》 * |
陈涛等: "面向大数据隐私保护的联邦学习算法航空应用模型研究", 《信息安全与通信保密》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757286A (zh) * | 2023-08-16 | 2023-09-15 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
CN116757286B (zh) * | 2023-08-16 | 2024-01-19 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
CN117540215A (zh) * | 2024-01-05 | 2024-02-09 | 中国民航大学 | 一种航班延误预测模型训练方法、电子设备和存储介质 |
CN117792641A (zh) * | 2024-02-27 | 2024-03-29 | 天津医康互联科技有限公司 | 联邦学习系统的全局评价指标获取方法及联邦学习系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113112032A (zh) | 基于联邦学习的航班延误预测系统及方法 | |
CN112906903B (zh) | 网络安全风险预测方法、装置、存储介质及计算机设备 | |
CN115102763B (zh) | 基于可信联邦学习多域DDoS攻击检测方法与装置 | |
CN112348204A (zh) | 一种基于联邦学习和区块链技术的边缘计算框架下海洋物联网数据安全共享方法 | |
CN111104731A (zh) | 一种用于联邦学习的图形化模型全生命周期建模方法 | |
CN110084377A (zh) | 用于构建决策树的方法和装置 | |
CN114021168B (zh) | 基于联邦学习的地铁基坑开挖风险识别方法及装置 | |
CN109242250A (zh) | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 | |
Smelyakov et al. | Investigation of network infrastructure control parameters for effective intellectual analysis | |
CN113065046B (zh) | 一种产品缺陷检测设备和方法 | |
CN112039702A (zh) | 基于联邦学习和相互学习的模型参数训练方法及装置 | |
CN114818011A (zh) | 一种适用碳信用评价的联邦学习方法、系统及电子设备 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN115563859A (zh) | 一种基于分层联邦学习的电力负荷预测方法、装置及介质 | |
Truong et al. | Applications of business analytics in predicting flight on-time performance in a complex and dynamic system | |
CN114301935A (zh) | 一种基于声誉的物联网边云协同联邦学习节点选择方法 | |
Sun et al. | Fed-DFE: A Decentralized Function Encryption-Based Privacy-Preserving Scheme for Federated Learning. | |
Zhou et al. | Securing federated learning enabled NWDAF architecture with partial homomorphic encryption | |
CN111079827A (zh) | 一种铁路数据状态评估方法及系统 | |
CN104392373A (zh) | 云计算环境中基于关键历史行为的交互决策方法 | |
CN114186281A (zh) | 一种基于区块链预言机的声誉评估系统及方法 | |
Nguyen et al. | Bayesian heterogeneous degradation performance modeling with an unknown number of sub‐populations | |
Guo et al. | Research on flight delay prediction based on horizontal and vertical federated learning framework | |
Li et al. | A Quantitative Evaluation Method for Communication Impact of Sporting Events Based on SIR Dynamic Diffusion Model | |
CN108681820B (zh) | 一种增加信息安全机制对系统性能影响的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210713 |
|
WD01 | Invention patent application deemed withdrawn after publication |