CN109961085A - 基于贝叶斯估计的航班延误预测模型的建立方法及装置 - Google Patents
基于贝叶斯估计的航班延误预测模型的建立方法及装置 Download PDFInfo
- Publication number
- CN109961085A CN109961085A CN201910009733.4A CN201910009733A CN109961085A CN 109961085 A CN109961085 A CN 109961085A CN 201910009733 A CN201910009733 A CN 201910009733A CN 109961085 A CN109961085 A CN 109961085A
- Authority
- CN
- China
- Prior art keywords
- data
- flight
- prediction model
- flight delay
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 230000003111 delayed effect Effects 0.000 claims abstract description 24
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 230000002035 prolonged effect Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 2
- 230000005055 memory storage Effects 0.000 claims description 2
- 235000015170 shellfish Nutrition 0.000 claims 1
- 230000006870 function Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 8
- 241001269238 Data Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种基于贝叶斯估计的航班延误预测模型的建立方法,包括:对航班延误数据进行降维处理,并且使处理后的数据满足贝叶斯分类器的需求;将处理后数据的一部分作为训练集数据,以及将处理后数据的另一部分作为测试集数据;对训练集数据进行训练,以计算贝叶斯分类器所需的后验概率,建立航班延误预测模型;以及通过测试集数据对航班延误预测模型进行模型测试,通过航班延误预测模型判断测试集数据的分类,并且根据判断正确的数量来求得航班延误预测模型的准确度。本公开还提供了一种基于贝叶斯估计的航班延误预测模型的建立装置、计算机设备及存储介质。
Description
技术领域
本公开涉及一种基于贝叶斯估计的航班延误预测模型的建立方法及装置。
背景技术
民用航空提供了快捷的出行方式,但航班延误严重影响着航空出行的便利。尽管机场与航空公司已采取多种方式对航班延误进行应急处理,但是这些方法多集中于对航班延误的事后解决方案,无法预测航班延误,也未从根本上解决这一问题。因此,基于现有的数据,提出一种高效准确的航班延误预测模型对于解决航班延误,缓解机场运行压力有着重要意义。
国内外已有众多学者展开大量研究。一些研究人员以航班延误时间和运行时刻表估计延误导致的后续影响,在应用中为考虑实际数据的影响。有研究者引入大量航班天气数据作为数据样本,基于Spark对数据进行处理并利用随机森林特征划分时间延误预测。此外,该研究者还尝试利用卷积神经网络对相同数据进行分析,在引入直通通道保证数据无损处理的基础上加快了数据处理能力并提高了准确率。有研究者采集同一架飞机连续飞行数据,采用贝叶斯方法对航班进行统计意义上的分析并预测其延误情况。另外一部分研究人员研究了深度学习模型在空中交通延误预测任务中的有效性。通过结合基于深度学习范例的多个模型,建立了准确且稳健的预测模型,该模型能够对空中交通延误中的模式进行精细分析。此外一些模型利用两阶段估算模型,采用有监督的机器学习算法来估计飞行准时性能。模型的第一阶段执行二元分类以预测航班延误的发生,第二阶段执行回归以预测延迟的值。或者SVM方式建立航班预测模型,将延误时间序列进行相空间重构,并结合PSO优化模型参数。
上述研究应用,采用了多种数据处理方式并结合机器学习建立航班延误预测模型,运用相关度较高的训练数据及特定的处理方式进行模型分析,与实际运用存在一定距离。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种基于贝叶斯估计的航班延误预测模型的建立方法、建立装置、计算机设备及存储介质。
根据本公开的一个方面,一种基于贝叶斯估计的航班延误预测模型的建立方法,包括:对航班延误数据进行降维处理,并且使处理后的数据满足贝叶斯分类器的需求;将处理后数据的一部分作为训练集数据,以及将处理后数据的另一部分作为测试集数据;对所述训练集数据进行训练,以计算贝叶斯分类器所需的后验概率,通过贝叶斯分类器建立航班延误预测模型;以及通过测试集数据对所述航班延误预测模型进行模型测试,通过所述航班延误预测模型判断测试集数据的所述分类,并且根据判断正确的数量来求得所述航班延误预测模型的准确度。
根据本公开的至少一个实施方式,在对航班延误数据进行降维处理时,通过主成分分析法选取航班延误数据中的关键参数特征,然后通过特征比值的方法对航班延误数据进行降维处理。
根据本公开的至少一个实施方式,所述关键参数特征包括多个直接影响因素,计算所述多个直接影响因素中各直接影响因素的占比,并且根据航班延误数据的数量将每种占比相关的数据分成多个类别,以使航班延误数据分别在多个类别中近似均匀分布,并且根据航班延误数据所处的类别将航班延误数据离散化。
根据本公开的至少一个实施方式,所述关键参数特征包括还包括多个非直接影响因素,对非直接影响因素进行数据离散化处理。
根据本公开的至少一个实施方式,在对所述训练集数据进行训练时,将每条数据中所包括的多项关键参数特征作为特征组合,并且设定多个分类,求得所述特征组合在每个分类中的概率值,并且获得所述特征组合在各分类中的概率值的最大概率值。
根据本公开的至少一个实施方式,在设定多个分类时,将航班平均延误时间作为分类标准。
根据本公开的至少一个实施方式,在对所述训练集数据进行训练时,计算各特征组合出现的频次,然后计算各特征组合所属不同类的频次,之后计算各特征组合出现的概率,并且计算集中某一类条件下的特征组合出现的概率。
根据本公开的另一方面,一种基于贝叶斯估计的航班延误预测模型的建立装置,包括:数据处理模块,对航班延误数据进行降维处理,并且使处理后的数据满足贝叶斯分类器的需求,将处理后数据的一部分作为训练集数据,以及将处理后数据的另一部分作为测试集数据;训练模块,对所述训练集数据进行训练,以计算贝叶斯分类器所需的后验概率,通过贝叶斯分类器建立航班延误预测模型;以及测试模块,通过测试集数据对所述航班延误预测模型进行模型测试,通过所述航班延误预测模型判断测试集数据的所述分类,并且根据判断正确的数量来求得所述航班延误预测模型的准确度。
根据本公开的又一方面,一种计算机设备,包括:存储器,所述存储器存储计算机执行指令;以及处理器,所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行上述方法。
根据本公开的再一方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开一个实施方式的基于贝叶斯估计的航班延误预测模型的建立方法的流程图。
图2是根据本公开一个实施方式的数据处理流程图。
图3是根据本公开一个实施方式的参数训练流程图。
图4是根据本公开一个实施方式的测试流程图。
图5是根据本公开一个实施方式的计算机设备示意图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
本公开涉及航班延误预测,基于贝叶斯估计建立新的航班延误预测模型。相较于常规的预测模型采用大量与航班延误有着直接相关的数据作为训练样本,这样的训练样本对于得到较高准确率有着明显帮助。但在实际运用过程中,尤其是信息统计并不完善的地区,这些样本数据的获取存在较大难度,本发明的主要内容是利用贝叶斯估计在获取有限信息的情况下尽可能提高航班延误判断的准确率。
根据本公开的一个实施方式,提供了一种基于贝叶斯估计的航班延误预测模型的建立方法。如图1所示,该方法可以包括:对作为原数据的航班延误数据进行数据处理,本公开采用美国航空运输局对外公布航班延误数据进行分析预测。然后将处理后数据分为训练集数据及测试集数据,训练集数据用于之后的模型训练,而测试集数据则用于对训练后的模型进行测试。例如,在本公开中可以将航班延误数据的大部分作为训练集数据,而将小部分作为测试集数据。
通过训练集数据来建立航班延误预测模型,并且通过测试集数据对建立的航班延误预测模型进行测试。
根据本公开的方法,主要包括三种处理函数:数据处理函数、参数训练函数及测试函数。
其中数据处理函数对原数据进行处理,使得其满足贝叶斯分类器对数据的需求。参数训练函数的作用在于利用处理好的数据计算后验概率。测试函数利用测试集数据计算所属分类并判断航班延误预测模型的准确度。
下面将对这三种处理函数进行详细的说明。
首先参照图2,对于数据处理函数进行说明。其中,利用主成分分析法选取原数据中的关键参数特征之后,利用特征比值方法对数据进行降维处理。其中主成分分析法及特征比值方法属于本领域中常规的方法,在此不再赘述。
作为关键参数特征,主要航班延误原因可以包括以下几种因素(直接影响因素):季节因素、位置因素、航空公司自身因素、天气因素、国家航空系统延误因素、安全因素、航班自身延误等。
按照延误占比将这些因素可以换算成百分比的形式,这样的处理方式在保留有效信息的前提下缩小数据间差距。同时按照数据量的大小,将每种占比相关数据分成多类,例如可以分成4类。在分类的过程中,可以做到根据数据量的大小,使得数据在各个类中近似均匀的分布,例如假如有10000条数据的情况下,在每个类中可以近似有2500条数据,当然本领域的技术人员可以根据实际情况,根据其他分类标准,来调整在各个类中的数据分布量。根据分类情况,将连续形式的原数据进行离散化处理,这样可以避免在进行贝叶斯分类器训练时出现维数爆炸等问题。
作为关键参数特征,例如机场地点等的非直接影响因素而言,将与非直接影响因素相关的数据直接进行离散化处理。离散化的处理例如可以将同属同一类别的数据进行平均化等方式。
将处理后的数据中的大部分数据可以作为训练集数据,而小部分数据可以作为测试集数据。
下面结合图3对参数训练函数进行详细的说明。
参数训练函数利用训练集数据计算贝叶斯分类器所需的后验概率。贝叶斯分类器实质上是条件概率计算问题。假设某个个体(某条航班延误数据)有M项特征(关键参数特征)x1,x2,...xm,其特征组合为Τ={x1,x2,...xm},在本公开中存在多种特征组合,存在N种可能的分类Ο={c1,c2,...cN},贝叶斯决策即为当一个新的个体(一条航班延误数据)出现时,计算该个体出现在各类中所属概率的最大值:
P(O|x1,x2,...,xm)为特征组合出现在各类c1,c2,...cN中的概率,P(x1,x2,...,xm|O)为在各类中出现特征组合的概率,P(O)为各类c1,c2,...cN出现的概率,并且P(x1,x2,...,xm)为特征组合出现的概率。
参数训练函数即为求得计算上述概率的中间变量,即上述式1中的各个概率。模型中的分类是按照航班平均延误时间作为分类标准,分为N类,例如可以分为4类。通过参数训练函数,统计分属不同类的个体数目,即为计算条件概率得到初始数据并为下一阶段的分类估计及准确度测试提供数据。
例如,如图3所示,首先计算各特征组合出现的频次,然后计算各特征组合所属不同类别的频次,之后计算各特征组合出现的概率,并且计算验证集中某一类条件下的特征组合出现的概率。该方式可以通过本领域中频次与概率的关系(例如概率=频次/总次数)而得到相关概率值等。
在图4中示出了测试函数所进行的处理。
测试函数实现了两部分功能:一是判断测试集所属分类,即通过模型进行预估;二是对所有测试集进行预估之后判断其准确度,评价模型优劣。在参数训练函数中已经求得各分类出现的概率及各项特征组合出现的概率,利用测试集中数据计算在特征出现下的条件概率,从而利用条件概率计算公式求出在特征出现的情况下所属类别的概率。最终根据判断的正确数量求得模型准确度。其流程图如图4所示。
根据本公开的实施方式,(1)面对多维度的大量数据,将数据处理后变得简单易用降低计算开销,同时去除数据噪声,使结果清晰易懂是数据处理的必要内容。在利用主成分分析辨别影响整个数据特征的主要参数之后,对于方差较大的数据,即能量较高的数据引入特征比值的方式进行进一步处理。本所用的数据采用美国交通运输部所提供的航班延误信息,在这样的信息中,数据主成分集中于各种航班延误架次。这样的信息类型采用特征比值之后可以在尽量较少有效信息丢失的情况下将数据分析数据内在联系,缩小数据范围。(2)贝叶斯决策时在概率框架下实施决策的办法。对于数据分组任务来讲,当特征后验概率可以求得,贝叶斯分类在考虑如何基于所得到的概率选择最优的标记类型。当前所需要解决的航班延误预测分析利用贝叶斯分类器进行解决有着很好地优势。首先在于各类延误原因的概率均已知。在假设一段时间以来各类情况均保持相对稳定的情况下,这种已获得后验概率在解决问题中具有很好的应用价值。决策树、BP神经网络、支撑向量机等传统判别式模型,其运用的关键在于基于有限的训练样本尽可能准确地估计出后验概率。相比于这样的模型,在后验概率已知的情况下直接采用贝叶斯估计的方式可以减少在估计后验概率的过程中出现的误差,从而提高整体准确度。
根据本公开的另一实施方式,还提供了与上述方法相对应的装置。
本公开还提供一种计算机设备,如图5所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,计算机软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当计算机软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (10)
1.一种基于贝叶斯估计的航班延误预测模型的建立方法,其特征在于,包括:
对航班延误数据进行降维处理,并且使处理后的数据满足贝叶斯分类器的需求;
将处理后数据的一部分作为训练集数据,以及将处理后数据的另一部分作为测试集数据;
对所述训练集数据进行训练,以计算贝叶斯分类器所需的后验概率,建立航班延误预测模型;以及
通过测试集数据对所述航班延误预测模型进行模型测试,通过所述航班延误预测模型判断测试集数据的所述分类,并且根据判断正确的数量来求得所述航班延误预测模型的准确度。
2.如权利要求1所述的方法,其特征在于,在对航班延误数据进行降维处理时,通过主成分分析法选取航班延误数据中的关键参数特征,然后通过特征比值的方法对航班延误数据进行降维处理。
3.如权利要求2所述的方法,其特征在于,所述关键参数特征包括多个直接影响因素,计算所述多个直接影响因素中各直接影响因素的占比,并且根据航班延误数据的数量将每种占比相关的数据分成多个类别,以使航班延误数据分别在多个类别中近似均匀分布,并且根据航班延误数据所处的类别将航班延误数据离散化。
4.如权利要求3所述的方法,其特征在于,所述关键参数特征包括还包括多个非直接影响因素,对非直接影响因素进行数据离散化处理。
5.如权利要求1至3中任一项所述的方法,其特征在于,在对所述训练集数据进行训练时,将每条数据中所包括的多项关键参数特征作为特征组合,并且设定多个分类,求得所述特征组合在每个分类中的概率值,并且获得所述特征组合在各分类中的概率值的最大概率值。
6.如权利要求5所述的方法,其特征在于,在设定多个分类时,将航班平均延误时间作为分类标准。
7.如权利要求5或6所述的方法,其特征在于,在对所述训练集数据进行训练时,计算各特征组合出现的频次,然后计算各特征组合所属不同类的频次,之后计算各特征组合出现的概率,并且计算集中某一类条件下的特征组合出现的概率。
8.一种基于贝叶斯估计的航班延误预测模型的建立装置,其特征在于,包括:
数据处理模块,对航班延误数据进行降维处理,并且使处理后的数据满足贝叶斯分类器的需求,将处理后数据的一部分作为训练集数据,以及将处理后数据的另一部分作为测试集数据;
训练模块,对所述训练集数据进行训练,以计算贝叶斯分类器所需的后验概率,通过贝叶斯分类器建立航班延误预测模型;以及
测试模块,通过测试集数据对所述航班延误预测模型进行模型测试,通过所述航班延误预测模型判断测试集数据的所述分类,并且根据判断正确的数量来求得所述航班延误预测模型的准确度。
9.一种计算机设备,其特征在于,包括:
存储器,所述存储器存储计算机执行指令;以及
处理器,所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910009733.4A CN109961085B (zh) | 2019-01-05 | 2019-01-05 | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910009733.4A CN109961085B (zh) | 2019-01-05 | 2019-01-05 | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961085A true CN109961085A (zh) | 2019-07-02 |
CN109961085B CN109961085B (zh) | 2021-07-27 |
Family
ID=67023482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910009733.4A Expired - Fee Related CN109961085B (zh) | 2019-01-05 | 2019-01-05 | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961085B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144631A (zh) * | 2019-12-19 | 2020-05-12 | 南京航空航天大学 | 基于贝叶斯网络算法的航班延误实时概率预测方法 |
CN113222271A (zh) * | 2021-05-25 | 2021-08-06 | 中国民用航空飞行学院 | 综合交通运输体系下的中小机场选址布局方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133614A1 (en) * | 2001-02-01 | 2002-09-19 | Samaradasa Weerahandi | System and method for remotely estimating bandwidth between internet nodes |
CN101377887A (zh) * | 2008-07-31 | 2009-03-04 | 北京民航天宇科技发展有限公司 | 航班延误统计方法及装置 |
CN101546484A (zh) * | 2009-04-30 | 2009-09-30 | 南京航空航天大学 | 基于soa的航班延误波及分析与预测系统及其运作方法 |
CN104156594A (zh) * | 2014-08-11 | 2014-11-19 | 中国民航大学 | 一种基于贝叶斯网的航班过站时间动态估计方法 |
US20170140656A1 (en) * | 2015-08-26 | 2017-05-18 | Purdue Research Foundation | Estimating aircraft operations at airports using transponder data |
-
2019
- 2019-01-05 CN CN201910009733.4A patent/CN109961085B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133614A1 (en) * | 2001-02-01 | 2002-09-19 | Samaradasa Weerahandi | System and method for remotely estimating bandwidth between internet nodes |
CN101377887A (zh) * | 2008-07-31 | 2009-03-04 | 北京民航天宇科技发展有限公司 | 航班延误统计方法及装置 |
CN101546484A (zh) * | 2009-04-30 | 2009-09-30 | 南京航空航天大学 | 基于soa的航班延误波及分析与预测系统及其运作方法 |
CN104156594A (zh) * | 2014-08-11 | 2014-11-19 | 中国民航大学 | 一种基于贝叶斯网的航班过站时间动态估计方法 |
US20170140656A1 (en) * | 2015-08-26 | 2017-05-18 | Purdue Research Foundation | Estimating aircraft operations at airports using transponder data |
Non-Patent Citations (2)
Title |
---|
孙培艳等: "《油指纹鉴别技术》", 30 June 2017 * |
曹卫东等: "基于贝叶斯网络的航班过站时间分析与延误预测", 《计算机工程与设计》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144631A (zh) * | 2019-12-19 | 2020-05-12 | 南京航空航天大学 | 基于贝叶斯网络算法的航班延误实时概率预测方法 |
CN111144631B (zh) * | 2019-12-19 | 2023-07-25 | 南京航空航天大学 | 基于贝叶斯网络算法的航班延误实时概率预测方法 |
CN113222271A (zh) * | 2021-05-25 | 2021-08-06 | 中国民用航空飞行学院 | 综合交通运输体系下的中小机场选址布局方法 |
CN113222271B (zh) * | 2021-05-25 | 2022-06-17 | 中国民用航空飞行学院 | 综合交通运输体系下的中小机场选址布局方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109961085B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A hybrid CNN-LSTM model for typhoon formation forecasting | |
US10936906B2 (en) | Training data acquisition method and device, server and storage medium | |
CN106611052B (zh) | 文本标签的确定方法及装置 | |
CN105869401B (zh) | 一种基于不同拥挤程度的路网动态分区方法 | |
WO2020215783A1 (zh) | 定位方法、装置及存储介质 | |
CN105302882B (zh) | 获取关键词的方法及装置 | |
US20160357845A1 (en) | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium | |
CN102694800A (zh) | 网络安全态势预测的高斯过程回归方法 | |
CN104636449A (zh) | 基于lsa-gcc的分布式大数据系统风险识别方法 | |
CN104035779A (zh) | 一种数据流决策树分类中的缺失值处理方法 | |
AU2021101918A4 (en) | Method and system of fusion classification of rock spectral signature | |
CN108304974A (zh) | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 | |
CN114003721A (zh) | 矛盾纠纷事件类型分类模型的构建方法、装置及应用 | |
CN113379059B (zh) | 用于量子数据分类的模型训练方法以及量子数据分类方法 | |
CN109686402A (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN111950910B (zh) | 基于dbscan-ga的机场保障车辆任务调度方法 | |
CN110414624A (zh) | 基于多任务学习的分类模型构建方法及装置 | |
CN107527071A (zh) | 一种基于花朵授粉算法优化模糊k近邻的分类方法及装置 | |
CN109961085A (zh) | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 | |
Shum et al. | Large-scale community detection on speaker content graphs | |
CN108287928A (zh) | 一种基于局部加权线性回归的空间属性预测方法 | |
CN113284369B (zh) | 一种基于ads-b实测航路数据的预测方法 | |
CN114781704A (zh) | 一种基于过站航班保障流程的航班延误预测方法 | |
CN103218516A (zh) | 一种聚类再回归的机场噪声单步预测方法 | |
CN116739172A (zh) | 一种基于爬坡识别的海上风电功率超短期预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210727 |