CN110533095B - 一种基于改进随机森林的航班飞行风险行为识别方法 - Google Patents
一种基于改进随机森林的航班飞行风险行为识别方法 Download PDFInfo
- Publication number
- CN110533095B CN110533095B CN201910795235.7A CN201910795235A CN110533095B CN 110533095 B CN110533095 B CN 110533095B CN 201910795235 A CN201910795235 A CN 201910795235A CN 110533095 B CN110533095 B CN 110533095B
- Authority
- CN
- China
- Prior art keywords
- risk
- flight
- landing
- data set
- overrun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000010006 flight Effects 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012952 Resampling Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 23
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 101150049531 Qars1 gene Proteins 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于改进随机森林的航班飞行风险行为识别方法。其包括标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量;对特征向量进行降维与特征提取,得到最终特征向量;构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集;搭建基于改进随机森林的高风险超限事件识别模型;利用识别模型对改进后的高风险超限事件判定数据集中数据进行分类识别,并对未知风险事件进行二次甄别。本发明能准确识别起飞、着陆阶段常见的高风险超限事件;能够筛选出具有潜在飞行风险的航班供安全管理人员进行二次甄别,从而使飞行员可以更及时地改进技术动作,使管理人员更为从容地进行决策。
Description
技术领域
本发明属于航空运输安全大数据技术领域,具体涉及一种基于改进随机森林的航班飞行风险行为识别方法。
背景技术
随着中国民航机队规模的不断扩大,在未来二十年内中国将成为全球最大的民航市场。但是,随着航线密度的急剧增加,航空公司的日常运营复杂度会日益加大,同时也给飞行安全带来更大的考验。虽然目前航空器的可靠性已经有了较大提高,因机械原因导致的飞行事故已逐年减少,但是人为因素所导致的事故征候却居高不下,其中近九成事故发生在起飞、着陆阶段。
为了对航空器的飞行进行监控与管理,国内的客机上都装配了机载快速存取记录器(Quick access recorder,QAR),它能精确地记录飞行过程中的各类飞行数据。然而目前多数航空公司对飞行数据的应用局限于超限事件的分析,即计算特定的飞行数据是否超过既定阈值,一旦某个数据在特定飞行阶段超过阈值则会触发相应的超限事件。超限事件产生后,航空公司会对该事件进行深入分析并找到触发事件的不规范操作,进而避免类似风险的再次发生。然而,这种基于既定阈值的评估标准只能对事先规定了阈值的飞行事件进行监控,而对预防潜在而未知的飞行风险却无能为力。
近年来随着机器学习的深入发展,多元时间序列的分析成为一大热点,其中基于随机森林的方法因其识别精度高和计算时效性强而广受各行业的关注。QAR数据作为一种典型的多元时间序列同样适用该方法加以分析研究。相对于传统的超限事件分析法,该方法不仅可以识别已知的超限事件,还可以发现一部分具有潜在风险的飞行操作模式实现风险控制,这对于保障实际的飞行安全而言,具有很大的意义。但目前尚未发现有效的方法。
发明内容
为了解决上述问题,本发明的目的在于提出一种基于改进随机森林的航班飞行风险行为识别方法。
为了达到上述目的,本发明提供的基于改进随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤:
步骤1)标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量;
步骤2)对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取,得到起飞及着陆阶段的最终特征向量;
步骤3)根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集;
步骤4)搭建基于改进随机森林的高风险超限事件识别模型;
步骤5)利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别,并对未知风险事件进行二次甄别。
在步骤1)中,所述的标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量的方法是:
将机载QAR记录的每个架次航班每次飞行的完整原始QAR数据作为一个原始数据集;分别确定用于划分起飞阶段、着陆阶段的参考点,在起飞阶段,选取俯仰角数值发生阶跃变化的时间作为起飞参考点,然后从起飞参考点开始以固定1秒的间隔向前对原始QAR数据重新进行采样,将每一次的采样时间作为一个采样点,由这些采样数据构成起飞数据集;按照飞行技术手册,起飞阶段共计:T1=90个采样点;对于着陆阶段,选取刹车动作用点作为着陆参考点,然后以该点作为着陆阶段终点,并从该点开始以固定1秒的间隔向后对原始QAR数据重新进行采样,由这些采样数据构成着陆数据集;根据飞行技术手册,着陆阶段共计:T2=100个采样点;
完成上述步骤之后,起飞、着陆数据集中的数据均具有相同的帧长度,式(1)表示每个架次航班f起飞或着陆阶段在t时刻的特征向量:
在步骤2)中,所述的对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取,得到起飞及着陆阶段的最终特征向量的方法是:
采用基于主成分分析的递归特征消除法来加速选择最优特征,首先利用主成分分析法从每个架次航班起飞及着陆阶段的特征向量fv选择出具有原始QAR数据中90%方差的特征,这时起飞数据集中的特征维度从10620降低到107,着陆数据集中的特征维度从12700降低到115;特征维度大幅度降低后,利用递归特征消除法作为最优特征选择器来选取最优特征,过程分为以下三个步骤:(1)训练最优特征选择器中的特征分类器;(2)计算特征重要性排名;(3)删除排名分数最小的特征,最后使用10折交叉验证方法来确定出最优特征;经过上述处理后,起飞数据集中的特征维度从107降低到36,着陆数据集中的特征维度从115降低到48,分别得到每个架次航班起飞及着陆阶段的最终特征向量FV。
在步骤3)中,所述的根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集的方法是:
由起飞阶段中所有架次航班的最终特征向量FV构成起飞阶段的高风险超限事件判定数据集;由降落阶段所有架次航班的最终特征向量FV构成降落阶段的高风险超限事件判定数据集;
然后重点分析起飞、着陆阶段中最具风险的超限事件,最后选择出22个高风险超限事件;
在上述高风险超限事件判定数据集中将与上述所有高风险超限事件有关的高风险超限事件数据均标记为高风险性事件正样本,其余数据标记为高风险性事件负样本;
之后采用SMOTE算法对上述高风险超限事件判定数据集中的数据进行扩充,方法是根据样本密度分布在占比较少样本的周围生成并插入新的近似样本,由此获得改进后的高风险超限事件判定数据集。
在步骤4)中,所述的搭建基于改进随机森林的高风险超限事件识别模型的方法是:
构建识别模型时采用基于随机森林的高风险事件识别模型,在基于随机森林的高风险事件识别模型中,以决策树作为基本分类工具,将多个决策树的分类结果结合起来便得到了最终的分类结果。
在步骤5)中,所述的利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别,并对未知风险事件进行二次甄别的方法是:
将步骤3)获得的改进后的高风险超限事件判定数据集输入到步骤4)搭建的基于改进随机森林的高风险超限事件识别模型中,如果基于随机森林的高风险事件识别模型中的大多数决策树都认为某架次航班属于无风险航班,则最终识别结果为该架次航班无飞行风险;
当某架次航班被基于随机森林的高风险事件识别模型识别为异常模式,且该异常模式存在于航空公司超限事件监控列表中时,则最终识别结果为该架次航班具有飞行风险;
当该架次航班被基于随机森林的高风险事件识别模型识别为异常模式,但该异常模式尚不存在于航空公司超限事件监控列表中时,这时由飞行领域的安全管理人员对该架次航班进行二次甄别,以确认该架次航班是否存在潜在的飞行风险。
本发明提供的基于改进随机森林的航班飞行风险行为识别方法具有如下优点:能够准确识别起飞、着陆阶段常见的高风险超限事件;能够筛选出具有潜在飞行风险的航班供安全管理人员进行二次甄别,从而使飞行员可以更及时地改进技术动作,使管理人员更为从容地进行决策。
附图说明
图1为本发明提供的基于改进随机森林的航班飞行风险行为识别方法流程图。
图2为起飞阶段原始QAR数据重新标定与采样方式示意图。
图3为着陆阶段原始QAR数据重新标定与采样方式示意图。
图4为基于改进随机森林的高风险超限事件识别模型示意图。
图5为被识别出具有潜在着陆风险的航班数据图。
图6为被识别出具有潜在起飞风险的航班数据图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于改进随机森林的航班飞行风险行为识别方法进行详细说明。
如图1所示,本发明提供的基于改进随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤:
步骤1)标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量;
将机载QAR记录的每个架次航班每次飞行的完整原始QAR数据作为一个原始数据集。为了精确地对起飞阶段、着陆阶段的飞行数据进行分析,必须准确地将这两个飞行阶段的原始QAR数据从庞杂的原始QAR数据中提取出来。此外,由于原始QAR数据集中的航班每次飞行的起降机场各异、飞行时长也不尽相同,这可能导致不同机载QAR记录的原始QAR数据的帧长度不一致。
为了能将不同航班的飞行数据直观地进行比较,本发明分别确定了用于划分上述两个飞行阶段的参考点。在起飞阶段,选取俯仰角数值发生阶跃变化的时间作为起飞参考点(take-offpoint),然后从起飞参考点开始以固定1秒的间隔向前对原始QAR数据重新进行采样,将每一次的采样时间作为一个采样点,由这些采样数据构成起飞数据集。按照飞行技术手册,起飞阶段共计:T1=90个采样点,如图2所示;对于着陆阶段,选取刹车动作用点作为着陆参考点(touchdownpoint),然后以该点作为着陆阶段终点,并从该点开始以固定1秒的间隔向后对原始QAR数据重新进行采样,由这些采样数据构成着陆数据集。根据飞行技术手册,着陆阶段共计:T2=100个采样点,如图3所示。
完成上述步骤之后,起飞、着陆数据集中的数据均具有相同的帧长度,式(1)表示每个架次航班f起飞或着陆阶段在t时刻的特征向量:
步骤2)对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取,得到起飞及着陆阶段的最终特征向量;
从高维数据中提取关键特征是本发明中的一个重要环节,它不仅降低了计算复杂度也提高了下述模型的准确性。作为典型的高维多变量时间序列,上述每个架次航班起飞及着陆阶段的特征向量fv仍然有上万维。根据飞行安全专家意见,起飞、着陆阶段分别共有118与127个重要数据,即关键特征,因而起飞数据集中的特征维度为10620(118*90),着陆数据集中的特征维度为12700(127*100),所以必须引入一种优化的特征选择方法来筛选出每个架次航班起飞及着陆阶段的特征向量fv中的最优特征。
本发明采用基于主成分分析的递归特征消除法(PCA-RFE)来加速选择最优特征。首先利用主成分分析法(PCA)从每个架次航班起飞及着陆阶段的特征向量fv选择出具有原始QAR数据中90%方差的特征,这时起飞数据集中的特征维度从10620降低到107,着陆数据集中的特征维度从12700降低到115。特征维度大幅度降低后,利用递归特征消除法(RFE)作为最优特征选择器来选取最优特征,过程分为以下三个步骤:(1)训练最优特征选择器中的特征分类器;(2)计算特征重要性排名;(3)删除排名分数最小的特征,最后使用10折交叉验证方法来确定出最优特征。经过PCA-RFE处理后,起飞数据集中的特征维度从107降低到36,着陆数据集中的特征维度从115降低到48,分别得到每个架次航班起飞及着陆阶段的最终特征向量FV。
步骤3)根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集;
航班飞行安全是内外部因素综合作用的结果,例如飞行员的基本驾驶技能是否过硬、机组人员的搭配是否得当、气象条件好坏、飞机维修状况等均会影响航班的飞行安全。然而无论影响因素如何变化,最终都会以飞行姿态和运动参数的变化而体现出来。
由起飞阶段中所有架次航班的最终特征向量FV构成起飞阶段的高风险超限事件判定数据集;由降落阶段所有架次航班的最终特征向量FV构成降落阶段的高风险超限事件判定数据集;
在飞行教员和民航安全员的技术指导下,本发明人重点分析了起飞、着陆阶段中最具风险的超限事件,最后选择出22个高风险超限事件,如表1所示。
表1
本发明中所指的高风险超限事件数据具体包含以下两种情况:
1、已经存在于航空公司超限事件监控列表中的高风险行为模式。
2、尚不存在于航空公司超限事件监控列表中,但是可能包含未知的潜在高风险模式。
在本发明中,在上述高风险超限事件判定数据集中将与表1中所有高风险超限事件有关的高风险超限事件数据均标记为高风险性事件正样本,其余数据标记为高风险性事件负样本。
按照步骤3)中的准则分析原始QAR数据集中的数据后,发现高风险超限事件数据在总事件数据中的占比仅为5%左右,因此上述高风险超限事件判定数据集属于典型的非平衡数据集。如果在非平衡数据集下对下述构建的模型进行训练,模型的分类将更加偏向于大数量的类别。为了克服这个问题,本发明采用SMOTE算法对上述高风险超限事件判定数据集中的数据进行扩充,方法是根据样本密度分布在占比较少样本的周围生成并插入新的近似样本,由此获得改进后的高风险超限事件判定数据集,因而极大地改善了过拟合的情况,使改进后的高风险超限事件判定数据集达到了预期的平衡比率。
步骤4)搭建基于改进随机森林的高风险超限事件识别模型;
本发明在构建识别模型时采用了鲁棒性强大的基于随机森林的高风险事件识别模型,该模型具有识别准确、运算快速的优点。如图4所示,在基于随机森林的高风险事件识别模型中,以决策树作为基本分类工具,将多个决策树的分类结果结合起来便得到了最终的分类结果。
步骤5)利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别,并对未知风险事件进行二次甄别;
将步骤3)获得的改进后的高风险超限事件判定数据集输入到步骤4)搭建的基于改进随机森林的高风险超限事件识别模型中,如果基于随机森林的高风险事件识别模型中的大多数决策树都认为某架次航班属于无风险航班,则最终识别结果为该架次航班无飞行风险;
当某架次航班被基于随机森林的高风险事件识别模型识别为异常模式,且该异常模式存在于航空公司超限事件监控列表中时,则最终识别结果为该架次航班具有飞行风险;
当该架次航班被基于随机森林的高风险事件识别模型识别为异常模式,但该异常模式尚不存在于航空公司超限事件监控列表中时,这时由飞行领域的安全管理人员对该架次航班进行二次甄别,以确认该架次航班是否存在潜在的飞行风险。
为了验证本发明方法的效果,本发明人进行了如下实验:
非平衡数据集的评估主要关注四个指标:灵敏度(sensitivity)也叫真阳性率,即实际异常数据的样本被识别为异常模式的比例,反映了模型发现异常模式的能力;特异度(specificity)也叫真阴性率,即实际正常数据的样本被识别为正常模式的比例,反映了模型明辨正常模式的能力;假阳性率,即指被识别为异常数据其实是正常数据的比例。以真阳性率(TPR)为纵坐标,以假阳性率(FPR)为横坐标,绘制出识别模型的ROC曲线,识别模型效果越好则ROC曲线应尽可能靠近左上角。
同时识别模型也可以根据ROC曲线下的面积(AUC)作为评价指标来进行评估,如果一个识别模型优于另一个识别模型,则其AUC数值较大。由于AUC不偏向任何类别,因此可反映出识别模型的总体性能。在下面的实验中,本发明人选择灵敏度、特异度和AUC作为上述基于随机森林的高风险事件识别模型的评价指标。分别将高风险超限事件判定数据集和改进后的高风险超限事件判定数据集输入到基于随机森林的高风险事件识别模型中进行分类识别,结果如表2所示。
表2
可以明显看出,改进后的高风险超限事件判定数据集与高风险超限事件判定数据集相比,降低了正负样本之间的数量差异,提高了基于随机森林的高风险事件识别模型的分类性能,尤其是对小数量样本的检测精度。虽然相比高风险超限事件判定数据集的特异度略有下降,但基于随机森林的高风险事件识别模型的灵敏度显著增加,AUC值也有了明显提高。
如图5所示,本发明提供的基于随机森林的高风险事件识别模型获得了良好的ROC曲线,起飞阶段的AUC达到0.95,着陆阶段的AUC达到0.96,这意味着本发明方法首先具备了在实际操作中准确识别高风险超限事件的能力。其次,有少数尚不存在于航空公司超限事件监控列表中却被预测为高风险模式的事件,在由安全管理人员进行了二次甄别后还是发现了这类事件的潜在风险模式,说明本发明方法可以发现潜在的飞行风险,举例分析如下。
如图5、图6所示,曲线1表示异常航班的飞行参数。带2代表处于所有飞行数据的25到75百分位数区间;带3包含了所有数据的5到95百分位数区间。即50%的飞行数据处在带2中,而90%的数据处在带3中。
图5为被识别出具有潜在着陆风险的航班A数据图。安全管理人员认为该航班存在操作异常。在着陆期间,该航班的推力远高于大多数航班且呈现不稳定状态;其俯仰角持续出现大幅波动,垂直速度甚至超过1000英尺/分,严重时可能导致飞机起落架受损并造成人员伤亡。安全管理人员总结认为,该架次航班的着陆操作不符合稳定进近标准,然而机组没有选择复飞操作,是一种典型的存在潜在风险的不稳定进近着陆。
图5为被识别出具有潜在起飞风险的航班B数据图。安全管理人员认为该航班飞行员驾驶风格过于激进,因而存在风险。可以看到,该航班的襟翼角度与其他大多数航班相近,但是由于起飞时飞行员就维持了高推力、大俯仰角,这导致起飞阶段能量过高。虽然后来飞行员在45秒左右开始大力回收油门推力,但是飞机的高度曲线较多数航班仍然居高不下。安全管理人员总结认为,推力和俯仰的频繁操作使得垂直速度变化过大,极大地影响了飞行安全,是一种典型的高能量起飞模式,可导致潜在的严重后果。
实验表明,本发明可以利用机器学习对已知的高风险超限事件进行准确的分类识别,同时也能挖掘到潜在的飞行风险模式,极大地提高了业界识别飞行风险的效率。初步评估表明,本发明方法在航空运输安全领域具有较大前景,并且随着数据集中样本数量的增加,识别的准确性将得到进一步提高。
Claims (5)
1.一种基于随机森林的航班飞行风险行为识别方法,其特征在于:所述的基于随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤:
步骤1)标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量;
步骤2)对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取,得到起飞及着陆阶段的最终特征向量;
步骤3)根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集;
步骤4)搭建基于随机森林的高风险超限事件识别模型;
步骤5)利用上述基于随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别,并对未知风险事件进行二次甄别;
在步骤3)中,所述的根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进,获得改进后的高风险超限事件判定数据集的方法是:
由起飞阶段中所有架次航班的最终特征向量FV构成起飞阶段的高风险超限事件判定数据集;由降落阶段所有架次航班的最终特征向量FV构成降落阶段的高风险超限事件判定数据集;
然后分析起飞、着陆阶段中最具风险的超限事件,最后选择出22个高风险超限事件;
在上述高风险超限事件判定数据集中将与上述所有高风险超限事件有关的高风险超限事件数据均标记为高风险性事件正样本,其余数据标记为高风险性事件负样本;
之后采用SMOTE算法对上述高风险超限事件判定数据集中的数据进行扩充,方法是根据样本密度分布在占比较少样本的周围生成并插入新的近似样本,由此获得改进后的高风险超限事件判定数据集。
2.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法,其特征在于:在步骤1)中,所述的标定原始QAR数据并重新采样,获得每个架次航班起飞及着陆阶段的特征向量的方法是:
将机载QAR记录的每个架次航班每次飞行的完整原始QAR数据作为一个原始数据集;分别确定用于划分起飞阶段、着陆阶段的参考点,在起飞阶段,选取俯仰角数值发生阶跃变化的时间作为起飞参考点,然后从起飞参考点开始以固定1秒的间隔向前对原始QAR数据重新进行采样,将每一次的采样时间作为一个采样点,由这些采样数据构成起飞数据集;按照飞行技术手册,起飞阶段共计:T1=90个采样点;对于着陆阶段,选取刹车动作用点作为着陆参考点,然后以该点作为着陆阶段终点,并从该点开始以固定1秒的间隔向后对原始QAR数据重新进行采样,由这些采样数据构成着陆数据集;根据飞行技术手册,着陆阶段共计:T2=100个采样点;
完成上述步骤之后,起飞、着陆数据集中的数据均具有相同的帧长度,式(1)表示每个架次航班f起飞或着陆阶段在t时刻的特征向量:
3.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法,其特征在于:在步骤2)中,所述的对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取,得到起飞及着陆阶段的最终特征向量的方法是:
采用基于主成分分析的递归特征消除法来加速选择最优特征,首先利用主成分分析法从每个架次航班起飞及着陆阶段的特征向量fv选择出具有原始QAR数据中90%方差的特征,这时起飞数据集中的特征维度从10620降低到107,着陆数据集中的特征维度从12700降低到115;特征维度大幅度降低后,利用递归特征消除法作为最优特征选择器来选取最优特征,过程分为以下三个步骤:(1)训练最优特征选择器中的特征分类器;(2)计算特征重要性排名;(3)删除排名分数最小的特征,最后使用10折交叉验证方法来确定出最优特征;经过上述处理后,起飞数据集中的特征维度从107降低到36,着陆数据集中的特征维度从115降低到48,分别得到每个架次航班起飞及着陆阶段的最终特征向量FV。
4.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法,其特征在于:在步骤4)中,所述的搭建基于随机森林的高风险超限事件识别模型的方法是:
构建识别模型时采用基于随机森林的高风险事件识别模型,在基于随机森林的高风险事件识别模型中,以决策树作为基本分类工具,将多个决策树的分类结果结合起来便得到了最终的分类结果。
5.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法,其特征在于:在步骤5)中,所述的利用上述基于随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别,并对未知风险事件进行二次甄别的方法是:
将步骤3)获得的改进后的高风险超限事件判定数据集输入到步骤4)搭建的基于随机森林的高风险超限事件识别模型中,如果基于随机森林的高风险事件识别模型中的大多数决策树都认为某架次航班属于无风险航班,则最终识别结果为该架次航班无飞行风险;
当某架次航班被基于随机森林的高风险事件识别模型识别为异常模式,且该异常模式存在于航空公司超限事件监控列表中时,则最终识别结果为该架次航班具有飞行风险;
当该架次航班被基于随机森林的高风险事件识别模型识别为异常模式,但该异常模式尚不存在于航空公司超限事件监控列表中时,这时由飞行领域的安全管理人员对该架次航班进行二次甄别,以确认该架次航班是否存在潜在的飞行风险。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910795235.7A CN110533095B (zh) | 2019-08-27 | 2019-08-27 | 一种基于改进随机森林的航班飞行风险行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910795235.7A CN110533095B (zh) | 2019-08-27 | 2019-08-27 | 一种基于改进随机森林的航班飞行风险行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110533095A CN110533095A (zh) | 2019-12-03 |
CN110533095B true CN110533095B (zh) | 2023-01-17 |
Family
ID=68664487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910795235.7A Expired - Fee Related CN110533095B (zh) | 2019-08-27 | 2019-08-27 | 一种基于改进随机森林的航班飞行风险行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533095B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210668B (zh) * | 2019-12-30 | 2022-02-15 | 四川函钛科技有限公司 | 一种基于时序qar参数的着陆阶段飞行轨迹偏移修正方法 |
CN111125924B (zh) * | 2019-12-30 | 2023-04-11 | 四川函钛科技有限公司 | 基于qar参数特征提取的飞机着陆自动减速档位识别方法 |
CN111552921A (zh) * | 2020-04-15 | 2020-08-18 | 成都飞机工业(集团)有限责任公司 | 一种用于异常检测的飞行数据预处理方法 |
CN111626327A (zh) * | 2020-04-15 | 2020-09-04 | 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) | 飞机重着陆预测方法、装置、计算机设备及存储介质 |
CN111861667A (zh) * | 2020-07-21 | 2020-10-30 | 上海仙豆智能机器人有限公司 | 车辆推荐方法及装置、电子设备、存储介质 |
CN111829425B (zh) * | 2020-08-06 | 2022-05-24 | 厦门航空有限公司 | 民机前缘位置传感器的健康监测方法及系统 |
CN113919186B (zh) * | 2021-12-14 | 2022-03-18 | 中国民航大学 | 基于事件树的飞行超限事件综合后果严重性的计算方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127407A (zh) * | 2016-07-01 | 2016-11-16 | 中国民航管理干部学院 | 基于多传感器信息融合的飞机行程打分方法及打分系统 |
CN106548294A (zh) * | 2016-11-11 | 2017-03-29 | 中国民航大学 | 一种基于飞行数据的着陆操作绩效评价方法及装置 |
CN106570302A (zh) * | 2016-11-15 | 2017-04-19 | 北京大学 | 民用机场地形特征对飞行超限事件影响的分析方法 |
CN106651088A (zh) * | 2016-08-15 | 2017-05-10 | 中国民航科学技术研究院 | 一种基于时态gis的飞行品质监控方法 |
CN107045638A (zh) * | 2016-12-30 | 2017-08-15 | 中国民航管理干部学院 | 一种基于情景意识模型的飞行安全事件分析方法 |
CN108417096A (zh) * | 2018-02-01 | 2018-08-17 | 四川九洲电器集团有限责任公司 | 一种飞行状态评估方法及系统 |
CN108711005A (zh) * | 2018-05-14 | 2018-10-26 | 重庆大学 | 基于qar数据与贝叶斯网络的飞行风险分析方法 |
CN108769133A (zh) * | 2018-05-04 | 2018-11-06 | 珠海市筑巢科技有限公司 | 一种基于区块链的飞行数据共享方法、计算机装置及计算机可读存储介质 |
-
2019
- 2019-08-27 CN CN201910795235.7A patent/CN110533095B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127407A (zh) * | 2016-07-01 | 2016-11-16 | 中国民航管理干部学院 | 基于多传感器信息融合的飞机行程打分方法及打分系统 |
CN106651088A (zh) * | 2016-08-15 | 2017-05-10 | 中国民航科学技术研究院 | 一种基于时态gis的飞行品质监控方法 |
CN106548294A (zh) * | 2016-11-11 | 2017-03-29 | 中国民航大学 | 一种基于飞行数据的着陆操作绩效评价方法及装置 |
CN106570302A (zh) * | 2016-11-15 | 2017-04-19 | 北京大学 | 民用机场地形特征对飞行超限事件影响的分析方法 |
CN107045638A (zh) * | 2016-12-30 | 2017-08-15 | 中国民航管理干部学院 | 一种基于情景意识模型的飞行安全事件分析方法 |
CN108417096A (zh) * | 2018-02-01 | 2018-08-17 | 四川九洲电器集团有限责任公司 | 一种飞行状态评估方法及系统 |
CN108769133A (zh) * | 2018-05-04 | 2018-11-06 | 珠海市筑巢科技有限公司 | 一种基于区块链的飞行数据共享方法、计算机装置及计算机可读存储介质 |
CN108711005A (zh) * | 2018-05-14 | 2018-10-26 | 重庆大学 | 基于qar数据与贝叶斯网络的飞行风险分析方法 |
Non-Patent Citations (2)
Title |
---|
利用机器学习预测QAR严重超限事件的分析模型;李孟格;《民航学报》;20180731;第2卷(第4期);全文 * |
基于PCA—SMOTE一随机森林的;桂州;《桂林理工大学学报》;20171130;第37卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110533095A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533095B (zh) | 一种基于改进随机森林的航班飞行风险行为识别方法 | |
Sheridan et al. | An application of dbscan clustering for flight anomaly detection during the approach phase | |
CN103080954B (zh) | 用于分析飞行器飞行期间所记录的飞行数据的方法和系统 | |
CN113486938B (zh) | 基于多分支时间卷积网络的重着陆的分析方法和装置 | |
Ackley et al. | A supervised learning approach for safety event precursor identification in commercial aviation | |
CN107463161A (zh) | 预测飞行器中的故障的方法和系统以及监控系统 | |
Mangortey et al. | Application of machine learning techniques to parameter selection for flight risk identification | |
CN113128342B (zh) | 航迹数据预处理方法及空中目标识别方法 | |
Smart et al. | A two-phase method of detecting abnormalities in aircraft flight data and ranking their impact on individual flights | |
CN114004292B (zh) | 基于飞参数据无监督聚类的飞行员平飘顶杆行为分析方法 | |
CN111160612A (zh) | 一种基于天气影响的离场航班延误分析及预测方法 | |
Fernández et al. | Flight data monitoring (FDM) unknown hazards detection during approach phase using clustering techniques and AutoEncoders | |
Christopher et al. | Prediction of warning level in aircraft accidents using data mining techniques | |
US6480770B1 (en) | Par system for analyzing aircraft flight data | |
Martınez et al. | Forecasting unstable approaches with boosting frameworks and lstm networks | |
US7206674B1 (en) | Information display system for atypical flight phase | |
Chin et al. | Phases of flight identification for rotorcraft operations | |
CN113284369A (zh) | 一种基于ads-b实测航路数据的预测方法 | |
CN115457414A (zh) | 一种基于改进残差网络的无人机异常行为识别方法 | |
Bleu-Laine et al. | Predicting adverse events and their precursors in aviation using multi-class multiple-instance learning | |
CN116415818B (zh) | 基于聚类算法的飞机进近阶段风险点确认方法和系统 | |
CN115293225B (zh) | 飞行员平飘顶杆成因分析方法和装置 | |
Jasra et al. | Literature review of machine learning techniques to analyse flight data | |
CN104463137A (zh) | 基于特征空间分裂的异常人脸图像检测方法及系统 | |
CN113919689A (zh) | 一种基于qar数据的飞行员操作操作性能评分方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230117 |