CN110533095B

CN110533095B - 一种基于改进随机森林的航班飞行风险行为识别方法

Info

Publication number: CN110533095B
Application number: CN201910795235.7A
Authority: CN
Inventors: 张海刚; 李俊辰
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-01-17
Anticipated expiration: 2039-08-27
Also published as: CN110533095A

Abstract

一种基于改进随机森林的航班飞行风险行为识别方法。其包括标定原始QAR数据并重新采样，获得每个架次航班起飞及着陆阶段的特征向量；对特征向量进行降维与特征提取，得到最终特征向量；构建起飞、降落阶段的高风险超限事件判定数据集并进行改进，获得改进后的高风险超限事件判定数据集；搭建基于改进随机森林的高风险超限事件识别模型；利用识别模型对改进后的高风险超限事件判定数据集中数据进行分类识别，并对未知风险事件进行二次甄别。本发明能准确识别起飞、着陆阶段常见的高风险超限事件；能够筛选出具有潜在飞行风险的航班供安全管理人员进行二次甄别,从而使飞行员可以更及时地改进技术动作,使管理人员更为从容地进行决策。

Description

一种基于改进随机森林的航班飞行风险行为识别方法

技术领域

本发明属于航空运输安全大数据技术领域，具体涉及一种基于改进随机森林的航班飞行风险行为识别方法。

背景技术

随着中国民航机队规模的不断扩大，在未来二十年内中国将成为全球最大的民航市场。但是，随着航线密度的急剧增加，航空公司的日常运营复杂度会日益加大，同时也给飞行安全带来更大的考验。虽然目前航空器的可靠性已经有了较大提高，因机械原因导致的飞行事故已逐年减少，但是人为因素所导致的事故征候却居高不下，其中近九成事故发生在起飞、着陆阶段。

为了对航空器的飞行进行监控与管理，国内的客机上都装配了机载快速存取记录器(Quick access recorder，QAR)，它能精确地记录飞行过程中的各类飞行数据。然而目前多数航空公司对飞行数据的应用局限于超限事件的分析，即计算特定的飞行数据是否超过既定阈值,一旦某个数据在特定飞行阶段超过阈值则会触发相应的超限事件。超限事件产生后，航空公司会对该事件进行深入分析并找到触发事件的不规范操作，进而避免类似风险的再次发生。然而，这种基于既定阈值的评估标准只能对事先规定了阈值的飞行事件进行监控，而对预防潜在而未知的飞行风险却无能为力。

近年来随着机器学习的深入发展，多元时间序列的分析成为一大热点，其中基于随机森林的方法因其识别精度高和计算时效性强而广受各行业的关注。QAR数据作为一种典型的多元时间序列同样适用该方法加以分析研究。相对于传统的超限事件分析法，该方法不仅可以识别已知的超限事件，还可以发现一部分具有潜在风险的飞行操作模式实现风险控制，这对于保障实际的飞行安全而言，具有很大的意义。但目前尚未发现有效的方法。

发明内容

为了解决上述问题，本发明的目的在于提出一种基于改进随机森林的航班飞行风险行为识别方法。

为了达到上述目的，本发明提供的基于改进随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤：

步骤1)标定原始QAR数据并重新采样，获得每个架次航班起飞及着陆阶段的特征向量；

步骤2)对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取，得到起飞及着陆阶段的最终特征向量；

步骤3)根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进，获得改进后的高风险超限事件判定数据集；

步骤4)搭建基于改进随机森林的高风险超限事件识别模型；

步骤5)利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别，并对未知风险事件进行二次甄别。

在步骤1)中，所述的标定原始QAR数据并重新采样，获得每个架次航班起飞及着陆阶段的特征向量的方法是：

将机载QAR记录的每个架次航班每次飞行的完整原始QAR数据作为一个原始数据集；分别确定用于划分起飞阶段、着陆阶段的参考点，在起飞阶段，选取俯仰角数值发生阶跃变化的时间作为起飞参考点，然后从起飞参考点开始以固定1秒的间隔向前对原始QAR数据重新进行采样，将每一次的采样时间作为一个采样点，由这些采样数据构成起飞数据集；按照飞行技术手册，起飞阶段共计:T1＝90个采样点；对于着陆阶段，选取刹车动作用点作为着陆参考点，然后以该点作为着陆阶段终点，并从该点开始以固定1秒的间隔向后对原始QAR数据重新进行采样，由这些采样数据构成着陆数据集；根据飞行技术手册，着陆阶段共计:T2＝100个采样点；

完成上述步骤之后，起飞、着陆数据集中的数据均具有相同的帧长度，式(1)表示每个架次航班f起飞或着陆阶段在t时刻的特征向量：

其中

表示第p个飞行数据在t时刻的数值，并作为一个特征；

又因为原始QAR数据中存在大量不同类型以及不同单位的数据，因此上述特征必须采用标准化后拥有均值为0、方差为1的形式

这时每个架次航班起飞及着陆阶段的特征向量fv如式(2)所示：

在步骤2)中，所述的对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取，得到起飞及着陆阶段的最终特征向量的方法是：

采用基于主成分分析的递归特征消除法来加速选择最优特征，首先利用主成分分析法从每个架次航班起飞及着陆阶段的特征向量fv选择出具有原始QAR数据中90％方差的特征，这时起飞数据集中的特征维度从10620降低到107，着陆数据集中的特征维度从12700降低到115；特征维度大幅度降低后，利用递归特征消除法作为最优特征选择器来选取最优特征，过程分为以下三个步骤：(1)训练最优特征选择器中的特征分类器；(2)计算特征重要性排名；(3)删除排名分数最小的特征，最后使用10折交叉验证方法来确定出最优特征；经过上述处理后，起飞数据集中的特征维度从107降低到36，着陆数据集中的特征维度从115降低到48，分别得到每个架次航班起飞及着陆阶段的最终特征向量FV。

在步骤3)中，所述的根据上述起飞及着陆阶段的最终特征向量构建起飞、降落阶段的高风险超限事件判定数据集并进行改进，获得改进后的高风险超限事件判定数据集的方法是：

由起飞阶段中所有架次航班的最终特征向量FV构成起飞阶段的高风险超限事件判定数据集；由降落阶段所有架次航班的最终特征向量FV构成降落阶段的高风险超限事件判定数据集；

然后重点分析起飞、着陆阶段中最具风险的超限事件，最后选择出22个高风险超限事件；

在上述高风险超限事件判定数据集中将与上述所有高风险超限事件有关的高风险超限事件数据均标记为高风险性事件正样本，其余数据标记为高风险性事件负样本；

之后采用SMOTE算法对上述高风险超限事件判定数据集中的数据进行扩充，方法是根据样本密度分布在占比较少样本的周围生成并插入新的近似样本，由此获得改进后的高风险超限事件判定数据集。

在步骤4)中，所述的搭建基于改进随机森林的高风险超限事件识别模型的方法是：

构建识别模型时采用基于随机森林的高风险事件识别模型，在基于随机森林的高风险事件识别模型中，以决策树作为基本分类工具，将多个决策树的分类结果结合起来便得到了最终的分类结果。

在步骤5)中，所述的利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别，并对未知风险事件进行二次甄别的方法是：

将步骤3)获得的改进后的高风险超限事件判定数据集输入到步骤4)搭建的基于改进随机森林的高风险超限事件识别模型中，如果基于随机森林的高风险事件识别模型中的大多数决策树都认为某架次航班属于无风险航班，则最终识别结果为该架次航班无飞行风险；

当某架次航班被基于随机森林的高风险事件识别模型识别为异常模式，且该异常模式存在于航空公司超限事件监控列表中时，则最终识别结果为该架次航班具有飞行风险；

当该架次航班被基于随机森林的高风险事件识别模型识别为异常模式，但该异常模式尚不存在于航空公司超限事件监控列表中时，这时由飞行领域的安全管理人员对该架次航班进行二次甄别，以确认该架次航班是否存在潜在的飞行风险。

本发明提供的基于改进随机森林的航班飞行风险行为识别方法具有如下优点：能够准确识别起飞、着陆阶段常见的高风险超限事件；能够筛选出具有潜在飞行风险的航班供安全管理人员进行二次甄别,从而使飞行员可以更及时地改进技术动作,使管理人员更为从容地进行决策。

附图说明

图1为本发明提供的基于改进随机森林的航班飞行风险行为识别方法流程图。

图2为起飞阶段原始QAR数据重新标定与采样方式示意图。

图3为着陆阶段原始QAR数据重新标定与采样方式示意图。

图4为基于改进随机森林的高风险超限事件识别模型示意图。

图5为被识别出具有潜在着陆风险的航班数据图。

图6为被识别出具有潜在起飞风险的航班数据图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于改进随机森林的航班飞行风险行为识别方法进行详细说明。

如图1所示，本发明提供的基于改进随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤：

将机载QAR记录的每个架次航班每次飞行的完整原始QAR数据作为一个原始数据集。为了精确地对起飞阶段、着陆阶段的飞行数据进行分析，必须准确地将这两个飞行阶段的原始QAR数据从庞杂的原始QAR数据中提取出来。此外，由于原始QAR数据集中的航班每次飞行的起降机场各异、飞行时长也不尽相同，这可能导致不同机载QAR记录的原始QAR数据的帧长度不一致。

为了能将不同航班的飞行数据直观地进行比较，本发明分别确定了用于划分上述两个飞行阶段的参考点。在起飞阶段，选取俯仰角数值发生阶跃变化的时间作为起飞参考点(take-offpoint)，然后从起飞参考点开始以固定1秒的间隔向前对原始QAR数据重新进行采样，将每一次的采样时间作为一个采样点，由这些采样数据构成起飞数据集。按照飞行技术手册，起飞阶段共计:T1＝90个采样点，如图2所示；对于着陆阶段，选取刹车动作用点作为着陆参考点(touchdownpoint)，然后以该点作为着陆阶段终点，并从该点开始以固定1秒的间隔向后对原始QAR数据重新进行采样，由这些采样数据构成着陆数据集。根据飞行技术手册，着陆阶段共计:T2＝100个采样点，如图3所示。

其中

表示第p个飞行数据在t时刻的数值，并作为一个特征。

从高维数据中提取关键特征是本发明中的一个重要环节，它不仅降低了计算复杂度也提高了下述模型的准确性。作为典型的高维多变量时间序列，上述每个架次航班起飞及着陆阶段的特征向量fv仍然有上万维。根据飞行安全专家意见，起飞、着陆阶段分别共有118与127个重要数据，即关键特征，因而起飞数据集中的特征维度为10620(118*90)，着陆数据集中的特征维度为12700(127*100)，所以必须引入一种优化的特征选择方法来筛选出每个架次航班起飞及着陆阶段的特征向量fv中的最优特征。

本发明采用基于主成分分析的递归特征消除法(PCA-RFE)来加速选择最优特征。首先利用主成分分析法(PCA)从每个架次航班起飞及着陆阶段的特征向量fv选择出具有原始QAR数据中90％方差的特征，这时起飞数据集中的特征维度从10620降低到107，着陆数据集中的特征维度从12700降低到115。特征维度大幅度降低后，利用递归特征消除法(RFE)作为最优特征选择器来选取最优特征，过程分为以下三个步骤：(1)训练最优特征选择器中的特征分类器；(2)计算特征重要性排名；(3)删除排名分数最小的特征，最后使用10折交叉验证方法来确定出最优特征。经过PCA-RFE处理后，起飞数据集中的特征维度从107降低到36，着陆数据集中的特征维度从115降低到48，分别得到每个架次航班起飞及着陆阶段的最终特征向量FV。

航班飞行安全是内外部因素综合作用的结果，例如飞行员的基本驾驶技能是否过硬、机组人员的搭配是否得当、气象条件好坏、飞机维修状况等均会影响航班的飞行安全。然而无论影响因素如何变化，最终都会以飞行姿态和运动参数的变化而体现出来。

在飞行教员和民航安全员的技术指导下，本发明人重点分析了起飞、着陆阶段中最具风险的超限事件，最后选择出22个高风险超限事件，如表1所示。

表1

本发明中所指的高风险超限事件数据具体包含以下两种情况：

1、已经存在于航空公司超限事件监控列表中的高风险行为模式。

2、尚不存在于航空公司超限事件监控列表中，但是可能包含未知的潜在高风险模式。

在本发明中，在上述高风险超限事件判定数据集中将与表1中所有高风险超限事件有关的高风险超限事件数据均标记为高风险性事件正样本，其余数据标记为高风险性事件负样本。

按照步骤3)中的准则分析原始QAR数据集中的数据后，发现高风险超限事件数据在总事件数据中的占比仅为5％左右，因此上述高风险超限事件判定数据集属于典型的非平衡数据集。如果在非平衡数据集下对下述构建的模型进行训练，模型的分类将更加偏向于大数量的类别。为了克服这个问题，本发明采用SMOTE算法对上述高风险超限事件判定数据集中的数据进行扩充，方法是根据样本密度分布在占比较少样本的周围生成并插入新的近似样本，由此获得改进后的高风险超限事件判定数据集，因而极大地改善了过拟合的情况，使改进后的高风险超限事件判定数据集达到了预期的平衡比率。

步骤4)搭建基于改进随机森林的高风险超限事件识别模型；

本发明在构建识别模型时采用了鲁棒性强大的基于随机森林的高风险事件识别模型，该模型具有识别准确、运算快速的优点。如图4所示，在基于随机森林的高风险事件识别模型中，以决策树作为基本分类工具，将多个决策树的分类结果结合起来便得到了最终的分类结果。

步骤5)利用上述基于改进随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别，并对未知风险事件进行二次甄别；

为了验证本发明方法的效果，本发明人进行了如下实验：

非平衡数据集的评估主要关注四个指标：灵敏度(sensitivity)也叫真阳性率，即实际异常数据的样本被识别为异常模式的比例，反映了模型发现异常模式的能力；特异度(specificity)也叫真阴性率，即实际正常数据的样本被识别为正常模式的比例，反映了模型明辨正常模式的能力；假阳性率，即指被识别为异常数据其实是正常数据的比例。以真阳性率(TPR)为纵坐标，以假阳性率(FPR)为横坐标，绘制出识别模型的ROC曲线，识别模型效果越好则ROC曲线应尽可能靠近左上角。

同时识别模型也可以根据ROC曲线下的面积(AUC)作为评价指标来进行评估，如果一个识别模型优于另一个识别模型，则其AUC数值较大。由于AUC不偏向任何类别，因此可反映出识别模型的总体性能。在下面的实验中，本发明人选择灵敏度、特异度和AUC作为上述基于随机森林的高风险事件识别模型的评价指标。分别将高风险超限事件判定数据集和改进后的高风险超限事件判定数据集输入到基于随机森林的高风险事件识别模型中进行分类识别，结果如表2所示。

表2

可以明显看出，改进后的高风险超限事件判定数据集与高风险超限事件判定数据集相比，降低了正负样本之间的数量差异，提高了基于随机森林的高风险事件识别模型的分类性能，尤其是对小数量样本的检测精度。虽然相比高风险超限事件判定数据集的特异度略有下降，但基于随机森林的高风险事件识别模型的灵敏度显著增加，AUC值也有了明显提高。

如图5所示，本发明提供的基于随机森林的高风险事件识别模型获得了良好的ROC曲线，起飞阶段的AUC达到0.95，着陆阶段的AUC达到0.96，这意味着本发明方法首先具备了在实际操作中准确识别高风险超限事件的能力。其次，有少数尚不存在于航空公司超限事件监控列表中却被预测为高风险模式的事件，在由安全管理人员进行了二次甄别后还是发现了这类事件的潜在风险模式，说明本发明方法可以发现潜在的飞行风险，举例分析如下。

如图5、图6所示，曲线1表示异常航班的飞行参数。带2代表处于所有飞行数据的25到75百分位数区间；带3包含了所有数据的5到95百分位数区间。即50％的飞行数据处在带2中，而90％的数据处在带3中。

图5为被识别出具有潜在着陆风险的航班A数据图。安全管理人员认为该航班存在操作异常。在着陆期间，该航班的推力远高于大多数航班且呈现不稳定状态；其俯仰角持续出现大幅波动，垂直速度甚至超过1000英尺/分，严重时可能导致飞机起落架受损并造成人员伤亡。安全管理人员总结认为，该架次航班的着陆操作不符合稳定进近标准，然而机组没有选择复飞操作，是一种典型的存在潜在风险的不稳定进近着陆。

图5为被识别出具有潜在起飞风险的航班B数据图。安全管理人员认为该航班飞行员驾驶风格过于激进，因而存在风险。可以看到，该航班的襟翼角度与其他大多数航班相近，但是由于起飞时飞行员就维持了高推力、大俯仰角，这导致起飞阶段能量过高。虽然后来飞行员在45秒左右开始大力回收油门推力，但是飞机的高度曲线较多数航班仍然居高不下。安全管理人员总结认为，推力和俯仰的频繁操作使得垂直速度变化过大，极大地影响了飞行安全，是一种典型的高能量起飞模式，可导致潜在的严重后果。

实验表明，本发明可以利用机器学习对已知的高风险超限事件进行准确的分类识别，同时也能挖掘到潜在的飞行风险模式，极大地提高了业界识别飞行风险的效率。初步评估表明，本发明方法在航空运输安全领域具有较大前景，并且随着数据集中样本数量的增加，识别的准确性将得到进一步提高。

Claims

1.一种基于随机森林的航班飞行风险行为识别方法，其特征在于：所述的基于随机森林的航班飞行风险行为识别方法包括按顺序进行的下列步骤：

步骤4)搭建基于随机森林的高风险超限事件识别模型；

步骤5)利用上述基于随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别，并对未知风险事件进行二次甄别；

然后分析起飞、着陆阶段中最具风险的超限事件，最后选择出22个高风险超限事件；

2.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法，其特征在于：在步骤1)中，所述的标定原始QAR数据并重新采样，获得每个架次航班起飞及着陆阶段的特征向量的方法是：

其中

表示第p个飞行数据在t时刻的数值，并作为一个特征；

3.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法，其特征在于：在步骤2)中，所述的对上述每个架次航班起飞及着陆阶段的特征向量进行降维与特征提取，得到起飞及着陆阶段的最终特征向量的方法是：

4.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法，其特征在于：在步骤4)中，所述的搭建基于随机森林的高风险超限事件识别模型的方法是：

5.根据权利要求1所述的基于随机森林的航班飞行风险行为识别方法，其特征在于：在步骤5)中，所述的利用上述基于随机森林的高风险超限事件识别模型对改进后的高风险超限事件判定数据集中的数据进行分类识别，并对未知风险事件进行二次甄别的方法是：

将步骤3)获得的改进后的高风险超限事件判定数据集输入到步骤4)搭建的基于随机森林的高风险超限事件识别模型中，如果基于随机森林的高风险事件识别模型中的大多数决策树都认为某架次航班属于无风险航班，则最终识别结果为该架次航班无飞行风险；