CN112101405A

CN112101405A - 基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法

Info

Publication number: CN112101405A
Application number: CN202010748808.3A
Authority: CN
Inventors: 董欣放; 刘继新; 徐晨; 江灏; 杨光
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-12-18

Abstract

本发明公开一种基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，包括以下步骤：收集多维航迹样本；通过RDAE对样本进行非线性降维，利用正则化手段约束低维流形难以表示的噪声和异常向量，得到重建的去噪紧密航迹；将上述重建的航迹数据作为CFSFDP的输入样本；使用CFSFDP对战术性航迹进行提取，得到战术性航迹类别中心；通过航迹簇边缘密度参数的阈值设定，识别航迹中的异常模式；通过机场跑道的进场或离场航迹数据，实现战术性航迹聚类与异常航迹识别。本发明能够更准确的挖掘战术性航迹的隐含特征；改进以DBSCAN为核心的基于密度聚类算法在异常值阈值设定的局限性，并通过CFSFDP找到更合理的聚类中心。

Description

基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法

技术领域

本发明属于民航技术领域，具体涉及一种基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别的方法。

背景技术

空域运行环境的数据挖掘和技术优化对于民航业的高速发展具有重要意义，对于航迹数据的深度解析就是其中一项关键工作。民航运输业务具有一定的周期性和规律性，每天由空中交通管理系统记录的大量航空器运行数据，隐藏了管制员在指定空域内长时间的管控行为，可为战术性航迹偏好的挖掘提供丰富的数据支持，从而为空域异常值识别、空域复杂度度量和空域运行情况的分析等技术工作提供理论支撑。此外，大数据技术工具的发展，也为航迹的精准聚类提供了可靠的工具。

目前大多数航迹聚类技术都是通过对航迹特征提取和相似度衡量的改进得到了细化的航迹聚类结果，无法很好地避免计算复杂度高、聚类精准度和参数难调节等问题，使其模型算法不能更好地符合实际运行的需求。精密而高度非线性的航迹相似性度量算法相对欧式度量能更精准表现战术性航迹之间的差异，识别的异常值也较为理想，但在面对大量航迹时，大多计算复杂度极高，一旦聚类的航迹数据量增大，计算时长与计算消耗将伴随指数级的增长；而主成分降维的方法虽然降低了航迹间相似度衡量的计算难度，但航迹细节损失较多，聚类时会出现航迹宏观上明显分离但微观距离上相似度高的现象；以DBSCAN为核心的基于密度聚类算法使用距离半径与密度两个参数调节，低于指定密度的航迹均会被视为异常，设定较高的异常值识别阈值(距离半径小而密度高)导致标称航迹被分为多股，而较低的异常值识别阈值导致异常误判，同一参数指标下战术性航迹聚类与异常值识别难以同时进行。

本发明基于机器无监督学习聚类，提出一种基于稳健深度自编码技术(Robustdeep auto-encoder,RDAE)和密度峰值算法(Clustering by fast search and find ofdensity peaks,CFSFDP)的航迹聚类模型，以机场运行日航迹数据为研究对象，实现对机场航迹的有效精准聚类和异常值识别。

发明内容

发明目的：本发明的目的是提供一种基于稳健深度自编码技术和密度峰值算法的航迹聚类模型，通过RDAE和CFSFDP方法的结合克服目前航迹预测研究中的战术性航迹精密度量计算消耗大、线性降维导致的细节不足和参数难以调节以致异常值误判较多的问题，充分发掘含噪航迹样本的隐性特征，提供简单直接的异常值识别调节方案和航迹精准聚类结果。

发明内容：本发明所述的一种基于稳健深度自编码技术和密度峰值算法的航迹聚类方法，包括以下步骤：

(1)收集多个多维航迹样本，并进行预处理；

(2)通过RDAE基于稳健深度自编码技术对样本进行非线性降维处理，利用正则化手段约束低维流形难以表示的噪声和异常向量，得到重建的去噪紧密航迹数据；

(3)输入重建的航迹数据，作为密度峰值聚类算法的样本；

(4)使用CFSFDP密度峰值聚类算法对航迹进行提取，得到航迹类别中心；

(5)通过航迹簇边缘密度参数的阈值设定，识别航迹中的异常模式；

(6)通过对机场跑道的进场或离场航迹数据的分析和计算，实现RDAE+CFSFDP的航迹聚类与异常航迹识别。

所述航迹数据类型主要包括标称航迹、重复运行的战术性航迹偏好以及异常值。

所述步骤(1)包括以下步骤：

(1.1)对机场多个运行日的航迹数据进行整理和清洗，清除数据缺失、数据错误和数据重复的运行日航迹数据；

(1.2)对上述经过处理的数据进行筛选，选择较为稳定且能反映本场运行特征的运行日普适性航迹数据作为原始数据，并判断该数据受到管制调控的程度，作为后续航迹数据分析的样本选择的基本依据。

(1.3)对选取的一个或多个样本运行日的航迹数据进行分析，将航迹数据按照标称航迹、战术性航迹和异常航迹进行分类和占比分析，最终选取合适的航迹数据作为标称航迹和异常航迹或战术性航迹与异常值识别的分析样本数据。

步骤(2)所述的RDAE基于稳健深度自编码技术的构造过程如下：

将输入的航迹数据X分为两部分：L_D和S。其中L_D表示输入数据中由自动编码器的隐藏层能够较好表示的部分，S包含噪声和异常值，这些噪声和异常值难以重建。通过去除X的噪声和异常值，自动编码器可以更完美地恢复剩余的L_D。RDAE的基本公式如下：

X＝L_D+S

s.t.X-L_D-S＝0

公式中E_θ(·)表示编码器，D_θ(·)表示解码器，L_T是低维流形，S表示异常数据，λ是调节S中稀疏度的参数。因为噪声和异常向量本质上是不可压缩的，所以不能通过自动编码器有效地投影到低维隐藏层，所以λ对于异常向量的阈值设定时有重要作用，且较小λ的设定会加强异常向量的筛选，更多数据会被识别为噪声或异常值从而隔离到S中，重构误差也会进一步减小。

同时，使用非线性函数Logistics作为自编码器进行航迹重建过程中神经元节点的激活函数的连接函数：

E_θ(x)＝E_W,b(x)＝logit(Wx+b_E)

D_θ(x)＝D_W,b(x)＝logit(W^TE_W,b(x)+b_E)

步骤(2)所述的使用正则化手段约束低维流形难以表示的噪声和异常向量的实现过程如下：

针对RDAE基本公式使用L1正则化凸松弛替换L0范数，以减少计算消耗：

s.t.X-L_D-S＝0

为了使重建航迹更加凝聚以挖掘相对稀疏的战术性航迹，利用组间L2正则化使得航迹向更易重建的部分聚集，在空域内表现为同一空间位置的近邻航迹倾向于被重建为更紧密的股。公式如下：

步骤(5)关于CFSFDP密度峰值聚类算法的实现过程如下：

首先，赋予样本中每个航迹点i以两个量：局部密度(ρ_i)和距离(δ_i)。

计算局部密度。通过硬阈值识别航迹数据集中点的邻域，计算航迹集内与航迹i之间距离小于某一数值的航迹点的个数，用局部密度表示：

计算距离。通过航迹点与其他高密度点的最小距离衡量，但密度最大的航迹点的距离是它与其他高密度点的最大距离，即设：

然后，将局部密度高、距离远大于阈值(ρ₀，δ₀)的点识别为密度峰或簇中心。找到这些密度峰值后，其他剩余的点被分配到与其最近的高密度相邻的同一个簇中，从而实现CFSFDP算法的航迹数据聚类。

有益效果：与现有技术相比，本发明的有益效果：1、本发明通过提出RDAE+CFSFDP的算法，可以使用含噪航迹作为输入，经过处理后得到非线性降维后的去噪重建航迹，最终实现航迹精准聚类和异常值识别；2、模型中RDAE能够充分发掘含噪航迹样本的非线性特征，提取其隐含特性，重建航迹能体现航迹间的细微差异；3、模型中的CFSFDP算法提供简单直接的异常值识别调节方案，通过对航迹簇集边缘密度的计算，可以筛出对已生成簇的边缘异常航迹4、将本发明应用于机场进离港航迹的一致性判断、航迹预测和空域交通高保真分析等智慧化工具，可为机场和空域运行环境的分析和优化提供有效的细化支持。

附图说明

图1为本发明的流程图；

图2为RDAE深度自编码的结构演示图；

图3为不同自编码网络的训练集重构误差图；

图4(a)、(b)分别为RDAE-5和RDAE-7的训练集相对误差图；

图5(a)、(b)、(c)分别为原始航迹、RDAE-5和RDAE-7重建航迹平面图；

图6(a)、(b)分别为原始存噪航迹、RDAE-5重建航迹平面图；

图7(a)、(b)分别为01/02R/02L跑道配置的进场航迹聚类中心演示图；

图8(a)、(b)分别为01/02R/02L跑道配置RDAE+CFSFDP聚类结果演示图；

图9(a)、(b)、(c)、(d)、(e)、(f)分别为19/20L/20R跑道配置进场航迹各算法聚类结果演示图。

具体实施方式

下面结合附图，采集广州白云机场三个运行日的进场航迹作为分析数据进行实例验证，对本发明作进一步详细说明。

如图1所示，基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别，具体步骤如下。

步骤一：收集多个多维航迹样本，并进行预处理。

所收集的航迹样本数据，包括机场多个运行日的航迹数据，且航迹数据覆盖标称航迹、重复运行的战术性航迹偏好以及异常值。

经过数据清洗和筛选，选取广州白云机场三个运行日的进场航迹作为分析数据。三个运行日中两次使用01/02R/02L配置进场，一次是19/20L/20R配置进场，航迹数量各为938条与524条。

在01/02R/02L方向的航空器运行较为自由，受到较少管制调控，航迹中以标称航迹和异常航迹为主，后者约占13％，选用此数据作为标称航迹聚类与异常值识别的分析数据，并加入噪声判断模型在含有噪声时的稳定性。

在19/20L/20R方向的当日进场运行中，由于对流天气影响，北侧航空器较多，微观航迹点密度较大，航空器受管制调控大，战术性航迹在宏观上的分离较为明显，但异常航迹与标称航迹的数据点在微观上密度有所区别，这是以DBSCAN为核心的基于密度聚类算法的难点，此处选用该运行数据作为战术性航迹与异常值识别的分析数据。

对上述航迹样本中的n个航迹进行等长化处理，将每个航迹Tra_j，(j＝1,2,...,n)分为75个航迹点，每个航迹点T_i(i＝1,...,75)由12维特征属性组成：

其中t_i是航迹第i点的时间戳，x_i、y_i、z_i分别是第i个ADS-B航迹点经过以广州白云机场为中心的墨卡托投影坐标，

是第i个航迹点与跑道中心点的平面距离，

是第i个航迹点与投影范围右下角的平面距离，可以避免两条航迹中心对称时只使用

特征的相似性计算问题，θ_i与

分别是第i个航迹点与机场中心的夹角和航向角，sin函数与cos函数的同时使用为了避免非连续点在归一化时的问题。

分别为第i点时航空器地速和垂直速度，弥补等长化处理的速度忽略误差。

每条航迹Tra_j由75个航迹点合并：Tra_j＝[T₁,...,T_i,...,T₇₉]，共900维。航迹样本矩阵维度为n×900，n表示航迹数量。

步骤二：通过RDAE基于稳健深度自编码技术对样本进行非线性降维处理，利用正则化手段约束低维流形难以表示的噪声和异常向量，得到重建的去噪紧密航迹数据。

1)构建RDAE网络。设置网络层数和节点个数，初始网络参数随机设定。初始化L_D，S矩阵，格式均为n×900，S初始化为零矩阵。

2)优化模型参数。从X中移除S，并设为L_D。使用L_D作为标签以及2范数的重建误差进行网络优化训练。每次训练完成使用X-L_D更新S，并检查重建航迹L_D与异常向量S是否能够表达输入航迹X从而满足约束的收敛条件或预先设定的运行次数是否迭代完成。设定一个非常小的正数ε，本文收敛条件为：

||X-L_D-S||₂/||X||₂<ε

3)构建RADE编码模式。设置3种自编码网络以对比不同自编码网络在重构数据性能上的差异，分别为传统DAE网络(900-400-50-400-900，简称DAE)、5层RDAE网络(900-400-50-400-900，简称RDAE-5)和7层RDAE网络(900-600-200-50-200-600-900，简称RDAE-7)，不同RDAE网络中参数λ(1≤λ≤10)的设置不同，也会呈现不同效果。

本文选取几种典型参数组合进行演示：DAE、RDAE-5(λ＝10)、RADE-5(λ＝4)、RADE-5(λ＝1)、RADE-7(λ＝4)五种自编码模式，得到图3所示的训练集重构误差图。可以看出，DAE网络在迭代5000次左右样本误差已经大幅度下降，在迭代30000次后最终误差稳定至0.07。而其他三种神经网络均已在1500次左右时已大幅收敛，性能明显优于传统的DAE网络。但RDAE-5相比RDAE-7在最终收敛时出现了重构误差较低且态势更稳定的情况。为乐更加详细地分析RDAE-5和RDAE-7的自编码网络重构数据效果，本实验还对比了重构数据与训练数据相对误差，结果如图4所示。可见RDAE-5网络重构数据的效果更好，重构误差大都在0.05以内，选择RADE-5模式作为后续计算的网络编码模式。

本文进一步展示了RDAE-5与RDAE-7两种网络的重构航迹数据与原始数据的航迹平面图，如图5，由于除了定量的重构误差之外，航迹重构结果的选取依赖主观的视觉分析[4,9]。通过对比可以看出，RDAE-5对于航迹的还原较准，新生成的航迹数据在原始数据的基础上更加紧密，做到了初步的异常值筛选。而RDAE-7生成的航迹，结合图4发现其权重确实没有被充分学习，模型挖掘的非线性特征偏少，航迹细节明显不足。但值得一提的是，生成的航迹较RDAE-5的更加聚集，这一点在跑道西侧尤为显著，如图5c)西侧各个方向进入终端区定位点的航迹被重建为了一股，实际上这种简化对于终端区内的空域运行分析是合理的，因为航迹转弯进入终端区重要的是经过定位点的先后次序。这提供给我们一个方向，更多隐藏层的深度自编码器具备航迹异常的排除能力，预先去除异常值会为之后的航迹聚类以及空域分析提供更多的工具选择。

4)重复输入含噪航迹的样本直到得到最终重建航迹结果。

航迹噪声包括机载导航设施，传输途径等硬件导致的随机异常航迹点数据，包括不合理的高度异常、回退异常以及波动异常。其中回退异常数据对于航迹影响较大。本文将回退噪声随机添加到广州白云国际机场20R跑道的进场航迹数据上以观察RDAE在噪声干扰下的重建性能，从航迹平面图6a)中显示，噪声以航迹点重叠或航迹发生两次约180度转弯的方式体现，图6b)是重建后的航迹数据。RDAE被设置为5层，分别为900-400-50-400-900，λ取值为4。从终端区西侧、东侧以及东南侧进入的航迹得到了较准确的还原，北侧进入的航迹存在误差，进入终端区之前的航迹被重建为更紧密的股。

步骤三：输入重建的航迹数据，作为密度峰值聚类算法的样本。

1)通过广州白云国际机场01/02R/02L跑道的进场航迹数据，分析讨论RDAE+CFSFDP的标称航迹聚类与异常航迹识别性能；

2)通过广州白云机场19/20L/20R跑道的进场航迹，分析RDAE+CFSFDP的战术性航迹聚类性能与异常值识别。

步骤四：使用CFSFDP密度峰值聚类算法对航迹进行提取，得到航迹类别中心。

根据局部密度与距离选择合适的聚类中心，得到航迹聚类结果。

1)计算局部密度：

2)计算距离。距离通过航迹点i与其他高密度点的最小距离衡量，但密度最大的航迹点的距离是它与其他高密度点的最大距离，即设：

3)确定聚类中心。由此，每个航迹点被赋予两个量：局部密度和距离。在二维平面上绘制所有点(ρ_i，δ_i)，形成决策图。局部密度高、距离远大于阈值(ρ₀，δ₀)的点可以识别为密度峰或簇中心。找到这些密度峰值后，其他剩余的点被分配到与其最近的高密度相邻的同一个簇中。将CFSFDP聚类应用于938条运行航迹，得到每条进场航迹的局部密度ρ和距离δ指标，二者相乘得到聚类得分排序图，如图7a)所示。根据当日使用的飞行程序，本文选取了前6个作为密度中心，在图7b)的平面图中使用不同的颜色区分。

步骤五：通过航迹簇边缘密度参数的阈值设定，识别航迹中的异常模式

计算每个航迹类别的边缘密度，处于边缘密度航迹点的距离小于

作为该航迹类别的异常值，

为自定义参数。

步骤六：通过对机场跑道的进场或离场航迹数据的分析和计算，实现RDAE+CFSFDP的航迹聚类与异常航迹识别。

1)标称航迹聚类性能与异常值识别结果

将938架航班中的811条航迹按照空间特性划分为不同的簇。图8b)展示了CFSFDP聚类算法识别的127条异常航迹，占据所有航迹的13.53％，与专家评判的异常航迹数量大致符合。异常值由直飞定位点，等待模式以及大矢量的机动转弯组成。不同的航空器机动行为与当前空域不同的复杂度情况相关。

2)战术性航迹聚类性能与异常值识别结果

为便于体现RDAE+CFSFDP的航迹聚类与异常航迹识别的优越性，本文还复现了Gariel的PCA+DBSCAN解决方案。表1给出了各算法的参数调节范围，从中选取典型聚类结果并进行可视化。

表1聚类算法超参数设定网格

1)PCA+DBSCAN的航迹聚类和异常值识别

如图9a)所示，参数eps取值1.5，min_samples取值9时，DBSCAN能够区分北侧来向的战术性航迹将其分为了3类，但同时排除了过多的异常值，如图9b)，比例高达27％，西侧的误判最为严重，东侧与东南侧来向的航迹也存在航迹误判现象；另一个参数下，eps取值2，min_samples取值13时，如图9d)中所示，异常航迹占比10.88％，符合当日运行实际。但北侧来向的战术性航迹没有被准确区分，而是被聚类算法识别为一类。综上所述，此解决方案难以在区分战术性航迹的同时识别异常航迹。

2)RDAE+CFSFDP的航迹聚类与异常航迹识别

如图9e)中所示表示RDAE+CFSFDP的航迹聚类结果，

取值0.2。算法将当日航迹分为8类，其中北侧战术性航迹被明显区分为4类，与此同时，在低密度的西侧，东侧与东南侧区域的航迹在相同参数下也能被聚类为清晰的股，图9f)中异常航迹共有49条，占比9.4％，符合当日运行实际。对于北侧航迹，RDAE对非线性特征的保留性强和CFSFDP对于高密度区域的良好聚类能力，增强了战术性航迹之间在微观距离上的细节差异。

综上所述，本文提出的RDAE+CFSFDP在同一参数下不仅能提取空域中不同密度的标称航迹与长时运行形成的战术性航迹，而且可以灵活地进行合理异常值排除。对空域内实时航迹的一致性判断、航迹预测以及空域交通流的高保真分析等下游智慧化工具提供更符合运行实际的精细化支持。

以上所述仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡依照本发明申请专利范围所做的任何改动，均落入本发明保护范围内。

Claims

1.基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，包括以下步骤：

(1)收集一段时期内的多维航迹样本，并进行预处理；

(2)基于RDAE对样本进行非线性降维处理，利用正则化手段约束低维流形难以表示的噪声和异常向量，得到重建的去噪紧密航迹数据；

(3)输入重建的航迹数据，作为CFSFDP的样本；

(4)使用CFSFDP对航迹进行提取，得到航迹类别中心；

2.根据权利要求1所述的基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，所述航迹数据类型包括标称航迹、重复运行的战术性航迹偏好以及异常值。

3.根据权利要求1所述的基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，所述步骤(1)包括以下步骤：

(1.2)对上述经过处理的数据进行筛选，选择稳定且能反映本场运行特征的运行日普适性航迹数据作为原始数据，并判断该数据受到管制调控的程度，作为后续航迹数据分析的样本选择的基本依据；

4.根据权利要求1所述的基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，步骤(2)所述RDAE的构造过程如下：

将输入的航迹数据X分为两部分：L_D和S，其中L_D表示输入数据中由自动编码器的低维空间能够表示的部分，S表示异常数据，包含噪声和异常值，这些噪声和异常值难以使用低维空间重建；其基本公式如下：

X＝L_D+S

s.t.X-L_D-S＝0

公式中E_θ(·)表示编码器，D_θ(·)表示解码器，L_D是低维流形，λ是调节S中稀疏度的参数；

使用非线性函数Logistics作为自编码器进行航迹重建过程中神经元节点的激活函数的连接函数：

E_θ(x)＝E_W,b(x)＝logit(Wx+b_E)

D_θ(x)＝D_W,b(x)＝logit(W^TE_W,b(x)+b_E)

其中W表示输入层到隐含层的权重，b_E表示输入层到中间层的偏置矩阵，b_D表示中间层到输出层的偏置矩阵。

5.根据权利要求4所述的一种基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，步骤(2)所述的使用正则化手段约束低维流形难以表示的噪声和异常向量的实现过程如下：

针对RDAE基本公式使用L₁正则化凸松弛替换L₀范数，以减少计算消耗：

s.t.X-L_D-S＝0

为了使重建航迹更加凝聚以挖掘相对稀疏的战术性航迹，利用组间L₂正则化使得航迹向更易重建的部分聚集，在空域内表现为同一空间位置的近邻航迹倾向于被重建为更紧密的股，公式如下：

此式为组内的L₂正则化和组间的L_1/2正则化，其中k表示组内的第k个数据点，j表示组间的第j组。

6.根据权利要求1所述的一种基于稳健深度自编码器和密度峰值的航迹聚类与异常值识别方法，其特征在于，所述步骤(5)关于CFSFDP的实现过程如下：

首先，赋予样本中每个航迹点i以两个量：局部密度ρ_i和距离δ_i；

计算局部密度；通过硬阈值识别航迹数据集中点的邻域，计算航迹集内与航迹i之间距离小于某一数值的航迹点的个数，用局部密度表示：

其中x＜0时，χ(x)＝1，其余χ(x)＝0；d_c是截断距离，D_ij是点i和j之间的相似性距离；由公式可知：局部密度ρ_i表示的是航迹集内与航迹i之间距离小于d_c的航迹点个数；

设

表示

的一个降序排列下标序，即满足：

计算距离δ_i；通过航迹点与其他高密度点的最小距离衡量，但密度最大的航迹点的距离是它与其他高密度点的最大距离，即设：

然后，将局部密度高、距离远大于阈值ρ₀，δ₀的点识别为密度峰或簇中心；找到这些密度峰值后，其他剩余的点被分配到与其最近的高密度相邻的同一个簇中，从而实现CFSFDP算法的航迹数据聚类。