CN114861891A

CN114861891A - 基于改进的稀疏自编码器的空管系统态势特征提取方法

Info

Publication number: CN114861891A
Application number: CN202210780921.9A
Authority: CN
Inventors: 张礼哲; 白卓宁; 岳猛
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-08-05

Abstract

为了解决天空地一体化结构的空中交通管理系统在广域分布场景中的信息安全态势感知问题，针对空管系统通信导航监视设备的运行数据具有多维、复杂、特征关联等特点，本发明提供了一种基于数据属性的特征关联算法，提出了基于改进的稀疏自编码器的空管系统态势特征提取方法，建立了深度关联稀疏自编码器模型，使用L₁正则化和KL散度稀疏项对编码器网络参数进行惩罚限制，并增加了隐藏层的数量，通过迭代训练单个编码器优化全局编码器网络。实验结果表明，改进后的稀疏自编码器在空管系统特征提取方面具有良好的鲁棒性，得到的特征表达能力强，提高了分类器的分类性能。

Description

基于改进的稀疏自编码器的空管系统态势特征提取方法

技术领域

本发明创造属于计算机信息安全领域，尤其是涉及一种基于改进的稀疏自编码器的空管系统态势特征提取方法。

背景技术

作为空中交通管理系统（Air Traffic Management, ATM）的关键设备，通信导航监视设备的安全运行对于保障空管系统稳定的信息交互至关重要。通信导航监视设备中包含各类空管数据，其安全性涉及到空管系统的各个层面。其中的机密信息若遭受到安全威胁会影响航空器的正常运行，严重时甚至会威胁飞行安全。此外，当设备因人为或设计等原因故障时也会使得空管信息交互业务暂缓。空管系统通信导航监视设备在信息交互传输过程中，存在的安全威胁一般包括：对IT基础设施的不安全物理访问；将不太安全的传统技术系统与安全系统集成；卫星或地面系统未加密通信；IT设备硬件和软件的安全配置不足；未经授权的人员访问；故意或非故意损坏地面天线和辅助设备导致拒绝服务（Denial ofService, DoS）；恶意软件感染等。

高维且复杂的空管系统设备运行数据使得决策管理人员难以感知系统的安全态势，为保证空管系统设备运行信息的可用性、机密性及完整性，对空管系统进行信息安全态势感知势在必行。通信导航监视设备的安全态势感知旨在减轻这些设备因网络威胁、人为操作失误、设备故障等对空管系统运行造成的影响，便于管理人员从宏观的角度及时了解系统的安全状态，做出正确的决策。

由于空管系统设备运行数据具有多维、数量众多、时空依赖性等特点，并且特征之间具有相关性，为防止过度拟合以及复杂度过高等问题，需要对数据进行降维，使用易表示的简单维度结构来表征数据。针对这一问题，本发明提出一种特征关联算法，分析数据特征之间的相关性，对原始数据进行特征选择，防止特征提取模型过拟合。此外，本发明建立了改进的特征提取模型--深度关联稀疏自编码器（Deep-related Sparse Autoencoder,DRSAE）模型，采用多个隐藏层提取特征，并通过L₁正则化和KL散度限制隐藏层权重和神经元激活程度的稀疏性，提高编码器特征提取精度。

发明内容

有鉴于此，本发明创造旨在提出一种基于改进的稀疏自编码器的空管系统态势特征提取方法，使用基于数据属性的方法建立特征关联模型，达到属性特征解耦的目的，使得属性关联关系得以清晰地表达。

为达到上述目的，本发明创造的技术方案是这样实现的：

基于改进的稀疏自编码器的空管系统态势特征提取方法，包括如下步骤：

（1）对空管系统设备运行数据进行归一化处理，得到归一化数据集；

（2）对归一化处理后的数据进行特征关联分析，通过计算相关性得出每一类特征的相关系数矩阵，使用阈值比较相关性，并删除对整体数据影响小的特征，得到新的数据集；

（3）根据数据集的大小划分训练集和测试集，将训练集输入到深度稀疏自编码器DSAE中；

（4）逐个训练编码器模型，通过自编码器的全连接层无监督的学习输入数据的特征，最小化重构输出与输入的对比损失；

（5）使用上一个训练好的稀疏自编码器的编码器输出权重作为当前稀疏自编码器的编码器输入权重，训练当前的稀疏自编码器；

（6）连接训练好的各个稀疏自编码器的编码层，形成深度关联稀疏自编码器DRSAE，使用之前训练好的模型参数初始化整个DRSAE模型的参数，并通过Adam优化器进行全局优化；

（7）训练好模型后提取编码器的最后一个隐藏层的输出权重，即提取到的最终特征，并将这些特征及其对应的标签一同输入到设定的分类器中，通过有标签的样本数据进行有监督学习；

（8）训练好分类器后，得出模型分类结果。

进一步的，所述步骤（2）中，具体包括如下步骤：

（21）对数据进行属性划分：

设输入数据X=｛x₁,x₂,x₃,…,x_n｝的特征集为T=｛t₁,t₂,t₃,…,t_k｝，k为数据的属性总数目，即初始数据特征维数；

将特征集T按照属性实际表示含义的相关性划分，进一步表示为T=｛R₁,R₂,…,R_n｝，其中n为将数据特征集T划分的属性类总数，R_i（i=1,2,…,n）表示属性相关的一类特征，则

，

,...,

其中，p₁+p₂+…+p_n-1+p_n=k，p₁,p₂,…,p_n分别为R₁,R₂,…,R_n类特征各自的属性数量；

（22）计算R中各特征之间的欧氏距离，形成相关系数矩阵C；

（23）通过将n类特征分别进行相关性分析后得到每一类特征的相关系数矩阵C，并且设定一个阈值，除去C的对角线相关性元素外，当C中其他的相关性元素的绝对值大于或等于这一阈值时，认为该相关性元素的两个特征具有很强的关联关系；比较两个特征数据项的均值和方差，由于方差的大小决定此特征对整体数据的影响程度，选择删除方差小的特征；

（24）对每一类特征进行相关性分析后，再对整体数据进行一次相关性分析。

进一步的，所述深度稀疏自编码器DSAE使用MSE衡量自编码器输入与输出的相似度，并运用L₁正则化对编码器施加正则化约束，使得编码器产生具有稀疏性质的权重矩阵，再结合KL散度对编码器隐藏层神经元的激活程度进行稀疏性限制。

进一步的，所述深度稀疏自编码器DSAE的目标损失函数为

；

其中，λ为稀疏性约束，用来控制正则化的程度，w_i是隐藏层H=｛h₁,h₂,…,h_m｝对输入样本X=｛x₁,x₂,x₃,…,x_n｝的权重，a _j是隐藏层中第j个神经元对输入样本X=｛x₁,x₂,x₃,…,x_n｝的平均激活程度，

，h(j)是隐藏层H的矩阵向量的第j个分量，a _h(j)是当输入样本为X=｛x₁,x₂,x₃,…,x_n｝时，隐藏层中第j个神经元的总体激活程度，a_h(j)（x_i）表示输入数据为x _i时，隐藏层中第j个神经元的激活度，a _j和a的KL散度为

，KL散度作为惩罚项，通过非对称地衡量输入训练数据X与目标输出Y概率分布之间的差异来限制网络的稀疏性。

相对于现有技术，本发明创造所述的基于改进的稀疏自编码器的空管系统态势特征提取方法具有以下优势：

（1）本发明使用基于稀疏自编码器的非线性降维方法提取ATM系统的运行特征，无需运用人工和专家知识，而是通过超参数自适应反馈训练得到最优模型，结合提出的基于数据属性的特征关联算法，解决ATM数据特征关联问题，使其在ATM系统的特征提取方面呈现出显著优势；

（2）本发明不仅可以减弱ATM系统数据特征之间的相关性，防止模型过拟合，而且还在特征提取模型精度上具有优势，提取到的ATM特征表达能力强，将来可以广泛应用到ATM系统态势感知平台中。

附图说明

构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解，本发明创造的示意性实施例及其说明用于解释本发明创造，并不构成对本发明创造的不当限定。在附图中：

图1为特征关联模型示意图；

图2为DSAE模型示意图；

图3为DRSAE模型示意图；

图4为R ₁类特征的相关系数矩阵热力图；

图5为R ₂类特征的相关系数矩阵热力图；

图6为R ₃类特征的相关系数矩阵热力图；

图7为特征关联分析后总体数据的相关系数矩阵热力图；

图8为所有模型对测试集的分类评估结果示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

在本发明创造的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明创造和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明创造的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明创造的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明创造中的具体含义。

下面将参考附图并结合实施例来详细说明本发明创造。

空管运行数据多源异构，数据空间的复杂度高，各数据特征之间的依赖性强，数据属性之间的相关性问题突出。在进行网络训练时，由于特征间存在相互作用，一些数据的属性对数据整体关系的作用可能会大于其他属性，将在一定程度上影响到编码器所提取的特征，使其不能完全表示数据之间潜在的规律。针对这一问题，本发明使用基于数据属性的方法建立特征关联模型，达到属性特征解耦的目的，使得属性关联关系得以清晰地表达。

由于一些属性特征之间相互影响，并且为了准确地表示数据的属性，本发明将每个属性看作独立的变量，建立基于数据属性的特征关联模型，如图1所示，图1展示了特征关联模型的结构。模型算法如下：

，

,...,

其中，p₁+p₂+…+p_n-1+p_n=k，p₁,p₂,…,p_n分别为R₁,R₂,…,R_n类特征各自的属性数量。

以R ₁类中的特征t ₁和t ₂为例，基于数据的物理意义，通过计算t ₁和t ₂之间的欧氏距离估计t ₁和t ₂的相关程度，特征t ₁和t ₂的相关性为

，x _i为特征t ₁变量中的数据项，y _i为特征t ₂变量中的数据项，n’为输入数据项的总数。R ₁中特征的相关系数矩阵为

，p ₁为R ₁类特征的属性数量，由于属性本身与自己相关，所以C ₁中

，R ₁的相关系数矩阵C ₁即可改写

。

计算相关性c得出的结果范围是[-1,1]，当c的取值接近1时，表示两个特征变量正相关，当c的取值接近-1时，表示两个特征变量负相关，当c的取值为0时，表示两个特征变量没有相关关系。

通过将n类特征分别进行相关性分析后得到每一类特征的相关系数矩阵C，并且设定一个阈值。除去C的对角线相关性元素外，当C中其他的相关性元素的绝对值大于或等于这一阈值时，认为该相关性元素的两个特征具有很强的关联关系。比较两个特征数据项的均值和方差，由于方差的大小决定此特征对整体数据的影响程度，因此选择删除方差小的特征，即删除对整体数据影响较小的特征，以减少特征维数。

对每一类特征进行相关性分析后，再对整体数据进行一次相关性分析。如果得出的相关系数矩阵显示不同类别中的属性特征之间也存在相互关联关系，以R ₁类中的特征t ₁和R ₂类中的特征t _p1+1为例，即

，使得

。如果

大于或等于阈值时，比较R ₁类特征和R ₂类特征的属性数量p ₁和p ₂，当p ₁＜p ₂时，表明R ₂类特征t _p1+1的属性数量多于R ₁类特征t ₁的属性数量，为使得各类特征的属性数目保持相对平衡，选择删除R ₂类特征t _p1+1；当p ₁＞p ₂时，原理相同；当p ₁ =p ₂时，删除R ₁类特征t ₁或R ₂类特征t _p1+1效果相同。

该特征关联算法在数据进行特征提取前对其进行处理，相当于对数据进行特征选择，减轻了影响特征学习准确性和鲁棒性的数据的相关性的影响。

传统的自编码器在训练的过程中可能会发生均方误差(Mean Squared Error,MSE)过小的问题，导致模型过拟合，网络泛化能力不强，不能有效学习重要的数据特征。在本发明中，采用稀疏自编码器对空管系统的多维数据进行特征提取，将设备运行数据从多维空间转换为一维空间或者对后续研究有利的维度，在编码网络的损失函数中加入稀疏性惩罚约束，让编码器获得高维数、更深层次的特征表示，并在一定程度上通过限制隐藏层对输入层的权重W来提高编码器的泛化能力。此外，本发明在稀疏自编码器中增加隐藏层的数量，使编码器学习到更多有用的数据隐藏结构和表示，使得稀疏编码器（SparseAutoencoder, SAE）成为深度稀疏自编码器（Deep Sparse Autoencoder, DSAE），用于解决使用单个隐藏层的SAE进行系统态势特征提取精度不高的问题。建立的深度稀疏自编码器特征提取模型（DSAE）的结构如图2所示。

DSAE使用MSE衡量自编码器输入与输出的相似度，并运用L₁正则化对编码器施加正则化约束，使得编码器产生具有稀疏性质的权重矩阵，再结合KL散度对编码器隐藏层神经元的激活程度进行稀疏性限制，以提高特征提取模型的精度。DSAE的目标损失函数为

。其中，λ为稀疏性约束，用来控制正则化的程度，w_i是隐藏层H=｛h₁,h₂,…,h_m｝对输入样本X=｛x₁,x₂,x₃,…,x_n｝的权重，a _j是隐藏层中第j个神经元对输入样本X=｛x₁,x₂,x₃,…,x_n｝的平均激活程度，

在DSAE的基础上，将本发明提出的特征关联算法融合到DSAE中，形成深度关联稀疏自编码器（DRSAE）特征提取模型。建立的DRSAE模型如图3所示。

DRSAE特征提取模型的算法步骤如下：

（1）归一化数据集；

（2）对数据进行特征关联分析，通过计算相关性得出每一类特征的相关系数矩阵，使用阈值比较相关性，并删除对整体数据影响小的特征，得到新的数据集；

（3）根据数据集的大小划分训练集和测试集，将训练集输入到DSAE中；

（6）连接训练好的各个稀疏自编码器的编码层，形成DRSAE，使用之前训练好的模型参数初始化整个DRSAE模型的参数，并通过Adam优化器进行全局优化；

（8）训练好分类器后，得出模型分类结果。

为验证本发明所设计的DRSAE特征提取模型的性能，设计了针对空管系统的仿真实验。本发明采用空管系统设备运行数据进行实验与验证，运用深度学习中的Keras框架，使用Python语言训练特征提取及分类模型。

根据《中国民用航空通信导航监视系统运行、维护规程》，对ATM系统设备运行数据进行仿真实验。选择三个代表性的ATM系统设备运行数据的数据集，如表1所示，包括计划总工作时数（PH）、正常工作时数（NH）、运行正常率（NOR）、设备总台数（TN）、故障设备台数（NF）、设备完好率（EIR）、事故次数（NA）、严重差错次数（NS）和一般差错次数（NG）。将没有发生事故和差错的数据视为正常数据，记为0，将发生了事故和差错的数据视为异常数据，记为1。

表1.空管系统设备运行数据信息

空管数据集特征有9种属性，可分为三类，分别为运行时间特征（含3种属性）、运行数量特征（含3种属性）和运行差错特征（含3种属性），分别记为R ₁类、R ₂类和R ₃类特征。将这三类特征分别进行特征关联分析，各特征类的相关系数矩阵热力图如图4、图5和图6所示。

根据特征关联算法，将阈值设置为0.9，当两个特征属性之间相关性的绝对值大于或等于0.9时，选择该特征并删除数据项。由图4、图5和图6可以看出，R ₁类与R ₃类特征属性之间关系较弱，相关性绝对值小于0.9的阈值。而R ₂特征中的属性2和属性3具有较强的相关性，相关性绝对值为0.98，高于阈值0.9。根据特征关联算法，比较两者的方差，确定属性2的数据项被删除。经过以上分析，R ₁类特性个数保持在3，R ₂类特性个数为2，R ₃类特性个数保持在3，最终数据维数为8。

对R ₁、R ₂和R ₃类的特征进行上述相关性分析，剔除相关性强的特征属性之一后，对得到的新数据进行整体相关性分析。整体数据的相关系数矩阵热力图如图7所示。

在图7中，R ₁、R ₂和R ₃特征的属性相关性的绝对值均小于0.9，因此R ₁、R ₂和R ₃的特征数量保持不变，最终得到的数据维数为8。

利用特征提取模型对ATM数据集进行训练和测试，结合SVM分类器对数据类别进行判断。采用5个评价指标对模型进行评价，包括：准确率（Accuracy）、精确率（Precision）、真正率（True Positive Rate, TPR）也为召回率（Recall）、假正率（False Positive Rate,FPR）和F值（F-score）。

对所有模型进行设置，将输入数据从8维减少到4维。DRSAE模型的第一个编码层将输入的8维数据压缩为6维空间，第二个编码层将输入的6维数据压缩为4个特征空间。两个解码层的维数变化与编码层的维数变化相反。最后，通过迭代训练得到重构后的最终特征。将该模型与典型线性降维方法主成分分析（Principal Components Analysis, PCA）模型以及AE、SAE模型等非线性降维方法进行比较。所有模型对测试集的分类评价结果如图8所示。

在对不同特征提取模型进行分类评价时，Accuracy、Recall、Precision和F-score值越高，FPR越低，说明分类性能越好，模型的准确率越高。由图8可以看出，对于ATM设备的运行数据，PCA特征提取方法的模型分类准确率最低，为63.32%。AE和SAE模型的分类精度相应提高，表明非线性降维方法能够对当前具有复杂特征空间的数据集提取更有效的特征表示。而本发明采用的非线性降维模型DRSAE的分类准确率最高，为84.42%，比SAE模型高出约8%，泛化能力最强。对于FPR，可以看出本发明的DRSAE模型分类错误率为27.45%，由于模型训练的误差，错误率处于中间位置。F-score是Recall和Precision很好的结合。可以看出DRSAE模型的F-score在本实验中是最高的，为85.84%，表明由DRSAE特征提取模型提取的ATM系统态势特征有很强的表达能力，模型具有分类性能强和精度高的特点，便于ATM系统后续的态势评估。

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明创造的保护范围之内。