CN113489685B

CN113489685B - 一种基于核主成分分析的二次特征提取及恶意攻击识别方法

Info

Publication number: CN113489685B
Application number: CN202110659646.0A
Authority: CN
Inventors: 蔡赛华; 陈锦富; 赵玲玲; 陈海波; 殷上; 张翅
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2023-03-21
Anticipated expiration: 2041-06-15
Also published as: CN113489685A

Abstract

本发明提供了一种基于核主成分分析的二次特征提取及恶意攻击识别方法。包括：步骤1，对采集的恶意流量进行分层抽样，以获取更加均衡的训练样本集和测试样本集；步骤2，对原始网络流量数据集进行预处理，以得到更加规范的数据集；步骤3，应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取，有效剔除原始网络流量数据中存在的冗余信息；步骤4，将提取到的特征用于分类模型的训练，对不同的恶意攻击行为进行分类和识别；步骤5，根据步骤4所得到的识别结果，得到网络流量恶意攻击检测报告。本发明做到了同时考虑数据在均值和方差两个方面的特性，进而对数据特征进行更加全面的分析。

Description

一种基于核主成分分析的二次特征提取及恶意攻击识别方法

技术领域

本发明属于网络安全恶意入侵检测领域，涉及一种基于核主成分分析的二次特征提取及恶意攻击检测方法。

背景技术

随着当前互联网技术的飞速发展，网络规模逐渐扩大，人们对互联网的依赖程度与日俱增，但也随之带来了更多的安全问题。针对用户系统中存在的安全漏洞，攻击者通过输入一些有特殊目的的特殊数据来实现对漏洞的利用，进而达到攻击的目的。随着高危漏洞问题的频繁曝光，恶意漏洞利用事件也频繁发生，这给当前的网络环境带来了极大的危害。因此，网络流量中恶意攻击的识别在网络安全保护方面发挥着不可忽视的作用。

当前恶意攻击识别方法主要通过分类算法来实现，由于数据流特征空间存在相关性和冗余性，特征量大的数据不仅造成了不必要的计算时间和资源开销，还会导致分类精度的下降。因此，对网络流量特征进行特征提取是通过机器学习方法进行恶意攻击分类过程的必要步骤。想要从网络流量的数据包中准确地提取出能够描述恶意攻击行为的特征属性，需要设计一种高效的特征提取方法，将原始数据中存在的冗余信息进行有效剔除并生成一个仅包含“精华”信息的特征表示，从而让得到的特征可供后续的机器学习算法进行分类模型的训练。由于网络流量数据中包含了较多的非线性特征，采用常用的主成分分析(PCA)方法不能很好地对数据进行表征。因此，提出了一种基于核的主成分分析方法—核主成分分析(KPCA)方法，该方法利用核函数将低维线性不可分的原始数据样本映射到线性可分的高维特征空间，并采用主成分分析方法删除冗余特征和不相关特征，这样就保证了对线性不可分数据的处理效果。

然而，由于PCA方法只考虑了数据在方差方面的特性，无法顾及特征在均值方面的特性，这就导致对数据的分析不够全面；同时，由于PCA方法缺乏类别信息，因此会导致降维后的数据虽然信息损失降到最低但可能会使分类过程变得更加困难。基于此，本发明提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法，在基于KPCA提取的特征集上叠加线性判别分析方法进行二次特征提取，在保证对网络流量中非线性数据的处理效果的同时，弥补了主成分分析方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面的特性的问题，做到了同时考虑数据在均值和方差两个方面的特性，进而更有效地检测恶意攻击行为。大量的对比实验证明本研究提出的特征提取方法能够达到更好的特征提取效果，所提取的特征能够使分类器达到更高的分类性能，恶意攻击检测成功率更高。

发明内容

基于现有技术中的KPCA方法是基于样本点投影具有最大方差的原则进行投影，而没有考虑到样本会依据均值进行分类的情况，且KPCA作为一种无监督学习方法忽略了对类别先验知识的利用，从而导致对恶意攻击进行分类识别时性能无法达到最优。基于此，本发明提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法用以解决上述存在的问题。

本发明提供了一种基于核主成分分析的二次特征提取及恶意攻击检测方法，包括如下步骤：

步骤1，对采集的恶意流量进行分层抽样，以获取更加均衡的训练样本集和测试样本集；

步骤2，对原始网络流量数据集进行预处理，以得到更加规范的数据集；

步骤3，应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取，有效剔除原始网络流量数据中存在的冗余信息；

步骤4，将提取到的特征用于分类模型的训练，对不同的恶意攻击行为进行分类和识别；

步骤5，根据步骤4所得到的识别结果，得出网络流量恶意攻击检测报告。

进一步，所述步骤2的具体实现包括如下步骤：

步骤2.1，采用one-hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征；

步骤2.2，利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理，首先计算样本集各属性的平均值

表示第i条数据的平均值；和平均绝对误差S_k，S_k表示第k个属性的平均绝对误差；然后对每条数据进行标准化度量，从而让标准化后的每条数据记录中的各个属性都对应标准化取值；

步骤2.3，采用离差标准化方法对经过标准化操作的数据进行归一化，将标准化后的数据转换到[0,1]内，从而让不同属性的数据有可比性和可操作性。

进一步，所述步骤3的具体实现包括如下步骤：

步骤3.1，将经预处理后的数据样本集表示为大小为n×m的流矩阵X_n×m＝[x₁,x₂,...,x_n]，其中n为样本集中样本的个数，m为样本特征的维度，x_i为样本集的一个列向量；

步骤3.2，采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵，从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量；

步骤3.3，求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量，按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序；若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ，则提取前l个特征值对应的特征向量构成投影矩阵W_KPCA＝[ν₁,ν₂,...,ν_n]；对于上述所得的投影空间，通过计算Y＝W_KPCA ^TX得到原始网络流量样本集X在特征空间W_KPCA中的投影；

步骤3.4，采用线性判别分析方法来计算步骤3.3所得特征值Y的类内离散度矩阵S_ω与类间离散度矩阵S_b，求解矩阵S_ω ^-1S_b的特征值与特征向量并对特征值按照降序排序，取对应的前p个特征向量构成投影矩阵W_LDA＝[η₁,η₂,...,η_p]，计算Z＝W_LDA ^TY求得特征集Y在W_LDA特征空间中的映射，将映射的结果视为对原始数据样本进行特征提取的结果。

进一步，所述步骤4的具体实现包括如下步骤：

步骤4.1，采用步骤2和步骤3对抽样所得训练集进行特征提取，得到网络流量的样本属性子集；

步骤4.2，采用支持向量机算法对前述步骤所得的特征向量组进行分类器的训练，利用上述所得特征属性子集作为SVM算法的输入，并选择径向基函数作为SVM算法的核函数，后续对参数不断进行调整，使得训练出的分类器保持较优的分类效果；

步骤4.3，利用构造好的多分类器实现对测试集中不同的恶意攻击行为的分类和识别。

进一步，标准化计算流程主要包括：

计算样本集各属性的平均值

和平均绝对误差S_k，

表示第k条数据的平均值，S_k表示第k个属性的平均绝对误差，计算方式分别为：

其中，n表示样本数量，x_ik表示第i条数据的第k个属性；

利用

对每条数据记录进行标准化度量，获得标准化后每条数据记录中各个属性对应的标准化取值。

进一步，归一化计算流程如下：

计算样本数据的最大值与最小值，利用转换函数

将数据样本转换到[0,1]内，f'即为归一化后的规范化数据；

经过归一化操作后获得特征提取方法的输入数据集。

进一步，类内离散度矩阵S_ω与类间离散度矩阵S_b的计算方式如下：

其中，i代表样本数据的类别编号，N代表样本包含的总类别数量，y_i代表经过核主成分分析KPCA变换后的每条网络流量数据，μ_i指的是第i类样本的均值向量，m_i指的是第i类样本的数量，μ代表总的均值向量。

与现有技术相比，本发明有益的效果：

1、提出的一种基于核主成分分析的二次特征提取方法在基于KPCA提取的特征集上叠加线性判别分析方法进行二次特征提取，在保证对网络流量中非线性数据处理效果的同时，弥补了主成分分析方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面的特性的问题，做到了同时考虑数据在均值和方差两个方面的特性，进而对数据特征进行更加全面的分析。

2、针对核主成分分方法属于无监督学习方法而缺乏对类别信息的利用，导致出现降维后的数据虽然能让信息损失降到最低但却可能会使分类过程变得更加困难的问题，本发明所提出的一种基于核主成分分析的二次特征提取及恶意攻击检测方法通过将核主成分分析和线性判别分析方法进行有机结合，通过引入对类别信息的利用使得在后续的恶意攻击识别过程中分类模型能够发挥更佳的性能，从而使得分类模型的识别效果得到一定程度的提升。

附图说明

图1是一种基于核主成分分析的二次特征提取及恶意攻击检测方法的总体流程图。

图2是一种基于核主成分分析的二次特征提取及恶意攻击检测方法的详细流程图。

图3是本发明实验环节所用数据样本集信息。

图4是不同核函数对检测识别模型分类精度的影响结果图。

图5是L-KPCA与传统KPCA保留不同特征个数时检测识别精度的变化曲线图。

图6是不经任何特征提取操作的检测模型对样本集进行实验信息和结果。

图7是利用PCA方法进行特征提取的检测模型对样本集进行实验信息和结果。

图8是利用KPCA进行特征提取的检测模型对样本集进行实验信息和结果。

图9是利用L-KPCA进行特征提取的检测模型对样本集进行实验信息和结果。

图10是在不同特征提取方法下检测模型对七种攻击的识别精度。

图11是在不同特征提取方法下检测模型对七种攻击的识别召回率。

图12是在不同特征提取方法下检测模型对七种攻击的识别F₁-score。

具体实施方式

下面结合附图和实施案例对本发明作进一步说明，应指出的是，所描述的实施案例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明旨在针对网络流量中的恶意攻击行为，提出一种基于核主成分分析的二次特征提取及恶意攻击检测方法，以有效对攻击行为进行特征提取，提供了完善的特征提取模型和恶意攻击检测框架，并且进行了充分的实验，证明了方法的可行性和有效性。

如图1所示，本发明的一种基于核主成分分析的二次特征提取及恶意攻击检测方法，包括：

步骤201采用分层抽样的方法对采集到的网络流量进行抽样处理，以获取更加均衡的训练样本集和测试样本集；

步骤202对原始网络流量数据集进行预处理，以得到更加规范的数据集；

本发明实施案例中预处理的目的在于，一条网络流量数据会由多个特征来表示，但不同的特征之间、特征的量纲与特征值的量级都是不一样的，因此在训练分类模型之前需要对原始网络流量数据样本进行预处理，使不同的特征具有相同的尺度。简而言之，当原始数据在不同维度上的特征的尺度(或单位)不一致时，就需要标准化的步骤对数据进行预处理。

步骤2021采用one-hot方式将采集到的网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征；

步骤2022利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理；

标准化计算流程包括：(1)计算样本集各属性的平均值

(

表示第k条数据的平均值)和平均绝对误差S_k(S_k表示第k个属性的平均绝对误差)，计算方式分别为：

(2)利用

步骤2023采用离差标准化方法对经过标准化操作的数据进行归一化，将标准化后的数据转换到[0,1]内，从而让不同属性的数据有可比性和可操作性；

归一化计算流程包括：计算样本数据的最大值与最小值，利用转换函数

将数据样本转换到[0,1]内，f'即为归一化后的规范化数据。

通过上述操作，便可得到特征提取模型的规范输入。

步骤203应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取，有效剔除原始网络流量数据中存在的冗余信息；

上述的步骤203中，特征提取的步骤如下：

步骤2031将经预处理后的数据样本集表示为大小为n×m的流矩阵X_n×m＝[x₁,x₂,...,x_n]，其中n为样本集中样本的个数，m为样本特征的维度，x_i为样本集的一个列向量；

步骤2032采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵，从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量；

上述高斯径向基核函数的计算方式为

选择该函数作为核函数的原因在于，该函数在局部范围有较好的性能，其不被样本数量和特征维数约束的优点使得其应用更加广泛，同时径向基核函数有着较少的参数，这样就保证了核函数有较低的复杂度。图4展示了采用不同核函数对识别模型精度的影响。

步骤2033求解步骤2032得到的核矩阵的特征值Y及对应的特征向量，按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序；若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率，则提取前l个特征值对应的特征向量构成投影矩阵；对于上述所得的投影空间，通过计算得到原始网络流量样本集X在特征空间中的投影；

步骤2034采用线性判别分析方法来计算步骤2033所得特征值Y的类内离散度矩阵S_ω与类间离散度矩阵S_b，求解矩阵S_ω ^-1S_b的特征值与特征向量并对特征值按照降序排序，取对应的前p个特征向量构成投影矩阵W_LDA＝[η₁,η₂,...,η_p]，计算Z＝W_LDA ^TY求得特征集Y在W_LDA特征空间中的映射，将映射的结果视为对原始数据样本进行特征提取的结果。

上述类内离散度矩阵S_ω与类间离散度矩阵S_b计算方法如下所示：

其中，i代表样本数据的类别编号，N代表样本包含的总类别数量，y_i代表经过核主成分分析(KPCA)变换后的每条网络流量数据，μ_i指的是第i类样本的均值向量，m_i指的是第i类样本的数量，μ代表总的均值向量。

步骤204将提取到的特征用于分类模型的训练，对不同的恶意攻击行为进行分类和识别，其构建流程图如图2所示；

上述的步骤204中，分类模型训练的步骤如下：

步骤2041对于训练集样本，通过预处理环节后，利用特征提取模型得到降维后的网络流量特征数据，在特征提取模型后接SVM分类器，对网络流量数据样本进行分类识别得到分类结果；

步骤2042采用支持向量机SVM算法来训练分类模型，由于要对多种类别的攻击进行识别，因此要训练k类分类器；

步骤2043k类分类器的构造采用了基于二叉树的构造方法，由于实验采用的数据集中包含了7类攻击数据，因此需要用到6个SVM分类器。

步骤205根据步骤204所得到的识别结果，得出网络流量恶意攻击检测报告；

本发明主要针对Dos攻击和缓冲区溢出buffer_overflow攻击两种类型的漏洞利用攻击流量进行特征提取，其中Dos攻击我们收集了back、land、neptune、pod、smurf、teardrop六类攻击的异常流量数据。图3展示了实验部分数据集中训练集与测试集的信息。

为使基于核主成分分析的二次特征提取方法在特征提取领域性能得到大幅度提升，本发明提出了许多解决方法。由于核函数的选取对最终的特征提取效果存在一定的影响，因此本发明在实验数据集上通过采用不同的核函数进行实验，以选取出最佳的核函数使我们的L-KPCA_SVM模型分类效果达到最佳。根据先验知识，实验中我们选择保留18个特征向量来构造投影矩阵，对采用不同核函数的L-KPCA方法进行50次实验，图4展示了该条件下对于七种漏洞利用攻击流量样本，采用本节提出的L-KPCA方法，分别尝试四种不同的核函数提取出来的特征对分类效果的影响。

通过观察图4可以很直观地看出，对于七种攻击样本，采用Sigmoid核与径向基RBF核相比线性核与多项式核，能够使模型的分类效果表现更佳。但由于Sigmoid核函数对参数的要求比较高，因此该核函数的应用相较于RBF核函数使用较少。对比之下，采用了RBF核函数的L-KPCA方法能够使识别模型发挥更高的分类效果，且分类精度也更加稳定，同时由于其具有较低的复杂度，因此更加适用于非线性的高维特征空间中的特征提取工作。基于上述分析，本研究最终选取了高斯径向基RBF核作为L-KPCA方法中的核函数来完成将线性不可分样本数据投影到高维特征空间的工作，以使得模型识别效果达到最佳。

在确定核函数之后，本发明又针对最终保留特征个数对分类效果的影响展开了研究。对于L-KPCA方法，保留不同个数的特征构造特征矩阵，观察所提特征对最终分类结果的影响。本文对每组特征进行了50次实验，图5展示了保留不同特征个数时分类模型识别精度的变化曲线。同时作为对比，本文也对传统KPCA方法进行了同样的实验。

由于在特征个数n＜4时，传统KPCA与L-KPCA方法取前3个特征组合的分类精确率过低，因此，图中仅对n≥4时的结果进行了展示。从图中可以看出，本发明所提L-KPCA方法在保留特征个数大于6时，分类精度均高于传统KPCA方法，由此可证明L-KPCA方法的有效性。同时该方法在保留前13个特征向量时便已获得较高的精确度，在特征个数为15时，分类精度达到最高。同传统KPCA方法相比，无论在分类精度还是在特征组合中保留特征的个数，L-KPCA方法均有明显的优势。基于上述实验对比，后续实验环节L-KPCA方法均保留前15个特征向量，KPCA方法连续取前18个特征，PCA方法连续取前24个特征。

经过上述参数设置，对于实验采用的七种漏洞利用攻击流量样本，应用本发明所提特征提取模型对七种攻击样本进行特征提取；然后，根据所提特征进行分类模型的训练，最后使用训练出的多分类器完成对网络流量中恶意攻击的识别；同时，为便于验证本发明所提方法的有效性，针对识别结果计算出识别精度、识别召回率及F₁-score值，并以此作为特征提取方法的评估标准。此外，为验证本发明所提方法的有效性，设置了多组对比实验，对采集到的网络流量数据样本分别使用原始数据集和经过不同特征提取算法处理后的数据集作为SVM识别模型中分类算法的输入，从精确度、召回率以及F₁-score值三方面进行综合对比，实验结果如图6～图12所示。

通过观察图6～图12可知，本发明所提的L-KPCA算法能够使SVM分类器得出更加精确的分类结果，这是由于L-KPCA算法结合了核主成分分析方法和线性判别分析的优势。一方面，所提方法考虑到样本数据的类别信息，使得降维后的数据不仅信息损失降到最低，也保证了分类过程的有效性。另一方面，该方法弥补了KPCA方法选择样本点投影具有最大方差的方向的片面性，结合LDA方法样本分类信息依赖均值的特性，对特征属性进行全面的考虑。这也意味着所提方法能够更加精准的提取与攻击行为更为相关的特征，大大提升了检测系统的检测性能。由此可见，本研究所提方法能够有效的对KPCA方法进行改进，改进后的方法能够使SVM识别模型性能有一定幅度的提升。

Claims

1.一种基于核主成分分析的二次特征提取及恶意攻击检测方法，其特征在于，包括如下步骤：

步骤2，使用one-hot方式、z-score标准化方法及离差标准化方法对原始网络流量数据集进行预处理，以得到更加规范的数据集；

所述步骤3的具体实现包括如下步骤：

步骤3.4，采用线性判别分析方法来计算步骤3.3所得特征值Y的类内离散度矩阵S_ω与类间离散度矩阵S_b，求解矩阵S_ω ^-1S_b的特征值与特征向量并对特征值按照降序排序，取对应的前p个特征向量构成投影矩阵W_LDA＝[η₁,η₂,...,η_p]，计算Z＝W_LDA ^TY求得特征集Y在W_LDA特征空间中的映射，将映射的结果视为对原始数据样本进行特征提取的结果；

2.如权利要求1所述方法，其特征在于，所述步骤2的具体实现包括如下步骤：