CN113468537A

CN113468537A - 一种基于改进自编码器的特征提取及漏洞利用攻击检测方法

Info

Publication number: CN113468537A
Application number: CN202110657903.7A
Authority: CN
Inventors: 陈锦富; 耿晔; 赵玲玲; 蔡赛华; 陈海波; 施登州
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-01
Anticipated expiration: 2041-06-15
Also published as: CN113468537B

Abstract

本发明提供了一种基于改进自编码器的特征提取及漏洞利用攻击检测方法。包括：步骤1，对采集的恶意流量进行数值化、标准化、归一化和矩阵化预处理操作；步骤2，应用基于改进自编码器的特征提取方法对预处理后的网络流量进行特征提取，以得到原始数据的最优特征表示；步骤3，将提取到的特征用于分类模型的训练，对不同的漏洞利用攻击行为进行分类识别；步骤4，根据步骤3所得的识别结果，得出漏洞利用攻击检测报告。本发明有效地避免自编码器各层神经元间训练参数过多的问题。

Description

一种基于改进自编码器的特征提取及漏洞利用攻击检测方法

技术领域

本发明属于网络安全恶意入侵检测领域，涉及一种基于改进自编码器的特征提取及漏洞利用攻击检测方法。

背景技术

近些年网络规模正逐渐扩大，人们对互联网的依赖程度与日俱增，但随之也产生了更多的安全问题。针对用户系统中存在的安全漏洞，攻击者通过输入提交一些有特殊目的的特殊数据来实现对漏洞的利用，进而发起攻击。随着高危漏洞问题的频繁曝光，漏洞利用攻击行为也频繁发生，给当前的网络环境带来了极大的危害。因此对网络流量中漏洞利用攻击的识别和检测在网络安全保护方面发挥着不容忽视的作用。近年来，一些浅层学习方法如K近邻算法、支持向量机算法在入侵检测领域发挥了良好的性能，但由于此类方法对数据样本的要求以及复杂函数的表示能力有一定的限制，因此在面临复杂问题时浅层学习算法存在着一定的局限性。

卷积自编码器(CAE)是在传统自编码器的基础上发展而来的，它利用了传统自编码器无监督的学习方式，在此之上结合了卷积神经网络的卷积和池化操作来完成编码和解码，进而实现了一个特征提取的神经网络结构。CAE充分发挥了自编码器和卷积神经网络的优点，同时也弥补了各自的弊端，在降低卷积神经网络对权重敏感程度以及对大规模标记数据依赖的同时解决了自编码器多层神经元之间全连接的结构导致的训练参数过多的问题。卷积自编码器中的卷积核能够有效地提取出数据样本中的最优特征，它通过使用深度训练的方法来构造深度神经网络模型，从而获得高维数据的低维表示。模型通过构建多个隐藏层实现对数据的特征提取和转换，每一个隐藏层的输出会作为更高层级的输入，所以一般来说输入数据供第一层学习使用，然后将第一阶特征作为输出传入第二层来学习与第一阶特征相关的第二阶特征以此类推，最终得出原始高维数据的最佳低维表示。

然而，对于提取出流量数据的优质特征，我们不关心自编码器的输出是什么，而是关注中间隐藏层的编码表示，换言之则是关注从输入层到隐藏层的映射过程。因此，本发明提出一种基于改进自编码器的特征提取及漏洞利用攻击检测方法。首先提出了一种只保留编码器部分的非对称的深度卷积自编码器ADCAE方法，通过构造出一个非对称的堆叠多层编码的深度网络模型来训练数据，并将模型的输出作为SVM的输入；然后在自编码器网络的输出层后连接SVM分类器，实现对漏洞利用攻击行为的检测。

发明内容

针对传统自编码器需要两个阶段(即输入层-隐藏层，隐藏层-输出层)完成对样本的特征学习及重构而引起的冗余操作问题，本发明提出了一种基于改进自编码器的特征提取方法(即非对称的深度卷积自编码器方法)，来实现对网络流量数据的特征学习，从而提升漏洞利用攻击的检测效率。

本发明提供了一种基于改进自编码器的特征提取及漏洞利用攻击检测方法，包括如下步骤：

步骤1，对采集的恶意流量进行数值化、标准化、归一化和矩阵化预处理操作；

步骤2，应用基于改进自编码器的特征提取方法对预处理后的网络流量进行特征提取，以得到原始数据的最优特征表示；

步骤3，将提取到的特征用于分类模型的训练，对不同的漏洞利用攻击行为进行分类识别；

步骤4，根据步骤3所得的识别结果，得出漏洞利用攻击检测报告。

进一步，所述步骤1的具体实现包括如下内容：

步骤1.1，采用one-hot编码方式将数据样本中的协议类型、网络服务类型、网络连接状态等字符性的属性转换为数值型；

步骤1.2，利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理，首先计算样本集各属性的平均值

表示第i条数据的平均值；和平均绝对误差S_k，S_k表示第k个属性的平均绝对误差；然后对每条数据进行标准化度量，从而让标准化后的每条数据记录中的各个属性都对应标准化取值；

步骤1.3，采用离差标准化方法对经过标准化处理后的数据集进行归一化处理，使得数据样本在不同维度之间存在可比性；

步骤1.4，针对归一化处理后的数据集，通过填充数字0将原始1维的41个特征属性样本集扩充到64个特征，并将其转换为8×8的2维数据，从而得到特征提取模型的规范输入，所述41项特征分为TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征4大类，下面按顺序解释各个特征的含义：

1.连接基本特征

基本连接特征包含了一些连接的基本属性，如连续时间，协议类型，传送的字节数；

1)Duration.表示连接持续的时间的特征名，单位为秒，连续类型值；

2)Protocol_Type.表示协议类型的特征名，离散类型值；

3)Service.表示目标主机的网络服务类型，离散类型值；

4)Flag.表示连接正常或错误的状态，离散类型值；

5)Src_bytes.表示从源主机到目标主机的数据的字节数，连续类型值；

6)Dst_bytes.表示从目标主机到源主机的数据的字节数，连续类型值；

7)Land.表示连接是否来自同一个主机/端口，若连接来自/送达同一个主机/端口则为1，否则为0，离散类型值；

8)Wrong Fragment.表示错误分段的数量，连续类型值；

9)Urgent.表示加急包的个数，连续类型值；

2.连接的内容特征

10)Hot.访问系统敏感文件和目录的次数，连续类型值；

11)Num Failed Logins.登录尝试失败的次数，连续类型值；

12)Logged in.表示是否成功登陆，如果成功登录则为1，否则为0，离散类型值；

13)Num Compromised.表示compromised条件出现的次数，连续类型值；

14)Root Shell.指获得超级用户权限。表示是否获得root shell权限，若获得则为1，否则为0，离散类型值；

15)Su Attempted.表示是否出现“su root”命令，若出现则为1，否则为0，离散类型值；

16)Num Root.表示root用户访问的次数，连续类型值；

17)Num File Creations.表示进行创建文件操作的次数，连续类型值；

18)Num Shells.表示使用shell命令的次数，连续类型值；

19)Num Access Files.表示访问控制文件的次数，连续类型值；

20)Num_outbound_cmds.表示一次FTP会话过程中出站连接的次数，连续类型值；

21)Is Hot Login.表示登录用户是否属于“hot”列表，如果属于则取值为1，否则取值为0，离散类型值；

22)Is Guest Login.表示是否为Guest用户登陆，若是则为1，否则为0，离散类型值；

3.基于时间的网络流量统计特征

23)Count.表示在当前连接前两秒这个时间段，和当前连接具有目标主机相同的连接数，连续类型值；

24)Srv Count.表示在当前连接前两秒这个时间段，服务类型与当前连接相同的连接数，连续类型值；

25)Serror Rate.表示在当前连接前两秒这个时间段，目标主机与当前连接相同且出现“SYN”错误的连接百分比，连续类型值；

26)Srv Serror Rate.表示在当前连接前两秒这个时间段，服务类型与当前连接相同且出现“SYN”错误的连接百分比，连续类型值；

27)Rerror Rate.表示在当前连接前两秒这个时间段，目标主机与当前连接相同且出现“REJ”错误的连接百分比，连续类型值；

28)Srv Rerror Rate.表示在当前连接前两秒这个时间段，服务类型与当前连接相同且出现“REJ”错误的连接百分比，连续类型值；

29)Same Srv Rate.表示在当前连接前两秒这个时间段，目标主机和服务类型与当前连接都相同的连接百分比，连续类型值；

30)Diff Srv Rate.表示在当前连接前两秒这个时间段，目标主机与当前连接相同但服务类型不同的连接百分比，连续类型值；

31)Srv Diff Host Rate.表示在当前连接前两秒这个时间段，服务类型与当前连接相同但目标主机不同的连接百分比，连续类型值；

4.基于主机的网络流量统计特征

32)Dst Host Count.表示在当前连接前的100个连接中，目标主机与当前连接相同的连接数，连续类型值；

33)Dst Host Srv Count.表示在当前连接前的100个连接中，目标主机和服务类型都与当前连接相同的连接数，连续类型值；

34)Dst Host Same Srv Rate.表示在当前连接前的100个连接中，目标主机和服务类型都与当前连接相同的连接百分比，连续类型值；

35)Dst Host Diff Srv Rate.表示在当前连接前的100个连接中，目标主机与当前连接相同但服务类型不同的连接百分比，连续类型值；

36)Dst Host Same Src Port Rate.表示在当前连接前的100个连接中，目标主机和源端口都与当前连接相同连接百分比，连续类型值；

37)Dst Host Srv Diff Host Rate表示在当前连接前的100个连接中，目标主机和服务类型与当前连接都相同但源端口不同的连接百分比，连续类型值；

38)Dst Host Serror Rate.表示在当前连接前的100个连接中，目标主机与当前连接相同且出现“SYN”错误的连接百分比，连续类型值；

39)Dst Host Srv Serror Rate.表示在当前连接前的100个连接中，目标主机和服务类型都与当前连接相同且出现SYN错误的连接百分比，连续类型值；

40)Dst Host Rerror Rate.表示在当前连接前的100个连接中，目标主机与当前连接相同且出现“REJ”错误的连接百分比，连续类型值；

41)Dst Host Srv Rerror Rate.表示在当前连接前的100个连接中，目标主机和服务类型都与当前连接相同且出现“REJ”错误的连接百分比，连续类型值。

进一步，所述步骤2的具体实现包括如下内容：

步骤2.1，设置编码器的入向量为x∈R^l，将每一层学习到的输入进行编码并映射为x_i∈R^l，其中l是指输入数据的维度，编码函数确定为h_i＝σ(ω_ih_i-1+b_i),i＝1,2,...n，其中n是指隐藏层的个数，σ为激活函数，ω为隐藏层卷积核的参数，b为卷积核的偏置，h_i则为经过第i个隐藏层后样本的编码表示；

步骤2.2，经过n层编码器隐藏层和激活函数的转换后，得到可表示为h_n＝σ(ω_nh_n-1+b_n),i＝1,2,...,n的特征数据；

步骤2.3，通过反向传播方式调整误差，将最终特征提取模型的重构误差表示为

其中m是指训练样本的个数，x_i表示原始数据样本，y_i为特征重构结果，

为原始数据与重构结果间的欧几里得距离。

进一步，所述步骤3的具体实现包括如下内容：

步骤3.1，利用特征提取模型对经过预处理后的训练集样本进行特征提取，从而得到降维后的流量特征数据；

步骤3.2，采用支持向量机SVM算法对降维后的流量特征数据进行训练以构建分类模型，利用上述所得流量特征数据作为SVM算法的输入，并选择径向基函数作为SVM算法的核函数，后续对参数不断进行调整，使得训练出的分类器保持较优的分类效果。由于要对多种类别的攻击进行识别，因此要训练k个分类器；

步骤3.3，在自编码器网络的输出层后连接SVM分类器，对数据样本进行分类识别得到分类结果。

进一步，所述激活参数设置如下：

采用ReLU函数作为激活函数，其表达式如下所示：

在处理非线性函数时，函数值在非负区间的梯度取值为一个函数，这就意味着在反向传播算法梯度更新时梯度不会趋近于0，保证了模型的收敛速度保持在稳定状态。

进一步，所述编码器隐藏层设置具体包括：

模型采用8层隐藏层结构，其中第一个卷积层采用了64个卷积核，每个卷积核均设置为6×6的二维矩阵；第二个卷积层采用了32个卷积核，卷积核大小设置为5×5；第三个卷积层同样采用32个卷积核，卷积核大小设置为4×4；第四个卷积层采用16个卷积核，每个卷积核大小设置为2×2；

同时，每经过一个卷积层的处理后都伴随一个池化层对数据进行处理以进一步对特征进行提取，池化层卷积核大小均设置为3×3；

预处理后的数据在经过4层卷积层与4层池化层的处理后，利用全连接层对数据进行处理。

与现有技术相比，本发明有益的效果是：

1、本发明提出的非对称的深度卷积自编码器只保留了编码器部分，同时采用多个编码器作为隐藏层来构造深度网络模型，构造的模型能够随着层数的增加学习到每一层的最优特征表示。

2、在模型搭建过程中，设置多重卷积和池化操作来堆叠构成相应的编码器结构，通过对模型进行无监督的预训练来调整网络结构权值；此外，还设计了一个特殊的带权值的矩阵，通过卷积核将输入数据对应部分做加权和处理，并通过设置合适的激活函数产生输出矩阵，从而取得较好的特征提取的效果。

3、所提出的模型中的卷积操作具有局部感知和参数共享两个特点，能够在更高层将这些局部信息进行整合从而得到数据的全部表征信息，此外还能在减少权值数量的同时降低模型的复杂度，有效地避免自编码器各层神经元间训练参数过多的问题，从而有效地提高模型对数据特征提取的能力，进而提升漏洞利用攻击的检测准确性。

附图说明

图1是一种基于改进自编码器的特征提取及漏洞利用攻击检测方法的总体流程图。

图2是一种基于改进自编码器的特征提取及漏洞利用攻击检测方法的详细流程图。

图3是本发明实验所用数据样本集。

图4是不同隐藏层深度对模型识别检测精度的结果图。

图5是不经特征提取环节进行分类的实验信息和结果。

图6是经卷积自编码器方法做特征提取进行分类实验的信息和结果。

图7是经本发明所提方法做特征提取进行分类实验的信息和结果。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，应指出的是，所描述的实施案例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明旨在针对网络流量中漏洞利用攻击行为，提出一种基于改进自编码器的特征提取及漏洞利用攻击检测方法，以有效对攻击行为进行特征提取，提供了完善的特征提取模型和漏洞利用攻击检测框架，并且进行了充分的实验，证明了方法的可行性和有效性。

如图1所示，本发明的一种基于改进自编码器的特征提取及漏洞利用攻击检测方法，包括：

步骤201对采集的恶意流量进行数值化、标准化、归一化和矩阵化预处理操作；

上述的步骤201中，上述数据预处理的步骤如下：

步骤2011采用one-hot编码方式将数据样本中的协议类型、网络服务类型、网络连接状态等字符性的属性转换为数值型；

步骤2012采用z-score标准化方法对数值化处理后的数据集进行标准化处理；

步骤2013采用离差标准化方法对经过标准化处理后的数据集进行归一化处理，使得数据样本在不同维度之间存在可比性；

步骤2014针对归一化处理后的数据集，通过填充数字0将原始1维的41个特征属性样本集扩充到64个特征，并将其转换为8×8的2维数据，从而得到特征提取模型的规范输入。

步骤202应用基于改进自编码器的特征提取方法对预处理后的网络流量进行特征提取，以得到原始数据的最优特征表示，特征提取的步骤如下：

步骤2021设置编码器的入向量为x∈R^l，将每一层学习到的输入进行编码并映射为x_i∈R^l，其中l是指输入数据的维度；

步骤2022确定编码函数为h_i＝σ(ω_ih_i+b_i),i＝1,2,...n，其中n是指隐藏层的个数；

步骤2023由于所提方法为非对称网络结构，因此特征提取模型中没有解码器，经过n层编码器隐藏层和激活函数的转换后，得到可表示为h_n＝σ(ω_nh_n-1+b_n),i＝1,2,...,n的特征数据；

步骤2024通过反向传播方式调整误差，将最终特征提取模型的重构误差表示为

其中m是指训练样本的个数。

步骤203将提取到的特征用于分类模型的训练，对不同的漏洞利用攻击行为进行分类识别；

上述的步骤203中，上述的分类模型训练的步骤如下：

步骤2031利用特征提取模型对经过预处理后的训练集样本进行特征提取，从而得到降维后的流量特征数据；

步骤2032采用支持向量机(SVM)算法对降维后的流量特征数据进行训练以构建分类模型，由于实验采用的数据集中包含了7类攻击数据，因此需要用到6个SVM分类器，分类模型构建总体流程图如图2所示；

步骤2033在自编码器网络的输出层后连接SVM分类器，对数据样本进行分类识别得到分类结果。

步骤204根据步骤203所得的识别结果，得出漏洞利用攻击检测报告。

本发明主要针对Dos攻击和缓冲区溢出buffer_overflow攻击两种类型的漏洞利用攻击流量进行特征提取，其中Dos攻击我们收集了back、land、neptune、pod、smurf、teardrop六类攻击的异常流量数据。图3展示了实验部分数据集中训练集与测试集的信息。

由于深度神经网络中模型的深度对最终的模型性能存在极大的影响，因此为使本发明所提特征提取方法发挥最优性能，本发明首先针对特征提取模型中隐藏层深度设置设计了一系列实验。本发明将隐藏层层数分别设置为2、4、6、8、10、12，得出最终隐藏层输出作为原始数据的最优特征表示，并将其用于训练SVM分类器，通过观察最终分类结果，可得出如图4的实验结果。

结合图4可直观地看出，模型的检测结果一定程度上被隐藏层的深度所影响，随着隐藏层个数的增加，识别精度会有一定的提升，主要是因为随着隐藏层的增多，模型对数据的非线性拟合能力也在增强，越有利于高维数据向低维数据转换，从而对数据样本的特征化表示更加准确有效，这也导致了分类器的分类效果的提升。但是模型的性能与隐藏层个数不存在正相关关系，存在一个最优值使得模型识别性能达到最佳，在该值之后随着隐藏层个数的增加，模型性能反而会降低。除land、buffer_overflow两种攻击类型外，识别模型在隐藏层层数为8时检测结果达到最优，分类精确度在95.23％～98.46％之间，均优于其他结构下的分类性能。而对于land、buffer_overflow两种攻击，均在隐藏层层数为4时识别精度达到最高，之后随隐藏层层数的增加，分类精确率呈下降趋势。究其原因，是因为这两类攻击样本数目较少，因此在隐藏层层数过多时会导致模型出现过拟合情况，从而导致模型性能下降。通过观察识别模型在不同层数结构下对各类攻击样本识别的精确率平均值，模型设置为8时平均精度最高，因此本研究选择8层隐藏层结构作为非对称深度卷积自编码器的结构。

在确定了模型的层数结构之后，本发明针对上述数据集，采用所提ADCAE特征提取方法以及上述其他两种对比方法对样本数据进行特征提取，并将所提特征用于训练SVM多类分类器。图5-图7展示了三种方法在数据集上的分类精确度、召回率和F₁-score三项指标值。

从上述数据可以看出，本发明所提的ADCAE方法能够提取出优质的特征属性集合，使得SVM分类模型相比基于其他两种特征处理的分类模型识别精度更高，且识别性能相对较为稳定。这是由于所提方法只保留了编码器输入层到隐藏层的映射过程，避免了传统编码器中误差函数最小化方式存在局部最优值的弊端，将自编码器与SVM分类器直接结合，通过观察分类结果来设置合适的隐藏层层数，使分类模型保持较高、较稳定的识别精度。通过实验性能评估对比可以看出所提非对称深度卷积自编码器能够使分类模型达到较高的检测效果，同时也证明了该方法对特征的提取能力相对更好。

Claims

1.一种基于改进自编码器的特征提取及漏洞利用攻击检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述方法，其特征在于，所述步骤1的具体实现包括如下内容：