CN114338165A

CN114338165A - 基于伪孪生堆栈自编码器的网络入侵检测方法

Info

Publication number: CN114338165A
Application number: CN202111634727.1A
Authority: CN
Inventors: 涂山山; 尹明希; 杨勇杰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

基于伪孪生堆栈自编码器的网络入侵检测方法属于网络安全领域。对网络攻击的分析和检测应该被重视。基于传统深度学习方法的准确率和检测率较低、泛化能力较差和假阳率较高。本发明提出了一种提出了一种基于伪孪生SAE的网络入侵检测方法。首先分别使用正样本集和负样本集无监督训练两个互为伪孪生结构的SAE，有效抽取流量的深层语义特征空间，从而放大特征重构后的正负样本之间的差异。其次通过有标签的监督训练，提高检测准确性，并使用逻辑运算结合两个伪孪生编码器使最终检测结果达到最优。在入侵检测数据集NSL‑KDD的测试集KDDTest+和KDDTest‑21上的实验表明，本发明的入侵检测准确性高于传统深度学习方法。

Description

基于伪孪生堆栈自编码器的网络入侵检测方法

技术领域

本发明涉及物联网领域，涉及网络安全中的入侵检测，具体涉及伪孪生堆栈自编码器(SAE)的网络入侵检测方法。

背景技术

物联网设备通常会收集和处理特定事件的时空信息来完成各种任务，所以在工业领域的各个行业，物联网都起着举足轻重的作用，例如物流跟踪、能源分配、智慧城市和医疗保健等，因此物联网也被称为第三次工业革命。然而物联网的快速商业化导致了其安全问题很少被关注。由于物联网系统中设备、通信协议以及接口和服务的多样性，导致网络中出现了大量的安全漏洞，目前物联网已成为网络安全空间中最薄弱的环节之一，连接到互联网的的智能设备一旦遭受攻击，不仅影响了物联网生态系统的安全，还会威胁整个互联网生态系统的安全。例如2016年服务提供商Dyn受到高达620Gbps流量的攻击，导致数百个网站如Twitter、Netflix、Reddit和GitHub关闭了几个小时。因此对攻击的分析和检测应该被重视。

物联网具有低延迟，资源限制，分布式，可扩展性以及可移动性等的特性，除此之外物联网设备面临低计算能力、较小的带宽、电量和存储的挑战。所以针对物联网的入侵检测无法像传统网络入侵检测一样部署到物联网设备或集中式云节点。雾计算是一种将云扩展到网络边缘的新型分布式计算范例，它不仅可以为物联网设备提供有效的数据访问、计算、networking和存储，还支持可移动性、位置感知、异构性和低延迟。我们可以将入侵检测系统部署到雾层由雾节点为物联网设备提供安全服务，这样可以有效减少物联网设备计算量、存储量、耗电量和云服务器的负载。

入侵检测系统(IDS)用于识别与计算机系统相关的恶意活动。根据部署的平台分类，可将部署到单台计算机上IDS被称为主机入侵检测(HIDS)，部署到大型网络的IDS称为网络入侵检测(NIDS)。根据检测方法分类，又可以将入侵检测分为基于异常(流量异常，下同)的入侵检测(ANIDS)和基于签名的入侵检测(SNIDS)，前者主要通过计算正常网络行为(无网络攻击，下同)与异常网络行为之间的偏差与给定阈值比较，如果偏差超过给定阈值则发出异常警报，后者依赖于将流量的行为模型与数据库中已知攻击模式进行匹配，从而快速识别出攻击。基于异常的入侵检测具有检测出零日攻击的能力，零日攻击没有特定的签名模式，所以基于签名的入侵检测则不能有效的检测出新的攻击。ANIDS对异常行为与正常行为之间的偏差估计决定了ANIDS的检测性能，这也导致了ANIDS可能会把正常流量识别为异常流量，因此，对于ANIDS而言，除了准确率外，真阳性率和假阳性率(误报率)也是重要的评估标准。目前已经有许多深度学习的方法被应用到基于异常的网络入侵检测中，异常检测需要根据大量数据学习正常样本与异常样本之间的偏差，而深度学习在特征提取中有良好的表现，所以深度学习非常适合应用到异常检测中。普通的神经网络模型难以学习到正常和异常流量的深层语义特征，进而对异常流量不敏感。这导致了基于传统深度学习方法的NIDS的准确率和检测率较低、泛化能力较差和假阳率较高。

发明内容

为了提高物联网设备的安全性，同时不增加物联网设备的计算量，本发明提出了一种提出了一种基于伪孪生SAE的网络入侵检测方法。首先分别使用正样本集和负样本集无监督训练两个互为伪孪生结构的SAE，有效抽取流量的深层语义特征空间，从而放大特征重构后的正负样本之间的差异。其次通过有标签的监督训练，提高检测准确性，并使用逻辑运算结合两个伪孪生编码器使最终检测结果达到最优。

发明的算法整体框架如图1所示。

本发明的具体步骤如下：

步骤一：针对入侵检测数据集NSL-KDD的特点，为了提升检测的准确性，对数据进行预处理。

步骤二：基于无监督逐层训练两个伪孪生结构的SAE。在本发明中，我们希望模型能学习到正常流量和异常流量的深层语义特征，因此首先用自编码器(AE)训练隐藏层h以提取原始输入中最显著的特征。通过将AE的输入和输出约束为尽可能相等的无监督训练方式，隐藏层h能捕捉输入中最显著的特征。其次，将多个训练好的AE堆叠，将上一个AE隐藏层提取的特征作为下一个AE的输入。以此类推，便可以通过逐层训练的方式，逐步提取更高阶、更抽象的特征。训练过程中，我们将预处理好的训练集根据标签分为全为正常记录和全为异常记录的两个子集。分别使用两个子集无监督逐层训练两组数量和结构相同的AE，得到两个互为伪孪生结构的SAE。这两个SAE分别学习了互联网的正常状态和异常状态，并能初步提取数据的深层语义特征。

步骤三：进行有标签的监督训练，进一步提高检测准确性。第二步得到了可以学习正常与异常状态的两个孪生SAE模型。在此基础上，使用完整训练集基于前馈神经网络和后向传播算法对伪孪生SAE进行有监督的分类训练，以提高模型提取深层语义特征的能力，使其能最大化正常数据和异常数据之间的差异。

步骤四：构建一个用于整合两个伪孪生结构的SAE检测结果的逻辑运算策略，以得到最终的入侵检测结果。由于两个互为伪孪生结构的SAE对正负样本敏感度不同，在步骤三的基础上，将两个SAE对同一个样本的检测结果利用设定的阈值进行逻辑运算来获得最优检测结果。

与现有技术相比，本发明具有如下优点：

可以有效抽取流量的深层语义特征空间，从而放大特征重构后的正负样本之间的差异。其次通过有标签的监督训练，提高检测准确性，并使用逻辑运算结合两个伪孪生编码器使最终检测结果达到最优。

附图说明

图1是本发明示意图。

具体实施方式

本发明提出了一种基于伪孪生SAE的网络入侵检测方法。该发明的具体实现步骤如下：

步骤一：NSL-KDD中每条记录有41个特征。经过分析发现名为‘num_outbound_cmds’的特征在每条记录中的值均为0，因此我们从每条记录中将该特征删除。剩余40个特征中‘protocol_type’,’service’和’flag’为符号总数大于2的符号特征，为了使符号特征中每个取值之间的距离相同，我们将这三个符号特征转化为one-hot编码。经过以上处理后，每条记录的特征个数由41个转化为121个。同时还发现数据集中的不同连续特征的取值范围差别非常大，为了消除特征之间量纲的影响，得到更可信的结果，以及使得梯度下降算法更快地收敛，我们进行了特征缩放使得各个特征在同一个数量级。我们使用的是Z-score特征缩放方法，将特征数值缩放到0附近，同时不改变数据分布。特征缩放算法如下所示：

其中X为原始特征，mean_(x)为该类特征均值，σ为标准差。

步骤二：我们根据标签将训练集划分为正常数据集和异常数据集，使用6个AE构建伪孪生SAE。其中3个AE基于正常数据堆叠成SAE_N,另外3个AE基于异常数据堆叠成SAE_A。以构建SAE_N为例，对于AE_(i)_N，N表示该AE基于正常数据集训练，i为AE_N的序号。为了使输出与输入尽可能相似，通过后向传播算法来最小化输出和输入之间的最小均方误差，便可得到AE_(i)的隐藏层H_(i)。H_(i)作为AE_(i+1)_N的输入层继续重复以上计算步骤，直到AE_(i＝3)_N训练完成，最后将3个AE的隐藏层组合成SAE_N。构建SAE_A的过程同理。SAE可以提取数据的深层语义特征，通过重构特征放大正负样本之间的差异。SAE的逐层特征数量如表1所示。在训练阶段，使用ReLU作为激活函数，Adam作为优化器，学习率设置为0.001，训练轮次为100轮。

表1 SAE参数

模型	特征数量
		AE1_N&AE1_A	121×80×121
AE2_N&AE2_A	80×60×80
		AE3_N&AE3_A	60×40×60

步骤三：使用整个训练集对预训练构建的SAE_A和SAE_N进行有监督的分类训练，通过后向传播算法对网络超参数进行微调来最小化损失函数，提高模型对正常记录和异常记录的区分度，最大化正负样本之间的差异。损失函数如公式1所示：

其中y_i表示样本真实标签，

表示模型预测该样本为阳性(即异常样本)标签的概率。SAE的网络逐层特征数量为121->80->60->40->1，损失函数为Binary_cros-sentropy，网络中间三层的激活函数为ReLU函数，输出层的激活函数为Sigmoid函数，Adam作为优化器，学习率设置为0.001，训练轮次为500轮。

步骤四：由于SAE_N与SAE_A分别基于正常数据集和异常数据集来预训练构建的，导致SAE_N和SAE_A对正负样本的敏感度不同。为了防止模型向预训练数据集偏移，同时结合两个伪孪生SAE的优势，本发明提出了使用逻辑运算将SAE_A和SAE_N对同一记录的预测结果进行运算，使得最终结果达到最优。我们规定a标签为阳性，n标签为阴性。逻辑运算的运算法则如下公式所示：

设某一样本为S，p_a表示SAE_A预测S为阳性的概率，p_n表示SAE_N预测S为阳性的概率，p为使用逻辑运算结合p_a和p_n后的概率。当两个互为伪孪生结构的SAE对S的标签预测相同时，即p_a和p_n均大于等于0.5或者小于等于0.5时，我们认为该预测值可信。当两个孪生SAE对S的预测相悖时，考虑到网络的安全性，我们认为S更有可能为阳性，但是考虑到模型向数据集的偏移，为了让模型的结果更加可信，我们进行了多次实验后设定p_a的阈值为0.9，当p_a大于0.9且p_n小于0.5时，p等于p_n，即S为阴性，其余情况为阳性。

为了验证本发明的有效性，将本发明的方法在入侵检测数据集NSL-KDD的测试集KDDTest+和KDDTest-21上进行实验，并与近三年的一些入侵检测算法进行对比，结果如表2所示。

表2与其他算法的整体性能比较

如表所示，在神经网络结构如DNN和RNN对正常记录和异常记录具有较低的区分度和敏感度，导致了模型的准确率和真阳率均较低。基于自编码器方法的CNN方法的真阳率比DNN和RNN高，这说明了自编码器能有效的提取数据的深度语义特征，放大正负样本之间的差异，使模型具有更高的区分度。专利方法相较于其他方法具有更高的准确率，真阳率和F1-Score，以及更低的假阳率，这表明我们的模型达到我们最初的期望：对正常记录和异常记录具有更高的区分度，提高检测率和降低误报率。

Claims

1.一种基于伪孪生堆栈自编码器的网络入侵检测方法，其特征在于：

(1)设计了一个针对入侵检测数据集NSL-KDD的预处理步骤，以提升检测的准确性；

(2)设计了一个基于无监督逐层训练两个伪孪生结构的SAE，利用正负样本对网络分别训练，以得到正常流量和异常流量的深层语义特征；

(3)对两个网络进行进一步有标签的全数据集监督训练，以提高检测准确性；

(4)构建一个用于整合两个伪孪生结构的SAE检测结果的逻辑运算策略，以得到最终的入侵检测结果。

2.根据权利要求1所述的方法，其特征在于步骤(1)中，将入侵检测数据集NSL-KDD中的无意义特征即只有一个取值的特征进行删除，为了使符号特征中每个取值之间的距离相同，将这三个符号特征转化为one-hot编码；使用的是Z-score特征缩放方法，将特征数值缩放到0附近，同时不改变数据分布以消除特征之间量纲的影响；特征缩放算法如下所示：

其中X为原始特征，mean_(x)为该类特征均值，σ为标准差。

3.根据权利要求1所述的方法，其特征在于步骤(2)中，首先根据数据集网络攻击类别标签将训练集划分为正常即无网络攻击数据集和异常即有网络攻击数据集；使用6个AE构建伪孪生SAE；其中3个AE基于正常数据堆叠成SAE_N,另外3个AE基于异常数据堆叠成SAE_A；通过后向传播算法来最小化输出和输入之间的最小均方误差，得到AE_(i)的隐藏层H_(i)；对于AE_(i)_N，N表示该AE基于正常数据集训练，i为AE_N的序号；H_(i)作为AE_(i+1)_N的输入层继续重复SAE构建步骤，直到AE_(i＝3)_N训练完成，最后将3个AE的隐藏层组合成SAE_N；构建3SAE_N。

4.根据权利要求3所述的方法，其特征在于步骤(3)中，使用整个训练集对预训练构建的SAE_A和SAE_N分别进行有监督的分类训练，通过后向传播算法对网络超参数进行微调来最小化损失函数；从而提高模型对正常记录和异常记录的区分度，最大化正负样本之间的差异；微调具体实现为对网络迭代训练，500轮训练后的网络超参数为最终网络的参数；损失函数如公式1所示，其中y_i表示样本真实标签，

表示模型预测该样本为阳性标签的概率；

。

5.根据权利要求1所述的方法，其特征在于步骤(4)中，构建一个用于整合两个伪孪生结构的SAE检测结果的逻辑运算策略，以得到最终的入侵检测结果；由于SAE_N与SAE_A是在步骤(3)中分别基于正常数据集和异常数据集来预训练构建的，导致SAE_N和SAE_A对正负样本的敏感度不同；为了防止模型向预训练数据集偏移，同时结合两个伪孪生SAE的优势，在本步骤中，使用逻辑运算将SAE_A和SAE_N对同一记录的预测结果进行运算，使得最终结果达到最优；规定a标签为阳性，n标签为阴性；逻辑运算的运算法则如下公式所示：

设某一样本为S，p_a表示SAE_A预测S为阳性的概率，p_n表示SAE_N预测S为阳性的概率，p为使用逻辑运算结合p_a和p_n后的概率；当两个互为伪孪生结构的SAE对S的标签预测相同时，即p_a和p_n均大于等于0.5或者小于等于0.5时，认为该预测值可信；当两个孪生SAE对S的预测相悖时，考虑到网络的安全性，认为S更有可能为阳性，但是考虑到模型向数据集的偏移，设定p_a的阈值为0.9，当p_a大于0.9且p_n小于0.5时，p等于p_n，即S为阴性，其余情况为阳性。