CN114492768B

CN114492768B - 一种基于小样本学习的孪生胶囊网络入侵检测方法

Info

Publication number: CN114492768B
Application number: CN202210355242.7A
Authority: CN
Inventors: 孙捷; 车洵; 孙翰墨; 胡牧; 梁小川
Original assignee: Nanjing Zhongzhiwei Information Technology Co ltd
Current assignee: Nanjing Zhongzhiwei Information Technology Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-15
Anticipated expiration: 2042-04-06
Also published as: CN114492768A

Abstract

本发明公开了一种基于小样本学习的孪生胶囊网络入侵检测方法，包括步骤：在训练阶段，将充足的不同攻击类型样本和正常网络流量样本通过K均值聚类方法进行聚类；将聚类好的样本，通过无监督子类型抽样方法进行抽样；将抽样好的平衡数据集和从稀缺的攻击类型中收集的数据样本用作孪生胶囊网络的训练集，并进行训练；在测试阶段，将正常流量样本、已知攻击样本和未知攻击样本用作测试集；将训练集用作测试阶段的支持集，然后将已标记样本与测试样本作为输入进行相似性度量；取支持集中与测试样本相似度最高的样本类型作为测试样本的类型，输出其标签；本方案有效的解决了异常网络流量训练数据的稀缺性，并加强了对未知攻击的检测识别。

Description

一种基于小样本学习的孪生胶囊网络入侵检测方法

技术领域

本发明涉及网络安全技术领域，特别涉及一种基于小样本学习的孪生胶囊网络入侵检测方法。

背景技术

在过去的几十年里，网络入侵检测系统（NIDS）在网络安全方面发挥着重要作用。网络入侵检测系统可以将异常的网络攻击与常规的网络流量区分开来，从而保证通信安全。在最近的网络入侵检测系统方法中提出了许多基于深度学习的方法，包括深度自动编码器、卷积神经网络和长短期记忆网络（LSTM），以识别因物联网和云服务的日益普及而产生的各种复杂、未知的攻击。与传统的机器学习方法，如支持向量机（SVM）、K邻近方法（KNN）和随机森林相比，基于深度学习的算法，在解决日益复杂和多样化的攻击类型方面表现出更好的性能。尽管取得了实质性的进展，但在设计一个可靠和有效的网络入侵检测系统方面存在着两大挑战，即不平衡的训练数据集和频繁发生的未知攻击。在信息系统中，网络流量中的正常样本是足够的，容易获得的，而且子类型多样，但是，由于异常流量在总流量中的比例很小，而且新出现的攻击形式如“零日”攻击的流量样本很难获得，所以获得网络攻击样本非常困难。

为了解决数据不平衡的问题，现有方法提出了过采样或欠采样策略来平衡训练数据。然而，每种策略在实践中都有一些问题。如过采样方案，很难找到合适的分布来对异常入侵攻击进行过采样，而欠采样策略产生的数据较少，会造成训练有效分类器的过拟合问题。此外，大多数基于深度学习的网络入侵检测系统分类器对未知的攻击不敏感，因为它们是通过最大化样本属于某种已知攻击类型的可能性来训练的，一个分类器的性能高度依赖于训练过程中使用的流量特征，因此在检测过程中很难识别未知攻击，从而无法应对不断变化的网络环境。

基于以上考虑，急需设计一种新型的网络入侵检测方法，该方法可将无监督的子类型采样方案与基于小样本学习的孪生胶囊网络相结合，实现对不同类型网络攻击的可靠检测，同时也能有效识别新的未知攻击。

发明内容

为实现上述目的，发明人提供了一种基于小样本学习的孪生胶囊网络入侵检测方法，包括以下步骤：

S1：在训练阶段，将充足的不同攻击类型样本和正常网络流量样本通过K均值聚类方法进行聚类；

S2：将S1中聚类好的样本，通过无监督子类型抽样方法进行抽样；

S3：将S2中抽样好的平衡数据集和从稀缺的攻击类型中收集的数据样本用作孪生胶囊网络的训练集，并对孪生胶囊网络进行训练；

S4：在测试阶段，将正常流量样本、已知攻击样本和未知攻击样本用作测试集；

S5：将S3中的训练集用作测试阶段的支持集，然后将支持集中的已标记样本与测试集中的测试样本作为孪生胶囊网络的输入进行相似性度量；

S6：取支持集中与测试样本相似度最高的样本类型作为测试样本的类型，输出其标签。

作为本发明的一种优选方式，所述S1包括步骤：在入侵检测算法的训练阶段，将来自不同类型的攻击和正常网络流量的数据样本进行聚类，并根据提出的无监督子类型抽样方案进行抽样；

在进行无监督子类型采样时，使用自适应K均值聚类方法将样本聚类为每个攻击类型的子类型，用于再采样方案，然后对每个子类型逐一进行随机抽样，以获得代表该类型的子集，供训练使用，表达式为：

其中

表示样本

的轮廓系数，

代表聚类中的样本

到聚类中所有其他样本的距离的平均值，

代表聚类中的样本

到其他聚类中最接近该样本的所有样本的平均距离的最小值，

表示选取两者中最大的值；

在设定一组候选K值并使用K均值聚类方法对各攻击类型的数据进行聚类后，选择各类型的最终K值，即从前n个最大的轮廓系数中选择最小的聚类数，K值表达式为：

其中，K是根据轮廓系数自适应确定，用于平衡内聚和分离因素，

代表最大的前

个轮廓系数所对应的聚类数。

作为本发明的一种优选方式，所述S2包括步骤：在获得最合适的聚类数量后，从聚类后的每个子类型中抽取一个样本，建立一个足够多类别的小样本训练集；再使用无监督聚类得到一个带有子类型标签的类型集后，从不同的子类型中抽取一个样本，并生成这个类型的子集作为训练集。

作为本发明的一种优选方式，所述S3包括步骤：在对原始数据集进行重新采样后，将平衡的数据集和从稀缺的攻击类型中收集的数据样本用于形成孪生胶囊神经网络的训练集。

作为本发明的一种优选方式，所述S5包括步骤：在测试阶段将平衡的小样本训练集用作支持集，用于识别异常的网络行为；使用支持集中最相似的样本，在从孪生胶囊神经网络中提取特征后对被测样本进行分类。

作为本发明的一种优选方式，所述孪生胶囊神经网络包括孪生神经网络和胶囊网络，所述孪生神经网络通过比较测试样本和支持集中的标记样本之间的相似度来对样本进行分类。

作为本发明的一种优选方式，所述孪生神经网络通过比较测试样本和支持集中的标记样本之间的相似度来对样本进行分类包括步骤：

M1：确定类型的数量C和每种类型的采样值K，构建一个小样本学习数据集，包括训练集、支持集和测试集；

M2：选择合适的特征提取神经网络算法，构建具有权重共享的骨干网络，选择合适的相似度测量方法，构建比较网络；

M3：随机抽取相同类型和不同类型的样本对作为孪生神经网络的输入，若输入样本对中的两个样本类型相同，则相似度标签为1，若类型不同，则相似度标签为0；

M4：将输出标签与真实标签进行比较，得到损失，并一步步迭代建立网络模型；

M5：将被测样本和支持集中的样本组成的样本对输入到模型中，测量相似度，取支持集中与被测样本相似度最高的样本类型作为被测样本类型。

作为本发明的一种优选方式，所述S5还包括步骤：样本通过初始卷积层运算提取出特征，其中卷积层由一维卷积核和ReLu激活函数组成，再通过初始胶囊层将特征转化为矢量，作为胶囊路由算法的输入，胶囊路由算法在对向量进行矩阵变换、输入加权、求和、非线性变换操作后，输出一个代表图像特征的向量V，胶囊网络的输出作为比较网络的输入；

使用孪生胶囊神经网络进行入侵检测，度量模型作为小样本学习方法的关键部分，使用度量学习方法的孪生神经网络，通过结合小样本学习和胶囊网络构建的孪生神经网络处理入侵检测中攻击样本稀少和样本特征位置。

作为本发明的一种优选方式，所述S5还包括步骤：在共享权重的骨干网络中，样本通过二维卷积运算获得初始特征提取后的特征向量，特征重塑后，输入到胶囊网络进行方向性提取，并使用扁平化层将胶囊网络输出的向量压缩为一维，将不同样本的一维向量在比较网络中进行相似性比较。

作为本发明的一种优选方式，所述S6包括：在相似比较中，将两个一维向量相减，再将绝对值相加，得到两个特征向量之差的范数，将其输入到全连接网络层中，其中两次全连接到这个范数，且第二次全连接到一个神经元，用Sigmoid激活函数激活神经元的输出，使其数值在[0，1]之间，使用二元交叉熵来计算损失，表达式为：

其中，

，

是一次输入的两个随机样本，

表示相似度标签，

表示两个随机样本的损失函数，

表示两个随机样本的相似概率，若样本类型相同，则

=1，否则为

=0。

区别于现有技术，上述技术方案所达到的有益效果有：

本方案基于小样本学习的孪生胶囊神经网络，有效的解决了异常网络流量训练数据的稀缺性，实现了对不同类型网络攻击的可靠检测，并加强了对未知攻击的检测识别。

附图说明

图1为具体实施方式所述方法整体框架示意图。

图2为具体实施方式所述无监督子类型抽样方法示意图。

图3为具体实施方式所述胶囊网络示意图。

图4为具体实施方式所述孪生胶囊神经网络入侵检测方法示例图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本实施例提供了一种基于小样本学习的孪生胶囊网络入侵检测方法，包括以下步骤：

下面将详细的介绍所提出的基于小样本学习的孪生胶囊神经网络入侵检测方法，该网络的核心是两个孪生胶囊神经网络，它提供了一个平行的网络结构，以实现从不同流量样本的定向特征提取，具体而言，在训练阶段，网络依靠少量的样本来获得一个有效的检测模型，且不会陷入过拟合，然后，在测试阶段，可以使用相似性度量方法对不在训练集中的异常样本进行有效分类；具体的包括以下处理过程：

如图1所示，在入侵检测算法的训练阶段，将来自不同类型的攻击和正常网络流量的数据样本进行聚类，并根据提出的无监督子类型抽样方案进行抽样，其中聚类方法和无监督子类型抽样方法具体实施方法如下：

如图2所示，在进行无监督子类型采样时，首先使用自适应K均值聚类（K-means）方法将样本聚类为每个攻击类型的子类型，用于再采样方案，然后对每个子类型逐一进行随机抽样，以获得代表该类型的子集，供训练使用，表达式为：

其中

表示样本

的轮廓系数，

代表聚类中的样本

到聚类中所有其他样本的距离的平均值，

代表聚类中的样本

表示选取两者中最大的值，轮廓系数的计算结果在-1 和1之间。

在设定一组候选K值并使用K-means方法对各攻击类型的数据进行聚类后，根据以下公式选择各类型的最终K值，即从前

个最大的轮廓系数中选择最小的聚类数，表达式为：

代表最大的前

个轮廓系数所对应的聚类数，

表示使用

次K-means方法，每一次对应一个轮廓系数，在本实施例中，

的选值范围不会超过10次，即2-10次。

在获得最合适的聚类数量后，从聚类后的每个子类型中抽取一个样本，建立一个足够多类别的小样本训练集，这种抽样方法能够从足够多的类中选择有代表性的样本进行训练，可以缓解随机欠抽样中的信息损失问题。再使用无监督聚类得到一个带有子类型标签的类型集后，从不同的子类型中抽取一个样本，并生成这个类型的子集作为训练集。

在对原始数据集进行重新采样后，将平衡的数据集和从稀缺的攻击类型中收集的数据样本用于形成孪生胶囊神经网络的训练集；这样，本实施例就可以通过这种不平衡的数据集学习到更多与众不同的特征来识别网络攻击。

在测试阶段，将正常流量样本、已知攻击样本和未知攻击样本用作测试集。此外，在测试阶段将平衡的小样本训练集用作支持集，用于识别异常的网络行为；在测试阶段，使用支持集中最相似的样本，在从孪生胶囊神经网络中提取特征后对被测样本进行分类。需要指出的是，从流量向量转换而来的二维灰度图像被构建为所提框架的输入特征表示，其中孪生胶囊神经网络主要由孪生神经网络和胶囊网络两部分组成，具体说明如下：

孪生神经网络是监督学习框架领域中小样本学习的一种应用形式，主要作用是在极少的样本基础上学习一个可靠的分类模型，作为一种度量学习方法，孪生神经网络通过比较测试样本和支持集中的标记样本之间的相似度来对样本进行分类。而具体的分类任务建立过程如下：

以胶囊网络作为特征提取神经网络算法，其中孪生骨干网络的主要功能是从样本中提取特征，卷积神经网络可以有效地提取特征，但它也有一定的局限性；首先，数据是以标量方式在神经元之间传输的，标量只有内容而没有方向，所以卷积神经网络在识别特征之间的空间位置关系方面不强；其次，卷积神经网络的池化层会丢失很多有价值的信息，网络流量样本的特征位置非常重要，位置关系的混乱势必会影响判断结果的准确性。

具体来说，网络入侵攻击通常会产生非常突出的局部特征，与其他深度学习架构相比，基于胶囊的网络架构有一个独特的优势，即使用局部特征进行分类，这适合网络入侵检测系统的任务；其次，经典的卷积神经网络架构使用最大集合操作来探索特征之间的关系，而这种操作会导致从网络中提取的高层次特征的信息损失，相比之下，基于胶囊的网络架构利用动态路由来取代最大集合操作。考虑到网络入侵检测系统的特征空间相对较小，无法承受最大集合操作带来的信息损失，基于胶囊的网络架构更适合网络入侵检测系统。

虽然胶囊网络保证了特征提取过程的方向性，但从原始数据中提取特征的初始过程仍然需要依靠卷积操作。如图3所示，一个样本通过初始卷积层运算提取出特征，其中卷积层由一维卷积核和ReLu激活函数（线性整流函数）组成；再通过初始胶囊层将特征转化为矢量，作为胶囊路由算法的输入。胶囊路由算法在对向量进行矩阵变换、输入加权、求和、非线性变换等一系列操作后，输出一个代表图像特征的向量V。最终胶囊网络的输出可以作为比较网络的输入。

使用孪生胶囊神经网络进行入侵检测，度量模型作为小样本学习方法的关键部分，使用度量学习方法的孪生神经网络，通过结合小样本学习和胶囊网络构建的孪生神经网络可以有效地处理入侵检测中攻击样本稀少和样本特征位置敏感的问题。具体实施说明如下：

如图4所示，在共享权重的骨干网络中，样本通过二维卷积运算获得初始特征提取后的特征向量。

特征重塑后，输入到胶囊网络进行方向性提取，并使用扁平化（Flatten）层将胶囊网络输出的向量压缩为一维，将不同样本的一维向量在比较网络中进行相似性比较。

在相似比较中，首先将两个一维向量相减，再将绝对值相加，相当于得到两个特征向量之差的范数，然后，将其输入到全连接网络层中，其中两次全连接到这个范数，且第二次全连接到一个神经元，最后，用Sigmoid激活函数（逻辑函数）激活神经元的输出，使其数值在[0，1]之间，代表两张输入图片的相似程度。

使用随机样本对的孪生神经网络可以实现多分类任务，而本实施例根据孪生神经网络的输入，训练任务是按照二进制分类进行的。因此，使用二元交叉熵来计算损失，表达式为：

其中，

，

是一次输入的两个随机样本，

表示相似度标签，

表示两个随机样本的损失函数，

表示两个随机样本的相似概率，若样本类型相同，则

=1，否则为

=0。

基于上述实施例，使用了公开的数据集，分别是CICIDS-2017数据集（加拿大入侵检测数据集）和UNSW_NB15数据集（综合性网络攻击流量数据集）。CICIDS-2017数据集包含14个攻击样本和1个正常样本。本实施例选择其中8种样本类型，包括正常类型和7种攻击类型。UNSW_NB15数据集包含9个攻击样本和1个正常样本，选择其中7种样本类型，包括1种正常类型和6种攻击类型。为了模拟数据的不平衡性，分为两种类型，即充足型和稀缺型。

在CICIDS-2017数据集上选择的7种攻击类型中，将其中5种定义为已知攻击类型。另外2种攻击形式DoS Hulk攻击（Web服务器拒绝服务攻击）和Heartbleed攻击（心血漏洞攻击）模拟的是未知攻击，并且在训练集中没有这两种类型的样本。在已知的攻击类型中，Bot攻击（自动化程序流量攻击）和DDoS攻击（分布式拒绝服务攻击）被设定为有足够的流量样本，而PortScan攻击（端口扫描攻击）、DoS GoldenEye攻击（拒绝服务攻击）和Web AttackSQL Injection攻击（SQL注入攻击）的流量样本有限。数据集中的每个样本有78个特征和1个样本标签。设定N=9，并将每个样本建立为9∗9的灰度图像来提取几何特征。在UNSW_NB15数据集上选择的6种攻击类型中，将其中4种定义为已知攻击类型。另外2种攻击形式Backdoor攻击（后门攻击）和Shellcode攻击（缓冲区溢出漏洞攻击）模拟为未知的攻击，并且在训练集中没有这两种类型的样本可以使用。在已知的攻击类型中，Reconnaissance攻击（侦察跟踪攻击）和Exploits攻击（渗透攻击）被设定为有足够的流量样本，而Analysis攻击（分析攻击）和Generic攻击（模糊攻击）的流量样本有限。数据集中的每个样本有49个特征和1个样本标签。设定N=7，并将每个样本建立为7∗7的灰度图像来提取几何特征。

在两种不同的设置下进行实验，模拟实际应用中数据的不平衡性。在获得不同类型的可用训练数据集后，通过无监督子类型抽样，选取价值样本形成训练数据集，建立不同样本量的多个训练集，验证方法的可用性，训练A和训练B表示两个不同样本量的训练集。

此外，未知攻击样本的分类依赖于它们与正常样本和异常样本的相似性的比较，因此，该模型对流量样本的检测是一个对正常样本和异常样本进行二元分类的过程，样本的测试结果分为以下四种类型。

（1）TP：正常样本被正确检测为正常样本；

（2）FN：正常样本被错误地分类为异常样本；

（3）TN：攻击样本被正确检测为异常样本；

（4）FP：攻击样本被错误地分类为正常样本；

使用三个评价指标，包括准确率（Accuracy）、精确率（Precision）和召回率（Recall）来评价该方法；准确率（Accuracy）是指正确分类的样本数与总样本数之比，它可以反映模型分类的准确性。精确率是指真正的阳性样本在被判断为阳性的样本中所占的比例。召回率指的是被判断为阳性的样本在所有真正阳性的样本中的比例。后两项可以从两个方面反映方法的分类性能：假阳性和漏报。各项评价标准的公式如下:

以上三个评价标准可以有效判断方法的检测精度。如下表所示，与其他方法相比，孪生胶囊神经网络入侵检测方法只用了非常少的样本进行训练就能达到很高的检测精度。此外，孪生胶囊神经网络入侵检测方法还具有检测未知攻击的优势。在训练B上，如果不包括对未知攻击的检测，该方法的准确率、精确度和召回率分别可以达到96.26%、99.07%和96.70%；与使用相同数据集的方法相比，本实施例在检测精度上有更好的表现，即使与其他使用大量样本进行训练的先进方法相比，该方法的整体性能仍然不落后；本实施例对样本数量的要求极低，对未知攻击的检测能力突出，更接近于真实场景下的入侵检测。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的保护范围之内。

Claims

1.一种基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S1包括步骤：在入侵检测算法的训练阶段，将来自不同类型的攻击和正常网络流量的数据样本进行聚类，并根据提出的无监督子类型抽样方案进行抽样；

其中

表示样本

的轮廓系数，

代表聚类中的样本

到聚类中所有其他样本的距离的平均值，

代表聚类中的样本

表示选取两者中最大的值；

代表最大的前

个轮廓系数所对应的聚类数。

3.根据权利要求2所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S2包括步骤：在获得最合适的聚类数量后，从聚类后的每个子类型中抽取一个样本，建立一个足够多类别的小样本训练集；再使用无监督聚类得到一个带有子类型标签的类型集后，从不同的子类型中抽取一个样本，并生成这个类型的子集作为训练集。

4.根据权利要求3所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S3包括步骤：在对原始数据集进行重新采样后，将平衡的数据集和从稀缺的攻击类型中收集的数据样本用于形成孪生胶囊神经网络的训练集。

5.根据权利要求4所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S5包括步骤：在测试阶段将平衡的小样本训练集用作支持集，用于识别异常的网络行为；使用支持集中最相似的样本，在从孪生胶囊神经网络中提取特征后对被测样本进行分类。

6.根据权利要求5所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述孪生胶囊神经网络包括孪生神经网络和胶囊网络，所述孪生神经网络通过比较测试样本和支持集中的标记样本之间的相似度来对样本进行分类。

7.根据权利要求6所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述孪生神经网络通过比较测试样本和支持集中的标记样本之间的相似度来对样本进行分类包括步骤：

8.根据权利要求7所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S5还包括步骤：样本通过初始卷积层运算提取出特征，其中卷积层由一维卷积核和ReLu激活函数组成，再通过初始胶囊层将特征转化为矢量，作为胶囊路由算法的输入，胶囊路由算法在对向量进行矩阵变换、输入加权、求和、非线性变换操作后，输出一个代表图像特征的向量V，胶囊网络的输出作为比较网络的输入；

9.根据权利要求8所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S5还包括步骤：在共享权重的骨干网络中，样本通过二维卷积运算获得初始特征提取后的特征向量，特征重塑后，输入到胶囊网络进行方向性提取，并使用扁平化层将胶囊网络输出的向量压缩为一维，将不同样本的一维向量在比较网络中进行相似性比较。

10.根据权利要求9所述的基于小样本学习的孪生胶囊网络入侵检测方法，其特征在于，所述S6包括：在相似比较中，将两个一维向量相减，再将绝对值相加，得到两个特征向量之差的范数，将其输入到全连接网络层中，其中两次全连接到这个范数，且第二次全连接到一个神经元，用Sigmoid激活函数激活神经元的输出，使其数值在[0，1]之间，使用二元交叉熵来计算损失，表达式为：

其中，

,

是一次输入的两个随机样本，

表示相似度标签，

表示两个随机样本的损失函数，

表示两个随机样本的相似概率，若样本类型相同，则

，否则为

。