CN109902754A

CN109902754A - 一种高效的半监督多层次入侵检测方法及系统

Info

Publication number: CN109902754A
Application number: CN201910164419.3A
Authority: CN
Inventors: 曹卫东; 许志香
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-06-18

Abstract

本发明涉及一种高效的半监督多层次入侵检测方法及系统，属于网络安全中的入侵检测领域，至少包括如下步骤：步骤一、将数据集中的符号属性转化为数值型属性，然后将所有数值型属性归一化；步骤二、将经过数值化和归一化处理之后的数据，作为构建Kd‑tree的数据集，计算结点的密度权值与距离权值，在高样本密度区选择K‑means算法的初始聚类中心；步骤三、将聚类之后的数据分成三个类簇，借助改进的Tri‑training方法扩充有标签数据集，采用加权投票规则对无标签样本打标签；步骤四、经过扩充后的有标签数据集作为分类器的输入，分类器采用二叉树型，每一层都采用二分类器。

Description

一种高效的半监督多层次入侵检测方法及系统

技术领域

本发明属于网络安全中的入侵检测领域，具体涉及一种高效的半监督多层次入侵检测方法及系统。

背景技术

随着网络与信息技术日新月异的发展，网络安全问题已经成为一个备受关注的重大问题。入侵检测(Intrusion Detection)是一种积极主动的安全防护技术，通过分析网路流量或系统审计记录发现入侵行为，当发现可疑通信时发出告警或采取防御措施以保证系统安全。

目前基于机器学习与深度学习的入侵检测学习算法是国内外学者研究的重点，对现有的入侵检测方法总结分析如下：

(1)基于统计的入侵检测方法。统计模型的基础是收集大量的训练数据，在数据中获得各个特征的取值范围划分统计区间，从而确定系统特征的统计度量值，并推测出统计测度，是早期异常检测的基础。统计方法依赖于大量的已知数据，但是这种方法不能反映所识别出的事件在时间上的先后顺序，阈值的设置也是影响系统准确率的因素之一。

(2)基于规则的入侵检测方法。系统需要动态建立和维护一个规则库，利用规则对发生的事件进行判断。规则的建立通常也依赖于大量已有的知识，与统计方法的区别在于建立的是规则而不是系统度量，例如树形规则库或基于时间的规则库。专家系统是一种基于预定义规则的方法，根据专家经验预先定义系统的推理规则，将已知的入侵行为特征或攻击代码等编为规则集，是误用入侵检测的典型方法。基于规则的方法对于已知的攻击或入侵有很高的检测率，但是难以发现未知攻击。

(3)基于神经网络的入侵检测方法。神经网络方法以其并行式计算、分布式存储、以及多层结构的特点，适合于计算大规模、高维度的网络数据。通过已知数据训练神经网络分类器，然后以待分类的数据作为神经网络的输入，通过隐层的计算，最终输出层的结果即为分类结果。神经网络方法的优势是能够处理大规模、高维度的数据，缺点是所构建的神经网络隐层拓扑以及输出结果等通常难以控制和解释。

除此之外，基于有监督的学习算法，这种算法分类准确率较高，但在模型训练阶段需要大量有标签数据；无监督学习算法虽克服了需要大量有标签数据的问题，但分类准确率较低；而且现有的半监督入侵检测算法对R2L(Remote to Local,R2L)和U2R(User toRoot,U2R)两种类型的检测率较低，常导致入侵检测系统漏报率与误报率较高，基于此提出一种高效的半监督多层次入侵检测算法，用于提高U2R及如R2L两种攻击类型的检测率。

发明内容

本发明为解决公知技术中存在的技术问题，提供一种高效的半监督多层次入侵检测方法及系统。

本发明的第一目的是提供一种高效的半监督多层次入侵检测方法，至少包括如下步骤：

步骤一、将数据集中的符号属性转化为数值型属性，然后将所有数值型属性归一化；

步骤二、将经过数值化和归一化处理之后的数据，作为构建Kd-tree的数据集，计算结点的密度权值与距离权值，在高样本密度区选择K-means算法的初始聚类中心；

步骤三、将聚类之后的数据分成三个类簇，借助改进的Tri-training方法扩充有标签数据集，采用加权投票规则对无标签样本打标签；

步骤四、经过扩充后的有标签数据集作为分类器的输入，分类器采用二叉树型，每一层都采用二分类器。

进一步：上述步骤一具体为：首先用数据集中的protocol_type、service、flag三个符号属性各值出现的频次替代原属性值，然后用最小-最大化方法对全部数值属性归一化处理，使得各属性取值处于同一个数量级，以此得到标准化的数据集。

进一步：上述步骤二具体为：首先计算数据集中具有最大方差值的维度作为split值，将数据集划分成左右子空间，并按照同样的方法划分构建Kd-tree；其次，计算每一个叶子结点的体积、密度及加权密度，选择密度权重最大的叶子结点作为第一个种子中心，剩下的种子通过计算叶子结点的距离估计来确定，叶节点距离估计值是与其相距最近的聚类中心的距离，并在每计算完一个新的聚类中心后更新，如此不断地迭代直到最终的聚类中心集合不在发生变化。

进一步：上述步骤三具体为：扩充后的数据按照有无标签划分为：全部为有标签、混合、全部为无标签三种；全部为无标签的类簇根据最近邻规则找到距离其最近的有标签类簇合并形成混合类簇；混合类簇则通过Tri-training方法给无标签数据打标签，分类器投票采用加权投票规则给无标签数据打标签。

进一步：上述步骤四具体为：第一层设计为具有二叉树形式的树形分类器，树形分类器分四级，为提高分类效率及准确率，每一级都设置为二分类器，每一个二分类器输出样本所属类别的概率，第一级数据划分为DOS和C2，第二级将C2中的数据划分为Probe和C3，第三级将C3划分为R2L和C4，第四级将C4划分成U2R和Normal；将所有概率输出值作为第二层分类器的输入，判断最终的决策。

本发明的第二目的是提供一种高效的半监督多层次入侵检测系统，至少包括：

模块A、将数据集中的符号属性转化为数值型属性，然后将所有数值型属性归一化；

模块B、将经过数值化和归一化处理之后的数据，作为构建Kd-tree的数据集，计算结点的密度权值与距离权值，在高样本密度区选择K-means算法的初始聚类中心；

模块C、将聚类之后的数据分成三个类簇，借助改进的Tri-training方法扩充有标签数据集，采用加权投票规则对无标签样本打标签；

模块D、经过扩充后的有标签数据集作为分类器的输入，分类器采用二叉树型，每一层都采用二分类器。

进一步：上述模块A具体为：首先用数据集中的protocol_type、service、flag三个符号属性各值出现的频次替代原属性值，然后用最小-最大化方法对全部数值属性归一化处理，使得各属性取值处于同一个数量级，以此得到标准化的数据集。

进一步：上述模块B具体为：首先计算数据集中具有最大方差值的维度作为split值，将数据集划分成左右子空间，并按照同样的方法划分构建Kd-tree；其次，计算每一个叶子结点的体积、密度及加权密度，选择密度权重最大的叶子结点作为第一个种子中心，剩下的种子通过计算叶子结点的距离估计来确定，叶节点距离估计值是与其相距最近的聚类中心的距离，并在每计算完一个新的聚类中心后更新，如此不断地迭代直到最终的聚类中心集合不在发生变化。

进一步：上述模块C具体为：扩充后的数据按照有无标签划分为：全部为有标签、混合、全部为无标签三种；全部为无标签的类簇根据最近邻规则找到距离其最近的有标签类簇合并形成混合类簇；混合类簇则通过Tri-training方法给无标签数据打标签，分类器投票采用加权投票规则给无标签数据打标签。

进一步：上述模块D具体为：第一层设计为具有二叉树形式的树形分类器，树形分类器分四级，为提高分类效率及准确率，每一级都设置为二分类器，每一个二分类器输出样本所属类别的概率，第一级数据划分为DOS和C2，第二级将C2中的数据划分为Probe和C3，第三级将C3划分为R2L和C4，第四级将C4划分成U2R和Normal；将所有概率输出值作为第二层分类器的输入，判断最终的决策。

本发明具有的优点和积极效果是：

通过采用上述技术方案，本发明通过对现有入侵检测算法的研究，提出了一种高效的半监督多层次入侵检测算法，基于Kd-tree结构，利用加权密度在高密度样本区选择K-means算法初始聚类中心；其次，聚类之后的数据分为三个类簇，借助Tri-training提出一种加权投票规则扩充有标签数据集；最后，利用二叉树形结构设计层次化分类模型，在NSL-KDD数据集上做实验验证。结果表明半监督多层次入侵检测模型能够在利用少量有标签数据的情况下，有效提高R2L及U2R两类攻击的检测率，从而降低系统的漏报率。

附图说明

图1为基于Kd-tree快速选取K-means初始聚类中心算法流程图；

图2为层次化分类设计原理图；

图3为传统tri-training与本文改进算法各类型检测率对比图；

图4为有标签数据比例不同各算法准确率对比图；

图5为不同算法检测率对比图；

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

请参阅图1至图5，一种高效的半监督多层次入侵检测方法，包括：

具体步骤如下：

(1)采用统计信息，将各属性中不同值出现的频次替代原属性值，这样做可以避免替换时同一属性不同值之间距离不均衡，从而导致错误聚类的问题。

(2)对经(1)处理后的数据按公式(1)做归一化处理，使各属性取值处于同一数量级，有利于综合对比评价。根据公式将数据型数据线性映射到[0,1]区间。

其中x是属性值，min是该属性的最小取值，max是该属性的最大取值。

步骤二、将经过数值化和归一化处理之后的数据，作为构建Kd-tree的数据集，计算结点的密度权值与距离权值，在高样本密度区选择K-means算法的初始聚类中心，；

具体步骤如下：

(1)根据处理之后的数据集构建Kd-tree，按照公式(2)计算第i个叶子结点的体积：

其中，代表结点i在第j维上投影坐标最大值，代表结点i在第j维上投影坐标最小值。

(2)另N_i表示第i个叶子结点内包含的样本点数量，第i个叶子结点的密度估计δ_i＝N_i/V_i，按公式(3)计算叶节点加权密度估计值。

其中，α_i是第i个叶子结点的加权密度估计值，q表示叶子结点数量，δ_i是第i个叶子结点的密度，δ_sum表示所有叶子结点的密度和。

(3)模型训练开始时，选密度权重最大的叶子结点的均值作为第一个种子中心，剩下的种子通过计算叶结点的距离估计来确定，叶节点距离估计值是与其相距最近的聚类中心的距离，并在每计算完一个新的聚类中心后更新，假设t个聚类中心已确定，在第t+1轮迭代时，按公式(4)计算第i个叶子的距离估计值。

其中，m_i为第i个叶子结点的中值，γ_i是第i个叶子结点的距离估计值，c_k是第k次迭代时第i个叶子结点的聚类中心。

(4)按公式(5)计算叶节点加权距离估计值。

其中，β_i是第i个叶子结点的加权距离估计值，γ_sum是所有叶子结点的距离估计值之和。

(5)按照公式(6)选择具有最高密度权值与距离权值的叶节点的均值作为初始的聚类中心。

步骤三、聚类之后的数据被分成三个类簇，借助改进的Tri-training方法扩充有标签数据集，采用加权投票规则对无标签样本打标签；

具体步骤如下：

(1)将聚类之后的数据分为三个类簇，按公式(7)计算每个类簇的分布函数。

其中，代表类簇k的分布函数值，x_i代表样本i，y_i是样本i的标签，y_j是预测的样本i的标签。

(2)按照公式(8)判断每个类簇的类型，若满足等式(8)，则此类簇为原子类簇，否则称为非原子类簇。原子类簇保留其标签，针对全部为无标签样本的类簇，根据近邻规则找到距离其最近的有标签类簇合并，形成新的混合类簇。

(3)对于非原子类簇中的数据，按照公式(9)计算Tri-training中三个分类器的权值。

其中，H_i(x)代表分类器i，A_i(D_Labeled)第i个分类器对有标签数据集D_Labeled的分类准确率。

步骤四、经过扩充后的有标签数据集作为分类器的输入，分类器采用二叉树型，每一层都采用二分类器，加快搜索速度，同时也能提高分类准确率；

具体步骤如下：如图2所示，采用层次化分类设计，分类规则如下

将拒绝服务攻击类型用DOS表示，C2表示除DOS以外的所有样本数据(包括Probe、R2L、U2R、Normal)；C3表示C2中除Probe之外的所有样本数据(包括R2L、U2R、Normal)；C4表示C3中除R2L之外的所有样本数据(包括U2R、Normal)。

(1)第一级，若二分类器计算得到DOS类型的概率输出值大于C2，则将Probe、C3、R2L、C4、U2R、Normal的概率输出值置0；

(2)第二级，若二分类器计算得到Probe类型的概率输出值大于C3，则将R2L、C4、U2R、Normal的概率输出值置0；

(3)第三级，若二分类器计算得到R2L类型的概率输出值大于C4，则将U2R、Normal的概率输出值置0；

(4)第四级，二分类器输出U2R及Normal类型的概率输出值，之后，将各级二分类器概率输出值作为第二层分类器的输入，同样采用二分类器输出样本属于Normal或Attack的概率值，并进一步做出判断。

实施例：

为了验证本方法的效果，本发明人设计了相应的实施例，一方面实验设计提出的基于Kd-tree加权密度选取K-means初始聚类中心的有效与提出的基于加权投票规则改进Tri-training算法的有效性；另一方面与目前采用较多的半监督入侵检测算法，基于支持向量机的半监督入侵检测算法(SS-SVM)、基于多层感知机的半监督的入侵检测算法(SS-MLP)进行比较。

入侵检测数据集采用NSL-KDD，Probe、R2L、U2R数据全部保留加入到训练集中，随机从DOS和Normal中选择若干数据构成训练集,训练集样本构成如表1所示。

表1训练集样本数据构成

对比一：为验证利用Kd-tree的加权密度估计对K-means聚类效率的影响，将传统K-means算法、基于Kd-tree的密度选择初始聚类中心算法与本文提出的基于Kd-tree的加权密度选取K-means初始聚类中心运行时间做比较，实验结果如表2所示。由表2可以得出，本文所提算法检测准确率与传统K-means算法相差2％左右，但模型的运行时间却大大缩短，这是由于传统K-means在邻近最终的聚类中心时，算法很难收敛，导致模型的训练时间过长。基于Kd-tree密度选取算法准确率虽与本文算法近似，但运行时间却较长，而网络中的入侵行为要及时检测并给予响应，因此综合考虑，本文算法更具实用性。

表2算法运行时间及聚类准确率比较

对比二：为验证Tri-training中提出的加权投票规则对无标签样本打标签准确率的有效性，将传统tri-training算法与本文所提算法对各类型数据检测率作比较，实验结果如图3所示。由图3结果得知，基于加权投票规则能够在一定程度上提高各类型的检测成功率，但针对R2L和U2R两类攻击检测率仍有待提高

对比三：为进一步验证半监督思想在本模型中的有效性，采用不同比例的有标签数据用训练模型，最终的测试结果如图4所示。由图4可知，随着有标签数据量的增加，各算法的准确率都有提升，本文所提算法相比其他模型在有标签数据量相同时，检测准确率较高，特别是当有标签数据量占据训练集一半时，检测准确率已达到94.07％，说明半监督思想能够应用于入侵检测模型中，由此可以避免人工打标签。

对比四：为进一步验证层次化分类模型对U2R和R2L两类攻击的检测率，特与其他算法作对比，有标签数据集占训练集的70％，实验结果如图5所示。由图5得知，本文提出的半监督多层次分类模型与其它半监督算法总体检测率与准确率相差不大，但R2L及U2R两种类型的检测率却有较大提升，能够有效检测出此类攻击，降低系统的漏报率。

本发明提供的一种高效的半监督多层次入侵检测算法基本原理如下：首先利用Kd-tree结构，提出一种加权密度方法加快K-means的聚类过程；其次，利用改进的Tri-training方法扩充有标签数据集，充分利用大量无标签数据辅助模型进行学习做出判断；最后，利用分层次模型，采用二叉树形结构对每种类型做出判断，进而提高R2L及U2R两种攻击类型的检测率。

一种高效的半监督多层次入侵检测系统，包括：

具体步骤如下：

模块B、将经过数值化和归一化处理之后的数据，作为构建Kd-tree的数据集，计算结点的密度权值与距离权值，在高样本密度区选择K-means算法的初始聚类中心，；

具体步骤如下：

其中，m_i为第i个叶子结点的均值。

(4)按公式(5)计算叶节点加权距离估计值。

模块C、聚类之后的数据被分成三个类簇，借助改进的Tri-training方法扩充有标签数据集，采用加权投票规则对无标签样本打标签；

具体步骤如下：

模块D、经过扩充后的有标签数据集作为分类器的输入，分类器采用二叉树型，每一层都采用二分类器，加快搜索速度，同时也能提高分类准确率；

具体步骤如下：如图2所示，采用层次化分类设计，分类规则如下：

实施例：

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种高效的半监督多层次入侵检测方法，其特征在于，至少包括如下步骤：

2.根据权利要求1所述的高效的半监督多层次入侵检测方法，其特征在于：上述步骤一具体为：首先用数据集中的protocol_type、service、flag三个符号属性各值出现的频次替代原属性值，然后用最小-最大化方法对全部数值属性归一化处理，使得各属性取值处于同一个数量级，以此得到标准化的数据集。

3.根据权利要求1或2所述的高效的半监督多层次入侵检测方法，其特征在于：上述步骤二具体为：首先计算数据集中具有最大方差值的维度作为split值，将数据集划分成左右子空间，并按照同样的方法划分构建Kd-tree；其次，计算每一个叶子结点的体积、密度及加权密度，选择密度权重最大的叶子结点作为第一个种子中心，剩下的种子通过计算叶子结点的距离估计来确定，叶节点距离估计值是与其相距最近的聚类中心的距离，并在每计算完一个新的聚类中心后更新，如此不断地迭代直到最终的聚类中心集合不在发生变化。

4.根据权利要求3所述的高效的半监督多层次入侵检测方法，其特征在于：上述步骤三具体为：扩充后的数据按照有无标签划分为：全部为有标签、混合、全部为无标签三种；全部为无标签的类簇根据最近邻规则找到距离其最近的有标签类簇合并形成混合类簇；混合类簇则通过Tri-training方法给无标签数据打标签，分类器投票采用加权投票规则给无标签数据打标签。

5.根据权利要求4所述的高效的半监督多层次入侵检测方法，其特征在于：上述步骤四具体为：第一层设计为具有二叉树形式的树形分类器，树形分类器分四级，为提高分类效率及准确率，每一级都设置为二分类器，每一个二分类器输出样本所属类别的概率，第一级数据划分为DOS和C2，第二级将C2中的数据划分为Probe和C3，第三级将C3划分为R2L和C4，第四级将C4划分成U2R和Normal；将所有概率输出值作为第二层分类器的输入，判断最终的决策。

6.一种高效的半监督多层次入侵检测系统，其特征在于，至少包括：

7.根据权利要求6所述的高效的半监督多层次入侵检测系统，其特征在于：上述模块A具体为：首先用数据集中的protocol_type、service、flag三个符号属性各值出现的频次替代原属性值，然后用最小-最大化方法对全部数值属性归一化处理，使得各属性取值处于同一个数量级，以此得到标准化的数据集。

8.根据权利要求6或7所述的高效的半监督多层次入侵检测系统，其特征在于：上述模块B具体为：首先计算数据集中具有最大方差值的维度作为split值，将数据集划分成左右子空间，并按照同样的方法划分构建Kd-tree；其次，计算每一个叶子结点的体积、密度及加权密度，选择密度权重最大的叶子结点作为第一个种子中心，剩下的种子通过计算叶子结点的距离估计来确定，叶节点距离估计值是与其相距最近的聚类中心的距离，并在每计算完一个新的聚类中心后更新，如此不断地迭代直到最终的聚类中心集合不在发生变化。

9.根据权利要求8所述的高效的半监督多层次入侵检测系统，其特征在于：上述模块C具体为：扩充后的数据按照有无标签划分为：全部为有标签、混合、全部为无标签三种；全部为无标签的类簇根据最近邻规则找到距离其最近的有标签类簇合并形成混合类簇；混合类簇则通过Tri-training方法给无标签数据打标签，分类器投票采用加权投票规则给无标签数据打标签。

10.根据权利要求9所述的高效的半监督多层次入侵检测方法，其特征在于：上述模块D具体为：第一层设计为具有二叉树形式的树形分类器，树形分类器分四级，为提高分类效率及准确率，每一级都设置为二分类器，每一个二分类器输出样本所属类别的概率，第一级数据划分为DOS和C2，第二级将C2中的数据划分为Probe和C3，第三级将C3划分为R2L和C4，第四级将C4划分成U2R和Normal；将所有概率输出值作为第二层分类器的输入，判断最终的决策。