CN110266672A

CN110266672A - 基于信息熵和置信度下采样的网络入侵检测方法

Info

Publication number: CN110266672A
Application number: CN201910498992.8A
Authority: CN
Inventors: 李冬冬; 王喆; 曹晨杰; 杨孟平; 杜文莉; 张静
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-09-20
Anticipated expiration: 2039-06-06
Also published as: CN110266672B

Abstract

本发明提供了一种基于信息熵和置信度下采样的网络入侵检测方法。本发明同时采用了信息熵以及算法置信度来作为下采样的采样基准，以代替传统对多数类的随机下采样策略；其次，通过Boosting的集成思想，将该动态下采样的方法推广至任何算法；并且本发明中使用的信息熵同时包含了样本模糊隶属度以及结构信息，因此能够有效抑制多数类的信息损失。相较于传统的不平衡分类集成方法，本发明首次将动态下采样与信息熵以及置信度结合，不但能够使得集成模型能够适应于更多的基算法，更有效提升了模型对不平衡网络入侵的检测性能。

Description

基于信息熵和置信度下采样的网络入侵检测方法

技术领域

本发明涉及一种不平衡网络入侵检测识别方法，属于网络信息安全领域

背景技术

在网络技术飞速发展的这十几年里，网络安全问题逐渐被大众所重视。其中网络入侵识别方法的相关研究是现今的热门研究领域。对现有的网络攻击进行初步分类，基本的攻击类型包括拒绝服务(Denial of Service，DoS)、未授权的远程主机访问(Remote-to-Login，R2L)、未经授权获取超级用户访问(User-to-Root，U2R)、监听探测(Probing)等。上述的网络攻击手段同时存在一些子类型的变种，因此对这些网络入侵方法进行识别有着重大的实际应用价值。

现有的常用网络攻击检测方法可以简单总结如下：1)基于规则的检测方法来进行筛选，对现有规则数据库依赖性高，但是对新类型的网络入侵的更新效率低，容易造成巨大损失； 2)依赖于网络流特征分布的检测方法，但是这种方法的检测准确率不佳，存在随机性，可以通过部分攻击手段进行规避；3)基于机器学习的入侵检测方法，例如使用支持向量机，随机森林，神经网络等。使用基于机器学习方法能够有效及时应对未知的网络攻击。但是受限于不同的物理条件和环境限制，网络入侵的数量在类别上往往是不平衡的，因此传统的机器学习方法难以解决不平衡类型的网络入侵。

在数据层面上的采样算法能够很好地针对不平衡网络入侵问题。采样算法可以进一步分为静态采样和动态采样，静态采样算法独立于算法模型，具有代表性的是随机下采样，随机上采样，SMOTE，以及基于聚类的采样算法。此外，静态采样算法还有一些基于边界采样进行的，例如边界SMOTE和单边下采样等，由于边界样本往往在训练的时候更具有价值，因此能够在相当一部分数据集上得到更好的效果。另一方面，动态采样充分利用了算法的性能补充了静态采样的信息丢失，具有代表性的算法有，活跃SVM学习(LASVM-AL)，单边动态下采样(ODU)等。由于在采样的时候需要分类器算法的输出作为参考，因此动态边界采样算法往往都只能基于迭代性质的算法上。

使用集成学习来解决不平衡问题往往是与数据采样或者代价敏感相结合的。这些基于采样的集成方法以不同的集成、采样的交叉策略又能进一步分为基于不同采样模式的bagging 集成，boosting集成以及混合集成的策略。这些方法在集成领域都已经有了不少代表性的算法。集成算法结合代价敏感，一般是基于boosting策略的。然而在集成算法中使用的采样算法往往都比较简单，没有考虑到样本的信息保护。

然而，仍然存在以下三个问题：1)边界动态采样算法存在对边界样本的过拟合现象， 2)在基于数据预处理的集成学习中如何有效保留样本的结构信息，3)如何让动态采样算法不受限于迭代算法，使其能够推广至更广的领域。本发明将Boosting集成算法和动态边界下采样进行结合，同时引入了样本模糊隶属度和结构信息熵来保护样本的结构信息，将其与输出置信度进行归一化后将动态下采样推广至随机森林等非迭代算法领域。通过在KDD99不平衡网络入侵分类问题上的实验结果可以得知本发明拥有对于不平衡网络入侵问题具有更优秀的分类性能，在平均准确率上取得了优异的效果。

发明内容

针对现存的采样集成算法无法有效解决不平衡网络入侵问题，本发明同时使用了自定义了信息熵以及算法置信度来作为下采样的采样基准，以代替传统对多数类的随机下采样策略；其次，通过Boosting的集成思想，将该动态下采样的方法推广至任何算法；并且本发明中使用的信息熵同时包含了样本模糊隶属度以及结构信息，因此能够有效抑制多数类的信息损失。相较于传统的不平衡分类集成方法，本发明首次将动态下采样与信息熵以及置信度结合，不但有效提升了不平衡分类问题中的泛化性能，更能够使得集成模型能够适应于更多的基算法。

本发明解决其技术问题所采用的技术方案：在预处理阶段，后台根据具体问题描述，将采集的样本集特征转为适于后续处理的数据矩阵；在训练过程中，首先分别计算多数类样本的模糊隶属度以及结构信息熵，将其等权重归一化后求和作为采样基准之一；使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank，作为下一轮的下采样的基准；最后，使用训练所得模型构造的置信度重新计算Rank进行下采样，循环迭代直到集成次数上限L；在测试过程中，将测试数据集输入所得的Boosting集成模型中，测试过程中无需下采样。

本发明解决其技术问题所采用的技术方案还可以进一步细化。所述的Boosting集成模型的基分类器并不依赖于迭代性的算法，因此除了随机森林能够有更多的拓展。考虑到问题的解释性以及方法的实现难易程度，本实验中选择随机森林作为基分类器，因为作为非迭代算法，随机森林在平衡数据上有较理想的泛化性能。同时在测试和验证过程中，本发明使用多数类和少数类的平均准确率作为评价指标以客观地体现算法的性能。

本发明有益的效果是：通过设计一个基于信息熵和置信度下采样的Boosting集成模型，将动态下采样与Boosting集成结合解决不平衡分类问题；充分利用信息熵保留样本结构信息；运用置信度降低算法对迭代方法的依赖性。

附图说明

本发明整体流程图见附图1

本发明中结构信息熵的直观理解见附图2

本发明中随机森林置信度计算方法见附图3

具体实施方式

下面结合附图和实例对本发明作进一步介绍：本发明所设计的系统共分四个模块。

第一部分：数据采集

数据采集过程是将现实样本数据化，生成向量表示的数据集便于后续模块进行处理。在该步骤中，将采集到的样本分为训练样本与测试样本。先处理训练样本。一个训练样本生成一个向量其中，i表示该样本是总训练样本的第i个，c表示该样本属于第c个类。向量的每一元素对应样本的一个属性，向量的维度d为样本的属性数。为方便后续计算，将所有训练样本合成一个训练矩阵D，该矩阵中，每一行是一个样本。其中的特征可以进一步分为连续特征和离散特征，离散特征我们进行了one-hot处理。

第二部分：训练分类模型

在这个模块中，上一模块生成的训练样本矩阵D将被代入发明的核心算法中进行训练。主要步骤如下：

1)分别计算多数类样本的模糊隶属度以及结构信息熵，将其等权重归一化后求和作为采样基准之一：模糊隶属度由如下信息熵公式改进得到

其中p_i表示样本X属于类别C_i的比率，而C则是样本X的总类别数。显然，当Entropy(X)越低，说明样本X的类别确定度则更稳定。这里第i个多数类样本的模糊隶属度为：

Entropy_max＝-ln0.5

其中k为样本x_i的近邻数，和分别表示近邻样本中多数类和少数类的数量。在本算法中使用的模糊隶属度对离群点进行了特殊处理，当的时候，仍然能够保持单调性。因此，倾向于放弃离群的噪声点，同时能够对边界样本保持一定的鲁棒性。结构信息熵同样启发于信息熵的公式结构，定义为：

其中d_iq＝‖x_i-x_q‖表示样本x_i与周围k个样本欧氏距离。的分母显然是基于信息熵公式，因此当k近邻的欧式距离变化大的时候，则越大，反之则其值越小。显然，倾向于选择近邻样本变化小的结构稳定样本。对结构信息熵的直观理解可见附图2。在混合2种熵的时候使用了min-max归一化

所得的即直接参与下采样的筛选之中。

2)使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank，作为下一轮的下采样的基准：通过随机下采样来训练第一个随机森林，在下采样的时候随机选择等量于少数类数量的多数类样本N_p参与训练。训练所得模型输出的置信度计算方法为：

可以直观理解为叶节点中所属类别y′样本比例的均值，具体可以参考附件图3。多数类样本x_i下采样的最终基准Rank_i为

其中λ为权重系数，λ越大则倾向于信息熵，下采样则更偏向于保护稳定的样本，反之，则倾向于边界的活跃样本。在下采样的时候，将所有Rank值从小到大排序后选择Rank值最小的 N_p(少数类数量)个多数类样本参与下一轮迭代训练。在实验中，我们使用皮尔逊相关系数来检验和的相关性，并证明其结合是有效的。

3)使用训练所得模型构造的置信度重新计算Rank进行下采样，循环迭代直到集成次数上限L：对所有已经完成训练的模型进行置信度计算，所得值的均值来重新构造Confⁿ以及 Rank，从而来指导进行下一次的下采样。一般算法在5次迭代后样本的更替将趋于稳定。

第三部分：测试未知数据

该模块首先将第一模块中随机划分出的另一半样本作为测试样本构成测试样本矩阵，其中训练集和测试需要满足同概率分布的前提。将测试数据集输入所得的Boosting集成模型中，测试过程中无需下采样，具体实现为：训练集和测试需要满足同概率分布的前提。最终使用所有的L个模型进行判别：

其中，当y_i＝1，x_i属于少数类，否则则属于多数类。

实验设计

1)实验数据集选取与介绍：KDD是数据挖掘与知识发现(Data Mining andKnowledge Discovery)的简称，KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。“KDD CUP 99数据集”是网络入侵检测领域的标准，为基于计算智能的网络入侵检测研究奠定基础。而不同种类的网络攻击数据在数量上有着明显的不平衡现象，这也就构成了影响分类性能的主要因素。该实验选择了来自KEEL数据库的5个不平衡KDD Cup99数据集。分别为‘land_vs_satan’,‘guess_passwd_vs_satan’,‘land_vs_portsweep’,‘buffer_overflow_vs_back’和‘rootkit-imap_vs_back’。其数据信息如下表，数据中的离散特征均以替换为one-hot表示。

所有使用的数据集均采用5轮交叉验证进行检验，即将数据集打乱均等分为5份，每次训练使用其中4份进行训练，1份用于测试，并且总共进行5轮。即所有数据都会作为测试集参与测试。

2)对比模型：该发明所提出的系统命名为ECUBoost，基于随机森林的模型分别命名为ECUBoost-RF。另外，我们选择随机森林(RF)，双重子空间SVM(ABRS-SVM)以及基于代价敏感的SVM(CS-SVM)作为对比。

3)参数选择：ECUBoost中的系数λ＝{0,0.2,0.4,0.6,0.8}，近邻数k＝{3,5,7,…,15}，随机森林的树个数为50，SVM使用RBF核，其松弛系数C和核半径σ取值均为{0.01,0.1,1,10,100}，特征采样率均选自{0.5,0.7,0.9}

4)性能度量方法：实验统一使用多数类和少数类的平均准确率M-ACC作为评价标准。

5)所有模型在各KDD CUP 99数据集上的M-ACC结果如下表。表中最后一行是它们的平均M-ACC，黑色字体表示最优的结果。

上表可以发现本发明ECUBoost-RF能够在不平衡网络入侵检测中发挥优异的性能，明显超过了其他的对比算法。

Claims

1.基于信息熵和置信度下采样的网络入侵检测方法，其特征在于：具体步骤是：

1)预处理第一步：通过网络数据采集工具来构建网络攻击特征，将采集的样本集特征转为适于后续处理的数据矩阵；

2)预处理第二步：分别整理数据中的连续特征和离散特征，对所有离散特征进行one-hot的转换；

3)训练第一步：分别计算多数类样本的模糊隶属度以及结构信息熵，将其等权重归一化后求和作为采样基准之一。

4)训练第二步：使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank，作为下一轮的下采样的基准。

5)训练第三步：使用训练所得模型构造的置信度重新计算Rank进行下采样，循环迭代直到集成次数上限L。

6)测试：将测试数据集输入所得的Boosting集成模型中，测试过程中无需下采样。最终得到对网络入侵检测的分类结果。

2.根据权利要求1所述的Boosting集成算法，其特征在于：所述的训练第一步，分别计算多数类样本的模糊隶属度以及结构信息熵，将其等权重归一化后求和作为采样基准之一，详细描述如下：模糊隶属度由如下信息熵公式改进得到

Entropy_max＝-ln0.5

其中d_iq＝‖x_i-x_q‖表示样本x_i与周围k个样本欧氏距离。的分母显然是基于信息熵公式，因此当k近邻的欧式距离变化大的时候，则越大，反之则其值越小。显然，倾向于选择近邻样本变化小的结构稳定样本。在混合2种熵的时候使用了min-max归一化

所得的即直接参与下采样的筛选之中。

3.根据权利要求1所述的Boosting集成算法，其特征在于：所述的训练第二步，使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank，作为下一轮的下采样的基准，其具体实现为：通过随机下采样来训练第一个随机森林，在下采样的时候随机选择等量于少数类数量的多数类样本N_p参与训练。训练所得模型输出的置信度计算方法为：

可以直观理解为叶节点中所属类别y′样本比例的均值。多数类样本x_i下采样的最终基准Rank_i为

其中λ为权重系数，λ越大则倾向于信息熵，下采样则更偏向于保护稳定的样本，反之，则倾向于边界的活跃样本。在下采样的时候，将所有Rank值从小到大排序后选择Rank值最小的N_p(少数类数量)个多数类样本参与下一轮迭代训练。

4.根据权利要求1所述的Boosting集成算法，其特征在于：所述训练第三步，使用训练所得模型构造的置信度重新计算Rank进行下采样，循环迭代直到集成次数上限L，其具体实现为：对所有已经完成训练的模型进行置信度计算，所得值的均值来重新构造Confⁿ以及Rank，从而来指导进行下一次的下采样。一般算法在5次迭代后样本的更替将趋于稳定。

5.根据权利要求1所述的堆叠集成模型，其特征在于：所述测试阶段，将测试数据集输入所得的Boosting集成模型中，测试过程中无需下采样，具体实现为：训练集和测试需要满足同概率分布的前提。最终使用所有的L个模型进行判别：

其中，当y_i＝1，x_i属于少数类，否则则属于多数类。至此可以得到网络入侵检测的最终分类结果。