CN108768946A

CN108768946A - 一种基于随机森林算法的网络入侵检测模型

Info

Publication number: CN108768946A
Application number: CN201810391178.1A
Authority: CN
Inventors: 周杰英; 杨诗珺; 邱荣发; 刘映淋
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-11-06
Anticipated expiration: 2038-04-27
Also published as: CN108768946B

Abstract

本发明提出一种基于随机森林算法的网络入侵检测模型，包括：输入训练数据，读取到训练数据之后首先对数据进行预处理；再应用随机森林算法训练数据，建立入侵检测模型。数据预处理由五步构成，第一步：删除数据冗余部分，将数据中重复的数据删除；第二步，进行特征选择，通过对信息增益进行从大到小排序，选择前70％的特征；第三步：人工合成新的数据集，由于数据分布不平衡，使用合成少数类过采样技术(SMOTE)算法人工合成新的数据集；第四步：数据清洗，使用修剪的最近邻算法(ENN)对数据进行清洗操作；第五步：正则化处理，对数据进行正则化处理，使得每个特征的范围集中在一个特定的范围内。

Description

一种基于随机森林算法的网络入侵检测模型

技术领域

本发明涉及入侵检测网络安全领域，特别涉及一种基于随机森林算法的网络入侵检测模型。

背景技术

入侵检测指的是从计算机网络中的关键点收集信息，并且分析这些信息，查看网络中是否存在违反安全策略的行为。入侵检测可以说是防火墙的合理补充和延伸；如果说防火墙是第一道安全闸门，入侵检测可以说是第二道安全闸门。入侵检测在不影响网络性能的前提下，实时、动态地保护来自内部和外部的各种攻击，同时有效地弥补了防火墙所能达到的防护极限。

传统的入侵检测技术是应用规则集方法的技术，用于检测计算机网络中违反安全策略的行为，这说明只有匹配了预先定义的规则，才能检测出流量是否异常。这种做法最大的局限性在于无法检测出规则集之外的异常类型，若网络中出现了新型攻击类型，传统的规则匹配方法将不可行。此外，规则集的制定也将耗费网络监控人员大量的时间与精力，并且需要不时地更新规则集。

针对传统入侵检测技术的局限性，人们将机器学习应用到入侵检测上，可以有效地解决人工繁琐的操作过程，降低误检率，并且具有实时性的特点。一般情况下攻击类型的流量数据非常少，数据集分布不平衡，而且网络流量中有许多不干净的数据，即噪音数据，不利于一个好的模型的建立。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提出了一种基于随机森林算法的网络入侵检测模型，此模型应用合成少数类过采样技术(SMOTE)算法人工合成新的数据样本，使用修剪的最近邻算法(ENN)清除噪音数据，然后将数据进行正则化之后传入随机森林分类器进行训练，比仅使用随机森林分类器分类来判别异常样本的方法来说，具有更高的精确率，召回率和F-1值，有效地降低了误检率。

为达到上述目的，本发明的技术方案具体为：

一种基于随机森林算法的网络入侵检测模型，包括：

步骤1，读取数据集及预处理：读取数据集，删除数据集里重复的冗余数据，进行特征选择，用每一个特征对数据集进行划分，计算划分之后数据子集的信息熵，从而得到信息增益，对信息增益从大到小排序，选择前M％的特征；

步骤2，人工合成新的数据集：对少数类(少数类指的是数据集中数据数量很少的类别)的样本进行人工合成新的数据集；考虑到现实中异常的数据数目肯定很少，而步骤1中输入的数据集的数据分布不平衡，所以步骤2针对少数类(数据数量少的类别)进行平衡数据样本分布；

步骤3，数据清洗：使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作；

步骤4，正则化处理：对由步骤3清洗操作后的数据集进行正则化处理，使每个特征的值都集中在0-1之间；

步骤5，划分训练数据集与测试数据集：将由步骤1-4预处理过的数据集划分为训练数据集与测试数据集，训练数据集用于模型的训练，测试训练集用于模型的测试；

步骤6，建立模型：将训练数据集传入随机森林模型中进行训练，建立网络入侵检测模型。

优选的，所述步骤1的过程具体为：

将数据集读取进来，删除数据集中重复的冗余数据，然后进行特征选择，特征选择是对信息增益从大到小进行排序，选择前M％的特征，信息增益的计算首先计算信息熵：

上式中，H(D)表示数据集D的信息熵，n表示数据集D中类别的个数，p_i表示第i类数据所占的比例，接着计算信息增益为：

上式中，Gain(D,a)表示用特征a对数据集D进行划分所获得的信息增益，m表示特征a有m个可能的取值{a¹,a²,...,a^m}，D^k表示数据集D中所有在特征a上取值为a^k的数据子集；用所有特征对数据集D进行划分获得一系列信息增益，选择前M％的特征，舍弃后(1-M)％的特征。

优选的，所述步骤2的合成新的数据集的过程为：生成新数据集的公式为：

x_new＝x_i+|x′_i-x_i|×δ (4)

上式中，x_new表示生成的新的数据集，x_i表示少数类的样本点，x_i'表示x_i样本的k近邻样本点的其中一个，δ∈[0,1]。

优选的，所述步骤3的数据清洗的过程为：使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作，采用式(5)计算数据集中样本与其他所有样本的欧氏距离：

上式中，d_ij(x_i,x_j)表示第i个样本点与第j个样本点的欧氏距离，x_i表示第i个样本点，m表示特征的个数，x_if表示第i个样本的第f个特征的值，其中i≠j；然后对所有获得的欧氏距离进行从小到大排序，选取前k个样本点，判断它们类别的众数(出现次数最多的类别)；若样本点x_i的类别和k近邻样本点类别的众数不一致，则删除样本点x_i，若样本点x_i的类别和k近邻样本点类别的众数一致，则留下样本点x_i。

优选的，所述步骤4的正则化的过程为：采用式(6)由步骤3清洗操作后的数据集进行正则化处理，得到均值为0，方差为1的分布：

x_i'是第i个特征正则化之后的值，x_i是第i个特征的值，μ是第i个特征的期望，δ是第i个特征的方差。

优选的，所述步骤5的划分训练数据集与测试数据集的过程为：将由步骤1-4预处理之后的数据集划分为训练数据子集与测试数据子集，随机选取M％的数据作为训练数据子集，剩下的(1-M)％数据作为测试数子集。

本发明提出的一种基于随机森林算法的网络入侵检测模型，是将应用合成少数类过采样技术(SMOTE)算法人工合成新的数据样本，使用修剪的最近邻算法(ENN)清除噪音数据，然后将数据进行正则化之后传入随机森林模型训练得到入侵检测模型，采用这种方法获得的入侵检测模型，其检测结果具有更高的精确率，召回率和F-1值。

相对于现有技术，本发明具有如下优点和有益效果：

针对网络中流量的特征数目众多，表现为模型建立需要更多的时间的情况，本发明提出了一种基于随机森林算法的网络入侵检测模型，其数据预处理阶段是采用基于信息增益的特征选择方法。该方法遍历所有特征来划分数据集，对每次使用一个特征来划分数据集之后得到的数据子集进行信息熵的计算，从而得到信息增益，选择信息增益比较大的特征作为模型建立的特征，这样使得模型的建立更加高效，表现为建立模型的时间更少，建立的模型效果更优。

附图说明

图1为所提出的一种基于随机森林算法的网络入侵检测模型的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于随机森林算法的网络入侵检测模型，包括以下步骤：

第一步：将数据集读取进来，删除数据集中重复的冗余数据，然后进行特征选择，用每一个特征对数据集进行划分，计算划分之后数据子集的信息熵，从而得到信息增益，对信息增益从大到小排序，选择前M％的特征；特征选择是对信息增益从大到小进行排序，在本实施例中选择前70％的特征，信息增益的计算首先计算信息熵：

上式中，Gain(D,a)表示用特征a对数据集D进行划分所获得的信息增益，m表示特征a有m个可能的取值{a¹,a²,...,a^m}，D^k表示数据集D中所有在特征a上取值为a^k的数据子集。用所有特征对数据集D进行划分获得一系列信息增益，选择前70％的特征，舍弃后30％的特征。

第二步：对于少数类样本数据，通过人工生成新的数据集，来平衡样本分布，生成新数据集的公式为：

x_new＝x_i+|x′_i-x_i|×δ (4)

第三步：数据集存在大量噪声数据，使用修剪的最近邻算法(ENN)对由第二步合成新的数据集中的数据进行清洗操作，采用式(5)计算数据集中样本与其他所有样本的欧氏距离：

上式中，d_ij(x_i,x_j)表示第i个样本点与第j个样本点的欧氏距离，x_i表示第i个样本点，m表示特征的个数，x_if表示第i个样本的第f个特征的值，其中i≠j；然后对所有获得的欧氏距离进行从小到大排序，选取前k个样本点，判断它们类别的众数；若样本点x_i的类别和k近邻样本点类别的众数不一致，则删除样本点x_i，若样本点x_i的类别和k近邻样本点类别的众数一致，则留下样本点x_i。

第四步：数据中各个特征值的取值范围不一，采用式(6)进行正则化处理，统一特征值的取值范围，得到均值为0，方差为1的分布：

第五步：将由第一步至第四步预处理之后的数据集划分为训练数据子集与测试数据子集，随机选取70％的数据作为训练数据子集，剩下的30％数据作为测试数子集。

第六步：将训练数据集传入随机森林模型中进行训练得到入侵检测模型，然后传入测试数据至入侵检测模型进行模型效果的检测，获得精确率，召回率和F-1值。

本实施例提出的一种基于随机森林算法的网络入侵检测模型，包括：输入训练数据，读取到训练数据之后首先对数据进行预处理，清除数据中重复的冗余数据；针对样本分布不平衡的情况，使用上采样技术人工合成新的数据，在少数类样本点与k近邻样本点之间随机生成k个样本，平衡样本分布；针对样本重叠和存在噪声数据的情况，使用数据清洗技术，若一个样本的类别有k近邻样本点的类别众数一致，则保留该样本点，若样本点的类别与k近邻样本点的类别众数不一致，则该样本点为噪声数据，清除该样本点；然后应用正则化处理数据，将每个特征的值缩小到0到1的范围内；再应用随机森林算法训练数据，建立模型，输入测试数据检测模型效果，获得精确率，召回率和F-1值。

相对于现有技术，本发明具有如下优点和有益效果：

针对网络中攻击类型的流量数量少，样本分布不平衡，表现为正常类型的数据样本多，异常类型的数据样本少的情况，本发明提出了一种人工合成样本与数据清洗技术相结合的方法。该方法不仅能人工合成新的数据，解决数据样本分布不平衡的问题，还能使用数据清洗技术将数据中的噪声数据清除，这里的噪声数据也包括人工合成数据过程中生成的一些重叠数据，防止噪声数据对模型建立的干扰，提高模型的精确率，召回率和F1-值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于随机森林算法的网络入侵检测模型，其特征在于，包括：

步骤2，人工合成新的数据集：对少数类的样本进行人工合成新的数据集；

2.根据权利要求1所述的方法，其特征在于，所述步骤1的过程具体为：

3.根据权利要求2所述的方法，其特征在于，所述步骤2的合成新的数据集的过程为：生成新数据集的公式为：

x_new＝x_i+|x'_i-x_i|×δ (4)

上式中，x_new表示生成的新的数据集，x_i表示少数类的样本点，x'_i表示x_i样本的k近邻样本点的其中一个，δ∈[0,1]。

4.根据权利要求3所述的方法，其特征在于，所述步骤3的数据清洗的过程为：使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作，采用式(5)计算数据集中样本与其他所有样本的欧氏距离：

5.根据权利要求4所述的方法，其特征在于，所述步骤4的正则化的过程为：采用式(6)由步骤3清洗操作后的数据集进行正则化处理，得到均值为0，方差为1的分布：

x'_i是第i个特征正则化之后的值，x_i是第i个特征的值，μ是第i个特征的期望，δ是第i个特征的方差。

6.根据权利要求5所述的方法，其特征在于，所述步骤5的划分训练数据集与测试数据集的过程为：将由步骤1-4预处理之后的数据集划分为训练数据子集与测试数据子集，随机选取M％的数据作为训练数据子集，剩下的(1-M)％数据作为测试数子集。