CN107395590B

CN107395590B - 一种基于pca和随机森林分类的入侵检测方法

Info

Publication number: CN107395590B
Application number: CN201710590718.4A
Authority: CN
Inventors: 陈明志; 林伟宁; 杨小权; 郑绍华; 刘川葆; 李光耀; 康年华; 林诗洁
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2019-11-12
Anticipated expiration: 2037-07-19
Also published as: CN107395590A

Abstract

本发明公开了一种基于PCA和随机森林分类的入侵检测方法，其实现步骤为：（1）从入侵检测数据集中选取训练样本集和测试样本集；（2）通过PCA算法对训练样本集X进行特征降维处理，得到新的低维样本集合X’；（3）对于新的低维样本集合X’，通过给定随机森林中决策树的数量t，从低维样本集合X’中有放回地抽取N个子集，每颗决策树都对N个子集进行训练，最终得到一个随机森林分类器；（4）将测试样本集输入随机森林分类器，得到测试样本集的最终入侵检测结果。本发明使用先降维后分类的思想，对数据先进行特征降维然后再进行分类，与普通的基于机器学习入侵检测技术相比，本发明提出的入侵检测方法可有效提高检测的准确性。

Description

一种基于PCA和随机森林分类的入侵检测方法

技术领域

本发明属于网络信息安全领域，具体涉及一种基于PCA和随机森林分类的入侵检测方法。

背景技术

随着科技的进步，互联网在过去的十几年内得到了飞速的发展，现在已经成为了人们日常工作生活不可或缺的一部分。但是随之而来的网络安全问题也越发严重。微软、谷歌、亚马逊等大公司都出现过严重的网络安全事件。如何保证网络安全成为了一个备受关注的重点研究对象。入侵检测(Intrusion Detection)最早由Anderson于1980年提出^[1]，是对网络中的设备进行持续性的监控，并对其中发生的恶意行为进行响应的技术。

传统的入侵检测技术使用基于特征的入侵检测(Signature Based IntrusionDetection)[3]. 该方法建立一个包含各种已知入侵行为的数据库，将检测到的行为与数据库中的行为对比，若得到匹配则认为系统遭受入侵。该方法的优点是检测的准确率高，缺点是只能检测到数据库中存在的入侵行为，对新型的入侵行为的检测能力差，可拓展性低。基于异常的入侵检测(Anomaly Based Intrusion Detection)克服了这个问题，该方法可以检测新型的入侵行为，但是在准确率方面还有待提高。

机器学习(Machine Learning)在近年来得到了越来越多的关注和研究。机器学习的主要研究对象是人工智能，它通过经验以及对数据的学习不断提高算法自身的性能。如何将机器学习的方法应用于入侵检测已经成为该领域的研究热点之一，相关的研究成果也层出不穷。

在机器学习中，决策树(Decision Tree)作为一种有效的分类器被广泛地使用。一颗决策树由一个根节点和若干内部节点和若干叶子节点组成。每个叶子节点对应一个类别，非叶节点对应一个属性测试。根节点包含全部样本，每个非叶节点的样本集合根据属性测试的结果被划分到其子节点中。决策树的决策过程是由根节点开始，对当前节点中的全部样本进行属性测试，根据测试的结果选择其分支，最终到达叶子节点。传统的决策树算法中普遍存在过拟合问题，分类器的准确率不高。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于PCA和随机森林分类的入侵检测方法，以解决传统决策树分类器中容易出现的过拟合问题，提高分类器的准确率。

为实现上述目的，本发明的技术方案是：一种基于PCA和随机森林分类的入侵检测方法，其特征在于，包括如下步骤：

步骤1：从入侵检测数据集中选取训练样本集和测试样本集；

步骤2：通过PCA算法对训练样本集X进行特征降维处理，得到新的低维样本集合X’，具体过程如下：

（1）对训练样本集中所有样本进行中心化：

（1）

（2）计算样本的协方差矩阵：

（2）

（3）取前K个最大的特征值并计算对应的特征向量，以W为一组基构造新的低维样本集合X’，其中，10≤K≤20。

步骤3：对于新的低维样本集合X’，通过给定随机森林中决策树的数量t，从低维样本集合X’中有放回地抽取N个子集，每颗决策树都对N个子集进行训练，最终得到一个随机森林分类器，随机森林是多颗决策树组成的，随机森林分类器最终的分类结果根据森林中的所有决策树的结果投票决定。具体过程如下：

（1）给定决策树数量t≥20，对随机森林中的每一颗决策树，从低维样本集合X’中随机抽取部分数据集，属性集为根节点,其中，为对应数据的类别，每一条数据都具有m个属性，i=1,2,...,n；

（2）若所有数据的类别都相同，将该节点标记为叶节点，将该类别作为这个节点的类别，否则进入步骤（3）；

（3）选取基尼指数最小的属性作为划分依据，根据属性中不同取值的个数，将当前节点分成若干个子节点，子节点的属性集；

（4）对每个子节点重复步骤（2）；

（5）当一个子节点中的数据不属于同一类别并且没有能用于继续划分的属性时，以该节点中数量最多的类别作为当前节点的类别；

（6）综合统计所有决策树的分类结果，得票最多的类别作为数据集X的类别。

步骤4：将测试样本集输入随机森林分类器，得到测试样本集的最终入侵检测结果。

与现有技术相比，本发明具有以下有益效果：（1）本发明通过PCA对数据降维能有效的去除数据中的噪声并减少了分类器的计算量；（2）本发明通过对训练集多次的随机抽样和多颗决策树的分类，有效地解决了决策树算法中普遍存在的过拟合问题，提高了分类的准确率。

附图说明

图1为本发明基于PCA和随机森林分类的入侵检测方法流程图。

具体实施方式

如图1所示，本发明的一种基于PCA和随机森林分类的入侵检测方法，包括如下步骤：

步骤1：从入侵检测数据集中选取训练样本集和测试样本集；

（1）对训练样本集中所有样本进行中心化：

（1）

（2）计算样本的协方差矩阵：

（2）

步骤3：对于新的低维样本集合X’，通过给定随机森林中决策树的数量t，从低维样本集合X’中有放回地抽取N个子集，每颗决策树都对N个子集进行训练，最终得到一个随机森林分类器，具体过程如下：

（4）对每个子节点重复步骤（2）；

在本实施例中，采用NSL_KDD数据集，该数据集在入侵检测领域被广泛使用。NSL_KDD数据集包含41种特征如表1所示。该数据集中的数据包含正常和异常2大类，根据攻击方式不同将数据细分为23类，这23类又可以进一步归纳为5类：normal（正常数据）、dos（拒绝服务攻击）、u2r（对本地超级用户的非法访问）、r2l（未经授权的远程访问）、probe（扫描与探测），如表2所示。在本实施例中，采用20%的NSL_KDD数据集，其中10%作为训练集，另外10%作为测试集。

在随机森林中决策树的数量为1、5、10、20以及20颗以上时使用PCA将数据降低到不同维度情况下(5、10、20维)将数据分为5类(normal、dos、u2r、r2l、probe)和2类(nromal、abnormal)的准确率，如表3、4所示。

可以看出，将数据分为2类时整体的分类的准确率明显高于分为5类时的准确率。不论将数据分为5类或2类，随机森林分类的准确率都高于决策树分类(即森林中树的数量为1时)的准确率，但是对于本实施例中所采用的NSL_KDD数据集来说，随机森林中决策树数量的增加对于准确率的影响并不明显。将数据分为5类时，采用PCA将数据进行降维后再分类能有效提高准确率。其中，将数据降至10维时的准确率高于5维和20维时的情况。

结果表明，本发明基于PCA和随机森林分类的入侵检测方法与传统的分类方法相比，在一定程度上提高了入侵检测的准确率。通过PCA对数据降维能有有效的去处数据中的噪声并减少了分类器的计算量。随机森林分类器有效地解决了传统决策树分类器中容易出现的过拟合问题，提高了分类器在测试集上的准确率。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于PCA和随机森林分类的入侵检测方法，其特征在于，包括如下步骤：

步骤1：从入侵检测数据集中选取训练样本集和测试样本集；

步骤2：通过PCA算法对训练样本集X进行特征降维处理，得到新的低维样本集合X’；

步骤3：对于新的低维样本集合X’，通过给定随机森林中决策树的数量t，从低维样本集合X’中有放回地抽取N个子集，每颗决策树都对N个子集进行训练，最终得到一个随机森林分类器；

步骤4：将测试样本集输入随机森林分类器，得到测试样本集的最终入侵检测结果；所述步骤2的具体过程如下：

(1)对训练样本集X＝{x_i,x₂,…,x_n}中所有样本进行中心化：

(2)计算样本的协方差矩阵：

(3)取前K个最大的特征值并计算对应的特征向量W＝(W₁,W₂…,W_k)，以W为一组基构造新的低维样本集合X’，其中，10≤K≤20；

所述步骤3的具体过程如下：

(1)给定决策树数量t≥20，对随机森林中的每一颗决策树，从低维样本集合X’中随机抽取部分数据集Z＝{(z₁,y₁),(z₂,y₂),…,(z_n,y_n)}，属性集A＝{a₁,a₂,…a_m}为根节点,其中，y_i为对应数据z_i的类别，每一条数据z_i都具有m个属性，i＝1,2,...,n；

(2)若所有数据的类别都相同，将该节点标记为叶节点，将该类别作为这个节点的类别，否则进入步骤(3)；

(3)选取基尼指数最小的属性a_j作为划分依据，根据属性中不同取值的个数，将当前节点分成若干个子节点，子节点的属性集A’＝A-a_j；

(4)对每个子节点重复步骤(2)；

(5)当一个子节点中的数据不属于同一类别并且没有能用于继续划分的属性时，以该节点中数量最多的类别作为当前节点的类别；

(6)综合统计所有决策树的分类结果，得票最多的类别作为数据集X的类别。