CN110213222B

CN110213222B - 基于机器学习的网络入侵检测方法

Info

Publication number: CN110213222B
Application number: CN201910175142.4A
Authority: CN
Inventors: 袁强; 方建安
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2021-12-10
Anticipated expiration: 2039-03-08
Also published as: CN110213222A

Abstract

本发明涉及一种基于机器学习的网络入侵检测方法，在数据预处理阶段除了使用常规的处理方法比如：符值转换、归一化处理之外，还使用SMOTE算法人工合成少数据量样本以及使用resample简单欠采样方法对多数据量样本进行欠采样，接着使用FCM聚类算法将特征按照隶属度排序，选择隶属度高的特征作为抽取的主要特征；在模型构建阶段，先使用kmeans聚类对每一种大异常分类，分为几类小的异常，通过这些分类细化对XGboost模型的建立，建立了一种4层嵌套式XGboost模型，最后可通过将训练好的最优模型与其他模型将比较，比较入侵检测的检测率和误检率来说明是否具有较好性能。

Description

基于机器学习的网络入侵检测方法

技术领域

本发明涉及一种基于机器学习的网络入侵检测方法，属于网络入侵检测技术领域。

背景技术

如今网络来到千家万户中，网络与人们的生活变得越来越密切，网络的发展推动了世界的经济和社会发展，人类社会对网络的依赖程度日渐增加。然后信息革命在给人类社会带来具体好处的同时也有一些隐患。黑客入侵事件屡见不鲜，计算机病毒不断繁衍进化，这些信息安全带来的考验给社会安全、国家财产、人民生活保障都带来了巨大的隐患。在网络安全问题日益突出的今天，及时并有效的发现网络入侵行为显得尤为重要。虽然网络入侵检测技术有了一定的发展，但精度和检测速度都不够成熟。因此提出一种基于机器学习的网络入侵检测方法。

目前，随着人工智能领域的发展，国内外也有不少关于使用机器学习方法对网络入侵进行检测的方法，相继有人提出了基于SVM、Kmeans、改进的RBF神经网络等方法应用于网络入侵检测中，并且取得了不错的效果。但由于各种算法不断的出现和对数据处理等环节出现了更多优良的方案以及人们对网络入侵检测的精度和效率有了更高的要求。因此设计出一种满足高精度、高效率的检测算法是实现现代网络入侵检测的关键。

发明内容

本发明的目的是：基于机器学习的网络入侵检测方法，使得预测效率更高，精度更高。

为了达到上述目的，本发明的技术方案是提供了一种基于机器学习的网络入侵检测方法，其特征在于，包括以下步骤：

步骤1、数据预处理

从KDD99数据集中获取用于对模型进行训练的样本数据集，对样本数据集进行符值转换和归一化处理，将特征变为0到1区间内；

步骤2、模型构建

从样本数据集的属性中筛选对正确检测网络异常有影响的属性作为主要特征，样本数据包括N个异常大类及M个正常大类，判断出每一个异常大类中的所有小类，随后依据所有的异常大类建立N层XGboost模型，每个异常大类中的小类和其他异常大类分别作为输出值，这样后一层XGboost模型是在前一层XGboost模型识别的基础之上继续分类的；

步骤3、模型验证

将步骤1获得的样本数据集划分为10个子集，利用10个子集对步骤2建立的N层XGboost模型进行测试，每次都使用贝叶斯最优化的思想寻找最优参数，数据输入模型后通过结果计算检测率和误报率，最终对这十次的结果求平均，以保证最终预测分类测试结果的客观性与可靠性：

步骤4、调节N层XGboost模型中的顺序，依次输入上步的数据，找出参数最适宜、顺序最适合的N层XGboost模型，并计算检测率和误报率；

步骤5、利用KDD99数据集中的corrected作为测试集，对步骤4得到的N层XGboost模型进行测试。

优选地，所述步骤1中，采用过采样SMOTE算法与resample简单欠采样方法从KDD99数据集中获取所述样本数据集，其中：先采用过采样SMOTE算法将KDD99数据集中少数类比例提升至30％，随后采用resample简单欠采样方法将样本总数调整至原数据集数量的一半。

优选地，所过采样SMOTE算法包括以下步骤：

步骤101、对于数量较少的类别的样本，计算它到其余所有样本的距离，求得其k近邻；

步骤102、设置一个采样倍率N，采样倍率根据样本的不平衡比例设置，之后对少量类的样本x，在k近邻中随机采样选择若干样本x_n；

步骤103、对于每个选择出的近邻x_n，照下式构造新样本x_new：

x_new＝x+rand(0,1)*|x-x_n|。

优选地，所述步骤2中，使用FCM聚类算法进行降维，抽取样本数据集的主要特征，样本数据集设为S，包括p维特征变量，1维因变量，记为：

S＝{a₁(X₁,Y₁),a₂(X₂,Y₂),...a_s(X_s,Y_s),}

式中，a_i(X_i,Y_i)为样本数据集S中的一个样本，X_i＝{x₁,x₂,...,x_p}为a_i(X_i,Y_i)的p维特征变量，Y_i为a_i(X_i,Y_i)的目标变量，抽取样本数据集的主要特征包括如下步骤：

步骤2A01、使用FCM对样本数据集S进行聚类，发现有q个簇，于是将因变量Y_i分为{L₁,L₂,...,L_q}共q个场景，并根据每个样本因变量的值，将样本划分到对应的场景中，得到q个不同场景的子样本集，记为Z_j：

Z_j＝{a_jk(X_jk)|k＝1,2,...,N_j,1≤N_j≤s,a_jk∈S}

式中，N_j,j＝1,2,...,q为样本集Z_j中样本的数量，a_jk为样本数据集S中属于场景L_j的样本，X_jk为a_jk的特征变量集合；

步骤2A02、将特征变量作为聚类对象输入，将初始样本集转化为变量聚类的输入样本集，记为D：

D＝{x₁(a₁,a₂,...a_n),x₂(a₁,a₂,...a_n),...x_p(a₁,a₂,...a_n)}

式中，(a₁,a₂,...,a_n)为特征变量x_i的样本数据集合，n为初始样本个数；

步骤2A03、结合步骤2A01及步骤2A02，每个场景子样本集Z_j的变量聚类的输入样本集记为D_j：

D_j＝{x_i(a_j1,a_j2,...,a_jn)|i＝1,2,...,p,x_i∈X,a_jk∈L_j}

式中：(a_j1,a_j2,...,a_jn)为场景子样本集Z_j中特征变量x_i的样本数据集合，X为样本a_jk的p个特征变量集合，a_jk为场景子样本集Z_j中的样本，一共得到q个输入样本集D_j，每个输入样本集D_j均有p个相同的特征变量；

步骤2A04、基于FCM聚类算法将每个输入样本集D_j输入FCM聚类进行变量聚类，得到各场景子样本集Z_j中特征变量的隶属度矩阵U_j[u_vw]，其中u_vw为属于第v(v＝1,2,...,c)类模糊组的第w(w＝1,2,...,M_v)个特征变量的隶属度，M_v为聚到第v类模糊组的特征变量个数；

步骤2A05、隶属度排序：基于U_j[u_vw]，根据以下规则排序，将同个场景子样本集Z_j中同一模糊组内的所有特征变量排序，即v相同，按照隶属度从大到小排序，得到排后的特征变量矩阵，记为R_jv：

R_jv＝[x_v1,x_v2,...,x_vi,...,x_vMv]

式中：R_jv为第j个场景子样本集Z_j中第v个模糊组中特征变量隶属度排序，顺序为x_v1最大，往右依次降低，x_vi表示这个特征变量在第v个模糊组的隶属度排第i位；

步骤2A06、筛选出具有标签意义的特征变量：根据隶属度排序，设特征变量x_z在每个场景子样本集Z₁,Z₂,...,Z_j中均属于模糊组v，其排序数l分别为l₁,l₂,...,l_j，若其中存在一个排序数l_i(1≤i≤j)远小于或远大于其他所有排序数，即l_i≥2l_else或l_i≤l_else/2，则说明该特征变量x_z对该子样本集Z_j所对应的场景L_j具有标签意义；

步骤2A07、筛选出所有具有标签意义的特征变量作为研究对象，即对原特征变量集合达到了降维的目的。

优选地，样本数据包括4个异常大类，分别是Dos、Probe、U2R、R2L异常，则步骤2中，分别对Dos、Probe、U2R、R2L这4种异常大类使用k-means算法挖掘每个大类中分为具体的几个小类，为构造细致的分层模型做铺垫，包括如下步骤：

步骤2B01、将因变量是Dos、Probe、U2R、R2L的数据分别提取出来分为4个集合样本；

步骤2B02、分别对每个集合使用k-means算法，输出每个子聚类里面的样本数量，再求取两两聚类最近样本点之间欧氏距离；

步骤2B03、将聚类数从1到20各取一次，如果当聚类数为某一个数时，其求得的欧氏距离比其他的欧氏距离都要大，那么最合适的聚类数就是该数；

步骤2B04、根据上步求得的聚类数就是该集合一共有几个不同的类，也就是这个异常里面又包括哪些子异常。

优选地，步骤3中,使用贝叶斯最优化的思想对XGboost算法寻找最优解，不断训练模型，通过评价函数对每个参数组合进行评价，最终得到最优参数组合，包括以下步骤：

步骤301、设t＝0，设置参数组合的初始种群p(0)；

步骤302、从p(t)中选择候选解S(t)；

步骤303、根据下式构建符合要求的贝叶斯网格B：

x_t为下一次采样的位置，首先使用已有的观测值构建一个高斯过程的回归模型，并预测出未知输入位置上的均值μ_t-1(x)和标准差σ_t-1(x)，选择均值和标准差的加和最大的输入位置来作为下一个取样的点，这个加和公式被称为Acquisition Function，

为权重参数；

步骤304、根据贝叶斯网格B的联合分布函数产生新的解O(t)；

步骤305、用O(t)取代p(t)的部分解，形成新的种群p(t+1)；

步骤306、如果不满足终止条件，转向步骤302。

优选地，步骤4中，为了更好地根据不同数据的特点来构造不同的模型，即分别构造4个不同的XGoost模型包括如下步骤：

步骤401、若Probe入侵集合使用kmeans聚类后，得到该集合最佳子集合数为n,分别给不同集合一个标签，再把除了Probe入侵之外的所有样本设为另外一个标签，将样本输入第一个XGboost训练模型，采用上一步的寻参方法；

步骤402、将U2R入侵集合同样按照上面方式处理，对U2R的子集合数和其它类型的样本重新打标签，再训练第二个Xgboost；

步骤403、将Dos和R2L入侵集合也按照步骤401及步骤402的方式处理；

步骤404、将验证数据经过预处理之后输入4层XGboost模型中，计算检测率和误差率；

步骤405、依次改变先后检测不同入侵的顺序；

步骤406、选取检测率和误差率总体最优的一个4层XGboost模型。

优选地，所述步骤5中，分别用原始的XGboost模型、随机森林、SVM与N层XGboost模型进行比较，将测试集经过预处理之后分别输入原始的XGboost模型、随机森林、SVM中，比较检测率和误差率，原始的XGboost模型使用和N层XGboost模型一样的参数，随机森林和SVM设置最优参数。

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明对于数据集做了较为精细的处理，同时提取较为主要的特征，使用了贝叶斯最优化的思想为每个XGboost模型寻找最优解，并根据不同数据的特性及量的多少使用遍历的方式构建出最优的4层XGboost递进模型。并最终通过与其他算法比较来验证预测效率和精度的提高。

附图说明

图1是网络入侵检测方法的工作流程图，表示整个系统方案的实现流程；

图2是本发明数据预处理流程图；

图3是本发明设计的4层优化XGboost模型结构图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

如图1所示，本发明提供了一种基于机器学习的网络入侵检测方法，具体包括以下步骤：

1、数据预处理。

将KDD99数据集的20％作为训练集。随机采样由于原始数据中存在着各种类型的数据，所以要将数据进行符值转换和归一化，将特征变为0到1区间内；由于冗余特征过多，对最终建模有影响，也影响训练速度；因为有些类型的样本数量过少，会给分类识别带来很大困难，所以要对少量样本进行扩增处理。

数据预处理的流程如图2所示。流程如下：

1)将采用数字0-(N-1)来表示这些字符型特征。具体是将数字0-2表示protocol_type中的3种特征值，用数字0到69表示service中的70种特征值，用数字0到10表示flag中的11种特征值。

2)再对变化范围大的特征如src_bytes和dst_bytes进行对象函数转换，以及对变化范围不大的进行线性归一化：

式中，x'表示转换后的新数据，x表示原始数据，x_min表示这一属性的最小值，x_max表示这一属性的最大值。

3)将数据按因变量提取成5个集合后，发现Dos集合样本的数量远大于其他集合，而因变量是U2R的样本远小于其他集合样本，而U2R类的入侵对网络危害很大，所以不能忽视。为了处理不平衡数据带来的问题，本发明使用组合采样技术即过采样SMOTE与resample简单欠采样方法。SMOTE算法的思想是首先分析数量较少的类别的样本，再通过人工合成新样本添加到相应类别中。流程如下：

(a)对于数量较少的类别的样本，计算它到其余所有样本的距离，求得其k近邻。注意本发明实验中对于少数类中只有一个样本的情况，通过微小噪声抖动的方式先构造若干样本加入其中。

(b)设置一个采样倍率N，采样倍率根据样本的不平衡比例设置，之后对少量类的样本x，在k近邻中随机采样选择若干样本x_n；

(c)对于每个选择出的近邻x_n，照下式构造新样本x_new：

x_new＝x+rand(0,1)*|x-x_n|

使用SMOTE算法将少数类比例提升至30％，再使用resample简单欠采样方法将样本总数调整至原数据集数量的一半。

4)使用FCM聚类算法进行降维，抽取主要特征。样本数据集设为S，包括p维特征变量，1维因变量，记为：

S＝{a₁(X₁,Y₁),a₂(X₂,Y₂),...a_s(X_s,Y_s),}

(a)使用FCM对样本数据集S进行聚类，发现有q个簇，于是将因变量Y_i分为{L₁,L₂,...,L_q}共q个场景，并根据每个样本因变量的值，将样本划分到对应的场景中，得到q个不同场景的子样本集，记为Z_j：

Z_j＝{a_jk(X_jk)|k＝1,2,...,N_j,1≤N_j≤s,a_jk∈S}

(b)将特征变量作为聚类对象输入，将初始样本集转化为变量聚类的输入样本集，记为D：

D＝{x₁(a₁,a₂,...a_n),x₂(a₁,a₂,...a_n),...x_p(a₁,a₂,...a_n)}

(c)结合步骤(a)及步骤(b)，每个场景子样本集Z_j的变量聚类的输入样本集记为D_j：

D_j＝{x_i(a_j1,a_j2,...,a_jn)|i＝1,2,...,p,x_i∈X,a_jk∈L_j}

(d)基于FCM聚类算法将每个输入样本集D_j输入FCM聚类进行变量聚类，得到各场景子样本集Z_j中特征变量的隶属度矩阵U_j[u_vw]，其中u_vw为属于第v(v＝1,2,...,c)类模糊组的第w(w＝1,2,...,M_v)个特征变量的隶属度，M_v为聚到第v类模糊组的特征变量个数；

(e)隶属度排序：基于U_j[u_vw]，根据以下规则排序，将同个场景子样本集Z_j中同一模糊组内的所有特征变量排序，即v相同，按照隶属度从大到小排序，得到排后的特征变量矩阵，记为R_jv：

(f)筛选出具有标签意义的特征变量：根据隶属度排序，设特征变量x_z在每个场景子样本集Z₁,Z₂,...,Z_j中均属于模糊组v，其排序数l分别为l₁,l₂,...,l_j，若其中存在一个排序数l_i(1≤i≤j)远小于或远大于其他所有排序数，即l_i≥2l_else或l_i≤l_else/2，则说明该特征变量x_z对该子样本集Z_j所对应的场景L_j具有标签意义；

(g)筛选出所有具有标签意义的特征变量作为研究对象，即对原特征变量集合达到了降维的目的。

2、模型构建。

因为原始数据中有41个属性，其中一些属性对正确检测网络异常没什么作用，所以要先筛选主要特征。原始数据中一共有5大类，其中一类是正常，其余四大类分别是Dos、Probe、U2R、R2L异常，而每种异常又包含某几个小类，为了达到更好这里先判断出每一大类异常中具体有哪几个小类，然后再依据这4大类建立4个XGboost模型，每个小类和其它类分别作为输出值，这样后一个模型是在前一个模型识别的基础之上继续分类的，结构模型如图3。

使用贝叶斯最优化的思想对XGboost算法寻找最优解，不断训练模型，通过评价函数对每个参数组合进行评价，最终得到最优参数组合。流程如下：

(1)设t＝0，设置参数组合的初始种群p(0)；

(2)从p(t)中选择候选解S(t)；

(3)根据下式构建符合要求的贝叶斯网格B：

为权重参数；

(4)根据贝叶斯网格B的联合分布函数产生新的解O(t)；

(5)用O(t)取代p(t)的部分解，形成新的种群p(t+1)；

(6)如果不满足终止条件，转向步骤302。

分别对Dos、Probe、U2R、R2L这4种异常使用k-means算法，挖掘每个大类中分为具体的几个小类，为构造细致的分层模型做铺垫。通过如下流程：

(1)将因变量是Dos、Probe、U2R、R2L的数据分别提取出来分为4个集合样本；

(2)分别对每个集合使用k-means算法，输出每个子聚类里面的样本数量，再求取两两聚类最近样本点之间欧氏距离；

(3)将聚类数从1到20各取一次，如果当聚类数为某一个数时，其求得的欧氏距离比其他的欧氏距离都要大，那么最合适的聚类数就是该数；

(4)根据上步求得的聚类数就是该集合一共有几个不同的类，也就是这个异常里面又包括哪些子异常。

3、模型验证。

为了更好的根据不同数据的特点来构造不同的模型，即分别构造4个不同的XGoost模型，如图3。将上述经过处理的数据集进行十折交叉验证，即将所用数据集划分为10个测试子集，每次都使用贝叶斯最优化的思想寻找最优参数，数据输入模型后通过结果计算检测率和误报率，最终对这十次的结果求平均，以保证最终预测分类测试结果的客观性与可靠性：

4、模型调优。

根据数据特点的不同试图更改XGboost的顺序，流程如下：

(1)若Probe入侵集合使用kmeans聚类后，得到该集合最佳子集合数为n,分别给不同集合一个标签，再把除了Probe入侵之外的所有样本设为另外一个标签，将样本输入第一个XGboost训练模型，采用上一步的寻参方法。

(2)将U2R入侵集合同样按照上面方式处理，这里会对U2R的子集合数和其它类型的样本重新打标签，再训练第二个XGboost。

(3)将Dos和R2L入侵集合也按照上述方式处理。

(4)将验证数据经过预处理之后输入4层XGboost模型中，计算检测率和误差率。

(5)依次改变先后检测不同入侵的顺序，比如第一次先使用U2R入侵集合训练XGboost模型,之后再训练Probe入侵集合的样本。

(6)选取检测率和误差率总体最优的一个4层XGboost模型。

5、模型测试及诊断。

将KDD99数据集中的corrected作为测试集。测试集共311029条数据。将数据按步骤1进行数据预处理，然后输入到4层优化XGboost模型中，计算检测率和误报率。将模型与随机森林、SVM,原始XGboost等做比较，即分别将测试集样本进行预处理之后输入到上述模型中，比较这4个模型的检测率、误检率，评判模型有效性与优良性。

以上所述，仅为本发明的一个参考实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神的范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等

同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种基于机器学习的网络入侵检测方法，其特征在于，包括以下步骤：

步骤1、数据预处理

步骤2、模型构建

使用FCM聚类算法进行降维，抽取样本数据集的主要特征，样本数据集设为S，包括p维特征变量，1维因变量，记为：

S＝{a₁(X₁,Y₁),a₂(X₂,Y₂),...a_s(X_s,Y_s)}

Z_j＝{a_jk(X_jk)|k＝1,2,...,N_j,1≤N_j≤s,a_jk∈S}

D＝{x₁(a₁,a₂,...a_n),x₂(a₁,a₂,...a_n),...x_p(a₁,a₂,...a_n)}

D_j＝{x_i(a_j1,a_j2,...,a_jn)|i＝1,2,...,p,x_i∈X,a_jk∈L_j}

R_jv＝[x_v1,x_v2,...,x_vi,...,x_vMv]

步骤2A07、筛选出所有具有标签意义的特征变量作为研究对象，即对原特征变量集合达到了降维的目的；

步骤3、模型验证

为了更好地根据不同数据的特点来构造不同的模型，即分别构造4个不同的XGoost模型包括如下步骤：

步骤405、依次改变先后检测不同入侵的顺序；

步骤406、选取检测率和误差率总体最优的一个4层XGboost模型；

2.根据权利要求1所述的基于机器学习的网络入侵检测方法，其特征在于，所述步骤1中，采用过采样SMOTE算法与resample简单欠采样方法从KDD99数据集中获取所述样本数据集，其中：先采用过采样SMOTE算法将KDD99数据集中少数类比例提升至30％，随后采用resample简单欠采样方法将样本总数调整至原数据集数量的一半。

3.根据权利要求2所述的基于机器学习的网络入侵检测方法，其特征在于，所述过采样SMOTE算法包括以下步骤：

x_new＝x+rand(0,1)*|x-x_n|。

4.根据权利要求1所述的基于机器学习的网络入侵检测方法，其特征在于，样本数据包括4个异常大类，分别是Dos、Probe、U2R、R2L异常，则步骤2中，分别对Dos、Probe、U2R、R2L这4种异常大类使用k-means算法挖掘每个大类中分为具体的几个小类，为构造细致的分层模型做铺垫，包括如下步骤：

5.根据权利要求1所述的基于机器学习的网络入侵检测方法，其特征在于，步骤3中,使用贝叶斯最优化的思想对XGboost算法寻找最优解，不断训练模型，通过评价函数对每个参数组合进行评价，最终得到最优参数组合，包括以下步骤：

步骤301、设t＝0，设置参数组合的初始种群p(0)；

步骤302、从p(t)中选择候选解S(t)；

步骤303、根据下式构建符合要求的贝叶斯网格B：

为权重参数；

步骤304、根据贝叶斯网格B的联合分布函数产生新的解O(t)；

步骤305、用O(t)取代p(t)的部分解，形成新的种群p(t+1)；

步骤306、如果不满足终止条件，转向步骤302。

6.根据权利要求1所述的基于机器学习的网络入侵检测方法，其特征在于，所述步骤5中，分别用原始的XGboost模型、随机森林、SVM与N层XGboost模型进行比较，将测试集经过预处理之后分别输入原始的XGboost模型、随机森林、SVM中，比较检测率和误差率，原始的XGboost模型使用和N层XGboost模型一样的参数，随机森林和SVM设置最优参数。