CN111314327A

CN111314327A - 一种基于knn离群点检测算法的网络入侵检测方法及系统

Info

Publication number: CN111314327A
Application number: CN202010078565.7A
Authority: CN
Inventors: 王传栋; 苏强; 申凌峰; 陈蕾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2020-06-19

Abstract

本发明公开了一种基于KNN离群点检测算法的网络入侵检测方法及系统，该方法包括以下步骤，训练阶段：采集网络流量数据集，并将数据集进行预处理，得到第一层网络疑似入侵数据集；采用遗传算法对第一层网络疑似入侵数据特征进行寻优，得到第二层疑似入侵数据集；将事先分好类别的训练数据集分别使用KNN离群点检测算法优化，得到若干个新数据集；采用果蝇算法优化随机森林算法，并使用若干个新数据集分别对随机森林进行训练，得到训练模块；测试阶段：采用第二层疑似入侵数据集对训练模型进行分类。该方法从检测正确率，误报率，漏报率三个方面进行比较，对于传统的方法来说，有了更好的检测效果和正确性。

Description

一种基于KNN离群点检测算法的网络入侵检测方法及系统

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于KNN离群点检测算法的网络入侵检测方法及系统。

背景技术

随着计算机网络技术的飞速发展，人们已经离不开网络的通信，网络渗透到了人们生活的点点滴滴。地球村的监视，让人们走进了高速发展的时代，信息中心的高速传输，网络资源的高度共享，都离不开网络，网络使得信息的获取、传递、处理和利用变得更加有效，网络带给人们学习、工作、娱乐的便利之余，也带给我们一些安全隐患。网络黑客可以轻松的取走重要文件，盗取银行存款，破坏企业平台，公布隐私信函，篡改、干扰和毁坏数据库，甚至直接破坏用户的计算机，使得网络瘫痪或者崩溃。

美国韦氏大词典中对入侵检测的定义为：“硬闯入的行为，或者是在没收到邀请和欢迎的情况下进入一个地方”。当说到入侵检测的时候，我们是指发现了网络上的一台计算机有未经过授权的闯入行为，这个未经过许可的网络入侵或访问，是一种对其他网络设备的安全威胁或者伤害。我们通常使用的网络安全技术有：防火墙，杀毒软件，虚拟专用网，数据加密，数字签名和身份认证技术等。这些传统的网络安全技术，对保护网络的安全起来了非常重要的作用，然而它们也存在不少缺陷。例如，防火墙技术虽然为网络服务提供了较好的身份认证和访问控制，但是它不能防止来自防火墙内部的攻击，不能防备最新出现的威胁，不能防止绕过防火墙的攻击，入侵者可以利用脆弱性程序或者系统漏洞绕过防火墙的访问控制来进行非法攻击。传统的身份认证技术，很难抵抗脆弱性口令，字典攻击，特洛伊木马，网络窥探器以及电磁辐射等攻击手段。虚拟专用网络技术只能保证传输过程中的安全，并不能防御诸如拒绝服务攻击，缓冲区溢出等常见的攻击。另外，这些技术都属于静态安全技术的范畴，静态安全技术的缺点是只能静态防御入侵，而不能主动检测和跟踪入侵。

由于事先定义的模式很难精准地划分正常行为和入侵行为之间的界限，入侵检测的误报率一直居高不下，降低了对于真正报警的敏感度。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于KNN离群点检测算法的网络入侵检测方法，该方法可以解决入侵检测的误报率一直居高不下，降低了对于真正报警的敏感度的问题，本发明还提供一种基于KNN离群点检测算法的网络入侵检测系统。

技术方案：本发明所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，该方法包括以下步骤：

训练阶段：

(1)采集网络流量数据集，并将数据集进行预处理，得到第一层网络疑似入侵数据集；

(2)采用遗传算法对第一层网络疑似入侵数据特征进行寻优，得到第二层疑似入侵数据集；

(3)将事先分好类别的训练数据集分别使用KNN离群点检测算法优化，得到若干个新数据集；

(4)采用果蝇算法优化随机森林算法，并使用若干个新数据集分别对随机森林进行训练，得到训练模块

测试阶段

采用第二层疑似入侵数据集对训练模型进行分类。

进一步地，包括：

步骤(1)中，所述预处理包括：

(11)采用min-max标准化法对网络流量数据集进行归一化处理，对归一化处理后的数据集使用半监督学习算法进行自动标记以获取更大规模的网络疑似入侵数据；

(12)采用偏F检验对构建的有效疑似入侵数据特征数据集进一步选取，构建待优化疑似入侵数据集。

进一步地，包括：

步骤(2)中，所述采用遗传算法对第一层网络疑似入侵数据特征进行寻优，具体包括：

设定p(x)表示种群中个体x的全部基因相应的疑似入侵数据特征中，含有攻击信息量大于给定阈值N的特征概率；用t表示当前阶段种群迭代次数，T表示进化总代数，p(x)log(t/T)表示种群适应度函数；

在种群迭代过程中，统计各个节点的交换概率，当该值小于给定阈值N时，说明疑似特征为入侵特征的几率较小，以交叉概率P(x_j)＝c_i·x_j·p lim e/(c_i·length)在染色体之间进行基因交换，其中，c_i·x_j·place用于描述与基因x_j具有相同编号的基因在染色体中的排列位置，C_i·length表示染色体长度；

同时为了种群中基因的多样行，设定个体编译概率为：p_(x)＝-H(x_i)/∑_jH(x_j)，其中，x_j用于描述染色体基因，H(x_j)表示个体含有的信息量；

假设p(c)表示全部个体中高n位中出现相同模式的个体阈值概率，t表示最大迭代次数，当满足以上两个条件中的其中一个时算法结束；

从中选取高n位模式相同的染色体，将含有1的数量较少的个体作为最优解，则该染色体中编码为1的节点相应的网络疑似入侵特征即为被选取的最优数据特征，对应得到第二层疑似入侵数据集。

进一步地，包括：

步骤(3)中，所述训练数据集的分类包括拒绝服务攻击Dos、监视和其他探测活动Probe、普通用户对本地超级用户特权的非法访问U2R、来自远程机器的非法访问R2L、正常记录Normal。

进一步地，包括：

步骤(4)中，所述采用果蝇算法优化随机森林算法包括：

(41)将随机森林中的决策树数目转化为10个二进制位，将分裂属性个数转化为4个二进制位；

(42)初始化果蝇算法中果蝇群体的位置，由于果蝇开始时无法判断食物源所在位置，因此采用随机方向和距离对食物源进行搜寻；

(43)随着果蝇群体不断迭代循环更新最佳食物源浓度，找到全局最佳食物源，对该位置的X和Y进行解码，就可以得到最佳的决策树数目和选择分裂属性个数；使用该参数对随机森林进行初始化，得出最优的随机森林模型。

进一步地，包括：

步骤(4)中，所述使用若干个新数据集分别对随机森林进行训练包括：将分类数据集Dos、Probe记为数据集D1，U2R、R2L、Normal记为数据集D2这两类，在此基础上检测各个数据集，再次利用随机森林训练数据集，在数据集D1的基础上去区分Probe和Dos，在数据集D2的基础上去区分R2L、U2R和Normal数据。

另一方面，本发明还提供一种基于KNN离群点检测算法的网络入侵检测系统，该系统包括以下步骤：

预处理模块，用于采集网络流量数据集，并将数据集进行预处理，得到第一层网络疑似入侵数据集；

第一寻优模块，用于采用遗传算法对第一层网络疑似入侵数据特征进行寻优，得到第二层疑似入侵数据集；

第二寻优模块，用于训练优化过的随机森林模型，将事先分好类别的训练数据集分别使用KNN离群点检测算法优化，得到若干个新数据集；

第三寻优模块，用于采用果蝇算法优化随机森林算法，并使用若干个新数据集分别对随机森林进行训练，得到训练模块；

测试模块，用于采用第二层疑似入侵数据集对训练模型进行分类。

有益效果：本发明与现有技术相比，其显著优点是：本发明果蝇算法优化随机森林算法，并使用若干个新数据集对随机森林进行训练，得到训练模块，入侵检测的准确率更高，提高了对于真正报警的敏感度的问题。

附图说明

图1为本发明所述的方法流程图。

具体实施方式

如图1所示，本发明所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，该方法包括以下步骤：

训练阶段：

(11)采集网络流量数据，将数据进行规范化处理；

(12)采用min-max标准化法对数据集进行归一化处理，对归一化处理后的数据使用半监督学习算法进行自动标记以获取更大规模的网络疑似入侵数据。采用重采样算法从训练集中随机选取一个训练数据子集，计算训练数据子集中疑似入侵数据特征的信息增益率，选取信息增益率最大的疑似入侵数据特征，构造有效疑似入侵数据特征集；

(13)采用偏F检验对构建的有效疑似入侵数据特征数据集进一步选取，构建第一层疑网络似入侵数据特征集。网络疑似入侵数据特征变量是否有必要加入分类模型中，可运用偏F检验的方法来判定，即设定共有m′个自变量x₁，x₂，x₃，...，x_m由这些自变量拟合成的入侵检测模型为：y＝β_o+β₁x₁+…+β_m′x_m′，从该模型中去除自变量x_i，可获得剩余m′-1个变量构成的模型，其中，β表示模型中复相关系数。有m′个自变量的入侵检测模型中复相关系数的平方和为R²，去除自变量x_i后模型中复相关系数的平方和为

假设

的值越趋近于0，说明变量x_i对变量y没有显著的影响，反之说明影响很大。

设定p(x)表示种群中个体x的全部基因相应的疑似入侵数据特征中，含有攻击信息量大于给定阈值N的特征概率，即个体变异概率。用t表示当前阶段种群迭代次数，T表示进化总代数，p(x)log(t/T)表示种群适应度函数。在种群迭代过程中，统计各个节点的交换概率，当该值小于给定阈值N时，说明疑似特征为入侵特征的几率较小，以交叉概率P(x_j)＝c_i·x_j·p lim e/(_ci·length)在染色体之间进行基因交换，其中，c_i·x_j·place用于描述与基因x_j具有相同编号的基因在染色体中的排列位置，C_i·length表示染色体长度。同时为了种群中基因的多样行，设定个体编译概率为：p_(x)＝-H(x_i)/∑_jH(x_j)，其中，x_j用于描述染色体基因，H(x_j)表示个体含有的信息量。

假设p(c)表示全部个体中高n位中出现相同模式的个体阈值概率，t表示最大迭代次数。当满足以上两个条件中的其中一个时算法结束。从中选取高n位模式相同的染色体，将含有1的数量较少的个体作为最优解，则该染色体中编码为1的节点相应的网络疑似入侵特征即为被选取的最优数据特征，用k表示，这些特征构造最能反应可选取得到入侵状态的数据集，表示为

经过遗传算法，将在原始网络流量数据上得到一个第二层疑似入侵数据集。

通过计算数据集D中每个数据与数据集D中其他数据的K近邻平均距离，并对每个点的K近邻平均距离进行降序排序，距离最大的前N个点被认为是离群点。其中，通过公式

计算出两个向量点之间的距离，这里使用的是欧式距离。之后对所有的距离进行从大到小的排序，前N个点即为离群点。KNN依据距离度量从训练集中找出其最近的k个数据点，将k个数据点中的主导标签分配给新数据，若k＝1，则新数据点由其最近的数据点确定。离群点被认为是分布稀疏且离高密度的群体较远的点。在数据选择时，删除数据集D中的N个离群点，得到新的数据集D′。具体的，本发明中将事先分好类别的训练数据集Dos、Probe、U2R、R2L、Normal分别使用KNN算法去优化，得到五个新的数据集记为Data1，Data2，Data3,Data4,Data5。这些数据集将会很大程度上提高随机森林算法的精度。

(4)采用果蝇算法优化随机森林算法，并使用若干个新数据集分别对随机森林进行训练，得到训练模块；

第一步，将随机森林中的决策树数目转化为10个二进制位，将分裂属性个数转化为4个二进制位，然后初始化果蝇算法中果蝇群体的位置，由于果蝇开始时无法判断食物源所在位置，因此采用随机方向和距离对食物源进行搜寻。随着果蝇群体不断迭代循环更新最佳食物源浓度，找到全局最佳食物源，对该位置的X和Y进行解码，就可以得到最佳的决策树数目和选择分裂属性个数。之后使用该参数对随机森林进行初始化，得出最优的随机森林模型，优化随机森林，提高了入侵检测的精度。

第二步，针对网络流量特征，将流量数据划分为不同种类去训练随机森林。首先基于Dos和Probe在流量特征上更为相似以及当发生U2R和R2L攻击时，此时的流量特征与正常流量特征的区别很小这两点，先将训练数据集分为Dos、Probe记为D1和U2R、R2L、Normal记为D2这两类。再次分为两类分别进行训练，提高随机森林的分类精度。

第三步，在第一步的基础上去检测各个数据集，其中再次利用随机森林去训练数据集，在数据集D1的基础上去区分Probe和Dos，在数据集D2的基础上去区分R2L、U2R和Normal数据。

该方法从检测正确率，误报率，漏报率三个方面进行比较，对于传统的方法来说，有了更好的检测效果和正确性。

测试阶段

采用第二层疑似入侵数据集对训练模型进行分类。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于KNN离群点检测算法的网络入侵检测方法，其特征在于，该方法包括以下步骤：

训练阶段：

测试阶段

采用第二层疑似入侵数据集对训练模型进行测试。

2.根据权利要求1所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，步骤(1)中，所述预处理包括：

3.根据权利要求1所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，步骤(2)中，所述采用遗传算法对第一层网络疑似入侵数据特征进行寻优，具体包括：

在种群迭代过程中，统计各个节点的交换概率，当该值小于给定阈值N时，说明疑似特征为入侵特征的几率较小，以交叉概率P(x_j)＝c_i·x_j·plime/(c_i·length)在染色体之间进行基因交换，其中，c_i·x_j·place用于描述与基因x_j具有相同编号的基因在染色体中的排列位置，C_i·length表示染色体长度；

4.根据权利要求1所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，步骤(3)中，所述训练数据集的分类包括拒绝服务攻击Dos、监视和其他探测活动Probe、普通用户对本地超级用户特权的非法访问U2R、来自远程机器的非法访问R2L、正常记录Normal。

5.根据权利要求1所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，步骤(4)中，所述采用果蝇算法优化随机森林算法包括：

6.根据权利要求4所述的基于KNN离群点检测算法的网络入侵检测方法，其特征在于，步骤(4)中，所述使用若干个新数据集分别对随机森林进行训练包括：将训练数据集Dos、Probe记为数据集D1，U2R、R2L、Normal记为数据集D2这两类，在此基础上检测各个数据集，再次利用随机森林训练数据集，在数据集D1的基础上去区分Probe和Dos，在数据集D2的基础上去区分R2L、U2R和Normal数据。

7.一种基于KNN离群点检测算法的网络入侵检测系统，其特征在于，该系统包括以下步骤：