CN103150501A

CN103150501A - 一种基于改进否定选择的入侵检测方法

Info

Publication number: CN103150501A
Application number: CN2013100729587A
Authority: CN
Inventors: 徐琴珍; 吴小宁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-06-12

Abstract

本发明公开了一种基于改进否定选择的入侵检测方法，包括如下步骤：（1）读入自体数据集；（2）自体数据集预处理；（3）迭代调整k-means算法的聚类中心，构建检测器集；同时得出检测器半径；（4）对测试数据预处理；（5）用生成的检测器集对数据进行检测。该发明解决了传统的基于否定选择的入侵检测方法中存在的问题，具有如下优点：本方法替代随机生成候选检测器再筛选的过程，使训练过程更高效；利用更少的检测器就能覆盖自体，使得检测阶段更高效；自适应地生成了检测器的半径，检测的准确率不会受到用户输入的自体半径的影响，从而提高了方法的稳定性；对于自体比较分散的数据集，本方法更具有优势。

Description

一种基于改进否定选择的入侵检测方法

技术领域

本发明涉及信息安全技术领域，特别是涉及一种网络数据的异常检测方法。

背景技术

随着信息时代的发展，网络在人们的工作和生活中发挥着越来越重要的作用，如何保障开放的Intenert系统中的信息安全已成为当前研究的迫切任务。入侵检测正是针对该任务而形成的信息安全领域的重要研究内容，相关的学者和研究人员在设计实时有效的入侵检测系统上做了大量的工作，受人体免疫系统的启发，Forrest等提出的否定选择算法已被广泛地应用于异常入侵检测的研究中。

基于否定选择算法的异常检测方法生成能够识别异体的检测器，检测器构建的一般步骤如图1所示，该异常检测方法对正常数据的检测率较高，在一定程度上扩展了未知病毒模式，实现信息安全的保障。

存在的问题是：(1)该方法的入侵检测的候选检测器是随机生成的，这将导致为筛选出一个成熟检测器，需要抛弃多个候选检测器，构建检测器集的效率不高，尤其是当自体范围极小，或者总体空间极大时更为明显。(2)方法中的自体半径需要根据经验人工确定，对于高维数据，或是人们无法理解的复杂数据，很难人为地给出的相对准确有效的自体半径。

发明内容

发明目的：本发明针对基于否定选择算法的入侵检测方法中存在的问题，提出了一种基于改进否定选择的入侵检测方法。

技术方案：一种基于改进否定选择的入侵检测方法，包括如下步骤：、

（1）读入自体数据集，从数据集中目标值标注为正常的样本，每一行为一次观测，每一列对应一个属性的所有观测值；

（2）自体数据集预处理，包含字符属性数值化处理和数值属性归一化处理

（3）迭代调整k-means算法的聚类中心，构建检测器集；同时得出检测器半径；

（31）初始化k-means中心，即从自体数据集中随机取若干个中心；（32）计算所有样本到每个中心的距离；（33）将样本归入中心；（34）根据每个中心的样本更新中心位置得到新的中心；（35）循环执行步骤（32）（33）（34），当中心不再变化或变化趋于稳定时终止循环，得到检测器集以及检测器半径；

（4）对测试数据预处理，找出每个样本中的字符特征，将字符特征数值化；对测试样本每个属性值归一化；

（5）用生成的检测器集对数据进行检测，得到预处理后的待测数据；判断待测数据是否在检测器的范围之内；若是，则判定此访问为正常访问；否则为异常访问。

本发明采用上述技术方案，具有以下有益效果：（1）通过k-means聚类构建聚类中心，以聚类中心构建检测器集，替代生成候选检测器再筛选的过程，使训练过程更高效。（2）通过聚类构建的检测器集的规模更加精简，利用更少的检测器就能覆盖自体，使得检测阶段更高效。（3）自适应地生成了检测器的半径，检测的准确率不会受到用户输入的自体半径的影响，从而提高了方法的稳定性。（4）对于自体比较分散的数据集，本方法更具有优势。

附图说明

图1为现有技术中基于否定选择算法的入侵检测方法流程图；

图2为本发明实施例的方法流程图；

图3为本发明实施例的生成检测器的流程图；

图4为本发明实施例的利用检测器检测的流程图；

图5为本发明实施例的原始否定选择算法的检测器初始自体半径对检测率的影响示意图；

图6为本发明实施例的两种方法在不同检测率下的检测器集规模对比示意图；

图7为本发明实施例的两种方法在不同漏警率下的检测器集规模对比示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图2为本发明实施例的方法流程图，步骤具体包括：

（1）读入自体数据集：读入KDD99数据集中目标值标注为正常的样本，每一行为一次观测，每一列对应一个属性的所有观测值。

（2）自体数据预处理：包含字符属性数值化处理和数值属性归一化处理，具体为：

（21）找出样本中各列字符属性，将字符属性数值化；

（22）对各列数值属性值归一化为y_ij＝(x_ij-minx_j)/(maxx_j-minx_j)，其中x_ij为第i个样本的第j个属性值，y_ij为x_ij归一化后的结果，maxx_j和minx_j分别为第j个属性的最大和最小属性值。

（3）利用k-means算法得出检测器，图3为本发明实施例的生成检测器的流程图：

（31）从自体数据集中随机取K个中心；

（32）计算所有样本到每个中心的距离：

D (c_{k}, y_{j}) = {(Σ_{n = 1}^{N} {(c_{kn} - y_{jn})}^{2})}^{1 / 2}, (k &Element; {1,2, \cdot \cdot \cdot, K}, j &Element; {1,2, \cdot \cdot \cdot, M})

其中y_k为第k个中心、y_j为第j个样本，N为属性数，M为样本总数，K为中心数量；

（33）将每个样本归入到距离自己最小的中心当中；

（34）得到属于中心y_k的样本数N_k，若N_k＝0，则在样本中重新选取中心。否则，更新当前的中心y_k为所有样本y_kj,j∈{1,2...N_k}的平均值，即

并且得到r_k＝0.8D_k,k∈{1,2...K}，其中r_k为检测器半径，D_k为样本y_kj,j∈{1,2...N_k}与中心y_k的最大距离；

（35）重复（2）（3）（4），当中心不再变化的时候终止循环，得到检测器y_k以及检测半径r_k,k∈{1,2...K}。

（4）对测试数据预处理；图4为本发明实施例的利用检测器检测的流程图：

（41）找出每个样本中的字符特征，将字符特征数值化；

（42）对测试样本t_i（i∈{1,2,…,T}，T为测试样本数）每个属性值t_ij（j∈{1,2,…,N}）归一化：t_ij＝(x_ij-minx_j)/(maxx_j-minx_j)，其中maxx_j和minx_j为权利要求3中求出的训练样本集中样本的第j个属性的最大和最小值。

（5）用生成的检测器集对数据进行检测。

对归一化后的测试数据计算它与每个检测器之间的距离，若小于某个检测器的半径，则判定此访问为正常访问，否则为异常访问。

实验分析：

以KDD99数据集为仿真数据，从该数据集中随机抽取10000个样例，5000用于训练，5000用于测试。并将本发明提出的基于改进否定选择的入侵检测方法（Imp_NSA）与基于否定选择算法（NAS）的异常检测方法作仿真结果的对比。

设I与

分别表示对目标系统的入侵行为和正常访问行为，A表示异常检测方法的检测结果为入侵,

表示检测方法未发出入侵警报，则检测方法的漏警率（将入侵访问判断为正常访问）可表示为

记整体检测率（正确判断本次访问是入侵还是正常访问）为P。仿真实验中,通过测试入侵攻击的实验数据集合来估计方法的

和P。

图5为本发明实施例的原始否定选择方法的检测器初始自体半径对检测率的影响示意图，.说明了不同覆盖率下，用户输入不同的初始检测器半径r，对NAS异常检测方法的检测率有较大的影响，从图中可知，(1)当半径需要用户输入时，需要用户有一定的先验知识以避免半径输入不合适对方法性能造成的影响；(2)当覆盖率较高时，检测器具有相对较高的检测率，但同时，覆盖率较高意味着检测器集的规模相对较大，影响异常检测的效率。

图6为本发明实施例的两种方法在不同检测率下的检测器集规模对比示意图，给出了基于NSA的异常检测方法与本发明实施例提出的Imp_NSA异常检测方法在不同检测率下检测器集规模（即检测器集所包含的检测器数量Num）的对比；图7为本发明实施例的两种方法在不同漏警率下的检测器集规模对比示意图，给出了基于NSA的异常检测方法与本发明实施例提出的Imp_NSA异常检测方法在不同漏检率下检测器集规模对比。

仿真参数设置为：NSA的初始自体半径r采用了上图中能够为NSA异常检测方法带来较高检测率的值r=0.01，覆盖率的范围在[0.99,1]之间均匀采样，采样步长为0.00025。Imp_NSA方法中的k值取[16,64]范围内的整数。

由图6可知：（1）Imp_NSA异常检测方法在检测率上有明显的优势；（2）Imp_NSA方法能够以比较小的检测器集规模获得比较好的检测效果，从而在保证检测精确率的同时，比NSA检测方法具有更高的检测效率。

图7说明了NSA异常检测方法在自体集基础上构建的规模相对庞大的检测器集，反而导致了高漏警率；而Imp_NSA构建的相对精简的检测器集能够获得相对理想的漏警率。

Claims

1.一种基于改进否定选择的入侵检测方法，其特征在于，包括如下步骤：

（1）读入自体数据集，从数据集中目标值标注为正常的样本，每一行为一次观测，每一列对应一个属性的所有观测值；（2）自体数据集预处理；（3）迭代调整k-means算法的聚类中心，构建检测器集；同时得出检测器半径；（4）对测试数据预处理；（5）用生成的检测器集对数据进行检测。

2.如权利要求1所述的基于改进否定选择的入侵检测方法，其特征在于：所述步骤（2）中自体数据集预处理包含字符属性数值化处理和数值属性归一化处理。

3.如权利要求1所述的基于改进否定选择的入侵检测方法，其特征在于：所述步骤（3）的实现方法：（31）初始化k-means中心，即从自体数据集中随机取若干个中心；（32）计算所有样本到每个中心的距离；（33）将样本归入到距离自身最小的中心；（34）根据每个中心的样本更新中心位置得到新的中心；（35）循环执行步骤（32）（33）（34），当中心不再变化或变化趋于稳定时终止循环，得到检测器集以及检测器半径。

4.如权利要求1所述的基于改进否定选择的入侵检测方法，其特征在于：所述步骤（4）的实现方法：找出每个样本中的字符属性，将字符属性数值化；对测试样本每个属性值归一化。

5.如权利要求1所述的基于改进否定选择的入侵检测方法，其特征在于：所述步骤（5）的实现方法：得到预处理后的待测数据；判断待测数据是否在检测器的范围之内；若是，则判定此访问为正常访问；否则为异常访问。