CN102164140A

CN102164140A - 基于否定选择和信息增益的入侵检测方法

Info

Publication number: CN102164140A
Application number: CN2011101010736A
Authority: CN
Inventors: 公茂果; 焦李成; 张建; 刘芳; 马文萍; 马晶晶; 方玲芬; 王彦涛; 段婷婷
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-04-22
Filing date: 2011-04-22
Publication date: 2011-08-24

Abstract

本发明公开了一种基于否定选择和信息增益的入侵检测方法，主要解决现有NSA方法检测效果差且不稳定的问题，其实现步骤是：(1)读入自体模式集；(2)对读入的自体模式集中的数据进行转化、归一化和离散化处理；(3)计算处理后的41维特征的信息增益；(4)根据计算的信息增益值结果，选取信息增益值由大到小排序中的前N维特征，以这N维特征中的数据作为自体模式集，训练生成检测器集；(5)利用生成的检测器集对测试集中的数据进行检测。本发明具有正检率高、误报率实低，且在在训练数据较少时仍能取得满意检测效果的优点，可用于及时识别异常的网络数据，保证网络安全。

Description

基于否定选择和信息增益的入侵检测方法

技术领域

本发明属于网络安全领域，涉及一种网络数据异常检测方法，可用于网络数据分析，及时识别异常的网络数据，以及对未知病毒模式的扩展，使其能够更好的保障网络安全。

背景技术

网络安全的问题随着Internet的发展，越来越受到人们的关注。这主要是由于Internet是一个开放的系统，所有的使用者都能对系统进行研究并提出问题，这样就针对安全性提出了很多问题。在Internet上也发生过相当多的安全问题，使得安全问题进一步为大家所关注。提到网络安全，很多人首先想到的是防火墙，防火墙作为一种静态的访问控制类安全产品通常使用包过滤的技术来实现网络的隔离。适当配置的防火墙虽然可以将非预期的访问请求屏蔽在外，但不能检查出经过他的合法流量中是否包含着恶意入侵代码。在这种需求背景下，急需一种能够有效检测网络入侵行为的工具，维护网络安全。

互联网已经成为人们生活中不可缺少的一部分，但其从一开始就是不安全的。互联网最初的实际目的是开放互联，而不是安全性。中国互联网络信息中心CNNIC在2010年7月15日发布的统计报告显示，截至2010年6月底，中国网民规模达到了4.2亿，突破了4亿大关，其中大部分的中国互联网用户的计算机曾被入侵过。除了计算机病毒外，广大互联网用户还面临黑客Hacker的威胁。黑客行为在全世界范围内活动，随处可以下载的黑客工具使得网络攻击更加容易。病毒加黑客，将给互联网带来巨大的危害。网络技术的快速发展和广泛应用，不但使得网络的结构越来越复杂，也给网络安全带来许多新的问题。网络的不安全，不仅会造成大量的人力、物力资源的浪费，竞争优势的丧失，公司商业机密信息或研究技术文档的被窃，甚至会丢失有关国家的机密，进而危及国家的安全。因此网络的安全防御和针对入侵行为的检测将是一项长期而艰巨的任务。

提到网络安全，很多人首先想到的是防火墙，防火墙作为一种静态的访问控制类安全产品通常使用包过滤的技术来实现网络的隔离。适当配置的防火墙虽然可以将非预期的访问请求屏蔽在外，但不能检查出经过他的合法流量中是否包含着恶意入侵代码。为了使防火墙生效，进入可信网络的所有数据传输部必须经过防火墙。不幸的是许多人使用Modem从安全网络连接到外部网路，入侵者可能利用这些连接绕过防火墙进入可信网路。而且，即使有人闯过防火墙，防火墙也无法知道正在发生的事情。

入侵检测是对防火墙的非常有益的补充，能够帮助网络系统快速发现网络攻击的发生，扩展了系统管理员的安全管理能力，包括安全审计、监视、攻击识别和响应，提高了信息安全基础结构的完整性。与传统的被动式防御的防火墙相比，入侵检测作为一种积极主动的安全防护技术，提供了对内部攻击、外部攻击和误操作的实时保护，它能很好地弥补防火墙的不足，在不牺牲网络性能的前提下对网络进行检测，可以看作防火墙之后的第二道安全闸门。它可以识别出系统是否被入侵，从而做出及时的反应，切断网络连接、记录时时间和报警，提醒系统管理员采取相应的措施，进一步可以提供法律上的依据，避免系统受到进一步的侵害。入侵方式不同，入侵检测的策略和模型也不一样。在这种环境下，入侵检测系统IDS成为了安全市场上新的热点，不仅愈来愈多地受到人们的关注，而且已经开始在军事、金融、政务、商业、交通、电力等行业中发挥其关键作用。

网络入侵检测实际上就是对异常网络数据的检测，否定选择算法NSA作为一种基于人体免疫系统的仿生学算法，被广泛的应用于异常数据检测领域，它是从人体对抗外界病毒时，免疫系统的工作机理中受到启发，形成了NSA的基本框架，其应用于异常网络数据检测的基本原理可被描述如下：

将已知的正常网络行为作为自体集合，在训练阶段，让随机产生的检测器经历一个类似于自我耐受过程的否定选择过程，即让产生的检测器也称为候选检测器与自体集合的所有模式按照一定的匹配规则进行匹配试验，丢弃与自体集合匹配的候选检测器，而那些不与自体集合匹配的候选检测器则作为有效检测器。因此，有效检测器就是一个非自体模式串，由这些有效检测器构成的集合称为检测系统的检测器。在测试阶段，使用检测器来检测所有的模式，这些模式是从流经网络的数据分组中抽象提取出来的。一旦检测器中的某个检测器与待检模式发生匹配，就表明检测到某个非自体模式串，就会向系统发出警报。

NSA的检测效果主要取决于生成的检测器对异常区域的覆盖效果，当自体集合中的数据为高维时，很难达到满意的覆盖效果。由于网络数据属于高维数据并含有很多的冗余信息，所以造成了NSA用于网络入侵检测时，检测效果不稳定，正检率低，误报率过高的问题。

发明内容

本发明的目的在于克服上述NSA直接用于网络数据异常检测中的不足，提出一种基于否定选择和信息增益的入侵检测方法，以实现用较少的训练数据，较短的检测时间对网络入侵行为的稳定检测效果，提高正检率，降低误报率。

本发明的技术方案是：通过对已知的正常网络数据进行信息增益分析，获得信息增益大的特征，采用NSA实现网络数据集中的异常行为检测。具体实现步骤如下：

(1)从KDD99的数据训练集中读入正常网络数据，作为自体模式集S；

(2)对自体模式集S中的数据依次进行特征转化、归一化和离散化处理；

(3)计算处理后数据的每一维特征的信息增益：

G(F)＝I(s₁，...，s_m)-E(F)

其中：I(s₁，s₂，...，s_m)表示判别一个给定样本的标签所需的期望信息，计算公式为：

式中，s为自体模式集中的样本总数，m表示自体模式集S中的类别数，s_i(i＝1，…，m)表示属于第I类的样本数；

E(F)表示第F维特征的熵：

式中s_ij表示S_j中属于类别i的样本个数，S_j(j＝1，L v)表示自体模式集S的v个子集；

(4)对所有特征的信息增益值由大到小排序，选取前N维特征，采用NSA算法生成检测器集D，其中0＜N≤41；

(5)从KDD99的测试集中读入测试数据t，如果该测试数据被检测器集D中的某个检测器d覆盖，即Dis(t，d)＜r_d，将其标记为异常，反之，标记为正常，其中，Dis(t，d)表示该测试数据与检测器d之间的欧氏距离，r_d为检测器d的半径。

本发明与现有技术相比具有如下优点：

1)检测效果好且稳定

NSA的检测效果主要取决于生成的检测器对异常区域的覆盖效果，当自体模式集中的数据为高维时，很难达到满意的覆盖效果。由于网络数据属于高维数据并含有很多的冗余信息，所以造成了NSA用于网络入侵检测时，检测效果不稳定，正检率低，误报率过高的问题。本发明通过计算信息增益值，选取信息增益值排序中的前N维特征，消除了冗余特征，同时降低了数据的维数，生成的检测器能够更好的覆盖异常区域，且对异常区域的覆盖率相对稳定。

2)需要的训练数据少

描述一个m维自体空间所需的最小数据量为2^m，例如，对于一维的自体空间，需要两个自体数据就能够表示，相似的，对于2维，则需要4个自体数据，在10维时，1000个自体数据都不足以描述自体空间的特征，其原因是1000＜2¹⁰。本发明通过计算信息增益值，选取信息增益值排序中的前N维特征，降低了数据的维数，减少了需要的训练数据。

附图说明

图1是本发明的主流程图；

图2是本发明中生成检测器的子流程图；

图3是本发明中读入测试数据的子流程图。

具体实施方式

参照图1，本发明的具体实现步骤如下：

步骤1，从KDD99的训练数据集中读取正常的网络数据，作为自体模式集，读取过程中，给每个自体模式赋半径r_s，该半径为常数。

步骤2，对读入的自体模式集中的数据进行转化、归一化和离散化处理。

(2a)读入的每条数据有41维特征，其中3维是文本特征，对于某一维文本特征，将其包含的各种类型依次赋整数值，就将其转化为数值特征，以protocol_type这一维为例，它有TCP、UDP、ICMP三种不同的类型，对这三种类型依次赋值1、2、3，实现文本特征到数值特征的转化，其余两维文本特征均按此方法转化；

(2b)对转化后的数值特征利用如下公式进行归一化：

y (i, j) = \frac{x (i, j) - Min (i)}{Max (i) - Min (i)}

其中，x(i，j)表示归一化前第i维特征中的第j条数据，y(i，j)表示归一化后第i维特征中的第j条数据，Min(i)表示在自体模式集的所有数据中第i维特征的最小值，Max(i)表示在自体模式集的所有数据中第i维特征的最大值；

(2c)对归一化后的数据采用等频率间隔方法进行离散化，将自体模式划分为任意数量的子类，每个子类中包含10个数据点，如果某个值在同一特征中出现的次数大于10，它就被单独的分为一个子类，将每个子类中的数据量化为[0，1]之间的离散值。

步骤3，计算处理后的41维特征的信息增益。

(3a)计算在判断一个给定样本的标签时所需的最少信息量，公式如下：

I (s_{1}, s_{2}, . . ., s_{m}) = - Σ_{i = 1}^{m} \frac{s_{i}}{s} \log_{2} (\frac{s_{i}}{s})

其中，s为自体模式集中的样本总数，m表示自体模式集中的类别数，s_i表示属于第I类的样本数；

(3b)计算第F维特征的熵：

E (F) = Σ_{j = 1}^{v} \frac{s_{1 j} + . . . + s_{mj}}{s} \times I (s_{1 j}, . . ., s_{mj})

其中，s_ij表示的是S_j中属于类别i的样本个数，S_j(j＝1，L v)表示自体模式集S的v个子集；

(3c)计算第F维特征的信息增益：G(F)＝I(s₁，...，s_m)-E(F)

F依次取[1，41]之间的整数，利用上述公式，计算出全部41维特征的信息增益。

步骤4，根据步骤3中的信息增益值的计算结果，选取信息增益值由大到小排序中的前N维特征，以这N维特征中的数据作为自体模式集，训练生成检测器。

参照图2，本步骤的具体实现如下：

(4a)随机生成候选检测器d，计算其与所有自体模式之间的欧氏距离D(d，s_i)：

D (d, s_{i}) = {(Σ_{j = 1}^{N} {(d_{j} - s_{i, j})}^{2})}^{1 / 2}

(i＝1，L，L)

其中，d_j表示候选检测器的第j维特征的值，s_i，j表示第i个自体的第j维的值，N表示经过信息增益计算后所采用的维数，L表示自体模式集S中包含的数据个数；

(4b)将得出的欧氏距离D(d，s_i)(i＝1，L，L)与自体模式的半径r_s进行比较，如果存在k使得D(d，s_k)＜r_s，则将d抛弃，反之，选取d与所有自体模式s_i之间的欧氏距离D(d，s_i)的最小值p，令候选检测器d的半径r_d＝p-r_s，并将d加入检测器集D中，继续生成候选检测器；

(4c)设定期望覆盖率：c₀(0＜c₀＜1)，初始覆盖次数M＝0，计算候选检测器d与检测器集D中的检测器d_i之间的欧氏距离D(d，d_i)，并与检测器d_i的半径

比较，如果覆盖次数：M＝M+1，根据假设检验的原理，当M＝1/(1-c₀)时，则认为异常区域覆盖率c达到了期望覆盖率c₀，终止生成候选检测器。

步骤5，利用步骤4中生成的检测器集D，对测试集中的数据进行检测。

参照图3，测试的具体步骤如下：

(Sa)从KDD99的测试集中读入测试数据t，计算其与检测器集D中所有检测器的欧氏距离D(t，d_i)：

D (t, d_{i}) = {(Σ_{j = 1}^{N} {(t_{j} - d_{i, j})}^{2})}^{1 / 2}

(i＝1，L，H)

其中，t_j表示测试数据t的第j维的值，d_i，j表示第i个检测器的第j维的值，H表示检测器集D中检测器的数量；

(5b)将得出的欧氏距离D(t，d_i)与检测器d_i的半径

进行比较，如果

则将测试数据t判为网络入侵数据，反之，将其判为正常的网络数据；

(5c)测试集中的所有数据测试完成后，分别计算正检率DR和误报率FA：

DR＝TP/(TP+FN)FA＝FP/(TN+FP)

其中，TP表示被正确检测出的异常数据的个数，TN表示被正确检测出的正常数据的个数，FP表示正常数据被检测成异常数据的个数，FN表示异常数据被检测成正常数据的个数。

本发明的效果可用如下的仿真结果进行说明：

1、仿真数据

KDD99数据集是网络入侵检测领域的基准数据，它为入侵检测领域的研究者提供了唯一可以公开使用的带标签的数据集，为基于计算智能的网络入侵检测研究奠定基础，KDD99数据集总共由500万条记录构成，每条数据包含41维特征，它还提供一个10％的训练子集和测试子集，实验所用数据均取自训练子集和测试子集。

2、仿真内容与分析

我们进行了如下三组实验，实验结果均为运行30次取平均值的结果，IG_NSA表示本发明的方法。

实验1、本发明与现有的NSA方法的检测效果对比仿真实验

本实验的目的是验证本发明相比NSA具有更好且更稳定的检测效果，本实验从KDD99的训练数据集中读入30081条数据，作为训练数据，测试数据为KDD99的10％的测试子集，期望覆盖率c₀＝0.99，参考信息增益值的计算结果，选用count、srv_count、logged_in、dst_host_srv_count这四维特征，实验结果如表1所示。

表1两种方法的检测效果比较

由表1数据可以看出，在三种不同的自体半径条件下，本发明无论在正检率还是误报率上都优于NSA，正检率提高了，误报率降低了。

实验2、训练数据较少时，本发明与NSA方法的检测效果对比试验

本实验的目的是验证在训练数据较少时，本发明仍能取得好的检测效果。本实验从KDD99训练数据集中只读入9216条数据，作为训练数据，测试数据、选用的特征、期望覆盖率均与实验1相同，实验结果如表2所示。

表2训练数据较少时两种方法的检测效果对比

对比表2与表1的数据发现，本发明的检测率降低了，但仍维持在一个较高水平，而NSA的检测率却大幅降低。

实验3、选取特征不同时，本发明的检测效果仿真实验

本实验的目的是验证选取信息增益值大的特征能够使本发明获得好的检测效果，本实验的训练数据、测试数据以及期望覆盖率均与实验1相同，第一组特征包含的是信息增益值大的特征：count、srv_count、logged_in、dst_host_srv_count，第二组特征包含的是信息增益小的特征：duration、service、land、wrong_fragment、root_shell、su_attempted、is_guest_login、rerror_rate、srv_rerror_rate、diff_srv_rate、dst_host_srv_diff_host_rate、dst_host_rerror_rate、dst_host_srv_rerror_rate，实验结果如表3所示。

表3选用不同的特征时，本发明检测效果的对比试验

由表3的数据可以看出，选用信息增益值大的维数时，本发明的正检率很高，误报率很低，而选用信息增益值小的维数时，正检率很低，且自体半径r_s从0.001增加到0.01时，正检率和误报率几乎没有变化，所以，选取信息增益值大的特征能够使本发明获得好的检测效果。

Claims

1.一种基于否定选择和信息增益的入侵检测方法，包括如下步骤：

(3)计算处理后数据的每一维特征的信息增益：

G(F)＝I(s₁，...，s_m)-E(F)

E(F)表示第F维特征的熵：

(5)从KDD99的测试集中读入测试数据t，如果该测试数据被检测器集D中的某个检测器d覆盖，即Dis(t，d)＜r_d，将其判为网络入侵数据，反之，将其判为正常的网络数据，其中，Dis(t，d)表示该测试数据与检测器d之间的欧氏距离，r_d为检测器d的半径。

2.根据权利要求1所述的入侵检测方法，其特征在于步骤(2)所述的对自体模式集S中的数据依次进行特征转化、归一化和离散化处理，按如下步骤进行：

2a)对于某一维文本特征，将其包含的各种类型依次赋整数值，这样就将其转化为数值特征；

2b)对转化后的数值特征利用如下公式进行归一化：

y (i, j) = \frac{x (i, j) - Min (i)}{Max (i) - Min (i)}

2c)对归一化后的数据采用等频率间隔方法进行离散化，将自体模式划分为任意数量的子类，每个子类中包含10个数据点，如果某个值在同一特征中出现的次数大于10，它就被单独的分为一个子类，将每个子类中的数据量化为[0，1]之间的离散值。

3.根据权利要求1所述的入侵检测方法，其特征在于步骤(4)所述的采用NSA算法生成检测器集D，具体实现步骤如下：

3a)随机生成候选检测器d，计算其与所有自体模式之间的欧氏距离D(d，s_i)：

D (d, s_{i}) = {(Σ_{j = 1}^{N} {(d_{j} - s_{i, j})}^{2})}^{1 / 2}

(i＝1，L，L)

3b)将得出的欧氏距离D(d，s_i)(i＝1，L，L)与自体模式的半径r_s进行比较，如果存在k使得D(d，s_k)＜r_s，则将d抛弃，反之，选取d与所有自体模式s_i之间的欧氏距离D(d，s_i)的最小值p，令候选检测器d的半径r_d＝p-r_s，并将d加入检测器集D中，继续生成候选检测器；

3c)设定期望覆盖率：c₀(0＜c₀＜1)，初始覆盖次数M＝0，计算候选检测器d与检测器集D中的检测器d_i之间的欧氏距离D(d，d_i)，并与检测器d_i的半径

比较，如果

覆盖次数：M＝M+1，当M＝1/(1-c₀)时，则认为异常区域覆盖率c达到了期望覆盖率c₀，终止生成候选检测器。