CN100592692C

CN100592692C - 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法

Info

Publication number: CN100592692C
Application number: CN200710133291A
Authority: CN
Inventors: 王崇骏; 孙江文; 吴骏; 陈世福
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2007-09-27
Filing date: 2007-09-27
Publication date: 2010-02-24
Anticipated expiration: 2027-09-27
Also published as: CN101136809A

Abstract

本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，包括如下步骤：1、训练阶段：a、收集已知是否为入侵的会话事件并进行特征提取做为训练集；b、对训练集中进行预处理；c、训练出基于条件互信息的双层半懒惰贝叶斯分类器；d、结束；2、分类阶段：e、预处理待检测会话事件；f、使用步骤1-c得到的分类器对处理后的会话事件进行分类；g、返回分类结果；h、结束。本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法在保持应用阶段低时间复杂度的情况下，提高了分类器的分类精度性能，从而提高了入侵检测系统的入侵检测性能。

Description

基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法

技术领域

本发明涉及一种网络入侵检测方法，尤其涉及一种基于贝叶斯分类器的网络入侵分类方法。

背景技术

在网络技术迅速发展、网络安全问题日益突出的环境下，传统的基于主机或基于网络的入侵检测系统已经难以满足对越来越复杂的网络攻击的检测任务。将机器学习和数据挖掘等技术引入到入侵检测系统，已经成为入侵检测系统研究的主要方向之一。例如：基于贝叶斯分类方法的入侵检测技术、基于神经网络的入侵检测技术和基于关联规则挖掘的入侵检测技术等。

朴素贝叶斯分类器以其简单性以及和其它复杂分类器相当的性能而在入侵检测领域得到了广泛的应用。但同时由于入侵检测中刻画入侵事件的属性特征往往无法做到彼此间独立并且各个类标下的属性独立关系也不尽相同，所以朴素贝叶斯的条件独立性假设始终束缚着其在这一领域中的更广泛的应用。

当然现在也存在着一些放宽这种条件独立性假设的改进的贝叶斯分类器，如TAN，LBR，AODE，FBN等。但是这些分类器或是由于时间复杂度高，或是由于没有考虑到不同类标事件的属性独立性关系不同，从而无法应用到实时性要求高并且已追求预测精度为目的的入侵检测系统中来。

发明内容

发明目的：本发明所要解决的技术问题是提供一种基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，以提高入侵检测系统的入侵检测性能。

技术方案：为解决上述技术问题，本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，包括如下步骤：

1、训练阶段：

a、收集已知是否为入侵的会话事件并进行特征提取做为训练集；

b、对训练集进行预处理；

c、训练出基于条件互信息的双层半懒惰贝叶斯分类器；

d、结束；

2、分类阶段：

e、预处理待检测会话事件；

f、使用步骤1-c得到的分类器对处理后的会话事件进行分类；

g、返回分类结果；

h、结束。

其中步骤1-b中所述的预处理为对训练集中的离散属性进行离散化。

步骤2-e中所述的预处理为对会话事件进行格式化或离散化。

步骤1-c的具体过程如下：

1、从训练集中统计出每个不同类标出现的频率，并使用这些频率估计出每个类标的先验概率；

2、从训练样本中估计出每个类标下每个属性取值的条件概率；

3、从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率；

4、结束。

步骤2-f的具体过程如下：

1、由用户输入参数β，取值可为30～60；

2、置j的值为1；

3、判断j是否小于等于不同的类标数L，是则执行步骤4，否则转步骤19；

4、根据公式

{SI}_{\mod} (a_{i}; B | w_{j}) = Σ_{k = 1, a_{k} &NotEqual; a_{i}}^{n} I (a_{i}, a_{k} | w_{j}) (1 - \frac{I (a_{i}, a_{k} | w_{j})}{Σ_{p = 1, a_{p} &NotEqual; a_{i}}^{n} I (a_{i}, a_{p} | w_{j})})

计算每个属性A_i相对于其它所有属性在类标w_j下的条件互信息和；

其中，a_i为待检测记录在属性A_i上的取值，B是除属性A_i外的其余所有属性的集合，a_k为待检测记录在属性A_k上的取值；

其中，I(a_i，a_k|w_j)使用公式

I (a_{i}, a_{k} | w_{j}) = | \log_{2} \frac{P (a_{i}, a_{k} | w_{j})}{P (a_{i} | w_{j}) P (a_{k} | w_{j})} |

进行计算；

5、对属性的条件互信息和进行降序排列，并将与之对应的属性下标存储在数组I中；

6、新建空数据集D，并用训练阶段的训练集样本初始化D；

7、置属性集V₂为空；

8、置k为1；

9、判断k是否小于等于所有属性的个数n，是则执行步骤10，否则转步骤15；

10、计算数据集D中与待检测记录在属性A_I(k)上有取相同值的样本数量N′；

11、判断N′是否大于β，是则执行12，否则转步骤15；

12、删除数据集D中与待测记录具有不同属性A_I(k)取值的样本；

13、将属性A_I(k)加入到V₂；

14、使k加1，转步骤9；

15、将不在V₂中的所有其它属性加入到属性集V₁中；

16、根据公式

P (V_{1} | V_{2}, w_{j}) = Π_{i = 1}^{m} P (a_{i} | V_{2}, w_{j})

计算子样本集中的类标似然度P(V₁|V₂，w_j)；

其中，m为属性集V₁中的属性个数；

17、根据公式

P(w_j|e)＝P(V₁|V₂，w_j)P(w_j|V₂)P(V₂)

计算类标w_j的后验概率；

其中，e为待检测记录，其由属性集由A来刻画：

18、使j加1并转至步骤3；

19、找出具有最大后验概率的类标；

20、将具有最大后验概率的类标作为检测结果返回；

21、结束。

有益效果：本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法在保持应用阶段低时间复杂度的情况下，提高了分类器的分类精度性能，从而提高了入侵检测系统的入侵检测性能，明显降低误报警。

附图说明

图1为入侵检测系统工作流程图。

图2为本发明基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法的流程图。

图3为生成基于条件互信息的双层半懒惰贝叶斯分类器的流程图。

图4为利用基于条件互信息的双层半懒惰贝叶斯分类器进行分类的流程图。

具体实施方式

下面结合附图对本发明进行详细说明。

如图1所示，入侵检测系统通过网络会话事件采集设备获取网络报文数据，经报文数据格式化、特征提取等预处理，然后进行入侵识别，入侵识别的结果可以继续进行报警关联、入侵跟踪等后续处理。

入侵识别是网络入侵检测系统的核心步骤，本发明的思路就是通过提高入侵识别中分类器的分类精度，从而提高整个网络入侵检测系统的性能。入侵识别过程即本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法的流程图如图2所示。

步骤0为本发明的网络入侵分类方法的起始状态；

在训练阶段(步骤1～3)，步骤1收集网络中已知是否为入侵的历史会话事件，并使用41个特征属性(特征属性详细描述见KDDCUP99入侵检测数据集描述说明文档)来刻画这些事件，由这些已知是否为入侵事件的会话(即已知类标的记录)构成基于条件互信息的双层半懒惰贝叶斯分类器的训练集；

步骤2对训练集中离散属性使用将其取值范围10等分的方法离散化；

步骤3使用训练集训练出一个基于条件互信息的双层半懒惰贝叶斯分类器。

在分类阶段(步骤4～5)，步骤4在实际入侵检测应用场景中通过网络会话事件采集设备收集网络报文并进行格式化、离散化等预处理；

步骤5利用生成的基于条件互信息的双层半懒惰贝叶斯分类器进行分类(甄别该报文是否代表入侵，以及是何种入侵)。

步骤6是本发明的网络入侵分类方法的结束步骤。

图3是对图2中步骤3的详述。

步骤30为起始步骤；

步骤31从训练集中统计出每个不同类标出现的频率，并使用这些频率估计出每个类标的先验概率，即用最大似然估计的方法，同时使用公式(1)进行拉普拉斯修正：

P (w_{j}) = \frac{N_{j} + 1 / L}{N + 1} - - - (1)

其中w_j为其中的一个类标，N_j为w_j在样本中出现的频次，L为不同的类标数，N为样本中所有记录的总数，P(w_j)即为w_j的先验概率。

步骤32使用最大似然估计的方法及拉普拉斯修正利用公式(2)从训练样本中估计出每个类标下每个属性取值的条件概率：

P (a_{i} | w_{j}) = \frac{N_{ij} + 1 / M_{i}}{N_{j} + 1} - - - (2)

其中P(a_i|w_j)为属性A_i取值a_i时在类标w_j下的条件概率，a_i为属性A_i的任一取值，N_ij为训练集样本中类标为w_j并且属性A_i取a_i的样本数量，M_i为属性A_i的不同取值个数。

步骤33使用最大似然估计及拉普拉斯修正利用公式(3)从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率：

P (a_{i}, a_{k} | w_{j}) = \frac{N_{ikj} + 1 / (M_{i} * M_{k})}{N_{j} + 1} - - - (3)

其中P(a_i，a_k|w_j)为属性A_i取值a_i同时属性A_k取a_k时在类标w_j下的联合条件概率，a_k为属性A_k的任一取值，N_ikj为训练集样本中类标为w_j、属性A_i取a_i同时属性A_k取a_k的样本量，M_k为属性A_k的不同取值个数。

步骤34为图3结束状态。

图4详述了图2中的步骤5。

步骤50为起始步。

步骤51由用户输入参数β以控制子样本集中样本量的最小数量，一般在30到60之间。

步骤52置j的值为1；步骤53判断j是否小于等于L，是则执行步骤54，否则转步骤69。

步骤54根据公式(4)计算每个属性A_i相对于其它所有属性在类标w_j下的条件互信息和。

{SI}_{\mod} (a_{i}; B | w_{j}) = Σ_{k = 1, a_{k} &NotEqual; a_{i}}^{n} I (a_{i}, a_{k} | w_{j}) (1 - \frac{I (a_{i}, a_{k} | w_{j})}{Σ_{p = 1, a_{p} &NotEqual; a_{i}}^{n} I (a_{i}, a_{p} | w_{j})}) - - - (4)

其中a_i为待检测记录在属性A_i上的取值，B是除属性A_i外的其余所有属性的集合，a_k为待检测记录在属性A_k上的取值，I(a_l，a_k|w_j)使用公式(5)进行计算。

I (a_{i}, a_{k} | w_{j}) = | \log_{2} \frac{P (a_{i}, a_{k} | w_{j})}{P (a_{i} | w_{j}) P (a_{k} | w_{j})} | - - - (5)

步骤55对属性的条件互信息和进行降序排列，并将与之对应的属性下标存储在数组I中。

步骤56新建空数据集D，并用训练阶段的训练集样本初始化D。

步骤57置属性集V₂为空。步骤58置k为1。

步骤59判断k是否小于等于所有属性的个数n，是则执行步骤60，否则转步骤65。

步骤60计算D中与待检测记录在属性A_I(k)上有取相同值的样本数量N′。

步骤61判断N′是否大于β，是则执行62，否则转步骤65。

步骤62删除D中与待测记录具有不同属性A_I(k)取值的样本。

步骤63将属性A_I(k)加入到V₂。

步骤64使k加1转步骤59。

步骤65将不在V₂中的所有其它属性加入到属性集V₁中，V₁初始为空(即V₁中的属性为V₂的补集)。

步骤66根据公式(6)计算子样本集中的类标似然度P(V₁|V₂，w_j)。

P (V_{1} | V_{2}, w_{j}) = Π_{i = 1}^{m} P (a_{i} | V_{2}, w_{j}) - - - (6)

其中m为属性集V₁中的属性个数。

步骤67根据公式(7)计算类标w_j的后验概率。

P(w_j|e)＝P(V₁|V₂，w_j)P(w_j|V₂)P(V₂)(7)

其中e即为待检测记录，其由属性集A来刻画。

步骤68使j加1并转至步骤53。

步骤69找出具有最大后验概率的类标。

步骤70将具有最大后验概率的类标作为检测结果返回。

步骤71为图4的结束状态。

Claims

1、一种基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，其特征在于该方法包括如下步骤：

(1)训练阶段：

(a)收集已知是否为入侵的会话事件并进行特征提取做为训练集；

(b)对训练集进行预处理；

(c)训练出基于条件互信息的双层半懒惰贝叶斯分类器；

(d)结束；

(2)分类阶段：

(e)预处理待检测会话事件；

(f)使用步骤1(c)得到的分类器对处理后的会话事件进行分类；

(g)返回分类结果；

(h)结束。

其中，步骤(1)(c)中所述的训练出基于条件互信息的双层半懒惰贝叶斯分类器的步骤是：

(i)从训练集中统计出每个不同类标出现的频率，并使用这些频率估计出每个类标的先验概率；

(ii)从训练样本中估计出每个类标下每个属性取值的条件概率；

(iii)从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率；

(iiii)结束；

其中，步骤(2)(f)中所述的使用步骤1(c)得到的分类器对处理后的会话事件进行分类的步骤如下：

(1)由用户输入参数β；

(2)置j的值为1；

(3)判断j是否小于等于不同的类标数L，是则执行步骤(4)，否则转步骤(19)；

(4)根据公式

{SI}_{\mod} (a_{i}; B | w_{j}) = Σ_{k = 1, a_{k} &NotEqual; a_{i}}^{n} I (a_{i}, a_{k} | w_{j}) (1 - \frac{I (a_{i}, a_{k} | w_{j})}{Σ_{p = 1, a_{p} &NotEqual; a_{i}}^{n} I (a_{i}, a_{p} | w_{j})})

其中，α_i为待检测记录在属性A_i上的取值，B是除属性A_i外的其余所有属性的集合，a_k为待检测记录在属性A_k上的取值；

其中，I(a_i，a_k|w_j)使用公式

I (a_{i}, a_{k} | w_{j}) = | \log_{2} \frac{P (a_{i}, a_{k} | w_{j})}{P (a_{i} | w_{j}) P (a_{k} | w_{j})} |

进行计算；

(5)对属性的条件互信息和进行降序排列，并将与之对应的属性下标存储在数组I中；

(6)新建空数据集D，并用训练阶段的训练集样本初始化D；

(7)置属性集V₂为空；

(8)置k为1；

(9)判断k是否小于等于所有属性的个数n，是则执行步骤(10)，否则转步骤(15)；

(10)计算数据集D中与待检测记录在属性A_i、A_k上有取相同值的样本数量N′；

(11)判断N′是否大于β，是则执行(12)，否则转步骤(15)；

(12)删除数据集D中与待测记录具有不同属性A_i、A_k取值的样本；

(13)将属性A_i、A_k加入到V₂；

(14)使k加1，转步骤(9)；

(15)将不在V₂中的所有其它属性加入到属性集V₁中，V₁初始为空；

(16)根据公式

P (V_{1} | V_{2}, w_{j}) = Π_{i = 1}^{m} P (a_{i} | V_{2}, w_{j})

计算子样本集中的类标似然度P(V₁|V₂，w_j)；

其中，m为属性集V₁中的属性个数；

(17)根据公式

P(w_j|e)＝P(V₁|V₂，w_j)P(w_j|V₂)P(V₂)

计算类标w_j的后验概率；

其中，e为待检测记录，其由属性集A来刻画；

(18)使j加1并转至步骤(3)；

(19)找出具有最大后验概率的类标；

(20)将具有最大后验概率的类标作为检测结果返回；

(21)结束。

2、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，其特征在于步骤(1)(b)中所述的预处理为对训练集中的离散属性进行离散化。

3、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，其特征在于步骤(2)(e)中所述的预处理为对会话事件进行格式化或离散化。

4、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法，其特征在于步骤(2)(f)中的步骤(1)中的所述参数β的数值为30～60。