CN100592692C - 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法 - Google Patents

基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法 Download PDF

Info

Publication number
CN100592692C
CN100592692C CN200710133291A CN200710133291A CN100592692C CN 100592692 C CN100592692 C CN 100592692C CN 200710133291 A CN200710133291 A CN 200710133291A CN 200710133291 A CN200710133291 A CN 200710133291A CN 100592692 C CN100592692 C CN 100592692C
Authority
CN
China
Prior art keywords
attribute
mutual information
idleness
double
bayesian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710133291A
Other languages
English (en)
Other versions
CN101136809A (zh
Inventor
王崇骏
孙江文
吴骏
陈世福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN200710133291A priority Critical patent/CN100592692C/zh
Publication of CN101136809A publication Critical patent/CN101136809A/zh
Application granted granted Critical
Publication of CN100592692C publication Critical patent/CN100592692C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,包括如下步骤:1、训练阶段:a、收集已知是否为入侵的会话事件并进行特征提取做为训练集;b、对训练集中进行预处理;c、训练出基于条件互信息的双层半懒惰贝叶斯分类器;d、结束;2、分类阶段:e、预处理待检测会话事件;f、使用步骤1-c得到的分类器对处理后的会话事件进行分类;g、返回分类结果;h、结束。本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法在保持应用阶段低时间复杂度的情况下,提高了分类器的分类精度性能,从而提高了入侵检测系统的入侵检测性能。

Description

基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法
技术领域
本发明涉及一种网络入侵检测方法,尤其涉及一种基于贝叶斯分类器的网络入侵分类方法。
背景技术
在网络技术迅速发展、网络安全问题日益突出的环境下,传统的基于主机或基于网络的入侵检测系统已经难以满足对越来越复杂的网络攻击的检测任务。将机器学习和数据挖掘等技术引入到入侵检测系统,已经成为入侵检测系统研究的主要方向之一。例如:基于贝叶斯分类方法的入侵检测技术、基于神经网络的入侵检测技术和基于关联规则挖掘的入侵检测技术等。
朴素贝叶斯分类器以其简单性以及和其它复杂分类器相当的性能而在入侵检测领域得到了广泛的应用。但同时由于入侵检测中刻画入侵事件的属性特征往往无法做到彼此间独立并且各个类标下的属性独立关系也不尽相同,所以朴素贝叶斯的条件独立性假设始终束缚着其在这一领域中的更广泛的应用。
当然现在也存在着一些放宽这种条件独立性假设的改进的贝叶斯分类器,如TAN,LBR,AODE,FBN等。但是这些分类器或是由于时间复杂度高,或是由于没有考虑到不同类标事件的属性独立性关系不同,从而无法应用到实时性要求高并且已追求预测精度为目的的入侵检测系统中来。
发明内容
发明目的:本发明所要解决的技术问题是提供一种基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,以提高入侵检测系统的入侵检测性能。
技术方案:为解决上述技术问题,本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,包括如下步骤:
1、训练阶段:
a、收集已知是否为入侵的会话事件并进行特征提取做为训练集;
b、对训练集进行预处理;
c、训练出基于条件互信息的双层半懒惰贝叶斯分类器;
d、结束;
2、分类阶段:
e、预处理待检测会话事件;
f、使用步骤1-c得到的分类器对处理后的会话事件进行分类;
g、返回分类结果;
h、结束。
其中步骤1-b中所述的预处理为对训练集中的离散属性进行离散化。
步骤2-e中所述的预处理为对会话事件进行格式化或离散化。
步骤1-c的具体过程如下:
1、从训练集中统计出每个不同类标出现的频率,并使用这些频率估计出每个类标的先验概率;
2、从训练样本中估计出每个类标下每个属性取值的条件概率;
3、从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率;
4、结束。
步骤2-f的具体过程如下:
1、由用户输入参数β,取值可为30~60;
2、置j的值为1;
3、判断j是否小于等于不同的类标数L,是则执行步骤4,否则转步骤19;
4、根据公式
SI mod ( a i ; B | w j ) = Σ k = 1 , a k ≠ a i n I ( a i , a k | w j ) ( 1 - I ( a i , a k | w j ) Σ p = 1 , a p ≠ a i n I ( a i , a p | w j ) )
计算每个属性Ai相对于其它所有属性在类标wj下的条件互信息和;
其中,ai为待检测记录在属性Ai上的取值,B是除属性Ai外的其余所有属性的集合,ak为待检测记录在属性Ak上的取值;
其中,I(ai,ak|wj)使用公式
I ( a i , a k | w j ) = | log 2 P ( a i , a k | w j ) P ( a i | w j ) P ( a k | w j ) |
进行计算;
5、对属性的条件互信息和进行降序排列,并将与之对应的属性下标存储在数组I中;
6、新建空数据集D,并用训练阶段的训练集样本初始化D;
7、置属性集V2为空;
8、置k为1;
9、判断k是否小于等于所有属性的个数n,是则执行步骤10,否则转步骤15;
10、计算数据集D中与待检测记录在属性AI(k)上有取相同值的样本数量N′;
11、判断N′是否大于β,是则执行12,否则转步骤15;
12、删除数据集D中与待测记录具有不同属性AI(k)取值的样本;
13、将属性AI(k)加入到V2
14、使k加1,转步骤9;
15、将不在V2中的所有其它属性加入到属性集V1中;
16、根据公式
P ( V 1 | V 2 , w j ) = Π i = 1 m P ( a i | V 2 , w j )
计算子样本集中的类标似然度P(V1|V2,wj);
其中,m为属性集V1中的属性个数;
17、根据公式
P(wj|e)=P(V1|V2,wj)P(wj|V2)P(V2)
计算类标wj的后验概率;
其中,e为待检测记录,其由属性集由A来刻画:
18、使j加1并转至步骤3;
19、找出具有最大后验概率的类标;
20、将具有最大后验概率的类标作为检测结果返回;
21、结束。
有益效果:本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法在保持应用阶段低时间复杂度的情况下,提高了分类器的分类精度性能,从而提高了入侵检测系统的入侵检测性能,明显降低误报警。
附图说明
图1为入侵检测系统工作流程图。
图2为本发明基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法的流程图。
图3为生成基于条件互信息的双层半懒惰贝叶斯分类器的流程图。
图4为利用基于条件互信息的双层半懒惰贝叶斯分类器进行分类的流程图。
具体实施方式
下面结合附图对本发明进行详细说明。
如图1所示,入侵检测系统通过网络会话事件采集设备获取网络报文数据,经报文数据格式化、特征提取等预处理,然后进行入侵识别,入侵识别的结果可以继续进行报警关联、入侵跟踪等后续处理。
入侵识别是网络入侵检测系统的核心步骤,本发明的思路就是通过提高入侵识别中分类器的分类精度,从而提高整个网络入侵检测系统的性能。入侵识别过程即本发明的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法的流程图如图2所示。
步骤0为本发明的网络入侵分类方法的起始状态;
在训练阶段(步骤1~3),步骤1收集网络中已知是否为入侵的历史会话事件,并使用41个特征属性(特征属性详细描述见KDDCUP99入侵检测数据集描述说明文档)来刻画这些事件,由这些已知是否为入侵事件的会话(即已知类标的记录)构成基于条件互信息的双层半懒惰贝叶斯分类器的训练集;
步骤2对训练集中离散属性使用将其取值范围10等分的方法离散化;
步骤3使用训练集训练出一个基于条件互信息的双层半懒惰贝叶斯分类器。
在分类阶段(步骤4~5),步骤4在实际入侵检测应用场景中通过网络会话事件采集设备收集网络报文并进行格式化、离散化等预处理;
步骤5利用生成的基于条件互信息的双层半懒惰贝叶斯分类器进行分类(甄别该报文是否代表入侵,以及是何种入侵)。
步骤6是本发明的网络入侵分类方法的结束步骤。
图3是对图2中步骤3的详述。
步骤30为起始步骤;
步骤31从训练集中统计出每个不同类标出现的频率,并使用这些频率估计出每个类标的先验概率,即用最大似然估计的方法,同时使用公式(1)进行拉普拉斯修正:
P ( w j ) = N j + 1 / L N + 1 - - - ( 1 )
其中wj为其中的一个类标,Nj为wj在样本中出现的频次,L为不同的类标数,N为样本中所有记录的总数,P(wj)即为wj的先验概率。
步骤32使用最大似然估计的方法及拉普拉斯修正利用公式(2)从训练样本中估计出每个类标下每个属性取值的条件概率:
P ( a i | w j ) = N ij + 1 / M i N j + 1 - - - ( 2 )
其中P(ai|wj)为属性Ai取值ai时在类标wj下的条件概率,ai为属性Ai的任一取值,Nij为训练集样本中类标为wj并且属性Ai取ai的样本数量,Mi为属性Ai的不同取值个数。
步骤33使用最大似然估计及拉普拉斯修正利用公式(3)从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率:
P ( a i , a k | w j ) = N ikj + 1 / ( M i * M k ) N j + 1 - - - ( 3 )
其中P(ai,ak|wj)为属性Ai取值ai同时属性Ak取ak时在类标wj下的联合条件概率,ak为属性Ak的任一取值,Nikj为训练集样本中类标为wj、属性Ai取ai同时属性Ak取ak的样本量,Mk为属性Ak的不同取值个数。
步骤34为图3结束状态。
图4详述了图2中的步骤5。
步骤50为起始步。
步骤51由用户输入参数β以控制子样本集中样本量的最小数量,一般在30到60之间。
步骤52置j的值为1;步骤53判断j是否小于等于L,是则执行步骤54,否则转步骤69。
步骤54根据公式(4)计算每个属性Ai相对于其它所有属性在类标wj下的条件互信息和。
SI mod ( a i ; B | w j ) = Σ k = 1 , a k ≠ a i n I ( a i , a k | w j ) ( 1 - I ( a i , a k | w j ) Σ p = 1 , a p ≠ a i n I ( a i , a p | w j ) ) - - - ( 4 )
其中ai为待检测记录在属性Ai上的取值,B是除属性Ai外的其余所有属性的集合,ak为待检测记录在属性Ak上的取值,I(al,ak|wj)使用公式(5)进行计算。
I ( a i , a k | w j ) = | log 2 P ( a i , a k | w j ) P ( a i | w j ) P ( a k | w j ) | - - - ( 5 )
步骤55对属性的条件互信息和进行降序排列,并将与之对应的属性下标存储在数组I中。
步骤56新建空数据集D,并用训练阶段的训练集样本初始化D。
步骤57置属性集V2为空。步骤58置k为1。
步骤59判断k是否小于等于所有属性的个数n,是则执行步骤60,否则转步骤65。
步骤60计算D中与待检测记录在属性AI(k)上有取相同值的样本数量N′。
步骤61判断N′是否大于β,是则执行62,否则转步骤65。
步骤62删除D中与待测记录具有不同属性AI(k)取值的样本。
步骤63将属性AI(k)加入到V2
步骤64使k加1转步骤59。
步骤65将不在V2中的所有其它属性加入到属性集V1中,V1初始为空(即V1中的属性为V2的补集)。
步骤66根据公式(6)计算子样本集中的类标似然度P(V1|V2,wj)。
P ( V 1 | V 2 , w j ) = Π i = 1 m P ( a i | V 2 , w j ) - - - ( 6 )
其中m为属性集V1中的属性个数。
步骤67根据公式(7)计算类标wj的后验概率。
P(wj|e)=P(V1|V2,wj)P(wj|V2)P(V2)(7)
其中e即为待检测记录,其由属性集A来刻画。
步骤68使j加1并转至步骤53。
步骤69找出具有最大后验概率的类标。
步骤70将具有最大后验概率的类标作为检测结果返回。
步骤71为图4的结束状态。

Claims (4)

1、一种基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,其特征在于该方法包括如下步骤:
(1)训练阶段:
(a)收集已知是否为入侵的会话事件并进行特征提取做为训练集;
(b)对训练集进行预处理;
(c)训练出基于条件互信息的双层半懒惰贝叶斯分类器;
(d)结束;
(2)分类阶段:
(e)预处理待检测会话事件;
(f)使用步骤1(c)得到的分类器对处理后的会话事件进行分类;
(g)返回分类结果;
(h)结束。
其中,步骤(1)(c)中所述的训练出基于条件互信息的双层半懒惰贝叶斯分类器的步骤是:
(i)从训练集中统计出每个不同类标出现的频率,并使用这些频率估计出每个类标的先验概率;
(ii)从训练样本中估计出每个类标下每个属性取值的条件概率;
(iii)从训练样本中估计出每个类标下每两个属性不同取值的联合条件概率;
(iiii)结束;
其中,步骤(2)(f)中所述的使用步骤1(c)得到的分类器对处理后的会话事件进行分类的步骤如下:
(1)由用户输入参数β;
(2)置j的值为1;
(3)判断j是否小于等于不同的类标数L,是则执行步骤(4),否则转步骤(19);
(4)根据公式
SI mod ( a i ; B | w j ) = Σ k = 1 , a k ≠ a i n I ( a i , a k | w j ) ( 1 - I ( a i , a k | w j ) Σ p = 1 , a p ≠ a i n I ( a i , a p | w j ) )
计算每个属性Ai相对于其它所有属性在类标wj下的条件互信息和;
其中,αi为待检测记录在属性Ai上的取值,B是除属性Ai外的其余所有属性的集合,ak为待检测记录在属性Ak上的取值;
其中,I(ai,ak|wj)使用公式
I ( a i , a k | w j ) = | log 2 P ( a i , a k | w j ) P ( a i | w j ) P ( a k | w j ) |
进行计算;
(5)对属性的条件互信息和进行降序排列,并将与之对应的属性下标存储在数组I中;
(6)新建空数据集D,并用训练阶段的训练集样本初始化D;
(7)置属性集V2为空;
(8)置k为1;
(9)判断k是否小于等于所有属性的个数n,是则执行步骤(10),否则转步骤(15);
(10)计算数据集D中与待检测记录在属性Ai、Ak上有取相同值的样本数量N′;
(11)判断N′是否大于β,是则执行(12),否则转步骤(15);
(12)删除数据集D中与待测记录具有不同属性Ai、Ak取值的样本;
(13)将属性Ai、Ak加入到V2
(14)使k加1,转步骤(9);
(15)将不在V2中的所有其它属性加入到属性集V1中,V1初始为空;
(16)根据公式
P ( V 1 | V 2 , w j ) = Π i = 1 m P ( a i | V 2 , w j )
计算子样本集中的类标似然度P(V1|V2,wj);
其中,m为属性集V1中的属性个数;
(17)根据公式
P(wj|e)=P(V1|V2,wj)P(wj|V2)P(V2)
计算类标wj的后验概率;
其中,e为待检测记录,其由属性集A来刻画;
(18)使j加1并转至步骤(3);
(19)找出具有最大后验概率的类标;
(20)将具有最大后验概率的类标作为检测结果返回;
(21)结束。
2、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,其特征在于步骤(1)(b)中所述的预处理为对训练集中的离散属性进行离散化。
3、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,其特征在于步骤(2)(e)中所述的预处理为对会话事件进行格式化或离散化。
4、根据权利要求1所述的基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法,其特征在于步骤(2)(f)中的步骤(1)中的所述参数β的数值为30~60。
CN200710133291A 2007-09-27 2007-09-27 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法 Expired - Fee Related CN100592692C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710133291A CN100592692C (zh) 2007-09-27 2007-09-27 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710133291A CN100592692C (zh) 2007-09-27 2007-09-27 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法

Publications (2)

Publication Number Publication Date
CN101136809A CN101136809A (zh) 2008-03-05
CN100592692C true CN100592692C (zh) 2010-02-24

Family

ID=39160664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710133291A Expired - Fee Related CN100592692C (zh) 2007-09-27 2007-09-27 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法

Country Status (1)

Country Link
CN (1) CN100592692C (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420419B (zh) * 2008-10-27 2011-05-18 吉林大学 一种自适应高速网络流量分层抽样采集方法
CN101753316B (zh) * 2008-12-02 2012-08-08 北京启明星辰信息技术股份有限公司 一种智能特征提取方法及系统
CN101594352B (zh) * 2009-07-02 2012-06-27 西安电子科技大学 基于新颖发现和窗函数的分类融合入侵检测方法
CN107609584B (zh) * 2017-09-06 2020-04-14 长沙学院 一种基于特征选择的皮肤检测混合颜色空间的选取方法
CN108540329B (zh) * 2018-04-24 2020-12-25 中国人民解放军国防科技大学 基于两层贝叶斯网络模型的网络安全推断方法
CN110580483A (zh) * 2018-05-21 2019-12-17 上海大唐移动通信设备有限公司 一种室内外用户区分方法及装置
CN109150886B (zh) * 2018-08-31 2021-07-27 腾讯科技(深圳)有限公司 结构化查询语言注入攻击检测方法及相关设备
CN111800389A (zh) * 2020-06-09 2020-10-20 同济大学 基于贝叶斯网络的港口网络入侵检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790405A (zh) * 2005-12-31 2006-06-21 钱德沛 基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法
CN1936925A (zh) * 2006-10-12 2007-03-28 上海交通大学 用贝叶斯网络分类器图像判别特征点位置的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790405A (zh) * 2005-12-31 2006-06-21 钱德沛 基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法
CN1936925A (zh) * 2006-10-12 2007-03-28 上海交通大学 用贝叶斯网络分类器图像判别特征点位置的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L2DL NB :懒惰学习双层朴素贝叶斯分类器. 孙江文等.计算机科学,第34卷第1期. 2007
L2DL NB:懒惰学习双层朴素贝叶斯分类器. 孙江文等.计算机科学,第34卷第1期. 2007 *

Also Published As

Publication number Publication date
CN101136809A (zh) 2008-03-05

Similar Documents

Publication Publication Date Title
CN100592692C (zh) 基于条件互信息的双层半懒惰贝叶斯的网络入侵分类方法
CN101394316B (zh) 基于完全无向图的贝叶斯的网络入侵分类方法
CN108648748B (zh) 医院噪声环境下的声学事件检测方法
CN106407649B (zh) 基于时间递归神经网络的微震信号到时自动拾取方法
CN103544392B (zh) 基于深度学习的医学气体识别方法
CN110166484A (zh) 一种基于LSTM-Attention网络的工业控制系统入侵检测方法
CN113870260B (zh) 一种基于高频时序数据的焊接缺陷实时检测方法及系统
CN111507371A (zh) 方法和装置
CN102496001B (zh) 一种视频监控目标自动检测的方法和系统
CN106599920A (zh) 一种基于耦合隐半马尔可夫模型的航空轴承故障诊断方法
CN105608446A (zh) 一种视频流异常事件的检测方法及装置
CN110619264B (zh) 基于UNet++的微地震有效信号识别方法及装置
CN104244016B (zh) 一种h264视频内容篡改检测方法
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN112986950A (zh) 基于深度学习的单脉冲激光雷达回波特征提取方法
CN109946080A (zh) 一种基于嵌入式循环网络的机械设备健康状态识别方法
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN103310235A (zh) 一种基于参数识别与估计的隐写分析方法
CN113673618A (zh) 一种融合注意力模型的烟虫目标检测方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN111476102A (zh) 一种安全防护方法、中控设备及计算机存储介质
CN113886524A (zh) 一种基于短文本的网络安全威胁事件抽取方法
CN116204830B (zh) 一种基于路径聚合网络的焊接异常实时检测方法
CN116932389A (zh) 一种基于大型预训练语言模型的求解器缺陷检测方法
CN107092895A (zh) 一种基于深度信念网络的多模态情感识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100224

Termination date: 20130927