CN1223941C

CN1223941C - 一种基于相关特征聚类的层次入侵检测系统

Info

Publication number: CN1223941C
Application number: CN 03137094
Authority: CN
Inventors: 邹涛; 田新广
Original assignee: BEIJING SHOUXIN Co Ltd
Current assignee: BEIJING SHOUXIN Co Ltd
Priority date: 2003-06-18
Filing date: 2003-06-18
Publication date: 2005-10-19
Anticipated expiration: 2023-06-18
Also published as: CN1460932A

Abstract

一种基于相关特征聚类的层次入侵检测系统，其中控制台、数据收集模块、预处理模块、数据存储模块、响应模块、通信模块和事件分析模块中的检测器的结构组成、连接关系及功能都与现有的误用入侵检测系统相同；其创新的关键之处是在事件分析模块中增设了由相关特征分析器、数据重组器和大类轮廓分析器构成的对初始化数据流进行相关特征分析、提取和重组的构件来替代原来的攻击轮廓分析器，从而构成一种新的层次入侵检测系统。该系统能够正确识别和检测新的攻击，较好地解决了现有的误用检测系统无法检测新的攻击方式和检测概率较低的缺陷，为保障计算机系统、网络系统及整个信息基础设施的安全的一种新技术装备。

Description

一种基于相关特征聚类的层次入侵检测系统

技术领域

本发明涉及一种用于计算机网络安全的基于相关特征聚类的层次入侵检测系统，属于网络信息安全技术领域。

背景技术

随着网络应用范围的不断扩大，对网络的各类攻击与破坏也与日俱增。每年全球因计算机网络的安全系统被破坏而造成的经济损失高达数百亿美元。无论政府、商务，还是金融、媒体的网站都在不同程度上受到入侵与破坏。网络安全已成为国家网络发展的关键，同时也是国家经济与国防安全的重要组成部分。如何检测与防范对网络的入侵攻击，以保障计算机系统、网络系统及整个信息基础设施的安全已经成为刻不容缓的重要课题。入侵检测系统(IDS，Intrusion Detection System)即是实现入侵检测的信息安全产品。它是继防火墙、数据加密等传统安全保护措施后的新一代安全保障技术。由于计算机系统各部分在设计、运行和使用中都会存在个别漏洞，而且，目前还没有经济可行的办法能够完全消除这些隐患，使得有效的入侵检测技术成为保证系统安全的必不可少的手段；即使一个系统中不存在某个特定的漏洞，入侵检测系统仍然能够检测到相应的攻击事件，并调整系统状态对未来可能发生的侵入发出警告。

入侵检测系统的功能是收集网络数据，对网络攻击进行检测，并将检测结果报告给网络管理员，通过防火墙等其他网络设备采取相应的响应动作，或者在入侵检测系统中嵌入响应部件，由入侵检测系统自身执行相应的响应动作。图1(A)、(B)分别展示了入侵检测系统在网络中的两种设置形式：分接头(Tap)形式和直连(In-line)形式。

目前，评价一个入侵检测系统检测性能的指标主要有两项：A.检测概率：正确检测到的攻击数与攻击总数之比；B.虚警概率：正常行为被入侵检测系统错误地判决为攻击的数目与正常行为总数之比。通常，一个好的入侵检测系统应该具有较高的检测概率和较低的虚警概率。也就是说，该入侵检测系统能够检测到绝大多数的攻击，而且，尽可能少地把正常行为错判为攻击。

从检测技术的角度上，入侵检测可以分为“误用检测”和“异常检测”两大类。由于本发明系统只涉及误用检测，因此这里也只介绍误用检测。

参见图2和图3，目前的误用检测系统一般由两个阶段组成：初始化(即得到检测器中检测规则集)阶段和检测阶段。在初始化阶段，首先采集包含有已知攻击数据的初始化数据集，再通过攻击行为轮廓分析器(如：规则学习分析器)或者由信息安全领域的技术人员在初始化数据集上分析现有的每种攻击的行为轮廓，并用规则等形式来编码表示，再存储于存储器中。这种保存于存储器中用来描述攻击行为的规则集合及其相应的检测程序被称为“攻击检测器”。

攻击检测规则集合的一般形式如下(其中符号∧表示“且”、W为已知的攻击种类数目)：

如果：(条件11∧条件12∧......∧条件1Q₁)成立，则：判断当前行为为攻击1(其中Q₁为规则1中的条件个数，以下类似；而且，每种攻击的检测规则数量可能不止一条。这里仅用一条表示其形式)；

如果：(条件21∧条件22∧......∧条件2Q₂)成立，则：判断当前行为为攻击2；

如果：(条件W1∧条件W2∧......∧条件WQ_W)成立，则：判断当前行为为攻击W。

参见图4所示的检测阶段中检测器的工作步骤流程示意图。攻击检测规则集存储于计算机或者其他专用处理器的存储器中。其中不同规则具有不同的存储地址。每种攻击的规则在存储器中占用的地址空间记为e。检测阶段则利用建立好的攻击检测器检测是否产生攻击：如果检测到当前网络行为跟已经建立并存储于存储器中的攻击检测规则集中的某条规则相一致(图4中称之为“匹配”)，则表明有相应的攻击发生；否则，认为没有攻击行为发生。即检测阶段流程中的检测器缺省输出表示没有攻击行为发生。如果发现了入侵的攻击行为，入侵检测系统将报警或者直接通知与其联动的其他网络安全产品，如防火墙等，采取相应的响应措施。

为了完成对入侵攻击的检测，目前使用的误用检测系统的结构组成简介如下：参见图5，该系统包括有：控制台1、数据收集模块2、预处理模块3、数据存储模块4、事件分析模块5、响应模块6以及通信模块7。图中细实线箭头表示控制信号流动方向，中空箭头表示数据流动方向。其中控制台1是由一台微机或专用PC机或专用处理器芯片和一个具有先进的图形用户界面(GUI，Graphical Users Interface)功能的系统管理软件组成的控制装置；它是整个入侵检测系统和用户交互的界面。用户可以通过控制台配置该系统中的各个部件或了解各部件的运行情况。由网卡及其相应驱动软件组成的数据收集模块2负责收集网络上的网络数据包。预处理模块3是由一台微机或专用PC机或专用处理器芯片和一个具有网络底层协议解码及IP分片重组和TCP流重组等功能的相应软件组成的处理器，负责完成将由网卡收集到的二进制格式的原始网络数据转换成ASCII格式的连接数据，并根据网络数据包的报头等提取能够描述连接的信息。这些信息统称为特征。所有的特征可以分为四大类，共M个。下面结合举例，分别简介该四大类M(这里以M＝41为例)个特征的情况：

(一)基于单个TCP连接的基本特征(包括UDP等无连接的协议类型，可以将其单个数据包看成是一次连接)，如：连接持续时间(单位：秒)、协议类型、目的主机提供的网络服务类型、源主机到目的主机的字节数、目的主机到源主机的字节数、连接状态标志、错误的分片数目等。这些特征的具体取值一般可以通过报头内容得到。

(二)基于内容的特征，如：访问系统目录、创建和执行程序的次数、login失败次数、发生“文件/路径未找到”错误的次数、是否获得超级用户shell的标志、ftp会话中使用“下载”命令的次数、用“guest”用户登陆的标志等。这些特征的具体取值一般可以通过计算数据包的内容得到。

(三)基于时间窗的流量特征，如：过去一段时间内与当前连接具有相同目的地址的连接次数、对于相同目的主机具有“SYN”错误的连接所占的百分比等。这些特征的具体取值通常是以2秒钟的时间窗进行统计。

(四)基于主机的特征，如：具有相同目的主机的连接数目、具有相同目的主机及服务类型的连接数目、具有相同目的主机及服务类型的连接所占百分比等。这些特征的具体取值也是通过对连接进行统计得到的。

所有这些特征可以是符号型取值，也可以是数值型取值。

数据存储模块4由存储器及相应的数据库软件组成，负责存放由预处理模块得到的数据(包括初始化阶段的初始化数据集和检测阶段的待测试数据集)及其他需要存放的数据。数据存储模块中存放的初始化数据集及测试数据集的形式分别如下面表1和表2所示(表中M为特征个数，根据不同的应用场合，M的取值可以不同)：

表1(初始化数据集)：

初始化数据序号	特征1(连接持续时间)	特征2(协议类型)	…	特征(M-1)(连接状态标志)	特征M(对于相同目的主机具有“SYN”错误的连接所占的百分比)	类别
初始化数据序号	特征1(连接持续时间)	特征2(协议类型)	…	特征(M-1)(连接状态标志)	特征M(对于相同目的主机具有“SYN”错误的连接所占的百分比)	类别	数据1	54114	TCP	1	0.23	land攻击
数据2	21440	ICMP		0	0.31	正常	数据1	54114	TCP	1	0.23	land攻击
数据2	21440	ICMP		0	0.31	正常	……	……	……	……	……	……
数据(n-1)	9212	ICMP		0	0.99	smurf攻击	……	……	……	……	……	……
数据(n-1)	9212	ICMP		0	0.99	smurf攻击	数据N	1523	UDP	0	0.12	正常

表2(测试数据集)：

测试数据序号	特征1(连接持续时间)	特征2(协议类型)	……	特征(M-1)(连接状态标志)	特征M(对于相同目的主机具有“SYN”错误的连接所占的百分比)
测试数据序号	特征1(连接持续时间)	特征2(协议类型)	……	特征(M-1)(连接状态标志)	特征M(对于相同目的主机具有“SYN”错误的连接所占的百分比)	数据1	6524	ICMP	0	0.053
数据2	7821	UDP		0	0.871	数据1	6524	ICMP	0	0.053
数据2	7821	UDP		0	0.871	……	……	……	……	……
数据(n-1)	45435	TCP		1	0.15	……	……	……	……	……
数据(n-1)	45435	TCP		1	0.15	数据N	8489	ICMP	1	0.85

事件分析模块5则由攻击检测器51和攻击轮廓分析器52共同组成。其中，攻击轮廓分析器52是由一台微机或专用PC机或者专用处理器芯片和一个具有相应分析能力的程序包组成的处理器，其功能是对数据存储模块中存储的初始化数据进行分析，得到攻击的行为轮廓和以规则集的形式表示的攻击检测规则集合。例如下面就是攻击检测规则集合的一个具体取值实例：

如果：特征7＝1，则：判断当前行为为land攻击；

如果：2154＜特征1＜5748，且，特征2＝ICMP，且，特征6＞0.54，且，特征39＝0.25，则：判断当前行为为smurf攻击：

……

其他(即缺省类)：判断当前行为为正常。

攻击检测器51是由一台微机或专用PC机或者专用处理器芯片和一个相应的软件组成的处理器，负责在检测阶段依据攻击轮廓分析器52在初始化阶段得到的攻击检测规则集合完成对待测试数据的检测，判断是否有攻击发生，并报告攻击类型。由防火墙或其他设备构成的响应模块6负责根据控制台1的配置策略及攻击检测器51的检测结果作出相应的响应动作，如命令防火墙切断由某个IP地址发起的所有网络连接等。由RS232或者其他通信接口及驱动软件组成的通信模块7用于实现该入侵检测系统与其他网络设备(如：网络中还存在有另一个基于主机的异常入侵检测系统等)之间的通信及数据交换功能。

上述各模块和处理器既可以分别由一台微机或专用PC机或专用处理器芯片来完成其功能，也可以共享同一台微机或专用PC机或专用处理器芯片的硬件资源。

参见图5，现有的误用检测系统通常是在初始化阶段针对已知的每种具体攻击方式，利用攻击行为轮廓分析器52对初始化数据集进行分析，并在此基础上建立攻击行为轮廓描述规则，进而建立攻击检测器51。图中的初始化数据流表示在初始化阶段用于建立攻击检测器51时所用到的初始化数据的流向；测试数据流表示在检测阶段需要检测的测试数据的流向。

由于无法事先获知以往没有发生过的新的攻击方式，现有的误用检测系统的检测器中不可能包含有对于新的攻击方式的行为描述规则；因此如果在检测系统开始工作后，发生了新的攻击方式，现有的误用检测系统将没有相应的行为描述与之对应，也就无法检测到该新的攻击方式。例如：在建立攻击检测器的初始化阶段，由于在初始化数据集中只有10种攻击，就只能建立这10种攻击的相应规则集合。然而，当检测系统投入到实际工作中后，由于新的攻击方式总在不断产生，因此肯定会出现超出该已知的10种攻击以外的其他新的攻击，可以称它们为第11种、第12种......攻击。由于误用检测系统的检测模型中根本没有关于这些新攻击的描述，也就不可能实现对其的正确检测。实际上，它们只能被错误地检测为“正常”(因为对于误用检测系统，其缺省输出为“正常的合法行为”)。所以，误用检测系统无法检测到新的攻击，其检测概率不会很高。这是目前的误用检测系统最大且无法避免的缺点。而且，对于某些已知的攻击方式的些微变形，误用检测系统也不一定能够正确识别和检测出来。现实的情况是：如果对某种攻击的行为描述得越具体(不能等同于越准确)，则该种攻击的检测概率越高；而其变形的攻击及新的攻击被检测到的可能性就越低。

另外，目前对于网络攻击的分类已经进行了较多的研究，现在对攻击的分类有的是以入侵的结果为标准，有的是根据计算机安全的三性(机密性、可用性、完整性)来划分。但是，这些分类都不是针对攻击检测的具体实现方式。现有的按照上述标准划分出来的攻击大类，要么是过于简单而不能使用，要么是不能得到与其分类依据相一致的特征。因此，以这些标准划分出来的攻击大类，在实际的入侵检测应用中大多不具备较强的相似性。这种分类结果无法直接应用，也无助于建立切实有效的入侵检测系统。

发明内容

本发明的目的是提供一种用于计算机网络安全的基于相关特征聚类的层次入侵检测系统，该系统具有对新的攻击的正确识别和检测能力，能够较好地解决现有的误用检测系统不能检测到新攻击方式及检测概率较低的缺陷，为保障计算机系统、网络系统及整个信息基础设施的安全提供了一种新的技术装备。

本发明的一种基于相关特征聚类的层次入侵检测系统是这样实现的：包括：

用于配置系统中的各个部件，并了解和控制各部件运行情况的控制台；

用于收集网络上的网络数据包的数据收集模块；

用于将数据收集模块收集到的二进制原始网络数据转换成ASCII格式的连接数据，并根据网络数据包的报头提取能够描述连接信息的特征的预处理模块；

用于存放由预处理模块得到的、包括初始化阶段的初始化数据集和检测阶段的待测试数据集以及其他需要存储的数据的数据存储模块；

用于分析数据存储模块中的初始化数据，得到攻击的行为轮廓和攻击检测规则集合的事件分析模块；在事件分析模块中包括有依据攻击检测规则集合对测试数据流进行检测，判断是否发生攻击并报告该攻击类型的攻击检测器；

用于根据控制台的配置策略及攻击检测器的检测结果产生相应动作的响应模块；

用于实现本系统与其他网络设备之间的通信和数据交换的通信模块；

其特征在于：所述的事件分析模块中还包括：

用于分析处理数据存储模块中存储的初始化数据，对其中的每种攻击计算其相关特征，并将该攻击的各种相关特征编码为相关特征码字的相关特征分析器；

用于对攻击的相关特征码字进行聚类处理，并根据其结果对初始化数据集重新组织后，得到以大类标志作为类别标签的新的初始化数据集，并存储在对应存储器中的数据重组器；

用于对重组后的带有大类类别标签的初始化数据集进行分析，提取攻击大类的行为轮廓，并将其以规则集形式表示的大类轮廓分析器。

所述的相关特征分析器、数据重组器、大类轮廓分析器分别是由一台微机或专用PC机或专用处理器芯片和一个具有对应的相关特征分析、数据重组、轮廓分析处理功能的程序包组成的处理器，也可以是共享同一台微机或专用PC机或专用处理器芯片。

所述的将该攻击的各种相关特征编码为相关特征码字是将所有特征用一组二进制码来表示，并针对不同的攻击，根据这些特征是否为检测该攻击所需要的相关特征而确定该二进制码串中各个比特的数值，该二进制码串即称为该攻击的相关特征码字。

所述的相关特征码字的字长取决于由预处理模块得到的各种特征的总数，每个特征与该二进制码串中的某一位相对应，即该二进制码串中的各个二进制码的数值表示其所对应的某一个特征是否为用于区分该攻击与其他攻击及合法的正常网络行为的必要的有用特征，即相关特征。

所述的用于区分该攻击与其他攻击及合法的正常网络行为的相关特征码字的二进制码串中的某一比特数值为1，表示该比特所对应的特征为该攻击的相关特征；若该数值为0，则表示该比特所对应的特征不是该攻击的相关特征。

所述的每一种攻击具有一个或一个以上的相关特征，即在表示该攻击的相关特征的一个二进制码串中有一个比特或一个以上比特的数值为1；且对于初始化数据集中的若干种攻击，可以得到与该若干种攻击的种类数目相等的相关特征码字。

所述的对攻击的相关特征进行聚类处理是以不同的相关特征码字之间的相近性来代表不同的攻击之间的相近性程度，并根据该相近性的大小将若干种相近的攻击汇聚划分为一个大类；再进而根据攻击汇聚分类的结果将初始化数据集重组，并将其存储于存储器中。

所述的聚类处理方法有多种；其中之一是根据各个相关特征码字之间的汉明距离大小，将与各种攻击相对应的所有相关特征码字汇聚成若干个攻击大类。

所述的根据各个相关特征码字之间的距离大小，将与各种攻击相对应的所有相关特征码字汇聚分成若干个攻击大类的聚类处理方法包括下列步骤：

(1)在总共为W个的相关特征码字中任意选取一个码字(如code1)，作为第一个大类的中心点(C1)。

(2)依次选取剩余的其它各个相关特征码字codei(对于第一轮循环，i＝2，3，...，W)，分别计算这些点codei与第一个大类的中心点(C1)之间的距离D_1i(i＝2，3，...，W)，该距离D_1i表示这些点与该第一个大类中心点(C1)之间的差异程度，其计算方法是取两个码字的所有比特的差的绝对值之和；计算公式为：

D_{ji} = Σ_{n = 1}^{P} | {point}_{jn} - {point}_{in} |;

式中D_ji表示点i和点j之间的距离，P为初始化数据集中每条记录所包含的特征个数，point_jn表示第j个点中的第n比特，point_in表示第i个点中的第n比特；

(3)设定一个阈值T，若D_1i≤T，则判定相关特征码字codei属于以第一个大类的中心点(C1)为中心的大类；若D_1i＞T，则把该码字作为新产生的第二个大类中心点(C2)；

(4)对剩余的各个码字依照步骤(2)分别计算其与目前已产生的所有大类的中心点之间的距离，并对这些剩余点集合中的每个点选择其与所有大类中心距离之间的最小者，将该最小距离与阈值T做比较，并依照步骤(3)，将这些点依次化归于各大类或者用来产生新的大类。

(5)如果一个大类中包含有多个码字，则选取这些码字的平均值作为该大类的中心；如此循环，直至对全部相关特征码字分类处理完毕。

所述的将与各种攻击相对应的所有相关特征码字汇聚成若干个攻击大类的聚类处理的实现方法是将各种攻击的相关特征码字汇聚为两个或者两个以上的大类，且该若干个大类的个数小于各种攻击的总数。

所述的将与各种攻击相对应的所有相关特征码字汇聚成若干个攻击大类的聚类处理的实现方法是将各个相关特征汇聚为两个或者两个以上的大类，且该若干个大类的个数小于各种攻击的总数。

本发明主要优点是该系统能够对新攻击进行正确的检测和判断，较好地解决了现有的误用检测系统对于网络上不断出现的新的攻击、甚至某些已知攻击的些微变形都无法正确识别和检测的问题，从而为防范不断滋生的、针对网络的入侵攻击，提供了一种确实有效的入侵检测系统。该系统采用基于相关特征聚类的方法来实现对于攻击在不同层次的归类，这种攻击分类方法是从攻击检测的实施手段(即相关特征)出发的，因此其划分得到的攻击大类结果可以直接用于各种入侵检测系统来检测网络攻击，具有很强的实用价值。本发明为保障计算机系统、网络系统及整个信息基础设施的安全提供了一种新的技术装备。本发明的技术特点是该系统具有自动学习有关攻击的各种相关特征、提高检测水平的自我学习和智能化增强检测能力的功能。

附图说明

图1(A)、(B)分别是在现有网络中分接头(Tap)和直连(In-line)两种入侵检测系统设置形式的示意图。

图2是目前现有的误用检测系统两个组成阶段的示意图。

图3是图2中初始化阶段中相关操作步骤流程图。

图4是图2中检测阶段中检测器的工作步骤流程示意图。

图5是目前现有的误用检测系统的结构组成示意图。

图6是本发明基于相关特征聚类的层次入侵检测系统的结构组成示意图。

图7是现有误用检测系统中攻击检测器里的检测规则描述示意图。

图8是在检测阶段出现新的攻击方式时现有误用检测系统的检测示意图。

图9是本发明利用相关特征分析器及数据重组器对图7的攻击进行聚类处理后的分类结果示意图。

图10是本发明层次入侵检测系统对于图8中出现的新的攻击方式进行正确检测的示意图。

图11是增大阈值T以后相关特征分析器及数据重组器进行聚类处理结果示意图。

具体实施方式

首先结合附图具体说明本发明基于相关特征聚类的层次入侵检测系统的结构组成及其处理数据流的操作步骤：

参见图6，本发明是一种基于相关特征聚类的层次入侵检测系统，其中的控制台1、数据收集模块2、预处理模块3、数据存储模块4、响应模块6、通信模块7和事件分析模块5中的攻击检测器51的结构组成、连接关系及功能都与现有的误用入侵检测系统相同。其创新的关键之处是在事件分析模块5中增设了由相关特征分析器53、数据重组器54和大类轮廓分析器55构成的对初始化数据流进行相关特征分析、提取和重组的构件来替代原来的攻击轮廓分析器52，从而构成一种新的层次入侵检测系统。图中细实线箭头表示控制信号流动方向，中空箭头表示数据流动方向。

因为本发明系统的大类轮廓分析器55与传统设备中的攻击轮廓分析器52(如图5中所示)的组成结构与功能基本相同，只不过大类轮廓分析器55处理的数据变成了重组后的大类数据，其分析得到的是表示攻击大类行为轮廓的攻击大类检测规则集合。所以下面重点对本发明系统里的事件分析模块5中的相关特征分析器53和数据重组器54的组成及功能作进一步的介绍：

相关特征分析器53是由一台微机或专用PC机或者专用处理器芯片和一个具有相关特征分析功能的程序包组成。该部件的功能是对存储于存储器中的初始化数据进行处理，产生相关特征码字。实际上，建立一种特定的攻击行为的检测规则，并最终利用这些规则来检测该种攻击，这一过程往往并不需要用到所有的M(例如为41)个特征。事实上，根据不同的攻击，用来实现其检测的必要且有用的特征(即相关特征)有所不同。实验已经证明：如果在检测某种攻击时使用全部特征(包含相关特征和不相关特征)，不但会带来轮廓分析器55运算量的增加，同时还会降低检测率。相关特征分析器的任务就是对每种攻击计算其相关特征，并将<攻击，相关特征子集>采用相关特征码字来表示。相关特征码字长等于所有特征的个数M(例如本例中为41)。如果对于某种攻击来说，特征i为其相关特征，则其相关特征码字的第i比特为1；否则，该相关特征码字的该位比特为0。

例如：对于land攻击的检测只需要检测特征7，而对于smurf攻击的检测则需要检测特征1、特征2、特征6和特征39。如果将<land攻击，特征7>和<smurf攻击，特征1、特征2、特征6、特征39>采用相关特征码字来表示，按上述的编码方式得到的这两种攻击的相关特征码字分别是：

land攻击：00000010000000000000000000000000000000000

smurf攻击：11000100000000000000000000000000000000100

因此，对于初始化数据集中的W种攻击，总共可以得到W个相关特征码，分别记为：code1、code2、......、codeW。第j个相关特征码中的第i比特位记为：point_ji。

数据重组器54也是由一台微机或专用PC机或者专用处理器芯片和一个相应程序包组成。其功能是对相关特征码进行聚类处理，并根据其结果对初始化数据集进行重新组织。聚类处理可以有多种不同的软件程序包实现方式。这里只介绍本发明使用的一种聚类处理的操作步骤：

(1)在总共为W个的相关特征码字中任意选取一个码字，例如：code1作为第一个大类的中心点(C1)。

(2)然后依次选取剩余的其它各个相关特征码字codei(对于第一轮循环，I＝2，3，...，W)，计算这些点codei与第一个大类的中心点(C1)之间的距离D_1i(i＝2，3，...，W)，该距离D_1i表示两个码字之间的差异程度，其计算方法是取两个码字的所有比特的差的绝对值之和；计算公式为：

D_{ji} = Σ_{n = 1}^{P} | {point}_{jn} - {point}_{in} |;

(3)设定一个阈值T，若D_1i≤T，则判定相关特征码字codei属于以第一个大类的中心点(C1)为中心的大类；若D_1i＞T，则把该码字作为新的第二大类中心点(C2)；

(4)对剩余的各个码字依照步骤(2)分别计算其与目前已产生的所有大类中心点之间的距离，并对这些剩余点的每个点选择其与所有大类中心距离之间的最小者，将此最小距离与阈值T做比较，再依照步骤(3)，将这些点依次划归汇聚于各大类或者用来产生新的大类；

(5)如果一个大类中包含有多个码字，则选取这些码字的平均值作为该大类的中心；如此循环操作，直至对全部相关特征码字分类处理完毕。

聚类处理的结果是根据相关特征码字之间的距离大小(即差异度大小)，将对应于W种攻击的W个相关特征码字汇聚成了K个攻击大类；其中K≤W。

本发明对相关特征码字进行聚类处理，实际上是完成了将相关特征相似的攻击划分为一个大类的任务。例如：相关特征子集{特征1、特征2、特征5、特征6、特征7}与相关特征子集{特征1、特征3、特征5、特征6、特征7}之间的相似性大于相关特征子集{特征1、特征2、特征5、特征6、特征7}与相关特征子集{特征3、特征5、特征12、特征14}之间的相似性。这是聚类算法中用来度量距离的一种方法。目前已经有很多计算机程序可以实现聚类处理的功能。这里不再一一列举。

完成聚类处理以后，根据聚类的结果，本发明会将前面介绍的表1所示的初始化数据中的攻击类别分别替换为其对应的攻击大类类别，得到如表3所示的重组后的初始化数据集合，完成初始化数据集合的重组，并将其存储于存储器中。

表3(重组后的初始化数据集合)：

初始化数据序号

特征1(连接持续时间)

特征2(协议类型)

…

特征(M-1)(连接状态标志)

特征M(对于相同目的主机具有“SYN”错误的连接所占的百分比)

攻击大类类别

数据1	54114	TCP	1	0.23	大类1
数据1	54114	TCP	1	0.23	大类1	数据2	21440	ICMP	0	0.31	正常
……						数据2	21440	ICMP	0	0.31	正常
……						数据(N-1)	9212	ICMP	0	0.99	大类3
数据N	1523	UDP	0	0.12	正常	数据(N-1)	9212	ICMP	0	0.99	大类3

大类轮廓分析器55进行分析的依据是表示攻击大类行为轮廓的攻击大类检测规则集合；其形式如下面所示的一个攻击大类检测规则集合的具体取值实例：

如果：特征3＝451，则：判断当前行为为第一大类攻击；

如果：2234＜特征1＜8448，且，特征2＝TCP，且，特征4＞547，且特征24＝0.36，则：判断当前行为为第二大类攻击；

……

其他(即缺省类)：判断当前行为为正常。

下面结合附图进一步具体说明本发明的优点和功效：

现有的误用检测系统的缺点是无法实现对新攻击方式的检测。这是因为在系统的初始化阶段建立的攻击检测器中不可能包含新的攻击方式的行为规则描述。参见图7，假设图7中所示的初始化数据集中已知的攻击总共有10种，分别用字母A～J来表示。如果在测试阶段出现了新的攻击，即如图8所示的攻击K和攻击L，则目前现有的误用检测系统将把这两个攻击都检测为正常的合法行为，不能实现攻击K和攻击L的正确检测。

本发明在事件分析模块中增加了相关特征分析器和数据重组器而组成层次入侵检测系统，则可以检测到上述的攻击。因为层次入侵检测系统中的攻击检测器是在先对特征相似(即彼此距离相近)的攻击进行归类的基础上，再由大类轮廓分析器计算得到的攻击大类的行为轮廓。每个攻击大类的规则集不只是其包含的原来的攻击小种类的规则的简单合并，而是其推广和扩展。图9形象地展示了相关特征分析器和数据重组器处理后扩展的两个大类1和大类2所包括的攻击行为轮廓范围。这样，对于检测阶段出现的新攻击：攻击K和攻击L，本发明的层次入侵检测系统也能够将其分别划入上述两个大类1和大类2，从而实现正确检测(如图10所示)。

本发明被称为层次入侵检测系统，是因为通过相关特征分析器和数据重组器处理后得到的攻击大类的范围是层次可变的。具体地说，只要控制聚类处理中的阈值T的大小，就可以得到不同层次的攻击相似性归类结果。例如增大T值，可以得到如图11所示的只有三个大类的处理结果。

因此，从以上分析可以看出，相对于现有的误用检测系统，本发明层次入侵检测系统能够灵活地控制攻击种类的划分层次，同时能够在检测阶段检测到新的攻击方式，可以有效地提高检测概率。而且，虽然本发明层次入侵检测系统模糊了攻击的小的类别，但这并不会影响到入侵检测的功能的实现。因为大类类别标志是根据特征的相似性得出的，大类的相关特征及其取值情况可以反映出该大类攻击的实现特征。入侵检测系统中的响应部件及网络管理员完全可以根据这些特征做出响应决策。

本发明基于相关特征聚类的误用检测系统是入侵检测系统的一种实施方案。但其应用不会局限于攻击的入侵检测方面。

本发明已经经过计算机仿真实验验证，试验的结果表明该系统能够实现对新攻击类型的正确检测，实现了发明目的。

Claims

1、一种基于相关特征聚类的层次入侵检测系统，包括：

用于收集网络上的网络数据包的数据收集模块；

其特征在于：所述的事件分析模块中还包括：

2、根据权利要求1所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的相关特征分析器、数据重组器、大类轮廓分析器分别是由一台微机或专用PC机或专用处理器芯片和一个具有对应的相关特征分析、数据重组、轮廓分析处理功能的程序包组成的处理器，也可以是共享同一台微机或专用PC机或专用处理器芯片。

3、根据权利要求1所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的将各种攻击的各种相关特征编码为相关特征码字是将所有特征用一组二进制码来表示，并针对不同的攻击，根据这些特征是否为检测该攻击所需要的相关特征而确定该二进制码串中各个比特的数值，该二进制码串即称为该攻击的相关特征码字。

4、根据权利要求3所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的相关特征码字的字长取决于由预处理模块得到的各种特征的总数，每个特征与该二进制码串中的某一位相对应，即该二进制码串中的各个二进制码的数值表示其所对应的某一个特征是否为用于区分该攻击与其他攻击及合法的正常网络行为的必要的有用特征，即相关特征。

5、根据权利要求4所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的用于区分该攻击与其他攻击及合法的正常网络行为的相关特征码字的二进制码串中的某一比特数值为1，表示该比特所对应的特征为该攻击的相关特征；若该数值为0，则表示该比特所对应的特征不是该攻击的相关特征。

6、根据权利要求3所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的每一种攻击具有一个或一个以上的相关特征，即在表示该攻击的相关特征的一个二进制码串中有一个比特或一个以上比特的数值为1；且对于初始化数据集中的若干种攻击，可以得到与该若干种攻击的种类数目相等的相关特征码字。

7、根据权利要求1所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的对攻击的相关特征进行聚类处理是以不同的相关特征码字之间的相近性来代表不同的攻击之间的相近性程度，并根据该相近性的大小将若干种相近的攻击汇聚划分为一个大类；再进而根据攻击汇聚分类的结果将初始化数据集重组，并将其存储于存储器中。

8、根据权利要求7所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的聚类处理方法有多种；其中之一是根据各个相关特征码字之间的汉明距离大小，将与各种攻击相对应的所有相关特征码字汇聚成若干个攻击大类。

9、根据权利要求8所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的根据各个相关特征码字之间的距离大小，将与各种攻击相对应的所有相关特征码字汇聚分成若干个攻击大类的聚类处理方法包括下列步骤：

(1)在总共为W个的相关特征码字中任意选取一个码字(如codel)，作为第一个大类的中心点(C1)；

(2)依次选取剩余的其它各个相关特征码字codei(对于第一轮循环，i＝2，3，...，W)，分别计算这些点codei与第一个大类的中心点(C1)之间的距离D_li(i＝2，3，...，W)，该距离D_li表示这些点与该第一个大类中心点(C1)之间的差异程度，其计算方法是取两个码字的所有比特的差的绝对值之和；计算公式为：

D_{ji} = Σ_{n = 1}^{P} | {point}_{jn} - {point}_{in} |;

(3)设定一个阈值T，若D_li≤T，则判定相关特征码字codei属于以第一个大类的中心点(C1)为中心的大类；若D_li＞T，则把该码字作为新产生的第二个大类中心点(C2)；

(4)对剩余的各个码字依照步骤(2)分别计算其与目前已产生的所有大类的中心点之间的距离，并对这些剩余点集合中的每个点选择其与所有大类中心距离之间的最小者，将该最小距离与阈值T做比较，并依照步骤(3)，将这些点依次化归于各大类或者用来产生新的大类；

10、根据权利要求7所述的基于相关特征聚类的层次入侵检测系统，其特征在于：所述的将与各种攻击相对应的所有相关特征码字汇聚成若干个攻击大类的聚类处理的实现方法是将各种攻击的相关特征码字汇聚为两个或者两个以上的大类，且该若干个大类的个数小于各种攻击的总数。