CN1761210A

CN1761210A - 入侵检测系统用增强多哈希的源串还原方法

Info

Publication number: CN1761210A
Application number: CN 200510095278
Authority: CN
Inventors: 龚俭; 彭艳兵
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2005-11-08
Filing date: 2005-11-08
Publication date: 2006-04-19
Anticipated expiration: 2025-11-08
Also published as: CN100355245C

Abstract

本发明公开一种用于检测计算机网络监视与分析的入侵检测系统用增强多哈希的源串还原方法，原始报文经过检测后，分为正常报文和异常报文，正常报文输出，异常报文的IP地址作为输入；异常报文的IP地址信息映射到两个多哈希方法结构中的一个；信息还原部件把结果发送给报警器，过程如下：排序，找到最大的十个数的位置；把每个哈希函数位置和存储器里计数器数字排列成一张表；(3)比较两个哈希函数表格，找不到或差别大，则返回a.b.0.0/16；如果找到，则查找两表格里相同重叠值的位置，找不到返回a.b.c.0/24；否则返回a.b.c.d；重复；把处理过的存储器组复位，结果发送给报警器，等待切换；报警器执行动作。本发明具有节约内存资源、节约计算资源等优点。

Description

入侵检测系统用增强多哈希的源串还原方法

技术领域

本发明涉及一种用于检测计算机网络监视与分析的方法，尤其涉及一种入侵检测系统用增强多哈希的源串还原方法。

背景技术

最早在1970年，Bloom提出一种基于多哈希函数映射来压缩参数空间、实现快速参数查找判定的Filter方法，其原始用途是拼写检查。后来这个方法在计算机的其他领域得到了广泛的应用，比如串匹配[2]、分布式的协同[3]，数据库领域[4，5]、路由查找[6]等。由于网络中很多地方用到了串的比较，使得Bloom Filter(多哈希方法)成为最近在网络研究中比较热门的工具，在网络抽样[7]、抽样的还原[8]、流分布估计[9]里有着广泛的应用。

但是多哈希方法对哈希函数的假设是均匀分布的，因而对于很多场合并不适用，或者说很难找到多个对于源串集合符合均匀分布的哈希函数。使用多哈希方法能够快速鉴别TCP流的信息，并能把TCP流的信息维护从96比特的五元组空间映射到哈希串所代表的小规模空间，使用多个短的标签来代替一个长的标签，维护和遍历小的哈希空间的计算资源开销均很小，因而多哈希方法方法能够大大节省了计算资源如内存、CPU的开销。但是在网络行为研究里，报文的IP分布以及TCP五元组的分布具有典型的Pareto分布特征，有些情况下很难找到均匀分布的哈希函数，因此使用非均匀分布的哈希函数有很多好处，特别是可以使用原来的部分比特作为哈希函数。

同时存在的问题还有对于哈希函数复杂性的要求，但是如果选择的哈希算法的可逆性不好，会使得多哈希方法在哈希数组空间很难还原得到原始串的信息，或者计算的复杂度太高。同时，多哈希方法把所有的哈希串映射到同一个哈希空间也不可避免地导致了不同哈希函数间的相互覆盖冲突，可以使用独立的哈希映射空间解决。

发明内容

本发明提供一种能够节约内存资源及计算资源、还原精度高且系统的报警误差小，响应及时的入侵检测系统用增强多哈希的源串还原方法。

本发明采用如下技术方案：

一种用于检测计算机网络监视与分析的入侵检测系统用增强多哈希的源串还原方法：

1、原始报文经过异常检测器检测后，把原始报文分为正常报文和异常报文，正常报文输出，异常报文的IP地址作为信息还原的输入；

2、异常报文的IP地址信息由哈希函数映射器映射到两个多哈希方法结构中的一个，若IP地址是a.b.c.d，a、b、c、d都表示0-255间的数值，则把取IP地址的高16比特的哈希函数称为第一哈希函数，记为H_h(a.b)；取中间16比特的哈希函数称为第二哈希函数，记为H_m(b.c)；取最低的16比特的哈希函数称为第三哈希函数，记为H_l(c.d)，

在入侵检测系统里需要使用两组多哈希数组来处理异常IP地址的信息，当一组由多哈希存储器构成的数组用于映射原始元素的时候，另外一个多哈希存储器数组则用于信息还原。在定时器的控制下，两个多哈希存储器每过t分钟交换一次位置，根据需要，t可以在1到10间进行选择。

3、信息还原部件把信息还原的结果发送给报警器，还原的过程如下：

1)信息还原器对所处理的多哈希存储器数组里的所有哈希函数存储器里的数字分别进行排序，找到最大的十个数的位置；

2)对于每个哈希函数，把位置和存储器里相应的计数器数字按照从大到小的数字顺序排列成一张表；

3)对于第一哈希函数H_h(a.b)表格里的每一位置，在第二哈希函数H_m(b.c)对应的表格里查找有相同重叠值的位置，并比较对应的计数器，如果找不到对应的位置或者计数器差别在50％以上，则返回结果为a.b.0.0/16；

4)如果找到H_h(a.b)与H_m(b.c)对应的位置，则在第三哈希函数H_l(c.d)里查找与第二哈希函数H_m(b.c)对应的表格里具有相同重叠值的位置，如果找不到对应的位置或者对应的计数器差别在50％以上，则返回结果a.b.c.0/24；

5)否则返回结果a.b.c.d；

6)重复3)到5)，直到第一哈希函数H_h(a.b)表格里的所有项目都被穷尽；

7)把其处理过的存储器组复位，返回的所有结果的列表发送给报警器，等待多哈希方法结构切换；

4、报警器根据还原的结果来执行相应的报警动作。

与现有技术相比，本发明具有如下优点：

1、节约内存资源。

本发明中的信息还原技术在处理32bit的源串时，只使用了3个16比特的哈希函数，因此只需要的内存空间是64k的3倍，即空间复杂度为O(M)，M＝2¹⁶，与源串32比特所需要的4G空间复杂度O(N)，N＝2³²相比小了很多。

2、节约计算资源。

遍历16比特(65536)的存储空间寻找前几名位置的开销可以认为是O(Mlog₂M)，M＝65536，而遍历32比特(4G)的存储空间寻找前几名的开销为O(Nlog₂N)，N＝2³²＝4294967296，显然前者比后者要小65536倍。

3、源串聚类特征的还原精度高。

本专利使用多哈希函数关联来还原源串的分布；哈希函数为非均匀的，其错误肯定概率比通常的多哈希方法要小很多；而由于哈希函数间还有关联，使用这种关联方法在确定两个哈希函数所代表的短字符串是否属于同一来源的长字符串的时候，比其他方法精度要高65536倍，即即使某个哈希函数在某个位置发生冲突的概率为1，也能够通过哈希函数间的比特位重叠来进行区分。

4、对于入侵检测系统的报警误差小，响应及时。

由于哈希函数间的重叠比特位使得我们能够以更小的误差确定源串集合中主要成分的分布，并直接还原出原始信息的聚类情况。由于这些处理操作能够及时完成，所以系统能够及时响应并发出警报。

附图说明

图1是本发明使用的计数多哈希方法过程图。

图2是本发明带有重迭关系的短比特串图。

图3是本发明基于多哈希方法信息还原技术的系统框图。

具体实施方式

5)否则返回结果a.b.c.d；

4、报警器根据还原的结果来执行相应的报警动作。

实施举例，异常IP地址的聚类过程：

H_h(a.b)		H_m(b.c)		H_l(c.d)
H_h(a.b)		H_m(b.c)		H_l(c.d)		位置	计数器	位置	计数器	位置	计数器
10.2	63600	2.74	63497	74.207	63381	位置	计数器	位置	计数器	位置	计数器
10.2	63600	2.74	63497	74.207	63381	10.3	2665	3.41	2622	41.38	476
10.0	123	0.1	53	0.3	460	10.3	2665	3.41	2622	41.38	476
10.0	123	0.1	53	0.3	460	-		2.107	18	0.28	419
-		0.4	12	0.83	412	-		2.107	18	0.28	419
-		0.4	12	0.83	412	-		0.16	10	0.232	270
-		2.72	10	0.203	140	-		0.16	10	0.232	270
-		2.72	10	0.203	140	-		0.48	9	1.76	51
-		0.47	8	0.3	39	-		0.48	9	1.76	51
-		0.47	8	0.3	39	-		0.3	7	0.22	27

对于表格里从上到下其计数器的值是越来越小，可以看出10.2(H_h(a.b)可以找到最活跃的对应项为2.74(H_m(b.c)，而与2.74(H_m(b.c )对应的H_l(c.d)最活跃的项为74.207，因此可以推断最活跃的是IP地址10.2.74.207。

对于10.3(H_h(a.b)而言，H_m(b.c)里最活跃的对应位置为3.41，而与位置3.41对应的H_l(c.d)函数由于与3.41的计数器相差太大，因此返回的a.b.c即10.3.41.0/16是一个活跃的IP聚类。

本发明的工作原理和工作过程(附图和说明)

1)多哈希方法的基本工作过程

图1显示了通常的多哈希方法的工作过程，先把原始集合X的元素按照不同的哈希函数作用后，映射到相应的存储空间进行处理。通常的多哈希方法使用1比特来记录该哈希位置是否有过映射，计数多哈希方法则使用一个计数器来记录该位置被映射的次数。另外通常的多哈希方法使用共享的哈希数组来表述哈希的映射位置，计数多哈希方法则为每个哈希函数使用独立的哈希数组。在全部的元素映射完后，多哈希方法为了对某个元素x’是否存在于原始集合X里进行判断，使用映射过程来进行检验，如果每个哈希映射后的存储空间都是1(或者对于计数多哈希方法而言大于1)，则可以以很小的错误否定概率作出x’在原始集合X的判断；当至少一个哈希映射返回0时，多哈希方法肯定x’不在原始集合X里。这就是多哈希方法的检验过程。

图1是本发明使用的多哈希方法类型，包括两个特征：独立的哈希存储器、特别选择的哈希函数H₁、H₂、H₃。

2)基于多哈希方法信息还原

多哈希方法的哈希要求能够均匀地把原始集合里的元素映射到哈希数组里。本专利的特色是使用非均匀的哈希函数，这些函数带有特殊的语义：如果把原始集合里面的元素看成一个二进制串，本专利里的哈希函数就是选择这个二进制串里的部分连续比特作为哈希函数。这种哈希函数的使用可以从数学上证明其仍然具有多哈希方法的典型特征。

因为哈希函数本身就是原始元素二进制串的一部分，因此多哈希方法对原始集合X而言是一个对某种字符串的一个聚类过程，计数器告诉用户带有某个位置某些比特串的原始报文数有多少个。比如一个原始元素x的二进制字符串a.b.c.d(比如IP地址，a、b、c、d分别为一个较短的8比特二进制串)，可以从元素x里组合出三个哈希函数，分别为取其高位比特a.b，表示为哈希函数H_h；分别为取其中间的比特b.c，表示为哈希函数H_m；分别为取其低位比特c.d，表示为哈希函数H_l，如图2所示。这样的哈希函数还带有部分比特的重叠，这些重叠比特将使还原原始串a.b.c.d成为可能。

有了这些哈希函数间的比特重叠关系，本专利就可以另辟蹊径，从比特位的重叠关系入手来作源串聚类分析，而不用使用多哈希方法的检验过程。还原的具体过程为：

对于哈希函数H_m和H_h而言，找到所有重叠位置取值为b的哈希映射位置，然后对其进行分析。因为哈希函数为了降低冲突，其哈希数组的非零位置的比例很小，因而取值为b的映射位置非零的比例更小。经过这种重叠，可以通过线性规划来确定原来的串a.b.c。这就是还原到一个长串的过程，重复H_m和H_l间的重叠分析，再结合前面得到的长串，就可以得到原始字符串a.b.c.d了。

由于需要处理全部的哈希数组，线性规划的计算量非常大，比如对于IP地址，上述计算最多处理65536个线性规划。在入侵检测系统IDS里进行应用的时候需要极度缩小其规模。

Claims

1、一种用于检测计算机网络监视与分析的入侵检测系统用增强多哈希的源串还原方法，其特征在于：

在入侵检测系统里需要使用两组多哈希数组来处理异常IP地址的信息，当一组由多哈希存储器构成的数组用于映射原始元素的时候，另外一个多哈希存储器数组则用于信息还原。在定时器的控制下，两个多哈希存储器每过t分钟交换一次位置，根据需要，t可以在1到10间进行选择；

5)否则返回结果a.b.c.d；

4、报警器根据还原的结果来执行相应的报警动作。