CN102354308B

CN102354308B - 一种包分类规则集快速压缩方法

Info

Publication number: CN102354308B
Application number: CN2011101824109A
Authority: CN
Inventors: 顾乃杰; 王坤; 任开新
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2012-11-21
Anticipated expiration: 2031-06-30
Also published as: CN102354308A

Abstract

本发明公开了一种包分类规则集快速压缩方法，特征是先使用哈希函数将提取的规则信息散列并以散列值作为查找关键字构建二叉查找树实现粗略分类；然后为二叉查找树的每个结点保存一个冲突列表，顺序比较每条规则完成精确分类；最后遍历二叉查找树所有结点的冲突列表，合并其中可合并的规则；重复该过程直至规则集中没有可以合并的规则，然后将没有被合并的规则组成一个新的规则集，重复执行上述所有过程直至不可能再发生合并。与基于逐条规则逐个域比较的现有技术相比较，在保持相近压缩率的前提下，本发明可明显减少压缩时间，有效地减少规则之间比较次数，比较速度较快；实验结果表明，本发明方法可将压缩时间平均减少90％以上。

Description

一种包分类规则集快速压缩方法

技术领域

本发明属于电数字数据处理技术领域，具体涉及包分类规则集的快速压缩方法。

背景技术

规则集是包分类算法执行分类的基础和依据，它的性质主要取决于它的结构特性和规模。在实际应用中，规则集的结构特性一般由具体应用的场景所决定；而规则集的规模经常变化，并且规则集的规模对一些包分类算法性能的影响也比较明显，一般情况下，规则集规模越小，其存储所需空间越少，且能够使包分类算法的性能越好。目前压缩规则集的方法多采用逐条规则逐个域比较的简单压缩方法，这种压缩策略随着规则集规模的增大会导致压缩时间越来越长。

发明内容

本发明的目的是提出一种包分类规则集快速压缩方法，以解决在规则集规模较大时，基于逐条规则逐个域比较的简单压缩方法导致压缩时间较长的问题，实现规则集的快速压缩。

本发明包分类规则集快速压缩方法，首先提取包括源/目的地址的前缀长度、源/目的端口号的范围、协议类型以及处理动作在内的这些规则信息，通过哈希(Hash)函数

h = H (R_{i}) = \underset{dip_h}{\underset{sip_l,}{\underset{mask = sip_h,}{Σ}}} mask + \underset{dp_w}{\underset{w = sp_w,}{Σ}} \log (w) + prtcl + action

将规则信息散列，式中R_i表示包分类规则集中的第i条规则，sip_h、sip_l和dip_h分别为源地址高16位、低16位和目的地址高16位的前缀长度，sp_w和dp_w分别为源端口和目的端口的范围，prtcl为协议类型值，action为处理动作项的值；再以散列值作为查找关键字构建二叉查找树，然后为二叉查找树的每个结点保存一个冲突列表，并在冲突列表中顺序比较每条规则，最后合并冲突列表中的可合并规则；其特征在于：将比较压缩过程转变为先分类再合并的过程，即：先通过使用哈希函数将提取的规则信息散列并以散列值作为查找关键字构建二叉查找树实现粗略分类；然后为二叉查找树的每个结点保存一个冲突列表，在冲突列表中顺序比较每条规则完成精确分类；最后遍历二叉查找树所有结点的冲突列表，合并其中可合并的规则；重复“先通过使用哈希函数将提取的规则信息散列”到“合并其中可合并的规则”的过程直至规则集中没有可以合并的规则，然后将没有被合并的规则-即合并了其它规则和不能被其它规则合并的规则-组成一个新的规则集，重复执行上述所有过程直至不可能再发生合并；

具体操作步骤如下：

第一步、规则集读取和存储步骤：读取规则集并将其存储在嵌套定义的数据结构中；

第二步、快速压缩步骤，该步骤又可分为以下具体步骤：

初始化步骤1)：置规则集的合并标志为假，并新建一棵空的二叉查找树；

提取规则信息步骤2)：对于包分类规则集中的某条规则R_i，如果它没有被合并且没有合并其它规则，则对其提取规则信息并使用哈希函数散列成查找关键字；

查找关键字步骤3)：在二叉查找树上查找与包分类规则集中的某条规则R_i的查找关键字相同的结点；如果遍历整棵二叉查找树都没有找到关键字相同的结点，则将查找关键字和该规则信息作为一个新的结点插入树中并为其新建冲突列表，然后执行合并规则步骤5)；如果找到相同结点，则执行检查规则信息步骤4)；

检查规则信息步骤4)：判断查找关键字相同结点的规则信息是否相同；如果相同，则返回结点的冲突列表；如果不相同，则执行合并规则步骤5)；

合并规则步骤5)：遍历冲突列表，如果冲突列表为空则将包分类规则集中的规则R_i直接插入，如果冲突列表不为空并且包分类规则集中的规则R_i与列表中的所有规则都是可合并的，则将包分类规则集中的某条规则Ri添加至冲突列表中；如果冲突列表不为空而且包分类规则集中的某条规则Ri与列表中的所有规则并不都是可合并的，则不添加包分类规则集中的规则R_i，执行重复处理步骤6)；

重复处理步骤6)：重复执行提取规则信息步骤2)到合并规则步骤5)，直至所有规则被处理；

获取冲突列表步骤7)：遍历二叉查找树，得到所有冲突列表；

设置合并标志步骤8)：将冲突列表中的规则合并，如果有规则发生合并，则设置合并标志为1，并且对于其中被合并或合并其它规则分别设置相应的标志；

检查合并标志步骤9)：删除二叉查找树；并且，如果合并标志为真，则返回初始化步骤1)；如果合并标志不为真，则执行再次合并步骤10)；

再次合并步骤10)：将没有被合并的规则看作新的规则集重复执行初始化步骤1)到检查合并标志步骤9)，直至不再有合并发生；

第三步、释放压缩阶段过程中的临时空间和被合并规则的存储空间。

与基于逐条规则逐个域比较的现有技术相比较，本发明提出的这种规则集快速压缩方法是一个先粗略分类再精确分类然后合并的先分类再合并压缩的过程；在保持相近压缩率的同时，可明显减少压缩时间；快速压缩方法通过粗略分类将规则集划分可有效地减少规则之间比较次数，通过精确分类保证规则之间可合并，从而实现规则之间直接合并，粗略分类通过规则信息、哈希函数以及二叉查找树结构实现，精确分类仍需逐条规则逐个域比较，但粗略分类保证了其比较次数较少，所以比较速度较快；实验结果表明，与基于逐条规则逐个域比较的现有技术相比较，在保持相近压缩率的前提下，本发明提出的规则集快速压缩方法可将压缩时间平均减少90％以上。

附图说明

图1为本发明实施例的规则集存储结构示意图；

图2为本发明实施例中快速压缩过程的主要数据结构示意图。

具体实施方式

实施例1：

本实施例是对本发明规则集快速压缩方法操作过程的一种具体举例说明。

先通过哈希函数散列值和规则信息将规则集粗略分类，所述规则信息主要包括源/目的地址的前缀长度、源/目的端口号的范围、协议类型以及处理动作；然后在每个分类中逐条比较精确分类，精确分类后的每类规则都是可直接合并的；然后直接合并规则实现压缩。本实施例的具体操作步骤列举如下：

第一步、规则集读取和存储步骤

图1给出了本实施例的规则集存储结构示意图。如图1中所示，本实施例采用结构嵌套的方式存储规则集RS，其规则集结构中存储了指向每条规则的指针Riptr、合并标志数组MFA以及规则集规模SRS，其中i为指向规则的指针的序号，取值范围为0到N-1，规则R结构中存储了被其合并的规则的编号Rid、指向该规则每个域的指针Fkptr以及合并规则列表MRL，其中k为指向域的指针的序号，取值范围为0到K-1，域F结构中则存储了该域上值V和掩码M的列表以及匹配类型Mtyp，其中，值V的取值个数为0，1到X-1，掩码M的取值个数为0，1到X-1，列表项保存了规则和被其合并的规则在该域上的值和掩码。域列表长度视被其合并规则的数量而定，以减少规则集的存储空间为准。

第二步、快速压缩步骤

一、实现步骤

本实施例中所采取的规则集快速压缩的具体实现流程步骤如下：

提取规则信息步骤2)：对于某条包分类规则集中的规则R_i，如果它没有被合并且没有合并其它规则，那么对其提取规则信息并使用哈希函数散列成查找关键字；

查找关键字步骤3)：在二叉查找树上查找与某条包分类规则集中的规则R_i的查找关键字相同的结点；如果遍历整棵二叉查找树都没有找到，则将查找关键字和该规则信息作为一个新的结点插入树中并为其新建冲突列表，然后执行合并规则步骤5)；如果找到相同结点，则执行检查规则信息步骤4)；

二、分类信息设计

本发明包分类规则集快速压缩方法中粗略分类过程的分类依据是哈希函数和规则信息，它们设计的好坏直接影响发明的性能。因为使用哈希函数分类的目的一方面是减少规则之间的比较次数提高压缩速度，另一方面则要尽量使可合并规则保存在同一类中保证压缩率。如果哈希函数造成的冲突较多，那么压缩的性能将退化到与简单压缩方法相同；如果哈希函数造成的冲突较少，那么很多可合并规则不能够被保存在同一类使得它们不能合并而影响压缩率。因此，综合考虑，本发明中使用的哈希函数定义如下：

h = H (R_{i}) = \underset{dip_h}{\underset{sip_l,}{\underset{mask = sip_h,}{Σ}}} mask + \underset{dp_w}{\underset{w = sp_w,}{Σ}} \log (w) + prtcl + action

式中R_i表示包分类规则集中的第i条规则，sip_h、sip_l和dip_h分别为源地址高16位、低16位和目的地址高16位的前缀长度，sp_w和dp_w分别为源端口和目的端口的范围，prtcl为协议类型值，action为处理动作项的值，比如处理动作为禁止时action的值可设为0，处理动作为允许时action的值可设为1，等等。本发明考虑到大多数规则集目的地址低16位分布较为离散，所以哈希函数设计时没有考虑将其作为区分项，以保证更多可合并规则被保存在同一类中。

本发明中采用链接法解决哈希函数造成的冲突，为每一个关键字域定义一个冲突列表。

同时考虑到如果只依靠哈希函数散列值分类，由于冲突较多会导致压缩速度较慢，因此本发明将提取的规则信息也作为分类依据，使规则信息中用于分类的项与上述哈希函数中的各个项相互对应。

三、二叉查找树构建

图2为本实施例中快速压缩过程的主要数据结构示意图。本实施例中采取的实现快速压缩过程的主要数据结构由二叉查找树BST和冲突列表CT两部分组成。二叉查找树结构由关键字域、左子树域、右子树域和冲突列表域四个域组成，其中关键字域又分为两部分：查找关键字K和规则信息Rinfo，其中关键字K的取值为a，b，c，d，e，f，g，h，i......规则信息Rinfo的取值为Rinfo0，Rinfo1，Rinfo2，Rinfo3，Rinfo4，Rinfo5，Rinfo6，Rinfo7，Rinfo8......，每个关键字对应一个规则信息，查找关键字用来构建二叉查找树，规则信息用来进一步减少冲突，它们都是粗略分类的依据；左右子树域分别保存指向左右子树的指针；冲突列表域保存指向该树结点关键字对应冲突列表的指针。冲突列表结构为一个线性表，其表项保存了散列值和对应规则信息相同且可合并的规则的编号Rid，比如关键字为a的对应冲突列表中保存的规则编号为0，13，......，255，关键字为b的对应冲突列表中保存的规则编号为17，......，315，关键字为c的对应冲突列表中保存的规则编号为9，69，412，关键字为d的对应冲突列表中保存的规则编号为7，......，103，关键字为e的对应冲突列表中保存的规则编号为12，......，522，关键字为f的对应冲突列表中保存的规则编号为33，......，521，关键字为g的对应冲突列表中保存的规则编号为19，26，424，关键字为h的对应冲突列表中保存的规则编号为8，......，205，关键字为i的对应冲突列表中保存的规则编号为32，......，116。

本发明在执行过程中只采用插入操作来构建二叉查找树，这是一个边分类边构建的过程。对于某一条规则，提取分类信息并使用哈希函数得到查找关键字，如果遍历整棵二叉查找树都没有查找到关键字域与其提取的分类信息及查找关键字均相等的结点，那么将其分类信息及查找关键字作为一个新的结点插入树中。新结点在插入时，如果其查找关键字小于当前结点查找关键字则在其左子树递归执行插入操作直至成功，如果其查找关键字大于当前结点查找关键字则在其右子树递归执行插入操作直至成功。

对于仅用插入操作构建的二叉查找树，n个关键字随机插入，其期望高度为O(log₂n)。因此本发明在二叉查找树上进行分类的时间复杂度为O(log₂n)。

四、性能及效果分析

规则集压缩的时间性能主要取决于平均比较次数，目前基于逐条规则逐个域比较的简单压缩方法对每条规则需要遍历整个规则集，平均一条规则比较次数的复杂度为O(kN)，而本发明由于引入了二叉查找树和冲突列表结构，先在二叉查找树上分类比较，其平均比较次数的复杂度为O(log₂n)，然后在冲突列表中逐条规则逐个域比较，其平均比较次数的复杂度为O(kN/n)，所以本发明比较次数的复杂度为O(log₂n+kN/n)，其中N为规则集规模，n为规则集经过粗略分类过程后规则的分类个数，即二叉查找树上冲突列表数，k为每条规则域的个数，N/n即为冲突列表的平均长度。

从上述分析可以看出，本发明平均比较次数复杂度为O(log₂n+kN/n)，明显优于简单压缩方法O(kN)的比较次数复杂度。对于压缩率，由于受规则集结构特性的影响较难给出定量分析，但通过对实验结果的分析表明，与现有的简单压缩方法相比，本发明可将压缩时间平均减少90％以上，同时能够与其保持相近的压缩率。

Claims

1.一种包分类规则集快速压缩方法，首先提取源/目的地址的前缀长度、源/目的端口号的范围、协议类型以及处理动作这些规则信息，通过哈希函数

h = H (R_{i}) = \underset{dip_h}{\underset{sip_l,}{\underset{mask = sip_h,}{Σ}}} mask + \underset{dp_w}{\underset{w = sp_w,}{Σ}} \log (w) + prtcl + action

将规则信息散列，式中R_i表示包分类规则集中的第i条规则，sip_h、sip_l和dip_h分别为源地址高16位、低16位和目的地址高16位的前缀长度，sp_w和dp_w分别为源端口和目的端口的范围，prtcl为协议类型值，action为处理动作项的值；再以散列值作为查找关键字构建二叉查找树，然后为二叉查找树的每个结点保存一个冲突列表，并在冲突列表中顺序比较每条规则，最后合并冲突列表中的可合并规则；其特征在于：先通过使用哈希函数将提取的规则信息散列并以散列值作为查找关键字构建二叉查找树实现粗略分类；然后为二叉查找树的每个结点保存一个冲突列表，在冲突列表中顺序比较每条规则完成精确分类；最后遍历二叉查找树所有结点的冲突列表，合并其中可合并的规则；重复“先通过使用哈希函数将提取的规则信息散列”到“合并其中可合并的规则”的过程直至规则集中没有可以合并的规则，然后将没有被合并的规则，即合并了其它规则和不能被其它规则合并的规则组成一个新的规则集，重复执行上述所有过程直至不可能再发生合并；

具体操作步骤如下：

第二步、快速压缩步骤，该步骤又可分为以下具体步骤：

初始化步骤1）：置规则集的合并标志为假，并新建一棵空的二叉查找树；

提取规则信息步骤2）：对于包分类规则集中的某条规则R_i，如果它没有被合并且没有合并其它规则，则对其提取规则信息并使用哈希函数散列成查找关键字；

查找关键字步骤3）：在二叉查找树上查找与包分类规则集中的某条规则R_i的查找关键字相同的结点；如果遍历整棵二叉查找树都没有找到关键字相同的结点，则将查找关键字和该规则信息作为一个新的结点插入树中并为其新建冲突列表，然后执行合并规则步骤5）；如果找到相同结点，则执行检查规则信息步骤4）；

检查规则信息步骤4）：判断查找关键字相同结点的规则信息是否相同；如果相同，则返回结点的冲突列表；如果不相同，则执行合并规则步骤5）；

合并规则步骤5）：遍历冲突列表，如果冲突列表为空则将包分类规则集中的规则R_i直接插入，如果冲突列表不为空并且包分类规则集中的规则R_i与列表中的所有规则都是可合并的，则将包分类规则集中的某条规则Ri添加至冲突列表中；如果冲突列表不为空而且包分类规则集中的某条规则Ri与列表中的所有规则并不都是可合并的，则不添加包分类规则集中的规则R_i，执行重复处理步骤6）；

重复处理步骤6）：重复执行提取规则信息步骤2）到合并规则步骤5），直至所有规则被处理；

获取冲突列表步骤7）：遍历二叉查找树，得到所有冲突列表；

设置合并标志步骤8）：将冲突列表中的规则合并，如果有规则发生合并，则设置合并标志为1，并且对于其中被合并或合并其它规则分别设置相应的标志；

检查合并标志步骤9）：删除二叉查找树；并且，如果合并标志为真，则返回初始化步骤1）；如果合并标志不为真，则执行再次合并步骤10）；

再次合并步骤10）：将没有被合并的规则看作新的规则集重复执行初始化步骤1）到检查合并标志步骤9），直至不再有合并发生；