CN107315829A

CN107315829A - 一种实时数据库中基于规则集的快速压缩方法

Info

Publication number: CN107315829A
Application number: CN201710544023.2A
Authority: CN
Inventors: 李迅波; 王振林
Original assignee: Chengdu Dianke Zhaopin Technology Co Ltd
Current assignee: Chengdu Dianke Zhaopin Technology Co Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-11-03

Abstract

本发明属于规则集领域，公开了一种实时数据库中基于规则集的快速压缩方法，所述方法先提取每条规则信息，然后利用Hash运算将规则散列，并以散列值作为查找关键字构建二叉树；为二叉树的每个叶节点建立冲突列表，在冲突列表中逐条规则比较；最后，遍历二叉树进行规制合并，直至规则集中没有可以合并的规则。本发明以散列值作为查找关键字构建二叉树(哈夫曼树),有效解决了Hash函数冲突，灵活度较高。

Description

一种实时数据库中基于规则集的快速压缩方法

技术领域

本发明属于规则集领域，尤其涉及一种实时数据库中基于规则集的快速压缩方法。

背景技术

随着工业系统的大型化，数据存储的压力急剧增加。通用的数据压缩技术包括PPM算法、BWT算法、LZ系列算法均是对单一规则(模型)和单一域的简单压缩，随着规模集增大，压缩效率逐渐降低，处理时间也会越来越长。因此，本文主要针对实时数据库中数据存储环节的压缩算法提出改进办法。

传统压缩算法

一、旋转门压缩算法

通过查看当前数据点与前一个被保留的数据点所构成的压缩偏移覆盖区来决定数据取舍。偏移覆盖区若能覆盖两者之间的所有数据点，则不保留该数据点，否则保留当前数据点的前一个节点，并作为最新保留的数据点作为新的起点。实时数据库将数据进行例外测试，变化程度超出预设偏差时，数据将被收集，其一以数据快照形式保存在主存，其二经过压缩后进行数据存储归档。

其原理如下图所示，设ΔE为SDT算法的压缩精度，t₀为第一个保留节点，从t₀开始作±ΔE的边界线，随着数据点的增加，旋转门进行例外测试，直到数据点命中或超出边界线，保留当前节点，则完成一次压缩段。接着，以当前节点为起始点同样作±ΔE的边界线，直到旋转门转向，录入新的保留节点。最后重复以上步骤，完成所有节点的压缩。可以看出，经过旋转门压缩后，t₀～t₇实际只需保留t₀,t₄,t₇三个节点，压缩率为62.5％。

然而，该数据压缩算法效率跟数据本身关联性比较大。如果数据变化呈正玄波变化规律，则压缩效果较好，否则数据为随机点时，几乎不会压缩。另外，ΔE的取值很重要，过小则压缩率很低，过大则解压后的误差较大。在工业环境中，压缩诸如温度、线速度、张力等参数的数据时，效果较好。

二、死区限值压缩算法

死区限制压缩算法通过判断当前值偏离最后一个记录的范围是否大于死区限值，决定是否记录此数据。如果大于死区限值，则记录该数据并以此数据为新的起点进行死区限值压缩。假设误差精度ΔE为5，则第一次死区范围为[23.5,33.5]，如果出现死区外的点，如46.5则保留节点，并更新死区为[41.5,51.5]。这样10个数据点，只需保留28.5,46.5,55这3个数据点，压缩率为70％。可知，该类压缩算法适用于数据点上下浮动率较小的情况。

三、基于斜率比较的旋转门压缩算法

斜率比较法只存储斜率最大和最小的数据值,当前节点与上一个保留节点形成的斜率如果在最大和最小斜率之间，则舍弃该节点。否则，需判断最大斜率和最小斜率的数据是否落在己存储数据和新数据形成的平行四边形内，从而决定存储前一个点(落在平行四边形外)或者继续接收新的数据点(落在平行四边形内)。

综上所述，现有技术存在的问题是：现有技术大多是对单一规则(模型)和单一域的简单压缩，随着规模集增大，压缩效率逐渐降低，处理时间也会越来越长。

发明内容

针对现有技术存在的问题，本发明提供了一种实时数据库中基于规则集的快速压缩方法，

本发明是这样实现的，一种实时数据库中基于规则集的快速压缩方法，所述实时数据库中基于规则集的快速压缩方法先提取每条规则信息，然后利用Hash运算将规则散列，并以散列值作为查找关键字构建二叉树；为二叉树的每个叶节点建立冲突列表，在冲突列表中逐条规则比较；最后，遍历二叉树进行规制合并，直至规则集中没有可以合并的规则。

进一步，所述实时数据库中基于规则集的快速压缩方法包括以下步骤：

步骤一，规则集标志位置零，构建新的空二叉树；

步骤二，对于未产生合并操作的规则，进行Hash散列；

步骤三，进行节点匹配，若匹配成功则返回冲突列表，进行合并测试；否则作为新的节点插入二叉树，并建立冲突列表；

步骤四，遍历匹配节点的冲突列表，若该规则与冲突列表内的所有规则均合并，则将其插入冲突列表；

步骤五，重复步骤二～步骤四，直至所有规则都被处理；

步骤六，遍历二叉树，获取所有冲突列表；

步骤七，将冲突列表中的规则合并，有合并发生时，合并标志位置1；对于规制R_i若产生了被合并或合并其他规则的合并操作，分别置对应标志；

步骤八，删除二叉树，如果合并标志位为1，则返回步骤一；

步骤九，将没有被合并的规则看作新的规则集，重复步骤一～八，直至不再有合并发生。

进一步，所述进行Hash散列中，快速压缩算法以规则集的散列值作为二叉树的查找关键字，散列函数的好坏决定了查找效率，进而影响算法性能。Hash函数冲突过多，则导致冲突列表过长，性能退化至单一规则压缩。冲突过少，可合并的规则可能分散到不同的冲突列表，导致压缩效率降低。Hash算法如下：

其中，sip_h，sip_l，dip_h分别为源地址高16位、低16位和目的地址高16位的前缀长度，sp_r，dp_r分别为源端口和目的端口范围，p为协议类型；算法采用链接表解决Hash函数冲突问题，冲突列表中采用二分查找方式进行查找。比较时，可利用断言进行快速的不可合并判断。

进一步，二叉树的构建是逐步的过程，具体包括：

首先创建一个指向二叉树的头结点，该节点不包含任何附加信息(空二叉树)；每次从规则集中挑选一个规则，进行Hash映射；如果存在映射值相同的节点(节点匹配)，则将该节点的关键字写入冲突列表；如果查找关键字小于当前节点的关键字，则递归遍历左子树，直至找到关键字相同的节点；同理，查找关键字大于当前节点的关键字，则递归遍历右子树；如果遍历完整棵二叉树后，都不能找到匹配的点，则创建新的节点(包含冲突列表)，插入二叉排序树；对于n个节点的二叉树，其查找时间复杂度为Olog(₂n)。

进一步，所述规则集合并，具体包括：

依据定义，同一冲突列表下的任意两个规则集存在相似的问题域时，便进行合并；合并的目的，是将两个规则重新整合成新规则。在匹配的类型中，如定义所述，对于冲突列表中的任意两个规则，如果只存在同一问题域D_k的差异，且规则R₁的问题域D_k为Range匹配(取值限定在某个范围，如D₁＝SP＜192.168.0.1)，规则R₂的问题域D_k不为SET匹配时，则向上合并为Range类型的规则；或者当规则R₁的问题域D_k为SET匹配，而规则R₂的问题域D_k不为Range匹配时，又存在新的问题域D_h(h≠k)完全相同时，则合并。

进一步，规则集RS由一组规则组成的集合，RS＝{R₀,R₁,R₂,R₃,…,R_N-1},其中N为规则集规模。

进一步，规则R_i由不同的问题域组成，R_i＝{D₀,D₁,…,D_M-1},其中M为问题域规模。

进一步，域D_i的匹配类型T(D_i)属于集合TS＝{EXACT,RANGE,SET},所述匹配包括精确匹配、范围匹配和集合匹配；其中

进一步，对于规则R_i和R_j，如果存在k使得D_i,k≠D_j,k且T(D_i,k)＝RANGE时T(D_j,k)≠SET,而T(D_i,k)＝SET时T(D_j,k)≠RANGE，且存在h使得D_i,h＝D_j,h(0≤h＜M,h≠k)，则R_i和R_j合并。

进一步，数据依据规则进行区分与合并中，对于不同的两个规则，至少存在两处不同时，不能合并；存在两个规则R_i,R_j仅有一处D_i,h不同，若规则R_k与这两个规则仅有一处不同，则不同之处必为D_i,h，其中，0≤h＜M。

本发明的另一目的在于提供一种实时数据库中基于规则集的快速压缩系统。

本发明的优点及积极效果为：本发明不是对单一规则(模型)和单一域的简单压缩，而是进行由粗到细的预先分类后再压缩。与逐条规则逐个域相比较的简单压缩算法相比，该算法的压缩时间可以减少90％以上。而且，该算法适用范围广，可扩展性强，对于不同的规则集可以采取相同的策略。

附图说明

图1是本发明实施提供的实时数据库中基于规则集的快速压缩方法流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术的算法均是对单一规则(模型)和单一域的简单压缩，灵活度不够。

本发明的基本概念：

规则指关于数据的申明性定义，在运行时根据条件执行不同的操作。规则一般包含3部分，即逻辑表达式(返回boolean类型条件)，Then操作(条件为真),Else操作(条件为假)。规则多用于网络中数据包的处理和分析，包括数据包过滤、分类和检测等，而规则集多应用于防火墙、深度包检测等。规则集中的规则具有较强的聚集性，取值呈现集中分布的现象。现有技术对较为详尽的研究了由网络服务商提供的真实应用的规则集，包括防火墙规则集，IP链规则集，访问控制列表规则集等，规模从68到4557不等。

若使用规则引擎，应先将业务逻辑需求组织成单独的规则(Rule)，再合成规则集(Rule_Set)。规则的实际执行和计算是基于数据的，并且可以和其他规则进行交互(合并)。当规则条件或操作引用了一个字段或属性时，规则引擎能够自动地标识依赖项，并控制正向链接。但是，当条件或操作执行方法时，规则引擎就无法自己来确定依赖项了，此时需要显式地指定依赖项(使用特性)。

基于规则集的快速压缩算法在网络应用的实践已比较丰富，基于实时数据库的运用则较少，但不妨借鉴其经验。快速压缩算法的核心在于进行由粗到细的预先分类后再压缩。与逐条规则逐个域相比较的简单压缩算法相比，快速压缩算法先提取每条规则信息，例如位号大小，时间戳范围和参数类型，然后利用Hash运算将规则散列，并以散列值作为查找关键字构建二叉树(哈夫曼树)。为了解决Hash函数冲突，需为树的每个叶节点建立冲突列表，然后在冲突列表中逐条规则比较。最后，遍历二叉树进行规制合并，直至规则集中没有可以合并的规则。为了说明问题，预先以集合进行规则定义。

定义1.规则集RS是由一组规则组成的集合，RS＝{R₀,R₁,R₂,R₃,…,R_N-1},其中N为规则集规模。

定义2.规则R_i由不同的问题域组成，R_i＝{D₀,D₁,…,D_M-1},其中M为问题域规模。

定义3.域D_i的匹配类型T(D_i)属于集合TS＝{EXACT,RANGE,SET},即精确匹配，范围匹配和集合匹配，其中

定义4.对于规则R_i和R_j，如果存在k使得D_i,k≠D_j,k且T(D_i,k)＝RANGE时T(D_j,k)≠SET,而T(D_i,k)＝SET时T(D_j,k)≠RANGE，且存在h使得D_i,h＝D_j,h(0≤h＜M,h≠k)，那么称R_i和R_j是可合并的。

有了上述定义后，数据可依据规则进行区分与合并。可以得出以下推论：

对于不同的两个规则，至少存在两处不同时，一定不能合并；存在两个规则R_i,R_j仅有一处D_i,h不同，若规则R_k与这两个规则仅有一处不同，则不同之处必为D_i,h，(0≤h＜M)。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

本发明实施例提供的实时数据库中基于规则集的快速压缩方法，先提取每条规则信息，然后利用Hash运算将规则散列，并以散列值作为查找关键字构建二叉树；为二叉树的每个叶节点建立冲突列表，在冲突列表中逐条规则比较；最后，遍历二叉树进行规制合并，直至规则集中没有可以合并的规则。

如图1所示，本发明实施例提供的实时数据库中基于规则集的快速压缩方法包括以下步骤：

S101：规则集标志位置零，构建新的空二叉树。

S102：对于未产生合并操作的规则，进行Hash散列。

S103：进行节点匹配，若匹配成功则返回冲突列表，进行合并测试；否则作为新的节点插入二叉树，并建立冲突列表。

S104：遍历匹配节点的冲突列表，若该规则与冲突列表内的所有规则均可合并，则将其插入冲突列表。

S105：重复S102～S104，直至所有规则都被处理。

S106：遍历二叉树，获取所有冲突列表。

S107：将冲突列表中的规则合并，有合并发生时，合并标志位置1。对于规制若产生了合并操作(被合并或合并其他规则)，需分别置对应标志。

S108：删除二叉树，如果合并标志位为1，则返回S101。

S109：将没有被合并的规则看作新的规则集，重复S101～S108，直至不再有合并发生。

所述进行Hash散列中，快速压缩算法以规则集的散列值作为二叉树的查找关键字，散列函数的好坏决定了查找效率，进而影响算法性能。Hash函数冲突过多，则导致冲突列表过长，性能退化至单一规则压缩。冲突过少，可合并的规则可能分散到不同的冲突列表，导致压缩效率降低。Hash算法如下：

二叉树的构建是逐步的过程，具体包括：

下面结合具体实施例对本发明作进一步描述。

本发明实施例提供的实时数据库中基于规则集的快速压缩方法中，

1)结构原理

数据压缩技术面临两个关键问题:首先,压缩算法必须能够提供较高的数据压缩率以支持实时数据库海量存储的特点；其次,实时数据库的实时记录和查询功能要求压缩算法在压缩和解压缩两个过程都必须具有较好的速度性能,尤其在解压过程中。因此,在实时数据库中应用数据压缩技术必须找到两者恰当的平衡点。

底层采集的生产数据一般是结构化的，即包含时间戳，数据源(设备码)，参数码，参数值，质量码等。因此，可以抽取规则诸如R＝{D_time,D_from,D_paramCode,D_paramValue,D_code}，其中参数码＝参数类型+参数序号，参数值大致分为开关量数值，模拟量数值，累积量数值。而网络应用数据可抽取规则为R1＝{D_{s_Address},D_{d_Address},D_{s_Port},D_{d_Port},D_{p_Type}}，分别为源地址，目的地址，源端口，目的端口，协议类型。

根据规则的命中概率构建二叉查找树，包括关键字，左子树，右子树和冲突列表，其中关键字保存所提取的规则信息以及经过Hash函数散列的键值。

本发明不是对单一规则(模型)和单一域的简单压缩，而是进行由粗到细的预先分类后再压缩。与逐条规则逐个域相比较的简单压缩算法相比，该算法的压缩时间可以减少90％以上。而且，该算法适用范围广，可扩展性强，对于不同的规则集可以采取相同的策略。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时数据库中基于规则集的快速压缩方法，其特征在于，所述实时数据库中基于规则集的快速压缩方法先提取每条规则信息，然后利用Hash运算将规则散列，并以散列值作为查找关键字构建二叉树；为二叉树的每个叶节点建立冲突列表，在冲突列表中逐条规则比较；最后，遍历二叉树进行规制合并，直至规则集中没有可以合并的规则。

2.如权利要求1所述的实时数据库中基于规则集的快速压缩方法，其特征在于，所述实时数据库中基于规则集的快速压缩方法包括以下步骤：

步骤一，规则集标志位置零，构建新的空二叉树；

步骤二，对于未产生合并操作的规则，进行Hash散列；

步骤五，重复步骤二～步骤四，直至所有规则都被映射处理；

步骤六，遍历二叉树，获取所有冲突列表；

步骤八，删除二叉树，如果合并标志位为1，则返回步骤一；

3.如权利要求2所述的实时数据库中基于规则集的快速压缩方法，其特征在于，所述进行Hash散列中，Hash算法为：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>p</mi> <mo>_</mo> <mi>h</mi> <mo>,</mo> <mi>s</mi> <mi>i</mi> <mi>p</mi> <mo>_</mo> <mi>l</mi> <mo>,</mo> <mi>d</mi> <mi>i</mi> <mi>p</mi> <mo>_</mo> <mi>h</mi> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>=</mo> <mi>s</mi> <mi>p</mi> <mo>_</mo> <mi>r</mi> <mo>,</mo> <mi>d</mi> <mi>p</mi> <mo>_</mo> <mi>r</mi> </mrow> </munder> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>p</mi> <mo>;</mo> </mrow>

其中，sip_h，sip_l，dip_h分别为源地址高16位、低16位和目的地址高16位的前缀长度，sp_r，dp_r分别为源端口和目的端口范围，p为协议类型。

4.如权利要求2所述的实时数据库中基于规则集的快速压缩方法，其特征在于，二叉树的构建是逐步的过程，具体包括：

首先创建一个指向二叉树的头结点，该节点不包含任何附加信息；每次从规则集中挑选一个规则，进行Hash映射；如果存在映射值相同的节点，则将该节点的关键字写入冲突列表；如果查找关键字小于当前节点的关键字，则递归遍历左子树，直至找到关键字相同的节点；同理，查找关键字大于当前节点的关键字，则递归遍历右子树；如果遍历完整棵二叉树后，都不能找到匹配的点，则创建新的节点，插入二叉排序树；对于n个节点的二叉树，其查找时间复杂度为Olog(₂n)。

5.如权利要求2所述的实时数据库中基于规则集的快速压缩方法，其特征在于，所述规则集合并，具体包括：

依据定义，同一冲突列表下的任意两个规则集存在相似的问题域时，便进行合并；在匹配的类型中，如定义所述，对于冲突列表中的任意两个规则，如果只存在同一问题域D_k的差异，且规则R₁的问题域D_k为Range匹配，规则R₂的问题域D_k不为SET匹配时，则向上合并为Range类型的规则；或者当规则R₁的问题域D_k为SET匹配，而规则R₂的问题域D_k不为Range匹配时，又存在新的问题域D_h(h≠k)完全相同时，则合并。

6.如权利要求1所述的实时数据库中基于规则集的快速压缩方法，其特征在于，规则集RS由一组规则组成的集合，RS＝{R₀,R₁,R₂,R₃,…,R_N-1},其中N为规则集规模。

7.如权利要求1所述的实时数据库中基于规则集的快速压缩方法，其特征在于，规则R_i由不同的问题域组成，R_i＝{D₀,D₁,…,D_M-1},其中M为问题域规模。

8.如权利要求5所述的实时数据库中基于规则集的快速压缩方法，其特征在于，域D_i的匹配类型T(D_i)属于集合TS＝{EXACT,RANGE,SET},所述匹配包括精确匹配、范围匹配和集合匹配；其中

对于规则R_i和R_j，如果存在k使得D_i,k≠D_j,k且T(D_i,k)＝RANGE时T(D_j,k)≠SET,而T(D_i,k)＝SET时T(D_j,k)≠RANGE，且存在h使得D_i,h＝D_j,h(0≤h＜M,h≠k)，则R_i和R_j合并。

9.如权利要求5所述的实时数据库中基于规则集的快速压缩方法，其特征在于，数据依据规则进行区分与合并中，对于不同的两个规则，至少存在两处不同时，不能合并；存在两个规则R_i,R_j仅有一处D_i,h不同，若规则R_k与这两个规则仅有一处不同，则不同之处必为D_i,h，其中，0≤h＜M。

10.一种如权利要求1所述实时数据库中基于规则集的快速压缩方法的实时数据库中基于规则集的快速压缩系统。