CN104516978A

CN104516978A - 用于数据库入侵检测领域的压缩中间候选频繁项集的算法

Info

Publication number: CN104516978A
Application number: CN201410851266.7A
Authority: CN
Inventors: 李淼; 吕迅; 朱宏军; 崔维力; 武新
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-04-15
Anticipated expiration: 2034-12-31
Also published as: CN104516978B

Abstract

本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法，包括如下步骤：1)依据目标事务数目值，从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库；2)使用Apriori算法的连接步骤和剪枝步骤，扫描新事务数据库，计算产生频繁1-项集L(1)；3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集；4)扫描候选项集，得到目标事务数目值的频繁项集。本发明具有的优点和积极效果是：能免去按照自然数顺序，从1开始，逐个生成中间候选频繁项集和中间频繁项集的操作，大幅提高了数据挖掘搜索效率；达到减少数据库扫描工作量，从而大幅提高了计算频繁项集的速度。

Description

用于数据库入侵检测领域的压缩中间候选频繁项集的算法

技术领域

本发明属于Apriori算法技术领域，尤其是涉及一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法。

背景技术

关联规则(Associate rule)挖掘在数据挖掘中占有极其重要的地位，是数据挖掘的主要任务之一。关联规则的经典算法是Apriori算法。Apriori算法使用一种称为逐层迭代方法，k-项集用于(k+1)-项集的搜索，Apriori算法性质：频繁项集的所有非空子集都必须也是频繁项集。

Apriori算法：根据定义，如果项集I不满足最小支持度(min_sup)，则项集I不是频繁的，即P(I)<(min_sup)。如果项A添加到项集I，则结果项集I即(I∪A)不可能比项集I更频繁出现。因此，P(I∪A)也不是频繁的，即P(I∪A)<(min_sup)。

Apriori算法主要包括两个操作：

(1)连接步

C1＝I，I为事务数据库所包含的项目，扫描数据库，得到频繁1-项目集L1，执行连接产生C2，扫描数据库，得到L2，执行连接产生C3。如此下去，在第k遍扫描中，则是首先利用L(k－1)来生成若Ck＝Φ，则算法结束，否则扫描数据库得到Lk。

(2)剪枝步

利用Apriori算法性质，进行对事务的删除，提高扫描的效率。在第k遍扫描中，第一步，利用第(k－1)次扫描得到的L(k－1)来产生Ck，首先将L(k－1)中前k-1项相同的项集进行连接产生Ck，接着将连接得到的项集，若其子集L(k－1)不是频繁项集，那么任何(k－1)-项集都不可能是频繁项集，则删除，即修剪；第二步，对每个事务，若Ck中某项集包含在该事务中，则该项集的支持度加1，扫描结束后，将Ck中支持度大于最小支持度的所有项集加入Lk(Ck称为候选频繁k项集的集合,Lk称为k项频繁项集；即以Ck表示k-itemsets备选项集,以Lk表示k-itemsets频繁项集)。

上述Apriori算法对候选集的大小进行了压缩，但是在生成Ck的过程中仍需k次扫描整个事务数据库。因而，对于海量的数据库，经典Apriori算法的效率会下降，并且系统的I/O开销也很大。

后来发明了改进的Apriori算法，如下：

根据项集有序性和事务的压缩，在候选频繁项目集Ck的产生过程中，采用两次剪枝，删除其中不必要的扫描的事务；产生一个新的事务数据库D(K+1)，在下一轮的迭代中使用。D(K+1)比DK包含了较少的事务，从而提高扫描的效率，节省系统的开销。

(1)连接步不变

(2)事务剪枝步

事务t包含一个k-项集，则k-频繁项集的所有子k-1项集都是k-1频繁项集。根据定义1，在第k步扫描前，对事务Dk的每个事务t进行剪枝，得到新的事务D’。

例1：设K＝3，若事务t＝{1，2，3，4，5，6，7，8}，L2＝{(1，2)，(1，3)，(2，4)，(4，5)，(5，6)，4，7)，(6，8)，(1，8)}，则要求项目1，2，3，4，5，6，7，8至少在L2中出现2次，才可能进入下一轮的迭代。所以进行k剪枝得到事务数据库t’(1，2，4，5，6，8)。项目3，和项目7被剪枝。

(3)候项集剪枝步

利用Apriori算法性质，进行对事务的删除，提高扫描的效率。在第k遍扫描中，第一步，利用第(k–1)次扫描得到的L(k–1)来产生Ck，首先将L(k–1)中前k-1项相同的项集进行连接产生Ck，接着将连接得到的项集，若其子集L(k–1)不是频繁项集，那么任何(k–1)-项集都不可能是频繁项集，则删除，

即修剪；第二步，对每个事务，若Ck中某项集包含在该事务中，则该项集的支持度加1，扫描结束后，将Ck中支持度大于最小支持度的所有项集加入Lk。

在以后各次连接生成Ck均为有序的。并且不包含任何k-项子集的事务不可能包含任何(k+1)项子集，因为若一个事务设但而

C (k + 1) = C (k) &CircleTimes; C (k),

得到，因而因此，第一次扫描事务后，对每一个事务进行计数，并删除长度小于最小支持度(min_sup)的当前事务，因为该事务不会对生成频繁2-选项集起作用。以此类推，在对每次事务扫描后，对每一个事务进行计数，并删除长度小于最小支持度(min_sup)的当前事务，因为该事务不会对以后生成的下层候选项集产生作用。如此，压缩了事务，提高了效率，减少了I/O的开销。

基于数据挖掘的数据库入侵检测，由于数据挖掘技术能够发现隐藏在数据背后的用户模式和特征，因此，在基于主机和网络的入侵检测中，基于数据挖掘的检测方法是重要的研究课题，也存在着来自统计、模式识别、机器学习等多个领域的数据挖掘算法。使用元学习的方法来进行分布式事务模式挖掘，元学习是一种用于处理从大型分布式数据库中计算全局分类器的技术，元学习首先在分布式数据库中使用学习程序并行的计算独立的分类器，然后再使用另一个学习程序在这些分类器上集成元分类器。在使用元学习得出异常或偏差事务模型后，使用模式指导的推理系统来检测欺骗事务。在上述的学习程序中,要用到检测频繁项集的技术,来找到用户的正常高频模式,来对正常行为进行范围定义。对于海量的数据库，频繁项集的数目会变得很大，改进的Apriori算法的效率会下降，还是不能满足要求，并且系统的I/O开销也很大。

发明内容

本发明要解决的问题是提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法，减小了对目标事务数据库的扫描数目，提高了数据挖掘搜索效率。

为解决上述技术问题，本发明采用的技术方案是：

一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法，包括如下步骤：

1)依据目标事务数目值，从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库；

2)使用Apriori算法的连接步骤和剪枝步骤，扫描新事务数据库，计算产生频繁1-项集L(1)；

3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集；

4)依据候选项集扫描新事务数据库，得到目标事务数目值的频繁项集。

本发明具有的优点和积极效果是：

本发明算法能免去按照自然数顺序，从1开始，逐个生成中间候选频繁项集和中间频繁项集的操作，大幅提高了数据挖掘搜索效率；达到减少数据库扫描工作量，和减少生成中间生成候选频繁项集C(k)和中间频繁项集的效果，从而大幅提高了计算频繁项集的速度；在某些情况下，比Apriori算法和改进的Apriori算法性能上，甚至快几个数量级。

附图说明

图1是本发明一实施例的数据库；

图2是本发明一实施例算法的执行流程图。

具体实施方式

下面结合附图对本发明的具体实施例做详细说明。

在背景技术中描述的改进的Apriori算法基础上,(Ck称为候选频繁k项集的集合,Lk称为k项频繁项集),提出的一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法，包括如下步骤，以图1所示的数据库为例，本发明算法的执行流程如图2所示：

步骤1：依据目标事务数目值，从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库；本实施例目标事务数目值为3，即从事务数据库D中筛选出项目数不小于3的事务作为新事务数据库D1；

步骤2：使用Apriori算法的连接步骤和剪枝步骤，扫描新事务数据库，计算产生频繁1-项集L(1)；本实施例即扫描新事务数据库D1，得到频繁项集L1；

步骤3：找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集；本实施例即从频繁项集L1中刷选出排在前3位的项目，及{1,2,3,5}，其中{3}排前第一位，{1,2,5}并列前第二位，前三位得到的组合候选项集C2包含{1,2,3}、{2,3,5}、{1,3,5}；

步骤4：依据候选项集扫描新事务数据库，得到目标事务数目值的频繁项集；本实施例即依据候选项集C2扫描新事务数据库D1，得到满足最小支持度的频繁3项集L2。

本发明上述用于数据库入侵检测领域的压缩中间候选频繁项集的算法的主要程序描述如下：

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法，其特征在于包括如下步骤：