CN104516978A - 用于数据库入侵检测领域的压缩中间候选频繁项集的算法 - Google Patents

用于数据库入侵检测领域的压缩中间候选频繁项集的算法 Download PDF

Info

Publication number
CN104516978A
CN104516978A CN201410851266.7A CN201410851266A CN104516978A CN 104516978 A CN104516978 A CN 104516978A CN 201410851266 A CN201410851266 A CN 201410851266A CN 104516978 A CN104516978 A CN 104516978A
Authority
CN
China
Prior art keywords
frequent
database
algorithm
item
item sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410851266.7A
Other languages
English (en)
Other versions
CN104516978B (zh
Inventor
李淼
吕迅
朱宏军
崔维力
武新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201410851266.7A priority Critical patent/CN104516978B/zh
Publication of CN104516978A publication Critical patent/CN104516978A/zh
Application granted granted Critical
Publication of CN104516978B publication Critical patent/CN104516978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Abstract

本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤:1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;4)扫描候选项集,得到目标事务数目值的频繁项集。本发明具有的优点和积极效果是:能免去按照自然数顺序,从1开始,逐个生成中间候选频繁项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据库扫描工作量,从而大幅提高了计算频繁项集的速度。

Description

用于数据库入侵检测领域的压缩中间候选频繁项集的算法
技术领域
本发明属于Apriori算法技术领域,尤其是涉及一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法。
背景技术
关联规则(Associate rule)挖掘在数据挖掘中占有极其重要的地位,是数据挖掘的主要任务之一。关联规则的经典算法是Apriori算法。Apriori算法使用一种称为逐层迭代方法,k-项集用于(k+1)-项集的搜索,Apriori算法性质:频繁项集的所有非空子集都必须也是频繁项集。
Apriori算法:根据定义,如果项集I不满足最小支持度(min_sup),则项集I不是频繁的,即P(I)<(min_sup)。如果项A添加到项集I,则结果项集I即(I∪A)不可能比项集I更频繁出现。因此,P(I∪A)也不是频繁的,即P(I∪A)<(min_sup)。
Apriori算法主要包括两个操作:
(1)连接步
C1=I,I为事务数据库所包含的项目,扫描数据库,得到频繁1-项目集L1,执行连接产生C2,扫描数据库,得到L2,执行连接 产生C3。如此下去,在第k遍扫描中,则是首先利用L(k-1)来生成若Ck=Φ,则算法结束,否则扫描数据库得到Lk。
(2)剪枝步
利用Apriori算法性质,进行对事务的删除,提高扫描的效率。在第k遍扫描中,第一步,利用第(k-1)次扫描得到的L(k-1)来产生Ck,首先将L(k-1)中前k-1项相同的项集进行连接产生Ck,接着将连接得到的项集,若其子集L(k-1)不是频繁项集,那么任何(k-1)-项集都不可能是频繁项集,则删除,即修剪;第二步,对每个事务,若Ck中某项集包含在该事务中,则该项集的支持度加1,扫描结束后,将Ck中支持度大于最小支持度的所有项集加入Lk(Ck称为候选频繁k项集的集合,Lk称为k项频繁项集;即以Ck表示k-itemsets备选项集,以Lk表示k-itemsets频繁项集)。
上述Apriori算法对候选集的大小进行了压缩,但是在生成Ck的过程中仍需k次扫描整个事务数据库。因而,对于海量的数据库,经典Apriori算法的效率会下降,并且系统的I/O开销也很大。
后来发明了改进的Apriori算法,如下:
根据项集有序性和事务的压缩,在候选频繁项目集Ck的产生过程中,采用两次剪枝,删除其中不必要的扫描的事务;产生一个新的事务数据库D(K+1),在下一轮的迭代中使用。D(K+1)比DK包含了较少的事务,从而提高扫描的效率,节省系统的开销。
(1)连接步不变
(2)事务剪枝步
事务t包含一个k-项集,则k-频繁项集的所有子k-1项集都是k-1频繁项集。根据定义1,在第k步扫描前,对事务Dk的每个事务t进行剪枝,得到新的事务D’。
例1:设K=3,若事务t={1,2,3,4,5,6,7,8},L2={(1,2),(1,3),(2,4),(4,5),(5,6),4,7),(6,8),(1,8)},则要求项目1,2,3,4,5,6,7,8至少在L2中出现2次,才可能进入下一轮的迭代。所以进行k剪枝得到事务数据库t’(1,2,4,5,6,8)。项目3,和项目7被剪枝。
(3)候项集剪枝步
利用Apriori算法性质,进行对事务的删除,提高扫描的效率。在第k遍扫描中,第一步,利用第(k–1)次扫描得到的L(k–1)来产生Ck,首先将L(k–1)中前k-1项相同的项集进行连接产生Ck,接着将连接得到的项集,若其子集L(k–1)不是频繁项集,那么任何(k–1)-项集都不可能是频繁项集,则删除,
即修剪;第二步,对每个事务,若Ck中某项集包含在该事务中,则该项集的支持度加1,扫描结束后,将Ck中支持度大于最小支持度的所有项集加入Lk。
在以后各次连接生成Ck均为有序的。并且不包含任何k-项子集的事务不可能包含任何(k+1)项子集,因为若一个事务设 C ( k + 1 ) = C ( k ) &CircleTimes; C ( k ) , 得到,因而因此,第一次扫描事务后,对每一个事务进行计数,并删除长度小于最小支持度(min_sup)的当前事务,因为该事务不会对生成频繁2-选项集起作用。以此类推,在对每次事务扫描后,对每一个事务进行计数,并删除长度小于最小支持度(min_sup)的当前事务,因为该事务不会对以后生成的下层候选项集产生作用。如此,压缩了事务,提高了效率,减少了I/O的开销。
基于数据挖掘的数据库入侵检测,由于数据挖掘技术能够发现隐藏在数据背后的用户模式和特征,因此,在基于主机和网络的入侵检测中,基于数据挖掘的检测方法是重要的研究课题,也存在着来自统计、模式识别、机器学习等多个领域的数据挖掘算法。使用元学习的方法来进行分布式事务模式挖掘,元学习是一种用于处理从大型分布式数据库中计算全局分类器的技术,元学习首先在分布式数据库中使用学习程序并行的计算独立的分类器,然后再使用另一个学习程序在这些分类器上集成元分类器。在使用元学习得出异常或偏差事务模型后,使用模式指导的推理系统来检测欺骗事务。在上述的学习程序中,要用到检测频繁项集的技术,来找到用户的正常高频模式,来对正常行为进行范围定义。对于海量的数据库,频繁项集的数目会变得很大,改进的Apriori算法的效率会下降,还是不能满足要求,并且系统的I/O开销也很大。
发明内容
本发明要解决的问题是提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,减小了对目标事务数据库的扫描数目,提高了数据挖掘搜索效率。
为解决上述技术问题,本发明采用的技术方案是:
一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤:
1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;
2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);
3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;
4)依据候选项集扫描新事务数据库,得到目标事务数目值的频繁项集。
本发明具有的优点和积极效果是:
本发明算法能免去按照自然数顺序,从1开始,逐个生成中间候选频繁项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据库扫描工作量,和减少生成中间生成候选频繁项集C(k)和中间频繁项集的效果,从而大幅提高了计算频繁项集的速度;在某些情况下,比Apriori算法和改进的Apriori算法性能上,甚至快几个数量级。
附图说明
图1是本发明一实施例的数据库;
图2是本发明一实施例算法的执行流程图。
具体实施方式
下面结合附图对本发明的具体实施例做详细说明。
在背景技术中描述的改进的Apriori算法基础上,(Ck称为候选频繁k项集的集合,Lk称为k项频繁项集),提出的一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤,以图1所示的数据库为例,本发明算法的执行流程如图2所示:
步骤1:依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;本实施例目标事务数目值为3,即从事务数据库D中筛选出项目数不小于3的事务作为新事务数据库D1;
步骤2:使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);本实施例即扫描新事务数据库D1,得到频繁项集L1;
步骤3:找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;本实施例即从频繁项集L1中刷选出排在前3位的项目,及{1,2,3,5},其中{3}排前第一位,{1,2,5}并列前第二位,前三位得到的组合候选项集C2包含{1,2,3}、{2,3,5}、{1,3,5};
步骤4:依据候选项集扫描新事务数据库,得到目标事务数目值的频繁项集;本实施例即依据候选项集C2扫描新事务数据库D1,得到满足最小支持度的频繁3项集L2。
本发明上述用于数据库入侵检测领域的压缩中间候选频繁项集的算法的主要程序描述如下:
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (1)

1.一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,其特征在于包括如下步骤:
1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;
2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);
3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;
4)依据候选项集扫描新事务数据库,得到目标事务数目值的频繁项集。
CN201410851266.7A 2014-12-31 2014-12-31 用于数据库入侵检测领域的压缩中间候选频繁项集的方法 Active CN104516978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410851266.7A CN104516978B (zh) 2014-12-31 2014-12-31 用于数据库入侵检测领域的压缩中间候选频繁项集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410851266.7A CN104516978B (zh) 2014-12-31 2014-12-31 用于数据库入侵检测领域的压缩中间候选频繁项集的方法

Publications (2)

Publication Number Publication Date
CN104516978A true CN104516978A (zh) 2015-04-15
CN104516978B CN104516978B (zh) 2018-11-27

Family

ID=52792277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410851266.7A Active CN104516978B (zh) 2014-12-31 2014-12-31 用于数据库入侵检测领域的压缩中间候选频繁项集的方法

Country Status (1)

Country Link
CN (1) CN104516978B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468750A (zh) * 2015-11-26 2016-04-06 央视国际网络无锡有限公司 关联规则算法的数据降维与压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212672A1 (en) * 2002-09-18 2006-09-21 Sashikanth Chandrasekaran Method and mechanism for on-line data compression and in-place updates
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212672A1 (en) * 2002-09-18 2006-09-21 Sashikanth Chandrasekaran Method and mechanism for on-line data compression and in-place updates
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张浩等: "基于数据挖掘关联规则Apriori改进算法的入侵检测系统的研究", 《贵州师范大学学报(自然科学版)》 *
杨启昉等: "关联规则挖掘Apriori算法的改进", 《计算机应用》 *
陈超等: "基于最小支持度阈值动态调整策略的最频繁项集挖掘算法", 《兰州理工大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468750A (zh) * 2015-11-26 2016-04-06 央视国际网络无锡有限公司 关联规则算法的数据降维与压缩方法

Also Published As

Publication number Publication date
CN104516978B (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
Popat et al. Review and comparative study of clustering techniques
CN102346829B (zh) 基于集成分类的病毒检测方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN107291877A (zh) 一种基于Apriori算法的频繁项集挖掘方法
CN105045808A (zh) 一种复合规则集匹配方法和系统
Liu et al. SAPNSP: Select actionable positive and negative sequential patterns based on a contribution metric
CN102708285A (zh) 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
CN104516978A (zh) 用于数据库入侵检测领域的压缩中间候选频繁项集的算法
CN102222119B (zh) 数字图书系统中的个性化自动文摘方法
Tsai et al. QIDBSCAN: A quick density-based clustering technique
Prasad et al. Frequent pattern mining and current state of the art
CN106326746A (zh) 一种恶意程序行为特征库构建方法及装置
Bhatt et al. A recent overview: Rare association rule mining
Sharma et al. Enhancing DBSCAN algorithm for data mining
CN103440351A (zh) 一种关联规则数据挖掘算法的并行计算方法及装置
CN108228607B (zh) 基于连通度的最大频繁项集挖掘方法
Al-Maqaleh et al. An efficient algorithm for mining association rules using confident frequent itemsets
Devi et al. A proficient method for text clustering using harmony search method
Chang et al. A hybrid algorithm for frequent pattern mining using MapReduce framework
Maw An improvement of FP-growth mining algorithm using linked list
Sharma et al. A probabilistic approach to apriori algorithm
Devi et al. Hybridized harmony search method for text clustering using concept factorization
Routray et al. Adaptation of Fast Modified Frequent Pattern Growth approach for frequent item sets mining in Telecommunication Industry
Kothari et al. ’Survey of various clustering techniques for big data in data mining’
Singh et al. Frequent Pattern Mining Algorithms: A Review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant