CN105260387A - 一种面向海量事务数据库的关联规则分析方法 - Google Patents

一种面向海量事务数据库的关联规则分析方法 Download PDF

Info

Publication number
CN105260387A
CN105260387A CN201510575640.XA CN201510575640A CN105260387A CN 105260387 A CN105260387 A CN 105260387A CN 201510575640 A CN201510575640 A CN 201510575640A CN 105260387 A CN105260387 A CN 105260387A
Authority
CN
China
Prior art keywords
candidate
frequent
support
item
item collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510575640.XA
Other languages
English (en)
Other versions
CN105260387B (zh
Inventor
赵学健
袁源
孙知信
乔爱锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd
Original Assignee
Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd filed Critical Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd
Priority to CN201510575640.XA priority Critical patent/CN105260387B/zh
Publication of CN105260387A publication Critical patent/CN105260387A/zh
Application granted granted Critical
Publication of CN105260387B publication Critical patent/CN105260387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明针对经典Apriori算法的固有缺陷,提出了一种面向海量事务数据库的关联规则分析方法,包括在连接、剪枝的基础上,添加了预判的步骤,使用先验概率对候选频繁K项集集合CK进行缩减优化,并且引入阻尼因子Δ1和补偿因子Δ2对使用先验概率产生的误差进行修正,若候选K项集集合CK中成员ci的先验概率P(ci)>(1+Δ1)min_support,则将该成员直接添加到频繁k-项集LK中;若P(ci)<(1-Δ2)min_support,则该成员从候选项集CK中删除;否则,将该成员继续保留在候选K项集集合CK中。该算法对候选频繁K项集集合的成员数量进行了压缩,简化了挖掘频繁项集以及规则的操作过程,实验证明该算法能够有效减少扫描数据库的次数,降低算法运算的时间,提高算法的运算效率。

Description

一种面向海量事务数据库的关联规则分析方法
技术领域
本发明属于数据挖掘及信息处理技术领域,尤其涉及一种面向海量事务数据库的关联规则分析方法。
背景技术
在大数据技术发展如火如荼的今天,人们逐渐意识到数据即是财富,尤其是对商业数据的分析更具有巨大的实用价值。关联规则分析作为数据挖掘的主要手段之一,是数据挖掘技术中不可或缺的一个重要组成部分,主要用于发现大型事务数据库中隐含的有价值的令人感兴趣的联系及规则。因此,对关联规则算法的研究具有非常重要的意义。
早在1993年,IBM的计算机科学家R.Agrawal等人在顾客交易数据库中发现了顾客在购买商品时的购买规律,提出了事务之间的相关性模式,即最初的关联规则。关联规则通常是一种不复杂但实用性却很高的规则。通过关联规则分析,我们可以将事务项集与项集之间的关系挖掘出来。关联规则分析最典型的应用是购物篮数据分析,比如经典的{啤酒}→{尿布}规则。除了可以应用于购物篮数据之外,关联规则分析在其它领域的应用也十分广泛,如电子商务个性化推荐,金融服务,广告策划,生物信息学及科学数据分析等。比如说在电子商务个性化推荐中,关联规则可以帮助电子商务网站向具有相似消费行为的顾客进行一些他们可能感兴趣的商品推荐,这样有助于电子商务网站提升用户体验,增加盈利等。
关联规则分析算法较多,其中最经典实用性最好的是Apriori算法及其改进算法。Apriori算法[1]是由Agrawal和Swami于1994年提出的第一个关联规则算法,应用广泛,该算法通过重复循环执行连接、剪枝生成频繁项目集,从而建立关联规则。基于Apriori算法,Yang等人提出了Apriori-TFP算法[2],该算法在关联规则挖掘过程中,将原始数据进行预处理并存储在局部支持树中,最后生成关联规则。该算法通过有效的预处理,降低了关联规则挖掘的时间,但是需要扫描数据库的次数仍然较多。Zhang等人提出了GP-Apriori算法[3],GP-Apriori算法采用图形处理器(GraphicalProcessingUnit,GPU)进行并行化的支持度计数,并将垂直交易列存储为线性有序阵列。GPU通过遍历该有序阵列,并执行按位交叉实现支持度计算,并将结果复制回内存。与传统CPU上运行的Apriori算法相比,GP-Apriori算法由于采用了先进的GPU提高了运行速率,但是复杂性反而有所增长。Delighta等人也提出了Apriori的改进算法(AprioriMendAlgorithm)[4]。该算法使用哈希函数生成项目集,用户必须指定最小支持度以删除不需要的项集。该算法具有比传统Apriori算法更好的效率,但是执行时间有所增加。Ning等基于MapReduce框架实现了Apriori算法的并行化[5]。该算法在处理海量数据集时具有良好的可扩展性和效率,但是该算起需要强大的计算和存储能力支撑,通常运行在集群环境中。Sulianta等人在文献[6]中尝试将Apriori算法应用于多维数据分析,探讨了在多维数据中建立关联规则更加具体有效的方法。Sheila等人在文献[7]中对Apriori算法进行了改进,引入了事务尺寸和事务规模的概念以消除非重要项目的影响。Feng等人在文献[8]中提出了一种基于矩阵的Apriori算法,该算法通过矩阵有效的表示数据库的各种操作,并用基于矩阵的AND操作得到最大的频繁项目集。
文献引用:
[1]R.Agrawal,R.Srikantetal..Fastalgorithmsforminingassociationrules(挖掘关联规则的快速算法),Proc.20thInt.Conf.VeryLargeDataBases,VLDB,vol.1215,pp.487-499,September1994.
[2]Z.Yang,W.Tang,A.Shintemirov,andQ.Wu.Associationrulemining-baseddissolvedgasanalysisforfaultdiagnosisofpowertransformers(基于关联规则挖掘的电力变压器故障诊断溶解气体分析),Systems,Man,andCybernetics,PartC:ApplicationsandReviews,IEEETransactionson,vol.39,no.6,pp.597-610,2009.
[3]F.Zhang,Y.Zhang,andJ.D.Bakos.Gpapriori:Gpu-acceleratedfrequentitemsetmining(基于图形处理器加速的频繁项集挖掘),inCLUSTER.IEEE,2011,pp.590-594.
[4]I.S.P.J.D.MagdaleneDelightaAngeline.AssociationrulegenerationusingApriorimendalgorithmforstudent'splacement(基于改进Apriori算法的关联规则生成算法),vol.2,no.1,2012,pp.78-86.
[5]N.Li,L.Zeng,Q.He,andZ.Shi.ParallelimplementationofapriorialgorithmbasedonMapReduce(基于MapReduce的Apriori算法的并行实现),inSoftwareEngineering,ArtificialIntelligence,NetworkingandParallelDistributedComputing(SNPD),201213thACISInternationalConferenceon,2012,pp.236-241.
[6]F.Sulianta,T.H.Liong,andI.Atastina.Miningfoodindustry'smultidimensionaldatatoproduceassociationrulesusingApriorialgorithmasabasisofbusinessstrategy(基于Apriori算法的面向食品工业多维数据的企业战略关联规则挖掘算法),inInformationandCommunicationTechnology(ICoICT),2013InternationalConferenceof,2013,pp.176-181.
[7]S.A.Abaya.AssociationruleminingbasedonApriorialgorithminminimizingcandidategeneration(基于Apriori算法的最小生成候选关联规则挖掘算法),InternationalJournalofScientificandEngineeringResearch,vol.3,no.7,pp.1-4,July2012.
[8]WangFeng,LiYong-hua.AnImprovedAprioriAlgorithmBasedontheMatrix(一种基于矩阵的改进Apriori算法),fbie,pp.152-155,2008InternationalSeminaronFutureBioMedicalInformationEngineering,2008.
发明内容
本发明针对经典Apriori算法的固有缺陷,提出了面向海量事务数据库的关联规则分析方法——基于AWP(AprioriwithPrognosis)算法的分析方法。
本发明包括以下步骤:
步骤1、扫描海量事务数据库D并计数,找出支持度大于预设最小支持度的频繁1项集集合L1
步骤2、将所得到的频繁K-1项集集合LK-1与其自身连接产生候选K项集的集合,候选K项集的集合记作CK,其中,K∈{2,3,4,…},第一次执行时K=2,每循环执行一次K取值加1;
步骤3、利用Apriori性质(任一频繁项集的所有非空子集也必须是频繁的,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的)对候选k项集集合CK进行剪枝;
步骤4、计算剪枝后的候选K项集集合CK中成员的预判支持度,进行预判筛选;
步骤5、通过扫描事务数据库D,确定预判筛选后的候选K项集集合CK中每个候选成员ci1的计数,判断该计数是否大于最小支持度计数,如果是,则判定该候选成员是频繁的,将该候选成员保留在频繁K项集集合LK中,否则删除;
步骤6、重复执行上述步骤2~步骤5,直到不能发现更大的频繁项目集为止;
步骤7、最终获得的频繁项目集集合为F,则可产生关联规则R={A->B},A为频繁项目集集合F中任意成员Fi2的非空子集,B为A的补集,即Fi2∈F,i2∈{1,2,…,n1}且A∪B=Fi2},其中n1为频繁项目集集合F包含的成员数目。比如说若集合{I1,I2,I3}是频繁项目集集合的成员,则可产生如下关联规则:{I1}->{I2,I3},{I2}->{I1,I3},{I3}->{I1,I2},{I1,I2}->{I3},{I1,I3}->{I2},{I2,I3}->{I1}。
步骤1包括:对海量事务数据库D中包含项目Si3的事务数Ni3进行统计,其中i3∈{1,2,…,n2},n2为数据库包含的项目数量,则项目集X={Si3,i3∈{1,2,…,n2}}的支持度为:
support(X={Si3,i3∈{1,2,…,n2}})=Ni3/|D|.
其中,|D|为数据库D包含的事务数,若support(X)大于预设的最小支持度min_support,则将项目集X加入频繁1项集集合L1;反之,不加入。
步骤2中,参考背景技术中引用文献1,连接过程如下:设m1和m2是频繁K-1项集集合LK-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi4,有mi4[1]<mi4[2]<…<mi4[K-1],其中符号mi4[j]表示成员mi4中的第j个项目,i∈{0,1},j∈{1,2,…,K-1},如果成员m1和m2中前K-2个项目均相同,成员m1的第K-2个项目小于成员m2的第K-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接,连接m1和m2产生的结果是{m1[1],m1[2],……,m1[k-1],m2[k-1]}。
步骤3中,剪枝步骤如下:对候选K项集集合CK的成员ci1,i1∈{1,2,3,…}的所有非空子集的支持度进行判断,若该成员存在支持度小于预设的最小支持度min_support的非空子集,根据Apriori性质可判定该成员不是频繁项目集,将其从CK中删除;反之,将该成员保留在候选K项集集合CK中。
步骤4中,预判筛选步骤如下:通过独立事件概率公式计算候选K项集集合CK中成员ci1,i1∈{1,2,3,…}的先验概率,若P(ci1)>(1+△1)min_support,则将该成员直接添加到频繁k-项集LK中;若P(ci1)<(1-△2)min_support,则将该成员从CK中删除;否则,该成员继续保留在候选k项集CK中;其中,P(ci1)=∑P(c)P(ci1-c)/n,c为成员ci1的单元素子集,即c中只包含一个项目,P(c)可由步骤1得到,P(ci1-c)可由获得频繁K-1项集集合的循环轮次中步骤5得到,n为成员ci1所包含的项目数;△1为阻尼因子,△2为补偿因子,为减少扫描数据库的次数,经实验验证,△1,△2取值如下所示:
&Delta; 1 = 0.5 , | D | &le; 10 3 ; 0.1 &lsqb; 5 - lg ( | D | / 10 3 ) &rsqb; , 10 3 &le; | D | &le; 10 6 ; 0.2 , | D | &GreaterEqual; 10 6 ;
&Delta; 2 = 0.25 , | D | &le; 10 3 ; 0.05 &lsqb; 5 - 2 lg ( | D | / 10 3 ) &rsqb; , 10 3 &le; | D | &le; 10 5 . 0.1 , | D | &GreaterEqual; 10 5 .
有益效果:本发明与现有技术相比,其显著优点为:本发明在连接、剪枝的基础上,添加了预判的步骤,使用先验概率对候选频繁K项集集合CK进行缩减优化,并且引入阻尼因子△1和补偿因子△2对使用先验概率产生的误差进行修正,若候选K项集集合CK中成员ci1的先验概率P(ci1)>(1+△1)min_support,则将该成员直接添加到频繁k-项集LK中;若P(ci1)<(1-△2)min_support,则该成员从候选项集CK中删除;否则,将该成员继续保留在候选K项集集合CK中。该算法对候选频繁K项集集合的成员数量进行了压缩,简化了挖掘频繁项集以及规则的操作过程,实验证明该算法能够有效减少扫描数据库的次数,降低算法运算的时间,提高算法的运算效率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为事务数据库D。
图2为候选1项集集合C1
图3为频繁1项集集合L1
图4为候选2项集集合C21
图5为候选2项集集合C22
图6为频繁2项集集合L2
图7为候选3项集集合C31。
图8为候选3项集集合C32。
图9为候选3项集集合C33。
图10为频繁3项集集合L3。
图11为本发明流程图。
具体实施方式
本发明包括以下步骤:
步骤1、扫描海量事务数据库D并计数,找出支持度大于预设最小支持度的频繁1项集集合L1
步骤2、将所得到的频繁K-1项集集合LK-1与其自身连接产生候选K项集的集合,候选K项集的集合记作CK,其中,K∈{2,3,4,…},第一次执行时K=2,每循环执行一次K取值加1;
步骤3、利用Apriori性质(任一频繁项集的所有非空子集也必须是频繁的,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的)对候选k项集集合CK进行剪枝;
步骤4、计算剪枝后的候选K项集集合CK中成员的预判支持度,进行预判筛选;
步骤5、通过扫描事务数据库D,确定预判筛选后的候选K项集集合CK中每个候选成员ci1的计数,判断该计数是否大于最小支持度计数,如果是,则判定该候选成员是频繁的,将该候选成员保留在频繁K项集集合LK中,否则删除;
步骤6、重复执行上述步骤2~步骤5,直到不能发现更大的频繁项目集为止;
步骤7、最终获得的频繁项目集集合为F,则可产生关联规则R={A->B},A为频繁项目集集合F中任意成员Fi2的非空子集,B为A的补集,即Fi2∈F,i2∈{1,2,…,n1}且A∪B=Fi2},其中n1为频繁项目集集合F包含的成员数目。比如说若集合{I1,I2,I3}是频繁项目集集合的成员,则可产生如下关联规则:{I1}->{I2,I3},{I2}->{I1,I3},{I3}->{I1,I2},{I1,I2}->{I3},{I1,I3}->{I2},{I2,I3}->{I1}。
步骤1包括:对海量事务数据库D中包含项目Si3的事务数Ni3进行统计,其中i3∈{1,2,…,n2},n2为数据库包含的项目数量,则项目集X={Si3,i3∈{1,2,…,n2}}的支持度为:
support(X={Si3,i3∈{1,2,…,n2}})=Ni3/|D|.
其中,|D|为数据库D包含的事务数,若support(X)大于预设的最小支持度min_support,则将项目集X加入频繁1项集集合L1;反之,不加入。
步骤2中,连接过程如下:设m1和m2是频繁K-1项集集合LK-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi4,有mi4[1]<mi4[2]<…<mi4[K-1],其中符号mi4[j]表示成员mi4中的第j个项目,i∈{0,1},j∈{1,2,…,K-1},如果成员m1和m2中前K-2个项目均相同,成员m1的第K-2个项目小于成员m2的第K-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接,连接m1和m2产生的结果是{m1[1],m1[2],……,m1[k-1],m2[k-1]}。
步骤3中,剪枝步骤如下:对候选K项集集合CK的成员ci1,i1∈{1,2,3,…}的所有非空子集的支持度进行判断,若该成员存在支持度小于预设的最小支持度min_support的非空子集,根据Apriori性质可判定该成员不是频繁项目集,将其从CK中删除;反之,将该成员保留在候选K项集集合CK中。
步骤4中,预判筛选步骤如下:通过独立事件概率公式计算候选K项集集合CK中成员ci1,i1∈{1,2,3,…}的先验概率,若P(ci1)>(1+△1)min_support,则将该成员直接添加到频繁k-项集LK中;若P(ci1)<(1-△2)min_support,则将该成员从CK中删除;否则,该成员继续保留在候选k项集CK中;其中,P(ci1)=∑P(c)P(ci1-c)/n,c为成员ci1的单元素子集,即c中只包含一个项目,P(c)可由步骤1得到,P(ci1-c)可由获得频繁K-1项集集合的循环轮次中步骤5得到,n为成员ci1所包含的项目数;△1为阻尼因子,△2为补偿因子,为减少扫描数据库的次数,经实验验证,△1,△2取值如下所示:
&Delta; 1 = 0.5 , | D | &le; 10 3 ; 0.1 &lsqb; 5 - lg ( | D | / 10 3 ) &rsqb; , 10 3 &le; | D | &le; 10 6 ; 0.2 , | D | &GreaterEqual; 10 6 ;
&Delta; 2 = 0.25 , | D | &le; 10 3 ; 0.05 &lsqb; 5 - 2 lg ( | D | / 10 3 ) &rsqb; , 10 3 &le; | D | &le; 10 5 . 0.1 , | D | &GreaterEqual; 10 5 .
实施例1
通过对如图1所示的一个简单的事务数据库D对AWP算法的步骤进行描述,并对其性能进行简单的分析,预设的最小支持度min_support=50%,事务数据库的事务数|D|=10,所以△1=0.5,△2=0.25。
本实施例中,事务是指事务数据库的一条记录;项目是指事务数据库涉及的商品,比如图1所示事务数据库包含项目A、B、C、D、E、F;项目集简称项集是指项目构成的集合,包含k个项目的集合称为k项集。
1)如图11所示,根据AWP算法,首先对图1所示的事务数据库进行扫描,产生如图2所示的候选项集集合C1。接下来,将C1中各项集的支持度与预设的最小支持度min_support比较,由于项集{A}的支持度小于预设的min_support=50%,将其删除,产生如图3所示的频繁1项集集合L1
2)得到频繁1项集集合L1后,根据AWP算法的步骤2,对如图3所示的频繁1项集集合L1进行自连接,得到如图4所示的候选项集集合C21,由于C21中各成员的非空1项子集均为频繁1项集集合的成员,因此无需执行剪枝,可直接执行AWP算法步骤4对候选2项集集合C21进行预判筛选。由于C21中项目集{B,C}的预判支持度大于(1+△1)min_support,因此将项目集{B,C}直接添加到频繁2项集集合L2中;由于项目集{D,F},{E,F}的预判支持度均小于(1-△2)min_support,于是将项目集{D,F},{E,F}从候选2项集集合C21中直接删除。候选2项集集合C21经过筛选后得到如图5所示的候选2项集集合C22。接下来,执行步骤5扫描事务数据库D,对候选2项集集合C22各成员的支持度进行统计,并与min_support比较,得到频繁2项集集合L2,如图6所示。
3)得到频繁2项集集合L2后,同样的根据AWP算法执行步骤2,3,4,5分别进行自连接,剪枝,预判筛选和扫描计数,分别得到候选项集集合C31,C32,C33及频繁3项集集合L3,如图7-图10所示。
4)得到频繁3项集集合后,进行自连接得到候选4项集集合C41,C41中仅有一个成员项集{B,C,D,F},经预判筛选,其预判支持度为36.75%,小于(1-△2)min_support,于是将该成员项集删除,C41成为空集,算法运行结束。
性能:该实例中,运行AWP算法与Apriori算法所获得的频繁项集完全相同,因此虚检率和漏检率均为0,但是Apriori算法需要扫描事务数据库21次,而AWP算法仅需要扫描数据库15次,比Apriori算法减少了28.57%,运算效率得到了大幅提高。
对于实施例1,经AWP算法分析,可知项目集{B,C}为频繁项目集,意味着项目B、C同时出现在一个事务即一条交易记录的机率是比较高的,那么当本发明发现一个客户订购了项目B而未订购项目C时,可以向其推荐项目C,从而提升计算机数据分析的准确性。
本发明提供了一种面向海量事务数据库的关联规则分析方法,具体实现该技术方案的方法和途径都不多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (5)

1.一种面向海量事务数据库的关联规则分析方法,其特征在于,包括以下步骤:
步骤1、扫描海量事务数据库D并计数,找出支持度大于预设最小支持度的频繁1项集集合L1
步骤2、将所得到的频繁K-1项集集合LK-1与其自身连接产生候选K项集的集合,候选K项集的集合记作CK,其中,K∈{2,3,4,…},第一次执行时K=2,每循环执行一次K取值加1;
步骤3、利用Apriori性质对候选K项集集合CK进行剪枝;
步骤4、计算剪枝后的候选K项集集合CK中各成员的预判支持度,进行预判筛选;
步骤5、通过扫描事务数据库D,确定预判筛选后的候选K项集集合CK中每个候选成员ci1的计数,判断该计数是否大于最小支持度计数,如果是,则判定该候选成员是频繁的,将该候选成员保留在频繁K项集集合LK中,否则删除;
步骤6、重复执行上述步骤2~步骤5,直到不能发现更大的频繁项目集为止;
步骤7、最终获得的频繁项目集集合为F,则可产生关联规则:
R={A->B},A为频繁项目集集合F中任意成员Fi2的非空子集,B为A的补集,即Fi2∈F,i2∈{1,2,…,n1}且A∪B=Fi2},其中n1为频繁项目集集合F包含的成员数目。
2.根据权利要求1所述的一种面向海量事务数据库的关联规则分析方法,其特征在于,步骤1包括:对海量事务数据库D中包含项目Si3的事务数Ni3进行统计,其中i3∈{1,2,…,n2},n2为数据库包含的项目数量,则项目集X={Si3,i3∈{1,2,…,n2}}的支持度为:
support(X={Si3,i3∈{1,2,…,n2}})=Ni3/|D|,
其中,|D|为数据库D包含的事务数,若support(X)大于预设的最小支持度min_support,则将项目集X加入频繁1项集集合L1;反之,不加入。
3.根据权利要求2所述的一种面向海量事务数据库的关联规则分析方法,其特征在于,步骤2中,连接过程如下:
设m1和m2是频繁K-1项集集合LK-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi4,有mi4[1]<mi4[2]<…<mi4[K-1],其中符号mi4[j]表示成员mi4中的第j个项目,i4∈{0,1},j∈{1,2,…,K-1},如果成员m1和m2中前K-2个项目均相同,成员m1的第K-2个项目小于成员m2的第K-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接,连接m1和m2产生的结果是{m1[1],m1[2],……,m1[k-1],m2[k-1]}。
4.根据权利要求3所述的一种面向海量事务数据库的关联规则分析方法,其特征在于,步骤3中,剪枝步骤如下:
对候选K项集集合CK的成员ci1,i1∈{1,2,3,…}的所有非空子集的支持度进行判断,若该成员存在支持度小于预设的最小支持度min_support的非空子集,根据Apriori性质可判定该成员不是频繁项目集,将其从CK中删除;反之,将该成员保留在候选K项集集合CK中。
5.根据权利要求4所述的一种面向海量事务数据库的关联规则分析方法,其特征在于,步骤4中,预判筛选步骤如下:
通过独立事件概率公式计算候选K项集集合CK中成员ci1,i1∈{1,2,3,…}的先验概率,
若P(ci1)>(1+△1)min_support,则将该成员直接添加到频繁k-项集LK中;
若P(ci1)<(1-△2)min_support,则将该成员从CK中删除;
否则,该成员继续保留在候选k项集CK中;
其中,P(ci1)=∑P(c)P(ci1-c)/n,c为成员ci1的单元素子集,即c中只包含一个项目,P(c)可由步骤1得到,P(ci1-c)可由获得频繁K-1项集集合的循环轮次中步骤5得到,n为成员ci1所包含的项目数;△1为阻尼因子,△2为补偿因子。
CN201510575640.XA 2015-09-10 2015-09-10 一种面向海量事务数据库的关联规则分析方法 Active CN105260387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510575640.XA CN105260387B (zh) 2015-09-10 2015-09-10 一种面向海量事务数据库的关联规则分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510575640.XA CN105260387B (zh) 2015-09-10 2015-09-10 一种面向海量事务数据库的关联规则分析方法

Publications (2)

Publication Number Publication Date
CN105260387A true CN105260387A (zh) 2016-01-20
CN105260387B CN105260387B (zh) 2018-06-29

Family

ID=55100080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510575640.XA Active CN105260387B (zh) 2015-09-10 2015-09-10 一种面向海量事务数据库的关联规则分析方法

Country Status (1)

Country Link
CN (1) CN105260387B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407296A (zh) * 2016-08-30 2017-02-15 江苏省邮电规划设计院有限责任公司 基于预判筛选的局部扫描关联规则计算机数据分析方法
CN106651606A (zh) * 2016-11-29 2017-05-10 河南科技大学 一种多媒体社交网络用户行为模式发现方法
CN106709822A (zh) * 2017-03-14 2017-05-24 国家电网公司 一种行业用电数据关联关系挖掘方法及装置
CN107451708A (zh) * 2017-04-26 2017-12-08 国家电网公司 一种基于Apriori算法的电网设备监控信息置信关联分析方法
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法
CN111353051A (zh) * 2019-12-04 2020-06-30 江苏蓝河智能科技有限公司 一种基于K-means和Apriori的算法海事大数据关联分析的方法
CN112182071A (zh) * 2020-12-02 2021-01-05 零犀(北京)科技有限公司 数据关联关系挖掘方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150515A (zh) * 2012-12-29 2013-06-12 江苏大学 一种分布式环境下隐私保护的关联规则挖掘方法
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN104217013A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150515A (zh) * 2012-12-29 2013-06-12 江苏大学 一种分布式环境下隐私保护的关联规则挖掘方法
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN104217013A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINAL G.: "Association Rule Mining using Improved Apriori Algorithm", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *
韩天鹏 等: "基于候选项集剪枝的 Apriori 算法的研究", 《阜阳师范学院学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407296A (zh) * 2016-08-30 2017-02-15 江苏省邮电规划设计院有限责任公司 基于预判筛选的局部扫描关联规则计算机数据分析方法
CN106407296B (zh) * 2016-08-30 2019-06-25 中通服咨询设计研究院有限公司 基于预判筛选的局部扫描关联规则计算机数据分析方法
CN106651606A (zh) * 2016-11-29 2017-05-10 河南科技大学 一种多媒体社交网络用户行为模式发现方法
CN106651606B (zh) * 2016-11-29 2021-02-05 河南科技大学 一种多媒体社交网络用户行为模式发现方法
CN106709822A (zh) * 2017-03-14 2017-05-24 国家电网公司 一种行业用电数据关联关系挖掘方法及装置
CN107451708A (zh) * 2017-04-26 2017-12-08 国家电网公司 一种基于Apriori算法的电网设备监控信息置信关联分析方法
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法
CN111353051A (zh) * 2019-12-04 2020-06-30 江苏蓝河智能科技有限公司 一种基于K-means和Apriori的算法海事大数据关联分析的方法
CN112182071A (zh) * 2020-12-02 2021-01-05 零犀(北京)科技有限公司 数据关联关系挖掘方法、装置、电子设备及存储介质
CN112182071B (zh) * 2020-12-02 2021-04-06 零犀(北京)科技有限公司 数据关联关系挖掘方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105260387B (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN105320756B (zh) 一种基于改进Apriori算法的数据库关联规则挖掘方法
CN105260387A (zh) 一种面向海量事务数据库的关联规则分析方法
Zhang et al. CCSpan: Mining closed contiguous sequential patterns
US7676453B2 (en) Partial query caching
US7370033B1 (en) Method for extracting association rules from transactions in a database
Yun et al. Mining recent high average utility patterns based on sliding window from stream data
Lee et al. An efficient algorithm for mining closed inter-transaction itemsets
Chai et al. The research of improved apriori algorithm for mining association rules
Yang et al. Mining web access sequence with improved apriori algorithm
Le et al. Mining frequent closed inter-sequence patterns efficiently using dynamic bit vectors
Kim et al. Average utility driven data analytics on damped windows for intelligent systems with data streams
Mallick et al. Incremental mining of sequential patterns: Progress and challenges
CN110390011B (zh) 数据分类的方法和装置
Pazdor et al. Social network analysis of popular YouTube videos via vertical quantitative mining
Zhang et al. A method to optimize apriori algorithm for frequent items mining
Liu et al. A data mining algorithm for association rules with chronic disease constraints
Prasad Optimized high-utility itemsets mining for effective association mining paper
Singh et al. A new efficient matrix based frequent itemset mining algorithm with tags
Patel et al. FApriori: A modified Apriori algorithm based on checkpoint
Ralla et al. An incremental technique for mining coverage patterns in large databases
CN106407296B (zh) 基于预判筛选的局部扫描关联规则计算机数据分析方法
Hu et al. Bayesian data cleaning for Web data
Boutsinas et al. Distributed mining of association rules based on reducing the support threshold
Vu et al. An efficient approach for mining association rules from sparse and dense databases
Singh et al. Proposing an efficient method for frequent pattern mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu Province, No. 1

Applicant after: Zhong Tong clothing consulting and Design Research Institute Co., Ltd.

Address before: 210000 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu Province, No. 1

Applicant before: Jiangsu Posts & Telecommunications Planning and Designing Institute Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210000 No. 58 East Street, Nanxi River, Jianye District, Nanjing, Jiangsu

Applicant after: Zhong Tong clothing consulting and Design Research Institute Co., Ltd.

Address before: 210000 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu Province, No. 1

Applicant before: Zhong Tong clothing consulting and Design Research Institute Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant