CN103176976B - 一种基于数据压缩Apriori算法的关联规则挖掘方法 - Google Patents

一种基于数据压缩Apriori算法的关联规则挖掘方法 Download PDF

Info

Publication number
CN103176976B
CN103176976B CN201110430528.9A CN201110430528A CN103176976B CN 103176976 B CN103176976 B CN 103176976B CN 201110430528 A CN201110430528 A CN 201110430528A CN 103176976 B CN103176976 B CN 103176976B
Authority
CN
China
Prior art keywords
key
database
map
algorithm
candidate set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110430528.9A
Other languages
English (en)
Other versions
CN103176976A (zh
Inventor
高海洋
沈强
张轩溢
唐朝伟
赵志军
慈松
唐晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Institute of Acoustics CAS
Original Assignee
Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd, Institute of Acoustics CAS filed Critical Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Priority to CN201110430528.9A priority Critical patent/CN103176976B/zh
Publication of CN103176976A publication Critical patent/CN103176976A/zh
Application granted granted Critical
Publication of CN103176976B publication Critical patent/CN103176976B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于数据压缩Apriori算法的关联规则挖掘方法,包括步骤:判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时,生成数据库项与该数据项数量的映射表DB_Map_Table;将该映射表DB_Map_Table中的所有健值对<key,value>按照key的大小升序排列;使用Apriori算法生成I(I>2)项候选集时,判断将要合并的两个频繁集中不同的项所组成的二项集是否为2项频繁集的子集,如果是,则将将要合并的两个频繁集的合集加入候选集。本发明的效果在于,减小了原有事务数据库的大小,减少了数据库的扫描次数,减少了算法运行过程中候选集的生成,从而在保证算法正确的同时有效地提高了算法的速度和效率。

Description

一种基于数据压缩Apriori算法的关联规则挖掘方法
技术领域
本发明涉及对一种基于数据压缩Apriori算法的关联规则挖掘方法。
背景技术
关联规则挖掘用来发现大量数据中项集之间的有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。
该算法的基本思想是:首先找出所有的频繁项集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁集产生强关联规则,这些规则必须满足最小支持度和最小可信度。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频繁项集,使用了递推的方法。Apriori的总体性能由第一步决定,第二步相对容易实现。
传统的Apriori算法具有两个主要的缺陷:
1.会产生大量的候选集;
2.会重复地扫描数据库;
为解决上述问题,本发明利用数据库中数据的特点,提出一种基于数据压缩Apriori算法的关联规则数据挖掘方法,同时在候选集的选择上进行预先判断,以减少所产生的候选集的数目。
本发明的再一目的是减少扫描数据库的次数,以提高查询的速度。
发明概述
为了实现上述目的,本发明采用了压缩数据库的办法。设有由m个项{I1,I2...Im}组成的数据集合,数据库中的每一项均由该集合中的元素组成,即Tk={I1,I2...Ij},数据库共包含N条事务记录,数据库中所有组合的总数为:
M = C m 1 + C m 2 + C m 3 + . . . + C m k + . . . + C m m = 2 m - 1
当N>M时,对数据库进行压缩,提取出数据库中的有效信息,生成数据库项和该数据项数量的映射表DB_Map_Tbale,映射函数为H(key)。这里引入转换函数f(X),F(X)的作用是将数据库项转换为DB_Map_Tbale中该项对应的键值。如:
对于Tk={I1,I2...Ij}
F(Tk)=keyk
进一步,对DB_Map_Tbale中内容排序,将该映射表DB_Map_Table中的所有健值对<key,value>按key的大小升序排列,即KEY={key1,key2,...keym},key1<key2<...<keym
进一步,使用Apriori算法,由n--1项频繁集合并生成n项候选集In(n>2)。每次从n-1项频繁集中选出没有合并过的两个频繁集IX,IY,如果IX,IY这两个集合的前n-2项相同,第n-1项不同,则它们符合原始算法的合并条件。本发明在此基础上额外加入新的判断条件,判断将要合并的两个频繁集IX,IY中不同的两项ix,iy所组成的2项集ixy={ix,iy}是否是2项频繁集IF的子集,若则将IX∪IY加入候选集的集合In中。
根据Apriori算法的原理,当在第一个阶段要计算每一个候选集合Ik={I1,I2...IX}的支持度sup(Ik)时,从处开始顺序扫描DB_Map_Tbale,引入函数d(keyI),
d(keyI)=I={I1,I2,...Ix}
那么
sup ( I k ) = &Sigma; m H ( i ) , ( d ( key k ) &SubsetEqual; d ( i ) )
本发明的优点在于,减小了原有事务数据库的大小,减少了数据库的扫描次数,减少了算法运行过程中生产的候选集的数量,从而在保证算法正确的同时有效地提高了算法的速度和效率。
附图说明
图1是根据本发明的生成DB_Map_Tbale的流程图;
图2是根据本发明的利用DB_Map_Tbale计算支持度的流程图;
图3显示的是本发明的算法与已有算法执行时间的比较;
图4显示的是使用了Apriori性质进一步验证后生成的候选集的数量。
具体实施方式
以下将对本发明的实施进行详细描述。
图1根据本发明的生成DB_Map_Tbale的流程图,具体步骤如下:
1)设置长度为m的bitmask=<0000...0>;
2)扫描数据库,顺序读取数据库的每一项,对读取的数据库的项,Tk={Ix,IY,...Iz}调用f(X),将bitmask=<0000...0>对应的x,y,...z位设置为1,生成Tk对应的bitvector=<01x....1y..1z0>;
3)bitvector=<01x....1y..1z0>转化为对应的十进制键值keyk
4)调用count=H(keyk),若返回的结果为0,则H(keyk)=1,若返回值大于0,H(keyk)=count+1;
5)当扫描完整个数据库后,对DB_Map_Tbale按照key的大小按升序排序,至此生成DB_Map_Tbale的过程结束。
图2是根据本发明的利用DB_Map_Tbale计算支持度的流程图,具体步骤如下:
1)对于候选集Ic={Ix,Iy,...Iz},调用f(X),生成keyc
2)调用H(x),从keyc处开始顺序向后遍历DB_Map_Tbale,因为例如,对于任意两个集合bitvectorx-bitvectory<=0,所以keyx<keyy
3)对于每一个key>keyc,调用d(x),若
sup(Ic)=sup(Ic)+H(key)
4)当到达DB_Map_Tbale末尾时,此过程结束。
数据库经过去重压缩处理之后,数据库的信息被无损地保存在DB_Map_Tbale,这种方式可减少数据库的操作次数,提高算法的效率。使用映射表进行存储,可提高存储空间的利用效率,同时借助key在DB_Map_Tbale中递增排列的特点,在求某一个候选集的支持度时,可以不用遍历整个DB_Map_Tbale,仅从包含该候选集的最小单元开始遍历DB_Map_Tbale即可,这样可以降低查询操作的时间复杂度。而通过利用Apriori性质,本发明的算法可有效减少生成的候选集的数量。
在对本发明算法的仿真过程中,数据集包含46243条数据记录,包含13个不同的单元项。图3显示的是改进后的算法与原有算法执行时间的比较,横轴表示支持度,纵轴表示算法的执行时间。图4显示的是在使用了Apriori性质进一步验证后,生成的候选集的数量,这里以三项候选集为例,其中横轴表示支持度,纵轴表示生成三项候选集的数量。
虽然已经结合具体实施方式对本发明的基于数据压缩的Apriori算法的改进算法进行了说明,但是本发明不限于此。在本发明的精神和原理下做出的各种变型均应包含在本发明的权利要求书限定的范围之内。

Claims (3)

1.一种基于数据压缩Apriori算法的关联规则挖掘方法,所述方法包括步骤:
判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时,生成数据库项与该数据项数量的映射表DB_Map_Table:设置长度为m的bitmask=<0000...0>;扫描数据库,顺序读取数据库的每一项,对读取的数据库的项,Tk={Ix,Iy,...Iz}调用f(X),将bitmask=<0000...0>对应的x,y,...z位设置为1,生成Tk对应的bitvector=<01x....1y..1z0>;bitvector=<01x....1y..1z0>转化为对应的十进制键值keyk;调用count=H(keyk),若返回的结果为0,则H(keyk)=1,若返回值大于0,H(keyk)=count+1;当扫描完整个数据库后,对DB_Map_Tbale按照key的大小按升序排序,至此生成DB_Map_Tbale的过程结束;
将该映射表DB_Map_Table中的所有健值对<key,value>按key的大小升序排列,即KEY={key1,key2,...keym},key1<key2<...<keym
利用Apriori算法从DB_Map_Table表的第处开始扫描该DB_Map_Table表,以计算每个候选集Ik={I1,I2...Ix}的支持度:对于候选集Ic={Ix,Iy,...Iz},调用f(X),生成keyc,调用H(x),从keyc处开始顺序向后遍历DB_Map_Tbale,对于任意两个集合bitvectorx-bitvectory<=0,所以keyx<keyy;对于每一个key>keyc,调用d(x),若sup(Ic)=sup(Ic)+H(key);当到达DB_Map_Tbale末尾时,此过程结束;
根据每个候选集的支持度产生强关联规则,从而建立数据库中数据的联系。
2.根据权利要求1的基于数据压缩Apriori算法的关联规则挖掘方法,其特征在于,所述函数d(keyI)为:d(keyI)=I={I1,I2,...Ix},并且根据公式
s u p ( I k ) = &Sigma; key k m H ( i ) , ( d ( key k ) &SubsetEqual; d ( i ) )
计算每个候选集合的支持度。
3.根据前述权利要求之一的基于数据压缩Apriori算法的关联规则挖掘方法,其特征在于还包括:使用Apriori算法生成I(I>2)项候选集时,判断将要合并的两个频繁集IX,IY中不同的两项ix,iy所组成的2项集ixy={ix,iy}是否是2项频繁集IF的子集,若则将IX∪IY加入候选集的集合In中。
CN201110430528.9A 2011-12-20 2011-12-20 一种基于数据压缩Apriori算法的关联规则挖掘方法 Expired - Fee Related CN103176976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110430528.9A CN103176976B (zh) 2011-12-20 2011-12-20 一种基于数据压缩Apriori算法的关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110430528.9A CN103176976B (zh) 2011-12-20 2011-12-20 一种基于数据压缩Apriori算法的关联规则挖掘方法

Publications (2)

Publication Number Publication Date
CN103176976A CN103176976A (zh) 2013-06-26
CN103176976B true CN103176976B (zh) 2016-01-20

Family

ID=48636858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110430528.9A Expired - Fee Related CN103176976B (zh) 2011-12-20 2011-12-20 一种基于数据压缩Apriori算法的关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN103176976B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN105631709A (zh) * 2015-12-26 2016-06-01 深圳大学 一种购物篮分析方法及系统
CN105930104B (zh) * 2016-05-17 2019-01-18 百度在线网络技术(北京)有限公司 数据存储方法和装置
CN109542908B (zh) * 2018-11-23 2019-08-13 中科驭数(北京)科技有限公司 key-value数据库中的数据压缩方法、存储方法、访问方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0409364D0 (en) * 2004-04-27 2004-06-02 Nokia Corp Processing data in a comunication system
KR101175190B1 (ko) * 2008-11-19 2012-08-20 한국전자통신연구원 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치
CN101655857B (zh) * 2009-09-18 2013-05-08 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法

Also Published As

Publication number Publication date
CN103176976A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
KR101468764B1 (ko) 앙상블 가맹점 예측 시스템을 구현하기 위한 방법 및 장치
KR101462707B1 (ko) 데이터베이스 내에 근사 스트링 매칭을 구현하기 위한 방법 및 시스템
Raorane et al. Association rule–extracting knowledge using market basket analysis
CN103631910A (zh) 一种分布式数据库多列复合查询的系统及方法
CN103176976B (zh) 一种基于数据压缩Apriori算法的关联规则挖掘方法
CN104252456B (zh) 一种权重估计方法、装置及系统
CN101324937B (zh) 网络分析方法及系统
CN104965886B (zh) 数据维度处理方法
CN106991141B (zh) 一种基于深度剪枝策略的关联规则挖掘方法
CN102841929A (zh) 一种综合用户和项目评分及特征因素的推荐方法
CN101968806A (zh) 数据存储方法、查询方法及装置
CN103514267A (zh) 一种网络关联信息获取方法和系统
CN102737123B (zh) 一种多维数据分布方法
CN100354864C (zh) 数据挖掘中一种基于混合互信息的特征选择方法
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
CN106127493A (zh) 一种分析用户交易行为的方法及装置
Qu et al. Mining high utility itemsets using extended chain structure and utility machine
Tseng et al. A pre-processing method to deal with missing values by integrating clustering and regression techniques
CN106599122A (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
Huang et al. Does “Internet Plus” promote new export space for firms? Evidence from China
Cho et al. Mining association rules using RFM scoring method for personalized u-commerce recommendation system in emerging data
CN106202517A (zh) 一种基于大数据的网上商品在网页上的排序方法
CN107609110B (zh) 基于分类树的最大多样频繁模式的挖掘方法及装置
Prasad et al. Frequent pattern mining and current state of the art

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20181220

CF01 Termination of patent right due to non-payment of annual fee