CN103761236B - 一种增量式频繁模式增长数据挖掘方法 - Google Patents
一种增量式频繁模式增长数据挖掘方法 Download PDFInfo
- Publication number
- CN103761236B CN103761236B CN201310589032.5A CN201310589032A CN103761236B CN 103761236 B CN103761236 B CN 103761236B CN 201310589032 A CN201310589032 A CN 201310589032A CN 103761236 B CN103761236 B CN 103761236B
- Authority
- CN
- China
- Prior art keywords
- frequent
- threshold value
- tree
- data
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种增量式频繁模式增长数据挖掘方法,包括1)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算;2)将原数据库中的数据进行分组,构建局部的频繁模式树,通过递归过程提取各局部的频繁项集;3)将各局部的频繁项集进行整合;4)更新阈值,对原数据库执行在新阈值下的支持度计数;5)将局部频繁模式树更新,挖掘新阈值下原数据库的频繁项集;6)新增数据集得到新数据库,挖掘新阈值下原数据库的强频繁项集和新增的频繁项集。与现有技术相比,本发明利用原有的频繁数据项集及频繁模式树,只需对新增数据集进行扫描即可获取新的频繁项集,不仅同时解决了阈值变化和数据库增加两种问题,还大大提高了效率。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是涉及一种增量式频繁模式增长数据挖掘方法。
背景技术
数据挖掘是指从大量数据中寻找出隐含的、有潜在价值的信息的过程。随着信息技术的飞速发展,医疗、互联网等各个领域产生的数据量不断增加。海量数据下隐藏的高价值知识使得数据分析的重要性日益突显。然而,由于数据量过大,使用传统的数据挖掘方法已经无法满足海量级别信息的分析处理需求,给有效利用这些数据带来了困难。关联规则挖掘是近年来数据挖掘领域中,最活跃且最为广泛应用的研究方向之一。关联规则挖掘的最初目的是,商家从大量的消费记录中,寻找顾客所购商品的相关性,从而更好地指导销售策略的制定。
目前,传统关联规则挖掘算法分为三大类,分别是Apriori算法、闭合频繁项挖掘和频繁模式增长算法。就算法的原理来看,Apriori算法需要重复多次扫描外存中的数据以获取频繁项集,因此I/O负载高、算法的执行性能差。闭合频繁项挖掘是对Apriori算法的改进,只有在处理特定类型数据时能减少扫描次数,效率依旧不高。增量式频繁模式增长算法仅通过2次扫描就能将所需的数据信息收集并压缩至特殊的数据结构——频繁模式树,减少了在输入输出上花费的时间,使得算法效率得到很大提升。面向海量数据的数据挖掘一般有三种思路:抽样、集成及MapReduce。从海量数据中抽样,能够迅速构建数据挖掘模型,但抽样可能导致结果出现偏差;集成方法将整个数据划分为多个子集,分别运算,最后合并;MapReduce基于云计算平台,用于海量级别数据的并行处理。目前,基于增量式频繁模式增长数据挖掘方法仅能解决单一问题,如最小支持度阈值发生改变或数据库内容更新问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种增量式频繁模式增长数据挖掘方法,用于在非静态数据库及动态阈值下,对海量数据进行快速挖掘。
本发明的目的可以通过以下技术方案来实现:一种增量式频繁模式增长数据挖掘方法,其特征在于,包括以下步骤:
(1)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(2)读取分组列表和步骤(1)所述的数据集,将原数据库中的数据进行分组,构建局部的频繁模式树,通过递归过程提取各局部的频繁项集;
(3)将各局部的频繁项集进行整合,得到原数据库的完整的频繁项集;
(4)阈值重置得到新阈值,将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于新阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(5)将步骤(2)得到的局部频繁模式树进行更新,增添新节点或删除部分原节点,从这些临时的频繁模式树中挖掘新阈值下原数据库的频繁项集;
(6)对原数据库增加新数据集得到新数据库,扫描新增的数据集,更新频繁模式树,求出新阈值下原数据库的强频繁项集及新增数据集的频繁项集;
(7)将新阈值下原数据库的强频繁项集和新增的频繁项集进行整合,得到新阈值下新数据库的频繁项集。
步骤(5)所述的挖掘新阈值下原数据库的频繁项集具体包括以下步骤:
11)计算LΔ1=L1′-L1,式中,L1′是新阈值下原数据库的频繁1-项集,L1是原阈值下原数据库的频繁1-项集;
12)判断差值LΔ1是否为空集,是则执行步骤14),否则执行步骤13);
13)以差值LΔ1更新频繁模式树FP-tree,通过更新后的频繁模式树FP-tree'挖掘新阈值下原数据库的频繁项集L',挖掘结束;
14)令新阈值下原数据库的频繁项集L'为原数据库原阈值下的频繁项集L,频繁模式树FP-tree'=FP-tree。
实施步骤(6)所述的挖掘新阈值下数据集的频繁项集具体包括以下步骤:
21)计算LΔ2=LDP1+LdP1-L1,式中,LDP1是新阈值下原数据库的强频繁1-项集,LdP1是新阈值下新增数据集的强频繁1-项集,L1是原阈值下原数据库的频繁1-项集;
22)以差值LΔ2更新频繁模式树FP-tree';
23)初始化k=1;
24)令k=k+1,采用Apriori算法,通过新增数据集的强频繁l-项集LdPl,其中l=k-1,生成新增数据集的候选频繁k-项集cdk,判断新增数据集的候选频繁k-项集cdk是否为空集,是则挖掘结束;
25)执行cΔk=cdk-Lk,求出新增数据集的候选频繁k-项集cdk与原阈值下原数据库频繁k-项集Lk之差,判断差值cΔk是否为空集,是则执行步骤27),否则执行步骤26);
26)对于步骤25)得到的差值cΔk中的每个项,通过更新后的频繁模式树FP-tree''求出各路径的支持数;
27)通过判断cdk中的项的支持数是否不小于新阈值s',得到新增数据集的强频繁k-项集LdPk;
28)通过判断cΔk中的项的支持数是否不小于新阈值s',得到新增的频繁k-项集LΔk,返回步骤24)。
所述的以差值Lχ更新频繁模式树Tree包括以下步骤:
31)判断差集Lχ是否是空集,是则结束流程;
32)更新频繁列表Lf′=L1∪Lχ;
33)将更新后的频繁列表Lf′降序排序;
34)对原数据库中的任意事项t,执行nItem=Lf′∩t,取出事务中与频繁列表相交的事务,即在频繁列表上出现的数据库中的事务;
35)执行nNode=nItem∩Lχ,在频繁列表中出现的数据库中的事务与差集Lχ相交,求出新的节点nNode;
36)将新节点nNode插入到频繁模式树Tree中,更新结束。
与现有技术相比,本发明不仅创新地同时解决了阈值变化以及数据库数据增加两种问题,并且基于MapReduce对该增量式算法实现了并行化,利用原有的频繁数据项集及频繁模式树,只需对新增数据集进行扫描即可有效获取新的频繁项集,无需再次扫描全部数据库、生成频繁模式树,进行重复计算,从而大大提高了算法的效率。
附图说明
图1为MapReduce处理数据集的过程图;
图2为本发明并行化方案的整体流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,MapReduce通过划分的步骤,将海量数据分组并将对其的处理分配给主节点下的各个分节点共同完成,最后整合各个分节点的计算结果得到最终结果。MapReduce将整个数据处理过程抽象为两个部分,用函数表示,分别为map和reduce。map的工作是将任务分解成多个,reduce负责汇总多任务处理的结果。MapReduce框架下的数据集必须可以分解成多个小数据集,并且可以被并行化处理。
如图2所示,一种增量式频繁模式增长数据挖掘方法,其特征在于,包括以下步骤:
(1)split函数将原数据库D分成多个数据集,将数据集传递至Mapper及Reducer,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值s的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(2)MapReduc读取分组列表和步骤(1)所述的数据集,将原数据库D中的数据进行分组,Reducer构建局部的频繁模式树,通过递归过程提取各局部的频繁项集;
(3)将各局部的频繁项集进行整合,得到原数据库D的完整的频繁项集;
(4)阈值重置得到新阈值s',将原数据库D分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于新阈值s'的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(5)Reducer将步骤(2)得到的局部频繁模式树进行更新,增添新节点或删除部分原节点,从这些临时的频繁模式树中挖掘新阈值s'下原数据库D的频繁项集;
(6)对原数据库D增加新数据集d得到新数据库D',扫描新增的数据集d,更新频繁模式树,求出新阈值下原数据库的强频繁项集及新增数据集的频繁项集;
(7)整合步骤(6)得到的新阈值下新增的频繁项集,得到新阈值s'下新数据库D∪d的频繁项集。
实现步骤(5)~(7)的具体算法流程如下:
相关符号说明如下:原数据库D,原阈值s,新增数据集d,新阈值s',D的频繁模式树FP-tree,D的频繁项集L。
①以下部分为数据库D不变,新阈值s'下的频繁项集的计算
Procedure PIFP (FP-tree,L,s',s,d,D)
Claims (2)
1.一种增量式频繁模式增长数据挖掘方法,其特征在于,包括以下步骤:
(1)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(2)读取分组列表和步骤(1)所述的数据集,将原数据库中的数据进行分组,构建局部的频繁模式树,通过递归过程提取各局部的频繁项集;
(3)将各局部的频繁项集进行整合,得到原数据库的完整的频繁项集;
(4)阈值重置得到新阈值,将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于新阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组,并且对事务内的项进行排序;
(5)将步骤(2)得到的局部频繁模式树进行更新,增添新节点或删除部分原节点,从这些临时的频繁模式树中挖掘新阈值下原数据库的频繁项集;
(6)对原数据库增加新数据集得到新数据库,扫描新增的数据集,更新频繁模式树,求出新阈值下原数据库的强频繁项集及新增数据集的频繁项集;
(7)将新阈值下原数据库的强频繁项集和新增的频繁项集进行整合,得到新阈值下新数据库的频繁项集;
实施步骤(6)所述的挖掘新阈值下新增的频繁项集具体包括以下步骤:
21)计算LΔ2=LDP1+LdP1-L1,式中,LDP1是新阈值下原数据库的强频繁1-项集,LdP1是新阈值下新增数据集的强频繁1-项集,L1是原阈值下原数据库的频繁1-项集;
22)以差值LΔ2更新频繁模式树FP-tree';
23)初始化k=1;
24)令k=k+1,采用Apriori算法,通过新增数据集的强频繁l-项集LdPl,其中l=k-1,生成新增数据集的候选频繁k-项集cdk,判断新增数据集的候选频繁k-项集cdk是否为空集,是则挖掘结束;
25)执行cΔk=cdk-Lk,求出新增数据集的候选频繁k-项集cdk与原阈值下原数据库频繁k-项集Lk之差,判断差值cΔk是否为空集,是则执行步骤27),否则执行步骤26);
26)对于步骤25)得到的差值cΔk中的每个项,通过更新后的频繁模式树FP-tree”求出各路径的支持数;
27)通过判断cdk中的项的支持数是否不小于新阈值s',得到新增数据集的强频繁k-项集LdPk;
28)通过判断cΔk中的项的支持数是否不小于新阈值s',得到新增的频繁k-项集LΔk,返回步骤24)。
2.根据权利要求1所述的一种增量式频繁模式增长数据挖掘方法,其特征在于,步骤(5)所述的挖掘新阈值下原数据库的频繁项集具体包括以下步骤:
11)计算LΔ1=L1′-L1,式中,L1′是新阈值下原数据库的频繁1-项集,L1是原阈值下原数据库的频繁1-项集;
12)判断差值LΔ1是否为空集,是则执行步骤14),否则执行步骤13);
13)以差值LΔ1更新频繁模式树FP-tree,通过更新后的频繁模式树FP-tree'挖掘新阈值下原数据库的频繁项集L',挖掘结束;
14)令新阈值下原数据库的频繁项集L'为原数据库原阈值下的频繁项集L,频繁模式树FP-tree'=FP-tree。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310589032.5A CN103761236B (zh) | 2013-11-20 | 2013-11-20 | 一种增量式频繁模式增长数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310589032.5A CN103761236B (zh) | 2013-11-20 | 2013-11-20 | 一种增量式频繁模式增长数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761236A CN103761236A (zh) | 2014-04-30 |
CN103761236B true CN103761236B (zh) | 2017-02-08 |
Family
ID=50528476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310589032.5A Expired - Fee Related CN103761236B (zh) | 2013-11-20 | 2013-11-20 | 一种增量式频繁模式增长数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761236B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984723A (zh) * | 2014-05-15 | 2014-08-13 | 江苏易酒在线电子商务有限公司 | 一种针对增量数据对频繁项进行更新数据挖掘方法 |
CN105224184A (zh) * | 2014-07-01 | 2016-01-06 | 中兴通讯股份有限公司 | 菜单动态调整的方法及装置 |
CN104850577A (zh) * | 2015-03-19 | 2015-08-19 | 浙江工商大学 | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 |
CN104965674B (zh) * | 2015-06-08 | 2018-01-19 | 暨南大学 | 一种基于块关联的低能耗磁盘调度方法及系统 |
CN105528391A (zh) * | 2015-11-26 | 2016-04-27 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN106095955B (zh) * | 2016-06-16 | 2019-04-05 | 杭州电子科技大学 | 基于业务流程日志和实体轨迹配对的行为模式挖掘方法 |
CN106503218A (zh) * | 2016-10-27 | 2017-03-15 | 北京邮电大学 | 一种并行化工作流关联数据发现方法 |
CN106844435A (zh) * | 2016-12-14 | 2017-06-13 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN107229751A (zh) * | 2017-06-28 | 2017-10-03 | 济南大学 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
CN108182294B (zh) * | 2018-01-31 | 2021-04-16 | 湖北工业大学 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
CN108475292B (zh) * | 2018-03-20 | 2021-08-24 | 深圳大学 | 大规模数据集的频繁项集挖掘方法、装置、设备及介质 |
CN108595711B (zh) * | 2018-05-11 | 2021-11-30 | 西南石油大学 | 一种分布式环境下图模式关联规则挖掘方法 |
CN109376181A (zh) * | 2018-09-25 | 2019-02-22 | 深圳市元征科技股份有限公司 | 一种数据挖掘方法及相关设备 |
CN109559156A (zh) * | 2018-10-30 | 2019-04-02 | 广东原昇信息科技有限公司 | 基于客户属性及营销数据的客户意向有监督预测方法 |
CN109545283B (zh) * | 2018-11-23 | 2020-11-10 | 西安交通大学 | 一种基于序列模式挖掘算法的系统发生树构建方法 |
CN110222090A (zh) * | 2019-06-03 | 2019-09-10 | 哈尔滨工业大学(威海) | 一种海量数据频繁项集挖掘方法 |
CN110609857B (zh) * | 2019-08-30 | 2021-03-05 | 哈尔滨工业大学(威海) | 一种基于动态阈值的时间序列数据序列模式挖掘方法 |
CN111475837B (zh) * | 2020-04-01 | 2023-04-07 | 广东工业大学 | 一种网络大数据隐私保护方法 |
CN112819404A (zh) * | 2021-01-13 | 2021-05-18 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113360471A (zh) * | 2021-05-31 | 2021-09-07 | 浙大宁波理工学院 | 基于分布式计算的高效用频繁模式挖掘方法 |
CN114265886B (zh) * | 2021-12-28 | 2024-04-30 | 航天科工智能运筹与信息安全研究院(武汉)有限公司 | 一种基于改进Apriori算法的相似模型检索系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7433879B1 (en) * | 2004-06-17 | 2008-10-07 | Versata Development Group, Inc. | Attribute based association rule mining |
CN101295309A (zh) * | 2008-05-22 | 2008-10-29 | 江苏大学 | 一种医学图像识别的方法 |
CN101996102A (zh) * | 2009-08-31 | 2011-03-30 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN103150163A (zh) * | 2013-03-01 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种基于MapReduce模型的并行关联方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
-
2013
- 2013-11-20 CN CN201310589032.5A patent/CN103761236B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7433879B1 (en) * | 2004-06-17 | 2008-10-07 | Versata Development Group, Inc. | Attribute based association rule mining |
CN101295309A (zh) * | 2008-05-22 | 2008-10-29 | 江苏大学 | 一种医学图像识别的方法 |
CN101996102A (zh) * | 2009-08-31 | 2011-03-30 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN103150163A (zh) * | 2013-03-01 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种基于MapReduce模型的并行关联方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
Non-Patent Citations (3)
Title |
---|
"一种基于FP-tree的频繁项集增量更新算法";廖仁全等;《计算机工程与应用》;20070201;第43卷(第4期);第176-178、233页 * |
"基于MapReduce的关联规则增量更新算法";朱晓峰等;《计算机技术与发展》;20120410;第22卷(第4期);第115-118、122页 * |
"基于增量数据库关联规则挖掘算法研究";路春辉等;《大众科技》;20080510(第5期);第43-44、78页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103761236A (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103761236B (zh) | 一种增量式频繁模式增长数据挖掘方法 | |
Gan et al. | A survey of incremental high‐utility itemset mining | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
WO2016049975A1 (zh) | 一种基于集聚系数的自适应聚类方法及系统 | |
CN102033748A (zh) | 一种数据处理流程代码的生成方法 | |
CN108229578B (zh) | 基于数据、信息和知识三层图谱架构的图像数据目标识别方法 | |
Thomas et al. | Detecting symmetry in scalar fields using augmented extremum graphs | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN108446391A (zh) | 数据的处理方法、装置、电子设备和计算机可读介质 | |
CN105335368A (zh) | 一种产品聚类方法及装置 | |
Mohamed et al. | Efficient mining frequent itemsets algorithms | |
CN112149955A (zh) | 一种科技成果评价平台系统 | |
CN102663108B (zh) | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 | |
CN106599122B (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
Apiletti et al. | Pampa-HD: A parallel MapReduce-based frequent pattern miner for high-dimensional data | |
CN103984723A (zh) | 一种针对增量数据对频繁项进行更新数据挖掘方法 | |
CN102708285B (zh) | 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
Zou et al. | HPTree: reconstructing phylogenetic trees for ultra-large unaligned DNA sequences via NJ model and Hadoop | |
Arge et al. | On (dynamic) range minimum queries in external memory | |
CN109492098A (zh) | 基于主动学习和语义密度的目标语料库构建方法 | |
CN111107493B (zh) | 一种移动用户位置预测方法与系统 | |
CN110413602B (zh) | 一种分层清洗式大数据清洗方法 | |
CN107886107B (zh) | 一种大数据的融合方法、系统和装置 | |
Hao et al. | cSketch: a novel framework for capturing cliques from big graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170208 Termination date: 20191120 |
|
CF01 | Termination of patent right due to non-payment of annual fee |