CN110232079A

CN110232079A - 一种基于Hadoop的改进型FP-Growth数据挖掘方法

Info

Publication number: CN110232079A
Application number: CN201910379325.8A
Authority: CN
Inventors: 刘琪; 叶飞跃; 葛锡聪; 张云猛
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-13

Abstract

本发明公开了一种基于Hadoop的改进型FP‑Growth数据挖掘方法，属于数据挖掘领域。在已有的FP‑Growth算法并行化的基础上改进，主要方法是在FP‑tree在构建项头表数据结构的时候在原有的项头表结构上添加一个新的属性尾节点tail，用于记录每一个数据项当前的最后一个节点，然后可以直接通过tail属性找到表尾进行新节点的插入，来加速FP‑tree构建；此外，采用先序遍历FP‑tree的方法产生条件模式基来提高挖掘效率。且根据不同数据集长度构建FP‑tree复杂差异可能较大，可能会导致某些节点负载过大的问题，通过负载均衡算法可以用来均衡工作负载，减少数据分配时的随机性的问题。

Description

一种基于Hadoop的改进型FP-Growth数据挖掘方法

技术领域

本发明涉及数据挖掘领域，具体是一种基于Hadoop的改进型FP-Growth数据挖掘方法。

背景技术

随着信息技术和计算机的迅猛发展，全球数据量成倍增长，大数据技术应运而生。关联规则挖掘是数据知识发现的一个重要课题，大数据环境下关联规则挖掘能够使人们从庞大复杂的数据中发现很多潜在又有价值的信息。其中，Apriori算法是在国际上具有广泛影响力的一种算法，该算法的主要问题是会产生巨大的候选项集，特别是在挖掘较长模式时需要多次扫描数据库。另一种代表性的算法是FP-Growth算法，其针对Apriori算法的固有的多次扫描事务数据集的缺陷，提出的不产生候选项频繁集的方法，整个算法只需扫描两次数据库，比Apriori挖掘速度更快。

由于数据规模的急剧扩大，单节点机器的内存和计算能力已经不再满足，从而引发了内存溢出与大量通信问题，于是出现了并行的关联规则算法。对于FP-Growth算法而言，当处理的数据集大到一定程度时，会出现如下的问题：

(1)逐条且重复的对整个数据库进行扫描的方式，会使得数据库时间和空间的开销随着数据规模的大小呈现正比增长趋势，会影响执行效率；

(2)当数据集规模大到一定程度时，会构造出大量的FP-tree树，切单节点FP-tree的分支会很多，或者很长，这样就会占用大量的内存；

(3)进行挖掘时会采用自底向上递归挖掘，会产生大量频繁模式基，由于对同一路径存在多次重复遍历，迭代次数和指针都增多，占用的空间较大。且事物平均路径越长，算法适应性越差。

发明内容

为了解决FP-Growth算法在大数据集情况下FP-tree建树性能较低与大数据处理效率低的问题，以及每个节点计算量有差异以致影响算法运行效率的问题，本发明提出了一种基于Hadoop的改进型FP-Growth数据挖掘方法。

为实现上述目的，本发明采用的技术方案是：

一种基于Hadoop的改进型FP-Growth数据挖掘方法，包括以下步骤：

S1:数据分片处理：扫描数据库，将事务集拷贝到HDFS上，由HDFS将事务集划分为连续的Block并保存相应的副本，将各个Block分散存储到N个节点上；

S2:统计事务数据库中的每一项的支持度并找出所有的频繁项，得到频繁1-项集(FList)，并按照支持度大小排序；

S3:均衡化分组：由setup过程进行负载量估计，通过map过程采用负载均衡分组的方式读入事务项，分发到不同的reduce节点；

S4:在每个reduce节点上，构造局部FP-tree；

S5:对FP-tree进行FP-Growth挖掘得到局部频繁项集，再由局部频繁项集合并成全局频繁项集。

进一步地，所述S1的过程由Hadoop自动完成。

进一步地，所述S3具体过程为：在setup阶段，应用均衡化分组策略将FList中的所有频繁项分到Q个组，得到均衡化的频繁项表分组表Glist。在Map阶段，读入事务数据库的事务，根据频繁1-项集列表，对读入的事务进行删除非频繁项并按照频繁1-项集支持度进行降序排序。查询事务最右项所属的分组号，由于一项有多个分组，需产生0～(L-1)内随机数，以确定分组号。再将以组号为键，事务为值的键值对发送到reduce节点。

进一步地，所述S4具体过程为：FP-tree在构建项头表数据结构的时候在原有的项头表结构上添加一个新的属性尾节点tail，用于记录每一个数据项当前的最后一个节点，通过这个方法可以避免遍历当前节点的链表而导致算法效率不佳，直接通过tail属性找到表尾进行新节点的插入即可。FP-tree的构造依旧是先创建树的根节点，记为root，然后处理每条事务数据按照频繁1-项集(FList)支持度的顺序添加到FP-tree的一个分支。FP-Growth算法是自下而上产生频繁1-项集的条件模式基，需要重复扫描公共路径。为了避免重复搜素公共路径，减小时间和空间复杂度，采用先序遍历FP-tree的方法产生条件模式基来提高挖掘效率。

相对于现有技术,本发明具有如下有益效果:

本发明采用Hadoop框架实现底层并行，采用MapReduce计算框架提高运行效率。设计了并行计算中的各节点的负载均衡策略，使得每个节点的计算量相对平衡，提高整个算法的运行速度；在已有的FP-Growth算法并行化的基础上改进，主要方法是在FP-tree在构建项头表数据结构的时候在原有的项头表结构上添加一个新的属性尾节点tail，用于记录每一个数据项当前的最后一个节点，然后可以直接通过tail属性找到表尾进行新节点的插入，以及采用先序遍历FP-tree的方法产生条件模式基来提高挖掘效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中一种基于Hadoop的改进型FP-Growth数据挖掘方法流程图。

图2为本发明中改进的FP-Growth算法构建的FP-tree。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于Hadoop的改进型FP-Growth数据挖掘方法，总体框架如图1所示，具体包括如下5个步骤：

Step1：扫描事务数据库，对数据库中的数据分片处理。将事务集拷贝到HDFS上，由HDFS将事务集划分为连续的Block并保存相应的副本，将各个Block分散存储到N个节点上。该步骤由Hadoop自动完成。

Step2：统计事务数据库中的每一项的支持度并找出所有的频繁项，得到频繁1-项集(FList)，并按照支持度大小排序。

Step3：均衡化分组。setup过程进行负载量估计，通过map过程采用负载均衡分组的方式读入事务项，分发到不同的reduce节点。

Step4:在每个reduce节点上，构造局部FP-tree。根据接收键值对的数据量产生局部最小支持度，对接收的键值对构造局部FP-tree。

Step5:对FP-tree进行FP-Growth挖掘得到局部频繁项集，再由局部频繁项集合并成全局频繁项集。把局部频繁项集保存在HDFS文件中。然后，读取HDFS文件中的局部频繁项集，相同局部频繁项集的局部支持度求和，得到全局支持度。判断全局支持度大于全局最小支持度的频繁项集，最终将全局频繁项集保存至文件。

其中步骤Step2包括：

Map阶段：计算出各自分片的候选一项集；

Reduce阶段：对所有map的结果进行求和，即统计事务数据库中每一项的支持度，并且与最小支持度进行比较，得到全局的频繁1-项集FList，并按照支持度大小进行排序。

其中步骤Step3包括：

进行负载量估计。整个并行化FP-Growth过程的负载等于各节点独自进行FP-Growth的负载之和，而每个节点的负载等于节点上所有项的条件模式基的负载之和。设数据项i对应的负载为Li，其在FList的位置为Pi，负载影响因子为Φ，Φ为项在FList的频度。根据以上假设，可得

Li＝log(Pi+Φ)

进行均衡化分组。把FList中的频繁项按照负载量进行降序排列，构成LList。

若Q小于FList长度，利用LList中的前Q项初始化Q组列表，每一项分配到一组，按照Q组中每组含有的频繁项的负载量初始化其所在分组的负载量。最后重复下面两个步骤直到FList中的所有频繁项被分配到相应的组:①将LList中未被分组的第一项分配给负载量最小的组；②将新加频繁项的负载量加到其所在组的负载量中。

若Q大于FList长度，利用LList中的前P项初始化P组列表，每一项分配到一组，根据P组中每组含有的频繁项的负载量初始化其所在分组的负载量。最后重复上述两个步骤。重复这种方法直至分配Q组。

P＝R+h

假设FList长度为L，L/Q的商为R，余数为h。其目的在于保证了短板效应均衡算法的有效性，也使得同一频繁项可分配至多个组，避免因数据量大引起一个组的数据建树造成的内存溢出。

该步骤主要完成的是在setup阶段，应用均衡化分组策略将FList中的所有频繁项分到Q个组，得到均衡化的频繁项表分组表Glist。在Map阶段，读入事务数据库的事务，根据频繁1-项集列表，对读入的事务进行删除非频繁项并按照频繁1-项集支持度进行降序排序。查询事务最右项所属的分组号，由于一项有多个分组，需产生0～(L-1)内随机数，以确定分组号。再将以组号为键，事务为值的键值对发送到reduce节点。

其中步骤Step4包括：

该步骤是在原有的频繁项头表基础上添加一个新的属性尾节点tail来加速FP-tree构建以及采用先序遍历FP-tree的方法产生条件模式基。算法思想用以下方法进行说明：

简单假设某一分片上的事务数据库如表1所示，数据集中有6个事务，最小支持度为2，找出候选1-项集并按照其支持度计数排好序。

表1某一分片上的事务数据表

在传统FP-Growth算法中，需要利用FP-tree构造算法生成一个包含完整频繁项信息的FP-tree。FP-tree构造如下：首先创建树的根节点，用“null”标记，然后第二次扫描事物数据库，对每个已经按照支持度递减排序好的项创建一个分枝。一般地，当为一个事物考虑增加分枝时沿共同前缀上的每个节点的计数增加1，为前缀之后的项创建节点和链接。其中，FP-tree的频繁项头表具有3个属性：item_Node(项名称)、count(支持度计数)和next_Node，next_Node是一个指针，指向FP-tree中具有相同next_Node的第一个节点。在此过程中，要循环调用insert_tree()算法插入新的树节点，其中，有一个步骤就会用到频繁项头表这一数据结构，把FP-tree中的每个与项头表具有相同名称的项进行连接。每次执行上述过程时都需要回到项头表的同名头节点，然后从头节点开始遍历，直至最后一个同名节点的域，再把新的节点插入最后一个节点后，进入项头表结构中。可以看出，项头表这一数据结构的模型会直接影响FP-Growth算法的性能，在数据量较大的情况下，每次都从头节点遍历到尾端然后插入，这种方法的执行效率明显不好。

本发明改进后的项头表数据结构，在原有的项头表结构上添加一个新的属性尾节点tail，用于记录每一个数据项当前的最后一个节点。算法具体步骤：创建树的根节点，用“null”标记。对于事物数据库中每个按支持度降序排好的频繁项表[p|P]，p是第一个元素，P是剩余元素的列表。调用insert_tree([p|P]，T)。该过程的执行情况如下。如果T有子节点N使得N.item-name＝p.item-name，则N的计数增加1；否则创建一个新节点N将其计数设置为1，链接到他的父节点T，并且在与它同名的频繁项头表的tail属性中找到当前最末节点，添加此新节点N，并设新节点N为新的tail；如果P非空，递归的调用函数insert_tree(P,N)。按照上述方法，构造的FP-tree如图2所示。

通过这种新的频繁项头表数据结构，执行insert_tree()算法并在项头表插入新节点时，就可以避免遍历当前节点的链表而导致算法效率不佳，直接通过tail属性找到表尾进行新节点的插入即可。在大数据关联关系分析中，由于这些数据集中相同的项大量存在，故加入新的属性尾节点tail记录数据项的最后一个节点，对FP-Growth算法分析的效率提升会起到突出的作用。

在产生条件模式基时，FP-Growth算法自下而上产生频繁1-项集的条件模式基，需要重复扫描公共路径。当数据量较大时，会消耗很大的空间和时间。为了避免重复搜索公共路径，采用先序遍历FP-tree的思想，只需对FP-tree所有结点遍历一次就能获得所有频繁1-项集的条件模式基，时间复杂度和空间复杂度均为O(n)，n为FP-tree的结点个数。

整个搜索过程不需要项头表，相同方向的指针只需用sharedPath存储公共路径，最终可以根据条件模式基得到所有的频繁模式，具体方法如下：

①初始化共享路径sharedPath为空集，访问结点a1，此时sharedPath存放的是a1的前缀路径，因为sharedPath现在为空，所以a1的一个条件模式基是null。

②将a1加入到sharedPath，然后访问b1，此时sharedPath存放的是b1的前缀路径，所以a1是b1的一个条件模式基，支持度是2，记为a1:2。

③将b1加入到sharedPath，更新sharedPath内容为a1b1。接着访问f1，此时sharedPath存放的是f1的前缀路径，所以a1，b1是f1的条件模式基，支持度是1，记为a1，b1:1。

④将f1加入到sharedPath，更新sharedPath内容为a1b1f1。由于f1是叶结点，所以回退到最近的一个分支结点b1，同时sharedPath内容变为a1b1。

⑤继续访问b1的另外一个孩子结点d1，得到d1的一个条件模式基a1，b1:1，同时更新sharedPath内容为a1b1d1，然后访问e1，得到e1的一个条件模式基，a1,b1,d1:1。

⑥e1又是一个叶结点，回退到最近的且未被遍历的分支结点a1，用同样的方法访问其他的子结点，得到条件模式基。整个搜索过程不需要项头表，相同方向的指针只需用sharedPath存储公共路径，最终可以根据条件模式基得到所有的频繁模式，如表2所示。

表2通过条件模式基挖掘FP-tree

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明保护的范围。

Claims

1.一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，包括以下步骤：

S2:统计事务数据库中的每一项的支持度并找出所有的频繁项，得到频繁1-项集，并按照支持度大小排序；

S3:均衡化分组：setup过程进行负载量估计，通过map过程采用负载均衡分组的方式读入事务项，分发到不同的reduce节点；

S4:在每个reduce节点上，构造局部FP-tree；

2.根据权利要求1所述的一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，所述S1的过程由Hadoop自动完成。

3.根据权利要求1所述的一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，所述S2中在Map阶段计算出各自分片的候选一项集；在Reduce阶段对所有map的结果进行求和，即统计事务数据库中每一项的支持度，并且与最小支持度进行比较，得到全局的频繁1-项集FList，并按照支持度大小进行排序。

4.根据权利要求1所述的一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，所述S3在setup阶段，应用均衡化分组策略将FList中的所有频繁项分到Q个组，得到均衡化的频繁项表分组表Glist；在Map阶段，读入事务数据库的事务，根据频繁1-项集列表，对读入的事务进行删除非频繁项并按照频繁1-项集支持度进行降序排序；查询事务最右项所属的分组号，由于一项有多个分组，需产生0～(L-1)内随机数，以确定分组号，再将以组号为键，事务为值的键值对发送到reduce节点。

5.根据权利要求1所述的一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，所述S4中FP-tree在构建项头表数据结构的时候在原有的项头表结构上添加一个新的属性尾节点tail，用于记录每一个数据项当前的最后一个节点，以加速FP-tree构建；并采用先序遍历FP-tree的方法产生条件模式基。

6.根据权利要求1所述的一种基于Hadoop的改进型FP-Growth数据挖掘方法，其特征在于，所述S5中把局部频繁项集保存在HDFS文件中，然后，读取HDFS文件中的局部频繁项集，相同局部频繁项集的局部支持度求和，得到全局支持度；判断全局支持度大于全局最小支持度的频繁项集，最终将全局频繁项集保存至文件。