CN111309786B

CN111309786B - 基于MapReduce的并行频繁项集挖掘方法

Info

Publication number: CN111309786B
Application number: CN202010107067.0A
Authority: CN
Inventors: 毛伊敏; 张弛
Original assignee: Shaoguan University
Current assignee: Shaoguan University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-09-15
Anticipated expiration: 2040-02-20
Also published as: CN111309786A

Abstract

本发明提出了一种基于MapReduce的并行频繁项集挖掘方法，包括以下步骤：S1：输入待挖掘的数据集，并对数据集进行划分分区和筛选，得到频繁1项集，对频繁1项集中各个项排列生成F‑list；S2：通过负载均衡策略LBSBDG对F‑list均匀分组；估算F‑list中每一项的负载量，并根据每一项的负载量进行均匀分组，生成分组列表G‑list；S3：启动频繁k项挖掘任务，并行挖掘待挖掘的数据集中所有的频繁项集。本发明采用DiffNodeset数据结构，能够有效避免算法中存在的N‑list基数过大的问题；通过双向比较策略T‑wcs加快2项集的生成效率，以降低算法的时间复杂度。

Description

基于MapReduce的并行频繁项集挖掘方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于MapReduce的并行频繁项集挖掘方法。

背景技术

数据挖掘又被称为知识发现KDD(knowledge discover in database)，其目的在于发现大量数据集中有用的信息。常见的数据挖掘任务有关联规则挖掘、分类、聚类等。其中关联规则挖掘是其重要分支之一，通过关联规则的研究能够准确的找出有用的规则，这些规则对于企业管理上的决策具有巨大帮助。因此在大数据环境下，设计高效的频繁项集挖掘方法成为当今互联网时代最重要的挑战之一，快速有效地挖掘频繁项集对于揭示大量数据之间有趣的关联或相关联系，深入理解消费者的消费习惯等方面具有十分重要的意义。

随着信息技术的高速发展，大数据环境下需要处理的数据高速增长传统的关联规则挖掘算法已经无法满足人们的需求，单纯的通过提升计算机硬件水平来满足人们对大数据分析与处理的需求显得尤为困难。因此，迫切需要有效的频繁项集挖掘算法来降低有用信息挖掘的成本，提高挖掘效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于MapReduce的并行频繁项集挖掘方法，加快计算速度，减少时间、空间复杂度。

为了实现本发明的上述目的，本发明提供了一种基于MapReduce的并行频繁项集挖掘方法，包括以下步骤：

S1：输入待挖掘的数据集，并对数据集进行划分分区和筛选，得到频繁1项集，对频繁1项集中各个项排列生成f-list；

S2：通过负载均衡策略LBSBDG对F-list均匀分组；估算F-list中每一项的负载量，并根据每一项的负载量进行均匀分组，生成分组列表G-list；

S3：启动频繁k项挖掘任务，并行挖掘待挖掘的数据集中所有的频繁项集。

上述方案中：步骤S1还包括以下步骤：

S1-1：使用Hadoop默认的文件块策略，将原始数据集划分成大小相同的文件块Block；

S1-2：将文件块Block作为Map阶段的输入数据，通过调用Map函数以键值对<key＝item，value＝1>的形式统计出相应接点上的文件块中各项出现的次数；

S1-3：通过调用Combine函数将本节点中key值相同的value相加；

S1-4：将每个节点新得到的键值对传送给Reduce函数，进行合并；

S1-5：筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F₁，根据频繁1项集中各个项的支持数降序排列生成全局F-list；

S1-6：将所得到的F-list保存到文件存储系统HDFS中。

上述方案中：步骤S2还包括以下步骤：

S2-1：通过估计函数E(item)计算F-list中每一项的负载量Load，并将每一项的负载量按照降序排序方法生成L-list；

函数E(item)具体的计算方式如下所示：

E(item)＝min{count(item),2^n-1}

其中count(item)表示频繁项item的支持度，n为item在F-list中的位置；min{}表示取两者之间的较小者；

S2-2：构建分组G-list，G-list中包括H组，并对L-list中的每一项进行分组；

S2-3：将L-list中的前H项作为初值依次添加到G-list每一组中，并将组号设置为0～(H-1)，同时设置每一组的负载总量的初值为添加项的负载量；

S2-4：继续对L-list中未分组的项进行分组操作，且每次均读取H项，在划分之前先判定当前每一组的负载总量是否相同，如果每一组负载总量均相同则按顺序添加，即将H项分别添加到0～(H-1)组中，如果每一组的负载量不相同则按逆序添加，即将H项分别添加到(H-1)～0组中，更新每一组的负载总量；

S2-5：重复步骤S2-3直到L-list中所有项均匀分配到相应组为止，如果最后一次取出的项个数少于H则将其依次添加到负载总量最小的组中；

S2-6：将所得到的分组G-list保存到文件存储系统HDFS中。

上述方案中：步骤S3还包括以下步骤：

S3-1：在Map函数计算过程中，将处理后的数据依据G-list映射到集群中的不同计算节点上；

S3-2：在Reduce函数计算过程中，在各个计算节点中构造子树，通过先序、后序遍历子树，得到频繁1项集的N-list；然后对频繁1项集结构进行合并得到频繁2项集的DiffNodeset；最后挖掘出所有的频繁项。

上述方案中：步骤S3-1还包括以下步骤：

S3-1-1：从分布式文件存储系统HDFS中读取F-list和G-list，同时将G-list中的各个数据项用序号替换；

S3-1-2：根据G-list构建映射表Htable，将G-list每组所包含的项作为key值，组号gid作为value值；

S3-1-3：依次读取预处理后数据集中的每一条记录，并逆序遍历该记录中的项item，根据步骤S3-1-2中的Htable，确定其组号gid，然后以gid为key值，将排在项item之前所有项设定为value值；

S3-1-4：重复执行步骤S3-1-3，直到所有记录完成映射，并将所得的输出结果作为Reduce阶段的输入传送给Reduce函数。

上述方案中：步骤S3-1-3还包括以下步骤：

S3-1-3-1：为了避免同一条记录多次映射到同一节点上，删除Htable中value＝gid的所有键值对；

S3-1-3-2：如果在映射时找不到对应的组号，则读取前一项执行相同操作，直到该记录执行完毕。

上述方案中：步骤S3-2还包括以下步骤：

S3-2-1：系统中每个计算节点根据Map阶段的输出，通过调用insert_tree()函数在各个节点上构造PPC-Tree树；

S3-2-2：对PPC-Tree树分别进行先序遍历、后序遍历，得到所有频繁1项集的N-list，并从内存中删除PPC-tree树，释放内存空间；

S3-2-3：采用双向比较策略T-wcs对频繁1项集的N-list进行合并产生2项集的DiffNodeset，计算每一个2项集的支持度，选取支持度大于最小支持度阈值min_sup的项组成频繁2项集；

S3-2-4：根据k项集的DiffNodeset生成方法以及k项集的支持度计算方法挖掘频繁k项集，所述k为大于2的正整数，最后输出所有频繁模式。

上述方案中：步骤S3-2-3中，根据如下计算公式计算每一个2项集的支持度；

其中Sup(i₁)表示项i₁的支持度，∑_E∈DN12E.count表示2项集的DiffNodeset结构中所有PP-code第三项之和。

上述方案中：步骤S3-2-4中，所述k项集的支持度计算公式如下：

其中P表示k项集i₁i₂...i_k-1i_k，P₁表示频繁k-1项集i₁i₂...i_k-2i_k-1，Sup(P₁)表示P₁的支持度，Σ_E∈DNpE.count表示k项集的DiffNodeset结构中所有PP-code第三项之和。

综上所述，由于采用了上述技术方案，本发明的有益效果是：采用DiffNodeset数据结构，能够有效避免算法中存在的N-list基数过大的问题；通过双向比较策略T-wcs加快2项集的生成效率，以降低算法的时间复杂度；并结合Hadoop云计算平台与MapReduce编程模型对改进算法的各步骤进行并行化处理，以克服传统频繁项集挖掘算法在大数据环境下的缺陷；在并行挖掘频繁项集时，考虑到集群负载对并行算法效率的影响，通过负载均衡策略LBSBDG，实现了对频繁1项集F-list的均匀分组，既可以降低每个节点上的内存开销，也可以达到系统负载均衡的目的。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的流程示意图；

图2是本发明应用于Susy，webdocs和kosarak三个数据集上的时间复杂度示意图。

图3是本发明应用于Susy，webdocs和kosarak三个数据集上的空间复杂度示意图。

图4是本发明PFP-Growth、MREclat和MRPrePost在webdocs上的执行时间对比示意图。

图5是本发明PFP-Growth、MREclat和MRPrePost在kosarak上的执行时间对比示意图。

图6是本发明PFP-Growth、MREclat和MRPrePost在Susy上的执行时间对比示意图。

图7是本发明PFP-Growth和MRPrePost在webdocs上的内存使用量对比示意图。

图8是本发明PFP-Growth和MRPrePost在kosarak上的内存使用量对比示意图。

图9是本发明PFP-Growth和MRPrePost在Susy上的内存使用量对比示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，一种基于MapReduce的并行频繁项集网络浏览行为挖掘方法，包括以下步骤：

S1：输入待挖掘的数据集，并对数据集进行划分分区，并得到f-list；

S1-2：将文件块Block作为Map阶段的输入数据，通过调用Map函数以键值对<key＝item,value＝1>的形式统计出相应节点上的文件块中各项出现的次数；

S1-3：在Combine阶段通过调用Combine函数将本节点中key值相同的value相加，实现键值对的初步合并，以降低集群各节点的数据通信量；

S2-1：首先根据估计函数E(item)计算F-list中每一项的负载量Load，并将每一项的负载量按照降序排序方法生成L-list；

函数E(item)具体的计算方式如下所示：

E(item)＝min{count(item),2^n-1}

其中count(item)表示频繁项item的支持度，n为item在F-list中的位置；min{}表示取两者之间的较小值；

S2-2：将L-list中的前H项作为初值依次添加到每一组中，并将组号设置为0～(H-1)，同时设置每一组的负载总量的初值为添加项的负载量；

S2-3：继续对L-list中未分组的项进行分组操作，且每次均读取H项，在划分之前先判定当前每一组的负载总量是否相同，如果每一组负载总量均相同则按顺序添加，即将H项分别添加到0～(H-1)组中，如果每一组负载总量不相同则按逆序添加即将H项分别添加到(H-1)～0，更新每一组的负载总量；

S2-4：重复步骤S2-3直到L-list中所有项均匀分配到相应组为止，如果最后一次取出的项个数少于H则将其依次添加到负载总量最小的组中；

S2-5：将所得到的分组G-list保存到文件存储系统HDFS中，从而使得集群中任意节点都能访问到G-list；

S3：启动新的MapReduce任务，并行挖掘频繁项集；

S3-1：在新的MapReduce任务中Map阶段，将处理后的数据依据G-list映射到集群中的不同计算节点上；

S3-1-3-1：为了避免同一条记录多次映射到同一节点，在完成映射后，删除Htable中value＝gid的所有键值对；

S3-1-3-2：如果在映射时找不到对应的组号，则读取前一项执行相同操作，直到该记录执行完毕；

S3-1-4：重复执行步骤S3-1-3，直到所有记录完成映射，并将所得的输出结果作为Reduce阶段的输入传送给Reduce函数；

S3-2：在新的MapReduce任务中Reduce阶段，挖掘所有的频繁项；

在Reduce阶段，采用DiffNodeset数据结构能在较大程度上降低内存的消耗。此外提出了一种双向比较策略T-wcs能够快速完成频繁1项集的N-list合并任务，极大的提高了算法的性能。

S3-2-1：系统中每个计算节点根据Map阶段的输出，通过调用insert_tree()函数在各个节点上构造子PPC-Tree树；

S3-2-2：对PPC-Tree树分别进行先序遍历、后序遍历，得到所有频繁1项集的N-list，并从内存中删除PPC-tree，释放内存空间；

S3-2-3：采用双向比较策略T-wcs对频繁1项集的N-list进行合并产生2项集的DiffNodeset，并根据2项集的支持度计算方法(如如下公式所示)求得每一个2项集的支持度，选取支持度大于最小支持度阈值min_sup的项组成频繁2项集；

S3-2-4：根据k项集的DiffNodeset生成方法以及k项集的支持度计算方法(如如下公式所示)挖掘频繁k项集，最后输出所有频繁模式；k为大于2的正整数；

其中，P表示k项集i₁i₂...i_k-1i_k，P₁表示频繁k-1项集i₁i₂...i_k-2i_k-1，Sup(P₁)表示P₁的支持度，∑_E∈DNpE.count表示k项集的DiffNodeset结构中所有PP-code第三项之和。

对于数据集DB，其频繁1项集的生成过程主要包括Split、Map、Combine以及Reduce四个阶段。在Split过程中使用Hadoop默认的文件块策略，将原始数据集划分成大小相同的文件块Block。文件块作Block作为Map阶段的输入数据，通过调用Map函数以键值对<key＝item,value＝1>的形式统计出相应接点上的文件块中各项出现的次数。为了降低集群各节点的数据通信量，会在Combine阶段通过调用Combine函数将本节点中key值相同的value相加，实现键值对的初步合并。最后再将每个节点新得到的键值对传送给Reduce函数完成最终的合并任务，并筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F₁，并根据频繁1项集中各个项的支持数降序排列生成全局F-list。

针对大数据环境下F-list规模太大，无法在有限的内存空间中构造PPC-Tree树的问题。提出了一种基于动态分组的负载均衡策略LBSBDG，不仅可以降低每个节点上PPC-Tree树的规模，而且可以达到集群各节点负载均衡的目的。

采用LBSBDG分组策略对频繁1项集进行均匀分组时，其关键在于计算F-list中每一项的负载量，即频繁1项集中每个项所对应N-list结构的长度。然而N-list中的元素与PPC-Tree树中的节点一一对应，在未构造PPC-Tree树之前无法准确计算出每项的负载量。为了解决该问题，在LBSBDG策略中通过估计函数E(item)对频繁1项集的长度规模进行预测，其具体的计算方式如下所示：

E(item)＝min{count(item),2^n-1}

其中count(item)表示频繁项item的支持度，n为item在F-list中的位置。

证明：对于频繁项item来说，其N-list的长度表示该项在PPC-Tree树中的节点个数，显然对于每一项来说节点数的最大值为该项的支持度。而且在构造PPC-Tree树时，树中每一项的节点数与其自身在F-list序列中的位置有关。对于频繁项item来说，假设其在F-list的位置为n，则最坏情况是排在item之前的n-1项中任意项组合在PPC-Tree中都有对应的路径，且该路径也包含项item，在此情况下这样的路径最多有2^n-1条。因此F-list中的每一项item的N-list长度不超过2^n-1与该项支持度之间的较小值。

给定一个长度为N的F-list，采用LBSBDG分组策略将其划分成G组的分组过程如下所示：

步骤1.首先根据估计函数E(item)计算F-list中每一项的负载量Load，并根据负载量的降序排序生成L-list；

步骤2.将L-list中的前H项作为初值依次添加到每一组中并将组号设置为0～(H-1)，同时设置每一组的负载总量的初值为添加项的负载量；

步骤3.继续对L-list中未分组的项进行分组操作，每次读取H项，在划分之前项判定当前每一组的负载总量是否相同，如果每一组负载总量均相同则按顺序添加，即将H项分别添加到0～(H-1)组中，如果每一组负载总量不相同则按逆序添加，即将H项分别添加到(H-1)～0组中，更新每一组的负载总量；

步骤4.重复步骤3直到L-list中所有项均匀分配到相应组为止，如果最后一次取出的项个数少于H则将其依次添加到负载量最小的组中；

步骤5.将所得到的分组G-list保存到HDFS中，从而使得集群中任意节点都能访问到G-list。

采用LBSBDG分组策略将F-list进行均匀分组的目的是将原始事务数据集中的事务进行重新划分，并把划分后的事务集映射到集群各个节点上。通过在各个节点上构建子树，来完成频繁项集的挖掘任务。首先根据F-list序列将原始事务集的每一条事务中非频繁项去除，并按照每一项支持度的降序进行排列组成路径path，然后逆序遍历每一条路径path，如果path[k]所对应的组号为gid，则将gid与排在path[k]之前的所有项组成<key＝gid,value＝path>键值对发送给Reduce函数。在此过程中为了降低内存消耗，需要对原始事务集进行预处理，用频繁项item在F-list中的位置来替换原始数据集中的item。经过数据预处理后，各个计算节点启动新的MapReduce任务进行频繁项集挖掘。在Map阶段主要是依据G-list将原始事务集映射到不同的计算节点上；在Reduce阶段根据上一阶段的输出建立PPC-Tree树，并根据PPC-Tree树构建频繁1项集对应的N-list，采用T-wcs策略合并频繁1项集的N-list从而得到2项集的DiffNodeset，此外通过对频繁k项集做差运算得到频繁k+1项集。

在并行挖掘频繁项集的Map阶段，其主要任务是将处理后的数据依据G-list映射到集群中的不同计算节点上，具体步骤如下所示：

步骤1.从分布式文件存储系统HDFS中读取F-list和G-list，同时将G-list中的各个数据项用序号替换；

步骤2.根据G-list构建映射表Htable，将G-list每组所包含的项作为key值，组号gid作为value值；

步骤3.依次读取预处理后数据集中的每一条记录，并逆序遍历该记录中的项item，根据步骤2中的Htable，确定其组号gid，然后以gid为key值，排在项item之前所有项为value值。与此同时为了避免同一条记录多次映射到同一节点，删除Htable中value＝gid的所有键值对。如果在映射时找不到对应的组号，则读取前一项执行相同操作，直到该记录执行完毕；

步骤4.重复执行步骤3直到所有记录完成映射，并将所得的输出结果作为Reduce阶段的输入传送给Reduce函数。

性质1(序列一致性原则).对于频繁项N，其N-list表示为{(x₁,y₁,z₁),(x₂,y₂,z₂),...,(x_n,y_n,z_n)}，则有x₁＜x₂＜...＜x_n，y₁＜y₂＜...＜y_n。

证明：根据N-list的定义我们可知x₁＜x₂＜...＜x_n。假设(x₁,y₁,z₁)对应节点N₁，(x₂,y₂,z₂)对应节点N₂，由于N₁.item-name＝N₂.item-name,则N₁与N₂不存在祖先孩子关系，而x₁＜x₂说明N₂相较于N₁来说一定在右子树上，跟据后序遍历的规则，一定存在N₁的后序遍历序列小于N₂的后序遍历序列，即y₁＜y₂，以此类推y₁＜y₂＜...＜y_n成立。

在并行挖掘频繁项集的过程中最关键同时又最耗时的一步是将频繁1项集的N-list结构合并产生2项集的DiffNodeset，为此提出了一种双向搜索策略T-wcs，该策略通过利用序列一致性原理和祖先孩子关系能够大大减少合并过程中所需要比对的次数。

给定两个频繁1项集i₁、i₂，它们的N-list分别表示为N-list_i1和N-list_i2，且长度为m和n，其具体形式如下所示：

N-list_i1＝{(x₁₁,y₁₁,z₁₁),(x₁₂,y₁₂,z₁₂),...,(x_1m,y_1m,z_1m)}

N-list_i2＝{(x₂₁,y₂₁,z₂₁),(x₂₂,y₂₂,z₂₂),...,(x_2n,y_2n,z_2n)}

在比较两者中的任意项(x_1a,y_1a,z_1a)和(x_2b,y_2b,z_2b)时，根据序列一致性原则只存在三种情况：

(1)y_1a＞y_2b,(1≤a≤m,1≤b≤n).根据祖先孩子关系可知(x_2b,y_2b,z_2b)在PPC-Tree树中所对应的节点N_i2[b]不是(x_1a,y_1a,z_1a)所对应节点N_i1[a]的祖先节点。此外根据序列一致性原理可知频繁1项集的N-list是按照post-order的升序序列排序，所以N_i2[b]也不是N-list_i1中排在N_i1[a]之后元素所对应的祖先节点，选择N_i2[b]下一个节点进行比较。

(2)x_1a＞x_2b,y_1a＜y_2b,(1≤a≤m,1≤b≤n).根据祖先孩子关系可知(x_2b,y_2b,z_2b)在PPC-Tree树中的所对应的节点N_i2[b]是(x_1a,y_1a,z_1a)所对于节点N_i1[a]的祖先节点。所以节点N_i1[a]不包含在2项集i₁i₂的DiffNodeset中，选择N_i1[a]下一个节点进行比较。

(3)x_1a＜x_2b,y_1a＜y_2b,(1≤a≤m,1≤b≤n).根据祖先孩子关系可知(x_2b,y_2b,z_2b)所对应的节点N_i2[b]不是(x_1a,y_1a,z_1a)所对应节点N_i1[a]的祖先节点，此外N_i1[a]也不可能是N_i2[j]之后任意元素的孩子节点，满足2项集DiffNodeset定义。故将N_i1[i]插入到2项集i₁i₂的DiffNodeset中，并选择N_i1[i]的下一个节点进行比较。

Reduce阶段的主要任务如下所示：

步骤1.系统中每个计算节点根据Map阶段的输出，通过调用insert_tree()函数在各个节点上构造子PPC-Tree树；

步骤2.对PPC-Tree树分别进行先序遍历、后序遍历，得到所有频繁1项集的N-list，并从内存中删除PPC-tree，释放内存空间；

步骤3.采用双向搜索策略T-wcs对频繁1项集的N-list进行合并产生2项集的DiffNodeset，并根据2项集的支持度计算方法如下公式所示，求得每一个2项集的支持度，选取支持度大于最小支持度阈值min_sup的项组成频繁2项集；

步骤4.根据k(k>2)项集的DiffNodeset生成方法以及k项集的支持度计算方法如下公式所示，挖掘频繁k项集，最后输出所有频繁模式。

其中P表示k项集i₁i₂...i_k-1i_k，P₁表示频繁k-1项集i₁i₂...i_k-2i_k-1，Sup(P₁)表示P₁的支持度，∑_E∈DNpE.count表示k项集的DiffNodeset结构中所有PP-code第三项之和。

基于MapReduce的并行频繁项集挖掘算法的流程图如图1所示。首先通过一次MapReduce任务计算得到频繁1项集的F-list；其次利用基于动态分组的负载均衡策略LBSBDG对频繁1项集进行均匀分组；最后在挖掘频繁k(k≥2)时采用DiffNodeset数据结构来降低算法的内存消耗，同时使用双向比较策略T-wcs，来加快2项集的DiffNodeset生成任务。对一种基于MapReduce的并行频繁项集挖掘方法的有效性做出以下验证：

为了验证一种基于MapReduce的并行频繁项集挖掘方法(以下简称本挖掘方法)的有效性和相比于其他方法的性能优越性，我们将本挖掘方法应用于Susy，webdocs和kosarak三个数据集上，其具体信息如表1所示。将本挖掘方法与PFP-Growth、MREclat和MRPrePost等其他方法在并行挖掘频繁项集的时间复杂度和空间复杂度等方面进行了比较。

表1实验数据集

对本挖掘方法的性能分析：

为本挖掘方法在大数据环境下挖掘频繁项集的可行性，选取最小支持度阈值为1000，10000，20000以及100000，分别将该方法应用于上述三个数据集中并独立运行10次，取10次结果的均值，通过对实验时间复杂度和空间复杂度的比较，从而实现对本挖掘方法性能的综合评估。图2和图3为本挖掘方法在3个数据集的执行结果。

从图2可以看出，当支持度从1000变化到10000时，3种数据集的时间复杂度和空间复杂度都有较大的下降，只是因为随着支持度的增大，数据集的频繁1项集F-list规模急剧下降，采用LBSBDG策略分配到各个计算节点上的项也有所下降，且在各个节点上构造的子PPC-Tree树的规模也有较大减小，因此极大的降低了产生N-list结构所需的时间。此外，使用T-wcs搜索策略生成2项集的DiffNodeset时的时间复杂度是线性的，且在挖掘频繁项集时只需要将以当前项为前缀的频繁项集保存在内存中，极大的降低了内存占用量。然而随着支持度持续增加，时间复杂度和空间复杂度减小的变化越来越缓慢，这是由于MapReduce计算模型工作调度以及在中间结果的I/O上占用了大部分时间从而影响了算法的性能。

本挖掘方法与其它方法并行挖掘频繁项集的时间复杂度比较：

为验证本挖掘方法的挖掘效果，将本挖掘方法与PFP-Growth，MREclat和MRPrePost方法进行了对比。即比较了在相同支持度不同数据集下各方法的性能，也比较了相同数据集在不同支持度下各方法的性能。在执行上述并行方法时需要根据每个数据集的F-list规模设置分组数目，表2给出三种数据集在不同支持度下F-list数目的具体情况。根据F-list大小对Susy数据集设置分组数为50组，kosarak数据集设置分组数为100组，webdocs数据集设置分组数为1000组，对比结果如图4-图6所示。

表2不同支持度下各数据集的F-list规模

从图4-图6中可以看出(其中，本挖掘方法在图3、图4、图5、图6、图7、图8和图9中均通过PIFIMD表示)，相较于MREclat和PFP-Growth方法，本挖掘方法在各个数据集上的运行时间均有降低，其中在kosarak降低的最多，本挖掘方法比MREclat和PFP-Growth算法的执行时间分别降低了79.5％和62.1％；在webdocs数据集上降低的最少，但也分别降低了37.6％和17.3％。这是由于在并行挖掘频繁项集过程中本挖掘方法将对树的遍历转化为对数据结构DiffNodeset的合并任务，极大的降低了算法的运行时间。相反，在挖掘频繁项集时，MREclat方法需要将水平数据集转为垂直数据集，并采用类Apriori方法进行频繁项集的挖掘，同样对于PFP-Growth方法需要递归构建条件模式树，这两者都需要消耗大量的时间。此外，可以发现本挖掘方法比最优的MRPrePost方法的挖掘效果都好，尤其在Susy数据集上，本挖掘方法比MRPrePost方法降低了21.8％。主要因为本挖掘方法采用双向搜索策略T-wcs使得生成2项集的DiffNodeset时间复杂度是线性的，此外本挖掘方法在并行挖掘频繁项集时采用LBSBDG策略均匀的将频繁1项集分配到各个计算节点中，在确保集群负载均衡的同时也减小了集群中各节点子PPC-Tree树的规模，由此降低了先序后序遍历子PPC-Tree所需的时间，进一步降低了本挖掘方法的运行时间。

本挖掘方法与其它方法并行挖掘频繁项集的空间复杂度比较：

为进一步评估本挖掘方法的挖掘效果，进一步统计了在支持度为10000，20000，100000下本挖掘方法、PFP-Growth以及MRPrePost方法在集群中各个节点消耗的平均内存大小。

如图7、图8和图9所示，可以看出，在三个数据集上MRPrePost方法和本挖掘方法所消耗的内存大小明显小于PFP-Growth方法，这是由于MRPrePost和本挖掘方法在挖掘频繁项集时只需要根据PPC-Tree树生成频繁1项集的N-list结构，之后将PPC-Tree树从内存中删除，节省了大量的内存空间，而PFP-Growth方法在挖掘频繁项集时需要递归构造条件模式子树，所有的条件模式子树都需要保留在内存中。同时发现相较于MRPrePost方法，本挖掘方法在对三个数据集挖掘频繁项集时所使用的内存空间更少，尤其在Susy数据集上，本挖掘方法的内存使用量比MRPrePost方法的内存使用量减少了22.7％。一方面是因为本挖掘方法使用双向搜索策略T-wcs，每组在挖掘时只需要将以当前项为前缀的频繁项集保存在内存中，极大的降低了内存占用量，而且采用动态分组策略LBSBDG，均匀的将频繁1项集分配到各个计算节点中减小了各节点中子PPC-Tree树的规模；另一方面由于本挖掘方法采用DiffNodeset结构避免了在数据集上N-list基数较大的问题，如表3所示，对Susy，webdocs，kosarak三个数据集的频繁项集的DiffNodeset结构和N-list结构基数进行了统计，从表中可以看出在各个数据集上频繁项集的DiffNodeset结构比N-list结构的规模小，尤其对于密集型数据集来说DiffNodeset结构的优势更明显。

表3 DiffNodeset结构与N-list结构的比较

综上所述，我们所提出的一种基于MapReduce的并行频繁项集挖掘方法，在挖掘过程中的时间复杂度和空间复杂度都有显著的下降。

实施例一

假设一个大学生的网络浏览行为数据对本发明进行说明，该大学生一周中浏览某购物网站后共完成了Z次交易(Z为大于0的整数)，其中共有0.6×Z次的交易中购买了文具或图书，那么文具或图书在u1中的概率就是0.6，其中共有0.2×Z次的交易中购买了衣物，那么衣物在u1中的概率就是0.2，其中共有0.1×Z次的交易中购买了数码产品，那么数码产品在u1中的概率就是0.1，而每次交易均购买了零食，则零食在u1中的概率就是1.0。本例只是一个简单的购物数据的例子对本发明进行说明，真实的购买数据是非常复杂且庞大的，之所以会使用概率来表示购物信息是为了更好的存储这些数据，往往需要将数据进行压缩，由此产生了大量的不确定数据。

现在通过本发明对该大学生的网络浏览行为数据进行频繁项集挖掘，进行如下步骤：

S1：将该大学生的网络浏览行为数据输入待挖掘的不确定数据集T1，该不确定数据集T1包含Z个事务，一个事务表示一次交易的购买数据，并对不确定数据集进行划分分区，并得到f-list；

S1-1：使用Hadoop默认的文件块策略，将原始不确定数据集划分成大小相同的文件块Block；

S1-2：将文件块Block作为Map阶段的输入数据，通过调用Map函数以键值对<key＝item,value＝1>的形式统计出相应节点上的文件块中各项出现的次数；例如其键值对的形式为{<CLOTH，1>，<FOOD，1>，<BOOK，1>，<FOOD，1>，<CLOTH，1>，<DIGITAL，1>，<FOOD，1>，<BOOK，1>……}；

S1-3：在Combine阶段，通过调用Combine函数将本节点中key值相同的value数据相加，实现键值对的初步合并，以降低集群各节点的数据通信量；

S1-4：将每个节点新得到的键值对传送给Reduce函数，进行合并；合并结果为{<CLOTH，0.2×Z>，<FOOD，1.0×Z>，<BOOK，0.6×Z>，<DIGITAL，0.1×Z>}

S1-5：筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F₁，根据频繁1项集中各个项的支持数降序排列生成全局F-list,所生成的全局F-list为{<FOOD>，<BOOK>，<CLOTH>}；

根据概率频繁项集的定义：给定一个不确定数据集包含N条事务，用户给定一个最小支持度阈值min_sup，假设X是一个非空的概率频繁项集，那么X一定满足：P(sup(X)≥N×min_sup)；

由于我们之前设定了本不确定数据集包含Z条事务，此时我们再设定最小支持度阈值min_sup为0.15，以{FOOD}为例，由于项集{FOOD}的支持度为满足sup({FOOD})≥Z×0.15的条件，那么项集{FOOD}是概率频繁项集；因此，所生成的全局F-list为{<FOOD>，<BOOK>，<CLOTH>}；

函数E(item)具体的计算方式如下所示：

E(item)＝min{count(item),2^n-1}

其中count(item)表示频繁项item的支持度，n为item在F-list中的位置；min{}表示取两者之间的较小值；则L-list为{<FOOD，1>，<BOOK，2>，<CLOTH，3>}

S2-2：将L-list中的前H项作为初值依次添加到每一组中，并将组号设置为0～(H-1)，同时设置每一组的负载总量的初值为添加项的负载量；例如，假设H为2，则“0”组只选取前两项，且“0”组的负载量为3；

S2-4：重复步骤S2-3直到L-list中所有项均匀分配到相应组为止，如果最后一次取出的项个数少于H则将其依次添加到负载总量最小的组中；以此生成分组G-list，为{{<FOOD，1>，<BOOK，2>}，{<CLOTH，3>}}；

S3：启动新的MapReduce任务，并行挖掘频繁项集；

S3-1-2：根据G-list构建映射表Htable，将G-list每组所包含的项作为key值，组号gid作为value值；则映射表Htable为{<{<FOOD，1>，<BOOK，2>}，0>，<{<CLOTH，3>}，1>}；

S3-1-3：依次读取预处理后不确定数据集中的每一条记录，并逆序遍历该记录中的项item，根据步骤S3-1-2中的Htable，确定其组号gid，然后以gid为key值，将排在项item之前所有项设定为value值；

S3-2：在新的MapReduce任务中Reduce阶段，挖掘所有的频繁项；

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于MapReduce的并行频繁项集挖掘方法，其特征在于：包括以下步骤：

S1-3：通过调用Combine函数将本节点中key值相同的value相加；

S1-5：筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F₁，根据频繁1项集中各项的支持数降序排列生成全局F-list；

S1-6：将所得到的F-list保存到文件存储系统HDFS中；

函数E(item)具体的计算方式如下所示：

E(item)＝min{count(item),2^n-1}

S2-2：构建分组列表G-list，对L-list中的每一项进行分组生成G-list，其中G-list包含H组；

S2-4：继续对L-list中未分组的项进行分组操作，且每次均读取H项，在划分之前先判定当前每一组的负载总量是否相同，如果每一组负载总量均相同则按顺序添加，即将H项分别添加到0～(H-1)组，如果每一组负载总量不相同则按逆序添加，即将H项分别添加到(H-1)～0组中，更新每一组的负载总量；

S2-6：将所得到的分组G-list保存到文件存储系统HDFS中；

S3：启动频繁k项挖掘任务，并行挖掘待挖掘数据集中所有的频繁项集；

2.根据权利要求1所述的挖掘方法，其特征在于：步骤S3-1-3还包括以下步骤：

S3-1-3-1：完成映射后，删除Htable中value＝gid的所有键值对；

3.根据权利要求1所述的挖掘方法，其特征在于：步骤S3-2还包括以下步骤：

4.根据权利要求3所述的挖掘方法，其特征在于：步骤S3-2-3中，根据如下计算公式计算每一个2项集的支持度；

5.根据权利要求3所述的挖掘方法，其特征在于：步骤S3-2-4中，所述k项集的支持度计算公式如下：