CN112925821A

CN112925821A - 基于MapReduce的并行频繁项集增量数据挖掘方法

Info

Publication number: CN112925821A
Application number: CN202110177059.8A
Authority: CN
Inventors: 毛伊敏; 邓千虎
Original assignee: Jiangxi University of Science and Technology
Current assignee: Benxi Steel Group Information Automation Co ltd; Dragon Totem Technology Hefei Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-08
Anticipated expiration: 2041-02-07
Also published as: CN112925821B

Abstract

本发明提出了一种基于MapReduce的并行频繁项集增量数据挖掘方法(MR‑PARIMIEG)。S1，设计基于信息熵的SIM‑IE策略来合并数据集中的相似数据项，根据合并后的数据集进行Can树构造，降低了最终生成的Can树结构的空间占用；S2，提出基于遗传算法的DST‑GA策略用于获取大数据集中的相对最优动态支持度阈值，根据所述相对最优动态支持度阈值进行频繁模式挖掘；S3，使用并行LZO数据压缩算法对Map端输出的数据进行压缩来减少传输的数据规模，从而减少了内存与磁盘之间的IO操作频次，最终加速Map与Reduce阶段的数据传输过程。本发明实用简便，与已有的基于MapReduce并行频繁项集增量挖掘方法相比较，本发明提出的方法在时间复杂度和空间复杂度等方面都有明显提高。

Description

基于MapReduce的并行频繁项集增量数据挖掘方法

技术领域

本发明涉及大数据挖掘领域，特别是涉及一种基于MapReduce的并行频繁项集增量数据挖掘方法。

背景技术

关联规则(Association rule)是数据挖掘的一个主要研究领域，其目的在于发现数据集中有价值的潜在频繁模式。目前，关联规则挖掘已被广泛应用于购物推荐、网站点击分析、电子商务、金融和医疗诊断等领域，产生了极大的经济与社会效益。静态关联规则挖掘是在固定的数据集以及支持度阈值下，对数据集中的频繁模式进行挖掘，如Apriori、FP-Growth、Eclat等。但这些静态关联规则算法并未考虑到数据库中的事务发生变化或是关键的支持度阈值发生变化的增量挖掘工作，这将导致算法需对整个数据集进行重复处理，造成大量的时空间消耗。针对此问题，Leung等人提出了一种基于CATS树改进的Can树(Canonical order tree)来简化增量挖掘工作，极大地提高了算法的运行效率。但在大数据环境下，随着数据量的指数级增长，运算时间过长和内存占用过高已经成为传统关联规则算法处理海量数据的重要瓶颈。因此，提高算法的并行化效率使之能高效地对海量数据进行处理是目前迫切需要解决的问题。

MapReduce是Google公司为解决海量数据处理提出的一种分布式并行运算框架，具有使用简单、成本低廉、系统扩展性好以及负载均衡等优点，目前已被广泛应用于大数据分析与处理等领域。基于此，Song等人提出了一种大数据环境下的并行频繁项集挖掘算法IncMiningPFP，结合MapReduce计算框架实现了Can树向并行化方向的迁移，极大地提高了基于Can树的增量挖掘算法的并行化运算能力。但该算法在使用Can树结构储存所有数据信息以加快后续增量挖掘的同时，也会导致最终产生的树结构极为庞大。针对此问题，胡军等人使用一种基于数据量排序的Can树构造方法，将各事务中的数据项按出现频次进行排序，然后根据排序后的事务进行树结构构建，使得各个事务中相同的数据项尽量共用一个树节点，从而降低最终生成的树结构的空间占用。但此方法在适用性与可行性方面具有较大的局限性，因此对Can树结构空间占用过大的问题仍然有待进一步改进。

此外，支持度阈值的设定对于关联规则算法而言也是极为关键的问题。大数据的数据规模更大，但数据的价值密度却随之下降，当设定的支持度阈值较小时，将会产生大量冗余的无效频繁项集，而使用相对较大的支持度阈值时，则可能在减少冗余项集的同时丢失一些高质量的频繁项信息，使得最终生成的频繁项的整体质量偏低。针对该问题，Ragaventhiran等人在应用MapReduce框架并行化挖掘Can树频繁模式的同时，设计了基于多支持度的频繁模式挖掘方法，在不同的支持度阈值下进行频繁模式挖掘，根据挖掘结果来获取最优的支持度阈值。但该算法仅支持特定的阈值取值范围，并未对大数据环境下的阈值取值进行优化，难以根据相对最优的动态支持度阈值获取最终结果。

对于基于Can树的并行挖掘算法，除了Can树结构空间占用过大以及支持度阈值难以动态设定的问题外，在MapReduce的并行化运算中，Map与Reduce进程之间的数据传输过程也会对系统的整体性能产生极为重要的影响。Map任务在内存中产生的数据需要先存储到磁盘，然后再由Reduce进程从中读取数据，但磁盘与内存之间IO速度的极大差异将会导致这一数据传输过程消耗大量时间等待内存区数据写入磁盘，最终影响算法的运行速度。因此，申艳玲等人设计了针对Map端输出数据的优化策略，将多个Map任务同时产生的输出数据进行合并，在内存区数据量达到阈值后将数据写入磁盘，使得Reduce任务能够获取更加紧凑的Map端输出数据，从而提高数据传输效率，加快数据传输过程；Cao等人提出了一种优化Map中间输出数据的通信方法，对MapReduce任务中的数据通信活跃度进行量化，使用Bayes算法进行分类预测，根据分类结果将Map端输出的通信活跃的数据映射到同一分区中，通过优化传输流程来加快Map与Reduce之间的数据传输。但这些算法都存在一定的局限性，当Map端单个节点输出的数据规模已经达到内存区阈值或是输出数据的活跃度相差不明显时，这些改进算法对整体的性能提升效果并不明显。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于MapReduce的并行频繁项集增量数据挖掘方法。

为了实现本发明的上述目的，本发明提供了一种基于MapReduce的并行频繁项集增量数据挖掘方法，包括以下步骤：

S0，获取购物历史存储数据；

S1，设计基于信息熵的SIM-IE策略来合并数据集中的相似数据项，根据合并后的数据集进行Can树构造，降低了最终生成的Can树结构的空间占用；

S2，提出基于遗传算法的DST-GA策略用于获取大数据集中的相对最优动态支持度阈值，根据所述相对最优动态支持度阈值进行频繁模式挖掘；

S3，使用并行LZO数据压缩算法对Map端输出的数据进行压缩来减少传输的数据规模，从而减少了内存与磁盘之间的IO操作频次，最终加速Map与Reduce阶段的数据传输过程。

S4，将其购物选择推荐给用户。

进一步地，所述S1包括：

S1-1，根据差值大小对数据项进行分类；

S1-2，获得S1-1划分好的数据后，根据相似性评估公式SAF计算对应的数据集之间的相似度；

S1-3，根据S1-2获取所有划分数据集之间的相似性结果后，再根据提前设定的相似度阈值δ判断是否需要进行相似项合并。

进一步地，所述S1-1包括：

S1-1-1，对需要进行相似性评估的数据集中的数据项进行合并，然后按序排列，求出各相邻数据的差值总和sum；令数据项数为n，那么求得的平均差为：avg＝sum/(n-1)；

S1-1-2，求得平均差avg后，即可将排序后的数据集根据avg进行划分；

所述将排序后的数据集根据avg进行划分包括：设划分数为d，如果相邻的数据值之差小于平均差值，那么就将前一个划分获得的数据与当前的数据之间的所有数据项归为一个分区，重复执行比较与分区操作直至所有数据都被划分到对应的数据分区。

进一步地，所述S1-2的相似性评估公式SAF包括：

条件熵：H(S|C)＝-∑_c∈Cp(c)∑_s∈Sp(s|c)log(p(s|c)) (1)

信息熵：

相似性：

A、B为两个相似性待判断的数据集，S为决策模式属性集，C为不确定匹配模式关系集，C与S交集为空；H(·|·)为条件熵函数，H(·)为信息熵函数，sim(·,·)为相似性函数；c、s分别为集合C、S中的项，p(c)为c发生的概率，p(s|c)为c发生的条件下s发生的概率，log(·)为对数函数，对数函数底为0.5；n为s中的事务数量，p(x_i)为s中事务x_i发生的概率。

进一步地，所述S1-3包括：

将经过计算求得的相似度数值sim(A,B)与相似度阈值δ进行比较，若sim(A,B)≥δ，则进行相似项合并，同时对相似项合并后的全局概率值进行计算并更新；

S1-3-1，获取所有的相似项并循环合并这些项集，将所有的数据元组放入同一个数据表；

S1-3-2，从合并后的项集中获取具有相同数据的元组，保留一个元组并删除其他重复项；

S1-3-3，通过概率合并公式PM-DCR对相似项的概率进行合并计算，得到删除重复项之后的项集的全局概率值；

所述概率合并公式PM-DCR包括：

p₁、p₂分别为项集S₁、S₂的全局概率，p₁*p₂为S₁、S₂相交的概率，p₁*(1-p₂)、(1-p₁)*p₂均为S₁、S₂不相交的概率。

进一步地，所述S2包括：

S2-1，构造支持度函数SF；

S2-2，利用遗传算法的收敛性与不失一般性，对其进行迭代优化运算用于求得最优解，即相对最优动态支持度阈值；

所述构造支持度函数SF包括：

其中，m为数据集D的总项目数，P(x_i)表示项目x_i在D中出现的概率，Weight(x_i)表示x_i的权重，r(x₁,x₂,...,x_m)为修正函数，|·|表示集合中元素数量，x_i为第i个数据项。

进一步地，所述S2-2的相对最优动态支持度阈值包括：

S2-2-1，根据极值定理可求得连续的支持度函数在其定义域内的极小值ξ₁与极大值ξ₂，所要求的动态支持度阈值必然介于ξ₁、ξ₂之间；

S2-2-2，多次循环迭代运算后收敛得到特定值即基于遗传算法的收敛性，在数学问题的优化求解过程中，当循环迭代的运算次数足够多时最终结果将会收敛于特定值；

S2-2-3，将遗传算法应用于支持度函数的极值问题求解过程中，提出求解动态阈值的minSF公式将这一迭代优化过程具象化，经过多次迭代后最终ξ₁、ξ₂的差值趋近为0，最终结果收敛于特定值，即相对最优动态支持度阈值；

所述动态阈值的minSF公式包括：

其中，数据变量集x＝(x₁,x₂,…,x_m)^T，x_m表示第m个数据项；x中任意数据项x_i的取值范围为[a_i,b_i]，f_i(x)为支持度函数，m为数据集D的总项目数，

为求解非线性极大极小值问题的通用形式。

进一步地，所述S3包括：

S3-1，Map阶段：扫描合并相似项后的原始数据集或新增数据集的所有数据项，并根据具体的集群节点配置情况对数据进行分块，最后将划分好的数据块映射到每个计算节点进行Map运算；

S3-2，数据压缩阶段：将Map阶段的输出数据使用并行LZO数据压缩算法进行压缩；

S3-3，Reduce阶段：在初始挖掘时，根据Map阶段的输出数据并行构造Can树，并使用Hash表记录所有数据项在树结构中的相对位置，最后根据动态支持度阈值从Can树中挖掘频繁项集；在增量挖掘时，根据Map阶段的输出数据对Can树以及存储数据项位置信息的Hash表进行更新，根据更新后的Can树和动态支持度阈值并行挖掘频繁项集。

进一步地，所述S3-2的数据压缩包括：

S3-2-1，扫描MapReduce集群，用于获取处于空闲状态的计算节点，基于负载均衡策略将Map端输出的数据分配给所有可用节点进行处理；

S3-2-2，在内存中创建三种线程：主控线程、压缩线程以及重构线程，使用信号量保护的共享内存进行三种线程间的信号交流；

S3-2-3，将数据分块并输入内存，通过主控线程控制数据流向并初始化压缩线程，将所有的压缩线程相对均衡的分布到可用的处理器核心中，然后使用压缩线程各自独立地对数据块进行并行压缩；

S3-2-4，使用重构线程获取各个压缩线程中生成的压缩数据块，并按输入顺序输出所有的压缩数据；最后在压缩数据输出到磁盘后进行解压供Reduce任务调用。

综上所述，由于采用了上述技术方案，本发明提出的算法无论是在时间复杂度还是空间复杂度上都有显著的提高。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明并行挖掘频繁项集的流程图；

图2是本发明各种并行增量挖掘算法运行时间对比图；

图3是本发明各种并行增量挖掘算法内存占用对比图；

图4是本发明各种并行增量挖掘算法推荐非空率对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

1.相似项合并

对于构成Can树的数据项而言，对其进行排序后数据项将按值大小进行分布，那么相邻的数据项之间的差值可以直观地反映出数据的邻近性，即相邻项的差值越小，那么这两个数据项就越临近，因此可根据差值大小对数据项进行分类。具体的划分过程如下：

(1)对需要进行相似性评估的数据集中的数据项进行合并，然后按序排列，求出各相邻数据的差值总和sum。令数据项数为n，那么求得的平均差为：avg＝sum/(n-1)；

(2)求得平均差avg后，即可将排序后的数据集根据avg进行划分。设划分数为d，如果相邻的数据值之差小于平均差值，那么就将前一个划分获得的数据与当前的数据之间的所有数据项归为一个分区，重复执行比较与分区操作直至所有数据都被划分到对应的数据分区。

获得划分好的数据之后，即可根据相似性评估公式计算对应的数据集之间的相似度，具体的计算过程如下：首先获取划分数、被划分的不同数据集的数量以及数据集规模，然后根据相似性评估公式SAF求得对应的条件熵以及信息熵，最终获得数据集之间的相似度。

定理1(相似性评估公式SAF)：令A、B为两个相似性待判断的数据集，S为决策模式属性集，C为不确定匹配模式关系集，C与S交集为空，那么可根据对应的条件熵以及信息熵求得A、B之间的相似度：

条件熵：H(S|C)＝-∑_c∈Cp(c)∑_s∈Sp(s|c)log(p(s|c)) (1)

信息熵：

相似性：

H(·|·)为条件熵函数，H(·)为信息熵函数，sim(·,·)为相似性函数；c、s分别为集合C、S中的项，p(c)为c发生的概率，p(s|c)为c发生的条件下s发生的概率，log(·)为对数函数；n为s中的事务数量，i的取值范围为[1,n]，p(x_i)为s中事务x_i发生的概率；

证明：令O为模式对象有限集，那么可求得信息熵的不确定率为μ＝1-(H(C)+H(S|C)-H(S))/(log(O)-H(S))，其中，S为决策模式属性集，C为不确定匹配模式关系集，O为模式对象有限集，H(·)为信息熵函数，H(·|·)为条件熵函数，log(·)为对数函数。设R₁和R₂为模式对象有限集O中具有相同关系的子模式对应的的等价关系，H(S₁)和H(S₂)为其对应的信息熵，则有如下属性：

①若R₁＝R₂，那么H(S₁)＝H(S₂)，故μ满足不变性；

②对于

S∈O，S为决策模式属性集，O为模式对象有限集，均有(H(C)+H(S|C)-H(S))/(log(O)-H(S))∈[0,1]，即μ∈[0,1]，故不确定率μ满足非负性，

表示任意；

③若R₁＞R₂，那么H(S₁)＞H(S₂)，故μ满足单调性。

综上所述，SAF中信息熵的不确定率μ同时满足不变性、单调性以及非负性，因此SAF可以作为不确定数据集相似性度量的基本准则公式。

根据SAF获取所有划分数据集之间的相似性结果后，再根据提前设定的相似度阈值δ判断是否需要进行相似项合并，即将经过计算求得的相似度数值sim(A,B)与δ进行比较，若sim(A,B)≥δ，则进行相似项合并，同时对相似项合并后的全局概率值进行计算并更新。具体运行过程为：

(1)获取所有的相似项并循环合并这些项集，将所有的数据元组放入同一个数据表；

(2)从合并后的项集中获取具有相同数据的元组，保留一个元组并删除其他重复项；

(3)通过概率合并公式PM-DCR对相似项的概率进行合并计算，得到删除重复项之后的项集的全局概率值。

定理2(概率合并公式PM-DCR)：令p₁、p₂分别为项集S₁、S₂的全局概率，p₁*p₂为S₁、S₂相交的概率，p₁*(1-p₂)、(1-p₁)*p₂均为S₁、S₂不相交的概率，S₁、S₂合并后的项集的概率为：

证明：令H₁、H₂、H₃为识别框架Θ的独立证据体，m₁、m₂、m₃分别为H₁、H₂、H₃的信任指派函数，那么PM-DCR有如下属性：

①对于H₁、H₂，P(H₁,H₂)＝P(H₂,H₁)，即

故PM-DCR满足交换律；

其中，P(H₁,H₂)、P(H₂,H₁)均表示证据体H₁、H₂的异或概率；

②对于H₁、H₂、H₃，P(H₁,H₂,H₃)＝P(P(H₁,H₂),H₃)＝P(H₁,P(H₂,H₃))，即

故PM-DCR满足结合律；

其中，P(H₁,H₂,H₃)表示三个证据体异或发生的概率，P(P(H₁,H₂),H₃)表示H₁、H₂异或发生的情况下，H₃异或发生的概率；P(H₁,P(H₂,H₃))表示H₁发生的情况下，H₂、H₃异或发生的概率；

为异或运算；

③如果m₁、m₂均为单调函数，使用PM-DCR对其进行融合时，有

那么m₃也是单调的，故PM-DCR满足单调性；

④使用PM-DCR对识别框架Θ中的证据元素进行融合后，随着单个子集合的信任指派值增加，对应元素的信任指派值会随之降低，故PM-DCR满足极化性。

综上，PM-DCR同时满足交换律、结合律、单调性以及极化性，是一种可行的Dempster组合规则改进方法，所述empster是一种证据理论；因此PM-DCR可对相似项的概率值进行合并计算。

2.动态支持度阈值获取

一般而言，挖掘关联规则时的支持度阈值是预先设定好的而且始终保持不变，但对于大数据集来说，由于其数据价值密度降低并且数据始终处于动态变化之中的新特性，固定的支持度阈值已经不足以反映其关联规则的变化情况。为了获取相对最优的动态支持度阈值，MR-PARIMIEG设计了一种DST-GA策略，通过构造支持度函数并对其进行求解获取不同数据集信息中相对最佳的支持度阈值。

定理3(支持度函数SF)：令数据集D的数据项目数为m，P(x_i)表示项目x_i在D中出现的概率，Weight(x_i)表示x_i的权重，r(x₁,x₂,...,x_m)为修正函数，那么支持度函数SF可表示为：

其中，|·|表示集合中元素数量，m为数据集D的总项目数，x_i为第i个数据项；

证明：支持度函数为连续有界函数，最终的支持度阈值主要取决于各个数据项的概率值P(x_i)以及对应的权重值Weight(x_i)。对于

数据集的项目概率值的变化将直接反映到最终的公式化计算中。因此，当数据集信息发生变化时，SF可以根据改变后的信息对

进行计算，同时更新|D|，最终获得适用于更新后数据集的支持度阈值。

构造支持度函数SF后，利用遗传算法的收敛性与不失一般性，对其进行迭代优化运算以求得最优解，即相对最优动态支持度阈值。具体的求解过程如下：

(1)根据极值定理可求得连续的支持度函数在其定义域内的极小值ξ₁与极大值ξ₂，所要求的动态支持度阈值必然介于ξ₁、ξ₂之间；

(2)基于遗传算法的收敛性，在数学问题的优化求解过程中，当循环迭代的运算次数足够多时最终结果将会收敛于特定值；

(3)将遗传算法应用于支持度函数的极值问题求解过程中，提出求解动态阈值的minSF公式将这一迭代优化过程具象化，经过多次迭代后最终ξ₁、ξ₂的差值趋近为0，最终结果收敛于特定值，即相对最优动态支持度阈值。

定理4(动态阈值公式minSF)：令数据变量集x＝(x₁,x₂,...,x_m)^T，x_m表示第m个数据项；x中任意数据项x_i的取值范围为[a_i,b_i]，那么根据遗传算法求取支持度函数中动态最优值的公式为：

其中，f_i(x)为支持度函数，m为数据集D的总项目数，

为求解非线性极大极小值问题的通用形式；

证明：令封闭m维立方体C＝{(x₁,x₂,...,x_m)|x_i∈[a_i,b_i],i＝1,2,...,m}，x_i为第i个数据项a_i、b_i分别为数据项x_i对应的最小值、最大值；由遗传算法相关原理可知第n次加速循环的搜索取值为

且

其中，C_n表示第n次加速循环的搜索取值，

分别为数据项x_i迭代到第n次的最小值、最大值，

同理。令收缩区间比

那么当循环次数趋于无穷时，

故可得

C₀表示第0次加速循环的搜索取值，C₁表示第1次加速循环的搜索取值，C_n表示第n次加速循环的搜索取值，当迭代次数n即第n次加速循环，趋于无穷时，

的差值趋近于0，a为一个趋近于为0的常数。此时，对任意x_n,y_n∈C_n，它们的差值趋近于0，即可知经过循环迭代最终获得的结果具有收敛性，x_n、y_n表示当循环迭代执行至n次时，数据变量集中任意两个数据项的边界取值。

3.并行挖掘频繁项集

经过前述工作，已经获得了适用于增量挖掘的动态支持度阈值以及合并相似项后的数据集。为了并行化挖掘频繁项集，将挖掘过程向MapReduce计算平台迁移，同时使用并行LZO压缩算法对Map阶段输出的数据进行压缩，以加快Map与Reduce阶段的数据传输过程，最终加速算法运行。

MR-PARIMIEG结合MapReduce并行挖掘频繁项集的过程分为初始挖掘与增量挖掘两部分，两个过程的主要区别在于增量挖掘时需要根据新增数据集的事务项对初始挖掘阶段构造的Can树进行更新，然后从更新的树结构中挖掘频繁项集。MR-PARIMIEG算法并行挖掘频繁项集的具体过程如下所示，并在图1中给出了总体的运行过程。

(1)Map阶段：扫描合并相似项后的原始数据集或新增数据集的所有数据项，并根据具体的集群节点配置情况对数据进行分块，最后将划分好的数据块映射到每个计算节点进行Map运算；

(2)数据压缩阶段：将Map阶段的输出数据使用并行LZO数据压缩算法进行压缩，具体的数据压缩过程为：①扫描MapReduce集群，以获取处于空闲状态的计算节点，基于负载均衡策略将Map端输出的数据分配给所有可用节点进行处理；②在内存中创建三种线程：主控线程、压缩线程以及重构线程，使用信号量保护(semaphore-protected)的共享内存进行三种线程间的信号交流；③将数据分块并输入内存，通过主控线程控制数据流向并初始化压缩线程，将所有的压缩线程相对均衡的分布到可用的处理器核心中，然后使用压缩线程各自独立地对数据块进行并行压缩；④使用重构线程获取各个压缩线程中生成的压缩数据块，并按输入顺序输出所有的压缩数据。最后在压缩数据输出到磁盘后进行解压供Reduce任务调用；

(3)Reduce阶段：在初始挖掘时，根据Map阶段的输出数据并行构造Can树，并使用Hash表记录所有数据项在树结构中的相对位置以加快数据查找速度，最后根据动态支持度阈值从Can树结构中挖掘频繁项集；在增量挖掘时，则根据Map阶段的输出数据对Can树以及存储数据项位置信息的Hash表进行更新，根据更新后的Can树和动态支持度阈值并行挖掘频繁项集。

4.并行增量挖掘算法(MR-PARIMIEG)的有效性验证

为了验证方法MR-PARIMIEG的有效性和相比于其他方法的性能优越性，我们将MR-PARIMIEG方法应用于Susy、Jester和RetailRocket三个数据集上，其具体信息如表1所示。将方法MR-PARIMIEG与FPM-HCG、IncbuildingPFP等其他方法在并行挖掘频繁项集的时间复杂度和空间复杂度等方面进行了比较。

表1实验数据集

	RetailRocket	Susy	Jester
				Records	2756101	5000000	4100000
Items	5	28	13
				Items	299.6	880.5	96

4.1评价指标

推荐非空率是指在用户访问的所有项集中，能够给出有效推荐的被访问项集的比例值，是一种对关联规则算法挖掘的频繁项的有效性进行评价的指标，能够对算法挖掘的所有频繁项的总体质量进行评估。推荐非空率的定义如公式(7)所示：

其中，|·|表示集合中元素数量，UI为用户访问的所有频繁项集的集合，RI为给出了有效推荐的项集的集合，∩表示交集，RecNon为推荐非空率。

4.2MR-PARIMIEG方法的性能分析

为验证MR-PARIMIEG方法即本发明设计的基于MapReduce的并行频繁项集增量数据挖掘方法的英文简写，在大数据环境下挖掘频繁项集的可行性，将MR-PARIMIEG分别与FPM-HCG、IncbuildingPFP算法在RetailRocket、Susy以及Jester数据集中进行对比实验(RetailRocket、Susy以及Jester是数据集名称，引用于开源数据集库http://fimi.uantwerpen.be/data/)，实验比较了MR-PARIMIEG、IncbuildingPFP以及FPM-HCG(IncbuildingPFP以及FPM-HCG算法为引用的相关研究工作，详见：[1]Kusumakumari V,Sherigar D,Chandran R,et al.Frequent pattern mining on stream data usingHadoop CanTree-GTree[J].Procedia computer science,2017,115:266-273.[2]Song YG,Cui H M,Feng X B.Parallel Incremental Frequent Itemset Mining for LargeData[J].Journal of Computer Science and Technology,2017,32(2):368-385.)算法在MapReduce节点数为5的集群中，在不同的初始支持度阈值下对数据集中的频繁项集进行挖掘的运行时间、内存占用以及最终挖掘的频繁项的推荐非空率。

4.2.1运行时间比较

从图2可以看出，在对不同数据集的频繁项进行挖掘时，各算法的运行时间随着支持度阈值的增大而快速减少，MR-PARIMIEG在三个数据集中始终具有最少的运行时间，并且支持度阈值越小，MR-PARIMIEG相较于FPM-HCG、IncbuildingPFP在运行时间上的优势越明显。而当支持度阈值达到相对较高的数值时，各算法的运行时间差异并不明显。在数据分布较为离散且相似项较多的RetailRocket数据集中，如图2(a)所示，在初始支持度阈值为0.05时MR-PARIMIEG的运行时间相比于IncbuildingPFP和FPM-HCG分别降低了28.05％和21.27％，；随着数据集规模的增长，在处理数据项长度相差较小的Susy数据集时，如图2(b)所示，在初始支持度阈值为0.05时MR-PARIMIEG的运行时间相比IncbuildingPFP和FPM-HCG分别降低了33％和22.15％，；在Jester这样数据较为连续的数据集中，如图2(c)所示，在初始支持度阈值为0.05时MR-PARIMIEG的运行时间相比于IncbuildingPFP和FPM-HCG分别降低了30.58％和27.74％。产生这种结果的主要原因是：首先，MR-PARIMIEG采用了SIM-IE策略来合并数据集中的相似项，通过减小数据集规模来加快后续Can树结构的构造；其次，MR-PARIMIEG在并行挖掘频繁项集时，所采用的并行LZO数据压缩算法会对数据规模进行有效的压缩，从而显著加快了Map与Reduce阶段的数据传输过程；最后，MR-PARIMIEG使用了DST-GA策略，根据具体的待挖掘增量数据设置相对合适的动态支持度阈值，并由此进行后续的增量频繁项集挖掘，在一定程度上避免了过多的频繁项集挖掘导致的时间消耗，从而减少了总体的算法运行时间。而当支持度阈值设置为相对较大的数值时，满足该阈值的频繁项数量极少，因此各算法对数据集进行处理的运行时间差距较小。

4.2.2内存占用比较

从图3可以看出，随着支持度阈值的增大，各算法的内存占用不断下降，并且在三种算法中，MR-PARIMIEG在处理各数据集时始终具有最低的内存占用。在处理数据分布较为离散的RetailRocket且初始支持度阈值为0.4时，MR-PARIMIEG的内存占用相比IncbuildingPFP和FPM-HCG，分别降低了36.7％和41.86％；处理Jester这样数据比较连续的数据集，在初始支持度阈值为0.4时，MR-PARIMIEG的内存占用相比较于IncbuildingPFP和FPM-HCG分别降低了33.04％和42.73％；处理数据规模相对最大的Susy且初始支持度阈值为0.4时，MR-PARIMIEG的内存占用相较IncbuildingPFP和FPM-HCG分别降低了最多为40.6％和43.45％。这一方面是因为MR-PARIMIEG采用了SIM-IE策略(MR-PARIMIEG中基于信息熵的相似项合并策略的英文简写)合并数据集中的相似项，使得根据合并相似项的数据集生成的树结构的内存占用有明显的降低；另一方面则是因为在算法的并行化频繁项集挖掘阶段，使用了并行LZO数据压缩算法对Map端输出数据进行压缩，在数据量不变的情况下有效地减小了传输的数据规模，降低了最终的内存占用。而IncbuildingPFP算法虽然使用了分布式的方式对数据进行并行化挖掘，但却并未解决Can树结构存储所有的数据信息而导致的空间占用过大的问题，导致算法最终的内存占用过大。FPM-HCG算法使用了滑动窗口技术来加快数据项查找过程，但会使用额外的数据表来存储所有的已遍历数据项信息，这会导致在最终生成的树结构规模相同的情况下，还需要额外的内存空间来储存这些表结构，最终造成FPM-HCG在处理各数据集时均有最多的内存占用。

4.2.3推荐非空率比较

从图4可以看出，在对各数据集进行处理时，MR-PARIMIEG所挖掘的频繁项始终有着最佳的推荐非空率，并且支持度阈值越小，其推荐非空率的优势相较于IncbuildingPFP和FPM-HCG越明显。其中，在RetailRocket中，当初始支持度阈值为0.05时，MR-PARIMIEG的推荐非空率相比于FPM-HCG和IncbuildingPFP分别增加了0.11和0.13；在Susy中当初始支持度阈值为0.05时，MR-PARIMIEG的推荐非空率相比FPM-HCG和IncbuildingPFP分别增加了0.13和0.15；在Jester中当初始支持度阈值设置为0.05时，MR-PARIMIEG的推荐非空率相比于FPM-HCG和IncbuildingPFP分别增加了0.07和0.12。这是因为MR-PARIMIEG采用了DST-GA策略(MR-PARIMIEG中基于遗传算法的动态支持度阈值计算策略的英文简写)，根据数据集信息实时对支持度阈值进行调整。当支持度阈值较小时，DST-GA在增量挖掘阶段通过设置相对较大的阈值对冗余的无效频繁项集进行了剪枝；而当支持度阈值逐渐增大时，又通过设置相对较小的阈值对数据集中的有效频繁项集进行了挖掘。因此，MR-PARIMIEG对各数据集进行处理所产生的频繁项集始终具有相对较高的推荐非空率，即MR-PARIMIEG采用的DST-GA策略根据数据信息以及初始的支持度阈值动态调整阈值大小，既避免了初始支持度阈值较小时挖掘过多的无用频繁项集，又避免了过大的初始支持度阈值导致的有效频繁项丢失，使得最终挖掘的频繁项集具有较高的质量。

综上所述，我们所提出的基于MapReduce的并行频繁项集增量挖掘方法MR-PARIMIEG在挖掘过程中的时间复杂度和空间复杂度以及最终挖掘的频繁项质量上都有相对最佳的表现。

可以以购物推荐为例。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，包括以下步骤：

S1，设计基于信息熵的相似项合并策略SIM-IE来合并数据集中的相似数据项，根据合并后的数据集进行Can树构造；

S2，提出基于遗传算法的动态支持度阈值计算策略DST-GA，获取大数据集中的相对最优动态支持度阈值，根据所述相对最优动态支持度阈值进行频繁模式挖掘；

S3，使用并行LZO数据压缩算法对Map端输出的数据进行压缩。

2.根据权利要求1所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S1包括：

S1-1，根据差值大小对数据项进行分类；

3.根据权利要求2所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S1-1包括：

4.根据权利要求2所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S1-2的相似性评估公式SAF包括：

条件熵：H(S|C)＝-∑_c∈Cp(c)∑_s∈Sp(s|c)log(p(s|c)) (1)

信息熵：

相似性：

A、B为两个相似性待判断的数据集，S为决策模式属性集，C为不确定匹配模式关系集，C与S交集为空；H(·|·)为条件熵函数，H(·)为信息熵函数，sim(·,·)为相似性函数；c、s分别为集合C、S中的项，p(c)为c发生的概率，p(s|c)为c发生的条件下s发生的概率，log(·)为对数函数；n为s中的事务数量，p(x_i)为s中事务x_i发生的概率。

5.根据权利要求2所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S1-3包括：

所述概率合并公式PM-DCR包括：

6.根据权利要求1所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S2包括：

S2-1，构造支持度函数SF；

所述构造支持度函数SF包括：

7.根据权利要求6所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S2-2的相对最优动态支持度阈值包括：

S2-2-1，根据极值定理可求得连续的支持度函数在其定义域内的极小值ξ₁与极大值ξ₂；

S2-2-2，多次循环迭代运算后收敛得到特定值；

所述动态阈值的minSF公式包括：

其中，f_i(x)为支持度函数，m为数据集D的总项目数，

为求解非线性极大极小值问题的通用形式。

8.根据权利要求1所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S3包括：

9.根据权利要求8所述基于MapReduce的并行频繁项集增量数据挖掘方法，其特征在于，所述S3-2的数据压缩包括：