CN110825786A

CN110825786A - 一种基于Spark的大数据关联规则挖掘方法

Info

Publication number: CN110825786A
Application number: CN201911073607.1A
Authority: CN
Inventors: 李成严; 辛雪; 赵帅
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-21

Abstract

本发明提出了一种基于Spark的大数据关联规则挖掘方法。该方法采用Spark运行框架，通过读取用户给定的数据集地址读取数据集并转换成垂直数据库，对转换后的垂直数据库进行读取并过滤得到频繁1‑项集。对频繁1‑项集求交集得到频繁2‑项集，整个过程使用位图存放TidSet来加快求交集的效率。将频繁2‑项集使用前缀划分原则得到频繁K‑项集。数据预处理和前缀划分原则这两种方法使本发明运行效率更快，对于大型数据集也可以有很好的运行效率。

Description

一种基于Spark的大数据关联规则挖掘方法

技术领域

随着当今时代互联网行业的迅速发展，数据的累积速度已远远超过以往的任何时候，我们进入了大数据时代。在大数据时代，数据挖掘成为了一项热门技术，在数据挖掘领域中，关联规则挖掘是被广泛研究的一种重要模型，基于关联规则的数据挖掘目的是想要找出数据集中的频繁模式，也就是多次重复出现的模式和并发关系。关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。关联规则挖掘技术有着非常广泛的应用，如金融行业，零售业市场营销，生物制药，环境保护，图片分类，网络流量分析和在线学习等领域。本发明提出了基于Spark的大数据关联规则挖掘方法，更加的适用于大数据时代下的数据挖掘。

背景技术

数据挖掘是在大型数据存储库中，自动的发现有用信息的过程。良好的数据挖掘方法可以高效快速的发现数据间存在的规律从而得到有用信息。关联规则法是数据挖掘经典方法之一。传统的关联规则方法都是在本地运行的，随着大数据时代的到来，本地运行关联规则方法速度特别慢，无法快速高效的挖掘出数据间存在的联系，所以需要将现有的方法转移到一个分布式平台上运行。所以将本发明使用Spark这个基于内存计算的分布式平台中。当前的经典关联规则挖掘方法在计算大规模数据时也存在速度慢的问题，对于Apriori方法，需要多次读取数据库，耗费大量IO；FP-Growth方法只需读取两次数据库，但是在方法中间会产生树型结构，占用大量内存；Eclat方法只需读取一次数据库，但是大型数据求交集浪费时间。对于经典方法存在的缺陷，需要将经典方法进行改进才能适用大数据集挖掘。因此，本发明提出了基于Spark的大数据关联规则挖掘方法，更加的适用于大数据时代的数据挖掘。

Spark诞生在美国加州大学伯克利分校的AMP实验室，是一个用来实现快速通用的集群计算的平台。他可以实现交互式查询和流处理；Spark是在内存中计算，整个编程都是基于RDD(弹性分布式数据集)的，将中间结果保存在内存中，这样对于大规模的数据集处理速度也会很快，即使是复杂的必须在磁盘上的计算，效率仍然很高，从而确定选用Spark平台。现有方法中的Eclat方法采用的数据结构是垂直型数据结构，他只需要读取一次数据库，但是在大数据集下求交集的运算代价会很大，所以本发明提出的方法是在Spark平台下对Eclat方法进行改进。

发明内容

为了解决大数据下关联规则挖掘问题，本发明公开了一种基于Spark的大数据关联规则挖掘方法，能够提高挖掘大数据集时的运行速率。

为此，本发明提供了如下技术方案：

一种基于Spark的大数据关联规则挖掘方法，其特征在于对数据进行预处理操作和前缀划分原则。预处理操作包含数据库形式转换，过滤操作以位图保存TidSet操作。对于数据库形式转换，就是将水平数据库转换成垂直数据库形式，将数据库操作转换成集合计算；对于过滤操作，就是过滤不满足要求数据集。使用过滤操作去除掉所有不满足要求得数据，得到有效数据集，从而降低要执行的数据集的大小，加快运行效率；对于位图保存TidSet操作，就会在预处理过程直接将每个事务所对应的TidSet用位图来保存，便于后续提高求交集的速度，提高运行效率。计算频繁K-项集时最重要的就是采用前缀划分原则，该原则可以大大减少要遍历的数据集的大小，还能保证不丢解，从而提高运行效率。具体包括：

数据库形式转换：数据库存储的数据形式是水平数据库形式，即<Tid:itemID>形式，将其转化成垂直数据库形式,即<itemID:Tid>形式，这样就可以将数据库之间的运算转换到集合之间的运算。

过滤操作：在数据库转换成垂直数据库后，使用Spark提供的转换算子filter()算子过滤掉不满足要求的数据集，也就是支持度小于给定最小支持度的数据，从而减小数据集的大小，并保证了数据集中数据的有效性。

位图保存TidSet：使用位图保存就可以将原来的集合之间的运算转换到位图之间的计算。位图是一种特殊的数据结构，将内存中连续区域的位来表示一个准确的数值。将每个项所对应的Tid用位图进行存放，位图的容量就是该项的支持度，用容量和最小支持度进行比较即可判断是否为频繁项集。位图是一种基于内存的数据结构，所以它在求交集运算的速度将会非常快，即使在数据量比较大的时候也能很好的保持快速的特点，大大的提高了运行效率。

前缀划分原则：该原则就是将项中具有相同的第一个元素提取出来作为前缀，这样本来是所有频繁项集的遍历就变成了在所有频繁项集中具有相同前缀的项集进行遍历，减少了遍历的空间。具体说明频繁项集的前缀划分操作，当求出频繁2-项集后，将频繁2-项集中的项具有相同第一个元素提出来，该过程使用Spark提供的map()方法。剩余的项和Tid放在一起，对提出来的相同的第一个元素的剩余项和Tid进行合并规约，该过程使用Spark提供的行动算子reduceByKey()方法。这样只需在前缀相同的列表中进行遍历，不需要遍历全部频繁2-项集，大大减少了遍历的列表的长度，从而提高了方法的效率。相同的，频繁K-项集的计算和频繁3-项集的计算相同。

基于Spark的大数据关联规则挖掘方法包括：

步骤1：给出方法的输入路径，输出路径，最小支持度以及分区数参数；

步骤2：对数据库形式转换并用位图保存TidSet；

步骤3：转换后的数据库过滤得到频繁1-项集；

步骤4：计算频繁2-项集；

步骤5：迭代执行前缀划分计算和计算频繁2-项集得到频繁K-项集；

进一步地，在步骤5中前缀划分计算需要迭代计算，当获取到频繁2-项集时，要对频繁2-项集进行提取前缀，这时提取的前缀个数只有1个。提取后剩余的部分进行计算得到新的频繁2-项集操作，也就是步骤4。将新得到的频繁2-项集加上前缀就得到频繁3-项集。依次类推，对频繁(K-1)-项集进行前缀划分操作，这时的提取前缀个数为(K-2)个，剩余部分求频繁2-项集后加上(K-2)个前缀就得到频繁K-项集。

相比于现有技术，本发明具有如下有益效果：

1.本发明提出的基于Spark的大数据关联规则挖掘方法能够快速高效的对大数据集进行挖掘。

2.本发明提出的基于Spark的大数据关联规则挖掘方法处理大型数据集时对内存和IO占用较少。

附图说明

图1为本次发明的方法流程图；

图2为计算频繁2-项集过程；

图3为前缀划分处理过程；

图4为本发明提出的方法同其他经典方法在T40I10D100K.dat数据集上运行效率比较。

图5为本发明提出的方法同其他经典方法在webdocs.dat数据集上运行效率比较。

具体实施方式

下面结合附图对本发明的技术方案做进一步的说明：

图1所示为本发明的方法流程图，根据流程图中所示的内容对每一步进行详细说明。

首先读取本地或者HDFS中的转换后的垂直数据库文件，读取文件后得到RDD，对RDD调用转换算子中的filter()进行过滤，除去支持度小于最小支持度的数据进而得到频繁1-项集。根据得到的频繁1-项集不断求交集获取频繁2-项集。对于频繁K(K>2)-项集的获取，首先要对频繁2-项集进行前缀划分，然后对划分后的数据求频繁2-项集添加前缀得到频繁3-项集。以此类推，求频繁K-项集要提取相同的(K-2)个前缀并添加剩余的数据得到的频繁2-项集。

对步骤1中参数设置进行说明，方法的输入路径为要进行关联规则挖掘计算的数据集，该数据集可以存放在本地，也可以存放在HDFS中；输出路径为计算好的频繁项集存放地址，要给出的是一个文件夹地址，该文件夹名称不能存在，同样可以为本地也可以为HDFS；最小支持度的给出是根据不同的数据集大小确定的，对于实验中用到的webdocs.dat数据集，给出的最小支持度分别为300k,400k和500k。T40I10D100K.dat数据集，给定的最小支持度分别为1000,1500和2000。分区数同样根据数据集大小确定，对于实验中用到的webdocs.dat数据集给定的分区数为100，T40I10D100K.dat数据集给定的分区数为2。

对步骤2中提到的数据库形式转换进行说明，数据库形式转换就是将水平数据库形式转换成垂直数据库形式，即从<Tid,ItemSet>形式转换为<Item,TidSet>形式。并在转换过程中用位图保存TidSet，就是将该事务出现的所有Tid都使用位图保存在该事务对应的TidSet中，使用位图保存就可以将原来的集合之间的运算转换到位图之间的计算。位图是一种特殊的数据结构，将内存中连续区域的位来表示一个准确的数值。将每个项所对应的Tid用位图进行存放，位图的容量就是该项的支持度，如果位图的容量大于给定的最小支持度，则该项集就是频繁项集。位图是一种基于内存的数据结构，所以它在求交集运算的速度将会非常快，即使在数据量比较大的时候也能很好的保持快速的特点，大大的提高了运行效率。数据库形式的转换将数据库之间的运算转换为集合之间交集的运算，提高了运行效率，使用位图保存TidSet将集合交集的运算转换成位图交集的运算，进一步的提高了运行效率。

如表1所示给出水平数据库形式的简单示例。

表1所示为水平数据库存放形式

Tid	ItemSet
		1	A C E
2	A B E
		3	A B C D E

其中Tid表示事务的ID号，ItemSet表示该ID号下包含的项集。

如表2所示将表1中给出的水平数据库示例转换成垂直数据库形式。

表2所示为垂直数据库存放形式

Item	TidSet
		A	1 2 3
B	2 3
		C	1 3
D	3
		E	1 2 3

其中Item表示项，TidSet表示该项都出现在哪个事务的ID下。

如表1所示，水平数据库中Tid为1时的项集分别为A,C,E，Tid为2时项集分别为ABE，Tid为3时项集分别为A,B,C,D,E。将当前的水平数据库转换成垂直数据库后，如表2中所示，A项分别出现在Tid为1,2,3的项集中，项B分别出现在Tid为2,3的项集中，项C分别出现在Tid为1,3的项集中，项D出现在Tid为3的项集中，项E分别出现在Tid为1,2,3的项集中。至此，转换成垂直数据库成功。当给定的最小支持度为2时，项D的支持度为1小于给定的支持度，所以在数据库中将其删除。所以，最终得到的频繁1-项集为{{A}：(1,2,3)，{B}：(2,3)，{C}：(1,3)，{E}：(1,2,3)}。

上述所有过程之和为数据预处理的过程，如下所示为数据预处理的伪代码实现：Input:原始数据集路径path，最小支持度minsup

Output：满足最小支持度并以垂直型数据储存的频繁1-项集

f1＝sc.textFile(path).map().collect()

foreach row in f1

trans＝trans+1

foreach item in row

while item not in data do

data[item]＝set()

data[item].add(trans)

fre_1＝sc.parallelize(data.items()).filter(len(a[1])>＝minsup)

步骤4要根据得到的频繁1-项集不断求交集得到频繁2-项集。如图2所示为计算频繁2-项集过程。从得到的频繁1-项集分别为{A:(1,2,3)，B：(2,3)，C:(1,3)，E：(1,2,3)}。对频繁1-项集求交集得到频繁2-项集，整个方法求交集都是对位图求交集，而不是直接对TidSet求交集，这样求交集速率会更快。对于项A和项B求并集并把项所对应的TidSet求交集得到{{A,B}：(2,3)}，得到的项A,B所对应的支持度大于等于最小支持度保留。对于项B和项C求并集并把所对应的TidSet求交集得到{{B,C}：3}，得到的项B,C所对应的支持度小于最小支持度，将其从频繁2-项集中过滤掉。所以，最终得到的频繁2-项集为{{A,B}：(2,3)，{A，C}：(1,3)，{A,E}：(1,2,3)，{B,E}：(2,3)，{C,E}：(1,3)}。

如下所示为计算频繁2-项集的伪代码实现：

Input：预处理得到的频繁1-项集，最小支持度minsup

Output：所有满足最小支持度的2项集及其支持度

步骤5是目的是计算频繁K-项集，主要包含两个部分，分别为对频繁(K-1)-项集进行前缀划分以及根据前缀划分后的数据计算频繁2-项集并加入前缀进而得到频繁K-项集。

首先是对频繁(K-1)-项集进行前缀划分，如图3所示为在计算频繁K-项集时关键步骤前缀划分过程。对于具有相同前缀的频繁2-项集{{A,B}：(2,3)，{A,C}：(1,3)，{A,E}：(1,2,3)}，对具有的相同前缀A进行提取{{A，{B：(2,3)}}，{A,{C：(1,3)}}，{A,{E：(1,2,3)}}}，对前缀相同的合并得到{A，{B：(2,3)，C：(1,3)，E：(1,2,3)}}，从而完成了前缀划分过程。Spark对于RDD提供了两种算子，分别是转换算子和行动算子。前缀划分过程分别使用了这两种算子，对于提取前缀操作使用转换算子中的map算子进行操作，提取频繁K-项集中相同的前(k-1)个元素。合并过程使用行动算子的reduceByKey算子进行操作，该算子将根据给出的参数来对相同的key进行操作，前缀划分过程中给出的参数是a+b，即表明对相同的key进行相加操作。这样，相同的前缀得到了合并，完成了对频繁2-项集进行前缀划分工作。同样的频繁K(K>2)项集的前缀划分工作有着相同的步骤。即在频繁(K-1)-项集中提取相同(K-2)个元素的前缀，其他过程和上述过程相同。

上述过程为对频繁项集进行前缀划分，划分后得到的结果分为两个部分，第一部分为提取的前缀，该部分前缀中项的个数是不同的，需要根据要进行前缀划分的频繁项集的项数进行确定。如果要划分的是频繁2-项集，那么前缀中项的个数为1个，如果要划分的是频繁K(K>2)-项集，那么前缀中项的个数为(K-1个)；第二部分为除去前缀后的项和剩余项所对应的TidSet，该部分是确定的，无论是哪个频繁项集，剩余项的个数都为1个，因为我们要计算剩余项集的频繁2-项集。前缀划分后的第一和第二部分一一对应。

其次是求频繁K-项集，该过程用到了步骤4的计算频繁2-项集。对于计算频繁3-项集，首先要得到频繁2-项集，然后对频繁2-项集进行前缀划分，对前缀划分结果进行遍历，这时需要遍历的数据结构的长度远小于没有前缀划分的数据结构的长度。前缀划分的第二部分进行求2-项集操作，如果求得的2-项集的支持度大于给定的最小支持度，那么就将前缀添加到求得的频繁2-项集中，这样就得到了频繁3-项集。以此类推，计算频繁K(K>2)-项集，首先要得到频繁(K-1)项集，然后对频繁(K-1)-项集进行前缀划分，这时前缀划分后的结果的第一部分包含(K-2)个项，将前缀划分后剩余部分计算频繁2-项集，将得到的频繁2-项集添加前缀，就得到了频繁K-项集。

如下所示为计算频繁K-项集伪代码实现:

Input：计算得到的频繁2-项集，频繁2-项集维数，最小支持度minsup

Output：所有满足最小支持度的2-项集及其支持度

对本发明所提出的方法与其他经典关联规则方法进行对比，其他方法包括BigMiner方法，FP-Growth方法以及Apriori方法。分别使用了IBM Almaden Quest研究小组的生成器生成的T40I10D100K数据集；该数据集是由IBM Quest Data Generator生成的，包含100*1000个事务，每个事务的平均长度是40，一共包含10*100个项。也使用了FIMI仓库的Webdocs数据集，是一个被广泛用于关联规则挖掘的数据集。

两个数据集的参数如表3所示，常用在可接受的范围内比较方法的性能。表中Avg.length表示事务的平均长度，#Items表示项的个数，#Trans表示数据库中事务的总数，Size表示数据集的大小。

表3数据集参数

dataset	Avg.length	#Items	#Trans	Size
					T40I10D100K.dat	40	1000	100000	14.7MB
webdocs.dat	177.2	5268000	1690000	1.4GB

对于T40I10D100K.dat数据集，大小为14.76MB，含有1000个项，对应的项的数量为100000，选择了较低的支持度，分别为2000,1500,1000，最小支持度阈值从1％～2％变化，实验结果如图4所示。各个方法均能完成任务，其中本发明提出的方法展现较好的执行速度。主要的原因则为使用前缀划分的策略的优势比较明显。而且并不像Apriori方法需要进行大量的运算，从而保证了较高执行效率。

同样也测试了较大的数据集，webdocs.dat数据集大小为1.3G，项的数量为1692082。选择了较低支持度，分别是400k,500k,600k,700k。实验结果如图5所示，其中O.O.M表示内存溢出。在数据集较大的环境下，可以看到Apriori方法内存溢出，本发明提出的方法比BigMiner方法和FP-Growth方法都有时间优势。和FP-Growth方法相比由于减少了需要生成的中间数据结构，因此降低了运行时间。和BigMiner方法相比，由于不需要生成较多的map任务，降低框架的性能损耗，提高速度。

综上所述，对于不同的数据集，不同的支持度下，本发明所提出的方法运行效率都要高于其他方法。

以上所述，是结合附图对本发明的方法进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

1.一种基于Spark的大数据关联规则挖掘方法，其特征在于对数据进行预处理操作和前缀划分原则；预处理操作包含数据库形式转换，过滤操作以位图保存TidSet操作；对于数据库形式转换，就是将水平数据库转换成垂直数据库形式，将数据库操作转换成集合计算；对于过滤操作，就是过滤不满足要求数据集；使用过滤操作去除掉所有不满足要求得数据，得到有效数据集，从而降低要执行的数据集的大小，加快运行效率；对于位图保存TidSet操作，就会在预处理过程直接将每个事务所对应的TidSet用位图来保存，便于后续提高求交集的速度，提高运行效率；计算频繁K-项集时最重要的就是采用前缀划分原则，该原则可以大大减少要遍历的数据集的大小，还能保证不丢解，从而提高运行效率；具体包括：

基于Spark的大数据关联规则挖掘方法包括：

步骤2：对数据库形式转换并用位图保存TidSet；

步骤3：转换后的数据库过滤得到频繁1-项集；

步骤4：计算频繁2-项集；

进一步地，在步骤5中前缀划分计算需要迭代计算，当获取到频繁2-项集时，要对频繁2-项集进行提取前缀，这时提取的前缀个数只有1个；提取后剩余的部分进行计算得到新的频繁2-项集操作，也就是步骤4；将新得到的频繁2-项集加上前缀就得到频繁3-项集；依次类推，对频繁（K-1）-项集进行前缀划分操作，这时的提取前缀个数为（K-2）个，剩余部分求频繁2-项集后加上（K-2）个前缀就得到频繁K-项集。

2.权利要求1中提到的数据库形式转换，就是将数据库存储的数据形式是水平数据库形式，即<Tid: itemID >形式，将其转化成垂直数据库形式,即<itemID:Tid>形式，这样就可以将数据库之间的运算转换到集合之间的运算。

3.权利要求1中提到的过滤操作，就是在数据库转换成垂直数据库后，使用Spark提供的转换算子filter()算子过滤掉不满足要求的数据集，也就是支持度小于给定最小支持度的数据，从而减小数据集的大小，并保证了数据集中数据的有效性。

4.权利要求1中提到的位图保存TidSet，就是使用位图保存就可以将原来的集合之间的运算转换到位图之间的计算；位图是一种特殊的数据结构，将内存中连续区域的位来表示一个准确的数值；将每个项所对应的Tid用位图进行存放，位图的容量就是该项的支持度，用容量和最小支持度进行比较即可判断是否为频繁项集；位图是一种基于内存的数据结构，所以它在求交集运算的速度将会非常快，即使在数据量比较大的时候也能很好的保持快速的特点，大大的提高了运行效率。

5.权利要求1中提到的前缀划分原则，就是将项中具有相同的第一个元素提取出来作为前缀，这样本来是所有频繁项集的遍历就变成了在所有频繁项集中具有相同前缀的项集进行遍历，减少了遍历的空间；具体说明频繁项集的前缀划分操作，当求出频繁2-项集后，将频繁2-项集中的项具有相同第一个元素提出来，该过程使用Spark提供的map()方法；剩余的项和Tid放在一起，对提出来的相同的第一个元素的剩余项和Tid进行合并规约，该过程使用Spark提供的行动算子reduceByKey()方法；这样只需在前缀相同的列表中进行遍历，不需要遍历全部频繁2-项集，大大减少了遍历的列表的长度，从而提高了方法的效率；相同的，频繁K-项集的计算和频繁3-项集的计算相同。