CN107291848A

CN107291848A - 基于Spark的并行化关联挖掘优化方法

Info

Publication number: CN107291848A
Application number: CN201710413035.1A
Authority: CN
Inventors: 肖甫; 许平; 沙乐天; 王少辉; 韩崇; 王汝传
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-06-05
Filing date: 2017-06-05
Publication date: 2017-10-24

Abstract

本发明公开一种基于Spark的并行化关联挖掘优化方法，先对事务数据库进行预处理，根据业务需求进行数据清洗，提取简要有效信息，将事务项数据编码化后，全部读取到内存，转换成RDD模型；在生成频繁1项集的过程中，构造新的数据结构存放1项集的事务序列号；在频繁项集连接、剪枝生成候选集的过程中，舍去候选项集的产生过程，筛选出连接后事务序列号数满足最小支持度的项集；重复以上过程，直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足，提高了挖掘效率。

Description

基于Spark的并行化关联挖掘优化方法

技术领域

本发明涉及大数据关联挖掘算法领域，特别是基于Spark的并行化关联挖掘优化方法。

背景技术

大数据通常用来形容大量半结构化和非结构化数据，有明显的自身特征：体量大、种类多、产生速度快、实时性要求高、价值密度低，这意味着传统的数据关联挖掘算法已不能满足大数据的处理需求，面向多机、并行、分布式的大数据处理方式变得越来越重要，因此研究并提出新的能够适应大数据环境的关联挖掘算法已经显得十分迫切而重要。

Apriori算法是最为经典的关联规则挖掘算法，该算法的核心是生成最大项目集，通过迭代方式逐层搜索频繁项集，直至没有更大项目集生成。目前Apriori算法存在的性能瓶颈主要体现在两个方面：(1)每次搜索都需要完整地扫描一次数据库，(2)需要通过自连接和剪枝产生庞大的候选项集。与此同时，在当前大数据背景下，面对海量数据，这种传统串行方式效率特别低，对算法进行并行化改造成为了研究的热点。

发明内容

针对Apriori算法的不足，本发明提供一种基于Spark的并行化关联挖掘优化方法，Spark是一种快速、通用、可扩展的大数据分析引擎，利用改进的基于Spark平台的关联挖掘算法Apriori对网站点击流日志进行用户访问路径分析，通过对经典关联规则算法Apriori的分析并结合Spark计算模型的特点，提供基于用户访问路径关联的算法，最终能够快速准确为用户提供页面访问推荐策略。

基于Spark的并行化关联挖掘优化方法，先对事务数据库进行预处理，根据业务需求进行数据清洗，提取简要有效信息，将事务项数据编码化后，全部读取到内存，转换成RDD模型；在生成频繁1项集的过程中，构造新的数据结构存放1项集的事务序列号；在频繁项集连接、剪枝生成候选集的过程中，舍去候选项集的产生过程，筛选出连接后事务序列号数满足最小支持度的项集；重复以上过程，直到没有满足最小支持度条件的更大的项集产生。

所述生成频繁项集的过程为：

a1、对事务中包含的所有项发射该项及对应事务编号的键值对，reducer将每项对应的事务编号合并起来，构造成(item,BitSet)的存储形式；

a2、对事务编号进行统计，根据支持度过滤得到只包含频繁1项集的转换后的数据集F；

a3、将存储于数据集F₁中的频繁1项集进行两两自连接，然后判断其支持度，将满足最小支持度条件的(item,BitSet)存入F₂中,其中item表示事务项，BitSet表示事务编号；

a4、将存储于F_K-1中的频繁k-1项集两两自连接，连接规则为：k-1项集中的前k-2项相同，第k-1项不同，则可连接成f_i[1],f_i[2]…f_i[k-2],f_i[k-1],f_j[k-1],将满足支持度的项集和事务编号集存入F_k。

本发明的显著优点为：求项集的出现次数从遍历整个数据集简化到将对应项的BitSet求与，减少了系统I/O；舍去了候选项集的产生过程，提高了算法的运行效率。本发明可以对网站用户访问路径数据进行基于关联规则的数据挖掘分析，可以帮助技术人员合理修改网站结构及适度分配资源，构建后台服务器群组；可以帮助企业改善市场营销决策，获取更高投资回报率。

附图说明

图1为本发明实施例中网站用户访问源数据库图；

图2为本发明实施例数据预处理流程图；

图3是本发明实施例由关联规则产生的非循环图；

图4是本发明实施例基于Spark的关联挖掘优化方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于Spark的并行化关联挖掘优化方法步骤如下：

(1)扫描事务数据库D，对源数据进行数据清洗，将数据记录简化，提取有效信息，并将所有的数据项替换为其所对应的编号生成新的事务数据库D，存入HDFS中。新的编码化后的数据如表1所示。

表1

(2)读入HDFS中待处理数据集以RDD形式存储于集群各节点内存中，并同时实现数据结构转换，每个map任务读入并处理若干行，对事务中包含的所有项发射该项及对应事务编号的键值对，reducer将每项对应的事务编号合并起来，构造成(item,BitSet)的存储形式。之后对事务编号进行统计，根据支持度过滤得到只包含频繁1项集的转换后的数据集F。转换数据结构、获取频繁1项集如表2所示,其中anm表示的是项n在事务序列为m中是否出现，出现则为1，否则为0：

表2

(3)将存储于F₁中的频繁1项集进行两两自连接,将它们对应的BitSet求与，BitSet中记录了所有包含连接后的2项集的事务编号。然后判断其支持度，将满足要求的(item,BitSet)存入F₂中。

(4)重复步骤(3)将存储于F_K-1中的频繁k-1项集两两自连接，连接规则为：k-1项集中的前k-2项相同，第k-1项不同，则可连接成f_i[1],f_i[2]…f_i[k-2],f_i[k-1],f_j[k-1],将满足支持度的项集和事务编号集存入F_k。

(5)根据F₁F₂...F_K,将关联规则算法产生的规则转换为一个直接的非循环图。该图是以层级的形式进行组织，从第1层到第k层。假若用户在当前会话Session中已经访问的页面集为P，推荐时优先考虑大小为|P|+1的页面集。为了快速的找出含有已经访问的页面集并且其页面集大小为|P|+1的页面集。

(6)根据F_K频繁k项集，生产满足置信度的关联规则。

(7)根据步骤(1)生成的编号，将关联规则映射回原数据项。

至此，实现了基于Spark的关联挖掘优化方法。

Claims

1.基于Spark的并行化关联挖掘优化方法，其特征在于：先对事务数据库进行预处理，根据业务需求进行数据清洗，提取简要有效信息，将事务项数据编码化后，全部读取到内存，转换成RDD模型；在生成频繁1项集的过程中，构造新的数据结构存放1项集的事务序列号；在频繁项集连接、剪枝生成候选集的过程中，舍去候选项集的产生过程，筛选出连接后事务序列号数满足最小支持度的项集，所述的支持度S_support(A)＝P(A)/N为项集在整个数据集中所占的比例；重复以上过程，直到没有满足最小支持度条件的更大的项集产生。

2.根据权利要求1所述的基于Spark的并行化关联挖掘优化方法，其特征在于：所述生成频繁项集的过程为：

a3、将存储于数据集F₁中的频繁1项集进行两两自连接，然后判断其支持度，将满足最小支持度的(item,BitSet)存入F₂中，其中item表示事务项，BitSet表示事务编号；