CN105912660A

CN105912660A - 一种面向大规模数据的关联规则树挖掘方法

Info

Publication number: CN105912660A
Application number: CN201610221837.8A
Authority: CN
Inventors: 王昌栋; 赖剑煌; 李宏钊
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-08-31

Abstract

本发明涉及一种面向大规模数据的关联规则树挖掘方法，包括以下步骤：S1.对原始数据进行预处理，将原始数据的数据结构处理为便于遍历的数据结构；S2.遍历每项数据，将每项数据包含的属性名、属性名的值名及其支持度缓存起来，生成1‑候选项集C₁；S3.由1‑候选项集C₁生成1‑频繁项集L₁；S4.由k‑频繁项集L_k生成k+1‑候选项集C_k+1；S5.由k+1‑候选项集C_k+1生成k+1‑频繁项集L_k+1；S6.重复执行步骤S4～S5直至不能生成新的k+1‑频繁项集L_k+1；S7.将步骤S6获得的所有的频繁项集用于生成规则；S8.过滤出能被规则分类的数据，不能被规则分类的数据重复执行步骤S1～步骤S7，直至没有规则生成。

Description

一种面向大规模数据的关联规则树挖掘方法

技术领域

本发明涉及计算机及数据挖掘领域，更具体地，涉及一种面向大规模数据的关联规则树挖掘方法。

背景技术

目前，随着以大数据、云计算为核心的互联网技术的迅速发展，作为大数据核心技术的数据分析技术正在吸引越来越多的研究和关注。关联规则树挖掘这种结合关联规则挖掘和决策树生成的算法吸引了大量的注意，而对于挖掘算法来说，面对庞大的数据时，保持高准确率的同时尽可能地提高算法的运算效率至关重要。

关联规则树挖掘是2004年被提出的一种结合关联规则挖掘和决策树生成的一种分类训练方法，它在类标分类的数据上展现出比传统分类方法更高的准确率及可操作性，但是这个算法在当时是基于单机设备设计的，在面对小规模数据时，上述算法可以得到理想的分类结果，而在处理大规模数据时，由于算法无法在分布式集群上进行有效扩展，效率低下，算法无法完成任务，不能得到理想结果。

发明内容

本发明为解决以上现有技术的缺陷，提供了一种面向大规模数据的关联规则树挖掘方法，该方法根据MapReduce框架和RDD数据结构对关联规则树挖掘算法进行了并行化创新，使得挖掘方法的执行效率更高，同时本发明能在可扩展的大规模分布式平台上执行关联规则树挖掘，在面对大规模数据量时可扩展机器以提升计算能力，在可接受的时间内得出关联规则树，用于较高准确度的分类决策。

为实现以上发明目的，采用的技术方案是：

一种面向大规模数据的关联规则树挖掘方法，以下步骤：

S1.对原始数据进行预处理，将原始数据的数据结构处理为便于遍历的数据结构；

S2.遍历每项数据，将每项数据包含的属性名、属性名的值名及其支持度缓存起来，生成1-候选项集C₁；

S3.由1-候选项集C₁生成1-频繁项集L₁；

S4.由k-频繁项集L_k生成k+1-候选项集C_k+1：

设k-频繁项集L_k中某一个项集为I，找出该项集中属性名最靠右的属性，设为A，然后在1-频繁项集L₁中找到一个比A更靠右的属性，拼接到I的后面；

对k-频繁项集L_k中所有的项集进行以上操作，则生成了k+1-候选项集C_k+1；

S5.由k+1-候选项集C_k+1生成k+1-频繁项集L_k+1；

S6.重复执行步骤S4～S5直至不能生成新的k+1-频繁项集L_k+1；

S7.将步骤S6获得的所有的频繁项集用于生成规则；

S8.过滤出能被规则分类的数据，不能被规则分类的数据重复执行步骤S1～步骤S7，直至没有规则生成。

优选地，所述1-候选项集C₁存储的形式如下：

{{属性1:值1}:支持度1}

{{属性1:值2}:支持度2}

{{属性2:值3}:支持度3}。

...

{{属性a:值v}:支持度f}

优选地，所述步骤S3具体执行如下：将1-候选项集C₁中的每一个项集的支持度与最小支持度MINSUP做比较，将支持度大于MINSUP的项集留下来构造一个1-频繁项集L₁。

优选地，所述1-频繁项集L₁的存储形式与1-候选项集C₁的存储形式一致。

优选地，所述步骤S5具体执行如下：

计算k+1-候选项集C_k+1中每一项的支持度，然后从k+1-候选项集中筛选出支持度高于最小支持度MINSUP的项集，构造k+1-频繁项集L_k+1。

优选地，所述k+1-候选项集C_k+1的存储形式如下：

{属性a₁:值v₁，属性a₂:值v₂，...，属性a_n:值v_m}。

与现有技术相比，本发明的有益效果是：

本发明提供的数据挖掘方法根据MapReduce框架和RDD数据结构对关联规则树挖掘算法进行了并行化创新，使得挖掘方法的执行效率更高，同时本发明能在可扩展的大规模分布式平台上执行关联规则树挖掘，在面对大规模数据量时可扩展机器以提升计算能力，在可接受的时间内得出关联规则树，用于较高准确度的分类决策。

附图说明

图1为本发明的算法流程图。

图2为并行计算平台Spark RDD原理图。

图3为本发明并行化运行原理图。

图4为本发明在不同数据上加速比展示图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明涉及一种面向大规模数据的关联规则树挖掘方法，如图2所示，该方法的执行平台为并行计算平台Spark RDD，算法的流程及并行化运行的原理分别如图1、图3所示，图4为本发明提供的方法在在不同数据上加速比展示图。

如图1、3所示，本发明提供的方法包括以下步骤：

第一步：数据预处理。原始数据可能是各种形式的数据，不利于存取也不利于遍历，比如数据库文件、文本文件等，需要将它处理为有一定数据结构的、内存存储的，分布式的便于遍历的数据。理想的处理结果是每一行数据以以下这种形式存在

{行号:{{属性1:值1}，{属性2:值2}...{属性a:值v}}}

这里有个重要的提示，由于ART是一种解决分类问题的算法，所以在频繁项挖掘的过程中，“类别”是当成一个属性来看待的；

第二步：生成1-候选项集C₁。这一步就是完整地遍历每一行数据，将数据以每一项包含属性名、值名、支持度(这里就是指出现频度)缓存起来，缓存所有的单项集，具体是以下形式：

{{属性1:值1}:支持度1}

{{属性1:值2}:支持度2}

{{属性2:值3}:支持度3}

...

{{属性a:值v}:支持度f}

这里假设数据中存在N个属性，第i个属性存在V_i个可能的属性值，则此步挖掘出来的1-候选项集的个数为：

Σ_{i = 1}^{N} V_{i}

第三步：由1-候选项集C₁生成1-频繁项集L₁。即将1-候选项集C₁中每一个单项集的支持度与参数最小支持度MINSUP做比较，将支持度大于MINSUP的项集留下来构造一个1-频繁项集L₁，存储的形式保持1-候选项集C₁的形式不变；

第四步：用k-频繁项集L_k生成k+1-候选项集C_k+1。这一步用到两份数据：(1)k-频繁项集；(2)1-频繁项集(L₁)。假设L_k中某一个项集为I，找出该项集中属性名最靠右的属性，设为A，然后在L₁中找到一个比A更靠右的属性，拼接到I的后面，则生成了一个比I多一个属性的项；将所有比A更靠右的属性，每一个都拼接到一个I的后面；对L_k中所有的项，都做与I相同的操作，则生成了C_k+1，存为以下形式：

{属性a₁:值v₁，属性a₂:值v₂，...，属性a_n:值v_m}

第五步：由k+1-候选项集C_k+1生成k+1-频繁项集L_k+1。如图需要两份数据：(1)预处理过的原始数据D；(2)k+1-候选项集C_k+1。这一步里，遍历D，数出C_k+1中的每一项在D中的出现次数，亦即计算C_k+1中的每一项的支持度，记录为如下形式：

{{属性a₁:值v₁，属性a₂:值v₂，...，属性a_n:值v_m，}:支持度f} (4.5)

然后根据参数最小支持度MINSUP，从C_k+1中筛选出支持度f高于MINSUP的项集，存为k+1-频繁项集L_k+1。

第六步：回到第四步骤，循环运行，由频繁项集生成多一项的候选项集，由候选项集筛选出频繁项集，直到不能再生成新的频繁项集。

第七步：将挖掘出来的频繁项用来生成规则；

第八步：过滤出能被规则分类的数据，余下的数据重新进入第一大步进行频繁项集挖掘，循环运行，直到没有好的规则生成。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向大规模数据的关联规则树挖掘方法，其特征在于：包括以下步骤：

S3.由1-候选项集C₁生成1-频繁项集L₁；

S4.由k-频繁项集L_k生成k+1-候选项集C_k+1：

S5.由k+1-候选项集C_k+1生成k+1-频繁项集L_k+1；

S6.重复执行步骤S4～S5直至不能生成新的k+1-频繁项集L_k+1；

S7.将步骤S6获得的所有的频繁项集用于生成规则；

2.根据权利要求1所述的面向大规模数据的关联规则树挖掘方法，其特征在于：所述1-候选项集C₁存储的形式如下：

{{属性1:值1}:支持度1}

{{属性1:值2}:支持度2}

{{属性2:值3}:支持度3}。

…

{{属性a:值v}:支持度f} 。

3.根据权利要求1所述的面向大规模数据的关联规则树挖掘方法，其特征在于：所述步骤S3具体执行如下：将1-候选项集C₁中的每一个项集的支持度与最小支持度MINSUP做比较，将支持度大于MINSUP的项集留下来构造一个1-频繁项集L₁。

4.根据权利要求3所述的面向大规模数据的关联规则树挖掘方法，其特征在于：所述1-频繁项集L₁的存储形式与1-候选项集C₁的存储形式一致。

5.根据权利要求3所述的面向大规模数据的关联规则树挖掘方法，其特征在于：所述步骤S5具体执行如下：

6.根据权利要求5所述的面向大规模数据的关联规则树挖掘方法，其特征在于：所述k+1-候选项集C_k+1的存储形式如下：

{属性a₁:值v₁，属性a₂:值v₂，...，属性a_n:值v_m}。