CN110489448A

CN110489448A - 基于Hadoop的大数据关联规则的挖掘方法

Info

Publication number: CN110489448A
Application number: CN201910672220.1A
Authority: CN
Inventors: 邢毓华; 李明星
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-22

Abstract

本发明公开的基于Hadoop的大数据关联规则的挖掘方法，首先输入待挖掘大数据集，对大数据集进行分块；然后使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务；最后，使用kulczynski度量和不平衡比对频繁项集进行评估，剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集，确保所挖掘频繁模式具有正相关性。本发明公开的方法避免了一阶段MapReduce过程极大的内存和I/O消耗和多阶段MapReduce过程的效率低下。减小了候选项集的数量，利用十字链表的特性，快速得到候选项集的支持度，不需要多次扫描数据库，并且能够确保了所挖掘项集的正相关性，可以应用到实际决策中。

Description

基于Hadoop的大数据关联规则的挖掘方法

技术领域

本发明属于大规模数据挖掘技术领域，具体涉及一种基于Hadoop的大数据关联规则的挖掘方法。

背景技术

传统的关联规则挖掘算法主要可以分为三类：第一类为“产生-测试”方法，通过迭代产生候选频繁项集并进行分别计数，统计得到频繁项集，第二类为“模式增长”方法，它不用不产生候选项集，而是将所有频繁项压缩成一种特殊的数据结构(一般为树结构)，通过在数据结构上进行遍历直接产生频繁项集。第三类为“垂直格式”方法，是将水平格式的数据集转换成垂直格式，通过交运算来得到频繁项集。

随着信息技术的快速发展，需要存储和分析的数据量呈爆炸性增长，人类已经进入了大数据时代，传统的关联规则挖掘算法已经不能适应在大数据挖掘的要求，主要困难是：单一计算机无法存储所需要挖掘的所有数据及挖掘过程中产生的中间结果；挖掘过程所需要的内存远远超过单一机器的存储量，计算时间太长无法忍受等问题。

发明内容

本发明的目的是提供一种基于Hadoop的大数据关联规则的挖掘方法，能够快速高效挖掘出大数据中的关联规则。

本发明所采用的技术方案是，基于Hadoop的大数据关联规则的挖掘方法，具体操作过程包括如下步骤：

步骤1，输入待挖掘大数据集，对大数据集进行分块；

步骤2，使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务；

步骤3，使用kulczynski度量和不平衡比对频繁项集进行评估，剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集，确保所挖掘频繁模式具有正相关性。

本发明的其他特点还在于，

步骤1的具体过程如下：使用Hadoop核心组件HDFS对大数据集进行分块，为了保证数据完整性，副本数设置为3。

优选的，步骤2包括如下过程：

步骤2.1，使用Map函数生成局部候选频繁项集，使用Reduce函数合并所有局部候选频繁项集，剔除不符合支持度要求的局部候选频繁项集；

步骤2.2，采用Map函数计算所有局部候选频繁项集在所有数据分块中的支持度，使用Reduce函数合并所有候选项集的支持度，剔除不满足最小支持度要求的项集。

优选的，步骤2.1的具体过程如下：

步骤2.1.1，使用Map函数将分块数据集转化为关系矩阵，使用正交链表对该矩阵进行存储；

步骤2.1.2，采用高效的连接和剪枝操作生成局部候选频繁项集；

步骤2.1.3，利用正交链表快速得到局部候选频繁项集的支持度，并使用Reduce函数将所有局部候选频繁项集进行汇总。

优选的，步骤2.1.1的具体过程如下：

首先，扫描步骤1得到的分块数据集，将分块数据集转化为如下关系矩阵：

其中，|I|为数据库包含的项目数，|D|为事务数据库包含的事务数。

然后利用正交链表对该矩阵进行存储，正交链表包含三种类型的节点，分别为M节点、H节点和E节点；其中，M节点为正交链表的表头节点；H节点为行/列表头节点，是正交链表中行链表或者列链表的表头节点；E节点为关系矩阵中非零元素对应的节点；

每种节点均包含四个域：Tag域、Element域、Right域和Down域；其中，Tag域为标志域，用以区分三种不同类型的节点；Element域为元素域，对正交链表表头节点来说，元素域中的二元组存储的是对应稀疏关系矩阵的行数和列数，即事务数据库D包含的事务数和项目数；对行表头节点来说，元素域中的二元组表示第几行和该行中包含的非零元素个数；对列表头节点来说，元素域中的二元组表示项目或项目集及该列中的非零元素个数；对非零元素节点来说，元素域中的二元组表示项目或项目集及包含该项目或项目集的事务编号；Right域为指针域，对正交链表表头节点来说其指向第一个列表头节点；对行表头节点来说，其指向该行第一个非零元素节点；对列表头节点来说，其指向下一个列表头节点；对非零元素节点来说，其指向该行下一个非零元素节点；Down域也为指针域，对正交链表表头节点来说其指向第一个行表头节点；对行表头节点来说，其指向下一个列表头节点；对列表头节点来说，其指向该列第一个非零元素节点；对非零元素节点来说，其指向该列下一个非零元素节点。

优选的，步骤2.1.2的具体过程如下：

连接操作是将频繁k-1项集组成的集合L_k-1与其自身进行连接，从而产生候选频繁k项集组成的集合C_k；

设m₁和m₂是频繁k-1项集集合L_k-1的任意两个成员，成员中的项目按字典次序排序，即对于成员m_i3，有m_i3[1]＜m_i3[2]＜…＜m_i3[k-1]，其中m_i3[i₄]表示成员m_i3中的i₄个项目，其中i₃∈{0，1}，i₄∈{1，2，…，k-1}，如果成员m₁和m₂中前k-2个项目均相同，成员m₁的第k-2个项目小于成员m₂的第k-2个项目，即(m₁[1]＝m₂[1])&&(m₁[2]＝m₂[2])&&…&&(m₁[k-2]＝m₂[k-2])&&(m₁[k-1]＜m₂[k-1])，则判定m₁和m₂是可连接的，连接m₁和m₂产生的结果是{m₁[1].m₁[2].……，m₁[k-1].m₂[k-1]}；

剪枝操作是将遍历频繁k-1项集集合对应的正交链表的列表头节点，对候选k项集集合C_k的成员c_i1行判断操作，若其包含k-1个元素的所有子集均在列表头节点中，则将成员c_i1保留在候选频繁项集集合C_k中，否则将其从C_k中删除。

优选的，步骤2.1.3的具体过程如下：

假设候选频繁k项集集合C_k中成员c_i1＝{I₁，I₂，…，I_k}＝{I₁，I₂，…，I_k-1}∪{I_k}，则事务集合T(c_i)＝T(I₁，I₂，…，I_k-1，I_k)＝T(I₁，I₂，…，I_k-1)∩T(I_k)，即包含项集集合c_i1的事务集合T(ci)是包含项集集合{I₁，I₂，…，I_k-1}的事务集合T(I₁，I₂，…，I_k-1)与包含项集集合{I_k}的事务集合T(I_k)的交集，遍历频繁k-1项集集合对应的正交链表中项集{I₁，I₂，…，I_k-1}对应的列，得到事务集合T(I₁，I₂，…，I_k-1)，遍历频繁1项集集合对应的正交链表中项集集合{I_k}对应的列，得到事务集合T(I_k)，则通过下式计算k项集集合c_i1的支持度：

sup({I₁，I₂，…，I_k})＝N(T(I₁，I₂，…，I_k-1)∩T(I_k))/|D|

其中，k∈[1，n]；N(T(I₁，I₂，…，I_k-1)∩T(I_k))表示事务集合T(I₁，I₂，…，I_k-1)和事务集合T(I_k)的交集所包含的事务数；

剔除不符合支持度要求的局部候选频繁项集，将剩余的局部候选频繁项集构建新的正交链表，重复步骤2.12和步骤2.1.3，直到没有新的局部频繁项集产生为止。

优选的，步骤2.2的具体过程如下：

使用Map函数在计算所有局部频繁项集在所有数据分块中的支持度时，使用步骤2.1.3过程中保留的项集支持度，减少对十字链表的扫描。

优选的，步骤3的具体过程如下：

kulczynski度量由于具有零不变性且不受事务个数影响，能够有效评估挖掘的频繁项集之间的相关性，给定两个项集A和B；kulczynski度量公式如下：

其中，P(A|B)表示同时包含项集A和B的事务数占只包含项集A的事务数的比例，P(B|A)表示同时包含项集A和B的事务数占只包含项集B的事务数的比例；

同时使用不平衡比来评估两个项集之间的不平衡程度，不平衡比越小，效果越好，其公式如下：

其中，sup(A)表示项集A的支持度，sup(B)表示项集B的支持度，sup(A∪B)表示项集A与项集B组成的并集的支持度。

本发明的有益效果是，基于Hadoop的大数据关联规则的挖掘方法，使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务，既有效避免了一阶段MapReduce过程极大的内存和I/O消耗，又避免了多阶段MapReduce过程的效率低下。用十字链表来压缩数据库，减少了对数据库的扫描。采用的高效连接和剪枝策略，减小了候选项集的数量。利用十字链表的特性，可以快速得到候选项集的支持度，不需要多次扫描数据库。利用kulczynski度量和不平衡比来评估频繁项集，确保了所挖掘项集的正相关性，可以应用到实际决策中。因此，本发明能够快速挖掘出大数据集中具有实际意义的关联规则，能够满足实际需要。

附图说明

图1是本发明的一种基于Hadoop的大数据关联规则的挖掘方法流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的基于Hadoop的大数据关联规则的挖掘方法，如图1所示，具体操作过程包括如下步骤：

步骤1，输入待挖掘大数据集，对大数据集进行分块；

步骤2，使用两阶段MapReduce程来完成大数据集中关联规则的挖掘任务；

步骤2包括如下过程：

步骤2.1的具体过程如下：

步骤2.1.2的具体过程如下：

剪枝操作为遍历频繁k-1项集集合对应的正交链表的列表头节点，对候选k项集集合C_k的成员c_i1进行判断操作，若其包含k-1个元素的所有子集均在列表头节点中，则将成员c_i1保留在候选频繁项集集合C_k中，否则将其从C_k中删除。

步骤2.1.3的具体过程如下：

sup({I₁，I₂，…，I_k})＝N(T(I₁，I₂，…，I_k-1)∩T(I_k))/|D|

步骤2.2的具体过程如下：

步骤3的具体过程如下：

kulczynski度量由于具有零不变性且不受事务个数影响，能够有效评估挖掘的频繁项集之间的相关性，给定两个项集A和B；其kulczynski度量公式如下：

Claims

1.基于Hadoop的大数据关联规则的挖掘方法，其特征在于，具体操作过程包括如下步骤：

步骤1，输入待挖掘大数据集，对大数据集进行分块；

2.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤1的具体过程如下：使用Hadoop核心组件HDFS对大数据集进行分块，为了保证数据完整性，副本数设置为3。

3.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2包括如下过程：

4.如权利要求3所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2.1的具体过程如下：

5.如权利要求4所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2.1.1的具体过程如下：

其中，|I|为数据库包含的项目数，|D|为事务数据库包含的事务数；

然后利用正交链表对该矩阵进行存储，所述正交链表包含三种类型的节点，分别为M节点、H节点和E节点；其中，M节点为正交链表的表头节点；H节点为行/列表头节点，是正交链表中行链表或者列链表的表头节点；E节点为关系矩阵中非零元素对应的节点；

6.如权利要求4所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2.1.2的具体过程如下：

7.如权利要求6所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2.1.3的具体过程如下：

sup({I₁，I₂，…，I_k})＝N(T(I₁，I₂，…，I_k-1)∩T(I_k))/|D|

8.如权利要求3所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤2.2的具体过程如下：

9.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法，其特征在于，所述步骤3的具体过程如下：