CN106126341A

CN106126341A - 应用于大数据的多计算框架处理系统及关联规则挖掘方法

Info

Publication number: CN106126341A
Application number: CN201610459965.6A
Authority: CN
Inventors: 李彤岩; 张婷; 赵伦; 苟瀚元; 徐嘉临
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2016-11-16

Abstract

本发明公开了一种应用于大数据的多计算框架处理系统及关联规则挖掘方法。所述系统包括一个分布式计算机集群，共享该分布式计算机集群的mapreduce系统框架及spark系统框架，所述计算机集群包括组成事务数据库的数据库集群、交换机、应用服务器、Hadoop集群、Spark集群。本发明利用集群分配计算任务，利用多节点并行计算和分布式存储的优势，将多计算框架与关联规则挖掘算法结合起来，将分割事务集和剪枝策略结合起来，减少了数据的处理量，有效地提高了处理效率；同时，通过直接扫描value来求解条件模式基，在克服共享内存的局限性方面有了较大提升，使得计算资源得以均衡分配，有效地解决了传统项集挖掘算法存在计算和存储能力不足的问题。

Description

应用于大数据的多计算框架处理系统及关联规则挖掘方法

技术领域

本发明属于大数据技术领域，尤其涉及到应用于大数据的多计算框架处理系统及关联规则挖掘方法。

背景技术

大数据（big data）指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》说明了大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）Veracity（真实性）。

近年来，大数据已渗透到社会的各行各业中，它的迅速崛起深刻改变了人们的生活和思维模式。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。大数据挖掘的关键问题是数据挖掘算法的并行化。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据最核心的价值在于它能对海量数据进行存储和分析。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

随着现今社会所产生的越来越大的数据量，传统的串行挖掘技术已经越来越难以满足大数据环境下日益复杂的应用需求，而分布式数据挖掘技术相对于传统的挖掘方法，它能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行子任务以及收集计算结果，在数据分布存储、数据通信、容错处理等方面优于其他数据挖掘技术算法。

为了更好地实现并行处理，将多种计算模型（mapreduce、spark）集成在同一个计算机集群中，利用各个计算模型的运行特点，可以高效的利用集群的计算资源。

发明内容

为解决上述问题，本发明提供了应用于大数据的多计算框架处理系统及关联规则挖掘方法。

所述系统包括一个分布式计算机集群，共享该分布式计算机集群的mapreduce系统框架及spark系统框架，所述计算机集群包括组成事务数据库的数据库集群、交换机、应用服务器、Hadoop集群、Spark集群。进一步的，所述数据库集群为OracleRAC集群。进一步的，所述OracleRAC集群包括多个节点计算机。进一步的，所述 Hadoop与Spark集群包括万兆交换机和多个节点计算机，各个节点计算机分别连接所述万兆交换机。

上述系统的关联规则挖掘方法包括如下步骤：

S1： MapReduce系统将整个事务数据库中的数据分成一些连续的局部数据片段，并将这些局部数据片段分发给不同的机器储存。

S2：MapReduce系统各个局部数据片段分配map任务，各个map任务以并行的方式执行一项频繁项集统计任务，并将统计结果保存到分布式缓存中。

S3：将统计的各个一项频繁项集结果映射到全局事务数据库的一项频繁项集集合，进行全局支持度计数并按降序排序，删除支持度计数小于最小支持度计数的项，剩余的项以F-List的存储结构进行存储。

S4：对频繁模式树采用剪枝策略，压缩项的规模；

S5：求解条件模式基，进行局部数据片段频繁项集的挖掘：运行Mapreduce 任务，Map任务中为每个局部数据片段构造FP树，挖掘局部频繁项集，Reducer任务中合并结果得到全局频繁项集，通过局部合并与全局频繁项集对比后剩下的集合中的元素保存到分布式文件中；

S6：运行一个MapReduce 任务，统计上一步中存放于分布式文件中的频繁项集的支持度计数，将满足最小支持度阈值的频繁项集加入到全局频繁项集。

进一步的，所述S4中剪枝策略的具体方法为：根据由下到上、深度优先的原则，从频繁模式树中的最小子节点开始，对于每条路径中支持度小于最小支持度的子节点，如果它的父节点的兄弟节点或者父节点含有和该子节点相同的模式，则合并它们并且删除该子节点，否则直接删除该节点。

进一步的，所述步骤S5中，以＜ key， value ＞键值对为数据模型通过直接扫描value 来求解条件模式基，其中key 为事务项唯一标识， value 为事务集。

进一步的，所述步骤S5中，以＜ key， value ＞键值对通过直接扫描value来求解条件模式基的步骤包括：

步骤一：读取事务数据库，对＜ key， value ＞键值对的value值按照一项频繁集支持度计数排序，删除支持度小于最小支持度阈值的项，得到一个新的键值对。

步骤二：从value的第二个项开始扫描直到value的最后项为止得到对应的项的前缀。

步骤三：通过扫描求得对应项的条件模式基。

附图说明

图1为多计算框架处理系统的结构示意图。

图2为关联规则挖掘方法流程图。

具体实施方式

一种基于多计算框架的系统，所述系统包括一个分布式计算机集群，共享该分布式计算机集群的mapreduce框架及spark框架，所述计算机集群包括组成事务数据库的数据库集群、交换机、应用服务器、Hadoop集群、Spark集群。所述分布式计算机群接入Internet。

本发明结合各个计算模型的运行特点，可以高效的利用集群的计算资源。Hadoop、Spark均基于mapreduce框架，spark是的RDD集一种抽象类，它将一些常用的mapreduce数据处理模型封装成类，spark的中间数据保存在内存上，利用大量内存空间保留计算中间数据，加速数据处理过程。相比于Hadoop，spark在迭代计算上的计算速度优势比较明显。spark利用内存RDD集加入用于实时计算的流处理；当出现故障后的不用重启slave主机就可快速回滚，而且spark还可以利用RDD集将所有slave节点上的内存结合磁盘的合理使用以解决数据的异常和存储问题。

多计算框架利用mesos作为整个计算机集群的framework来控制底层的五台物理主机，完成计算资源的分配、执行计算任务和监控运行状态。在此基础上，其可以兼容目前主流的分布式计算项目：Hadoop、spark。hadoop只启用HDFS作为分布式的数据存储部分。当然，处理一些超大规模数据量的细颗粒度计算任务的时候使用hadoop。而spark主要是作为数据挖掘中的数据清洗工具，其高效的数据处理速度相比hadoop，有过之而无不及。

本申请中，所述数据库集群为OracleRAC集群。该 OracleRAC集群包括多个节点计算机。所述 Hadoop集群与Spark集群包括万兆交换机和多个节点计算机，械所述节点计算机分别连接所述万兆交换机。

所述系统包括至少一个应用服务器，可为第一应用服务器和第二应用服务器。

上述系统的关联规则挖掘算法包括如下步骤：

S1：数据划分：MapReduce系统将整个事务数据库中的数据分成一些连续的局部数据片段，并将这些局部数据片段分发给不同的机器储存。

S2：并行扫描与频繁项集统计：MapReduce系统各个局部数据片段分配map任务，各个map任务以并行的方式执行一项频繁项集统计任务，并将统计结果保存到分布式缓存中.

S4：对频繁模式树采用剪枝策略，压缩项的规模。

剪枝策略具体方式为：根据由下到上、深度优先的原则，从频繁模式树中的最小子节点开始，对于每条路径中支持度小于最小支持度的子节点，如果它的父节点的兄弟节点或者父节点含有和该子节点相同的模式，则合并它们并且删除该子节点，否则直接删除该子节点，循环执行，直到遍历完所有子节点。

S5：求解条件模式基，进行局部数据片段频繁项集的挖掘：运行Mapreduce 任务，Map任务中为每个局部数据片段构造FP树，挖掘局部频繁项集，Reducer任务中合并结果得到全局频繁项集，通过局部合并与全局频繁项集对比后剩下的集合中的元素保存到分布式文件中。一般来说，保存到分布式文件中的项为合并后的局部频繁项集与全局频繁项集相减的结果。

本发明中以＜key，value＞ ( 其中key 为事务项唯一标识，value 为事务集) 键值对为数据模型通过直接扫描value 来求解条件模式基。

以＜key，value＞键值对通过直接扫描value来求解条件模式基的步骤为：

（1）读取事务数据库，对＜key，value＞键值对的value值按照一项频繁集支持度计数排序，删除支持度小于最小支持度阈值的项，得到一个新的键值对。

（2）从value的第二个项开始扫描直到value的最后项为止得到对应的项的前缀。

（3）通过扫描求得对应项的条件模式基。

S6：对部分候选全局频繁项集并行统计：运行一个MapReduce 任务，统计上一步中存放于分布式文件中的频繁项集的支持度计数，将满足最小支持度阈值的频繁项集加入到全局频繁项集。

所述模式树为运行MapReduce 任务时，经过Map阶段事务数据库中的数据被处理为相应的数据块后，在Reduce阶段将获取到的数据块构建成子模式树。

本发明所述依据算法为FP-Growth算法。

本发明的有益效果为：

本发明基于大数据平台的多计算框架，利用集群分配计算任务及多节点并行计算和分布式存储的优势，将多计算框架与关联规则算法结合起来，并将分割事务集数据和剪枝策略结合起来，减少了数据的处理量，有效地提高了处理效率。同时，通过直接扫描value来求解条件模式基，较传统通过头链表访问FP树求得条件模式基的方法更加简便。本发明在克服共享内存的局限性方面有了较大提升，使得计算资源得以均衡分配，有效地解决了传统项集挖掘算法存在计算和存储能力不足的问题，具有较高的效率，并且具有良好的可扩展性。

Claims

1.应用于大数据的多计算框架处理系统，其特征在于，所述系统包括一个分布式计算机集群，共享该分布式计算机集群的mapreduce系统框架及spark系统框架，所述分布式计算机集群包括组成事务数据库的数据库集群、交换机、应用服务器、Hadoop集群、Spark集群。

2.如权利要求1所述的应用于大数据的多计算框架处理系统，其特征在于，所述数据库集群为OracleRAC集群。

3.如权利要求1所述的应用于大数据的多计算框架处理系统，其特征在于，所述OracleRAC集群包括多个节点计算机。

4.如权利要求1所述的应用于大数据的多计算框架处理系统，其特征在于，所述Hadoop与Spark集群包括万兆交换机和多个节点计算机，各个节点计算机分别连接所述万兆交换机。

5.如权利要求1所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法，其特征在于，包括如下步骤：

S1： MapReduce系统将整个事务数据库中的数据分成一些连续的局部数据片段，并将这些局部数据片段分发给不同的机器储存；

S2：MapReduce系统各个局部数据片段分配map任务，各个map任务以并行的方式执行一项频繁项集及其支持度计数的统计任务，并将统计结果保存到分布式缓存中；

S3：将统计的各个一项频繁项集结果映射到全局事务数据库的一项频繁项集集合，进行全局支持度计数并按降序排序，删除支持度计数小于最小支持度计数的项，剩余的项以F-List的存储结构进行存储；

S4：对频繁模式树采用剪枝策略，压缩项的规模；

S6：运行一个MapReduce 任务，统计上一步中存放于分布式文件中的频繁项集的支持度计数，将满足最小支持度的频繁项集加入到全局频繁项集。

6.如权利要求5所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法，其特征在于，所述S4中剪枝策略的具体方法为：根据由下到上、深度优先的原则，从频繁模式树中的最小子节点开始，对于每条路径中支持度小于最小支持度阈值的子节点，如果它的父节点的兄弟节点或者父节点含有和该子节点相同的模式，则合并它们并且删除该子节点，否则直接删除该节点。

7.如权利要求5所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法，其特征在于，所述步骤S5中，以＜ key， value ＞键值对为数据模型通过直接扫描value 来求解条件模式基，其中key 为事务项的唯一标识， value 为事务集。

8.如权利要求7所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法，其特征在于，所述步骤S5中，以＜ key， value ＞键值对通过直接扫描value来求解条件模式基的步骤包括：

步骤一：读取事务数据库，对＜ key， value ＞键值对的value值按照一项频繁项集支持度计数排序，删除支持度小于最小支持度阈值的项，得到一个新的键值对；

步骤二：从value的第二个项开始扫描直到value的最后项为止得到对应的项的前缀；

步骤三：通过扫描求得对应项的条件模式基。