CN104834557A

CN104834557A - 一种基于Hadoop的数据分析方法

Info

Publication number: CN104834557A
Application number: CN201510252955.0A
Authority: CN
Inventors: 高爽
Original assignee: Chengdu Boyuan Technology Co Ltd
Current assignee: Shanghai Pengjing Digital Marketing Planning Co Ltd
Priority date: 2015-05-18
Filing date: 2015-05-18
Publication date: 2015-08-12
Anticipated expiration: 2035-05-18
Also published as: CN104834557B

Abstract

本发明提供了一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，所述数据分析处理系统基于Hadoop平台作为计算环境，该数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，使用Hadoop中的MapReduce插件作为开发工具，所述MapReduce对数据的操作包括Map操作和Reduce操作，所述Map操作是对输入的键值对进行指定的操作，生成一组中间键值对，所述Reduce操作对Map操作输出的中间键值对进行规约合并。本发明的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。

Description

一种基于Hadoop的数据分析方法

技术领域

本发明涉及大数据处理，特别涉及一种基于Hadoop的数据分析方法。

背景技术

云计算借助互联网平台，提供廉价的分布式动态可扩展的计算能力。云计算可以使实现物物相连、网网相通的理想效果。多种信息传感设备在中相互通信，产生的数据是海量的。因此如何生成的海量大数据中快速有效地提取出有用的信息是至关重要的。传统的数据处理方法存在的缺点就是在执行过程中要多次扫描整个数据库，产生庞大的候选集，造成时间和空间的浪费。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，包括：

所述数据分析处理系统基于Hadoop平台作为计算环境，该数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，使用Hadoop中的MapReduce插件作为开发工具，所述MapReduce对数据的操作包括Map操作和Reduce操作，所述Map操作是对输入的键值对进行指定的操作，生成一组中间键值对，所述Reduce操作对Map操作输出的中间键值对进行规约合并。

优选地，所述待分析的数据由所述数据存储模块存储并转换为数据库文件，保存到Hadoop平台的HDFS中；所述数据分析模块利用云计算平台的分布式并行计算的属性将关联规则生成过程交由MapReduce处理，运用于云计算平台，由主程序负责事务的创建、管理控制，按照用户的请求将数据分析事务传输到相应的节点进行计算；所述事务处理模块由主程序负责所有数据分析处理事务的调度，并将最终结果返回给用户，其中所述MapReduce编程模型只提供相关接口给上层模块而将底层的实现细节进行屏蔽。

优选地，所述将关联规则生成过程交由MapReduce处理，进一步包括：

(1)MapReduce将事务数据库D水平地划分成n块，通过参数确定每块的大小，把n个数据子集发送到m个执行Map事务的节点，由主程序负责调度，将处理事务分配给处于空闲列表中的工作机；

(2)格式化n个数据子集，产生ID，Value键值对，其中ID表示D中的事务ID，Value为相应事务ID对应的列表值；

(3)Map操作对输入的每个ID，Value键值对进行扫描，生成一个局部候选1项目集到候选k项目集的集合CP，每个候选项目集的cs初始值都设定为1，Map操作输出中间结果Itemset，1键值对，其中Itemset表示CP中的候选项目集；

(4)在每个执行Map函数的工作机上增加一个可选的分区函数，将Map操作产生的中间结果进行合并，输出中间键值对Itemset，s，其中s表示Itemset在数据子集中的cs的累加值，然后利用散列函数：

hash (m_{1}, m_{2}, m_{3}, . . ., m_{k}) = Σ_{j = 1}^{k} 10^{k - j} m^{j} \mod r

其中m₁，m₂，m₃，…，m_k为K项目集中的项在D的项目集中对应的序号，按升序排列，r为划分的不同分区的数目，将分区函数产生的Itemset，s分成r个分区，主程序负责将各分区分配到对应的Reduce函数；

(5)Reduce节点读取分区函数提交的键值对Itemset，s，对其进行排序及合并后，形成Itemset，list(s)，再进行相应Reduce操作，得到各候选项目集在D中的实际支持数累计值，保留所有大于等于最小支持数累计值Smin的候选项目集，即是局部项目集的集合L^P；合并r个分区中Reduce函数输出的项目集，得到最终的项目集的集合L；

(6)当完成全部的Map操作和Reduce操作后，主程序激活用户程序，MapReduce返回到相应的调用点。

本发明相比现有技术，具有以下优点：

本发明的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。

附图说明

图1是根据本发明实施例的基于Hadoop的数据分析方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于Hadoop的数据分析方法。图1是根据本发明实施例的基于Hadoop的数据分析方法流程图。基于云计算的数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，本发明使用Hadoop平台作为计算环境，开发工具使用的是Hadoop自带的MapReduce插件。MapReduce是一种可以对大数据进行并行计算处理的分布式编程模型。对数据的操作主要分为两步：Map和Reduce，Map操作是对输入的形如(key，value)的键值对进行指定的操作，生成一组中间键值对。Reduce操作就是对Map操作输出的中间键值对进行规约合并。

本发明在云计算平台上对传统关联规则生成方法进行改进，首先通过迭代，查查找数据库中所有支持数不低于用户所设定阈值的项目集，然后利用检索得到的项目集来构造可以满足最小置信度的规则。做相应改进之后的关联规则生成方法要生成所有的项目集，只要对事务数据库进行一遍扫描就可以完成。利用云计算的分布式并行计算的属性，对改进的关联规则生成方法进行MapReduce处理，移植到云计算平台，使其能够应用于基于云计算的数据分析处理。

本发明优选的关联规则生成过程包括：

(1)为了获得较好的负载均衡，以16Mb大小的数据集为一个单位进行分配，将事务数据库D水平均匀地划分成n个子集，将其发送到m个工作节点。

(2)候选项目集X的支持数的累计值记为cs(X)，设定每个cs(X)的初始值均为1，每个工作节点扫描各自分配到的子集，产生一个包含候选1项目集一直到候选K项目集的集合，记作CP。

(3)定义一个分区函数，将m个工作节点生成的候选1项目集一直到候选K项目集分成r个不同的分区，连同各自cs发送到r个节点。各节点把同一项目集的cs累加，得到各项目集的最终cs，将其与预先设定的最小支持数的累计值Smin进行比较，删除支持数小于Smin的项目集，确定一个局部的项目集集合L^P。

(4)合并所有节点的结果，就生成全局的项目集集合L。

(5)根据设定的最小置信度cm遍历项目集，得到强关联规则，过程结束。

依据以上思路改进的关联规则生成方法只需要扫描一遍事务数据库就能找到所有的项目集。

本发明的数据由数据存储模块存储并转换为数据库文件，保存到HDFS中；数据分析模块利用云计算平台的分布式并行计算的属性将改进的关联规则生成方法交由MapReduce处理，运用于云计算平台，由主程序负责事务的创建、管理控制，按照用户的请求将算法传输到相应的节点进行计算；事务处理模块由主程序负责所有数据分析处理事务的调度，并将最终结果返回给用户。MapReduce编程模型只提供相关接口给上层模块而将底层繁琐的实现细节进行屏蔽，减小了编程难度。

上述改进的关联规则生成方法可以用MapReduce编程模型来实现，具体的操作过程如下：

(1)MapReduce将事务数据库D水平地划分成n块，通过参数确定每块的大小，本发明中设定每块的大小为16Mb。把n个数据子集发送到m个执行Map事务的节点。由主程序负责调度，将处理事务分配给处于空闲列表中的工作机。

(2)格式化n个数据子集，产生ID，Value对，其中ID表示D中的事务ID，Value为相应事务ID对应的列表值。

(3)Map函数对输入的每个ID，Value进行扫描，生成一个局部候选1项目集到候选k项目集的集合CP。每个候选项目集的cs初始值都设定为1。Map函数输出中间结果Itemset，1键值对，其中Itemset表示CP中的候选项目集。

(4)首先在每个执行Map函数的工作机上增加一个可选的分区函数，将Map函数产生的中间结果进行合并，输出中间键值对Itemset，s，s表示Itemset在数据子集中的cs的累加值，然后利用散列函数：

hash (m_{1}, m_{2}, m_{3}, . . ., m_{k}) = Σ_{j = 1}^{k} 10^{k - j} m^{j} \mod r

其中m₁，m₂，m₃，…，m_k为K项目集中的项在D的项目集中对应的序号，按升序排列，r为划分的不同分区的数目)，将分区函数产生的Itemset，s分成r个分区，主程序负责将各分区分配到对应的Reduce函数。

(5)Reduce节点读取分区函数提交的键值对Itemset，s，对其进行排序及合并后，形成Itemset，list(s)，再进行相应Reduce操作，得到各候选项目集在D中的实际支持数累计值，保留所有大于等于最小支持数累计值Smin的候选项目集，即是局部项目集的集合L^P。合并r个分区中Reduce函数输出的项目集，得到最终的项目集的集合L。

(6)当完成全部的Map操作和Reduce操作后，用户程序被主程序所激活，MapReduce返回到相应的调用点。

将改进的关联规则生成方法用MapReduce编程模型来实现，只需要对事务数据库扫描一次，就可以得到完整的项目集L，加快了并行处理的速度，大大提高了执行效率。

根据本发明的另一方面，提供了一种大数据的关联规则的分析方法。分析处理关联规则的核心是通过统计数据项获得项目集，但是随着大数据的数量不断增长，数据量级别已经到达TB级甚至PB级，传统的单节点串行算法已经无法满足数据量急剧增长的需要，与此同时，随着数据集的动态增长，隐藏的关联规则也会随之发生变化。

本发明将改进串行方式关联规则分析处理效率较低、大数据更新分析处理等问题，提出一种基于云计算的关联规则更新算法，提出一种单节点环境下的关联规则更新方法，可以有效地解决规模较小的关联规则增量分析处理问题。(2)采用MapReduce函数对的设计方法，将关联规则更新方法并行化，提出基于云计算的关联规则更新算法。提出一种关联规则更新的云计算框架，并且可以扩展到其它数据类型的分析处理应用中。

云计算技术与大数据处理紧密相关，利用云计算来解决大规模树数据分析处理是一个具有发展潜力的方向。在存储能力方面，云计算平台提供的树数据存储与维护能力是传统数据库无法比拟的，海量树数据容量可能达几百GB甚至TB级别，如果用传统数据库进行存储维护成本会较大，而云计算平台则提供了分布式的存储模式，可以将大量普通计算机的存储能力和计算能力汇聚在一起，为大数据提供足够空间，同时云计算环境还提供了数据备份、并发控制、一致性维护和可靠性等策略，可以为大数据提供可靠保障。在处理能力方面，云计算平台提供了分布式处理能力，利用该特点，可以对数据分析处理过程进行并行处理，可以显著提高大数据分析处理的能力。

在灵活性与可伸缩性方面，云计算平台具备良好的灵活性与可伸缩性，非常适合对数据量弹性变化较大的海量树数据进行处理。云计算平台提供了向现有云中扩充节点的功能，以提高计算资源与存储容量。

MapReduce模型主要包括Hadoop与HOP系统，本发明将利用MapReduce模型来处理海量数据。在Hadoop平台中执行MapReduce操作的各阶段的工作流程如下：

(1)输入文件：MapReduce库将输入的大数据文件分成若干独立的数据，并在不同的机器上进行程序数据的备份。

(2)分配事务：MapReduce中主程序节点分配子事务，并将子事务递交给空闲的工作机节点中。

(3)生成键值对：被分配的子事务的工作节点读取输入的的文件，从中解析出key/value键值对，并调用用户编写的Map函数处理键值对，并生成中间键值对。

(4)发送消息：分区函数将这些中间数据分成若干区，将各个区在磁盘中位置信息发送给主程序，然后转发给Reduce子事务节点。

(5)调用中间数据：Reduce子事务节点获取由主程序转发的子事务后，根据位置信息调用磁盘上中间数据，并对这些中间按key值进行排序，相同key值进行合并操作。

(6)执行Reduce函数：Reduce子事务节点遍历排序后的中间数据，并将数据传递给用户定义的Reduce函数。其执行结果将被输出到最终的输出文件中。

(7)输出结果：等所有Reduce子事务完成后，主程序节点将所有数据返回给用户程序，用户程序合并数据并输出最终数据。

基于Hadoop平台的MapReduce算法工作流程简单，在设计时只需考虑事务的分配策略与MapReduce函数对的设计，而对于其它并行计算中的复杂问题，如工作调度、容错处理、分布式存储、网络通信等则交给Hadoop平台进行处理。因此，本发明将基于Hadoop平台设计出一种关联规则更新算法以改善大数据的更新分析处理效率。

为提高算法的执行效率，利用项目集的所有非空子集也是的这一性质，可以对候选k项目集进行剪枝操作，以提高算法运行效率。然而当数据集发生更新时，传统的关联规则生成方法已经满足新的需求，只能重新扫描数据库分析处理项目集，这样会极大地增加分析处理时间与消耗系统资源。因此本发明首先提出在单计算节点下的关联规则更新方法，算法描述如下：

(1)获取原数据库TDB，项目集L_k，新增数据库tdb，最小支持数s，对所有的X∈Lk，扫描新增数据集tdb，得到X在TDB∪tdb中的支持数s(TDB∪tdb)，若s(TDB∪tdb)<s×(TDB+tdb)，则将X从Lk中进行删除。

(2)在tdb中查找所有的候选k项目集C_k，对所有的X∈C_k，扫描tdb并计算每个候选项目集的支持数，若支持数小于s×tdb，则将X从C_k中去除，以此得到一个更加精简的候选项目集的集合C′_k。

(3)扫描原始数据库TDB，更新C_k中所有候选项目集的支持数，并发现TDB∪tdb中新的项目集，这些新的项目集与上述更新后的L_k共同组成了新数据库中的项目集L_k ^*。

在关联规则更新方法的执行过程中，每次迭代只需要扫描整个数据库一次，对于新产生的项目集，首先根据候选项目集在新增数据库tdb中的支持数进行修剪，然后再判断在总数据库中是否，这样可以大大减少扫描数据库的次数，因此该方法在更新发生时的执行效率要比使用关联规则生成方法要好。

但是，当数据库较大或更新时，关联规则更新方法会因为计算量的急剧增加而导致运行效率的降低。因此，设计一个基于云计算的关联规则更新算法来解决大数据分析处理的问题。当数据集发生更新时，若数据量大于预定义阈值，则云计算平台采用MapReduce模型，将关联规则的更新在多个分布式节点中执行并行化处理，否则在单节点中执行关联规则的更新。

基于云平台的关联规则更新方法设计一个主程序，首先由主程序对新增数据库tdb进行项目集的分析处理，得到tdb中所有的项目集L(tdb)，将原有的项目集L(TDB)与L(tdb)进行对比，查找其公共部分并放入最终的项目集L^*中，剩余的项目集L(TDB)与L(tdb)记为C_R。然后进行MapReduce操作，算法描述如下：

Map操作：并行扫描原始数据库与新增数据库，根据原有的项目集与C_R，对数据进行格式化操作形成键值对<T_num，L_k>，并将所有键值对作为中间数据传递给Reduce操作。

Reduce操作：扫描中间结果集，将中间键值对进行升序排序，依次扫描数据库并判断是否满足条件X∈L_k，若条件成立则删除该键值对，否则遍历tdb，计算候选项目集在tdb中的支持数，如果满足条件s(TDB∪tdb)<s×(TDB+tdb)，则删除该项目集。最后对TDB+tdb进行遍历，计算各个项目集的支持数，再判断支持数是否高于用户预设支持数阈值，新数据库中k项目集由原L_k中剩下的项目集和新产生的项目集共同组成L_k ^*＝(Lk-L_delete)∪L_new。

综上所述，本发明的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待分析的数据由所述数据存储模块存储并转换为数据库文件，保存到Hadoop平台的HDFS中；所述数据分析模块利用云计算平台的分布式并行计算的属性将关联规则生成过程交由MapReduce处理，运用于云计算平台，由主程序负责事务的创建、管理控制，按照用户的请求将数据分析事务传输到相应的节点进行计算；所述事务处理模块由主程序负责所有数据分析处理事务的调度，并将最终结果返回给用户，其中所述MapReduce编程模型只提供相关接口给上层模块而将底层的实现细节进行屏蔽。

3.根据权利要求2所述的方法，其特征在于，所述将关联规则生成过程交由MapReduce处理，进一步包括：

hash (m_{1}, m_{2}, m_{3}, . . ., m_{k}) = Σ_{j = 1}^{k} 10^{k - j} m^{j} \mod r