CN104598567B

CN104598567B - 一种基于Hadoop MapReduce编程框架的数据统计排重的方法

Info

Publication number: CN104598567B
Application number: CN201510013399.1A
Authority: CN
Inventors: 李鹏
Original assignee: BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Current assignee: BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Priority date: 2015-01-12
Filing date: 2015-01-12
Publication date: 2018-01-09
Anticipated expiration: 2035-01-12
Also published as: CN104598567A

Abstract

本发明公开一种基于Hadoop MapReduce编程框架的数据统计排重的方法，该方法基于Hadoop MapReduce编程框架的key和value的划分机制，包括步骤：(1)每个map分别处理各自分区的数据，将数据对象object和其对应的每个attribute分别结合，形成不同的关键词key；将每个属性attribute对应的权重weight划分为其与object结合形成的key的权值value，从而形成key/value对；(2)按照key将数据划分到不同的reduce分区，并对不同的reduce分区的数据分别按照key排序；(3)将步骤(2)的数据写回该map节点的磁盘。

Description

一种基于Hadoop MapReduce编程框架的数据统计排重的方法

技术领域

本发明涉及大规模数据处理的技术领域，具体地涉及一种基于Hadoop MapReduce编程框架的数据统计排重的方法，适用于在Hadoop上进行大规模数据的属性统计。

背景技术

对于大规模数据的属性统计，现有的解决方法通常会使用散列表，也叫hash表，对相同的key统计其各个属性出现的次数，或者计算各个属性对应的权重之和。

其计算过程为将object划分key,将object对应的所有的attribute和weight划分为value。对于数据集中所有相同的object，将它们所有相同attribute的weight值相加，并将所有attribute与weight之和使用hash表存储于内存中。如图3所示，由于有装载因子限制，其中会有空的存储空间。

这种方法存在以下不足：

1、hash表在内存中开辟的空间需要根据装载因子确定，通常装载因子都会小于1，Java的HashMap的装载因子默认为0.75。这意味着存储75条数据就需要开辟100条数据所占用的空间。

2、在上述过程中使用的存储空间全部在内存中，如果装载量比例大于装载因子，hash表会重新调整存储空间。由于该操作通常应用于一些属性的量不确定的对象，例如图4，比如一个用户在搜索引擎中搜索的关键词、一辆车经过的地理位置信息等等。在这些例子中有的对象的属性量分布不均匀。有的用户搜索的关键词非常多，而有的就比较少。尤其是将一个用户一个月的数量全部统计时，面临的完全是TB级的数据。如果使用hash表，其占用的内存空间是无法预料的。所以有的计算节点会特别慢，当开辟内存过多时，会使计算节点宕机，最终也无法得到结果。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于HadoopMapReduce编程框架的数据统计排重的方法,其无需开辟过多的存储空间，就能够从容应对更大量数据的排重统计。

本发明的技术解决方案是：这种基于Hadoop MapReduce编程框架的数据统计排重的方法，该方法使用Hadoop的MapReduce的key和value的划分机制，包括以下步骤：

(1)每个map分别处理各自分区的数据，将数据对象object和其对应的每个attribute分别结合，形成不同的关键词key；将每个属性attribute对应的权重weight划分为其与object结合形成的key的权值value，从而形成key/value对；

(2)按照key将数据划分到不同的reduce分区，并对不同的reduce分区的数据分别按照key排序；

(3)将步骤(2)的数据写回该map节点的磁盘。

本发明使用了MapReduce的key和value的划分机制，无需开辟过多的存储空间，不会过度依赖于内存，所以当遇到更大量的数据，通常是几个TB，几十个TB，也就是几个月的数据时，可以从容应对。

附图说明

图1为规整数据。

图2为根据本发明的MapReduce的执行示意图。

图3为现有技术的计算方法的示意图。

图4为不规整数据。

图5为根据本发明的Map的过程示意图。

图6为根据本发明的Reduce的过程示意图。

具体实施方式

本发明是一种Hadoop的MapReduce设计模式，适用于在Hadoop上进行大规模数据属性统计(只适用于专利中遇到的统计情景)。不同于普通利用字典的方法，巧妙利用Hadoop的MapReduce特性，对单个对象进行大量属性的统计。

本发明所面对的情景如图1所示(后续图中分别使用O代表object，A代表attribute，W代表weight)，即统计每个对象所对应的所有出现的属性的总权重。

如图2所示，这种基于Hadoop MapReduce编程框架的数据统计排重的方法，该方法使用Hadoop的MapReduce的key和value的划分机制，包括以下步骤：

(3)将步骤(2)的数据写回该map节点的磁盘。

本发明使用了MapReduce的key和value的划分机制，无需开辟过多的存储空间，不会过度依赖于内存，所以当遇到更大量的数据，通常是几个TB，几十个TB，也就是几个月的数据时，也可以从容应对。

另外，如图2、5所示，该方法还包括以下步骤：

(4)每个reduce计算节点从各个map节点取走属于该reduce计算节点的数据，对取回的所有数据按照key进行merger排序；

(5)相同key对应的value形成一个列表，并返回该列表的一个迭代子；

(6)对每个key对应的数据集列表进行合并处理；

(7)输出处理结果。

另外，如图6所示，所述步骤(1)还包括：对每个由object和attribute形成的key，将key相同的weight值相加。

相比于现有技术，该技术执行过程中不会过度依赖于内存，所以当遇到更大量的数据，通常是几个TB，几十个TB，也就是几个月的数据时，可以从容应对，仅仅是使用了MapReduce的key和value的划分机制，并没有开辟更多的内存空间。但使用hash表，就有可能因为有的对象的属性过多，需要开辟过多的存储空间，使得计算节点宕机也得不到计算结果。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于Hadoop MapReduce编程框架的数据统计排重的方法，其特征在于：该方法基于Hadoop MapReduce编程框架的key和value的划分机制，包括以下步骤：

(3)将步骤(2)的数据写回map节点的磁盘。

2.根据权利要求1所述的基于Hadoop MapReduce编程框架的数据统计排重的方法，其特征在于：该方法还包括以下步骤：

(6)对每个key对应的数据集列表进行合并处理；

(7)输出处理结果。

3.根据权利要求2所述的基于Hadoop MapReduce编程框架的数据统计排重的方法，其特征在于：所述步骤(1)还包括：对每个由object和attribute形成的key，将key相同的weight值相加。