CN107368300A

CN107368300A - 一种基于MapReduce的数据汇总系统及方法

Info

Publication number: CN107368300A
Application number: CN201710495583.3A
Authority: CN
Inventors: 王宏科; 李智
Original assignee: Beijing Tianyuan Creative Technology Ltd
Current assignee: Beijing Tianyuan Creative Technology Ltd
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-11-21
Anticipated expiration: 2037-06-26
Also published as: CN107368300B

Abstract

本发明提供一种基于MapReduce的数据处理的方法及系统，所述系统通过对原生Map接口和Reduce接口的封装，在封装接口中装载算法，通过调用封装的Map接口、Reduce接口和算法对目标数据进行处理。本发明所述方案具有如下有益效果：1、提高开发人员编写MapReduce汇总分析的效率；2、增强模块的产品化能力，灵活实现不同汇总需求；3、为不同层面的开发人员提供了不同层面的开发界面，提高团队整体效率和优化团队结构。

Description

一种基于MapReduce的数据汇总系统及方法

技术领域

本发明涉及数据分析技术领域，更具体地，涉及一种基于MapReduce的数据汇总系统及方法。

背景技术

MapReduce是开源分布式处理平台Hadoop中用于数据分析处理的架构。MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Hadoop的MapReduce框架中，Map动作通过Mapper类来抽象。一般来说，开发人员会根据需求设计key值的组合，实现自己特殊的Mapper并注册到系统中，执行时，开发人员实现的Mapper会被MapReduce框架调用，对数据进行按key分组，关键点就在这里，没有通用汇总平台的情况下，这个key的定义和分组是写死在代码中，当增加一个汇总维度或修改原来的汇总维度(即增加或修改key值组合)时，需要重新编译提交。

Map的结果，会通过partition分发到Reducer上，Reducer是所有用户定制Reducer类的基类，和Mapper类似，它也有setup，reduce，cleanup和run方法，其中setup和cleanup含义和Mapper相同，reduce是真正合并Mapper结果的地方，它的输入是key和这个key对应的所有value的一个迭代器，同时还包括Reducer的上下文，Reducer做完Reduce操作后，通过OutputFormat，进行输出。因此当汇总维护变化时，Reduce类也需要根据最终汇总维度的变更进行相应修改，重新编译提交。

因此，利用现有技术直接使用原生MapReduce接口开发，模块的灵活性和可扩展能力都较弱，对算法和维度的修改都要更新Java代码。而对于产品化的平台来说，适应不同场景是常态，如果没有更为灵活的框架会带来产品结构的复杂和维护成本的提高。

发明内容

本发明为克服上述问题或者至少部分地解决上述问题，提供一种基于MapReduce的数据处理系统及方法。

根据本发明的一个方面，提供一种基于MapReduce的数据处理系统，包括：

映射接口封装模块，由原生MapReduce映射接口封装而成，用于接收目标数据，调用所述原生MapReduce相应映射接口对所述目标数据进行映射处理，将所述映射处理后的数据发送给归约接口封装模块；

归约接口封装模块，由原生MapReduce归约接口封装而成，用于接收所述映射处理后的数据，调用所述原生MapReduce相应归约接口对所述映射处理后的数据进行归约处理，获得归约处理后的数据；

公式继承模块，包含原生MapReduce中的至少一种公式，用于被所述映射接口封装模块和/或归约接口封装模块调用，提供所其包含的公式。

进一步，还包括：

汇总模块，包含将所述归约处理后的数据进行汇总的指标，用于基于所述汇总指标将所述归约处理后的数据进行汇总。

进一步，所述映射接口封装模块进一步包括：

由将原生MapReduce中各映射接口封装成的不同映射方法构成。

进一步，所述归约接口模块进一步包括：

由将原生MapReduce中各归约接口封装成的不同归约方法构成。

进一步，所述映射模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

进一步，所述映射接口封装模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

进一步，所述公式继承模块，还包括计数公式、去重公式、求百分比公式和求和公式中的至少一种。

本发明另一方面，提供一种基于上述任一系统的数据处理方法，包括：

步骤1，调用所述原生MapReduce相应映射接口对所述目标数据进行映射处理；

步骤2，调用所述原生MapReduce相应映射接口对所述映射处理后的数据进行归约处理，获得归约处理后的数据。

本发明又一方面，提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述的方法。

本申请提出一种基于MapReduce的数据处理方法及系统，本发明所述方案具有如下有益效果：1、提高开发人员编写MapReduce汇总分析的效率；2、增强模块的产品化能力，灵活实现不同汇总需求；3、为不同层面的开发人员提供了不同层面的开发界面，提高团队整体效率和优化团队结构。

附图说明

图1为根据本发明实施例一种基于MapReduce的数据处理系统的整体框架示意图；

图2为根据本发明实施例一种基于MapReduce的数据处理系统的内部接口关系示意图；

图3为根据本发明实施例一种基于MapReduce的数据处理方法的整体流程示意图；

图4为根据本发明实施例一种基于MapReduce的数据处理方法的设备的结构框架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：

1)MapReduce是一个基于集群的高性能并行计算平台(ClusterInfrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少了软件开发人员的负担。

3)MapReduce是一个并行程序设计模型与方法(Programming Model&Methodology)。它借助于函数式程序设计语言Lisp的设计思想，提供了一种简便的并行程序设计方法，用Map和Reduce两个函数编程实现基本的并行计算任务，提供了抽象的操作和并行编程接口，以简单方便地完成大规模数据的编程和计算处理。

本发明意在解决现有技术中直接使用原生MapReduce接口开发，模块的灵活性和可扩展能力都较弱，对算法和维度的修改都要更新Java代码。而对于产品化的平台来说，适应不同场景是常态，如果没有更为灵活的框架会带来产品结构的复杂和维护成本的提高等问题。

如图1，本发明一个具体实施例中，示出一种基于MapReduce的数据处理系统整体框架示意图。总体上，包括：映射接口封装模块A1，由原生MapReduce映射接口封装而成，用于接收目标数据，调用所述原生MapReduce相应映射接口对所述目标数据进行映射处理，将所述映射处理后的数据发送给归约接口封装模块A2；归约接口封装模块A2，由原生MapReduce归约接口封装而成，用于接收所述映射处理后的数据，调用所述原生MapReduce相应归约接口对所述映射处理后的数据进行归约处理，获得归约处理后的数据；公式继承模块A3，包含原生MapReduce中的至少一种公式，用于被所述映射接口封装模块A1和归约接口封装模块A2调用，提供所其包含的公式。

在本发明另一个具体实施例中，一种基于MapReduce的数据处理的系统，所述映射接口封装模块进一步包括：由将原生MapReduce中各映射接口封装成的不同映射方法构成。

在本发明另一个具体实施例中，一种基于MapReduce的数据处理的系统，所述归约接口模块进一步包括：

由将原生MapReduce中各归约接口封装成的不同归约方法构成。

在本发明另一个具体实施例中，一种基于MapReduce的数据处理的系统，所述映射模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

在本发明另一个具体实施例中，一种基于MapReduce的数据处理的系统，所述映射接口封装模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

在本发明另一个具体实施例中，一种基于MapReduce的数据处理的系统，所述公式继承模块，还包括计数公式、去重公式、求百分比公式和求和公式中的至少一种。

一种基于MapReduce的数据处理的系统。所述系统设计以开源大数据分布式处理平台Hadoop的MapReduce流程为基础，为满足网优平台对海量数据的灵活处理需求，设计的一种可以通过配置数据源、公式、汇总方式等完成各维度汇总分析需求的实现方案，该方案通过对MapReduce中的Map方法的扩展实现对不同维度的Key/Value对的定义，通过对MapReduce中的Reduce方法的扩展实现最终对汇总结果维度的合成，从而灵活适应不同的汇总维度，达到快速实现新需求的目标，具有良好的灵活性和可扩展性，降低了重复编码的比例，提高产品模板化能力，可以有效提高整体工作效率。

本发明的该具体实施例利用Mapreduce平行计算原理，提供复杂维度，多重粒度的数据汇总方案。

其适用条件如下：

1、离线分析系统

2、批量定制的汇总需求

3、汇总指标种类繁多，算法复杂。

如：网优平台各类指标的天周月汇总、海量话单剔重，排序等；信令关联，多种文件按业务合并统计等场景。

本发明该具体实施例所述系统具体包括。

(一)整体技术思路：

通过对原生Map接口和Reduce接口的封装，在封装接口中装载配置项，包括key的定义和汇总算法定义，基于这些定义，通过一系列内部控制函数，将这些定义和汇总算法定义进行解析，控制数据按照定义的规则进行分析计算。

配置文件样例：

<list>

value>metar:SERVICE_TYPE_MAIN_ID:0</value>

<value>metar:SERVICE_TYPE_SUB_NAME:1</value>

<value>metar:SERVICE_TYPE_SUB_ID:2</value>

<value>metar:DST_SGSN:3</value>

<value>metar:PACKET_COUNTER_LOSS:4</value>

<value>metar:PACKET_COUNTER_TL:5</value>

<value>metar:PACKET_COUNTER_DL:6</value>

<value>metar:PACKET_COUNTER_UL:7</value>

</list>

</property>

(二)自定义接口

基于原生Map和Reduce接口，自定义do_Mapper和do_Reducer接口，对原生Mapper和Reduce接口进行封装，开发人员直接使用这两个接口实现MapReduce。

多个接口的关系见图2。

代码片段如下：

(三)可扩展统计方式

设计抽象公式计算类，内置支持求和、去重计数、百分比等常用计算，并可通过继承抽象类扩展实现更复杂的统计方式，抽象类为：

内置实现的公式包括：

计数：

去重：

public class formula_distinct extends formule_abstract

百分比：

public class formula_percent extends formule_abstract

求和：

public class formula_sum extends formule_abstract{

(四)指标抽象

将计算用到的指标进行抽象，设计Counter类，内置提供了指标获取求和、平均值等通用的方法API。

由于业务比较专业化，之前没有找到类似的开发平台，其他项目均为基于原生MapReduce进行开发，因此本通用平台在适应电信大数据灵活汇总需求方面，要优于原生开发平台，优点如下：

(一)开发效率提高：基于原生接口开发需要针对每种汇总场景和算法进行代码开发，采用通用汇总平台可以通过配置维度和汇总方法灵活实现新需求；

(二)产品模块化水平提高：基于原生接口开发需要针对性开发，不同开发人员开发的方式不同，采用通用汇总平台可以通过接口将开发模块固化，不同开发人员也可以形成相对统一的开发模式；

(三)有利于团队分工：基于原生接口开发需要同时熟悉电信需求和Hadoop开发技术，对人员要求较高，需要复合型人才，采用通用汇总平台可以将工作明确分给不同的人员实施，有利于形成团队明确分工。

本具体实施例具有如下说明有益效果：

(一)提高开发人员编写MapReduce汇总分析的效率

(二)增强模块的产品化能力，灵活实现不同汇总需求

(三)为不同层面的开发人员提供了不同层面的开发界面，提高团队整体效率和优化团队结构。

如图3，示出在本发明另一个具体实施例中，基于上述实施例任一系统的数据处理方法的整体流程示意图，包括：

步骤1，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述目标数据进行映射处理；

步骤2，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述映射处理后的数据进行归约处理，获得归约处理后的数据。

在本发明另一个具体实施例中，一种数据处理方法，所述步骤2后还包括，将用于将所述归约处理后的数据进行汇总的指标汇总；基于所述汇总指标将所述归约处理后的数据进行汇总。

在本发明另一个具体实施例中，一种数据处理方法，所述步骤1前还包括：将原生MapReduce中各映射接口封装成不同映射方法。

在本发明另一个具体实施例中，一种数据处理方法，所述步骤2前还包括：将原生MapReduce中各规约接口封装成不同规约方法。

在本发明另一个具体实施例中，一种数据处理方法，所述步骤1进一步包括：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

在本发明另一个具体实施例中，一种数据处理方法，进一步包括：所述公式继承模块包括计数公式、去重公式、求百分比公式和求和公式中的至少一种。

图4示出本申请实施例的基于MapReduce的数据处理方法的设备的结构框图。

参照图4，所述基于MapReduce的数据处理的方法的设备，包括：处理器(processor)401、存储器(memory)402和总线403；

其中，

所述处理器401和存储器402通过所述总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：步骤1，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述目标数据进行映射处理；步骤2，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述映射处理后的数据进行归约处理，获得归约处理后的数据。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：步骤1，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述目标数据进行映射处理；步骤2，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述映射处理后的数据进行归约处理，获得归约处理后的数据。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：步骤1，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述目标数据进行映射处理；步骤2，调用所述原生MapReduce相应映射接口，调用所述公式继承模块中相应算法对所述映射处理后的数据进行归约处理，获得归约处理后的数据。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的基于MapReduce的数据处理的方法的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MapReduce的数据处理系统，其特征在于，包括：

公式继承模块，包含原生MapReduce中的至少一种公式，用于被所述映射接口封装模块和归约接口封装模块调用，提供所其包含的公式。

2.如权力要求1所述的系统，其特征在于，还包括：

3.如权利要求1所述的系统，其特征在于，所述映射接口封装模块进一步包括：

由将原生MapReduce中各映射接口封装成的不同映射方法构成。

4.如权利要求1所述的系统，其特征在于，所述归约接口模块进一步包括：

由将原生MapReduce中各归约接口封装成的不同归约方法构成。

5.如权利要求3所述的系统，其特征在于，所述映射模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

6.如权利要求4所述的系统，其特征在于，所述映射接口封装模块还用于：利用统计方法调用所述目标数据对应的映射方法，对所述目标数据进行映射处理。

7.如权利要求2所述的系统，其特征在于，所述公式继承模块，还包括计数公式、去重公式、求百分比公式和求和公式中的至少一种。

8.一种基于权利要求1至7中任一系统的数据处理方法，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求8所述的方法。