CN107844568B

CN107844568B - 一种处理数据源更新的MapReduce执行过程优化方法

Info

Publication number: CN107844568B
Application number: CN201711070157.1A
Authority: CN
Inventors: 郭文鑫; 曾坚永; 赵瑞锋; 姚珺玉; 张锐; 邓大为; 徐展强; 卢建刚; 李波
Original assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-05-28
Anticipated expiration: 2037-11-03
Also published as: CN107844568A

Abstract

本发明涉及计算机技术领域，更具体地，涉及一种处理数据源更新的MapReduce执行过程优化方法，引入Monitor监测器任务及Rule规则判断任务，对Map任务进行监控，在数据源有更新的情况下，无需重启整个MapReduce任务，而是仅将所处理的数据源切片发生更新的Map任务重启，其他Map任务继续执行，这样能够更有效地利用Hadoop集群的资源，提高MapReduce任务的运行效率。本发明既满足了数据更新的需求，也能提高程序执行效率。

Description

一种处理数据源更新的MapReduce执行过程优化方法

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种处理数据源更新的MapReduce执行过程优化方法。

背景技术

随着大数据技术的发展，基于Hadoop集群的海量数据存储、分析及处理应用越来越广泛。Hadoop是基于Google云平台的开源实现。Hadoop的两个核心组件是分布式文件系统HDFS(存储海量数据)和并行计算框架MapReduce(进行分布式并行计算)。

通常采用MapReduce计算框架对海量数据进行分析及处理。MapReduce在执行过程中，首先对数据源进行切片，形成若干个DataSplit，并在集群中的不同节点上启动Mapper任务，读取数据源切片DataSplit，Map任务执行完成后将输出结果保存在本地，并以键值对Key-Value形式存储。接着对Map的输出结果进行Shuffle，目的是将键Key相同的值Value传输到同一个Reducer节点上。这个过程中，待Map执行完后才启动Reducer任务，Map任务可能会执行几分钟至几小时不等，如果在Map任务执行过程中，数据源有新的数据，所有的Map任务则要重新执行，即重启MapReduce任务，这会大大降低MapReduce的执行效率。因此，需要引入一种新的机制，对Map任务进行监控，当满足一定规则时，只重新启动部分Map任务，而其他Map任务不受干扰，这样既满足了数据更新的需求，也能提高程序执行效率。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种处理数据源更新的MapReduce执行过程优化方法，在数据源有更新的情况下，提高整个MapReduce任务的执行效率。

为解决上述技术问题，本发明采用了如下技术方案：

一种处理数据源更新的MapReduce执行过程优化方法，包括Map任务和Reducer任务，在Map任务执行过程中，启动Monitor监测器任务及Rule规则判断任务；

Monitor监测器任务监测数据源切片并记录其快照；

Rule规则判断任务判断数据源切片的变化情况，并决定是否重启Map任务。

进一步地，监测器任务Monitor为定时任务，每隔一定时间间隔T_μ启动。

具体地，监测器任务Monitor的执行步骤如下：

S11：记第一次启动Map任务的时刻为T₀，并将T₀时刻各个数据源切片的快照(Snapshot)记为D₀；

S12：在每个Map_i节点上，均启动一个Monitor_i任务，每隔T_μ时间，记录当前Map_i所对应的数据源切片快照，结构如下：

{No.Map_i,<D_m,D_n>}

其中，No.Map_i为第i个Map任务的编号；D_m为上一次Map_i重启时所处理的数据切片，D_n是Map_i任务处理的数据源切片在时间T_n(n＝1,2,3…)的快照，时间间隔为T_μ，即：

T_i+1＝T_i+T_μ，i＝0,1,2,…,n-1。

进一步地，规则判断任务Rule在Monitor监测器任务完成记录数据源切片快照后启动，Rule任务在每个Map节点上执行。

具体地，规则判断任务Rule的执行步骤如下：

S21：计算当前时刻T_n的数据源切片D_n与上一次Map_i启动或重启时所处理的数据切片D_m的数据条数N_n和N_m。

S22：计算当前时刻T_n的数据源切片D_n与上一次Map_i重启时所处理的数据切片D_m的差异F(m,n)：

其中，X_nk和X_mk分别是数据源D_n和D_m的数据项(k＝1,2,3,…,N)；当D_n和D_m的数据条数不相等时，用数据条数的差异计算D_n和D_m的差异；当D_n和D_m的数据条数相等，则比较D_n和D_m的每条数据的差异；

S23：当N_n≠N_m时，判断差异F(m,n)是否超过阈值α，如果F(m,n)>α，则重启Map_i，反之，则忽略差异；当N_n＝N_m时，判断差异F(m,n)是否超过阈值β，如果F(m,n)>β，则重启Map_i，反之，则忽略差异；

S24：若Map_i重启，则将D_m置为D_n，并记录下Map_i处理的当前最新数据，若Map_i未重启，则D_m保持不变。

与现有技术相比，有益效果是：在数据源有更新的情况下，无需重启整个MapReduce任务，而是仅将所处理的数据源切片发生更新的Map任务重启，其他Map任务继续执行，这样能够更有效地利用Hadoop集群的资源，提高MapReduce任务的运行效率；Monitor任务只记录上一次Map任务启动或者重启时处理的数据源切片和当前的数据源切片，而不需记录所有监测时刻T_i的数据源切片，这样有效的限制了数据存储空间，本MapReduce优化方法所需的存储空间代价较小；本发明中Monitor和Rule任务与正在执行的Map任务是并行完成的，不会带来额外的时间成本，而在数据源发生较大更新时，能够减少总的MapReduce任务执行时间。

附图说明

图1是本发明在一实施例中的MapReduce任务执行图。

图2是本发明在一实施例中的Monitor和Rule任务执行过程示意图。

图3是本发明在一实施例中的Rule任务的执行流程图。

具体实施方式

下面结合附图对本发明进行进一步地描述，需要说明的是，附图仅用于示例性说明，不能理解为对本专利的限制。

如图1所示，一种处理数据源更新的MapReduce执行过程优化方法，包括Map任务和Reducer任务，在Map任务执行过程中，启动Monitor监测器任务及Rule规则判断任务；

Monitor监测器任务每隔T_μ时间记录一次Map任务所处理的数据源切片的快照；

Rule规则算当前最新的数据源切片快照和Map所处理的数据源切片的快照的差异，并决定是否重启Map任务。

结合图2对本发明的具体执行过程进行说明，在本实施例中，T_μ＝3min：

S1：T0时刻首次执行Map任务，Monitor任务记录当前的数据源切片D0，并将D0的快照赋值给D_m，并每隔时间间隔T_μ记录T_i时刻数据源切片的快照。

S2：T₁时刻，Monitor任务记录D₁的快照，即D_n＝D₁。Rule任务计算F(m,n)，这里D_n和D_m的数据条数相等，即N_m＝N_n，且计算得出F(m,n)<β，则不需要重启Map任务。T₂时刻，Monitor和Rule任务执行相同的操作。

S3：T₃时刻，Monitor任务记录D₃的快照，即D_n＝D₃。Rule任务计算F(m,n)，这里N_m＝N_n，并且数据发生较大的变化，计算得出F(m,n)>β，此刻，需要重启Map任务。此时，将D_m记为D₃。

S4：T₄时刻，Monitor任务记录D₄的快照，即D_n＝D₄。Rule任务计算F(m,n)，这里D_n和D_m的数据条数相等，即N_m＝N_n，计算得出F(m,n)<β，则不需要重启Map任务。T₅及T₆时刻，Monitor和Rule任务执行相同的操作。

S5：直到T₇时刻，Monitor任务记录D₇的快照，即D_n＝D₇。Rule任务计算F(m,n)，这里N_m＝N_n，并且数据发生较大的变化，计算得出F(m,n)>β，此刻，需要重启Map任务。此时，将D_m记为D₇。

S6：以此类推，每隔T_μ时间，Monitor和Rule任务执行一次，直到Map任务不再需要重启并执行完毕为止。

具体地，Rule任务执行时，根据N_m和N_n的值来确定计算方法，如图3所示。

首先计算D_m和D_n的数据条数N_m和N_n。

如果N_m和N_n相等，则通过公式

计算F(m,n)的值，并判断F(m,n)是否超过阈值β；如果N_m和N_n不等，则通过公式

计算F(m,n)的值，并判断F(m,n)是否超过阈值α。

如果F(m,n)超过阈值α或者β，则将D_m置为D_n，并重启Map任务，否则Map任务继续执行。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种处理数据源更新的MapReduce执行过程优化方法，包括Map任务和Reducer任务，其特征在于：在Map任务执行过程中，启动Monitor监测器任务及Rule规则判断任务；

Monitor监测器任务监测数据源切片并记录其快照；

Rule规则判断任务判断数据源切片的变化情况，并决定是否重启Map任务；

所述监测器任务Monitor的执行步骤如下：

{No.Map_i,<D_m,D_n>}

其中，No.Map_i为第i个Map任务的编号；D_m为上一次Map_i重启时所处理的数据切片，D_n是Map_i任务处理的数据源切片在时间T_n(n＝1,2,3…)的快照；

所述规则判断任务Rule的执行步骤如下：

S21：计算当前时刻T_n的数据源切片D_n与上一次Map_i启动或重启时所处理的数据切片D_m的数据条数N_n和N_m；

2.根据权利要求1所述的一种处理数据源更新的MapReduce执行过程优化方法，其特征在于：所述监测器任务Monitor为定时任务，每隔一定时间间隔T_μ启动。

3.根据权利要求1所述的一种处理数据源更新的MapReduce执行过程优化方法，其特征在于：所述规则判断任务Rule在Monitor监测器任务完成记录数据源切片快照后启动。