CN105184452B

CN105184452B - 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法

Info

Publication number: CN105184452B
Application number: CN201510501437.8A
Authority: CN
Inventors: 史玉良; 李庆忠; 张晖; 管永明; 吕梁
Original assignee: Dareway Software Co ltd; Shandong University
Current assignee: Dareway Software Co ltd; Shandong University
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2018-11-13
Anticipated expiration: 2035-08-14
Also published as: CN105184452A

Abstract

本发明公开了一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，包括：获取计算服务所需的业务数据，形成数据文件；主节点动态分发计算服务，从节点负责MapReduce计算服务的执行；从节点读取计算服务所需要的用电信息数据；对作业间的数据依赖关系进行管理；作业依赖控制引擎按照指定的作业依赖关系，对作业进行执行和提交；数据处理单元完成用电信息大数据计算，得到业务数据，并将数据回写至应用系统的业务数据库。解决复杂用电大数据计算服务的作业依赖关系，满足在较短时间内完成用电信息大数据复杂计算的业务需求。能够及时高效地处理海量用电信息数据的复杂计算，为营销业务的开展提供可靠的数据支撑。

Description

一种适用于用电信息大数据计算的MapReduce作业依赖控制方法

技术领域

本发明涉及智能用电领域，尤其涉及一种适用于用电信息大数据计算的MapReduce作业依赖控制方法。

背景技术

近年来为满足电力企业对采集处理并掌握电力用户信息的迫切需求，全面推进智能电网建设尤为重要。用电信息采集系统是建设智能电网的重要基础，实现了电力用户及用电信息的数据采集和处理，并对电能、电压、线损等数据进行统计分析、智能费控、阶梯电价以及反窃电等营销业务的开展提供强有力的数据支撑。

随着用电信息采集系统的终端数量和电力用户数量的不断增加，需要处理的电力信息数据急剧增加，对数据处理的实时性提出了较高的要求，大规模用电信息采集数据流高速到达系统需要对数据帧进行归约解析、数据处理和实时存储。每天采集的用电数据需在规定时间内完成计算规则复杂的几十个计算服务，如线损计算服务、电量和负荷计算服务等，用电信息采集系统面临着巨大的计算压力。此外，不同的计算服务之间存在数据依赖关系，若不能对计算服务的作业依赖关系进行合理的管理和控制，就会造成资源利用率低、计算耗时大等问题。面对解决电力用户用电大数据给用电信息采集系统建设带来的大规模业务数据和复杂分析数据的计算问题，传统的数据处理方式已经无法适应需求，急需转变数据处理模式的。因此需要一种适用于用电信息大数据的计算架构和方法，在较短时间内完成用电信息大数据的复杂计算，且能解决复杂计算服务之间的数据依赖关系，提高资源利用率的同时缩短用电大数据的计算时间。

发明内容

本发明的目的就是为了解决上述问题，提出一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，解决复杂用电大数据计算服务的作业依赖关系，满足在较短时间内完成用电信息大数据复杂计算的业务需求。

为了实现上述目的，本发明采用如下技术方案：

一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，包括以下步骤:

步骤一、用电信息采集系统的数据计算服务集群获取计算服务所需的业务数据，并存储到分布式文件系统，形成数据文件；

步骤二、计算服务集群进行用电信息大数据的计算及任务调度；计算服务被划分为细粒度的map任务和reduce任务，主节点动态分发计算服务，并负责集群监控和可靠性保障，从节点负责MapReduce计算服务的执行；

步骤三、负责具体MapReduce计算服务的从节点从所述分布式文件系统中读取计算服务所需要的用电信息数据；

步骤四、根据相应的计算规则，对海量用电信息采集数据进行MapReduce处理；需要多个MapReduce作业共同协作时，要对作业间的数据依赖关系进行管理得到指定的作业依赖关系；

步骤五、作业依赖控制引擎按照指定的作业依赖关系，对作业进行执行和提交；

步骤六、数据处理单元完成用电信息大数据计算，得到业务数据，并将数据回写至应用系统的业务数据库。

所述步骤一中，用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。

所述步骤一中，获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。

所述步骤四中，MapReduce作业依赖关系管理的方法为：

步骤4.1、对于一项计算服务，数据处理单元分析计算服务所需的用电信息数据和计算流程；

步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系，将具有依赖关系的数据形成作业列表；

步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图；

步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间，选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。

所述步骤五中的具体方法为：

步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系，实现作业的自动提交，MapReduce作业进入挂起状态；

步骤5.2、当依赖的所有MapReduce作业执行均成功时，进入就绪状态，并等待作业依赖控制引擎的调度；

步骤5.3、MapReduce作业依赖控制引擎提交作业至主节点，MapReduce作业进入运行状态；

步骤5.4、MapReduce作业运行成功，则进入成功状态，从所有直接后继作业的直接前驱列表中删除该作业；作业删除后，若列表为空，则置后继作业状态为就绪；

步骤5.5、MapReduce作业运行失败，则进入失败状态；若作业依赖的某一作业运行失败，则该作业也被认为运行失败，进入失败状态；作业执行失败后，置所有后继作业状态为失败；

步骤5.6、提交所有就绪作业。

所述步骤5.3中的主节点为Hadoop主节点(JobTracker)。

本发明的有益效果：

1.能够有效地解决传统数据处理技术在面对海量用电信息数据时，由于复杂的计算规则及计算服务之间的数据依赖关系容易造成的可靠性差、计算容易出错、通信开销大等问题。

2.MapReduce作业依赖控制方法面对用电信息采集系统中复杂的计算服务，制定作业依赖关系并依靠作业依赖控制引擎实现了作业的自动执行和提交，能够及时高效地处理海量用电信息数据的复杂计算，为营销业务的开展提供可靠的数据支撑。

附图说明

图1为本发明的方法流程图；

图2为MapReduce作业依赖关系管理过程；

图3为MapReduce作业依赖控制过程；

图4为基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1，是本发明一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，包括以下步骤：

步骤一、用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据，并存储到HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)，形成数据文件；

步骤三、负责具体MapReduce计算服务的从节点从HDFS中读取计算服务所需要的用电信息数据；

步骤四、根据相应的计算规则，对海量用电信息采集数据进行MapReduce处理；当用电信息采集系统中数据计算服务存在较为复杂的计算规则时，需要多个MapReduce作业共同协作，对作业间的数据依赖关系进行管理；

如图2所示，是所述步骤四中MapReduce作业依赖关系管理过程，包括以下步骤：

步骤4.1、数据处理单元分析某项计算服务所需的用电信息数据和计算流程；

如图3所示，是所述步骤五中MapReduce作业依赖控制过程，包括以下步骤：

步骤5.3、MapReduce作业依赖控制引擎提交作业至Hadoop主节点(JobTracker)，MapReduce作业进入运行状态；

步骤5.6、提交所有就绪作业。

如图4所示，是本发明在基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图，步骤包括如下：

1.电力现场的采集终端在零点上送3000万个测量点的约3.2亿条采集数据，并存入应用系统业务数据库，计算服务集群从业务数据库抽取线损考核单元所需的供入供出计量点等档案数据以及相关计算的日冻结电量，存入HDFS，形成日线损计算服务数据文件；

2.日线损计算服务数据提交基于Hadoop的数据计算服务集群后，由集群的主节点将日线损计算服务作业动态分配给从节点；

3.根据相应线损的计算规则，数据处理单元分析计算线损所需的数据有：供入供出计量点信息、旁代计量点信息、旁代计量点电量、供入计量点抄见电量、供入计量点电量、供出计量点电量；线损计算过程是通过对测量点日冻结电能量表的数据计算得到考核单元供入计量点电量和供出计量点电量，按考核单元汇总求差，得到最终的损耗电量；

4.分析得到线损计算服务的作业依赖关系。线损计算时首先分别获取供入、旁代和供出计量点信息；在此基础上结合日冻结电量，分别统计供入计量点抄见电量、旁代计量点电量和供出计量点电量；结合旁代关系，由供入计量点抄见电量和旁代计量点电量计算获得供入计量点电量；最后，按考核单元分组求和，供入电量与供出电量做差得到线路损耗；

5.作业依赖控制引擎按照线损计算服务的作业依赖关系，自动执行和提交线损计算服务；

6.日线损计算服务作业全部自动提交后，数据回写至应用系统的业务数据库。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，其特征是，包括以下步骤:

步骤二、计算服务集群进行用电信息大数据的计算及任务调度；计算服务被划分为map任务和reduce任务，主节点动态分发计算服务，并负责集群监控和可靠性保障，从节点负责MapReduce计算服务的执行；

步骤四、对海量用电信息采集数据进行MapReduce处理；需要多个MapReduce作业共同协作时，要对作业间的数据依赖关系进行管理得到指定的作业依赖关系；

步骤六、数据处理单元完成用电信息大数据计算，得到业务数据，并将数据回写至应用系统的业务数据库；

所述步骤四中，MapReduce作业依赖关系管理的方法为：

2.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，其特征是，所述步骤一中，用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。

3.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，其特征是，所述步骤一中，获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。

4.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，其特征是，所述步骤五中的具体方法为：

步骤5.6、提交所有就绪作业。

5.如权利要求4所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法，其特征是，所述步骤5.3中的主节点为Hadoop主节点。