CN105184452B - 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 - Google Patents

一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 Download PDF

Info

Publication number
CN105184452B
CN105184452B CN201510501437.8A CN201510501437A CN105184452B CN 105184452 B CN105184452 B CN 105184452B CN 201510501437 A CN201510501437 A CN 201510501437A CN 105184452 B CN105184452 B CN 105184452B
Authority
CN
China
Prior art keywords
job
data
mapreduce
consumption information
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510501437.8A
Other languages
English (en)
Other versions
CN105184452A (zh
Inventor
史玉良
李庆忠
张晖
管永明
吕梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dareway Software Co ltd
Shandong University
Original Assignee
Dareway Software Co ltd
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dareway Software Co ltd, Shandong University filed Critical Dareway Software Co ltd
Priority to CN201510501437.8A priority Critical patent/CN105184452B/zh
Publication of CN105184452A publication Critical patent/CN105184452A/zh
Application granted granted Critical
Publication of CN105184452B publication Critical patent/CN105184452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括:获取计算服务所需的业务数据,形成数据文件;主节点动态分发计算服务,从节点负责MapReduce计算服务的执行;从节点读取计算服务所需要的用电信息数据;对作业间的数据依赖关系进行管理;作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。解决复杂用电大数据计算服务的作业依赖关系,满足在较短时间内完成用电信息大数据复杂计算的业务需求。能够及时高效地处理海量用电信息数据的复杂计算,为营销业务的开展提供可靠的数据支撑。

Description

一种适用于用电信息大数据计算的MapReduce作业依赖控制 方法
技术领域
本发明涉及智能用电领域,尤其涉及一种适用于用电信息大数据计算的MapReduce作业依赖控制方法。
背景技术
近年来为满足电力企业对采集处理并掌握电力用户信息的迫切需求,全面推进智能电网建设尤为重要。用电信息采集系统是建设智能电网的重要基础,实现了电力用户及用电信息的数据采集和处理,并对电能、电压、线损等数据进行统计分析、智能费控、阶梯电价以及反窃电等营销业务的开展提供强有力的数据支撑。
随着用电信息采集系统的终端数量和电力用户数量的不断增加,需要处理的电力信息数据急剧增加,对数据处理的实时性提出了较高的要求,大规模用电信息采集数据流高速到达系统需要对数据帧进行归约解析、数据处理和实时存储。每天采集的用电数据需在规定时间内完成计算规则复杂的几十个计算服务,如线损计算服务、电量和负荷计算服务等,用电信息采集系统面临着巨大的计算压力。此外,不同的计算服务之间存在数据依赖关系,若不能对计算服务的作业依赖关系进行合理的管理和控制,就会造成资源利用率低、计算耗时大等问题。面对解决电力用户用电大数据给用电信息采集系统建设带来的大规模业务数据和复杂分析数据的计算问题,传统的数据处理方式已经无法适应需求,急需转变数据处理模式的。因此需要一种适用于用电信息大数据的计算架构和方法,在较短时间内完成用电信息大数据的复杂计算,且能解决复杂计算服务之间的数据依赖关系,提高资源利用率的同时缩短用电大数据的计算时间。
发明内容
本发明的目的就是为了解决上述问题,提出一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,解决复杂用电大数据计算服务的作业依赖关系,满足在较短时间内完成用电信息大数据复杂计算的业务需求。
为了实现上述目的,本发明采用如下技术方案:
一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群获取计算服务所需的业务数据,并存储到分布式文件系统,形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为细粒度的map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从所述分布式文件系统中读取计算服务所需要的用电信息数据;
步骤四、根据相应的计算规则,对海量用电信息采集数据进行MapReduce处理;需要多个MapReduce作业共同协作时,要对作业间的数据依赖关系进行管理得到指定的作业依赖关系;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。
所述步骤一中,用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。
所述步骤一中,获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。
所述步骤四中,MapReduce作业依赖关系管理的方法为:
步骤4.1、对于一项计算服务,数据处理单元分析计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
所述步骤五中的具体方法为:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至主节点,MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
所述步骤5.3中的主节点为Hadoop主节点(JobTracker)。
本发明的有益效果:
1.能够有效地解决传统数据处理技术在面对海量用电信息数据时,由于复杂的计算规则及计算服务之间的数据依赖关系容易造成的可靠性差、计算容易出错、通信开销大等问题。
2.MapReduce作业依赖控制方法面对用电信息采集系统中复杂的计算服务,制定作业依赖关系并依靠作业依赖控制引擎实现了作业的自动执行和提交,能够及时高效地处理海量用电信息数据的复杂计算,为营销业务的开展提供可靠的数据支撑。
附图说明
图1为本发明的方法流程图;
图2为MapReduce作业依赖关系管理过程;
图3为MapReduce作业依赖控制过程;
图4为基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1,是本发明一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据,并存储到HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为细粒度的map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从HDFS中读取计算服务所需要的用电信息数据;
步骤四、根据相应的计算规则,对海量用电信息采集数据进行MapReduce处理;当用电信息采集系统中数据计算服务存在较为复杂的计算规则时,需要多个MapReduce作业共同协作,对作业间的数据依赖关系进行管理;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。
如图2所示,是所述步骤四中MapReduce作业依赖关系管理过程,包括以下步骤:
步骤4.1、数据处理单元分析某项计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
如图3所示,是所述步骤五中MapReduce作业依赖控制过程,包括以下步骤:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至Hadoop主节点(JobTracker),MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
如图4所示,是本发明在基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图,步骤包括如下:
1.电力现场的采集终端在零点上送3000万个测量点的约3.2亿条采集数据,并存入应用系统业务数据库,计算服务集群从业务数据库抽取线损考核单元所需的供入供出计量点等档案数据以及相关计算的日冻结电量,存入HDFS,形成日线损计算服务数据文件;
2.日线损计算服务数据提交基于Hadoop的数据计算服务集群后,由集群的主节点将日线损计算服务作业动态分配给从节点;
3.根据相应线损的计算规则,数据处理单元分析计算线损所需的数据有:供入供出计量点信息、旁代计量点信息、旁代计量点电量、供入计量点抄见电量、供入计量点电量、供出计量点电量;线损计算过程是通过对测量点日冻结电能量表的数据计算得到考核单元供入计量点电量和供出计量点电量,按考核单元汇总求差,得到最终的损耗电量;
4.分析得到线损计算服务的作业依赖关系。线损计算时首先分别获取供入、旁代和供出计量点信息;在此基础上结合日冻结电量,分别统计供入计量点抄见电量、旁代计量点电量和供出计量点电量;结合旁代关系,由供入计量点抄见电量和旁代计量点电量计算获得供入计量点电量;最后,按考核单元分组求和,供入电量与供出电量做差得到线路损耗;
5.作业依赖控制引擎按照线损计算服务的作业依赖关系,自动执行和提交线损计算服务;
6.日线损计算服务作业全部自动提交后,数据回写至应用系统的业务数据库。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群获取计算服务所需的业务数据,并存储到分布式文件系统,形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从所述分布式文件系统中读取计算服务所需要的用电信息数据;
步骤四、对海量用电信息采集数据进行MapReduce处理;需要多个MapReduce作业共同协作时,要对作业间的数据依赖关系进行管理得到指定的作业依赖关系;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库;
所述步骤四中,MapReduce作业依赖关系管理的方法为:
步骤4.1、对于一项计算服务,数据处理单元分析计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
2.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤一中,用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。
3.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤一中,获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。
4.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤五中的具体方法为:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至主节点,MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
5.如权利要求4所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤5.3中的主节点为Hadoop主节点。
CN201510501437.8A 2015-08-14 2015-08-14 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 Active CN105184452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510501437.8A CN105184452B (zh) 2015-08-14 2015-08-14 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510501437.8A CN105184452B (zh) 2015-08-14 2015-08-14 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法

Publications (2)

Publication Number Publication Date
CN105184452A CN105184452A (zh) 2015-12-23
CN105184452B true CN105184452B (zh) 2018-11-13

Family

ID=54906515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510501437.8A Active CN105184452B (zh) 2015-08-14 2015-08-14 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法

Country Status (1)

Country Link
CN (1) CN105184452B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786996A (zh) * 2016-02-18 2016-07-20 国网智能电网研究院 一种用电信息数据质量分析系统
CN110705914A (zh) * 2019-10-18 2020-01-17 上海应用技术大学 工业用电数据处理系统
CN110764747B (zh) * 2019-10-22 2024-06-21 南方电网科学研究院有限责任公司 基于Airflow的数据计算调度方法
CN110827171A (zh) * 2019-11-01 2020-02-21 南方电网科学研究院有限责任公司 基于电力大数据的调度依赖计算方法
CN110851256A (zh) * 2019-11-07 2020-02-28 南方电网科学研究院有限责任公司 一种基于电力大数据的数据计算调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387173A (zh) * 2010-09-01 2012-03-21 中国移动通信集团公司 一种MapReduce系统及其调度任务的方法和装置
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法
CN104035747A (zh) * 2013-03-07 2014-09-10 伊姆西公司 用于并行计算的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972983B2 (en) * 2012-04-26 2015-03-03 International Business Machines Corporation Efficient execution of jobs in a shared pool of resources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387173A (zh) * 2010-09-01 2012-03-21 中国移动通信集团公司 一种MapReduce系统及其调度任务的方法和装置
CN104035747A (zh) * 2013-03-07 2014-09-10 伊姆西公司 用于并行计算的方法和装置
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"MapReduce作业组合系统的研究与实现";朱晨杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20130715(第7期);第I138-390页 *
"大数据分析在用电采集数据分析与智能监测系统的设计与实现";李珏 等;《电气应用》;20150630;第558-561页 *

Also Published As

Publication number Publication date
CN105184452A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105205729B (zh) 一种基于云计算的电力系统能效公共服务云平台
CN102664812B (zh) 融合业务预测与实时负载的两阶段服务系统负载预测与均衡方法
US8589929B2 (en) System to provide regular and green computing services
CN105184452B (zh) 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法
CN102063336B (zh) 一种分布式计算多应用功能异步并发调度方法
Cheng et al. Heterogeneity-aware workload placement and migration in distributed sustainable datacenters
CN104915407A (zh) 一种基于Hadoop多作业环境下的资源调度方法
Luo et al. Hybrid cloud computing platform: The next generation IT backbone for smart grid
CN104156810A (zh) 一种基于云计算的电力调度生产管理系统及其实现方法
CN102854968B (zh) 一种虚拟机实时能耗计量方法
CN104615526A (zh) 一种大数据平台的监控系统
WO2016025924A1 (en) Systems and methods for auto-scaling a big data system
CN103617067A (zh) 一种基于云计算的电力软件仿真系统
CN105046327A (zh) 一种基于机器学习技术的智能电网信息系统及方法
CN106033476A (zh) 一种云计算环境中分布式计算模式下的增量式图计算方法
Cheng et al. Heterogeneity aware workload management in distributed sustainable datacenters
CN110308984A (zh) 一种用于处理地理分布式数据的跨集群计算系统
CN112637263B (zh) 一种多数据中心资源优化提升方法、系统和存储介质
CN112099937A (zh) 一种资源治理方法和装置
Qayyum et al. IoT-Orchestration based nanogrid energy management system and optimal time-aware scheduling for efficient energy usage in nanogrid
CN101226484A (zh) 基于仿真网格的仿真场景自动部署方法
CN106708624B (zh) 一种多工作域计算资源的自适应调整方法
CN106599116B (zh) 云平台数据集成管理系统和方法
CN206282343U (zh) 智能配用电信息集成系统体系结构
Sharma et al. A novel energy efficient resource allocation using hybrid approach of genetic dvfs with bin packing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant