CN105184452B - 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 - Google Patents
一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 Download PDFInfo
- Publication number
- CN105184452B CN105184452B CN201510501437.8A CN201510501437A CN105184452B CN 105184452 B CN105184452 B CN 105184452B CN 201510501437 A CN201510501437 A CN 201510501437A CN 105184452 B CN105184452 B CN 105184452B
- Authority
- CN
- China
- Prior art keywords
- data
- job
- service
- power information
- mapreduce
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括:获取计算服务所需的业务数据,形成数据文件;主节点动态分发计算服务,从节点负责MapReduce计算服务的执行;从节点读取计算服务所需要的用电信息数据;对作业间的数据依赖关系进行管理;作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。解决复杂用电大数据计算服务的作业依赖关系,满足在较短时间内完成用电信息大数据复杂计算的业务需求。能够及时高效地处理海量用电信息数据的复杂计算,为营销业务的开展提供可靠的数据支撑。
Description
技术领域
本发明涉及智能用电领域,尤其涉及一种适用于用电信息大数据计算的MapReduce作业依赖控制方法。
背景技术
近年来为满足电力企业对采集处理并掌握电力用户信息的迫切需求,全面推进智能电网建设尤为重要。用电信息采集系统是建设智能电网的重要基础,实现了电力用户及用电信息的数据采集和处理,并对电能、电压、线损等数据进行统计分析、智能费控、阶梯电价以及反窃电等营销业务的开展提供强有力的数据支撑。
随着用电信息采集系统的终端数量和电力用户数量的不断增加,需要处理的电力信息数据急剧增加,对数据处理的实时性提出了较高的要求,大规模用电信息采集数据流高速到达系统需要对数据帧进行归约解析、数据处理和实时存储。每天采集的用电数据需在规定时间内完成计算规则复杂的几十个计算服务,如线损计算服务、电量和负荷计算服务等,用电信息采集系统面临着巨大的计算压力。此外,不同的计算服务之间存在数据依赖关系,若不能对计算服务的作业依赖关系进行合理的管理和控制,就会造成资源利用率低、计算耗时大等问题。面对解决电力用户用电大数据给用电信息采集系统建设带来的大规模业务数据和复杂分析数据的计算问题,传统的数据处理方式已经无法适应需求,急需转变数据处理模式的。因此需要一种适用于用电信息大数据的计算架构和方法,在较短时间内完成用电信息大数据的复杂计算,且能解决复杂计算服务之间的数据依赖关系,提高资源利用率的同时缩短用电大数据的计算时间。
发明内容
本发明的目的就是为了解决上述问题,提出一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,解决复杂用电大数据计算服务的作业依赖关系,满足在较短时间内完成用电信息大数据复杂计算的业务需求。
为了实现上述目的,本发明采用如下技术方案:
一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群获取计算服务所需的业务数据,并存储到分布式文件系统,形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为细粒度的map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从所述分布式文件系统中读取计算服务所需要的用电信息数据;
步骤四、根据相应的计算规则,对海量用电信息采集数据进行MapReduce处理;需要多个MapReduce作业共同协作时,要对作业间的数据依赖关系进行管理得到指定的作业依赖关系;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。
所述步骤一中,用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。
所述步骤一中,获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。
所述步骤四中,MapReduce作业依赖关系管理的方法为:
步骤4.1、对于一项计算服务,数据处理单元分析计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
所述步骤五中的具体方法为:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至主节点,MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
所述步骤5.3中的主节点为Hadoop主节点(JobTracker)。
本发明的有益效果:
1.能够有效地解决传统数据处理技术在面对海量用电信息数据时,由于复杂的计算规则及计算服务之间的数据依赖关系容易造成的可靠性差、计算容易出错、通信开销大等问题。
2.MapReduce作业依赖控制方法面对用电信息采集系统中复杂的计算服务,制定作业依赖关系并依靠作业依赖控制引擎实现了作业的自动执行和提交,能够及时高效地处理海量用电信息数据的复杂计算,为营销业务的开展提供可靠的数据支撑。
附图说明
图1为本发明的方法流程图;
图2为MapReduce作业依赖关系管理过程;
图3为MapReduce作业依赖控制过程;
图4为基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1,是本发明一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据,并存储到HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为细粒度的map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从HDFS中读取计算服务所需要的用电信息数据;
步骤四、根据相应的计算规则,对海量用电信息采集数据进行MapReduce处理;当用电信息采集系统中数据计算服务存在较为复杂的计算规则时,需要多个MapReduce作业共同协作,对作业间的数据依赖关系进行管理;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库。
如图2所示,是所述步骤四中MapReduce作业依赖关系管理过程,包括以下步骤:
步骤4.1、数据处理单元分析某项计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
如图3所示,是所述步骤五中MapReduce作业依赖控制过程,包括以下步骤:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至Hadoop主节点(JobTracker),MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
如图4所示,是本发明在基于MapReduce作业依赖控制方法的用电信息日线损大数据计算流程图,步骤包括如下:
1.电力现场的采集终端在零点上送3000万个测量点的约3.2亿条采集数据,并存入应用系统业务数据库,计算服务集群从业务数据库抽取线损考核单元所需的供入供出计量点等档案数据以及相关计算的日冻结电量,存入HDFS,形成日线损计算服务数据文件;
2.日线损计算服务数据提交基于Hadoop的数据计算服务集群后,由集群的主节点将日线损计算服务作业动态分配给从节点;
3.根据相应线损的计算规则,数据处理单元分析计算线损所需的数据有:供入供出计量点信息、旁代计量点信息、旁代计量点电量、供入计量点抄见电量、供入计量点电量、供出计量点电量;线损计算过程是通过对测量点日冻结电能量表的数据计算得到考核单元供入计量点电量和供出计量点电量,按考核单元汇总求差,得到最终的损耗电量;
4.分析得到线损计算服务的作业依赖关系。线损计算时首先分别获取供入、旁代和供出计量点信息;在此基础上结合日冻结电量,分别统计供入计量点抄见电量、旁代计量点电量和供出计量点电量;结合旁代关系,由供入计量点抄见电量和旁代计量点电量计算获得供入计量点电量;最后,按考核单元分组求和,供入电量与供出电量做差得到线路损耗;
5.作业依赖控制引擎按照线损计算服务的作业依赖关系,自动执行和提交线损计算服务;
6.日线损计算服务作业全部自动提交后,数据回写至应用系统的业务数据库。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (5)
1.一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,包括以下步骤:
步骤一、用电信息采集系统的数据计算服务集群获取计算服务所需的业务数据,并存储到分布式文件系统,形成数据文件;
步骤二、计算服务集群进行用电信息大数据的计算及任务调度;计算服务被划分为map任务和reduce任务,主节点动态分发计算服务,并负责集群监控和可靠性保障,从节点负责MapReduce计算服务的执行;
步骤三、负责具体MapReduce计算服务的从节点从所述分布式文件系统中读取计算服务所需要的用电信息数据;
步骤四、对海量用电信息采集数据进行MapReduce处理;需要多个MapReduce作业共同协作时,要对作业间的数据依赖关系进行管理得到指定的作业依赖关系;
步骤五、作业依赖控制引擎按照指定的作业依赖关系,对作业进行执行和提交;
步骤六、数据处理单元完成用电信息大数据计算,得到业务数据,并将数据回写至应用系统的业务数据库;
所述步骤四中,MapReduce作业依赖关系管理的方法为:
步骤4.1、对于一项计算服务,数据处理单元分析计算服务所需的用电信息数据和计算流程;
步骤4.2、分析该项计算服务所需的用电信息数据之间是否存在依赖关系,将具有依赖关系的数据形成作业列表;
步骤4.3、根据数据间的依赖关系形成MapReduce作业依赖关系图;
步骤4.4、比较具有不同MapReduce作业依赖关系的计算服务的执行时间,选择执行时间最少的MapReduce作业依赖关系为最终的计算服务的作业依赖关系。
2.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤一中,用电信息采集系统的数据计算服务集群从应用系统的业务数据库抽取计算服务所需的业务数据。
3.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤一中,获取得到的计算服务所需的业务数据存储到Hadoop分布式文件系统。
4.如权利要求1所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤五中的具体方法为:
步骤5.1、MapReduce作业依赖控制引擎根据指定的作业依赖关系,实现作业的自动提交,MapReduce作业进入挂起状态;
步骤5.2、当依赖的所有MapReduce作业执行均成功时,进入就绪状态,并等待作业依赖控制引擎的调度;
步骤5.3、MapReduce作业依赖控制引擎提交作业至主节点,MapReduce作业进入运行状态;
步骤5.4、MapReduce作业运行成功,则进入成功状态,从所有直接后继作业的直接前驱列表中删除该作业;作业删除后,若列表为空,则置后继作业状态为就绪;
步骤5.5、MapReduce作业运行失败,则进入失败状态;若作业依赖的某一作业运行失败,则该作业也被认为运行失败,进入失败状态;作业执行失败后,置所有后继作业状态为失败;
步骤5.6、提交所有就绪作业。
5.如权利要求4所述一种适用于用电信息大数据计算的MapReduce作业依赖控制方法,其特征是,所述步骤5.3中的主节点为Hadoop主节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510501437.8A CN105184452B (zh) | 2015-08-14 | 2015-08-14 | 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510501437.8A CN105184452B (zh) | 2015-08-14 | 2015-08-14 | 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105184452A CN105184452A (zh) | 2015-12-23 |
CN105184452B true CN105184452B (zh) | 2018-11-13 |
Family
ID=54906515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510501437.8A Active CN105184452B (zh) | 2015-08-14 | 2015-08-14 | 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105184452B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786996A (zh) * | 2016-02-18 | 2016-07-20 | 国网智能电网研究院 | 一种用电信息数据质量分析系统 |
CN110705914A (zh) * | 2019-10-18 | 2020-01-17 | 上海应用技术大学 | 工业用电数据处理系统 |
CN110764747B (zh) * | 2019-10-22 | 2024-06-21 | 南方电网科学研究院有限责任公司 | 基于Airflow的数据计算调度方法 |
CN110827171A (zh) * | 2019-11-01 | 2020-02-21 | 南方电网科学研究院有限责任公司 | 基于电力大数据的调度依赖计算方法 |
CN110851256A (zh) * | 2019-11-07 | 2020-02-28 | 南方电网科学研究院有限责任公司 | 一种基于电力大数据的数据计算调度方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102387173A (zh) * | 2010-09-01 | 2012-03-21 | 中国移动通信集团公司 | 一种MapReduce系统及其调度任务的方法和装置 |
CN103761685A (zh) * | 2014-01-23 | 2014-04-30 | 国家电网公司 | 基于MapReduce的电力数据并行化异常检测方法 |
CN104035747A (zh) * | 2013-03-07 | 2014-09-10 | 伊姆西公司 | 用于并行计算的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972983B2 (en) * | 2012-04-26 | 2015-03-03 | International Business Machines Corporation | Efficient execution of jobs in a shared pool of resources |
-
2015
- 2015-08-14 CN CN201510501437.8A patent/CN105184452B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102387173A (zh) * | 2010-09-01 | 2012-03-21 | 中国移动通信集团公司 | 一种MapReduce系统及其调度任务的方法和装置 |
CN104035747A (zh) * | 2013-03-07 | 2014-09-10 | 伊姆西公司 | 用于并行计算的方法和装置 |
CN103761685A (zh) * | 2014-01-23 | 2014-04-30 | 国家电网公司 | 基于MapReduce的电力数据并行化异常检测方法 |
Non-Patent Citations (2)
Title |
---|
"MapReduce作业组合系统的研究与实现";朱晨杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20130715(第7期);第I138-390页 * |
"大数据分析在用电采集数据分析与智能监测系统的设计与实现";李珏 等;《电气应用》;20150630;第558-561页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105184452A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184452B (zh) | 一种适用于用电信息大数据计算的MapReduce作业依赖控制方法 | |
US11971793B2 (en) | Machine learning model-based dynamic prediction of estimated query execution time taking into account other, concurrently executing queries | |
CN109491790A (zh) | 基于容器的工业物联网边缘计算资源分配方法及系统 | |
CN107679192A (zh) | 多集群协同数据处理方法、系统、存储介质及设备 | |
CN107704545A (zh) | 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法 | |
CN109299180B (zh) | 一种数据仓库etl操作系统 | |
CN104239144A (zh) | 一种多级分布式任务处理系统 | |
CN106598735B (zh) | 一种分布式计算方法、主控节点和计算系统 | |
CN106547882A (zh) | 一种智能电网中营销大数据的实时处理方法及系统 | |
CN109933631A (zh) | 基于Infiniband网络的分布式并行数据库系统及数据处理方法 | |
CN110908788A (zh) | 基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质 | |
CN102571499A (zh) | 一种云端数据库服务器集群的监控方法 | |
CN115150471B (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN102999317B (zh) | 面向多租户的弹性多进程服务处理方法 | |
CN111241301A (zh) | 一种面向知识图谱表示学习的分布式框架构建方法 | |
Zhou et al. | Application of in-memory computing to online power grid analysis | |
Gibadullin et al. | Service-oriented distributed energy data management using big data technologies | |
CN103325012A (zh) | 一种适用于电网安全校核的并行计算动态任务分配方法 | |
CN110007905A (zh) | 一种基于大数据的软件开发方案的生成方法及系统 | |
CN109344009A (zh) | 基于分级检查点的移动云系统容错方法 | |
CN113342826A (zh) | 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统 | |
CN105825332A (zh) | 基于云计算的电能计量监测平台及其方法 | |
CN102750371A (zh) | 面向电力系统的并行实时数据库系统及其数据管理方法 | |
CN106227465A (zh) | 一种环结构的数据放置方法 | |
CN107908476B (zh) | 基于分布式集群的数据处理方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |