CN106020955A - 一种infinite大数据工作流调度平台 - Google Patents

一种infinite大数据工作流调度平台 Download PDF

Info

Publication number
CN106020955A
CN106020955A CN201610319186.6A CN201610319186A CN106020955A CN 106020955 A CN106020955 A CN 106020955A CN 201610319186 A CN201610319186 A CN 201610319186A CN 106020955 A CN106020955 A CN 106020955A
Authority
CN
China
Prior art keywords
job
scheduling
dispatching
big data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610319186.6A
Other languages
English (en)
Inventor
张维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aotian Technology Co ltd
Original Assignee
Shenzhen Aotian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aotian Technology Co ltd filed Critical Shenzhen Aotian Technology Co ltd
Priority to CN201610319186.6A priority Critical patent/CN106020955A/zh
Publication of CN106020955A publication Critical patent/CN106020955A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/486Scheduler internals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种infinite大数据工作流调度平台,包括调度维护单元、日志管理单元、作业调度单元和通知单元;其中,调度维护单元用于参数维护、作业步定义与维护和调度异常处理;日志管理单元用于调度过程日志,管理记录调度中的主要过程和异常信息、Job执行日志,管理记录Job执行信息的日志,提供该日志的查询功能,实时监控任务运行状态,及时发现异常;作业调度单元用于根据不同作业类型,可以自定义调度类,与其余系统互通,分解计算任务,降低计算的复杂性;通知单元用于信息通知。本发明将计算任务分解,降低了计算的复杂性,且具有与其他系统互通能力且能时监控任务运行状态,及时发现异常等功能。

Description

一种infinite大数据工作流调度平台
技术领域
本发明属于信息领域,尤其涉及一种infinite大数据工作流调度平台。
背景技术
对海量数据进行处理时,目前大部分公司都采用Hadoop来对数据进行离线处理,但是由于业务场景,业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如经常一个MR或者Hive或者其他形式的任务无法直接完成业务需要,需要任务之间按照特定关系来执行(任务流),例如任务1执行完成之后,才能执行任务2、任务2执行完成之后才能执行任务3和4,在这种情况下需要一套调度系统把各个任务之间的依赖关系串联起来。任务的运行情况的监控,异常问题的排查等,这些问题会使得我们日常的工作变得复杂。
目前的调度平台有Oozie 平台、Zeus平台和Azkaban平台等,但是其运算复杂,没有其他系统互通的能力且没有实时监控功能。
发明内容
为解决上述问题,本发明提供了一种infinite大数据工作流调度平台。本发明将计算任务分解,降低了计算的复杂性,且具有与其他系统互通能力且能时监控任务运行状态,及时发现异常等功能。
为达到上述技术效果,本发明的技术方案是:
一种infinite大数据工作流调度平台,包括调度维护单元、日志管理单元、作业调度单元和通知单元;其中,调度维护单元用于参数维护、作业步定义与维护和调度异常处理;日志管理单元用于调度过程日志,管理记录调度中的主要过程和异常信息、Job执行日志,管理记录Job执行信息的日志,提供该日志的查询功能,实时监控任务运行状态,及时发现异常;作业调度单元用于根据不同作业类型,可以自定义调度类,与其余系统互通,分解计算任务,降低计算的复杂性;通知单元用于信息通知。
进一步的改进,信息通知包括成功退出时的成功退出通知和失败退出时的失败退出通知。
进一步的改进,所述成功退出的方式包括分段提交方式和自动提交方式;所述分段提交方式指分段提交的当次任务都正确完成,即Job运行状态临时表中登记的作业状态全部为完成时,退出大数据计算调度;自动提交方式指,当当期所有的任务都正确完成,即Job运行状态表中登记的作业状态全部为完成时,退出大数据计算调度。
进一步的改进,所述失败退出的情况包括关键作业异常即关键作业运行异常时,影响剩下的作业不能运行时,则退出大数据计算调度;超过大数据计算调度时限即当超过预先设定的大数据计算调度时限时,退出大数据计算调度;数据库异常即当不能正常操作数据库时,退出大数据计算调度;操作系统异常即当发生操作系统异常,导致程序不能正常运行,如文件系统异常导致读写文件错时,需要退出大数据计算调度。
进一步的改进,所述工作流调度平台为Oozie 平台、Zeus平台或Azkaban平台。
本发明将计算任务分解,降低了计算的复杂性,且具有与其他系统互通能力且能时监控任务运行状态,及时发现异常等功能。
附图说明
图1为本发明的大数据调度流程示意图。
具体实施方式
以下通过具体实施方式并且结合附图对本发明的技术方案作具体说明。
实施例1
infinite大数据工作流调度平台的方式和流程的方式如图1所示。
调度维护
1) 调度系统参数维护,对调度系统的公共参数:期数、向数据库获取作业状态周期,数据库连接参数进行设置和修改。 2) 作业步定义与维护,定义作业对应的实际计算处理过程,生成作业编号,定义作业类型和作业的驱动关系,作业的运行所需要的条件。 3) 调度异常处理,对调度过程中出现的异常情况进行处理,提供错误查找、出错重跑功能。 日志管理 1) 调度过程日志,管理记录调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常的日志。 2) Job执行日志,管理记录Job执行信息的日志,提供该日志的查询功能。 作业调度
根据不同作业类型,可以自定义调度类。
例如需要进行mapreduce计算,就定义一个接口类去调用mapreduce程序
需要spark计算 定义一个spark接口类程序调用spark程序
诸如此类
将大数据各种计算方式有机的结合起来。
具体计算流程示例1
1原始数据导入进hdfs,调用入库类型程序
2将数据进行清洗入库,调用mapreduce。(有两种数据类型,需同时入库,此为并发调用)
3将用户归类,统计用户属性标签,调用spark程序
4 分析用户行为,调用mapreduce程序
5 将分析结果导入到另一套界面系统中,用于展示(调用Java入库程序)
正常情况下的作业调度,对整个大数据计算过程进行调度,提供分段提交处理和自动提交处理功能。日志信息设计 1) 调度过程日志。以文件的方式存在,用于记录Job调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常。 2) Job执行日志。数据库表方式存在,给Job的调度提供必要的信息,是Job调度策略计算的依据,调度模块和Job之间的接口之一。通知设计:重要信息(成功/失败)的通知 1. 成功退出 1)分段提交方式,当分段提交的当次任务都正确完成,即Job运行状态临时表中登记的作业状态全部为完成时,退出大数据计算调度。 2) 自动提交方式,当当期所有的任务都正确完成,即Job运行状态表中登记的作业状态全部为完成时,退出大数据计算调度。 2. 失败退出 1) 关键作业异常,关键作业运行异常时,影响剩下的作业不能运行时,则退出大数据计算调度。 2) 超过大数据计算调度时限,当超过预先设定的大数据计算调度时限时,退出大数据计算调度。 3) 数据库异常,当不能正常操作数据库时,退出大数据计算调度。 4) 操作系统异常,当发生操作系统异常,导致程序不能正常运行,如文件系统异常导致读写文件错时,需要退出大数据计算调度。
上述仅为本发明的一个具体导向实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明的保护范围的行为。

Claims (5)

1.一种infinite大数据工作流调度平台,其特征在于,包括调度维护单元、日志管理单元、作业调度单元和通知单元;其中,调度维护单元用于参数维护、作业步定义与维护和调度异常处理;日志管理单元用于调度过程日志,管理记录调度中的主要过程和异常信息、Job执行日志,管理记录Job执行信息的日志,提供该日志的查询功能,实时监控任务运行状态,及时发现异常;作业调度单元用于根据不同作业类型,可以自定义调度类,与其余系统互通,分解计算任务,降低计算的复杂性;通知单元用于信息通知。
2.如权利要求1所述的infinite大数据工作流调度平台,其特征在于,信息通知包括成功退出时的成功退出通知和失败退出时的失败退出通知。
3.如权利要求2所述的infinite大数据工作流调度平台,其特征在于,所述成功退出的方式包括分段提交方式和自动提交方式;所述分段提交方式指分段提交的当次任务都正确完成,即Job运行状态临时表中登记的作业状态全部为完成时,退出大数据计算调度;自动提交方式指,当当期所有的任务都正确完成,即Job运行状态表中登记的作业状态全部为完成时,退出大数据计算调度。
4.如权利要求2所述的infinite大数据工作流调度平台,其特征在于,所述失败退出的情况包括关键作业异常即关键作业运行异常时,影响剩下的作业不能运行时,则退出大数据计算调度;超过大数据计算调度时限即当超过预先设定的大数据计算调度时限时,退出大数据计算调度;数据库异常即当不能正常操作数据库时,退出大数据计算调度;操作系统异常即当发生操作系统异常,导致程序不能正常运行,如文件系统异常导致读写文件错时,需要退出大数据计算调度。
5.如权利要求1所述的infinite大数据工作流调度平台,其特征在于,所述工作流调度平台为Oozie 平台、Zeus平台或Azkaban平台。
CN201610319186.6A 2016-05-12 2016-05-12 一种infinite大数据工作流调度平台 Pending CN106020955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319186.6A CN106020955A (zh) 2016-05-12 2016-05-12 一种infinite大数据工作流调度平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319186.6A CN106020955A (zh) 2016-05-12 2016-05-12 一种infinite大数据工作流调度平台

Publications (1)

Publication Number Publication Date
CN106020955A true CN106020955A (zh) 2016-10-12

Family

ID=57100495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319186.6A Pending CN106020955A (zh) 2016-05-12 2016-05-12 一种infinite大数据工作流调度平台

Country Status (1)

Country Link
CN (1) CN106020955A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240810A (zh) * 2018-08-03 2019-01-18 腾讯科技(深圳)有限公司 任务处理方法、装置及存储介质
CN110689245A (zh) * 2019-09-17 2020-01-14 上海易点时空网络有限公司 一种分析大数据工作流调用关系的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012094138A2 (en) * 2011-01-05 2012-07-12 Alcatel Lucent Seamless scaling of enterprise applications
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
CN104317650A (zh) * 2014-10-10 2015-01-28 北京工业大学 一种面向Map/Reduce型海量数据处理平台的作业调度方法
CN104407919A (zh) * 2014-12-15 2015-03-11 浪潮软件股份有限公司 一种数据处理任务调度系统及方法
US20160070778A1 (en) * 2014-09-09 2016-03-10 Sas Institute Inc. Techniques for dynamic partitioning in a distributed parallel computational environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012094138A2 (en) * 2011-01-05 2012-07-12 Alcatel Lucent Seamless scaling of enterprise applications
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
US20160070778A1 (en) * 2014-09-09 2016-03-10 Sas Institute Inc. Techniques for dynamic partitioning in a distributed parallel computational environment
CN104317650A (zh) * 2014-10-10 2015-01-28 北京工业大学 一种面向Map/Reduce型海量数据处理平台的作业调度方法
CN104407919A (zh) * 2014-12-15 2015-03-11 浪潮软件股份有限公司 一种数据处理任务调度系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨国辉: "《Buffalo:一种分布式的工作流调度系统》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240810A (zh) * 2018-08-03 2019-01-18 腾讯科技(深圳)有限公司 任务处理方法、装置及存储介质
CN110689245A (zh) * 2019-09-17 2020-01-14 上海易点时空网络有限公司 一种分析大数据工作流调用关系的方法及系统
CN110689245B (zh) * 2019-09-17 2022-07-12 上海易点时空网络有限公司 一种分析大数据工作流调用关系的方法及系统

Similar Documents

Publication Publication Date Title
CN108614526B (zh) 一种可重构的生产过程管理系统
Brundage et al. Where do we start? Guidance for technology implementation in maintenance management for manufacturing
CN106126403B (zh) Oracle数据库故障分析方法和装置
CN111400011B (zh) 一种实时任务调度方法、系统、设备及可读存储介质
Schreiber et al. Integrated production and maintenance planning for cyber-physical production systems
CN101639803A (zh) 多线程应用系统的异常处理方法和异常处理装置
CN104407919A (zh) 一种数据处理任务调度系统及方法
CN110232504A (zh) 一种质量制造执行系统平台及终端
Zhang et al. A task scheduling model integrating micro-breaks for optimisation of job-cycle time in human-robot collaborative assembly cells
CN104881730A (zh) 一种基于工作流的锅炉虚拟样机协同设计系统及方法
CN113762735A (zh) 一种基于规则库的数据质量治理系统及方法
Becker et al. Supporting Business Process Compliance in Financial Institutions–A Model-Driven Approach
CN106020955A (zh) 一种infinite大数据工作流调度平台
Zwolińska et al. Selection of Maintenance Strategies for Machines in a Series-Parallel System
CN108595480B (zh) 一种基于云计算的大数据etl工具系统及应用方法
Nagyova et al. Human failures on production line as a source of risk of non-conformity occurrence
CN116976839A (zh) 一种基于网络协同制造的铅蓄电池生产管控方法
CN102314631A (zh) 制造执行系统的事件处理装置
CN116126929A (zh) 对象为中心的协同式流程挖掘方法与系统
CN115617480A (zh) 一种任务调度方法、装置、系统及存储介质
Pfeiffer et al. Simulation as one of the core technologies for digital enterprises: assessment of hybrid rescheduling methods
Sun et al. A simulation‐based integrated virtual testbed for dynamic optimization in smart manufacturing systems
Schoech et al. Optimising plant layout decisions based on emulation models–technical framework and practical insights
JP2007279965A (ja) ソフトウェア品質管理システムと方法、プログラムおよび記録媒体
CN102385725A (zh) 一种基于工作流驱动的文档管理系统及文档管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012