CN104462579A - 一种大数据管理平台的作业任务管理方法 - Google Patents

一种大数据管理平台的作业任务管理方法 Download PDF

Info

Publication number
CN104462579A
CN104462579A CN201410839313.6A CN201410839313A CN104462579A CN 104462579 A CN104462579 A CN 104462579A CN 201410839313 A CN201410839313 A CN 201410839313A CN 104462579 A CN104462579 A CN 104462579A
Authority
CN
China
Prior art keywords
job task
application program
task
large data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410839313.6A
Other languages
English (en)
Inventor
付兴旺
韦鹏
吴楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410839313.6A priority Critical patent/CN104462579A/zh
Publication of CN104462579A publication Critical patent/CN104462579A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种大数据管理平台的作业任务管理方法,属于数据管理领域,具体步骤为:①建立大数据管理平台的管理系统,包括Web端统一在线作业任务管理模块,Server端应用程序调度及状态维护模块,Agent端应用程序执行模块;②利用Web端统一在线作业任务管理模块,用户上传作业任务的应用程序,并录入其基本信息;③通过任务API接口进入Server端应用程序调度及状态维护模块,对状态维护命令做统一维护,并发送作业任务状态通知信息;④Agent端应用程序执行模块根据用户提交的配置,执行应用程序,并设定应用程序的执行日志输出,本发明实现在线提交应用程序、自定义配置执行信息和状态变化通知信息,可定制任务执行计划,从而提高大数据管理平台的易用性。

Description

一种大数据管理平台的作业任务管理方法
技术领域
本发明公开一种作业任务管理方法,属于数据管理领域,具体地说是一种大数据管理平台的作业任务管理方法。
背景技术
当前,互联网和移动互联网迅速发展,同时大数据和云计算时代的到来,加速了海量数据处理技术的发展。随之而来,大数据管理平台技术已日趋成熟,开源社区和一些大数据服务提供商陆续推出基于Hadoop的大数据管理平台。然而,在使用大数据管理平台执行应用程序的作业任务时,表现的并不友好,各个技术组件在同一平台中并没有统一的作业任务管理中心,而只是各自提供独立的只可在线查看的服务。导致在大数据管理平台在线提交任务,以及作业状态变化时主动发送通知信息非常不便。本发明提供一种大数据管理平台的作业任务管理方法,通过Web端统一在线作业任务管理模块,Server端应用程序调度及状态维护模块,Agent端应用程序执行模块的相互作用实现在线提交应用程序、自定义配置执行信息和状态变化通知信息,可定制任务执行计划,从而提高大数据管理平台的易用性,同时方便了管理员对集群运行任务的统一管理并且应用人员对其发起的任务可进行实时状态跟踪,可以指导大数据管理平台中的作业任务系统的开发,具有较高的参考价值和实际意义。
发明内容
本发明针对大数据管理平台没有统一的作业任务管理中心,而只是各自提供独立的只可在线查看的服务,导致在线提交任务,以及作业状态变化时主动发送通知信息非常不便的问题,提供一种大数据管理平台的作业任务管理方法,实现在线提交应用程序、自定义配置执行信息和状态变化通知信息,可定制任务执行计划,从而提高大数据管理平台的易用性,同时方便了管理员对集群运行任务的统一管理并且应用人员对其发起的任务可进行实时状态跟踪。
本发明提出的具体方案是:
一种大数据管理平台的的作业任务管理方法,具体步骤为:
①建立大数据管理平台的管理系统,主要包括Web端统一在线作业任务管理模块,Server端应用程序调度及状态维护模块,Agent端应用程序执行模块;
②利用Web端统一在线作业任务管理模块,用户登录管理平台,提供作业任务的应用程序,上传至集群中,上传时对应用程序的类型、程序大小和命名规范性做校验,不符合规则的拒绝提交;用户进行作业任务基本信息的配置项录入,对用户录入的任务配置项,进行合法性和规范校验,不符合规范的信息拒绝提交;用户对接收状态通知的配置项进行录入;
③Web端统一在线作业任务管理模块接收的用户上传的作业任务信息通过任务API接口进入Server端应用程序调度及状态维护模块,应用程序调度及状态维护模块维护应用程序执行状态,Server端通过Agent接口接收Agent端处理的各个流程阶段状态发起的维护命令,对状态维护命令做统一维护,并负责作业任务状态通知信息的发送;
④Agent端应用程序执行模块根据用户提交的配置,筛选出当前Agent节点需要执行的应用程序,设定执行计划,并设定应用程序的执行日志输出,将日志内容分类规整,做到可通过前段web端下载查看具体的内容。
所述的步骤②中统一在线作业任务管理模块还提供指定条件的检索功能,对非管理员用户,只能查询当前用户提交的作业任务,管理员角色账号可查询全部作业任务信息,可点击下载或查看详细报告链接,提供作业任务执行的详细内容。
所述的步骤②中作业任务基本信息的配置项包括程序类型、执行引擎、任务名称、执行用户、计划执行时间、执行程序参数、是否接收状态通知、优先级、任务描述。
所述的步骤②中接收状态通知的配置项包括接收方式、状态定制、邮箱地址、手机号、免打扰时间。
所述的步骤④中应用程序执行模块还负责对已经执行完成,且设置了计划任务的记录,做清理处理,避免出现冗余过期的任务记录。
一种大数据管理平台的的作业任务管理系统,应用于一种大数据管理平台的的作业任务管理方法,包括:
Web端统一在线作业任务管理模块,负责根据用户权限在线提交配置作业任务应用程序、配置状态接收通知信息和制定执行作业任务计划功能;
Server端应用程序调度及状态维护模块,负责对作业任务应用程序执行时的调度以及作业任务状态的集中维护功能;
Agent端应用程序执行模块,负责配置定时计划任务,根据用户自定义的作业任务执行计划和Server端的调度,对当前Agent节点需要执行的作业列表和执行的具体时间做出响应,启动执行,并且对应用程序的执行日志的收集。
本发明的有益之处是:本发明的大数据管理平台中Web端统一在线作业任务管理模块,具备根据用户权限在线提交配置作业任务应用程序、配置状态接收通知信息和制定执行作业任务计划功能;Server端应用程序调度及状态维护模块,具备对作业任务应用程序执行时的调度以及作业任务状态的集中维护功能;Agent端应用程序执行模块,包括发起应用程序的执行和执行日志的收集功能;通过三个模块在大数据管理平台的互相作用,实现在线提交大数据处理应用程序、自定义配置执行信息和管理状态变化通知信息,同时定制任务执行计划的目的,从而提高大数据管理平台的易用性,方便管理员对集群运行任务的统一管理并且应用人员对其发起的任务可进行实时状态跟踪。
附图说明
图1是大数据管理平台的体系结构示意图;
图2是大数据管理平台的作业任务管理系统功能列表示意图。
具体实施方式
结合附图对本发明做进一步说明。
本发明的大数据管理平台下的作业任务管理系统,主要从Web端统一在线作业任务管理模块、Server端应用程序调度及状态维护模块、Agent端应用程序执行模块这三个模块进行开发实施,参见附图1。三个模块的开发实施,不局限于使用某一种具体的开发编程语言或算法。
Web端统一在线作业任务管理模块主要负责:
作业任务应用程序提交:
用户登录管理平台,提供任务管理入口,可选择本地的已开发调试完成的应用程序,上传至集群中。在上传时,对应用程序的类型、程序大小和命名规范性做校验,不符合规则的拒绝提交。
作业任务配置:
作业任务配置,基于提交应用程序操作,在作业任务提交过程中,进行作业任务基本信息的配置录入,其中配置项包括但不局限于:程序类型,比如可以是class、jar、sh、py;执行引擎,如Java、Scala、Perl、Hive、HBase、Python;还有任务名称、执行用户、计划执行时间、执行程序参数、是否接收状态通知、优先级、任务描述。
对用户录入的任务配置项,进行合法性和规范校验,不符合规范的拒绝信息提交。
状态通知接收配置:
状态通知接收配置,基于作业任务配置操作进行配置,当用户提交作业任务时,配置了接收状态通知,则需要对通知接收配置项进行录入,包括但不局限于:接收方式,比如接收邮件、短信等方式;状态定制,包括等待执行、执行中、异常退出、被主动终止、已完成;还有邮箱地址、手机号、免打扰时间等。
作业任务基本信息查询:
用户可在任务管理模块中,进行作业任务执行信息的检索,提供指定条件的检索功能,对非管理员用户,只能查询当前用户提交的作业任务,管理员角色账号可查询全部作业任务信息。
作业任务基本信息项目可包括:作业ID、作业名称、应用程序名、执行程序参数、应用程序类型、执行引擎、执行应用程序节点、进程ID、当前状态、执行用户、计划执行时间、提交用户、提交时间、开始时间、结束时间、优先级、是否接收通知、手机号、邮箱、接收方式、接收通知的状态、通知免打扰时间。
作业任务执行详细报告:
作业任务执行详细报告,基于作业任务信息查询操作来呈现,当在查询出的任务基本信息后,可点击下载或查看详细报告链接,提供作业任务执行的详细内容。同时提供执行输出的日志文件以及用户自定义的日志地址,可供下载查看。此报告,可提供作业任务对集群资源的使用情况。
Server端应用程序调度及状态维护负责:
维护应用程序执行状态:
维护应用程序执行状态,Server端接收Agent端处理的各个流程阶段状态发起的维护命令,包括:等待执行、执行中、异常退出、被主动终止、已完成。对状态维护命令做统一维护。
作业任务状态跟踪:
作业任务状态跟踪,属整个系统模块中作业任务的状态控制中心,在Server端进行开发,为Web和Agent提供作业任务的状态相关接口。
发送作业任务状态通知信息:
发送作业任务状态通知信息,根据用户前端配置的通知属性和Server端的任务状态跟踪,执行通知发送或不发送操作。
Agent端应用程序执行模块
配置定时计划任务:
配置定时计划任务,此功能在Agent客户端进行开发,根据用户提交的配置,筛选出当前Agent节点需要执行的应用程序,并设定执行计划。相应的,对执行完成的,已经设置了计划任务的记录,做清理处理,避免出现冗余的过期的任务记录。
执行作业任务应用程序:
根据在配置的计划任务,在Agent端具体指定时间发起应用程序的执行,并设定应用程序的执行日志输出。
日志收集:
Agent端根据用户录入的执行配置发起执行后,对于程序的正常执行,异常退出,主动终止以及用户在应用程序中编写的终端输出内容等产生的数据日志信息,做出整理,将日志内容分类规整,做到可通过前段web页面下载查看具体的内容。

Claims (6)

1.一种大数据管理平台的作业任务管理方法,其特征是具体步骤为:
①建立大数据管理平台的管理系统,主要包括Web端统一在线作业任务管理模块,Server端应用程序调度及状态维护模块,Agent端应用程序执行模块;
②利用Web端统一在线作业任务管理模块,用户登录管理平台,提供作业任务的应用程序,上传至集群中,上传时对应用程序的类型、程序大小和命名规范性做校验,不符合规则的拒绝提交;用户进行作业任务基本信息的配置项录入,对用户录入的任务配置项,进行合法性和规范校验,不符合规范的信息拒绝提交;用户对接收状态通知的配置项进行录入;
③Web端统一在线作业任务管理模块接收的用户上传的作业任务信息通过任务API接口进入Server端应用程序调度及状态维护模块,应用程序调度及状态维护模块维护应用程序执行状态,Server端通过Agent接口接收Agent端处理的各个流程阶段状态发起的维护命令,对状态维护命令做统一维护,并负责作业任务状态通知信息的发送;
④Agent端应用程序执行模块根据用户提交的配置,筛选出当前Agent节点需要执行的应用程序,设定执行计划,并设定应用程序的执行日志输出,将日志内容分类规整,做到可通过前段web端下载查看具体的内容。
2.根据权利要求1所述的一种大数据管理平台的的作业任务管理方法,其特征是所述的步骤②中统一在线作业任务管理模块还提供指定条件的检索功能,对非管理员用户,只能查询当前用户提交的作业任务,管理员角色账号可查询全部作业任务信息,可点击下载或查看详细报告链接,提供作业任务执行的详细内容。
3.根据权利要求2所述的一种大数据管理平台的的作业任务管理方法,其特征是所述的步骤②中作业任务基本信息的配置项包括程序类型、执行引擎、任务名称、执行用户、计划执行时间、执行程序参数、是否接收状态通知、优先级、任务描述。
4.根据权利要求2或3所述的一种大数据管理平台的的作业任务管理方法,其特征是所述的步骤②中接收状态通知的配置项包括接收方式、状态定制、邮箱地址、手机号、免打扰时间。
5.根据权利要求4所述的一种大数据管理平台的的作业任务管理方法,其特征是步骤④中应用程序执行模块还负责对已经执行完成,且设置了计划任务的记录,做清理处理,避免出现冗余过期的任务记录。
6.一种大数据管理平台的的作业任务管理系统,应用于一种大数据管理平台的的作业任务管理方法,其特征是包括:
Web端统一在线作业任务管理模块,负责根据用户权限在线提交配置作业任务应用程序、配置状态接收通知信息和制定执行作业任务计划功能;
Server端应用程序调度及状态维护模块,负责对作业任务应用程序执行时的调度以及作业任务状态的集中维护功能;
Agent端应用程序执行模块,负责配置定时计划任务,根据用户自定义的作业任务执行计划和Server端的调度,对当前Agent节点需要执行的作业列表和执行的具体时间做出响应,启动执行,并且对应用程序的执行日志的收集。
CN201410839313.6A 2014-12-30 2014-12-30 一种大数据管理平台的作业任务管理方法 Pending CN104462579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410839313.6A CN104462579A (zh) 2014-12-30 2014-12-30 一种大数据管理平台的作业任务管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410839313.6A CN104462579A (zh) 2014-12-30 2014-12-30 一种大数据管理平台的作业任务管理方法

Publications (1)

Publication Number Publication Date
CN104462579A true CN104462579A (zh) 2015-03-25

Family

ID=52908614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410839313.6A Pending CN104462579A (zh) 2014-12-30 2014-12-30 一种大数据管理平台的作业任务管理方法

Country Status (1)

Country Link
CN (1) CN104462579A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096047A (zh) * 2015-07-30 2015-11-25 国网青海省电力公司 一种全过程工作任务管控及评估系统及其实现方法
CN105512868A (zh) * 2016-02-26 2016-04-20 广州品唯软件有限公司 一种管控平台
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106254121A (zh) * 2016-08-11 2016-12-21 浪潮软件股份有限公司 一种自动化部署与管理大数据集群的方法
CN106325975A (zh) * 2016-09-09 2017-01-11 浪潮软件股份有限公司 一种利用Docker容器自动化部署与管理大数据集群的方法
CN106648674A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种大数据计算管理方法及系统
CN106815324A (zh) * 2016-12-27 2017-06-09 甘肃万维信息技术有限责任公司 一种基于云计算对象存储快速检索系统
CN107797860A (zh) * 2017-11-21 2018-03-13 上海望友信息科技有限公司 任务自动处理方法及系统、客户端、服务器及存储介质
CN108009699A (zh) * 2016-10-28 2018-05-08 鼎安能源股份有限公司 多元桶装瓦斯车队配送系统及方法
CN108319514A (zh) * 2018-01-26 2018-07-24 山东超越数控电子股份有限公司 一种基于Slurm作业管理的可视化调度系统
CN110377368A (zh) * 2019-07-25 2019-10-25 普元信息技术股份有限公司 基于数据共享平台实现对启动调度服务加载计划的优化处理的系统及其方法
CN111381940A (zh) * 2020-05-29 2020-07-07 上海冰鉴信息科技有限公司 分布式数据处理方法及装置
CN111966666A (zh) * 2020-08-28 2020-11-20 珠海格力电器股份有限公司 一种数据集成管理、开发方法及平台
CN112583884A (zh) * 2020-08-21 2021-03-30 中国科学院国家授时中心 一种对外发布服务方法
CN113568681A (zh) * 2021-07-29 2021-10-29 北京搜房科技发展有限公司 代码执行方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663543A (zh) * 2012-03-22 2012-09-12 北京英孚斯迈特信息技术有限公司 一种用于企业数据统一平台的调度系统
CN103064742A (zh) * 2012-12-25 2013-04-24 中国科学院深圳先进技术研究院 一种hadoop集群的自动部署系统及方法
US20140032637A1 (en) * 2012-07-24 2014-01-30 Michael Weir Enterprise Test System Platform and Associated Method for Interoperable Test Data Management, Test Development, Test Libraries and Test Workflow Management and Automation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663543A (zh) * 2012-03-22 2012-09-12 北京英孚斯迈特信息技术有限公司 一种用于企业数据统一平台的调度系统
US20140032637A1 (en) * 2012-07-24 2014-01-30 Michael Weir Enterprise Test System Platform and Associated Method for Interoperable Test Data Management, Test Development, Test Libraries and Test Workflow Management and Automation
CN103064742A (zh) * 2012-12-25 2013-04-24 中国科学院深圳先进技术研究院 一种hadoop集群的自动部署系统及方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096047A (zh) * 2015-07-30 2015-11-25 国网青海省电力公司 一种全过程工作任务管控及评估系统及其实现方法
CN105512868A (zh) * 2016-02-26 2016-04-20 广州品唯软件有限公司 一种管控平台
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106022007B (zh) * 2016-06-14 2019-03-26 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106254121A (zh) * 2016-08-11 2016-12-21 浪潮软件股份有限公司 一种自动化部署与管理大数据集群的方法
CN106325975A (zh) * 2016-09-09 2017-01-11 浪潮软件股份有限公司 一种利用Docker容器自动化部署与管理大数据集群的方法
CN108009699A (zh) * 2016-10-28 2018-05-08 鼎安能源股份有限公司 多元桶装瓦斯车队配送系统及方法
CN108009699B (zh) * 2016-10-28 2021-08-27 鼎安能源股份有限公司 多元桶装瓦斯车队配送系统及方法
CN106815324A (zh) * 2016-12-27 2017-06-09 甘肃万维信息技术有限责任公司 一种基于云计算对象存储快速检索系统
CN106648674A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种大数据计算管理方法及系统
CN107797860A (zh) * 2017-11-21 2018-03-13 上海望友信息科技有限公司 任务自动处理方法及系统、客户端、服务器及存储介质
CN108319514A (zh) * 2018-01-26 2018-07-24 山东超越数控电子股份有限公司 一种基于Slurm作业管理的可视化调度系统
CN110377368A (zh) * 2019-07-25 2019-10-25 普元信息技术股份有限公司 基于数据共享平台实现对启动调度服务加载计划的优化处理的系统及其方法
CN111381940A (zh) * 2020-05-29 2020-07-07 上海冰鉴信息科技有限公司 分布式数据处理方法及装置
US11169847B1 (en) 2020-05-29 2021-11-09 Shanghai Icekredit, Inc. Method and device for processing distributed data solving problem of manual intervention by data analysts
CN112583884A (zh) * 2020-08-21 2021-03-30 中国科学院国家授时中心 一种对外发布服务方法
CN111966666A (zh) * 2020-08-28 2020-11-20 珠海格力电器股份有限公司 一种数据集成管理、开发方法及平台
CN113568681A (zh) * 2021-07-29 2021-10-29 北京搜房科技发展有限公司 代码执行方法及装置

Similar Documents

Publication Publication Date Title
CN104462579A (zh) 一种大数据管理平台的作业任务管理方法
US11909604B2 (en) Automatic provisioning of monitoring for containerized microservices
US10367679B2 (en) Optimizing data migration processes
US11176030B2 (en) Conducting automated software testing using centralized controller and distributed test host servers
DE112013002542T5 (de) Cloud-basierte Anwendungsressourcendateien
US11429566B2 (en) Approach for a controllable trade-off between cost and availability of indexed data in a cloud log aggregation solution such as splunk or sumo
US20180329808A1 (en) Conducting Automated Software Testing Using Centralized Controller And Distributed Test Host Servers
US10893091B2 (en) Management of asynchronous content post and media file transmissions
CN103369022A (zh) 与存储设备通信的方法和系统
CN103118140A (zh) 将文件分享给关系圈外其他用户终端的方法、系统及装置
WO2017016084A1 (zh) 告警信息通知方法、装置及告警信息过滤设备
CN106487560A (zh) 一种服务器配置信息的采集方法、装置及系统
US11502899B2 (en) Dynamic product installation based on user feedback
US20180020057A1 (en) Method and System for Connecting Heterogeneous Internet of Things Devices for Workflow Automation
CN104579726A (zh) 对用户的网络资源使用权限进行管理的方法和装置
CN110011875A (zh) 拨测方法、装置、设备及计算机可读存储介质
CN105204964A (zh) 基于云盘的数据备份方法及装置
CN104572945B (zh) 一种基于云存储空间的文件搜索方法和装置
US8743712B1 (en) Systems and methods for aggregating data for resources in a target group of resources
KR101436406B1 (ko) P2p기반 업데이트 클라이언트, 서버 장치, 시스템 및 방법
US10938931B1 (en) Central subscription platform
WO2022115848A1 (en) Methods and systems for task management using syntactic markers in messaging communications
CN112597531A (zh) 一种数据产品管理方法及装置
US20150331828A1 (en) Computer-implemented gateway
CN105262809A (zh) 基于云盘的数据备份方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325