CN104536770A - 一种支持并行作业断点恢复的作业提交和恢复方法 - Google Patents

一种支持并行作业断点恢复的作业提交和恢复方法 Download PDF

Info

Publication number
CN104536770A
CN104536770A CN201510042605.1A CN201510042605A CN104536770A CN 104536770 A CN104536770 A CN 104536770A CN 201510042605 A CN201510042605 A CN 201510042605A CN 104536770 A CN104536770 A CN 104536770A
Authority
CN
China
Prior art keywords
breakpoint
job
resumed
module
homework
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510042605.1A
Other languages
English (en)
Inventor
张云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510042605.1A priority Critical patent/CN104536770A/zh
Publication of CN104536770A publication Critical patent/CN104536770A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种支持并行作业断点恢复的作业提交和恢复方法,涉及高性能计算集群作业调度管理领域。本发明通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择从最近的断点恢复作业继续运行,而不需要从头开始计算。用户可以选择从最近的断点将作业恢复至其他计算节点继续运行,从而为用户节省大量时间,提高工作效率。

Description

一种支持并行作业断点恢复的作业提交和恢复方法
技术领域
本发明涉及高性能计算集群作业调度管理领域,尤其涉及一种支持并行作业断点恢复的作业提交和恢复方法。
背景技术
为了提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题,并行计算一次可执行多个指令的算法,指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。
大规模并行作业通常涉及大量计算节点,且需要耗费较长时间(如三个月)才能完成。如果在作业运行过程中,并行作业由于运行所在的某一个(或多个)计算节点故障而导致作业中断,整个作业运行将前功尽弃,浪费大量时间及金钱。
发明内容
为了解决该问题,本发明提出的一种支持并行作业断点恢复的作业提交和恢复方法,本发明是专门为解决高性能领域大规模作业可靠性一整套方法。
本发明的技术方案为:
一种支持并行作业断点恢复的作业提交和恢复方法,通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。而不需要从头开始计算。
为了避免被恢复作业重复在作业队列中排队等待,本发明还提供了作业恢复后自动调整优先级设置,使作业恢复后在资源足够的情况下立即运行,提高工作流程效率。
本方法主要包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整模块;
(1)作业提交模块:作业提交时,用户输入保存作业断点的位置,保存断点的个数,保存断点的时间间隔,作业提交脚本根据用户参数提交以可断定恢复模式提交一个并行作业;同时,作业提交模块还负责保存作业的其他参数信息,如并行作业所用资源(节点数、核数),作业运行所在队列,作业工作目录等,这些信息将在作业恢复时使用,以确保被恢复的作业与原作业一致;
(2)作业运行断点保存模块:作业运行过程中,断点保存机制将按照用户提交时设置的参数,以相应的时间间隔将断点保存在指定目录中;
(3)故障作业恢复运行模块:作业运行较长一段时间后,若某个计算节点故障导致作业失败退出,此时,用户可以从已保存的作业断点中选择一个(通常选择最近的一个)将作业从该点恢复,被恢复的作业将读取作业提交时保存的原作业参数信息,以相同的参数重新提交到队列中;
(4)被恢复作业优先级调整模块:被恢复的作业被重新提交的作业队列后,通常需要重新排队等待运行。为了避免一个作业重复排队,我们提供了恢复作业优先级自动调整至最高,则被恢复作业在资源足够时可以直接运行。
允许用户在作业提交时设置相应的作业断点保存方式,在作业由于计算节点故障时,用户可以选择从最近的断点将作业恢复至其他计算节点继续运行,从而为用户节省大量时间,提高工作效率。
附图说明
图1是作业保存断点及从断点恢复示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明做进一步地详细描述。
通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。而不需要从头开始计算。
本发明的显著特征是可以自动保存并行作业提交的相关参数,在作业运行过程中,自动保存作业断点,当并行作业所在某计算节点故障而导致作业运行失败时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。为了避免被恢复的作业重新在作业队列中排队等待大量时间,本发明还提供作业恢复后自动调整优先级方法,使作业恢复后在资源足够的情况下立即运行。本发明介绍的方法包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整。
(1)作业提交模块:作业提交时,用户输入保存作业断点的位置,保存断点的个数,保存断点的时间间隔,作业提交脚本根据用户参数提交以可断定恢复模式提交一个并行作业;同时,作业提交模块还负责保存作业的其他参数信息,如并行作业所用资源(节点数、核数),作业运行所在队列,作业工作目录等,这些信息将在作业恢复时使用,以确保被恢复的作业与原作业一致。
(2)作业运行断点保存模块:作业运行过程中,断点保存机制将按照用户提交时设置的参数,以相应的时间间隔将断点保存在指定目录中。
(3)故障作业恢复运行模块:作业运行较长一段时间后,若某个计算节点故障导致作业失败退出,此时,用户可以从已保存的作业断点中选择一个(通常选择最近的一个)将作业从该点恢复,被恢复的作业将读取作业提交时保存的原作业参数信息,以相同的参数重新提交到队列中。
(4)被恢复作业优先级调整模块:被恢复的作业被重新提交的作业队列后,通常需要重新排队等待运行。为了避免一个作业重复排队,我们提供了恢复作业优先级自动调整至最高,则被恢复作业在资源足够时可以直接运行。
如图1所示,作业运行在计算节点1,2,3三个计算节点上,运行过程中,断点保存机制自动保存断点至共享存储中(当前已保存5个断点),此时,计算节点3发送故障,作业在进度大概60%时失败退出。此时,可以从共享存储中的断点恢复作业,作业将被重新分配在其他计算节点5,6,7上,作业从60%进程处继续开始运行。

Claims (3)

1.一种支持并行作业断点恢复的作业提交和恢复方法,其特征在于,通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。
2.根据权利要求1所述的方法,其特征在于,还提供了作业恢复后自动调整优先级设置,使作业恢复后在资源足够的情况下立即运行。
3.根据权利要求2所述的方法,其特征在于,
主要包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整模块;
(1)作业提交模块:作业提交时,用户输入保存作业断点的位置,保存断点的个数,保存断点的时间间隔,作业提交脚本根据用户参数提交以可断定恢复模式提交一个并行作业;同时,作业提交模块还负责保存作业的其他参数信息,如并行作业所用资源,作业运行所在队列,作业工作目录等,这些信息将在作业恢复时使用,以确保被恢复的作业与原作业一致;
(2)作业运行断点保存模块:作业运行过程中,断点保存机制将按照用户提交时设置的参数,以相应的时间间隔将断点保存在指定目录中;
(3)故障作业恢复运行模块:作业运行一段时间后,若某个计算节点故障导致作业失败退出,此时,用户可以从已保存的作业断点中选择一个将作业从该点恢复,被恢复的作业将读取作业提交时保存的原作业参数信息,以相同的参数重新提交到队列中;
(4)被恢复作业优先级调整模块:被恢复的作业被重新提交的作业队列后,恢复作业优先级自动调整至最高,则被恢复作业在资源足够时可以直接运行。
CN201510042605.1A 2015-01-28 2015-01-28 一种支持并行作业断点恢复的作业提交和恢复方法 Pending CN104536770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510042605.1A CN104536770A (zh) 2015-01-28 2015-01-28 一种支持并行作业断点恢复的作业提交和恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510042605.1A CN104536770A (zh) 2015-01-28 2015-01-28 一种支持并行作业断点恢复的作业提交和恢复方法

Publications (1)

Publication Number Publication Date
CN104536770A true CN104536770A (zh) 2015-04-22

Family

ID=52852302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510042605.1A Pending CN104536770A (zh) 2015-01-28 2015-01-28 一种支持并行作业断点恢复的作业提交和恢复方法

Country Status (1)

Country Link
CN (1) CN104536770A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789141A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置
CN107784479A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 一种业务流程处理方法和装置
CN108369546A (zh) * 2015-12-18 2018-08-03 微软技术许可有限责任公司 通过对象恢复的优先级化的系统可靠性
CN110874286A (zh) * 2018-08-29 2020-03-10 中国石油化工股份有限公司 基于属性计算的批处理作业断点恢复方法及其系统
CN111045845A (zh) * 2019-11-29 2020-04-21 苏州浪潮智能科技有限公司 一种数据回传方法、装置、设备及计算机可读存储介质
CN111475297A (zh) * 2018-06-27 2020-07-31 国家超级计算天津中心 一种作业柔性配置方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386586B1 (en) * 1998-12-22 2008-06-10 Computer Associates Think, Inc. System for scheduling and monitoring computer processes
CN101369241A (zh) * 2007-09-21 2009-02-18 中国科学院计算技术研究所 一种机群容错系统、装置及方法
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386586B1 (en) * 1998-12-22 2008-06-10 Computer Associates Think, Inc. System for scheduling and monitoring computer processes
CN101369241A (zh) * 2007-09-21 2009-02-18 中国科学院计算技术研究所 一种机群容错系统、装置及方法
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789141A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置
US10831622B2 (en) 2015-11-24 2020-11-10 Alibaba Group Holding Limited Method and apparatus for processing gateway device fault
CN106789141B (zh) * 2015-11-24 2020-12-11 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置
CN108369546A (zh) * 2015-12-18 2018-08-03 微软技术许可有限责任公司 通过对象恢复的优先级化的系统可靠性
CN107784479A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 一种业务流程处理方法和装置
CN111475297A (zh) * 2018-06-27 2020-07-31 国家超级计算天津中心 一种作业柔性配置方法
CN111475297B (zh) * 2018-06-27 2023-04-07 国家超级计算天津中心 一种作业柔性配置方法
CN110874286A (zh) * 2018-08-29 2020-03-10 中国石油化工股份有限公司 基于属性计算的批处理作业断点恢复方法及其系统
CN111045845A (zh) * 2019-11-29 2020-04-21 苏州浪潮智能科技有限公司 一种数据回传方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN104536770A (zh) 一种支持并行作业断点恢复的作业提交和恢复方法
EP2535810B1 (en) System and method for performing distributed parallel processing tasks in a spot market
US11210185B2 (en) Method and system for data recovery in a data system
CN106547613B (zh) 任务处理流程的调度及故障恢复方法
US8595732B2 (en) Reducing the response time of flexible highly data parallel task by assigning task sets using dynamic combined longest processing time scheme
US8381015B2 (en) Fault tolerance for map/reduce computing
CN105912387A (zh) 数据处理作业调度方法及装置
US20130290945A1 (en) System and method for performing an in-service software upgrade in non-redundant systems
CN102763086A (zh) 分布式计算任务处理系统和任务处理方法
US20160103708A1 (en) System and method for task execution in data processing
CN103064728A (zh) 一种MapReduce任务的容错调度方法
US10366084B2 (en) Optimizing pipelining result sets with fault tolerance in distributed query execution
CN103678051B (zh) 一种集群数据处理系统中的在线故障容错方法
CN109426550A (zh) 资源的调度方法及设备
CN104484167A (zh) 任务处理方法及装置
CN105955820A (zh) 作业流控制方法、装置和系统
Dai et al. Research and implementation of big data preprocessing system based on Hadoop
Dinu et al. Rcmp: Enabling efficient recomputation based failure resilience for big data analytics
CN102841822B (zh) 对jobTracker主机进行宕机保护的方法和系统
CN107807845A (zh) 一种增量式数据并行处理装置与方法
CN104346380A (zh) 基于MapReduce模型的数据排序方法和系统
Kaur et al. Fault tolerance techniques and architectures in cloud computing-a comparative analysis
EP3701374A1 (en) A system and method for high-performance general-purpose parallel computing with fault tolerance and tail tolerance
CN106547642B (zh) 一种数据存储备份的方法及装置
US10860373B2 (en) Enhanced governance for asynchronous compute jobs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422

WD01 Invention patent application deemed withdrawn after publication