CN102012843A - 任务迁移系统 - Google Patents

任务迁移系统 Download PDF

Info

Publication number
CN102012843A
CN102012843A CN2010105541034A CN201010554103A CN102012843A CN 102012843 A CN102012843 A CN 102012843A CN 2010105541034 A CN2010105541034 A CN 2010105541034A CN 201010554103 A CN201010554103 A CN 201010554103A CN 102012843 A CN102012843 A CN 102012843A
Authority
CN
China
Prior art keywords
task
module
immigration
parallel
breakpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105541034A
Other languages
English (en)
Inventor
秦东明
曹振南
吴宏文
马少杰
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2010105541034A priority Critical patent/CN102012843A/zh
Publication of CN102012843A publication Critical patent/CN102012843A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种任务迁移系统和方法,该系统包括:参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任务并且运行并行任务;作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块,用于在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。本发明通过利用断点/重启功能,实现了在任务由于异常被中断后利用保存的断点信息重新启动并行任务运行,并且实现了并行任务重启后无需手工干预运行。

Description

任务迁移系统
技术领域
本发明涉及气象处理领域,尤其涉及一种任务迁移系统。
背景技术
数值天气预报水平的高低目前已经成为了衡量世界各国气象事业现代化程度的重要标志,而气象预报也已经从传统的建立在天气气候定性理论、数值统计与预报员经验基础上的半经验半理论的定性方法,发展到了以大气科学理论为基础,综合运用科技最新成就,在高性能计算机平台上完成的现代气象数值预报。因此,进一步研发中国的气象数值预报创新技术,是提高我国气象预测水平、使之满足国家多方面对气象服务需求的最根本的科学途径。
目前,气象业务处理系统通常采用并行处理。并行任务的完成通常需要多个计算节点协作完成,在任务量比较大的情况下,并行任务的完成通常需要较多的时间,大多数的并行任务如果出现异常被中断,那么只能从头开始运行,这对计算资源和时间有要求的任务是重要影响。
部分并行任务采用修改自身结构,利用定时保存运行结果,以实现从保存处重新启动任务。这种情况通常工作量较大,而且需要针对每个任务修改其结构,不具备通用性。
目前运行业务系统并行任务过程中如果某个计算节点出现问题而导致业务被中断那么业务必须重新从头开始运行,在任务运行时间较长情况下极其损耗资源,无法保证业务系统顺利完成,需要实现一种通用的可中途启动作业的系统。
如果业务系统被中断,需要人工手动重新修改运行参数来启动业务运行;在实际业务系统要求每天定时运行情况下维护成本太大。
发明内容
针对相关技术中存在的一个或多个问题,本发明的目的在于提供一种,以解决上述问题中的至少之一。
为实现上述目的,根据本发明的一个方面,提供了一种任务迁移系统,该系统包括:参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任务并且运行并行任务;作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块,用于在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。
优选地,任务迁移参数包括断点信息。
优选地,任务迁移模块包括:迁移模块,用于根据与出现异常中断的并行任务最近的断点的断点信息调度出现异常中断的并行任务;以及作业重启模块,用于将断点信息通知给任务提交和运行模块,并指示任务提交和运行模块从断点重启出现异常中断的并行任务。
优选地,断点信息包括:断点间隔和保存位置。
优选地,该任务迁移系统用于气象业务处理。
为实现上述目的,根据本发明的另一个方面,提供了一种任务迁移方法,该方法包括:通过参数设置模块设置任务迁移参数;通过任务提交和运行模块提交并行任务并且运行并行任务;在运行并行任务期间,通过作业状态检测模块检测任务运行状态;以及在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数通过任务迁移模块调度出现异常中断的并行任务并使其继续运行。
优选地,任务迁移参数包括断点信息。
优选地,任务迁移的处理包括:根据与出现异常中断的并行任务最近的断点的断点信息,通过任务迁移模块调度出现异常中断的并行任务;以及根据断点信息通过任务提交和运行模块从断点重启出现异常中断的并行任务。
优选地,断点信息包括:断点间隔和保存位置。
优选地,该任务迁移方法用于气象业务处理。
本发明通过利用断点/重启功能,实现了在任务由于异常被中断后利用保存的断点信息重新启动并行任务运行,并且实现了并行任务重启后无需手工干预运行。
附图说明
图1是根据本发明的实施例的任务迁移系统的框图;
图2是根据本发明的实施例的任务迁移模块的框图;
图3是根据本发明的实施例的任务迁移方法的流程图;以及
图4是根据本发明的实施例的上述任务迁移的处理的流程图。
具体实施方式
图1是根据本发明的实施例的任务迁移系统的框图。如图1所示,根据本发明的实施例的任务迁移系统包括:参数设置模块102,用于设置任务迁移参数;任务提交和运行模块104,用于提交并行任务并且运行并行任务;作业状态检测模块106,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块108,用于在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。其中,任务迁移参数包括断点信息。
图2是根据本发明的实施例的任务迁移模块的框图。如图2所示,该任务迁移模块102包括:迁移模块1022,用于根据与出现异常中断的并行任务最近的断点的断点信息调度出现异常中断的并行任务;以及作业重启模块1024,用于将断点信息通知给任务提交和运行模块,并指示任务提交和运行模块从断点重启出现异常中断的并行任务。
其中,断点信息包括:断点间隔和保存位置。
根据本发明的实施例的上述任务迁移系统可以用于气象业务处理。
图3是根据本发明的实施例的任务迁移方法的流程图。如图3所示,根据本发明的实施例的任务迁移方法包括:
步骤S302,通过参数设置模块设置任务迁移参数;
步骤S304,通过任务提交和运行模块提交并行任务并且运行并行任务;
步骤S306,在运行并行任务期间,通过作业状态检测模块检测任务运行状态;以及
步骤S308,在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数通过任务迁移模块调度出现异常中断的并行任务并使其继续运行。
其中,任务迁移参数包括断点信息。
图4是根据本发明的实施例的上述任务迁移的处理的流程图。如图4所示,该处理包括:
步骤S402,根据与出现异常中断的并行任务最近的断点的断点信息,通过任务迁移模块调度出现异常中断的并行任务;以及
步骤S404,根据断点信息通过任务提交和运行模块从断点重启出现异常中断的并行任务。
其中,断点信息包括:断点间隔和保存位置。
根据本发明的实施例的上述任务迁移方法可以用于气象业务处理。
本发明通过利用Checkpoint/Restart(断点/重启)功能,实现了在任务由于异常被中断后利用保存的断点信息重新启动并行任务运行,并且实现了并行任务重启后无需手工干预运行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种任务迁移系统,其特征在于,所述系统包括:
参数设置模块,用于设置任务迁移参数;
任务提交和运行模块,用于提交并行任务并且运行所述并行任务;
作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及
任务迁移模块,用于在所述故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。
2.根据权利要求1所述的系统,其特征在于,所述任务迁移参数包括断点信息。
3.根据权利要求2所述的系统,其特征在于,所述任务迁移模块包括:
迁移模块,用于根据与出现异常中断的并行任务最近的断点的断点信息调度所述出现异常中断的并行任务;以及
作业重启模块,用于将所述断点信息通知给所述任务提交和运行模块,并指示所述任务提交和运行模块从所述断点重启所述出现异常中断的并行任务。
4.根据权利要求3所述的系统,其特征在于,所述断点信息包括:断点间隔和保存位置。
5.根据权利要求1至4中任一项所述的系统,其特征在于,所述任务迁移系统用于气象业务处理。
6.一种任务迁移方法,其特征在于,所述方法包括:
通过参数设置模块设置任务迁移参数;
通过任务提交和运行模块提交并行任务并且运行所述并行任务;
在运行所述并行任务期间,通过作业状态检测模块检测任务运行状态;以及
在所述故障检测模块检测到故障的情况下,根据所设置的任务迁移参数通过任务迁移模块调度出现异常中断的并行任务并使其继续运行。
7.根据权利要求6所述的方法,其特征在于,所述任务迁移参数包括断点信息。
8.根据权利要求7所述的方法,其特征在于,任务迁移的处理包括:
根据与出现异常中断的并行任务最近的断点的断点信息,通过所述任务迁移模块调度所述出现异常中断的并行任务;以及
根据所述断点信息通过所述任务提交和运行模块从所述断点重启所述出现异常中断的并行任务。
9.根据权利要求8所述的方法,其特征在于,所述断点信息包括:断点间隔和保存位置。
10.根据权利要求6至9中任一项所述的方法,其特征在于,所述任务迁移方法用于气象业务处理。
CN2010105541034A 2010-11-19 2010-11-19 任务迁移系统 Pending CN102012843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105541034A CN102012843A (zh) 2010-11-19 2010-11-19 任务迁移系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105541034A CN102012843A (zh) 2010-11-19 2010-11-19 任务迁移系统

Publications (1)

Publication Number Publication Date
CN102012843A true CN102012843A (zh) 2011-04-13

Family

ID=43843019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105541034A Pending CN102012843A (zh) 2010-11-19 2010-11-19 任务迁移系统

Country Status (1)

Country Link
CN (1) CN102012843A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263671A (zh) * 2011-09-08 2011-11-30 曙光信息产业股份有限公司 基于检查点的故障排除方法和装置
CN102289392A (zh) * 2011-09-08 2011-12-21 曙光信息产业股份有限公司 基于检查点的作业调度方法和系统
CN103077092A (zh) * 2012-12-25 2013-05-01 北京奇虎科技有限公司 浏览器控件恢复方法及系统
WO2017128160A1 (zh) * 2016-01-28 2017-08-03 深圳配天智能技术研究院有限公司 加工复位实现方法、编译器、机器人、数控系统及机床

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1524124A1 (en) * 2002-07-19 2005-04-20 Seiko Epson Corporation Printing system
CN101268447A (zh) * 2005-05-26 2008-09-17 美国联合包裹服务公司 软件进程监控
CN101299677A (zh) * 2008-04-30 2008-11-05 中兴通讯股份有限公司 一种多进程共享同一服务进程的方法
CN101382907A (zh) * 2008-10-24 2009-03-11 普天信息技术研究院有限公司 一种智能卡操作方法以及一种智能卡
CN101777020A (zh) * 2009-12-25 2010-07-14 北京讯鸟软件有限公司 一种用于分布式程序的容错方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1524124A1 (en) * 2002-07-19 2005-04-20 Seiko Epson Corporation Printing system
CN101268447A (zh) * 2005-05-26 2008-09-17 美国联合包裹服务公司 软件进程监控
CN101299677A (zh) * 2008-04-30 2008-11-05 中兴通讯股份有限公司 一种多进程共享同一服务进程的方法
CN101382907A (zh) * 2008-10-24 2009-03-11 普天信息技术研究院有限公司 一种智能卡操作方法以及一种智能卡
CN101777020A (zh) * 2009-12-25 2010-07-14 北京讯鸟软件有限公司 一种用于分布式程序的容错方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263671A (zh) * 2011-09-08 2011-11-30 曙光信息产业股份有限公司 基于检查点的故障排除方法和装置
CN102289392A (zh) * 2011-09-08 2011-12-21 曙光信息产业股份有限公司 基于检查点的作业调度方法和系统
CN103077092A (zh) * 2012-12-25 2013-05-01 北京奇虎科技有限公司 浏览器控件恢复方法及系统
CN103077092B (zh) * 2012-12-25 2015-09-30 北京奇虎科技有限公司 浏览器控件恢复方法及系统
WO2017128160A1 (zh) * 2016-01-28 2017-08-03 深圳配天智能技术研究院有限公司 加工复位实现方法、编译器、机器人、数控系统及机床

Similar Documents

Publication Publication Date Title
CN106156115B (zh) 一种资源调度方法及装置
WO2012025977A1 (ja) スケジュール管理方法及びスケジュール管理サーバ
CN102012843A (zh) 任务迁移系统
CN103034554A (zh) 一种纠错重启以及自动判断启动的etl调度系统及方法
US20150355923A1 (en) Configuring virtual machines in a cloud computing platform
US20130003119A1 (en) Printing system, workflow management method for printing system, and program therefor
CN102576331A (zh) 用于在虚拟机监视器环境中的虚拟机之间同步瞬时资源使用的系统和方法
CN108454879B (zh) 飞机故障处理系统和方法及计算机设备
CN103942034A (zh) 任务调度方法及实现该方法的电子装置
CN103745225A (zh) 分布式ctr预测模型训练的方法和系统
CN113706044A (zh) 一种机场地面服务人员作业调度方法、系统、计算机设备和存储介质
CN106502871A (zh) 监管系统的告警阈值动态配置系统及方法
CN114328098B (zh) 一种慢节点检测方法、装置、电子设备及存储介质
CN109635997A (zh) 一种设备维护保养时机的预测方法和系统
CN102508626A (zh) 一种新型并行打印调度方法及系统
CN106020984A (zh) 电子设备中进程的创建方法及装置
CN105589760A (zh) 一种任务超时保护方法
CN103838762A (zh) 基于数据表轮换的不间断数据处理装置及方法
US20230418663A1 (en) System and methods for dynamic workload migration and service utilization based on multiple constraints
CN102221995A (zh) 地震数据处理作业的断点恢复方法
CN116090780A (zh) 天气预报流程的控制方法、装置、设备和介质
CN110689258A (zh) 一种车辆维修任务调度方法及系统
CN102314631A (zh) 制造执行系统的事件处理装置
CN104636610A (zh) 一种应用于动态环境下的制造系统派工信息修正方法
Pipe Practical prognostics for condition based maintenance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100193 Beijing, Haidian District, northeast Wang West Road, building 8, No. 36

Applicant after: Dawning Information Industry (Beijing) Co., Ltd.

Address before: 100084 Beijing Haidian District City Mill Street No. 64

Applicant before: Dawning Information Industry (Beijing) Co., Ltd.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110413