CN102263671A - 基于检查点的故障排除方法和装置 - Google Patents

基于检查点的故障排除方法和装置 Download PDF

Info

Publication number
CN102263671A
CN102263671A CN2011102653653A CN201110265365A CN102263671A CN 102263671 A CN102263671 A CN 102263671A CN 2011102653653 A CN2011102653653 A CN 2011102653653A CN 201110265365 A CN201110265365 A CN 201110265365A CN 102263671 A CN102263671 A CN 102263671A
Authority
CN
China
Prior art keywords
user job
checkpoint
job
fault
described user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102653653A
Other languages
English (en)
Inventor
戴荣
马少杰
王璟
许涛
李斌
李程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN2011102653653A priority Critical patent/CN102263671A/zh
Publication of CN102263671A publication Critical patent/CN102263671A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

本发明提供了一种基于检查点的故障排除方法,包括以下步骤:按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。此外,本发明还提供了一种基于检查点的故障排除装置。

Description

基于检查点的故障排除方法和装置
技术领域
本发明总体上涉及网络领域,更具体地,涉及基于检查点的故障排除方法和装置。
背景技术
在目前的网络硬件配置中,集群环境下节点众多,由于硬件故障导致程序停止运行的风险大大增加。有许多软件可以做到自动机型故障检测,屏蔽硬件故障信息,对作业进行自动迁移,但是这样的软件收费昂贵,用户难以接受。
此外,出现了利用高可用集群来屏蔽硬件故障的技术,然而,这种技术需要投入大量的备用机器来防止主机硬件故障。此时用户程序自动切换需要额外的配置,切换过程中将产生作业停顿,增加作业崩溃风险,增加用户额外投资费用。
发明内容
为解决上述问题,本发明提供了一种基于检查点的故障排除方法,包括以下步骤:按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
其中,当用户作业没有异常中断时,用户作业完成。
其中,当故障无法排除时,退出用户作业并迁移至其他节点继续运行。
其中,在将用户作业按时间点进行保存的步骤之前,提交用户作业,并在用户作业开始时设置作业参数和迁移参数。
此外,本发明还提供了一种基于检查点的故障排除装置,包括:检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;停机模块,用于在用户作业异常中断时,停机检查故障问题,其中,还包括恢复模块,用于在故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
其中,该装置还包括:迁移模块,用于在故障无法排除时,退出用户作业并迁移至其他节点继续运行。
其中,该装置还包括:提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。
附图说明
当结合附图进行阅读时,根据下面详细的描述可以更好地理解本发明。应该强调的是,根据工业中的标准实践,各种部件没有被按比例绘制。实际上,为了清楚的讨论,各种部件的尺寸可以被任意增加或减少
图1示出了根据本发明的示例性实施例的基于检查点的故障排除方法的流程图。
具体实施方式
为了实施本发明的不同部件,以下描述提供了许多不同的实施例或示例。以下描述元件和布置的特定示例以简化本发明。当然这些仅仅是示例并不打算限定。再者,以下描述中第一部件形成在第二部件上可包括其中第一和第二部件以直接接触形成的实施例,并且也可包括其中额外的部件形成插入到第一和第二部件中的实施例,使得第一和第二部件不直接接触。为了简明和清楚,可以任意地以不同的尺寸绘制各种部件。
本发明大体的技术方案思路如下:
1.利用Checkpoint(检查点)/Restart(重启)技术实现硬件故障排除,异常中断后利用检查点信息进行重新启动并继续执行任务。
2.利用Checkpoint/Restart技术实现硬件故障屏蔽,机器故障后将用户作业迁移至新的节点上继续进行。
图1示出了根据本发明的示例性实施例的基于检查点的故障排除方法的流程图。如图1所示,本发明提供了一种基于检查点的故障排除方法,包括以下步骤:S101,提交用户作业,并在用户作业开始时设置作业参数和迁移参数;S103,按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
优选地,当用户作业没有异常中断时,用户作业完成。
优选地,当故障无法排除时,退出用户作业并迁移至其他节点继续运行。
此外,本发明还提供了一种基于检查点的故障排除装置(未示出),包括:检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;停机模块,用于在用户作业异常中断时,停机检查故障问题,其中,还包括恢复模块,用于在故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
优选地,该装置还包括:迁移模块,用于在故障无法排除时,退出用户作业并迁移至其他节点继续运行。
优选地,该装置还包括:提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。
具体地,可以按照如下流程进行处理:
用户提交作业,在作业运行开始时设置作业参数和迁移参数。
提交作业,作业进入内存区域运行,体现为用户进程。
按照设置的迁移参数时间,作业进程按时进行进程检查点保存,将检查点信息写入物理存储区域。
如果作业异常中断,则可以停机检查故障问题,排除软件、硬件故障后通过读取检查点信息,在内存中重新恢复作业,继续运行。
如果没有异常中断,作业顺利完成。
如果故障无法排除,作业退出,必须迁移至其他节点继续运行。
通过上述处理,可以获得如下技术效果:
1.利用Checkpoint/Restart技术,使用户作业按时间点进行保存,从而排除硬件故障。
2.解决了硬件失效导致用户作业停止而引起的损失,利用Checkpoint/Restart技术,将用户作业按时间点进行保存,在本机或者其他机器上,按照保存信息从最近一次保存点信息恢复用户作业。
上面论述了若干实施例的部件,使得本领域普通技术人员可以更好地理解本发明的各个方面。本领域普通技术人员应该理解,可以很容易地使用本发明作为基础来设计或更改其他用于达到与这里所介绍实施例相同的目的和/或实现相同优点的处理和结构。本领域普通技术人员也应该意识到,这种等效构造并不背离本发明的精神和范围,并且在不背离本发明的精神和范围的情况下,可以进行多种变化、替换以及改变。

Claims (7)

1.一种基于检查点的故障排除方法,其特征在于,包括以下步骤:
按照预先设置的迁移参数,将用户作业按时间点进行保存,并将所述时间点设置为检查点;
当所述用户作业异常中断时,停机检查故障问题,其中,
当故障排除时,通过读取所述检查点所对应的用户作业信息来重新恢复所述用户作业。
2.根据权利要求1所述的方法,其特征在于,当所述用户作业没有异常中断时,所述用户作业完成。
3.根据权利要求1或2所述的方法,其特征在于,当故障无法排除时,退出所述用户作业并迁移至其他节点继续运行。
4.根据权利要求1所述的方法,其特征在于,在将用户作业按时间点进行保存的步骤之前,提交所述用户作业,并在所述用户作业开始时设置作业参数和所述迁移参数。
5.一种基于检查点的故障排除装置,其特征在于,包括:
检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将所述时间点设置为检查点;
停机模块,用于在所述用户作业异常中断时,停机检查故障间题,
其中,还包括恢复模块,用于在故障排除时,通过读取所述检查点所对应的用户作业信息来重新恢复所述用户作业。
6.根据权利要求5所述的装置,其特征在于,还包括:迁移模块,用于在故障无法排除时,退出所述用户作业并迁移至其他节点继续运行。
7.根据权利要求5所述的装置,其特征在于,还包括:
提交模块,用于提交所述用户作业;以及
参数设置模块,用于在所述用户作业开始时设置作业参数和所述迁移参数。
CN2011102653653A 2011-09-08 2011-09-08 基于检查点的故障排除方法和装置 Pending CN102263671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102653653A CN102263671A (zh) 2011-09-08 2011-09-08 基于检查点的故障排除方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102653653A CN102263671A (zh) 2011-09-08 2011-09-08 基于检查点的故障排除方法和装置

Publications (1)

Publication Number Publication Date
CN102263671A true CN102263671A (zh) 2011-11-30

Family

ID=45010140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102653653A Pending CN102263671A (zh) 2011-09-08 2011-09-08 基于检查点的故障排除方法和装置

Country Status (1)

Country Link
CN (1) CN102263671A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713854A (zh) * 2012-03-15 2012-10-03 华为技术有限公司 一种容器状态的保存和恢复的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154185A (zh) * 2007-08-27 2008-04-02 电子科技大学 软件运行时执行恢复与重放方法
CN101986602A (zh) * 2010-08-11 2011-03-16 山东大学 基于报文数目检验无阻塞检查点设置和故障进程恢复方法
CN102012843A (zh) * 2010-11-19 2011-04-13 曙光信息产业(北京)有限公司 任务迁移系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154185A (zh) * 2007-08-27 2008-04-02 电子科技大学 软件运行时执行恢复与重放方法
CN101986602A (zh) * 2010-08-11 2011-03-16 山东大学 基于报文数目检验无阻塞检查点设置和故障进程恢复方法
CN102012843A (zh) * 2010-11-19 2011-04-13 曙光信息产业(北京)有限公司 任务迁移系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713854A (zh) * 2012-03-15 2012-10-03 华为技术有限公司 一种容器状态的保存和恢复的方法及装置
WO2012103827A3 (zh) * 2012-03-15 2013-02-21 华为技术有限公司 一种容器状态的保存和恢复的方法及装置
CN102713854B (zh) * 2012-03-15 2014-06-04 华为技术有限公司 一种容器状态的保存和恢复的方法及装置

Similar Documents

Publication Publication Date Title
CN106354583B (zh) 一种MySQL数据库的热备份方法与系统
US8417989B2 (en) Method and system for extra redundancy in a raid system
CN103927239A (zh) 一种终端设备的系统恢复方法及装置
CN102880519A (zh) 一种批量修改bios配置的方法
CN104461947A (zh) 一种掉电保护方法及固态硬盘
CN106201690A (zh) 应用运行控制方法及装置
CN105260274A (zh) 一种基于linux下的硬盘随机热拔插稳定性检测方法
CN106445720A (zh) 一种内存错误恢复方法和装置
CN111309524A (zh) 分布式存储系统故障恢复方法、装置、终端及存储介质
CN104407940A (zh) 一种快速恢复cdp系统的方法
CN105718330A (zh) 一种Linux系统备份数据的恢复方法及装置
CN104049999A (zh) 基于网络的存储设备自动修复系统及其方法
CN104516796A (zh) 一种基于命令集的网元备份与恢复方法及装置
CN103823708A (zh) 虚拟机读写请求处理的方法和装置
CN102541682A (zh) 嵌入式系统中程序异常快速自行恢复方法
CN103873516A (zh) 提高云计算资源池中物理服务器使用率的ha方法和系统
CN103049407B (zh) 数据存储方法、装置及系统
CN104866388A (zh) 数据处理方法及装置
CN102263671A (zh) 基于检查点的故障排除方法和装置
US10514988B2 (en) Method and system of migrating applications to a cloud-computing environment
CN105573877A (zh) 一种信息处理方法及电子设备
CN103870347A (zh) 一种系统恢复方法和装置
CN105161138A (zh) 希捷硬盘固件管理器错误导致无法访问数据区的修复方法
CN105373549A (zh) 数据迁移方法、设备及数据节点服务器
CN104572198A (zh) 一种业务恢复方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111130