CN102591750A - 集群系统的恢复方法 - Google Patents

集群系统的恢复方法 Download PDF

Info

Publication number
CN102591750A
CN102591750A CN2011104596320A CN201110459632A CN102591750A CN 102591750 A CN102591750 A CN 102591750A CN 2011104596320 A CN2011104596320 A CN 2011104596320A CN 201110459632 A CN201110459632 A CN 201110459632A CN 102591750 A CN102591750 A CN 102591750A
Authority
CN
China
Prior art keywords
server
group system
restoration methods
group
node device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104596320A
Other languages
English (en)
Inventor
戴荣
李程
许涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN2011104596320A priority Critical patent/CN102591750A/zh
Publication of CN102591750A publication Critical patent/CN102591750A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种集群系统的恢复方法,包括:步骤S1:服务器对多个节点设备之一的系统环境进行备份,生成备份文件;步骤S2:服务器以从网络启动的方式重新启动;以及步骤S3:服务器利用备份文件,对多个节点设备中的一个或者多个的系统环境进行恢复。利用本实施例的集群系统的恢复方法,可以迅速恢复失效节点,为应用恢复提供保障;使得所恢复的节点与其他节点具有同样的应用环境设置;并且节约集群系统的维护成本。此外,通过本实施例的集群系统恢复方法,可以在节点设备的系统环境发生变化之前对于该系统环境进行备份,然后在发生变化之后进行恢复,以免该变化对于节点设备产生不良影响,使得集群系统稳定安全。

Description

集群系统的恢复方法
技术领域
本发明基本上涉及计算机领域,更具体地来说,涉及集群系统的恢复方法。
背景技术
集群系统是利用标准的网络将各种普通的服务器或者PC机连接起来,通过特定的方法,向用户提供更高的系统计算性能、存储性能、以及管理性能。集群系统具有高性价比、可扩展性、可管理性、系统鲁棒性、很多国产厂商支持集群系统等,因此,集群系统得到了广泛应用,同时集群系统中节点(即,计算机)众多,系统崩溃的概率也随之大大增加。系统崩溃会给集群系统带来严重后果,轻则服务进程切换,重则作业停止。此时将为用户的应用带来灾难性的后果,节点失效的重要原因是系统崩溃,系统崩溃后需要在最短的时间内进行系统恢复,恢复时间和用户的损失成非线性正比关系,而且时间越长,损失越大。系统崩溃之后的修复尤为重要,在最短的时间内进行系统恢复成为亟待解决的首要问题。
如今的应用程序很可能会修改系统配置,而修改的结果往往对于集群系统的运行起着负面影响。这种修改轻则会减慢系统的运行速度,严重则可能令系统崩溃。此外,当集群系统更新其系统环境时,有时会由于诸如版本不兼容等问题等原因而引起系统的崩溃。
对于系统崩溃只能重新进行系统部署,此时可能导致系统与崩溃之前的系统存在较大的差异,用户无法继续使用。现有的信息服务环境下的集群会设置备用机器,但是当主节点崩溃后,备用节点只能接替主机进行工作,主机仍旧需要系统恢复。对于如今的应对系统崩溃的处理方式,手工安装系统恢复时间长,并且由于利用dd等操作,仍旧费时费力;手工安装的操作系统可能和之前的系统存在差异,有可能导致系统无法支持之前的应用。
现有技术中出现一种计算机系统的恢复方法,包括:在需要对计算机进行恢复的情况下,提示用户输入用于进行系统恢复的参数;根据用户输入的参数,利用与所述计算机连接的指定存储设备中存储的恢复文件对计算机进行恢复。该方法不适于用于集群系统,并且无法针对需要运行应用程序或者修改系统环境的节点设备进行提前恢复,从而难以将该节点设备恢复到其系统变化之前的状态。
发明内容
针对现有技术中的计算机恢复方法不适于用于集群系统,并且无法针对需要运行应用程序或者修改系统环境的节点设备进行提前恢复,从而难以将该节点设备恢复到其系统变化之前的状态的缺陷,本发明提供了一种集群系统的恢复方法,从而解决了如何自动将集群系统中的节点设备恢复到其崩溃之前的状态的技术问题。
本发明提供了一种集群系统的恢复方法,包括:步骤S1:服务器对多个节点设备之一的系统环境进行备份,生成备份文件;步骤S2:所述服务器以从网络启动的方式重新启动;以及步骤S3:所述服务器利用所述备份文件,对所述多个节点设备中的一个或者多个的系统环境进行恢复。
在该集群系统的恢复方法中,进一步包括:在所述步骤S1之前,服务器检测到所述集群系统中的多个节点设备中的一个或者多个将要运行应用程序。
在该集群系统的恢复方法中,进一步包括:在所述步骤S1之后和所述步骤S2之前,所述多个节点设备中的一个或者多个运行所述应用程序。
在该集群系统的恢复方法中,进一步包括:在所述步骤S1之前,服务器检测到所述集群系统中的多个节点设备中的一个或者多个将要更新系统环境。
在该集群系统的恢复方法中,进一步包括:在所述步骤S1之后和所述步骤S2之前,所述多个节点设备中的一个或者多个更新系统环境。
在该集群系统的恢复方法中,所述步骤S3包括:步骤S31:所述服务器检测到所述节点设备无法正常运行;以及步骤S32:利用所述备份文件,对所述节点设备的系统环境进行恢复。
在该集群系统的恢复方法中,所述步骤S3包括:步骤S31:所述服务器选择出最后生成的备份文件;步骤S32:所述服务器确认所述节点设备的硬件没有发生故障;以及步骤S33:所述服务器利用所述选择出的备份文件,对所述节点设备的系统环境进行恢复。
在该集群系统的恢复方法中,所述多个节点设备的系统环境相同。
在该集群系统的恢复方法中,所述备份的内容只包括所述系统环境中有数据部分。
所述步骤S3包括:服务器利用所述备份文件,通过P2P传输方式对所述集群系统中多个节点进行恢复。
利用本实施例的集群系统的恢复方法,可以迅速恢复失效节点,为应用恢复提供保障;使得所恢复的节点与其他节点具有同样的应用环境设置;并且节约集群系统的维护成本。此外,通过本实施例的集群系统,可以在节点设备的系统环境发生变化之前对于该系统环境进行备份,然后在发生变化之后进行恢复,以免该变化对于节点设备产生不良影响,使得集群系统稳定安全。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明的实施例的集群系统的恢复方法的总体流程图;
图2是根据本发明的一个实施例的集群系统的恢复方法的具体流程图;
图3是根据本发明的另一个实施例的集群系统的恢复方法的具体流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是根据本发明的实施例的集群系统的恢复方法的总体流程图。在图1中;
步骤S100:服务器对多个节点设备之一的系统环境进行备份,生成备份文件。其中,该多个节点设备的系统环境可以是相同的。
步骤S102:服务器以从网络启动的方式重新启动。
步骤S104:服务器利用备份文件,对多个节点设备中的一个或者多个的系统环境进行恢复。
其中,该步骤S104包括:服务器选择出最后生成的备份文件;服务器确认节点设备的硬件没有发生故障;以及服务器利用选择出的备份文件,对节点设备的系统环境进行恢复。
其中,由于服务器可能会在不同时间段对于同一节点设备进行多次备份,因而生成了多个备份文件,显然优选地利用最后生成的备份文件进行恢复能够使得该节点被恢复到运行应用程序或者修改系统环境之前。此外,由于节点设备的崩溃可能是由于硬件故障造成的,因此有必要在恢复之前对于该节点设备的硬件进行检测,从而确保恢复过程能够顺利完成。
其中,备份的内容只包括系统环境中有数据部分。由于传统的linux系统中的dd操作通常会利用硬盘对拷的方式进行备份和恢复,因此不仅拷贝了有数据的部分,还拷贝了没有数据的部分。利用本实施例所描述的方法,通过只备份系统环境中有数据的部分,从而节约了系统备份和恢复的时间。
并且,服务器利用备份文件,通过P2P传输方式对集群系统中多个节点设备进行恢复,当需要对多个节点设备进行恢复时,可以利用P2P传输方式来传送备份文件,从而能够在短时间恢复大量节点设备。根据试验,可以在约6分钟之内将1.8G的备份文件(镜像)安装到18个节点设备。
系统环境包括操作系统、软件环境等等。
利用本实施例的集群系统的恢复方法,可以迅速恢复失效节点,为应用恢复提供保障;使得所恢复的节点与其他节点具有同样的应用环境设置;并且节约集群系统的维护成本。此外,通过本实施例的集群系统恢复方法,可以在节点设备的系统环境发生变化之前对于该系统环境进行备份,然后在发生变化之后进行恢复,以免该变化对于节点设备产生不良影响,使得集群系统稳定安全。。
以下是本发明的两个具体实施例,分别是针对集群系统的节点设备运行应用程序和修改系统环境的情况下,对于集群系统的节点设备的备份和恢复。
具体实施例1
图2是根据本发明的一个实施例的集群系统的恢复方法的具体流程图。在图2中:
步骤S200:服务器检测到所述集群系统中的多个节点设备中的一个或者多个将要运行应用程序。
步骤S202:服务器对多个节点设备之一的系统环境进行备份,生成备份文件。
步骤S204:节点设备中的一个或者多个运行应用程序。由于运行应用程序可能会对节点设备的系统环境进行修改,有时候这些修改会产生负面影响,更严重会造成崩溃,这就需要利用之前的备份文件来恢复该节点设备的系统环境。
步骤S206:服务器以从网络启动的方式重新启动。
步骤S208:服务器利用备份文件,对节点设备的系统环境进行恢复。其中,步骤S208包括:服务器检测到节点设备无法正常运行;以及利用备份文件,对该节点设备的系统环境进行恢复。
其中,备份的内容只包括系统环境中有数据部分。由于利用linux系统中的dd命令进行硬盘操作通常会利用硬盘对拷的方式进行备份和恢复,因此不仅拷贝了有数据的部分,还拷贝了没有数据的部分。利用本实施例所描述的方法,通过只备份系统环境中有数据的部分,从而节约了系统备份和恢复的时间。
并且,服务器利用备份文件,通过P2P传输方式对集群系统中多个节点进行恢复。系统环境包括操作系统、软件环境等等。
利用本实施例的集群系统的恢复方法,可以迅速恢复失效节点,为应用恢复提供保障;使得所恢复的节点与其他节点具有同样的应用环境设置;并且节约集群系统的维护成本。此外,通过本实施例的集群系统,可以在节点设备运行应用程序之前对于该系统环境进行备份,然后在运行应用程序之后进行恢复,以免该应用程序对于节点设备产生不良影响。
具体实施例2
图3是根据本发明的另一个实施例的集群系统的恢复方法的具体流程图。在图3中:
步骤300:服务器检测到集群系统中的多个节点设备中的一个或者多个将要更新系统环境。
步骤302:服务器对多个节点设备之一的系统环境进行备份,生成备份文件。
步骤304:多个节点设备中的一个或者多个更新系统环境。由于修改系统环境可能会对节点设备产生负面影响,更严重会造成崩溃,这就需要利用之前的备份来恢复该节点设备的系统环境。
步骤306:服务器以从网络启动的方式重新启动。
步骤308:服务器利用备份文件,对节点设备中的一个或者多个的系统环境进行恢复。其中,步骤S308包括:服务器检测到节点设备无法正常运行;以及利用备份文件,对所述节点设备的系统环境进行恢复。
其中,备份的内容只包括系统环境中有数据部分。由于利用linux系统中的dd命令进行硬盘操作通常会利用硬盘对拷的方式进行备份和恢复,因此不仅拷贝了有数据的部分,还拷贝了没有数据的部分。利用本实施例所描述的方法,通过只备份系统环境中有数据的部分,从而节约了系统备份和恢复的时间。
并且,服务器利用备份文件,通过P2P传输方式对集群系统中多个节点进行恢复。系统环境包括操作系统、软件环境等等。
利用本实施例的集群系统的恢复方法,可以迅速恢复失效节点,为应用恢复提供保障;使得所恢复的节点与其他节点具有同样的应用环境设置;并且节约集群系统的维护成本。此外,通过本实施例的集群系统,可以在节点设备的系统环境变化之前对于该系统环境进行备份,然后系统环境变化之后进行恢复,以免该应用程序对于节点设备产生不良影响,使得集群系统稳定安全。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种集群系统的恢复方法,包括:
步骤S1:服务器对多个节点设备之一的系统环境进行备份,生成备份文件;
步骤S2:所述服务器以从网络启动的方式重新启动;以及
步骤S3:所述服务器利用所述备份文件,对所述多个节点设备中的一个或者多个的系统环境进行恢复。
2.根据权利要求1所述的集群系统的恢复方法,进一步包括:在所述步骤S1之前,服务器检测到所述集群系统中的多个节点设备中的一个或者多个将要运行应用程序。
3.根据权利要求2所述的集群系统的恢复方法,进一步包括:在所述步骤S1之后和所述步骤S2之前,所述多个节点设备中的一个或者多个运行所述应用程序。
4.根据权利要求1所述的集群系统的恢复方法,进一步包括:在所述步骤S1之前,服务器检测到所述集群系统中的多个节点设备中的一个或者多个将要更新系统环境。
5.根据权利要求4所述的集群系统的恢复方法,进一步包括:在所述步骤S1之后和所述步骤S2之前,所述多个节点设备中的一个或者多个更新系统环境。
6.根据权利要求3或5所述的集群系统的恢复方法,其中,所述步骤S3包括:
步骤S31:所述服务器检测到所述节点设备无法正常运行;以及
步骤S32:利用所述备份文件,对所述节点设备的系统环境进行恢复。
7.根据权利要求1所述的集群系统的恢复方法,其中,所述步骤S3包括:
步骤S31:所述服务器选择出最后生成的备份文件;
步骤S32:所述服务器确认所述节点设备的硬件没有发生故障;以及
步骤S33:所述服务器利用所述选择出的备份文件,对所述节点设备的系统环境进行恢复。
8.根据权利要求1所述的集群系统的恢复方法,其中,所述多个节点设备的系统环境相同。
9.根据权利要求1所述的集群系统的恢复方法,其中,所述备份的内容只包括所述系统环境中有数据部分。
10.根据权利要求1所述的集群系统的恢复方法,其中,所述步骤S3包括:
服务器利用所述备份文件,通过P2P传输方式对所述集群系统中多个节点进行恢复。
CN2011104596320A 2011-12-31 2011-12-31 集群系统的恢复方法 Pending CN102591750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104596320A CN102591750A (zh) 2011-12-31 2011-12-31 集群系统的恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104596320A CN102591750A (zh) 2011-12-31 2011-12-31 集群系统的恢复方法

Publications (1)

Publication Number Publication Date
CN102591750A true CN102591750A (zh) 2012-07-18

Family

ID=46480448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104596320A Pending CN102591750A (zh) 2011-12-31 2011-12-31 集群系统的恢复方法

Country Status (1)

Country Link
CN (1) CN102591750A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197992A (zh) * 2013-04-08 2013-07-10 汉柏科技有限公司 GlusterFS脑裂的自动化恢复方法
CN103677882A (zh) * 2012-09-18 2014-03-26 珠海市君天电子科技有限公司 一种手机程序的虚拟安装装置和方法
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN107943617A (zh) * 2017-11-17 2018-04-20 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN115473793A (zh) * 2022-08-19 2022-12-13 苏州浪潮智能科技有限公司 一种集群ei主机环境自动恢复方法、装置、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567198A (zh) * 2003-06-30 2005-01-19 联想(北京)有限公司 一种机群跨平台并行系统镜像备份的方法
US20050015471A1 (en) * 2003-07-18 2005-01-20 Zhang Pu Paul Secure cluster configuration data set transfer protocol
CN1874267A (zh) * 2006-03-21 2006-12-06 华为技术有限公司 保证集群系统中配置信息一致的方法
CN101909087A (zh) * 2010-08-20 2010-12-08 北京联创信安科技有限公司 一种基于快照的应用服务器远程引导方法
CN102281159A (zh) * 2011-09-06 2011-12-14 曙光信息产业(北京)有限公司 集群系统的恢复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567198A (zh) * 2003-06-30 2005-01-19 联想(北京)有限公司 一种机群跨平台并行系统镜像备份的方法
US20050015471A1 (en) * 2003-07-18 2005-01-20 Zhang Pu Paul Secure cluster configuration data set transfer protocol
CN1874267A (zh) * 2006-03-21 2006-12-06 华为技术有限公司 保证集群系统中配置信息一致的方法
CN101909087A (zh) * 2010-08-20 2010-12-08 北京联创信安科技有限公司 一种基于快照的应用服务器远程引导方法
CN102281159A (zh) * 2011-09-06 2011-12-14 曙光信息产业(北京)有限公司 集群系统的恢复方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677882A (zh) * 2012-09-18 2014-03-26 珠海市君天电子科技有限公司 一种手机程序的虚拟安装装置和方法
CN103197992A (zh) * 2013-04-08 2013-07-10 汉柏科技有限公司 GlusterFS脑裂的自动化恢复方法
CN103197992B (zh) * 2013-04-08 2016-05-18 汉柏科技有限公司 GlusterFS脑裂的自动化恢复方法
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN103778031B (zh) * 2014-01-15 2017-01-18 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN107943617A (zh) * 2017-11-17 2018-04-20 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN107943617B (zh) * 2017-11-17 2021-06-29 北京联想超融合科技有限公司 数据的修复方法、装置及服务器集群
CN115473793A (zh) * 2022-08-19 2022-12-13 苏州浪潮智能科技有限公司 一种集群ei主机环境自动恢复方法、装置、终端及介质
CN115473793B (zh) * 2022-08-19 2023-08-08 苏州浪潮智能科技有限公司 一种集群ei主机环境自动恢复方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
US10055300B2 (en) Disk group based backup
TWI575362B (zh) 備份方法、環境更新預先檢測方法及其系統
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
JP5444178B2 (ja) バックアップ・リストア処理装置とバックアップ・リストア処理方法およびプログラム
JP2007115007A (ja) ストレージ装置のリストア方法及びストレージ装置
CN102591750A (zh) 集群系统的恢复方法
CN103336728A (zh) 一种磁盘数据恢复方法
CN111752759A (zh) Kafka集群故障恢复方法、装置、设备及介质
CN104917630A (zh) 对虚拟网络进行恢复的方法和系统
WO2015043155A1 (zh) 一种基于命令集的网元备份与恢复方法及装置
CN110377456A (zh) 一种虚拟化平台容灾的管理方法及装置
CN105242990A (zh) 基于云平台的数据备份方法和装置
CN102455954A (zh) 一种Linux系统防掉电的升级方法
US20130013566A1 (en) Storage group synchronization in data replication environments
CN115576655B (zh) 容器数据保护系统、方法、装置、设备及可读存储介质
CN104615511A (zh) 一种基于双中心的主机批量恢复处理方法及装置
CN112153134A (zh) 一种容灾云主机的容灾演练方法、装置、设备及存储介质
JP2011164800A (ja) ストレージシステム及びストレージ制御方法
CN112631831A (zh) 一种业务系统的裸机恢复方法和系统
CN115658390A (zh) 容器容灾方法、系统、装置、设备及计算机可读存储介质
US20120324279A1 (en) Method and Apparatus of Backing up Subversion Repository
WO2018001262A1 (zh) 虚拟机容灾方法、装置及系统
CN112333008A (zh) 一种云主机整机备份还原方法、装置、设备及存储介质
CN115098300B (zh) 一种数据库的备份方法、容灾方法、装置及设备
CN104794012A (zh) 基于容灾的切换技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120718