CN102281159A - 集群系统的恢复方法 - Google Patents

集群系统的恢复方法 Download PDF

Info

Publication number
CN102281159A
CN102281159A CN2011102625668A CN201110262566A CN102281159A CN 102281159 A CN102281159 A CN 102281159A CN 2011102625668 A CN2011102625668 A CN 2011102625668A CN 201110262566 A CN201110262566 A CN 201110262566A CN 102281159 A CN102281159 A CN 102281159A
Authority
CN
China
Prior art keywords
client computer
server
restoration methods
group system
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102625668A
Other languages
English (en)
Inventor
王璟
李程
温鑫
戴荣
骆起昕
许涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2011102625668A priority Critical patent/CN102281159A/zh
Publication of CN102281159A publication Critical patent/CN102281159A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种集群系统的恢复方法,包括:步骤S1:服务器从客户机接收客户机的文件;以及步骤S2:服务器通过将文件发送到其他客户机来恢复其他客户机的运行。利用该集群系统的恢复方法,可以是该集群系统具备可以将集群中的任意一个客户机(节点)转化为模板客户机,将该节点系统转化为模板进行保存,即用来构建集群系统中要求恢复系统的节点的模板;可以指定恢复在特定时间进行备份的系统;恢复过程可以多节点并行,运用P2P协议进行多个节点同时恢复;恢复过程对于用户透明,不需要用户进行手工干预,被恢复系统和备份系统一致,不需要进行环境变量的配置的优点。

Description

集群系统的恢复方法
技术领域
本发明涉及通信系统,更具体地来说,涉及集群系统的恢复方法。
背景技术
集群系统是利用标准的网络将各种普通的服务器或者PC机连接起来,通过特定的方法,向用户提供更高的系统计算性能、存储性能、以及管理性能。集群系统具有高性价比、可扩展性、可管理性、系统鲁棒性、很多国产厂商支持集群系统等,因此,集群系统得到了广泛应用,同时集群系统中节点(即,计算机)众多,系统崩溃的概率也随之大大增加。系统崩溃会给集群系统带来严重后果,轻则服务进程切换,重则作业停止。系统崩溃之后的修复尤为重要,在最短的时间内进行系统恢复成为亟待解决的首要问题。
通常在计算机系统崩溃之后作业停止,需要此节点隔离,待该节点恢复后继续作业。该节点隔离修复期间,降低了节点利用率,并且该节点作业停止时间太长,影响作业效率。
在现有技术中,提供了一种提高集群可靠性的方法,该集群包括两个或多个节点,其中所述两个或多个节点通过选择产生主节点,其中所述两个或多个节点中至少还包括一个第一替补从节点,其特征在于,所述方法包括:第一替补从节点检测当前主节点是否发生故障,若故障,所述第一替补从节点主动将其自身设置为当前主节点,以避免重新选举当前主节点。在该集群系统中,节点系统崩溃时,备份机可以迅速接替该节点对外提供服务。从而在一定程度上保证了集群系统的可靠性。
然而,这些系统崩溃计算机都需要管理人员手动重新安装系统。集群系统提供各种服务,这些服务需要修改很多的配置文件,重新安装系统需要配置的文件太多,修改任务繁琐并且容易出现问题,同时集群节点众多,用户应用导致系统崩溃的风险较大,所以为了维护集群系统的稳定,需要对系统崩溃的计算机逐一进行安装系统维护,工作任务繁重,工作效率低,容易出错。
发明内容
针对集群节点众多,需要对崩溃节点逐一重新安装系统的缺陷,本发明提出了一种集群系统一键恢复的技术方案,从而解决了能够简单、迅速、自动恢复集群系统中的节点,确保集群安全稳定运行的技术问题。
本发明提供了一种集群系统的恢复方法,包括:步骤S1:服务器从客户机接收客户机的文件;以及步骤S2:服务器通过将文件发送到其他客户机来恢复其他客户机的运行。
优选地,集群系统的恢复方法进一步包括:在步骤S1之前:服务器向客户机发送备份请求;以及客户机接收备份请求并向服务器发送备份确认响应。
优选地,步骤S1包括:如果服务器检测到其存储空间足够存储文件,则从客户机接收客户机的文件。
优选地,在步骤S1之后,服务器标识文件信息。
优选地,服务器标识文件信息的步骤包括:服务器通过重命名标识文件信息。
优选地,文件信息包括:文件的创建时间、文件所来自的客户机的编号。
优选地,步骤S2包括:当其他客户机包括多个客户机时,服务器利用P2P协议同时将文件发送到多个客户机的相应位置。
优选地,步骤S2包括:服务器将文件存储在其他客户机的硬盘上,以覆盖其他客户机中的相应文件。
优选地,客户机和其他客户机的配置相同。
优选地,集群系统的恢复方法适用于Unix系统以及Linux系统。
利用本发明的集群系统的恢复方法,在系统发生崩溃时,或者是由于应用原因导致系统更换时,不需要用户进行手工干预,被恢复系统和备份系统一致,不需要进行环境变量的配置,从而在保证了集群安全稳定运行同时,提高了工作效率,节省了大量人力物力资源。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为根据本发明的实施例的集群系统的恢复方法的流程图;
图2为根据本发明的实施例的集群系统的恢复方法的原理示意图;以及
图3为根据本发明的另一实施例的集群系统的恢复方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为根据本发明的实施例的集群系统的恢复方法的流程图。在图1中:
步骤S100:服务器从客户机接收客户机的文件。其中,服务器所接收的文件为流数据,流数据是一组顺序、大量、快速、连续到达的数据序列,数据流可被视为一个随时间延续而无限增长的动态数据集合。此外,流数据数据具有实时到达、数据规模宏大等特点。
步骤S102:服务器通过将文件发送到其他客户机来恢复其他客户机的运行。
通过本发明的实施例的集群系统的恢复方法,使得用户能够不必重新装机,通过简单操作就可以恢复崩溃节点的系统或者更换节点的系统。此外,该在服务器和客户机之间传送的是流数据,使该传送过程在十分钟左右完成,从而能够保证集群的稳定性。
下文中,结合图2和图3进一步详细描述了集群系统的恢复方法的一个具体实施例。
图2为根据本发明的实施例的集群系统的恢复方法的原理示意图。集群200包括:服务器202和客户机206、208、210、以及212,其中,各个客户机均相同。服务器202具有存储器204。另外,在其他实施例,集群不仅限于四台客户机,可以为任意多台客户机。此外,在其他实施例中,集群不仅限于一台服务器,可以为任意多台服务器。下文中,描述了用于图2所示集群的集群系统的恢复方法。
图3为根据本发明的另一实施例的集群系统的恢复方法的流程图。如图2和图3所示,当集群200中具有系统崩溃的客户机或者需要更换系统的客户机时,服务器202向客户机发送备份请求(步骤S300)。其中,将系统崩溃的客户机或者需要更换系统的客户机作为目标客户机,目标客户机可以为一台或者多台,将正常工作客户机中的一个作为模板客户机。在本实施例中,将客户机206作为模板客户机,并且将客户机208、210、以及212作为目标客户机。
当客户机206接收到由服务器202所发送的备份请求时,该客户机向服务器发送备份确认响应(步骤S302),同时启动代理服务,准备向服务器发送系统文件(即,系统模板镜像)。
服务器202在接收到来自客户机206的备份确认响应时,检测到其存储空间足够存储客户机206的系统文件,则从客户机206接收该客户机的系统文件(步骤S304)。
服务器202在接收到该系统文件以后,标识文件信息(步骤S306)。其中,服务器标识文件信息的步骤包括:服务器通过重命名来标识文件信息。该文件信息包括:文件的创建时间、文件来自的客户机的编号。
然后,服务器202将所述文件发送到客户机的相应位置(步骤S308)。其中,当客户机包括多个客户机时,服务器利用P2P(点对点)协议同时将标识的系统文件发送到多个客户机的相应位置,该实施例中,发送到客户机208、210、以及212。当客户机包括一个客户机时,服务器直接将所标识的系统文件发送到该客户机上。
服务器将文件储存在接收所标识的系统文件的客户机(一个或多个客户机)的硬盘上,以覆盖客户机上的系统文件,来完成系统恢复。
该集群系统的恢复方法适用于Unix系统以及Linux系统。根据本发明的实施例,该集群系统的恢复方法具备:可以将集群中的任意一个客户机(节点)转化为模板客户机,将该节点系统转化为模板进行保存,即用来构建集群系统中要求恢复系统的节点的模板;可以指定恢复在特定时间进行备份的系统;恢复过程可以多节点并行,运用P2P协议进行多个节点同时恢复;恢复过程对于用户透明,不需要用户进行手工干预,被恢复系统和备份系统一致,不需要进行环境变量的配置的优点。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种集群系统的恢复方法,包括:
步骤S1:服务器从客户机接收所述客户机的文件;以及
步骤S2:所述服务器通过将所述文件发送到其他客户机来恢复所述其他客户机的运行。
2.根据权利要求1所述的集群系统的恢复方法,进一步包括:在所述步骤S1之前:
服务器向客户机发送备份请求;以及
所述客户机接收所述备份请求并向所述服务器发送备份确认响应。
3.根据权利要求2所述的集群系统的恢复方法,其特征在于,所述步骤S1包括:如果服务器检测到其存储空间足够存储所述文件,则从客户机接收所述客户机的文件。
4.根据权利要求3所述的集群系统的恢复方法,其特征在于,在所述步骤S1之后,所述服务器标识文件信息。
5.根据权利要求4所述的集群系统的恢复方法,其特征在于,所述服务器标识文件信息的步骤包括:所述服务器通过重命名标识文件信息。
6.根据权利要求5所述的集群系统的恢复方法,其特征在于,所述文件信息包括:所述文件的创建时间、所述文件所来自的客户机的编号。
7.根据权利要求1所述的集群系统的恢复方法,其特征在于,所述步骤S2包括:
当所述其他客户机包括多个客户机时,所述服务器利用P2P协议同时将所述文件发送到所述多个客户机的相应位置。
8.根据权利要求1或7所述的集群系统的恢复方法,其特征在于,所述步骤S2包括:
所述服务器将所述文件存储在其他客户机的硬盘上,以覆盖所述其他客户机中的相应文件。
9.根据权利要求1所述的集群系统的恢复方法,其特征在于,所述客户机和其他客户机的配置相同。
10.根据权利要求1所述的集群系统的恢复方法,其特征在于,所集群系统的恢复方法适用于Unix系统以及Linux系统。
CN2011102625668A 2011-09-06 2011-09-06 集群系统的恢复方法 Pending CN102281159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102625668A CN102281159A (zh) 2011-09-06 2011-09-06 集群系统的恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102625668A CN102281159A (zh) 2011-09-06 2011-09-06 集群系统的恢复方法

Publications (1)

Publication Number Publication Date
CN102281159A true CN102281159A (zh) 2011-12-14

Family

ID=45106356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102625668A Pending CN102281159A (zh) 2011-09-06 2011-09-06 集群系统的恢复方法

Country Status (1)

Country Link
CN (1) CN102281159A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法
CN103812945A (zh) * 2014-02-26 2014-05-21 可牛网络技术(北京)有限公司 一种数据升级的方法和中心服务器
CN109992453A (zh) * 2019-04-30 2019-07-09 Oppo广东移动通信有限公司 系统恢复方法及相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1483163A (zh) * 2000-12-21 2004-03-17 ���ܿ���ϵͳ���޹�˾ 利用网络介质链接状态功能来提高计算机集群系统可用性的方法
CN1866854A (zh) * 2005-05-19 2006-11-22 华为技术有限公司 在设备管理中更新和恢复终端设备数据的方法
CN101170553A (zh) * 2006-10-24 2008-04-30 华为技术有限公司 实现互联网协议多媒体子系统容灾的方法和装置
CN101201767A (zh) * 2006-12-14 2008-06-18 英业达股份有限公司 计算机系统数据的磁盘镜像备份与恢复系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1483163A (zh) * 2000-12-21 2004-03-17 ���ܿ���ϵͳ���޹�˾ 利用网络介质链接状态功能来提高计算机集群系统可用性的方法
CN1866854A (zh) * 2005-05-19 2006-11-22 华为技术有限公司 在设备管理中更新和恢复终端设备数据的方法
CN100450015C (zh) * 2005-05-19 2009-01-07 华为技术有限公司 在设备管理中更新和恢复终端设备数据的方法及终端设备
CN101170553A (zh) * 2006-10-24 2008-04-30 华为技术有限公司 实现互联网协议多媒体子系统容灾的方法和装置
CN101201767A (zh) * 2006-12-14 2008-06-18 英业达股份有限公司 计算机系统数据的磁盘镜像备份与恢复系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法
CN103812945A (zh) * 2014-02-26 2014-05-21 可牛网络技术(北京)有限公司 一种数据升级的方法和中心服务器
CN109992453A (zh) * 2019-04-30 2019-07-09 Oppo广东移动通信有限公司 系统恢复方法及相关产品
CN109992453B (zh) * 2019-04-30 2021-05-04 Oppo广东移动通信有限公司 系统恢复方法及相关产品

Similar Documents

Publication Publication Date Title
CN101217411B (zh) 实现堆叠设备软件升级的方法、设备及系统
US9886260B2 (en) Managing software version upgrades in a multiple computer system environment
US20070094659A1 (en) System and method for recovering from a failure of a virtual machine
CN102404390A (zh) 高速实时数据库的智能化动态负载均衡方法
CN102868754A (zh) 一种实现集群存储高可用性的方法、节点装置和系统
CN107357681B (zh) 基于salt的Zookeeper备份管理系统及方法
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN101739263A (zh) 在多机集群系统中实现操作系统升级的方法及装置
WO2016177231A1 (zh) 基于双主控的主备倒换方法及装置
CN104660386A (zh) 一种基于安腾平台下提高db2容灾高可用性的方法
CN104252397A (zh) 支持云平台用户文件自动备份的实现方法
CN114138754A (zh) 基于Kubernetes平台的软件部署方法及装置
CN102917084A (zh) 胖树结构组网数据中心内部节点ip地址的自动分配方法
CN105095008A (zh) 一种适用于集群系统的分布式任务故障冗余方法
CN105357057A (zh) 一种无中心的监控管理节点异地冗余方法
CN102281159A (zh) 集群系统的恢复方法
CN108089934B (zh) 集群管理方法及集群服务器
US8977595B1 (en) Message-recovery file log locating and monitoring
CN105323271B (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN112231399A (zh) 一种应用于图数据库的方法和装置
CN109947599B (zh) 多集群管理方法及装置、集群内管理方法及装置
CN103684720A (zh) 一种主备服务单元的选择方法及装置
CN115604271A (zh) 一种基于微服务的软硬件互补的负载均衡方法
CN113934711B (zh) 一种自动化部署gbase8s集群的方法
CN111767166A (zh) 数据备份的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100193 Beijing, Haidian District, northeast Wang West Road, building 8, No. 36

Applicant after: Dawning Information Industry (Beijing) Co., Ltd.

Address before: 100084 Beijing Haidian District City Mill Street No. 64

Applicant before: Dawning Information Industry (Beijing) Co., Ltd.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111214