CN103595572B - 一种云计算集群中节点自修复的方法 - Google Patents

一种云计算集群中节点自修复的方法 Download PDF

Info

Publication number
CN103595572B
CN103595572B CN201310607512.XA CN201310607512A CN103595572B CN 103595572 B CN103595572 B CN 103595572B CN 201310607512 A CN201310607512 A CN 201310607512A CN 103595572 B CN103595572 B CN 103595572B
Authority
CN
China
Prior art keywords
node
cloud
management system
ipmi
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310607512.XA
Other languages
English (en)
Other versions
CN103595572A (zh
Inventor
牛永伟
吴鑫坤
苏纪娟
徐志鹏
谢彭彭
张子斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui specialty information technology Co. Ltd.
Original Assignee
Anhui Specialty Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Specialty Information Technology Co Ltd filed Critical Anhui Specialty Information Technology Co Ltd
Priority to CN201310607512.XA priority Critical patent/CN103595572B/zh
Publication of CN103595572A publication Critical patent/CN103595572A/zh
Application granted granted Critical
Publication of CN103595572B publication Critical patent/CN103595572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

一种云计算集群中节点自修复的方法,它涉及云计算技术领域,它的修复方法为:(1)、云管理系统监控每台节点的运行状态;(2)、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;(3)、管理系统通过IPMI系统控制节点重新启动,并检测状态;(4)、如果启动之后正常则该节点继续加入集群使用;(5)、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;(6)、如果修复失败则通过控制台发布警报通知管理员。它降低服务器管理员的工作量与工作时间,节省人力资源成本。

Description

一种云计算集群中节点自修复的方法
技术领域:
本发明涉及云计算技术领域,具体涉及一种云计算集群中节点自修复的方法。
背景技术:
随着互联网技术与应用的不断发展,承载互联网服务的数据中心规模也再不断扩大,一些大型的数据中心服务器数量已有数百台,甚至上千台,面对如此庞大的服务器维护工作,服务器管理员的一大部分时间都被服务器重启这样简单操作所占用,服务器管理员迫切需求一种技术方法可以实现服务器自检与重启,从而降低服务器管理与维护繁杂度,并更好的实现服务器管理人员的人力资源分配与优化。
参看图1,云管理系统中有多台服务器用于承载云虚机运行,这些服务器被组成一个集群,而其中的每台服务器被称作节点。集群中的某个节点出现故障时,云管理系统将会自动启用故障转移功能,即将该台服务器上运行的云虚机全部转移到运行良好的设备上,从而保证云虚机的正常运行。对于出现故障的服务器,管理人员需要手动检测并重启,服务器重启且正常运行后便可以再次用于承载云虚机。
现有的云管理系统中集群节点自动化部署技术,当发现集群中节点宕机之后会启动故障转移程序,然后需要管理员去检测故障节点并修复。对于规模庞大的云管理系统集群,这样的技术管理将耗费大量的维护成本。
发明内容:
本发明的目的是提供一种云计算集群中节点自修复的方法,它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
为了解决背景技术所存在的问题,本发明是采用以下技术方案:它的修复方法为:1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
本发明具有以下有益效果:它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
附图说明:
图1为背景技术中传统云管理系统中集群节点运行与修复流程图,
图2为本发明的工作流程图,
图3为实施例的的分析图示。
具体实施方式:
参看图2,本具体实施方式采用以下技术方案:它的修复方法为:1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
本具体实施方式具有以下特点:1、自愈能力:当云管理系统中有节点运行不正常或宕机时,系统可以通过本方案来实现自愈能力,该过程需要手动操作的非常少;2、高安全性:云管理系统会通过监测、判断与自动启用功能来实现节点宕机时的修复工作,整个过程几乎无需人工干涉,因此安全性更高;3、更具时效性:传统情况下,云管理系统中节点宕机需要管理员手动修复,但是发现宕机、到达现场、手动修复及监测是否修复成功这一系列的工作都需要耗费不少的时间,因此一定程度上影响了云管理系统中节点的正常运行。而通过本方案可以实现整个修复过程的自动化,从而更具时效性;4、降低管理成本:整个修复过程由系统自主监测与修复,无需人工操作,因此可以节省管理人员及管理成本;5、优化管理人员结构:由于管理员可以从本来繁杂的工作中解脱出来,因此他们可以有时间与精力从事其它更重要的工作。
本具体实施方式通过几个步骤对故障节点进行修复,首先通过简单的重启来修复问题,如果失败则自动重装系统和重新配置并加入集群。对于没有硬件故障的服务器,本方案都可以成功进行修复,因此可节省云计算数据中心中节点的维护成本。
本具体实施方式基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
实施例:
参看图3,集群中A节点出现宕机情况时的系统工作步骤:
步骤1:云系统实时监测A节点的状态,判断其是否宕机;
步骤2:如果A节点宕机,那么A节点上所有运行的云虚机将自动迁移到运行正常的B节点上,从而保证云虚机的正常运行;
步骤3:云系统启用IPMI;
步骤4:IPMI对A节点进行重启操作;
步骤5:云系统再次监测A节点的状态,重启成功则完成,否则进入步骤6。
步骤6:云系统启用IPMI;
步骤7:IPMI对A节点执行网络启动,再利用云管理系统的自动发现安装功能给该节点重装系统和设置;
步骤8:云系统再次监测A节点的状态,A节点运行正常则完成,否则进行步骤9。
步骤9:云系统发出警报;
步骤10:管理人员看到警报后手动修复A节点;至此,A节点运行正常。
云管理系统中各节点对外而言无区别,即云虚机运行在任何一个节点上都没有影响。
实例初始状态:A、B节点运行正常,云虚机运行于A节点之上。
实例最终状态:A、B节点运行正常,云虚机运行于B节点之上。
由于云管理系统中节点对外表现无差别,因此执行本方案使得实例最终恢复到了初始的状态。

Claims (1)

1.一种云计算集群中节点自修复的方法,其特征在于它的修复方法为:(1)、云管理系统监控每台节点的运行状态;(2)、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;(3)、管理系统通过IPMI系统控制节点重新启动,并检测状态;(4)、如果启动之后正常则该节点继续加入集群使用;(5)、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;(6)、如果修复失败则通过控制台发布警报通知管理员。
CN201310607512.XA 2013-11-27 2013-11-27 一种云计算集群中节点自修复的方法 Active CN103595572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310607512.XA CN103595572B (zh) 2013-11-27 2013-11-27 一种云计算集群中节点自修复的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310607512.XA CN103595572B (zh) 2013-11-27 2013-11-27 一种云计算集群中节点自修复的方法

Publications (2)

Publication Number Publication Date
CN103595572A CN103595572A (zh) 2014-02-19
CN103595572B true CN103595572B (zh) 2018-03-27

Family

ID=50085563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310607512.XA Active CN103595572B (zh) 2013-11-27 2013-11-27 一种云计算集群中节点自修复的方法

Country Status (1)

Country Link
CN (1) CN103595572B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11146629B2 (en) 2014-09-26 2021-10-12 Red Hat, Inc. Process transfer between servers
US10305970B2 (en) 2016-12-13 2019-05-28 International Business Machines Corporation Self-recoverable multitenant distributed clustered systems
CN109522145A (zh) * 2018-11-14 2019-03-26 江苏鸿信系统集成有限公司 一种虚拟机故障自动恢复系统及其方法
US10884864B2 (en) 2018-11-29 2021-01-05 International Business Machines Corporation Autonomous self-healing stateless microservice nodes
CN112445677A (zh) * 2019-09-04 2021-03-05 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN111124749A (zh) * 2019-09-06 2020-05-08 无锡江南计算技术研究所 紧耦合高性能计算机系统bmc系统自动修复方法及修复系统
CN114567518B (zh) * 2022-02-15 2024-03-12 深圳绿米联创科技有限公司 设备状态的提示方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN103312809A (zh) * 2013-06-24 2013-09-18 北京汉柏科技有限公司 云平台中服务的分布式管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111303A (zh) * 2009-12-28 2011-06-29 北京安码科技有限公司 无人值守系统自动监护方法及装置
US8234515B2 (en) * 2010-04-01 2012-07-31 Accenture Global Services Limited Repurposable recovery environment
CN102196039B (zh) * 2011-04-13 2013-10-02 中国科学院深圳先进技术研究院 基于云计算的多机器人系统及其实现方法
CN103259832A (zh) * 2012-12-24 2013-08-21 中国科学院沈阳自动化研究所 实现动态负载平衡、故障诊断与转移的群集资源控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN103312809A (zh) * 2013-06-24 2013-09-18 北京汉柏科技有限公司 云平台中服务的分布式管理方法

Also Published As

Publication number Publication date
CN103595572A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103595572B (zh) 一种云计算集群中节点自修复的方法
CN111290834B (zh) 一种基于云管理平台实现业务高可用的方法、装置及设备
CN110134518B (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN105808394B (zh) 一种服务器自愈的方法和装置
WO2017152763A1 (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107239383A (zh) 一种OpenStack虚拟机的故障监控方法及装置
CN108270726B (zh) 应用实例部署方法及装置
CN105790980B (zh) 一种故障修复方法及装置
CN109871384B (zh) 基于PaaS平台进行容器迁移的方法、系统、设备和存储介质
CN103200036A (zh) 一种电力系统云计算平台的自动化配置方法
CN111880934A (zh) 一种资源管理方法、装置、设备及可读存储介质
CN105162632A (zh) 一种服务器集群故障自动处理系统
CN111371599A (zh) 一种基于etcd的集群容灾管理系统
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN111897697A (zh) 服务器硬件故障修复方法和装置
CN105574590A (zh) 自适应总控灾备切换装置、系统及信号发生方法
Seliuchenko et al. Automated recovery of server applications for SDN-based internet of things
JP6138216B2 (ja) 電池キャビネット管理方法、装置及び電池管理システム
CN112000567A (zh) 一种基于云平台的调控软件测试服务方法
CN105849699B (zh) 控制数据中心架构设备的方法
CN109995554A (zh) 多级数据中心主备切换的控制方法及云调度指挥器
CN116149954A (zh) 一种服务器智能运维系统及其方法
CN113987065A (zh) 数据库漂移方法、系统、电子设备和存储介质
CN109117320A (zh) 基于云平台的配电自动化主站故障容灾处理系统及方法
Sun et al. Quantifying failure risk of version switch for rolling upgrade on clouds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Niu Yongwei

Inventor after: Wu Xinkun

Inventor after: Su Jijuan

Inventor after: Xu Zhipeng

Inventor after: Xie Pengpeng

Inventor after: Zhang Zibin

Inventor before: Niu Yongwei

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180209

Address after: Jinzhai Road, Shushan District of Hefei City, Anhui province 230000 No. 91 based A building block 1301

Applicant after: Anhui specialty information technology Co. Ltd.

Address before: Jinzhai road in Baohe District of Hefei city in Anhui province 230002 No. 96 2001

Applicant before: Niu Yongwei

GR01 Patent grant
GR01 Patent grant