CN104461823A - 一种自动恢复集群中意外宕机节点的方法 - Google Patents

一种自动恢复集群中意外宕机节点的方法 Download PDF

Info

Publication number
CN104461823A
CN104461823A CN201410717147.2A CN201410717147A CN104461823A CN 104461823 A CN104461823 A CN 104461823A CN 201410717147 A CN201410717147 A CN 201410717147A CN 104461823 A CN104461823 A CN 104461823A
Authority
CN
China
Prior art keywords
node
downtime
cluster
machine
delaying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410717147.2A
Other languages
English (en)
Inventor
孙玉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201410717147.2A priority Critical patent/CN104461823A/zh
Publication of CN104461823A publication Critical patent/CN104461823A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种自动恢复集群中意外宕机节点的方法,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。

Description

一种自动恢复集群中意外宕机节点的方法
技术领域
本发明涉及计算机技术领域,具体地说是一种自动恢复集群中意外宕机节点的方法。
背景技术
目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对宕机节点发送重启命令,以达到自动恢复宕机节点的目的。
发明内容
本发明的目的是克服现有技术中存在的不足,提供  一种自动恢复集群中意外宕机节点的方法。
本发明的技术方案是按以下方式实现的,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。 
本发明的优点是:
本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
具体实施方式
下面对本发明的一种自动恢复集群中意外宕机节点的方法作以下详细说明。
本发明的一种自动恢复集群中意外宕机节点的方法,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
节点资源监控:通过作业调度PBS来提取计算节点状态,监控到的节点状态down后,在通过ping命令,对宕掉节点进一步确认是否宕机。
宕机节点重启:确认节点宕机后,通过IPMI协议命令对宕机节点发送reset命令,强制重启宕机节点。
本发明的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便,按照说明书所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
CN201410717147.2A 2014-12-03 2014-12-03 一种自动恢复集群中意外宕机节点的方法 Pending CN104461823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410717147.2A CN104461823A (zh) 2014-12-03 2014-12-03 一种自动恢复集群中意外宕机节点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410717147.2A CN104461823A (zh) 2014-12-03 2014-12-03 一种自动恢复集群中意外宕机节点的方法

Publications (1)

Publication Number Publication Date
CN104461823A true CN104461823A (zh) 2015-03-25

Family

ID=52907918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410717147.2A Pending CN104461823A (zh) 2014-12-03 2014-12-03 一种自动恢复集群中意外宕机节点的方法

Country Status (1)

Country Link
CN (1) CN104461823A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130778A (zh) * 2016-07-18 2016-11-16 浪潮电子信息产业股份有限公司 一种处理集群故障的方法及一种管理节点
CN106708656A (zh) * 2015-07-30 2017-05-24 北京国双科技有限公司 用户操作的恢复方法和装置
CN109542692A (zh) * 2018-11-21 2019-03-29 南京中孚信息技术有限公司 Greenplum集群监控方法和装置
CN111061610A (zh) * 2019-12-09 2020-04-24 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708656A (zh) * 2015-07-30 2017-05-24 北京国双科技有限公司 用户操作的恢复方法和装置
CN106708656B (zh) * 2015-07-30 2020-05-22 北京国双科技有限公司 用户操作的恢复方法和装置
CN106130778A (zh) * 2016-07-18 2016-11-16 浪潮电子信息产业股份有限公司 一种处理集群故障的方法及一种管理节点
CN109542692A (zh) * 2018-11-21 2019-03-29 南京中孚信息技术有限公司 Greenplum集群监控方法和装置
CN111061610A (zh) * 2019-12-09 2020-04-24 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备
CN111061610B (zh) * 2019-12-09 2020-10-20 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
WO2017076321A1 (zh) 数据库同步方法及系统、源数据和目标数据同步装置
CN104461823A (zh) 一种自动恢复集群中意外宕机节点的方法
CN106202075B (zh) 一种数据库主备切换的方法及装置
US10545807B2 (en) Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
CN107995127B (zh) 一种过载保护方法及装置
WO2019170172A3 (en) Implementing a blockchain-based workflow
US9875165B2 (en) Communication bus with baseboard management controller
CN110716842B (zh) 集群故障检测方法和装置
CN105790825B (zh) 一种分布式保护中控制器热备份的方法和装置
CN103067209B (zh) 一种心跳模块自检测方法
WO2016155492A1 (zh) 一种数据库的远程数据同步方法和装置
JP2018508072A (ja) メッセージをプッシュするための方法および装置
CN105119926A (zh) 一种基于Socket连接的多通道双工通讯方法
CN104391705A (zh) 一种应用于高可用集群软件的分布式自动化测试框架
WO2018000918A1 (zh) 一种基于网络的机顶盒测试方法及系统
CN105791027B (zh) 一种工业网络异常中断的检测方法
CN104410698A (zh) 一种share nothing集群下的发起节点异常处理方法及装置
WO2016074350A1 (zh) 一种光信号丢失信号的毛刺滤除方法及装置
CN105373549A (zh) 数据迁移方法、设备及数据节点服务器
JP2016066303A (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
WO2018119643A1 (zh) 一种设备监测方法、装置及系统
CN104660992B (zh) 视频掉线重连系统和方法
US20160192110A1 (en) Method and Apparatus for Processing Operation on Endpoint Peripheral
CN104915291A (zh) 终端重启验证方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325