CN104461823A - 一种自动恢复集群中意外宕机节点的方法 - Google Patents
一种自动恢复集群中意外宕机节点的方法 Download PDFInfo
- Publication number
- CN104461823A CN104461823A CN201410717147.2A CN201410717147A CN104461823A CN 104461823 A CN104461823 A CN 104461823A CN 201410717147 A CN201410717147 A CN 201410717147A CN 104461823 A CN104461823 A CN 104461823A
- Authority
- CN
- China
- Prior art keywords
- node
- downtime
- cluster
- machine
- delaying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 230000003111 delayed effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000011084 recovery Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种自动恢复集群中意外宕机节点的方法,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种自动恢复集群中意外宕机节点的方法。
背景技术
目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对宕机节点发送重启命令,以达到自动恢复宕机节点的目的。
发明内容
本发明的目的是克服现有技术中存在的不足,提供 一种自动恢复集群中意外宕机节点的方法。
本发明的技术方案是按以下方式实现的,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
本发明的优点是:
本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
具体实施方式
下面对本发明的一种自动恢复集群中意外宕机节点的方法作以下详细说明。
本发明的一种自动恢复集群中意外宕机节点的方法,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
节点资源监控:通过作业调度PBS来提取计算节点状态,监控到的节点状态down后,在通过ping命令,对宕掉节点进一步确认是否宕机。
宕机节点重启:确认节点宕机后,通过IPMI协议命令对宕机节点发送reset命令,强制重启宕机节点。
本发明的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便,按照说明书所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410717147.2A CN104461823A (zh) | 2014-12-03 | 2014-12-03 | 一种自动恢复集群中意外宕机节点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410717147.2A CN104461823A (zh) | 2014-12-03 | 2014-12-03 | 一种自动恢复集群中意外宕机节点的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104461823A true CN104461823A (zh) | 2015-03-25 |
Family
ID=52907918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410717147.2A Pending CN104461823A (zh) | 2014-12-03 | 2014-12-03 | 一种自动恢复集群中意外宕机节点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104461823A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106130778A (zh) * | 2016-07-18 | 2016-11-16 | 浪潮电子信息产业股份有限公司 | 一种处理集群故障的方法及一种管理节点 |
CN106708656A (zh) * | 2015-07-30 | 2017-05-24 | 北京国双科技有限公司 | 用户操作的恢复方法和装置 |
CN109542692A (zh) * | 2018-11-21 | 2019-03-29 | 南京中孚信息技术有限公司 | Greenplum集群监控方法和装置 |
CN111061610A (zh) * | 2019-12-09 | 2020-04-24 | 广州鼎甲计算机科技有限公司 | 集群系统性能测试报告的生成方法、装置和计算机设备 |
-
2014
- 2014-12-03 CN CN201410717147.2A patent/CN104461823A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708656A (zh) * | 2015-07-30 | 2017-05-24 | 北京国双科技有限公司 | 用户操作的恢复方法和装置 |
CN106708656B (zh) * | 2015-07-30 | 2020-05-22 | 北京国双科技有限公司 | 用户操作的恢复方法和装置 |
CN106130778A (zh) * | 2016-07-18 | 2016-11-16 | 浪潮电子信息产业股份有限公司 | 一种处理集群故障的方法及一种管理节点 |
CN109542692A (zh) * | 2018-11-21 | 2019-03-29 | 南京中孚信息技术有限公司 | Greenplum集群监控方法和装置 |
CN111061610A (zh) * | 2019-12-09 | 2020-04-24 | 广州鼎甲计算机科技有限公司 | 集群系统性能测试报告的生成方法、装置和计算机设备 |
CN111061610B (zh) * | 2019-12-09 | 2020-10-20 | 广州鼎甲计算机科技有限公司 | 集群系统性能测试报告的生成方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095576B2 (en) | Anomaly recovery method for virtual machine in distributed environment | |
WO2017076321A1 (zh) | 数据库同步方法及系统、源数据和目标数据同步装置 | |
CN104461823A (zh) | 一种自动恢复集群中意外宕机节点的方法 | |
CN106202075B (zh) | 一种数据库主备切换的方法及装置 | |
US10545807B2 (en) | Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type | |
CN107995127B (zh) | 一种过载保护方法及装置 | |
WO2019170172A3 (en) | Implementing a blockchain-based workflow | |
US9875165B2 (en) | Communication bus with baseboard management controller | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
CN105790825B (zh) | 一种分布式保护中控制器热备份的方法和装置 | |
CN103067209B (zh) | 一种心跳模块自检测方法 | |
WO2016155492A1 (zh) | 一种数据库的远程数据同步方法和装置 | |
JP2018508072A (ja) | メッセージをプッシュするための方法および装置 | |
CN105119926A (zh) | 一种基于Socket连接的多通道双工通讯方法 | |
CN104391705A (zh) | 一种应用于高可用集群软件的分布式自动化测试框架 | |
WO2018000918A1 (zh) | 一种基于网络的机顶盒测试方法及系统 | |
CN105791027B (zh) | 一种工业网络异常中断的检测方法 | |
CN104410698A (zh) | 一种share nothing集群下的发起节点异常处理方法及装置 | |
WO2016074350A1 (zh) | 一种光信号丢失信号的毛刺滤除方法及装置 | |
CN105373549A (zh) | 数据迁移方法、设备及数据节点服务器 | |
JP2016066303A (ja) | サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法 | |
WO2018119643A1 (zh) | 一种设备监测方法、装置及系统 | |
CN104660992B (zh) | 视频掉线重连系统和方法 | |
US20160192110A1 (en) | Method and Apparatus for Processing Operation on Endpoint Peripheral | |
CN104915291A (zh) | 终端重启验证方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150325 |