CN104598329A - 一种基于rmc管理的自动bmc故障解决方法 - Google Patents

一种基于rmc管理的自动bmc故障解决方法 Download PDF

Info

Publication number
CN104598329A
CN104598329A CN201510074261.2A CN201510074261A CN104598329A CN 104598329 A CN104598329 A CN 104598329A CN 201510074261 A CN201510074261 A CN 201510074261A CN 104598329 A CN104598329 A CN 104598329A
Authority
CN
China
Prior art keywords
bmc
rmc
management
fault
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510074261.2A
Other languages
English (en)
Inventor
穆德学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510074261.2A priority Critical patent/CN104598329A/zh
Publication of CN104598329A publication Critical patent/CN104598329A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种基于RMC管理的自动BMC故障解决方法,属于计算机性能管理领域,具体步骤为:①服务器系统中包括RMC,IPMB,节点中板,BMC;RMC对BMC运行状态进行监测,若监测到BMC故障时,再次认证BMC状态是否为发生故障,若确认BMC发生故障,则RMC主动完成BMC重启动作;②RMC主动完成BMC重启后,RMC监测到BMC运行正常则继续保持监测状态;否则通知系统告知用户BMC故障并提示通过硬件重启的方式进行解决;本发明用于RACK类服务器,通过RMC实现系统自动判断BMC故障情况及排除故障恢复的方法,无需手动,有效的满足了服务器需及时进行BMC故障判断、排除和恢复的需求。

Description

一种基于RMC管理的自动BMC故障解决方法
技术领域
本发明公开一种BMC故障解决方法,属于计算机性能管理领域,具体地说是一种基于RMC管理的自动BMC故障解决方法。
背景技术
管理主板RMC,是大型服务器Smart Rack的管理中心,负责系统内节点管理、电源管理、风扇管理。管理系统由RMC,其实现系统的监控、管理、告警;节点中板,其实现所有节点的带外监控、二级管理、告警上报、风扇监控;节点BMC,其集成在各个节点上,负责子系统级的状态实时监控、故障诊断、功耗检测等;以及管理网络等组成。其中BMC负责节点资产管理、实时监控,故障诊断。鉴于BMC在各节点的作用,如果BMC出现故障,服务器产品基本要求即可持续运行就会受到影响,而当BMC出现故障时,需要通过手动进行一些措施及时进行故障排除和恢复,以保障服务器的持续运行,但这样消耗时间及人力,并且服务器单颗粒BIOS、BMC设计在BIOS、BMC升级维护时,也存在需要停止服务然后才能升级的问题。而本发明提供一种基于RMC管理的自动BMC故障解决方法,通过RMC实现系统自动判断BMC故障情况及排除故障恢复的方法,无需手动,有效的满足了服务器需及时进行BMC故障判断、排除和恢复的需求。
其中,BMC:Baseboard Management Controller,基板管理控制器,是一个专门的服务处理机,它利用传感器来监控一台计算机,网络服务器,或者是其他硬件驱动设备的状态,并且通过独立的连接线路和系统管理员进行通信。BMC的传感器用来测量内部物理变量,例如:温度,湿度,电源电压,风扇速度,通信参数和操作系统函数,如果这些变量中任何一个超出了指定限制的范围之外,他就会通知管理员,管理员就会利用远程控制来采取正确的措施。监控设备可以动力循环或者当必要的时候重新启动,这样,单一的管理员就可以同时远程控制无数个服务器和其他设备,节省了网络的总体成本,并且可以确保可靠性。功能:本地和远程诊断、控制台支持,配置管理,硬件管理和故障排除。
发明内容
本发明针对BMC出现故障时,需要通过手动进行一些措施及时进行故障排除和恢复,以保障服务器的持续运行,但这样消耗时间及人力,并且服务器单颗粒BIOS、BMC设计在BIOS、BMC升级维护时,也存在需要停止服务然后才能升级的问题,提供一种基于RMC管理的自动BMC故障解决方法,适用于RACK类服务器,通过RMC实现系统自动判断BMC故障情况及排除故障恢复的方法,无需手动,有效的满足了服务器需及时进行BMC故障判断、排除和恢复的需求。
本发明提出的具体方案是:
一种基于RMC管理的自动BMC故障解决方法,适用于RACK类服务器,其具体步骤为:
①服务器系统中包括RMC,IPMB,节点中板,BMC;RMC对BMC运行状态进行监测,BMC运行正常,则保持监测状态,若监测到BMC故障时,再次认证BMC状态是否为发生故障,若确认BMC发生故障,则RMC主动完成BMC重启动作,否则保持监测状态;
②若确认BMC发生故障,RMC主动完成BMC重启后,RMC监测到BMC运行正常则继续保持监测状态;若RMC主动完成BMC重启后BMC故障依然存在,则通知系统告知用户BMC故障并提示通过硬件重启的方式进行解决。
所述的服务器系统采用了二级管理的方式,RMC为第一级管理,节点中板为第二级管理。
所述的RMC通过I2C总线与节点中板通信,对节点中板的监测、控制;节点中板通过I2C/IPMB与各节点的BMC及二级电源板、供电转接板、风扇控制板互联。RMC通过I2C与节点中板通信,通过对节点中板的监测、控制实现整个系统的监控、管理。节点中板通过I2C/IPMB与各节点的BMC及二级电源板、供电转接板、风扇控制板互联,实现对整个系统的带外的实时监控、管理功能。
所述的RMC主要管理包括基于IPMB规范的节点带外情况,基于PMBUS协议的AC/DC电源情况、基于I2C的风扇转速调节和风量补偿调节的情况。
所述的BMC通过多路I2C总线与各节点内部的被监控芯片、部件相连。
本发明的有益之处是:本发明提供一种基于RMC管理的自动BMC故障解决方法,适用于RACK类服务器,通过RMC实现系统自动判断BMC故障和排除恢复的方法,更合理和有效的解决了BMC故障技术问题,有效的满足了服务器需及时进行BMC故障判断、排除和恢复的需求,提高现有RACK类服务器的安全。
附图说明
图1本发明的流程示意图。
具体实施方式
结合附图对本发明做进一步说明。
一种基于RMC管理的自动BMC故障解决方法,适用于RACK类服务器,其具体步骤为:
①服务器系统中包括RMC,IPMB,节点中板,BMC;服务器系统采用了二级管理的方式,RMC为第一级管理,节点中板为第二级管理;RMC通过I2C与节点中板通信,通过对节点中板的监测、控制实现整个系统的监控、管理。节点中板通过I2C/IPMB与各节点的BMC及二级电源板、供电转接板、风扇控制板互联,实现对整个系统的带外的实时监控、管理功能;RMC对BMC运行状态进行监测,BMC运行正常,则保持监测状态,若监测到BMC故障时,再次认证BMC状态是否为发生故障,若确认BMC发生故障,则RMC主动完成BMC重启动作,否则保持监测状态;
RMC主要管理包括基于IPMB规范的节点带外情况,基于PMBUS协议的AC/DC电源情况、基于I2C的风扇转速调节和风量补偿调节的情况;BMC通过多路I2C总线与各节点内部的被监控芯片、部件相连;
②若确认BMC发生故障,RMC主动完成BMC重启后,RMC监测到BMC运行正常则继续保持监测状态;若RMC主动完成BMC重启后BMC故障依然存在,则通知系统告知用户BMC故障并提示通过硬件重启的方式进行解决。
其中BMC可以完成如下功能:
主板的温度和电压监视;处理器的状态监视和frb控制;主板风扇故障的检测和指示灯控制;sel接口管理;传感器数据记录存储库(sdrr)接口管理; sdr/sel时间标志;fru信息接口;系统管理监视计时器;smi/nmi状态监视;前控制面板nmi处理;事件接收器;ipmb管理控制器初始化代理;安全模式控制前控制面板锁定/解锁启动、视频空白和磁盘写保护监视与控制;acpi支持;直接平台控制(dpc)支持;pep/pef管理;电源分配板监视;扬声器报警能力。当系统通电时,可以使用此特性来标明诸如“处理器插槽空”等信息;存取pentium iii xeon处理器seeprom接口;处理器温度监视;热插拔pci插槽的状态报告;处理器总线速度设置;机箱上的风扇故障灯控制;机箱上的电源故障灯控制;机箱电源灯控制;
其中IPMB ,Intelligent Platform Management BUS智能平台管理总线, 是ATCA(Advanced Telecom Computing Architecture)先进的电信计算平台的各FRU背板通讯的两组冗余I2C总线的总称。
PMBUS,Power Management Bus,电源管理总线是一种开放标准的数字电源管理协议。可通过定义传输和物理接口以及命令语言来促进与电源转换器或其他设备的通信。该协议是由一群认为由于没有合适的标准而抑制了全数字电源管理解决方案的发展的电源和半导体生产商共同建立的。

Claims (5)

1.一种基于RMC管理的自动BMC故障解决方法,适用于RACK类服务器,其特征是具体步骤为:
①服务器系统中包括RMC,IPMB,节点中板,BMC;RMC对BMC运行状态进行监测,BMC运行正常,则保持监测状态,若监测到BMC故障时,再次认证BMC状态是否为发生故障,若确认BMC发生故障,则RMC主动完成BMC重启动作,否则保持监测状态;
②若确认BMC发生故障,RMC主动完成BMC重启后,RMC监测到BMC运行正常则继续保持监测状态;若RMC主动完成BMC重启后BMC故障依然存在,则通知系统告知用户BMC故障并提示通过硬件重启的方式进行解决。
2.根据权利要求1所述的一种基于RMC管理的自动BMC故障解决方法,其特征是所述的服务器系统采用了二级管理的方式,RMC为第一级管理,节点中板为第二级管理。
3.根据权利要求2所述的一种基于RMC管理的自动BMC故障解决方法,其特征是所述的RMC通过I2C总线与节点中板通信,对节点中板的监测、控制;节点中板通过I2C/IPMB与各节点的BMC及二级电源板、供电转接板、风扇控制板互联。
4.根据权利要求1-3任一项所述的一种基于RMC管理的自动BMC故障解决方法,其特征是所述的RMC主要管理包括基于IPMB规范的节点带外情况,基于PMBUS协议的AC/DC电源情况、基于I2C的风扇转速调节和风量补偿调节的情况。
5.根据权利要求4所述的一种基于RMC管理的自动BMC故障解决方法,其特征是所述的BMC通过多路I2C总线与各节点内部的被监控芯片、部件相连。
CN201510074261.2A 2015-02-12 2015-02-12 一种基于rmc管理的自动bmc故障解决方法 Pending CN104598329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510074261.2A CN104598329A (zh) 2015-02-12 2015-02-12 一种基于rmc管理的自动bmc故障解决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510074261.2A CN104598329A (zh) 2015-02-12 2015-02-12 一种基于rmc管理的自动bmc故障解决方法

Publications (1)

Publication Number Publication Date
CN104598329A true CN104598329A (zh) 2015-05-06

Family

ID=53124143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510074261.2A Pending CN104598329A (zh) 2015-02-12 2015-02-12 一种基于rmc管理的自动bmc故障解决方法

Country Status (1)

Country Link
CN (1) CN104598329A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105425932A (zh) * 2015-11-12 2016-03-23 浪潮(北京)电子信息产业有限公司 一种整机柜服务器电源的管理方法及系统
CN105487964A (zh) * 2015-12-18 2016-04-13 山东海量信息技术研究院 一种高端容错服务器的风扇故障记录方法
CN105490859A (zh) * 2015-12-18 2016-04-13 山东海量信息技术研究院 一种高端容错服务器的节点定位方法
CN106095642A (zh) * 2016-06-16 2016-11-09 浪潮电子信息产业股份有限公司 一种基于rmc管理的风扇故障解决方法
TWI560544B (zh) * 2016-03-16 2016-12-01 Zippy Tech Corp
CN106339294A (zh) * 2016-08-29 2017-01-18 浪潮电子信息产业股份有限公司 一种电压监控系统及方法
CN106371958A (zh) * 2016-08-31 2017-02-01 浪潮电子信息产业股份有限公司 一种服务器故障诊断系统及方法
CN106598635A (zh) * 2015-10-16 2017-04-26 广达电脑股份有限公司 基板管理控制器的恢复方法及基板管理控制器
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
CN107023504A (zh) * 2017-06-02 2017-08-08 郑州云海信息技术有限公司 一种基于bmc的风扇控制系统及控制方法
CN107315369A (zh) * 2017-07-12 2017-11-03 郑州云海信息技术有限公司 一种bmc芯片智能协处理装置及处理方法
CN107632907A (zh) * 2017-08-07 2018-01-26 郑州云海信息技术有限公司 一种bmc芯片托管系统及其控制方法
CN108170476A (zh) * 2018-01-26 2018-06-15 郑州云海信息技术有限公司 一种记录服务器bios版本信息的方法及系统
CN109240851A (zh) * 2018-08-24 2019-01-18 郑州云海信息技术有限公司 一种自主式实现批量bmc自恢复的方法及系统
CN109947628A (zh) * 2019-03-29 2019-06-28 联想(北京)有限公司 管理控制方法、管理控制系统和服务器
RU2711469C1 (ru) * 2019-04-09 2020-01-17 ЭйАйСи ИНК. Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
TWI684859B (zh) * 2018-01-12 2020-02-11 廣達電腦股份有限公司 遠端系統復原之方法
CN111124509A (zh) * 2019-11-29 2020-05-08 苏州浪潮智能科技有限公司 一种服务器启动方法与装置
CN111414274A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN111416721A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN111414267A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN113190398A (zh) * 2021-03-26 2021-07-30 山东英信计算机技术有限公司 一种检测逆流阀状态的方法、系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201887782U (zh) * 2010-11-24 2011-06-29 浪潮电子信息产业股份有限公司 一种高密度的服务器节点中板
TWI403884B (zh) * 2010-11-30 2013-08-01 Inventec Corp 機架伺服系統
CN103942129A (zh) * 2013-01-17 2014-07-23 鸿富锦精密工业(深圳)有限公司 数据中心bmc管理系统及方法
US20140277784A1 (en) * 2013-03-14 2014-09-18 Rackspace Us, Inc. System and method of rack management
CN104238480A (zh) * 2013-06-21 2014-12-24 鸿富锦精密工业(深圳)有限公司 机柜服务器bmc开关机控制系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201887782U (zh) * 2010-11-24 2011-06-29 浪潮电子信息产业股份有限公司 一种高密度的服务器节点中板
TWI403884B (zh) * 2010-11-30 2013-08-01 Inventec Corp 機架伺服系統
CN103942129A (zh) * 2013-01-17 2014-07-23 鸿富锦精密工业(深圳)有限公司 数据中心bmc管理系统及方法
US20140277784A1 (en) * 2013-03-14 2014-09-18 Rackspace Us, Inc. System and method of rack management
CN104238480A (zh) * 2013-06-21 2014-12-24 鸿富锦精密工业(深圳)有限公司 机柜服务器bmc开关机控制系统及方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598635A (zh) * 2015-10-16 2017-04-26 广达电脑股份有限公司 基板管理控制器的恢复方法及基板管理控制器
CN105425932A (zh) * 2015-11-12 2016-03-23 浪潮(北京)电子信息产业有限公司 一种整机柜服务器电源的管理方法及系统
CN105487964A (zh) * 2015-12-18 2016-04-13 山东海量信息技术研究院 一种高端容错服务器的风扇故障记录方法
CN105490859A (zh) * 2015-12-18 2016-04-13 山东海量信息技术研究院 一种高端容错服务器的节点定位方法
CN105490859B (zh) * 2015-12-18 2019-01-22 山东海量信息技术研究院 一种高端容错服务器的节点定位方法
TWI560544B (zh) * 2016-03-16 2016-12-01 Zippy Tech Corp
CN106095642A (zh) * 2016-06-16 2016-11-09 浪潮电子信息产业股份有限公司 一种基于rmc管理的风扇故障解决方法
CN106339294A (zh) * 2016-08-29 2017-01-18 浪潮电子信息产业股份有限公司 一种电压监控系统及方法
CN106371958A (zh) * 2016-08-31 2017-02-01 浪潮电子信息产业股份有限公司 一种服务器故障诊断系统及方法
CN106815108A (zh) * 2017-01-19 2017-06-09 郑州云海信息技术有限公司 一种多路服务器故障定位系统
CN107023504A (zh) * 2017-06-02 2017-08-08 郑州云海信息技术有限公司 一种基于bmc的风扇控制系统及控制方法
CN107315369A (zh) * 2017-07-12 2017-11-03 郑州云海信息技术有限公司 一种bmc芯片智能协处理装置及处理方法
CN107315369B (zh) * 2017-07-12 2019-12-17 苏州浪潮智能科技有限公司 一种bmc芯片智能协处理装置
CN107632907A (zh) * 2017-08-07 2018-01-26 郑州云海信息技术有限公司 一种bmc芯片托管系统及其控制方法
TWI684859B (zh) * 2018-01-12 2020-02-11 廣達電腦股份有限公司 遠端系統復原之方法
US10846160B2 (en) 2018-01-12 2020-11-24 Quanta Computer Inc. System and method for remote system recovery
CN108170476A (zh) * 2018-01-26 2018-06-15 郑州云海信息技术有限公司 一种记录服务器bios版本信息的方法及系统
CN109240851A (zh) * 2018-08-24 2019-01-18 郑州云海信息技术有限公司 一种自主式实现批量bmc自恢复的方法及系统
CN111414274A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN111416721A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN111414267A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN109947628A (zh) * 2019-03-29 2019-06-28 联想(北京)有限公司 管理控制方法、管理控制系统和服务器
RU2711469C1 (ru) * 2019-04-09 2020-01-17 ЭйАйСи ИНК. Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN111124509A (zh) * 2019-11-29 2020-05-08 苏州浪潮智能科技有限公司 一种服务器启动方法与装置
CN111124509B (zh) * 2019-11-29 2021-07-06 苏州浪潮智能科技有限公司 一种服务器启动方法与装置
CN113190398A (zh) * 2021-03-26 2021-07-30 山东英信计算机技术有限公司 一种检测逆流阀状态的方法、系统及介质
CN113190398B (zh) * 2021-03-26 2022-09-20 山东英信计算机技术有限公司 一种检测逆流阀状态的方法、系统及介质

Similar Documents

Publication Publication Date Title
CN104598329A (zh) 一种基于rmc管理的自动bmc故障解决方法
US8838286B2 (en) Rack-level modular server and storage framework
CN103346903B (zh) 一种双机备份的方法和装置
TW202041061A (zh) 用於組態漂移偵測及補救之系統及方法
CN101132314B (zh) 实现冗余备份的方法
US20070168088A1 (en) Power distribution load shedding system and method of use
CN107023504A (zh) 一种基于bmc的风扇控制系统及控制方法
JP2001306189A (ja) ホットスワップ可能コンポーネントを備えたデバイス用の電力管理システム
CN111859398B (zh) 一种基于tpcm的双bios安全验证装置及方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
EP2360614B1 (en) Information processing device and hardware setting method for said information processing device
EP2082322A1 (en) Security features in interconnect centric architectures
CN106774752A (zh) 一种Rack服务器备用风扇控制方法
US8751847B2 (en) Method and system for detecting whether a computer server has shut down gracefully
CN101719089A (zh) 分布式集群的远程管理方法及系统
CN110609760A (zh) 一种防止服务器误触发降频的系统
CN105119746A (zh) 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法
CN114090184B (zh) 一种虚拟化集群高可用性的实现方法和设备
US20170315817A1 (en) Power lifeguard system
WO2021169259A1 (zh) 一种动态电源管理系统
US20160328010A1 (en) Shutdown of computing devices
WO2009052741A1 (fr) Système de microarchitecture informatique pour les télécommunications et procédé pour sa gestion de fiabilité
CN106502355A (zh) 一种Rack服务器电源进风温度获取方法
CN103984616A (zh) 一种服务器监控方法及服务器
CN106095642A (zh) 一种基于rmc管理的风扇故障解决方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506

RJ01 Rejection of invention patent application after publication