CN105511980A - 一种高端容错服务器的电源故障记录方法 - Google Patents

一种高端容错服务器的电源故障记录方法 Download PDF

Info

Publication number
CN105511980A
CN105511980A CN201510921696.6A CN201510921696A CN105511980A CN 105511980 A CN105511980 A CN 105511980A CN 201510921696 A CN201510921696 A CN 201510921696A CN 105511980 A CN105511980 A CN 105511980A
Authority
CN
China
Prior art keywords
rmc
management
log
equipment cabinet
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510921696.6A
Other languages
English (en)
Inventor
黄家明
乔英良
李冠广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Mass Institute Of Information Technology
Original Assignee
Shandong Mass Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Mass Institute Of Information Technology filed Critical Shandong Mass Institute Of Information Technology
Priority to CN201510921696.6A priority Critical patent/CN105511980A/zh
Publication of CN105511980A publication Critical patent/CN105511980A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision

Abstract

本发明提供一种高端容错服务器的电源故障记录方法,涉及服务器监控管理领域和电源故障监控领域,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理。

Description

一种高端容错服务器的电源故障记录方法
技术领域
本发明涉及服务器监控管理领域和电源故障监控领域,尤其涉及一种高端容错服务器的电源故障记录方法。主要针对高端容错服务器电源集中供电和集中管理的特点,服务器电源的故障直接影响整个设备的使用。
背景技术
随着用户对计算机的计算需求的提高,用户对单台计算机的计算性能要求越来越高。高端容错服务器是一款多路服务器。与传统服务器相比,在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时高端容错服务器在机柜内采取集中供电和集中管理的策略。整机柜通过RMC统一进行电源的故障管理和故障记录,RMC统一管理整机柜的所有电源模块PSU,高端容错服务器对电源的故障管理和故障记与传统的服务器相比提出了新的挑战。
目前在高端容错服务器对电源的故障管理和故障记录具体内容并不明确,如果按照传统服务器下进行,因为电源集中供电和集中管理,需要记录的电源状态比较复杂,很难满足管理的要求。
发明内容
为了解决以上问题,本发明提出了一种高端容错服务器的电源故障记录方法。
通过一种高端容错服务器的电源故障记录方法,高端容错服务器的RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理,使用户管理高端容错电源的故障信息,如同管理单台服务器的电源信息一样方便。
在RMC统一对电源进行管理。首先定义RMC对机柜内部电源故障管理LOG级别。其次定义RMC对机柜内部电源故障管理LOG内容。最后定义RMC对机柜内部电源故障管理LOG的触发条件。具体实现方式如下所示:
1)定义RMC对机柜内部电源故障管理LOG级别。管理的主要级别包含三个部分:Info、warning和critical。
2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的EventDescription。
3)定义RMC对机柜内部电源故障管理LOG的触发条件。
本发明的有益效果是。
1)提供了高端容错服务器电源故障记录方法,适用于高端容错服务器的要求;
2)有助于公司在高端容错服务器领域形成技术壁垒,保证公司在整机柜服务器的优势。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种高端容错服务器的电源故障记录方法主要包括:
(1)定义RMC对机柜内部电源故障管理LOG级别。管理的主要级别包含三个部分:Info、warning和critical。Info是节电源的故障状态恢复、电源上电和电源模块的插入的操作信息;warning主要是指电源的移除、电源的不在位和电源的状态告警;critical主要指电源出现输入和输出故障,电源超过最大电源告警阈值。
(2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的EventDescription。
(3)定义RMC对机柜内部电源故障管理LOG的触发条件,主要触发时间包括:
A.Info级别的LOG:
1PCMwasOK,powercontrolmodule电源控制模块从故障状态恢复;
2PSUwasOKPSU从故障状态恢复;
3PSUwasaddedPSU被插入;
4PSUwasDCoutputon打开PSU电源DC输出;
5wasDCinputon打开PSU电源DC输入;
6wasACinputon打开PSU电源AC输入
B.warning级别的LOG:
1wasDCoutputoff关闭PSU电源DC输出;
2wasremovedPSU被移除;
3wasabsentPSU不在位;
4xxxloadingwastoohighPSU负载过高;
5xxxOutputOvervoltageWarningPSU输出电压超高告警;
6xxxOutputUndervoltageWarningPSU输出电压超低告警;
7xxxOutputOvercurrentWarningPSU输出电流超高告警
8xxxInputOvervoltageWarning.PSU输入电压超高告警
9xxxInputUndervoltageWarningPSU输入电压超低告警;
10xxxOTPWarningPSU温度过高告警;
C.critical级别的LOG:
1PCMwasfail电源控制模块故障;
2PCMtherackpowerwasxxxoverMaxpowerxxx服务期功耗过高告警
3xxxhotspotOTPerrorPSU温度超过故障
4xxxOutputOvervoltageerrorPSU输出电压过高故障;
5xxxOutputOvercurrenterrorPSU输出电流过高故障;
6xxxInputOvervoltageerrorPSU输入电压过高故障
7xxxACInputUndervoltageerrorPSU输入电压过低故障
8wasfanfailPSU风扇故障;
其中xxx代表电压电流发生告警或者故障时的实际读数。

Claims (3)

1.一种高端容错服务器的电源故障记录方法,其特征在于,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作。
2.根据权利要求1所述的方法,其特征在于,
定义RMC对机柜内部电源故障管理LOG级别:管理的主要级别包含三个部分:Info、warning和critical。
3.根据权利要求2所述的方法,其特征在于,
定义RMC对机柜内部电源故障管理LOG内容:主要内容包括LOG的级别,设备的类型PCM和PSU,电源故障的EventDescription。
CN201510921696.6A 2015-12-14 2015-12-14 一种高端容错服务器的电源故障记录方法 Pending CN105511980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510921696.6A CN105511980A (zh) 2015-12-14 2015-12-14 一种高端容错服务器的电源故障记录方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510921696.6A CN105511980A (zh) 2015-12-14 2015-12-14 一种高端容错服务器的电源故障记录方法

Publications (1)

Publication Number Publication Date
CN105511980A true CN105511980A (zh) 2016-04-20

Family

ID=55719983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510921696.6A Pending CN105511980A (zh) 2015-12-14 2015-12-14 一种高端容错服务器的电源故障记录方法

Country Status (1)

Country Link
CN (1) CN105511980A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776169A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种测试服务器的psu的方法及装置
CN109189644A (zh) * 2018-09-17 2019-01-11 郑州云海信息技术有限公司 整机柜rmc、自动配置整机柜新增节点数量的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047979A1 (en) * 2004-08-24 2006-03-02 Judy Hsu Power control and management method for uninterruptible power system and servers
US20110320834A1 (en) * 2009-12-03 2011-12-29 Wilbert Ingels Data center management unit with improved disaster prevention and recovery
CN104317714A (zh) * 2014-10-29 2015-01-28 浪潮电子信息产业股份有限公司 一种基于expect自动化测试rack稳定性的方法
CN105119746A (zh) * 2015-08-27 2015-12-02 浪潮电子信息产业股份有限公司 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047979A1 (en) * 2004-08-24 2006-03-02 Judy Hsu Power control and management method for uninterruptible power system and servers
US20110320834A1 (en) * 2009-12-03 2011-12-29 Wilbert Ingels Data center management unit with improved disaster prevention and recovery
CN104317714A (zh) * 2014-10-29 2015-01-28 浪潮电子信息产业股份有限公司 一种基于expect自动化测试rack稳定性的方法
CN105119746A (zh) * 2015-08-27 2015-12-02 浪潮电子信息产业股份有限公司 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
天蝎项目组: "天蝎整机柜服务器技术规范Version 2.0", 《HTTPS://WENKU.BAIDU.COM/VIEW/54E710872F60DDCCDB38A05E.HTML》 *
天蝎项目组: "天蝎项目整机柜服务器技术规范v1.01", 《HTTPS://WENKU.BAIDU.COM/VIEW/F28CC2E85EF7BA0D4A733B23.HTML》 *
魏晨辉: "高端容错计算机故障日志分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776169A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种测试服务器的psu的方法及装置
CN109189644A (zh) * 2018-09-17 2019-01-11 郑州云海信息技术有限公司 整机柜rmc、自动配置整机柜新增节点数量的方法及系统
CN109189644B (zh) * 2018-09-17 2021-10-22 郑州云海信息技术有限公司 整机柜rmc、自动配置整机柜新增节点数量的方法及系统

Similar Documents

Publication Publication Date Title
TWI606330B (zh) 伺服系統及其電源切換方法
GB2499533A (en) Storage management in clustered data processing systems
CN105404364A (zh) 背板系统
CN201965215U (zh) 蓄电池组在线监测系统
CN105867572A (zh) 一种整机柜服务器电源管理方法及整机柜服务器
CN106646099B (zh) 一种高压直流输电ttm板卡故障定位系统及其故障定位方法
CN104615063A (zh) 电源管理系统及方法
CN105425932A (zh) 一种整机柜服务器电源的管理方法及系统
CN105119746A (zh) 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法
US8736107B1 (en) Power source redundancy in a power supply
CN105511980A (zh) 一种高端容错服务器的电源故障记录方法
CN202695994U (zh) 一种配电柜
WO2017034545A1 (en) Power delivery monitor and control with an uninterruptible power supply
CN104991628B (zh) 数据中心智能电力监控系统和监控方法
CN109582498A (zh) 一种cpld异常掉电时的数据保护电路及保护方法
CN107145209A (zh) 一种机柜服务器的电源管理方法及装置
CN103995758A (zh) 一种主板故障信息的延时显示方法
CN103019914A (zh) 一种ups电源监控告警装置
CN103308787A (zh) 供电监测系统和方法
CN204731725U (zh) 一种集群掉电自检自保护系统
CN207232883U (zh) 一种服务器硬盘背板持续供电装置
CN106527643B (zh) 一种通信设备及其电源管理方法
CN204291017U (zh) 铁路列车控制系统中多种通信方式的监测设备
CN103376872A (zh) 电源管理方法
CN105357064A (zh) 一种高端容错服务器的节点故障记录方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160420

WD01 Invention patent application deemed withdrawn after publication