CN105511980A - 一种高端容错服务器的电源故障记录方法 - Google Patents
一种高端容错服务器的电源故障记录方法 Download PDFInfo
- Publication number
- CN105511980A CN105511980A CN201510921696.6A CN201510921696A CN105511980A CN 105511980 A CN105511980 A CN 105511980A CN 201510921696 A CN201510921696 A CN 201510921696A CN 105511980 A CN105511980 A CN 105511980A
- Authority
- CN
- China
- Prior art keywords
- rmc
- management
- log
- equipment cabinet
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/28—Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
Abstract
本发明提供一种高端容错服务器的电源故障记录方法,涉及服务器监控管理领域和电源故障监控领域,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理。
Description
技术领域
本发明涉及服务器监控管理领域和电源故障监控领域,尤其涉及一种高端容错服务器的电源故障记录方法。主要针对高端容错服务器电源集中供电和集中管理的特点,服务器电源的故障直接影响整个设备的使用。
背景技术
随着用户对计算机的计算需求的提高,用户对单台计算机的计算性能要求越来越高。高端容错服务器是一款多路服务器。与传统服务器相比,在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时高端容错服务器在机柜内采取集中供电和集中管理的策略。整机柜通过RMC统一进行电源的故障管理和故障记录,RMC统一管理整机柜的所有电源模块PSU,高端容错服务器对电源的故障管理和故障记与传统的服务器相比提出了新的挑战。
目前在高端容错服务器对电源的故障管理和故障记录具体内容并不明确,如果按照传统服务器下进行,因为电源集中供电和集中管理,需要记录的电源状态比较复杂,很难满足管理的要求。
发明内容
为了解决以上问题,本发明提出了一种高端容错服务器的电源故障记录方法。
通过一种高端容错服务器的电源故障记录方法,高端容错服务器的RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理,使用户管理高端容错电源的故障信息,如同管理单台服务器的电源信息一样方便。
在RMC统一对电源进行管理。首先定义RMC对机柜内部电源故障管理LOG级别。其次定义RMC对机柜内部电源故障管理LOG内容。最后定义RMC对机柜内部电源故障管理LOG的触发条件。具体实现方式如下所示:
1)定义RMC对机柜内部电源故障管理LOG级别。管理的主要级别包含三个部分:Info、warning和critical。
2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的EventDescription。
3)定义RMC对机柜内部电源故障管理LOG的触发条件。
本发明的有益效果是。
1)提供了高端容错服务器电源故障记录方法,适用于高端容错服务器的要求;
2)有助于公司在高端容错服务器领域形成技术壁垒,保证公司在整机柜服务器的优势。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种高端容错服务器的电源故障记录方法主要包括:
(1)定义RMC对机柜内部电源故障管理LOG级别。管理的主要级别包含三个部分:Info、warning和critical。Info是节电源的故障状态恢复、电源上电和电源模块的插入的操作信息;warning主要是指电源的移除、电源的不在位和电源的状态告警;critical主要指电源出现输入和输出故障,电源超过最大电源告警阈值。
(2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的EventDescription。
(3)定义RMC对机柜内部电源故障管理LOG的触发条件,主要触发时间包括:
A.Info级别的LOG:
1PCMwasOK,powercontrolmodule电源控制模块从故障状态恢复;
2PSUwasOKPSU从故障状态恢复;
3PSUwasaddedPSU被插入;
4PSUwasDCoutputon打开PSU电源DC输出;
5wasDCinputon打开PSU电源DC输入;
6wasACinputon打开PSU电源AC输入
B.warning级别的LOG:
1wasDCoutputoff关闭PSU电源DC输出;
2wasremovedPSU被移除;
3wasabsentPSU不在位;
4xxxloadingwastoohighPSU负载过高;
5xxxOutputOvervoltageWarningPSU输出电压超高告警;
6xxxOutputUndervoltageWarningPSU输出电压超低告警;
7xxxOutputOvercurrentWarningPSU输出电流超高告警
8xxxInputOvervoltageWarning.PSU输入电压超高告警
9xxxInputUndervoltageWarningPSU输入电压超低告警;
10xxxOTPWarningPSU温度过高告警;
C.critical级别的LOG:
1PCMwasfail电源控制模块故障;
2PCMtherackpowerwasxxxoverMaxpowerxxx服务期功耗过高告警
3xxxhotspotOTPerrorPSU温度超过故障
4xxxOutputOvervoltageerrorPSU输出电压过高故障;
5xxxOutputOvercurrenterrorPSU输出电流过高故障;
6xxxInputOvervoltageerrorPSU输入电压过高故障
7xxxACInputUndervoltageerrorPSU输入电压过低故障
8wasfanfailPSU风扇故障;
其中xxx代表电压电流发生告警或者故障时的实际读数。
Claims (3)
1.一种高端容错服务器的电源故障记录方法,其特征在于,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作。
2.根据权利要求1所述的方法,其特征在于,
定义RMC对机柜内部电源故障管理LOG级别:管理的主要级别包含三个部分:Info、warning和critical。
3.根据权利要求2所述的方法,其特征在于,
定义RMC对机柜内部电源故障管理LOG内容:主要内容包括LOG的级别,设备的类型PCM和PSU,电源故障的EventDescription。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510921696.6A CN105511980A (zh) | 2015-12-14 | 2015-12-14 | 一种高端容错服务器的电源故障记录方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510921696.6A CN105511980A (zh) | 2015-12-14 | 2015-12-14 | 一种高端容错服务器的电源故障记录方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105511980A true CN105511980A (zh) | 2016-04-20 |
Family
ID=55719983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510921696.6A Pending CN105511980A (zh) | 2015-12-14 | 2015-12-14 | 一种高端容错服务器的电源故障记录方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105511980A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776169A (zh) * | 2016-12-12 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种测试服务器的psu的方法及装置 |
CN109189644A (zh) * | 2018-09-17 | 2019-01-11 | 郑州云海信息技术有限公司 | 整机柜rmc、自动配置整机柜新增节点数量的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047979A1 (en) * | 2004-08-24 | 2006-03-02 | Judy Hsu | Power control and management method for uninterruptible power system and servers |
US20110320834A1 (en) * | 2009-12-03 | 2011-12-29 | Wilbert Ingels | Data center management unit with improved disaster prevention and recovery |
CN104317714A (zh) * | 2014-10-29 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于expect自动化测试rack稳定性的方法 |
CN105119746A (zh) * | 2015-08-27 | 2015-12-02 | 浪潮电子信息产业股份有限公司 | 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法 |
-
2015
- 2015-12-14 CN CN201510921696.6A patent/CN105511980A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047979A1 (en) * | 2004-08-24 | 2006-03-02 | Judy Hsu | Power control and management method for uninterruptible power system and servers |
US20110320834A1 (en) * | 2009-12-03 | 2011-12-29 | Wilbert Ingels | Data center management unit with improved disaster prevention and recovery |
CN104317714A (zh) * | 2014-10-29 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于expect自动化测试rack稳定性的方法 |
CN105119746A (zh) * | 2015-08-27 | 2015-12-02 | 浪潮电子信息产业股份有限公司 | 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法 |
Non-Patent Citations (3)
Title |
---|
天蝎项目组: "天蝎整机柜服务器技术规范Version 2.0", 《HTTPS://WENKU.BAIDU.COM/VIEW/54E710872F60DDCCDB38A05E.HTML》 * |
天蝎项目组: "天蝎项目整机柜服务器技术规范v1.01", 《HTTPS://WENKU.BAIDU.COM/VIEW/F28CC2E85EF7BA0D4A733B23.HTML》 * |
魏晨辉: "高端容错计算机故障日志分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776169A (zh) * | 2016-12-12 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种测试服务器的psu的方法及装置 |
CN109189644A (zh) * | 2018-09-17 | 2019-01-11 | 郑州云海信息技术有限公司 | 整机柜rmc、自动配置整机柜新增节点数量的方法及系统 |
CN109189644B (zh) * | 2018-09-17 | 2021-10-22 | 郑州云海信息技术有限公司 | 整机柜rmc、自动配置整机柜新增节点数量的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI606330B (zh) | 伺服系統及其電源切換方法 | |
GB2499533A (en) | Storage management in clustered data processing systems | |
CN105404364A (zh) | 背板系统 | |
CN201965215U (zh) | 蓄电池组在线监测系统 | |
CN105867572A (zh) | 一种整机柜服务器电源管理方法及整机柜服务器 | |
CN106646099B (zh) | 一种高压直流输电ttm板卡故障定位系统及其故障定位方法 | |
CN104615063A (zh) | 电源管理系统及方法 | |
CN105425932A (zh) | 一种整机柜服务器电源的管理方法及系统 | |
CN105119746A (zh) | 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法 | |
US8736107B1 (en) | Power source redundancy in a power supply | |
CN105511980A (zh) | 一种高端容错服务器的电源故障记录方法 | |
CN202695994U (zh) | 一种配电柜 | |
WO2017034545A1 (en) | Power delivery monitor and control with an uninterruptible power supply | |
CN104991628B (zh) | 数据中心智能电力监控系统和监控方法 | |
CN109582498A (zh) | 一种cpld异常掉电时的数据保护电路及保护方法 | |
CN107145209A (zh) | 一种机柜服务器的电源管理方法及装置 | |
CN103995758A (zh) | 一种主板故障信息的延时显示方法 | |
CN103019914A (zh) | 一种ups电源监控告警装置 | |
CN103308787A (zh) | 供电监测系统和方法 | |
CN204731725U (zh) | 一种集群掉电自检自保护系统 | |
CN207232883U (zh) | 一种服务器硬盘背板持续供电装置 | |
CN106527643B (zh) | 一种通信设备及其电源管理方法 | |
CN204291017U (zh) | 铁路列车控制系统中多种通信方式的监测设备 | |
CN103376872A (zh) | 电源管理方法 | |
CN105357064A (zh) | 一种高端容错服务器的节点故障记录方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160420 |
|
WD01 | Invention patent application deemed withdrawn after publication |