CN113760073A - 一种电源故障上报方法 - Google Patents

一种电源故障上报方法 Download PDF

Info

Publication number
CN113760073A
CN113760073A CN202111009347.9A CN202111009347A CN113760073A CN 113760073 A CN113760073 A CN 113760073A CN 202111009347 A CN202111009347 A CN 202111009347A CN 113760073 A CN113760073 A CN 113760073A
Authority
CN
China
Prior art keywords
power supply
management controller
supply unit
failure
gate array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111009347.9A
Other languages
English (en)
Inventor
刘琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunjian Information Technology Co ltd
Original Assignee
Yunjian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunjian Information Technology Co ltd filed Critical Yunjian Information Technology Co ltd
Priority to CN202111009347.9A priority Critical patent/CN113760073A/zh
Publication of CN113760073A publication Critical patent/CN113760073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0016Inter-integrated circuit (I2C)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)

Abstract

本发明提供一种电源故障上报方法,基板管理控制器通常不访问电源供应单元的故障寄存器,只有当电源供应单元自身发送出故障报警信号之后,由现场可编程逻辑门阵列芯片通知基板管理控制器电源供应单元发生了故障,此时BMC才会通过基板管理控制器访问故障电源供应单元,收集故障信息上报日志。本发明的电源故障上报方法,大大减小了基板管理控制器与电源供应单元连接的I2C总线的繁忙,减少了基板管理控制器与英特尔管理引擎之间的I2C总线竞争,同时降低了基板管理控制器的CPU使用率。

Description

一种电源故障上报方法
技术领域
本发明属于电源供应器技术领域,尤其是涉及一种电源故障上报方法。
背景技术
基板管理控制器即BMC是服务器主板上一块独立的板卡,有自己独立的处理器,和控制系统,通过IPMB、LPC(low-pin-count-interface)、SMBus等接口与主机硬件或者主机系统进行通信,并通过网络、串行/Moderm、PCI等接口传向本地主机/远程服务器提供查询和控制等功能。
伴随着服务器各个部件组合的多样性,越来越多的服务器需要较大功耗来满足客户的业务负载。电源供应单元简称PSU或电源,是电脑的一种电能转换类的电源(有别于电池供电类的电源),负责将标准交流电转成低压稳定的直流电,给电脑内其它的组件所使用。目前一般的电源供应器都是交换式电源供应器,输入电压自动适应用家所在地点市电参数。一方面需要提高单个PSU的供电能力,一方面需要增加PSU的个数,来支持高负载业务的需求。
当通过增加PSU个数来满足业务负载时,I2C总线上会挂载过多的PSU设备。同时如果服务器基于Intel平台进行研发,那么会存在PCH(Platform Controller Hub),即英特尔集成南桥。此时,PCH内部存在一个ME(Mangement Engine),即英特尔管理引擎,而ME同样会使用I2C与PSU相连接,此时I2C总线上会存在BMC与ME 2个主设备,多个从设备PSU。而PSU本身寄存器种类繁多(状态、电压、电流、功耗等),BMC往往通过轮训轮询的方式采集PSU的相关寄存器数据(PSU厂商、PSU型号、PSU状态、EEPROM等),而PSU数量或者采集PSU相关寄存器较多时,BMC与ME在I2C总线上,存在双主竞争,增加了I2C访问失败的几率;另一方面,BMC访问PSU通常使用轮训的方式,会占用较多BMC的资源。
发明内容
本发明旨在解决上述技术问题,提供一种电源故障上报方法。
为了达到上述目的,本发明采用如下技术方案:
一种电源故障上报方法,应用于主机系统/远程服务器系统,所述主机系统/远程服务器系统包括若干电源供应单元以及现场可编程逻辑门阵列芯片、基板管理控制器,所述电源供应单元内部监测到故障时,发送信号给现场可编程逻辑门阵列芯片,当现场可编程逻辑门阵列芯片收到由电源供应单元发送的故障报警信号时,发送中断信号通知基板管理控制器,基板管理控制器接收到来自现场可编程逻辑门阵列芯片的中断信号后,收集对应电源供应单元的故障信息,基板管理控制器根据收集的故障信息,解析后记录到日志文件。
作为优选,各个电源供应单元的Present引脚与现场可编程逻辑门阵列芯片相连接,用于及时反馈电源供应单元的在位变化。
作为优选,各个电源供应单元的故障报警引脚与现场可编程逻辑门阵列芯片相连接,现场可编程逻辑门阵列芯片的一根GPIO引脚作为中断信号引脚,现场可编程逻辑门阵列芯片的该GPIO引脚与基板管理控制器相连接,用于发送中断信号通知基板管理控制器,现场可编程逻辑门阵列芯片与基板管理控制器通过Local Bus总线相连接,电源供应单元与基板管理控制器通过I2C总线相连接。
采用上述技术方案后,本发明具有如下优点:
现有技术的基板管理控制器一直处于轮询各个电源供应单元的故障寄存器来感知是否有故障发送,会不断消耗基板管理控制器的资源,同时在I2C总线与英特尔管理引擎不断竞争。而本发明的电源故障上报方法,基板管理控制器通常不访问电源供应单元的故障寄存器,只有当电源供应单元自身发送出故障报警信号之后,由现场可编程逻辑门阵列芯片通知基板管理控制器电源供应单元发生了故障,此时BMC才会通过基板管理控制器访问故障电源供应单元,收集故障信息上报日志。
本发明的电源故障上报方法,大大减小了基板管理控制器与电源供应单元连接的I2C总线的繁忙,减少了基板管理控制器与英特尔管理引擎之间的I2C总线竞争,同时降低了基板管理控制器的CPU使用率。
附图说明
图1为采用本发明的电源故障上报方法的主机系统/远程服务器系统的结构示意图。
具体实施方式
以下结合附图及具体实施例,对本发明作进一步的详细说明。
一种电源故障上报方法,应用于主机系统/远程服务器系统,如图1所示,所述主机系统/远程服务器系统包括若干电源供应单元以及现场可编程逻辑门阵列芯片、基板管理控制器、英特尔管理引擎。电源供应单元即PSU,现场可编程逻辑门阵列芯片即FPGA,基板管理控制器即BMC,英特尔管理引擎即ME。
各个电源供应单元的故障报警引脚Alert与现场可编程逻辑门阵列芯片相连接,所述电源供应单元内部监测到故障时,发送信号给现场可编程逻辑门阵列芯片。各个电源供应单元的Present引脚与现场可编程逻辑门阵列芯片相连接,用于及时反馈电源供应单元的在位变化。
当现场可编程逻辑门阵列芯片收到由电源供应单元发送的故障报警信号时,发送中断信号通知基板管理控制器,基板管理控制器接收到来自现场可编程逻辑门阵列芯片的中断信号后,收集对应电源供应单元的故障信息,基板管理控制器根据收集的故障信息,解析后记录到日志文件。
现场可编程逻辑门阵列芯片的一根GPIO引脚作为中断信号引脚,现场可编程逻辑门阵列芯片的该GPIO引脚与基板管理控制器相连接,用于发送中断信号通知基板管理控制器,现场可编程逻辑门阵列芯片与基板管理控制器通过Local Bus总线相连接,电源供应单元与基板管理控制器通过I2C总线相连接。
当任意电源供应单元发生故障时,均可以通过故障报警Alert信号上报给现场可编程逻辑门阵列芯片FPGA,而现场可编程逻辑门阵列芯片FPGA区分各类中断信号源后,汇总后再通过某根GPIO引脚模拟中断信号发送给基板管理控制器BMC(如某根IO的下降沿作为模拟中断信号)。基板管理控制器BMC接收到中断信号,会先通过Local Bus主线访问现场可编程逻辑门阵列芯片FPGA以查询中断类型,当识别为电源供应单元PSU类型中断后,立刻通过I2C总线访问故障电源供应单元PSU,采集故障寄存器信息,解析后上报日志。
现有技术的基板管理控制器一直处于轮询各个电源供应单元的故障寄存器来感知是否有故障发送,会不断消耗基板管理控制器的资源,同时在I2C总线与英特尔管理引擎不断竞争。而本发明的电源故障上报方法,基板管理控制器通常不访问电源供应单元的故障寄存器,只有当电源供应单元自身发送出故障报警信号之后,由现场可编程逻辑门阵列芯片通知基板管理控制器电源供应单元发生了故障,此时BMC才会通过基板管理控制器访问故障电源供应单元,收集故障信息上报日志。
本发明的电源故障上报方法,大大减小了基板管理控制器与电源供应单元连接的I2C总线的繁忙,减少了基板管理控制器与英特尔管理引擎之间的I2C总线竞争,同时降低了基板管理控制器的CPU使用率。
本实施例中,所述PSU型号为PSR800-12A,BMC型号为AST2500。
除上述优选实施例外,本发明还有其他的实施方式,本领域技术人员可以根据本发明作出各种改变和变形,只要不脱离本发明的精神,均应属于本发明所附权利要求所定义的范围。

Claims (3)

1.一种电源故障上报方法,应用于主机系统/远程服务器系统,其特征在于,所述主机系统/远程服务器系统包括若干电源供应单元以及现场可编程逻辑门阵列芯片、基板管理控制器,所述电源供应单元内部监测到故障时,发送信号给现场可编程逻辑门阵列芯片,当现场可编程逻辑门阵列芯片收到由电源供应单元发送的故障报警信号时,发送中断信号通知基板管理控制器,基板管理控制器接收到来自现场可编程逻辑门阵列芯片的中断信号后,收集对应电源供应单元的故障信息,基板管理控制器根据收集的故障信息,解析后记录到日志文件。
2.如权利要求1所述的电源故障上报方法,其特征在于,各个电源供应单元的Present引脚与现场可编程逻辑门阵列芯片相连接,用于及时反馈电源供应单元的在位变化。
3. 如权利要求1或2所述的电源故障上报方法,其特征在于,各个电源供应单元的故障报警引脚与现场可编程逻辑门阵列芯片相连接,现场可编程逻辑门阵列芯片的一根GPIO引脚作为中断信号引脚,现场可编程逻辑门阵列芯片的该GPIO引脚与基板管理控制器相连接,用于发送中断信号通知基板管理控制器,现场可编程逻辑门阵列芯片与基板管理控制器通过Local Bus总线相连接,电源供应单元与基板管理控制器通过I2C总线相连接。
CN202111009347.9A 2021-08-31 2021-08-31 一种电源故障上报方法 Pending CN113760073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009347.9A CN113760073A (zh) 2021-08-31 2021-08-31 一种电源故障上报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009347.9A CN113760073A (zh) 2021-08-31 2021-08-31 一种电源故障上报方法

Publications (1)

Publication Number Publication Date
CN113760073A true CN113760073A (zh) 2021-12-07

Family

ID=78792057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009347.9A Pending CN113760073A (zh) 2021-08-31 2021-08-31 一种电源故障上报方法

Country Status (1)

Country Link
CN (1) CN113760073A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216497A (zh) * 2013-05-29 2014-12-17 鸿富锦精密工业(深圳)有限公司 电源故障侦测装置及方法
CN108919935A (zh) * 2018-07-12 2018-11-30 浪潮电子信息产业股份有限公司 一种针对于服务器主板上的电源的监测方法、装置及设备
CN110502087A (zh) * 2019-07-19 2019-11-26 苏州浪潮智能科技有限公司 一种服务器防烧板系统及工作方法
CN110609760A (zh) * 2019-08-14 2019-12-24 苏州浪潮智能科技有限公司 一种防止服务器误触发降频的系统
CN112000211A (zh) * 2020-08-13 2020-11-27 苏州浪潮智能科技有限公司 一种冗余电源告警信号的处理方法及装置
US20210109582A1 (en) * 2019-10-10 2021-04-15 Dell Products, Lp System and method for using input power line telemetry in an information handling system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216497A (zh) * 2013-05-29 2014-12-17 鸿富锦精密工业(深圳)有限公司 电源故障侦测装置及方法
CN108919935A (zh) * 2018-07-12 2018-11-30 浪潮电子信息产业股份有限公司 一种针对于服务器主板上的电源的监测方法、装置及设备
CN110502087A (zh) * 2019-07-19 2019-11-26 苏州浪潮智能科技有限公司 一种服务器防烧板系统及工作方法
CN110609760A (zh) * 2019-08-14 2019-12-24 苏州浪潮智能科技有限公司 一种防止服务器误触发降频的系统
US20210109582A1 (en) * 2019-10-10 2021-04-15 Dell Products, Lp System and method for using input power line telemetry in an information handling system
CN112000211A (zh) * 2020-08-13 2020-11-27 苏州浪潮智能科技有限公司 一种冗余电源告警信号的处理方法及装置

Similar Documents

Publication Publication Date Title
US7707443B2 (en) Rack-level power management of computer systems
US8171174B2 (en) Out-of-band characterization of server utilization via remote access card virtual media for auto-enterprise scaling
US6895285B2 (en) Computer system status monitoring
CN101594235B (zh) 一种基于smbus总线对刀片服务器进行管理的方法
CN101770273B (zh) 一种实现服务器多中央处理器系统节能的方法和装置
CN102741775A (zh) 用于对计算机平台的系统功率状态进行转换的方法、装置和系统
CN105700655A (zh) 机柜服务器系统及其电源管理方法
CN1445669A (zh) 多途径获取和输出服务器监控信息的方法
CN116541227B (zh) 故障诊断方法、装置、存储介质、电子装置及bmc芯片
CN116723198A (zh) 一种多节点服务器主机控制方法、装置、设备、存储介质
CN204270291U (zh) 一种基于smc的监控报警装置
US10298479B2 (en) Method of monitoring a server rack system, and the server rack system
CN111367392B (zh) 一种动态电源管理系统
CN112882901A (zh) 一种分布式处理系统健康状态智能监控器
CN114442787B (zh) 服务器进入功耗封顶后实现整机功耗回调的方法、系统
CN114528234B (zh) 用于多路服务器系统的带外管理方法及装置
CN104104725A (zh) 一种应用于云计算的分层异构结构的服务器管理系统
CN109408312A (zh) 一种服务器运行温度测试系统及设备
CN206460446U (zh) 一种针对加固计算机主板的监控装置
CN113760073A (zh) 一种电源故障上报方法
Dolz et al. EnergySaving Cluster Roll: Power saving system for clusters
US7206883B2 (en) Interruption control system and method
CN109976478B (zh) 多cpu散热控制系统和散热控制方法
CN113608607B (zh) 多节点服务器控制方法和多节点服务器
CN201750426U (zh) 智能刀片服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination