CN116540856A - 一种供电模块故障恢复后更正状态的装置、方法和服务器 - Google Patents
一种供电模块故障恢复后更正状态的装置、方法和服务器 Download PDFInfo
- Publication number
- CN116540856A CN116540856A CN202310483077.8A CN202310483077A CN116540856A CN 116540856 A CN116540856 A CN 116540856A CN 202310483077 A CN202310483077 A CN 202310483077A CN 116540856 A CN116540856 A CN 116540856A
- Authority
- CN
- China
- Prior art keywords
- power supply
- supply module
- state
- management controller
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000011084 recovery Methods 0.000 title claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 26
- 239000000758 substrate Substances 0.000 claims abstract description 13
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000012544 monitoring process Methods 0.000 claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000012423 maintenance Methods 0.000 abstract description 22
- 230000002159 abnormal effect Effects 0.000 description 24
- 230000001960 triggered effect Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/24—Resetting means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Power Sources (AREA)
Abstract
本发明提出了一种供电模块故障恢复后更正状态的装置、系统和服务器,该装置包括:供电模块、基板管理控制器和可编程逻辑芯片;基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;供电模块和可编程逻辑芯片之间通信连接;基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。基于该装置,还提出了一种供电模块故障恢复后更正状态的方法和服务器。本发明提升了服务器的运维效率,增强了服务器的业务连续性。
Description
技术领域
本发明属于服务器供电技术领域,特别涉及一种供电模块故障恢复后更正状态的装置、方法和服务器。
背景技术
现今服务器的供电方式,通常选取安装在每个服务器节点上的统一标准的PSU,其中PSU:(power supply unit,电源供应模块),从220V交流市电取电,并转换为服务器节点所需的12V电压。或者采用集中供电的方式供电,集中供电的服务器机柜中存在电压转换专用模组,可将220V交流市电转化为54V直流电,并通过安装在机柜后侧的汇流铜排,将54V直流电传递到机柜中的每个服务器节点,统一为机柜中的每个服务器节点供电。服务器节点内部的集中供电模组接收54V直流电并转换为12V电压供服务器节点系统使用。无论是采购成品PSU电源模块,还是采用服务器集成商自研的集中供电模组,供电单元必不可少的模块便是VR,其中VR:(voltage regulator,电压转换芯片)。在成品PSU电源中内置了MCU管理芯片,可对PSU内部的VR进行监测控制。其中MCU:(Micro controller Unit,微控制单元):无论是成品PSU电源还是自研集中供电模组,服务器对其的管理都是通过PMBUS总线来完成的。PMBus(Power Management Bus,电源管理总线)是一种开放标准的数字电源管理协议。可通过定义传输和物理接口以及命令语言来促进与电源转换器或其他设备的通信。PMBUS总线是在I2C总线的基础上进行相应扩展而成,与I2C总线相比在软件上增加了专用的命令行,以实现更为精细的电源管理功能。
如图1为现有技术中服务器对供电单元的管理架构,服务器节点由PSU或集中供电模组供电,通过直接或间接方式与服务器内部的主板相连,连接方式通常为金手指形式。服务器主板上的BMC通过PMBUS总线对供电单元进行管理。其中BMC:(Baseboard ManagementController,基板管理控制器);PSU或集中供电模组通常还会输出一个Alert信号表示当前电源的状态:其中Alert信号为告警信号,若Alert为高电平,表示当前电源正常;若Alert为低电平,则表明当前电源存在故障。设计中往往将Alert信号连接至主板上的CPLD,若CPLD感知到电源异常,即如输出电压偏低,则会将降频信息传递给主板上的CPU,CPU在接收到降频信息后执行降频操作,降低当前CPU的功耗,使主板的总体功耗下降。避免出现电源过热,烧毁等更严重的故障。
在集中供电机柜服务器节点设备实际运行时,若集中供电模组发生异常,其Alert信号会变为低电平表示故障,当供电模组恢复正常之后,Alert信号却并未随着电源的恢复而恢复,而是一致保持着低电平告警的状态,与当前电源实际状态不符。如:54V直流电输入正常开机,开机后将输入直流电压调节到约39.6V,停留一段时间,其中时间随机选取,恢复54V直流电输入到正常电压,模组的Alert信号并未恢复正常。由于主板设计中Alert信号是接到了主板的CPLD,CPLD会根据Alert状态触发降频操作。若在电源状态正常的情况下Alert信号却一直保持为低电平,会引发CPU异常降频,导致CPU性能下降,进而引发服务器性能大规模下降的潜在质量问题。
发明内容
为了解决上述技术问题,本发明提出了一种供电模块故障恢复后更正状态的装置、方法和服务器。解决了供电模块在发生电源异常又恢复后,告警信号无法自动恢复正常而触发CPU降频造成服务器性能大规模下降的问题,提升了服务器的运维效率,增强了服务器的业务连续性。
为实现上述目的,本发明采用以下技术方案:
一种供电模块故障恢复后更正状态的装置,包括:供电模块、基板管理控制器和可编程逻辑芯片;所述基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;所述供电模块和可编程逻辑芯片之间通信连接;
所述基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;所述可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
进一步的,所述供电模块发生故障后,向可编程逻辑芯片发送告警信号,CPU执行系统降频。
进一步的,所述可编程逻辑芯片在接收到告警信号之后,将所述告警信号同步至基板管理控制器。
进一步的,基板管理控制器判断供电模块类型的方法为:
所述基板管理控制器的GPIO管脚与供电模块的对外通信接口建立连接,用于获取类型监测信号,通过所述类型监测信号判断供电模块的类型;如果类型监测信号为低电平,则判断供电模块为集中供电模块。
进一步的,所述基板管理控制器的电压监控管脚与供电模块输出端建立通信连接,用于获取电压监控信号,通过所述电压监控信号判断供电模块是否正常输出电压。
进一步的,所述基板管理控制器还用于在供电模块发生故障后,通过电源管理总线轮询供电模块的寄存器,在确认读取到供电模块的正常输出值时,判定供电模块发生故障后已恢复正常。
进一步的,所述基板管理控制器在清除状态寄存器内的故障状态之后,还包括获取告警信号的状态,判断告警信号的状态是否恢复正常,如果恢复正常,解除系统降频。
本发明还提出了一种供电模块故障恢复后更正状态的方法,是基于一种供电模块故障恢复后更正状态的装置实现的,包括以下步骤:
通过基板管理控制器监测供电模块的类型,在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;
可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
进一步的,所述方法还包括:
建立基板管理控制器的GPIO管脚与供电模块的对外通信接口的连接,用于获取类型监测信号,通过所述类型监测信号判断供电模块的类型;
以及建立基板管理控制器的电压监控管脚与供电模块输出端的通信连接,获取电压监控信号,通过所述电压监控信号判断供电模块是否正常输出电压。
本发明还提出了一种服务器,包括一种供电模块故障恢复后更正状态的装置。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种供电模块故障恢复后更正状态的装置、系统和服务器,该装置包括:供电模块、基板管理控制器和可编程逻辑芯片;基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;供电模块和可编程逻辑芯片之间通信连接;基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。基于一种供电模块故障恢复后更正状态的装置,还提出了一种供电模块故障恢复后更正状态的方法和服务器。本发明解决了供电模块在发生电源异常又恢复后,告警信号无法自动恢复正常而触发CPU降频造成服务器性能大规模下降的问题,提升了服务器的运维效率,增强了服务器的业务连续性。
本发明对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发告警信号及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的微控制单元会控制产生相应逻辑将告警信号恢复,不需要额外干预。
附图说明
图1为现有技术中服务器对供电单元的管理架构;
图2为本发明实施例1提出的一种供电模块故障恢复后更正状态的装置连接示意图;
图3为本发明实施例2提出的一种供电模块故障恢复后更正状态的方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种供电模块故障恢复后更正状态的装置,用于解决现有技术中存在的发生Alert异常触发时,当VR电源发生输出电压异常等情况时,会触发内部告警,内部的故障状态STATUS寄存器会被置1,从而导致Alert被拉低。清除STATUS寄存器状态的方法有三种,一是通过PMBUS手动发送指令进行清除,二是VR本身的3V3电源重新上电,三是VR的使能信号EN重启,即即控制电源重新上下电。由于VR电源从异常情况恢复正常后,STATUS寄存器被置位却无法自动清除,所以STATUS寄存器一直为1,Alert信号也一直为低电平,无法自动恢复。
由于情况为PMBUS 1.3规范中固有属性,只要是符合PMBUS规范的VR电源,一旦发生异常告警,就会导致Alert信号的状态闩锁,无法自动解除Alert状态。现有方案只能通过运维人员发现故障后手动发送命令清除STATUS寄存器,或手动对设备重新上下电操作来恢复Alert正常状态。这两种措施均会对业务产生中断,影响运维效率并降低业务连续性。
如图2为本发明实施例1提出的一种供电模块故障恢复后更正状态的装置连接示意图;该装置包括供电模块、基板管理控制器和可编程逻辑芯片;基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;供电模块和可编程逻辑芯片之间通信连接;
基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
本发明中,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发Alert及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的MCU会控制产生相应逻辑将Alert信号恢复,不需要额外干预。
当使用集中供电电源模组时,当电源发生异常断电并自动恢复正常后,Alert仍在置位不能自动恢复,因此需要对该种情况加以处理。
所以在本发明中基板管理控制器的GPIO管脚与供电模块的对外通信接口建立连接,用于获取类型监测信号,即Detect信号,通过Detect信号判断供电模块的类型;如果类型监测信号为低电平,则判断供电模块为集中供电模块。
其中在供电模块管脚选用时,供电模块端连接到空闲引脚上,必须是PSU未使用的空闲引脚。PSU不使用该功能,仅供集中供电模组使用。另外,需要将在主板端连接至可编程逻辑芯片的Alert信号同步连接至基板管理控制器。
首先,Detect信号检测对供电单元类型进行检测,判断是PSU还是集中供电模组。该信号在主板上设置上拉电平,在PSU上悬空,在集中供电模块上连接至地。如图2所示,基板管理控制器检测该信号的电平状态,若是高电平则识别为PSU,若是低电平则识别成集中供电模块。
当供电单元识别为PSU时,若供电模块出现故障,引发Alert,基板管理控制器不会进行额外干涉,按照正常电源故障Alert触发系统降频策略处理。当故障恢复后,如前文所述,由于PSU内部存在微处理模块,会自动对Alert信号状态进行恢复,不需要主板对其进行额外操作。
当供电单元识别为集中供电模块时,基板管理控制器需通过电压监控sensor信号对集中供电模组上的VR输出电压进行监控。并持续监控集中供电模组发出的Alert信号状态。当集中供电模组发生故障异常断电或电压过低时,触发Alert信号拉低,系统执行正常降频策略。
当集中供电模组从异常断电中恢复时,由于Alert信号仍然拉低,因此需要执行新的电源策略。根据基板管理控制器sensor对VR输出电压状态的监控,当集中供电模组从异常中恢复,电压输出正常,此时基板管理控制器感知到VR电源状态为正常,而Alert信号为异常状态。因此可以自动识别出当前发生了Alert状态锁死现象。
VR故障恢复后,可发送命令清除status状态寄存器;但如果故障尚未恢复,此时发送清除故障状态命令并不能清除status状态寄存器。因此基板管理控制器需要自动从PMBUS总线轮询访问VR芯片中的电源电压、电流等寄存器,在确认读值为正常值后,通过PMBUS发送清除故障状态命令,清除STATUS寄存器的故障状态,从而使Alert信号恢复正常。同时,由于基板管理控制器可以获取到Alert信号的电平状态,进而可以再次确认VR芯片是否对Alert状态进行了解除。在Alert信号恢复高电平后,系统对降频状态进行解除。
本发明实施例1提出的一种供电模块故障恢复后更正状态的装置,解决了供电模块在发生电源异常又恢复后,告警信号无法自动恢复正常而触发CPU降频造成服务器性能大规模下降的问题,提升了服务器的运维效率,增强了服务器的业务连续性。
本发明实施例1提出的一种供电模块故障恢复后更正状态的装置,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发告警信号及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的微控制单元会控制产生相应逻辑将告警信号恢复,不需要额外干预。
实施例2
基于本发明实施例1提出的一种供电模块故障恢复后更正状态的装置,本发明实施例2提出了一种供电模块故障恢复后更正状态的方法,如图3为本发明实施例2提出的一种供电模块故障恢复后更正状态的方法流程图。
在步骤S300中,通过基板管理控制器监测供电模块的类型,在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态。
本申请中建立基板管理控制器的GPIO管脚与供电模块的对外通信接口的连接,用于获取类型监测信号,通过类型监测信号判断供电模块的类型。
建立基板管理控制器的电压监控管脚与供电模块输出端的通信连接,获取电压监控信号,通过电压监控信号判断供电模块是否正常输出电压。
本发明中,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发Alert及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的MCU会控制产生相应逻辑将Alert信号恢复,不需要额外干预。
当使用集中供电电源模组时,当电源发生异常断电并自动恢复正常后,Alert仍在置位不能自动恢复,因此需要对该种情况加以处理。
所以在本发明中基板管理控制器的GPIO管脚与供电模块的对外通信接口建立连接,用于获取类型监测信号,即Detect信号,通过Detect信号判断供电模块的类型;如果类型监测信号为低电平,则判断供电模块为集中供电模块。
其中在供电模块管脚选用时,供电模块端连接到空闲引脚上,必须是PSU未使用的空闲引脚。PSU不使用该功能,仅供集中供电模组使用。另外,需要将在主板端连接至可编程逻辑芯片的Alert信号同步连接至基板管理控制器。
首先,Detect信号检测对供电单元类型进行检测,判断是PSU还是集中供电模组。该信号在主板上设置上拉电平,在PSU上悬空,在集中供电模块上连接至地。基板管理控制器检测该信号的电平状态,若是高电平则识别为PSU,若是低电平则识别成集中供电模块。
当供电单元识别为PSU时,若供电模块出现故障,引发Alert,基板管理控制器不会进行额外干涉,按照正常电源故障Alert触发系统降频策略处理。当故障恢复后,如前文所述,由于PSU内部存在微处理模块,会自动对Alert信号状态进行恢复,不需要主板对其进行额外操作。
当供电单元识别为集中供电模块时,基板管理控制器需通过电压监控sensor信号对集中供电模组上的VR输出电压进行监控。并持续监控集中供电模组发出的Alert信号状态。当集中供电模组发生故障异常断电或电压过低时,触发Alert信号拉低,系统执行正常降频策略。
当集中供电模组从异常断电中恢复时,由于Alert信号仍然拉低,因此需要执行新的电源策略。根据基板管理控制器sensor对VR输出电压状态的监控,当集中供电模组从异常中恢复,电压输出正常,此时基板管理控制器感知到VR电源状态为正常,而Alert信号为异常状态。因此可以自动识别出当前发生了Alert状态锁死现象。
VR故障恢复后,可发送命令清除status状态寄存器;但如果故障尚未恢复,此时发送清除故障状态命令并不能清除status状态寄存器。因此基板管理控制器需要自动从PMBUS总线轮询访问VR芯片中的电源电压、电流等寄存器,在确认读值为正常值后,通过PMBUS发送清除故障状态命令,清除STATUS寄存器的故障状态,从而使Alert信号恢复正常。
在步骤S310中,可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
同时,由于基板管理控制器可以获取到Alert信号的电平状态,进而可以再次确认VR芯片是否对Alert状态进行了解除。在Alert信号恢复高电平后,系统对降频状态进行解除。
本发明实施例2提出的一种供电模块故障恢复后更正状态的方法,解决了供电模块在发生电源异常又恢复后,告警信号无法自动恢复正常而触发CPU降频造成服务器性能大规模下降的问题,提升了服务器的运维效率,增强了服务器的业务连续性。
本发明实施例2提出的一种供电模块故障恢复后更正状态的方法,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发告警信号及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的微控制单元会控制产生相应逻辑将告警信号恢复,不需要额外干预。
本申请实施例2提供的一种供电模块故障恢复后更正状态的方法中相关部分的说明可以参见本申请实施例1提供的一种服务器能耗测试可视化的装置中对应部分的详细说明,在此不再赘述。
实施例3
基于本发明实施例1提出的一种供电模块故障恢复后更正状态的装置,本发明实施例3还提出了一种服务器,该服务器包括一种供电模块故障恢复后更正状态的装置。如图2为本发明实施例1提出的一种供电模块故障恢复后更正状态的装置连接示意图;该装置包括供电模块、基板管理控制器和可编程逻辑芯片;基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;供电模块和可编程逻辑芯片之间通信连接。
基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
本发明中,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发Alert及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的MCU会控制产生相应逻辑将Alert信号恢复,不需要额外干预。
当使用集中供电电源模组时,当电源发生异常断电并自动恢复正常后,Alert仍在置位不能自动恢复,因此需要对该种情况加以处理。
所以在本发明中基板管理控制器的GPIO管脚与供电模块的对外通信接口建立连接,用于获取类型监测信号,即Detect信号,通过Detect信号判断供电模块的类型;如果类型监测信号为低电平,则判断供电模块为集中供电模块。
其中在供电模块管脚选用时,供电模块端连接到空闲引脚上,必须是PSU未使用的空闲引脚。PSU不使用该功能,仅供集中供电模组使用。另外,需要将在主板端连接至可编程逻辑芯片的Alert信号同步连接至基板管理控制器。
首先,Detect信号检测对供电单元类型进行检测,判断是PSU还是集中供电模组。该信号在主板上设置上拉电平,在PSU上悬空,在集中供电模块上连接至地。如图2所示,基板管理控制器检测该信号的电平状态,若是高电平则识别为PSU,若是低电平则识别成集中供电模块。
当供电单元识别为PSU时,若供电模块出现故障,引发Alert,基板管理控制器不会进行额外干涉,按照正常电源故障Alert触发系统降频策略处理。当故障恢复后,如前文所述,由于PSU内部存在微处理模块,会自动对Alert信号状态进行恢复,不需要主板对其进行额外操作。
当供电单元识别为集中供电模块时,基板管理控制器需通过电压监控sensor信号对集中供电模组上的VR输出电压进行监控。并持续监控集中供电模组发出的Alert信号状态。当集中供电模组发生故障异常断电或电压过低时,触发Alert信号拉低,系统执行正常降频策略。
当集中供电模组从异常断电中恢复时,由于Alert信号仍然拉低,因此需要执行新的电源策略。根据基板管理控制器sensor对VR输出电压状态的监控,当集中供电模组从异常中恢复,电压输出正常,此时基板管理控制器感知到VR电源状态为正常,而Alert信号为异常状态。因此可以自动识别出当前发生了Alert状态锁死现象。
VR故障恢复后,可发送命令清除status状态寄存器;但如果故障尚未恢复,此时发送清除故障状态命令并不能清除status状态寄存器。因此基板管理控制器需要自动从PMBUS总线轮询访问VR芯片中的电源电压、电流等寄存器,在确认读值为正常值后,通过PMBUS发送清除故障状态命令,清除STATUS寄存器的故障状态,从而使Alert信号恢复正常。同时,由于基板管理控制器可以获取到Alert信号的电平状态,进而可以再次确认VR芯片是否对Alert状态进行了解除。在Alert信号恢复高电平后,系统对降频状态进行解除。
本发明实施例3提出的服务器,解决了供电模块在发生电源异常又恢复后,告警信号无法自动恢复正常而触发CPU降频造成服务器性能大规模下降的问题,提升了服务器的运维效率,增强了服务器的业务连续性。
本发明实施例3提出的服务器,对服务器的不同供电方式加以区分。服务器使用标准PSU供电时,当电源产生故障时,触发告警信号及降频操作,等待运维人员将异常电源维修完毕后恢复;PSU内部的微控制单元会控制产生相应逻辑将告警信号恢复,不需要额外干预。
本申请实施例3提供的服务器中相关部分的说明可以参见本申请实施例1提供的一种服务器能耗测试可视化的装置中对应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种供电模块故障恢复后更正状态的装置,其特征在于,包括:供电模块、基板管理控制器和可编程逻辑芯片;所述基板管理控制器分别与供电模块和可编程逻辑芯片通信连接;所述供电模块和可编程逻辑芯片之间通信连接;
所述基板管理控制器在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;所述可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
2.根据权利要求1所述的一种供电模块故障恢复后更正状态的装置,其特征在于,所述供电模块发生故障后,向可编程逻辑芯片发送告警信号,CPU执行系统降频。
3.根据权利要求2所述的一种供电模块故障恢复后更正状态的装置,其特征在于,所述可编程逻辑芯片在接收到告警信号之后,将所述告警信号同步至基板管理控制器。
4.根据权利要求1所述的一种供电模块故障恢复后更正状态的装置,其特征在于,基板管理控制器判断供电模块类型的方法为:
所述基板管理控制器的GPIO管脚与供电模块的对外通信接口建立连接,用于获取类型监测信号,通过所述类型监测信号判断供电模块的类型;如果类型监测信号为低电平,则判断供电模块为集中供电模块。
5.根据权利要求4所述的一种供电模块故障恢复后更正状态的装置,其特征在于,所述基板管理控制器的电压监控管脚与供电模块输出端建立通信连接,用于获取电压监控信号,通过所述电压监控信号判断供电模块是否正常输出电压。
6.根据权利要求1所述的一种供电模块故障恢复后更正状态的装置,其特征在于,所述基板管理控制器还用于在供电模块发生故障后,通过电源管理总线轮询供电模块的寄存器,在确认读取到供电模块的正常输出值时,判定供电模块发生故障后已恢复正常。
7.根据权利要求1所述的一种供电模块故障恢复后更正状态的装置,其特征在于,所述基板管理控制器在清除状态寄存器内的故障状态之后,还包括获取告警信号的状态,判断告警信号的状态是否恢复正常,如果恢复正常,解除系统降频。
8.一种供电模块故障恢复后更正状态的方法,是基于权利要求1至7任意一项所述的一种供电模块故障恢复后更正状态的装置实现的,其特征在于,包括以下步骤:
通过基板管理控制器监测供电模块的类型,在监测到供电模块的类型为集中供电模块,且供电模块发生故障后已恢复正常,但是告警信号依然锁死时,通过电源管理总线发送清除故障状态命令,清除状态寄存器内的故障状态;
可编程逻辑芯片在接收到故障状态清除的指令后,解除系统降频。
9.根据权利要求8所述的一种供电模块故障恢复后更正状态的方法,其特征在于,所述方法还包括:
建立基板管理控制器的GPIO管脚与供电模块的对外通信接口的连接,用于获取类型监测信号,通过所述类型监测信号判断供电模块的类型;
以及建立基板管理控制器的电压监控管脚与供电模块输出端的通信连接,获取电压监控信号,通过所述电压监控信号判断供电模块是否正常输出电压。
10.一种服务器,其特征在于,包括权利要求1至7任意一项所述的一种供电模块故障恢复后更正状态的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483077.8A CN116540856A (zh) | 2023-04-28 | 2023-04-28 | 一种供电模块故障恢复后更正状态的装置、方法和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483077.8A CN116540856A (zh) | 2023-04-28 | 2023-04-28 | 一种供电模块故障恢复后更正状态的装置、方法和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116540856A true CN116540856A (zh) | 2023-08-04 |
Family
ID=87455440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310483077.8A Pending CN116540856A (zh) | 2023-04-28 | 2023-04-28 | 一种供电模块故障恢复后更正状态的装置、方法和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116540856A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117666742A (zh) * | 2024-01-30 | 2024-03-08 | 苏州元脑智能科技有限公司 | 一种服务器管理引擎恢复电路 |
-
2023
- 2023-04-28 CN CN202310483077.8A patent/CN116540856A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117666742A (zh) * | 2024-01-30 | 2024-03-08 | 苏州元脑智能科技有限公司 | 一种服务器管理引擎恢复电路 |
CN117666742B (zh) * | 2024-01-30 | 2024-04-05 | 苏州元脑智能科技有限公司 | 一种服务器管理引擎恢复电路 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2457303B1 (en) | Direct tie-in of a backup power source to motherboards in a server system | |
CN111831488B (zh) | 具有安全等级设计的tcms-mpu控制单元 | |
CN116540856A (zh) | 一种供电模块故障恢复后更正状态的装置、方法和服务器 | |
CN100378617C (zh) | 网络唤醒装置与方法 | |
CN111538624A (zh) | 一种服务器电源的维修方法、装置、设备及介质 | |
CN111078445A (zh) | 一种psu掉电原因检测方法及装置 | |
CN108733191A (zh) | 通信设备掉电告警的检测系统及方法 | |
JP2000250664A (ja) | 電源装置、電源制御装置および電源システムのスケジュール運転監視制御方法 | |
CN116126772A (zh) | 一种应用于arm服务器的uart串口管理系统及方法 | |
CN111984471B (zh) | 一种机柜电源bmc冗余管理系统及方法 | |
CN111488050B (zh) | 一种电源监控方法、系统及服务器 | |
CN109917895B (zh) | 一种电压调节模块vrm的控制装置及控制方法 | |
CN104349001A (zh) | 信息处理装置及其控制方法 | |
CN114442787B (zh) | 服务器进入功耗封顶后实现整机功耗回调的方法、系统 | |
CN116823587A (zh) | 一种图形处理器控制方法、装置、电子设备及存储介质 | |
CN113162015A (zh) | 一种主板电源异常定位保护方法及装置 | |
CN211148841U (zh) | 一种DC Cycle测试装置 | |
CN218100418U (zh) | 一种断电告警系统 | |
CN218122608U (zh) | 一种供电装置、服务器和供电装置的控制系统 | |
CN117666746B (zh) | 多节点服务器、应用于多节点服务器的方法、装置和介质 | |
CN115904050A (zh) | 一种防止服务器掉电关机的电源控制系统及方法 | |
JP2005018710A (ja) | 複数の電源入力部を持つ情報処理装置に対応した無停電電源装置及び情報処理システム | |
JPS61114323A (ja) | 情報処理装置の電源異常処理方法 | |
JPH0783539B2 (ja) | 電源制御方式 | |
CN113886307A (zh) | Bmc模块、服务器主板、bmc模块的热维护方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |