CN111966559A - 一种故障恢复方法、装置、电子设备和存储介质 - Google Patents
一种故障恢复方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111966559A CN111966559A CN202010673265.3A CN202010673265A CN111966559A CN 111966559 A CN111966559 A CN 111966559A CN 202010673265 A CN202010673265 A CN 202010673265A CN 111966559 A CN111966559 A CN 111966559A
- Authority
- CN
- China
- Prior art keywords
- bmc
- server
- power supply
- module
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000011084 recovery Methods 0.000 title claims abstract description 41
- 230000017525 heat dissipation Effects 0.000 claims abstract description 18
- 230000002093 peripheral effect Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/30—Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Hardware Redundancy (AREA)
Abstract
本申请实施例涉及一种故障恢复方法、装置、电子设备和存储介质,包括:获取BMC的状态信息;根据状态信息确定服务器发生故障;调整散热模块的功率,直到服务器的故障恢复。通过本申请实施例获取BMC的状态信息,确定服务器处于故障状态后,由于服务器处于故障状态时无法读到服务器器件的温度,为避免服务器温度过高,提升散热模块的功率即增加风扇的转速,确保服务器温度正常,从而使得服务器故障能在短时间内自动恢复。
Description
技术领域
本申请实施例涉及计算机服务器领域,尤其涉及一种故障恢复方法、装置、电子设备和存储介质。
背景技术
目前,在计算机服务器领域,BMC是基板管理控制器(Baseboard ManagerController)的简称,BMC是服务器非常重要的一个模块,实现对服务器的远程监控和管理。一旦BMC工作异常,对服务器影响极大。因此,当BMC发生故障,如何进行故障恢复BMC是重点需要解决的问题。
现有技术中,通常是人为的对各个模块的故障进行试错排除,这个过程中准确度不高,而且效率低。
发明内容
为了解决现有技术存在的至少一个问题,本申请实施例提供了一种故障恢复方法、装置、电子设备和存储介质。
第一方面,本申请实施例提供了一种故障恢复方法,应用于包括基板管理控制器BMC、散热模块的服务器中,所述方法包括:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
调整散热模块的功率,直到服务器的故障恢复。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述方法还包括:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常;
若主电源供电模块的供电正常,重启BMC,直到服务器的故障恢复。
在一些实施例中,上述方法中若所述主电源供电模块的供电正常,重启所述BMC后,还包括:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,上述方法还包括:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
在一些实施例中,上述方法中状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,上述方法中服务器故障恢复,包括:
获取到BMC的状态信息;
根据状态信息确定BMC的温度在预设范围内。
第二方面,本申请实施例提供了一种故障恢复装置,应用于包括基板管理控制器BMC、散热模块的服务器中,包括:
获取模块:用于获取BMC的状态信息;
确定模块:用于根据状态信息确定服务器发生故障;
调整模块:用于调整散热模块的功率,直到服务器的故障恢复。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述装置中的获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常;
若主电源供电模块的供电正常,重启所述BMC,直到服务器的故障恢复。
在一些实施例中,上述装置中若主电源供电模块的供电正常,重启BMC后,获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,上述装置中将所述服务器的供电方式由所述主电源供电模块切换为备用电源模块,重启BMC后,获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
在一些实施例中,上述装置中的状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,服务器故障恢复,包括:
获取到BMC的状态信息;
根据状态信息确定BMC的温度在预设范围内。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述故障恢复方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,非暂态计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述故障恢复方法的步骤。
本申请实施例的优点在于:通过获取BMC的状态信息,确定服务器处于故障状态后,由于服务器处于故障状态无法读到服务器器件的温度,为避免服务器温度过高,提升散热模块的功率即增加风扇的转速,确保服务器温度正常,从而使得服务器故障能在短时间内自动恢复。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种故障恢复方法示意图一;
图2是本申请实施例提供的一种故障恢复方法的框架图示意图一;
图3是本申请实施例提供的一种故障恢复方法示意图二;
图4是本申请实施例提供的一种故障恢复方法示意图三;
图5是本申请实施例提供的一种故障恢复方法示意图四;
图6是本申请实施例提供的一种故障恢复方法的框架图示意图二;
图7是本申请实施例提供的一种故障恢复装置的示意图;
图8是本申请实施例提供的一种电子设备的框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1是本申请实施例提供的一种故障恢复方法示意图一;
图2是本申请实施例提供的一种故障恢复方法的框架图示意图一;
第一方面,本申请实施例提供了一种故障恢复方法,应用于包括基板管理控制器BMC、散热模块的服务器中,结合图1和图2,所述方法包括如下三个步骤101、102和103:
101:获取BMC的状态信息。
具体的,本申请实施例中,当BMC正常初始化完成后,会通过BMC的一个通用型之输入输出接口GPIO(GPIOA)发出一个低电平信号,逻辑可编程智能模块BMC已经初始化完成,逻辑可编程智能模块会向BMC的通用型之输入输出接口GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取BMC的状态信息。
102:根据状态信息确定服务器发生故障。
具体的,本申请实施例中,根据状态信息确定服务器发生故障包括:无法获取BMC的状态信息;和/或根据状态信息确定BMC的温度不在预设范围内。
具体的,BMC接收到请求信号后,通过通用型之输入输出接口GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,通过BMC温度传感器读取BMC温度;当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,确定BMC处于正常工作状态,当逻辑可编程智能模块接收不到BMC的同意信号,或读取到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
103:调整散热模块的功率,直到服务器的故障恢复。
具体的,本申请实施例中,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,即服务器发生故障后,散热模块具体是指风扇模块,逻辑可编程智能模块接管风扇模块,并将风扇模块的转速提高至全转,维持服务器基本工作,直到BMC恢复正常,即服务器的故障恢复,具体是逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内。
图3是本申请实施例提供的一种故障恢复方法示意图二。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,结合图2和图3,上述方法还包括如下四个步骤301、302、303和304:
301:获取BMC的状态信息。
具体的,本申请实施例中,逻辑可编程智能模块将系统风扇转速提高至全转后,逻辑可编程智能模块会向BMC的GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取状态信息。
302:根据状态信息确定服务器发生故障。
具体的,本申请实施例中,BMC接收到请求信号后,通过GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,会通过BMC温度传感器读到BMC温度;当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
303:获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常。
具体的,本申请实施例中,逻辑可编程智能模块检测BMC主电源供电模块的供电电平是否正常,可以是逻辑可编程智能模块通过I2C总线连接到一个ADC即模数转换器芯片,逻辑可编程智能模块可以准确读取主电源供电模块的供电电压,并与预设值进行对比,当读取的供电电压在预设范围内,确定主电源供电模块的供电正常,当读取的供电电压不在预设范围内,确定主电源供电模块的供电不正常。
304:若主电源供电模块的供电正常,重启BMC,直到服务器的故障恢复。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
图4是本申请实施例提供的一种故障恢复方法示意图三。
在一些实施例中,上述方法中若所述主电源供电模块的供电正常,重启所述BMC后,结合图4,还包括:
401:获取BMC的状态信息。
402:根据状态信息确定服务器故障。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
403:将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的供电方式由主电源供电模块切换为备用电源模块后,并确定供电电平正常后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,结合图5,上述方法还包括:
501:获取BMC的状态信息。
502:根据状态信息确定服务器故障。
具体的,本申请实施例中,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
503:将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的外设接口由主SPI模块切换为备用SPI模块后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,服务器的故障恢复。
图6是本申请实施例提供的一种故障恢复方法的框架图示意图二。
本申请实施例中,结合图6,通过编程将BMC的风扇模块信号,独立存储模块信号,SPI模块信号,与系统风扇模块、独立存储模块和SPI模块连接,逻辑可编程智能模块起到的是开关切换作用,一种是将相关模块如系统风扇模块,独立存储模块和SPI模块切换连接到BMC,另外一种方式是断开与BMC的连接,改为由逻辑可编程智能模块自己控制,从而能够自动发现BMC故障,以及快速智能恢复的方法,并确保在BMC恢复前,服务器能维持正常工作,由于采用了独立存储模块,同时也确保了BMC在自动恢复后保存的数据不会丢失。
图7是本申请实施例提供的一种故障恢复装置的示意图。
第二方面,本申请实施例提供了一种故障恢复装置,应用于包括基板管理控制器BMC、散热模块的服务器中,结合图7,包括:
获取模块701:用于获取BMC的状态信息。
具体的,本申请实施例中,当BMC正常初始化完成后,会通过BMC的一个通用型之输入输出接口GPIO(GPIOA)发出一个低电平信号,逻辑可编程智能模块BMC已经初始化完成,逻辑可编程智能模块会向BMC的通用型之输入输出接口GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,获取模块开始获取BMC的状态信息。
确定模块702:用于根据状态信息确定服务器发生故障。
具体的,本申请实施例中,根据状态信息确定服务器发生故障包括:无法获取BMC的状态信息;和/或根据状态信息确定BMC的温度不在预设范围内。
具体的,BMC接收到请求信号后,通过通用型之输入输出接口GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,通过BMC温度传感器读取BMC温度;当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,确定BMC处于正常工作状态,当逻辑可编程智能模块接收不到BMC的同意信号,或读取到BMC温度过高,确定模块确定BMC处于不正常工作状态,即服务器发生故障。
调整模块703:用于调整散热模块的功率,直到服务器的故障恢复。
具体的,本申请实施例中,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,即服务器发生故障后,散热模块具体是指风扇模块,逻辑可编程智能模块接管风扇模块,并将风扇模块的转速调整至全转,维持服务器基本工作,直到BMC恢复正常,即服务器的故障恢复,具体是逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述装置中的获取模块还用于:
获取BMC的状态信息。
具体的,本申请实施例中,逻辑可编程智能模块将系统风扇转速提高至全转后,逻辑可编程智能模块会向BMC的GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取状态信息。
根据状态信息确定服务器发生故障。
具体的,本申请实施例中,BMC接收到请求信号后,通过GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,会通过BMC温度传感器读到BMC温度;当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常。
具体的,本申请实施例中,逻辑可编程智能模块检测BMC主电源供电模块的供电电平是否正常,可以是逻辑可编程智能模块通过I2C总线连接到一个ADC即模数转换器芯片,逻辑可编程智能模块可以准确读取主电源供电模块的供电电压,并与预设值进行对比,当读取的供电电压在预设范围内,确定主电源供电模块的供电正常,当读取的供电电压不在预设范围内,确定主电源供电模块的供电不正常。
若主电源供电模块的供电正常,重启所述BMC,直到服务器的故障恢复。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,上述装置中若主电源供电模块的供电正常,重启BMC后,获取模块还用于:
获取BMC的状态信息。
根据状态信息确定服务器故障。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的供电方式由主电源供电模块切换为备用电源模块后,并确定供电电平正常后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,上述装置中将所述服务器的供电方式由所述主电源供电模块切换为备用电源模块,重启BMC后,获取模块还用于:
获取BMC的状态信息。
根据状态信息确定服务器故障。
具体的,本申请实施例中,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的外设接口由主SPI模块切换为备用SPI模块后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,上述装置中的状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,服务器故障恢复,包括:
获取到BMC的状态信息。
根据状态信息确定BMC的温度在预设范围内。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述故障恢复方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,非暂态计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述故障恢复方法的步骤。
图8是本公开实施例提供的一种电子设备的结构示意图。如图8所示,电子设备包括:至少一个处理器801、至少一个存储器802和至少一个通信接口803。电子设备中的各个组件通过总线系统804耦合在一起。通信接口803,用于与外部设备之间的信息传输。可理解,总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图8中将各种总线都标为总线系统804。
可以理解,本实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器802存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的故障恢复方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器801通过调用存储器802存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器801用于执行本申请实施例提供的故障恢复方法各实施例的步骤。
本申请实施例提供的故障恢复方法中任一方法可以应用于处理器801中,或者由处理器801实现。处理器801可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的故障恢复方法任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (14)
1.一种故障恢复方法,其特征在于,应用于包括基板管理控制器BMC、散热模块的服务器中,所述方法包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;
调整所述散热模块的功率,直到所述服务器的故障恢复。
2.根据权利要求1所述的故障恢复方法,其特征在于,所述服务器还包括:主电源供电模块、备用电源模块,所述调整散热模块的功率后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;
获取所述主电源供电模块的供电电平,并根据所述供电电平确定所述主电源供电模块的供电是否正常;
若所述主电源供电模块的供电正常,重启所述BMC,直到所述服务器的故障恢复。
3.根据权利要求2所述的故障恢复方法,其特征在于,若所述主电源供电模块的供电正常,重启所述BMC后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC,直到所述服务器故障恢复。
4.根据权利要求3所述的故障恢复方法,其特征在于,所述服务器还包括主串行外设接口SPI模块、备用SPI模块,所述将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的外设接口由所述主SPI模块切换为所述备用SPI模块,重启所述BMC,直到所述服务器故障恢复。
5.根据权利要求1至4中任意一项所述的故障恢复方法,其特征在于,所述状态信息包括所述BMC的温度信息,以及根据所述状态信息确定所述服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据所述状态信息确定所述BMC的温度不在预设范围内。
6.根据权利要求1至4中任意一项所述的故障恢复方法,其特征在于,所述服务器故障恢复,包括:
获取到所述BMC的状态信息;
根据所述状态信息确定所述BMC的温度在预设范围内。
7.一种故障恢复装置,其特征在于,应用于包括基板管理控制器BMC、散热模块的服务器中,包括:
获取模块:用于获取所述BMC的状态信息;
确定模块:用于根据所述状态信息确定所述服务器发生故障;
调整模块:用于调整所述散热模块的功率,直到所述服务器的故障恢复。
8.根据权利要求7所述的故障恢复装置,其特征在于,所述服务器还包括:主电源供电模块、备用电源模块,所述调整散热模块的功率后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;
获取所述主电源供电模块的供电电平,并根据所述供电电平确定所述主电源供电模块的供电是否正常;
若所述主电源供电模块的供电正常,重启所述BMC,直到所述服务器的故障恢复。
9.根据权利要求8所述的故障恢复装置,其特征在于,若所述主电源供电模块的供电正常,重启所述BMC后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC,直到所述服务器故障恢复。
10.根据权利要求9所述的故障恢复装置,其特征在于,所述服务器还包括主串行外设接口SPI模块、备用SPI模块,所述将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的外设接口由所述主SPI模块切换为所述备用SPI模块,重启所述BMC,直到所述服务器故障恢复。
11.根据权利要求7至10中任意一项所述的故障恢复装置,其特征在于,所述状态信息包括所述BMC的温度信息,以及根据所述状态信息确定所述服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据所述状态信息确定所述BMC的温度不在预设范围内。
12.根据权利要求7至10中任意一项所述的故障恢复装置,其特征在于,所述服务器故障恢复,包括:
获取到所述BMC的状态信息;
根据所述状态信息确定所述BMC的温度在预设范围内。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述故障恢复方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述故障恢复方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010673265.3A CN111966559B (zh) | 2020-07-14 | 2020-07-14 | 一种故障恢复方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010673265.3A CN111966559B (zh) | 2020-07-14 | 2020-07-14 | 一种故障恢复方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966559A true CN111966559A (zh) | 2020-11-20 |
CN111966559B CN111966559B (zh) | 2023-12-15 |
Family
ID=73361666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010673265.3A Active CN111966559B (zh) | 2020-07-14 | 2020-07-14 | 一种故障恢复方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966559B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113419884A (zh) * | 2021-06-11 | 2021-09-21 | 苏州浪潮智能科技有限公司 | 防止bmc镜像文件损坏的方法、装置、终端及存储介质 |
CN113835770A (zh) * | 2021-11-30 | 2021-12-24 | 四川华鲲振宇智能科技有限责任公司 | 一种服务器管理模块在线更换方法及系统 |
CN114442786A (zh) * | 2022-01-21 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 一种电源故障告警及恢复方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100164421A1 (en) * | 2008-12-30 | 2010-07-01 | International Business Machines Corporation | Apparatus, system, and method for improved fan control in a power supply |
US9110805B1 (en) * | 2014-10-27 | 2015-08-18 | Quanta Computer Inc. | Preventing device power on after unrecoverable error |
CN108038019A (zh) * | 2017-12-25 | 2018-05-15 | 曙光信息产业(北京)有限公司 | 一种基板管理控制器的故障自动恢复方法及系统 |
CN109185208A (zh) * | 2018-08-15 | 2019-01-11 | 郑州云海信息技术有限公司 | 一种风扇调速方法及相关装置 |
CN109857614A (zh) * | 2018-12-28 | 2019-06-07 | 曙光信息产业(北京)有限公司 | 一种机架服务器的容灾装置和方法 |
CN110362175A (zh) * | 2019-06-29 | 2019-10-22 | 苏州浪潮智能科技有限公司 | 一种风扇控制方法及装置 |
CN110413435A (zh) * | 2019-07-12 | 2019-11-05 | 苏州浪潮智能科技有限公司 | 一种通信故障恢复方法、系统及相关组件 |
-
2020
- 2020-07-14 CN CN202010673265.3A patent/CN111966559B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100164421A1 (en) * | 2008-12-30 | 2010-07-01 | International Business Machines Corporation | Apparatus, system, and method for improved fan control in a power supply |
US9110805B1 (en) * | 2014-10-27 | 2015-08-18 | Quanta Computer Inc. | Preventing device power on after unrecoverable error |
CN108038019A (zh) * | 2017-12-25 | 2018-05-15 | 曙光信息产业(北京)有限公司 | 一种基板管理控制器的故障自动恢复方法及系统 |
CN109185208A (zh) * | 2018-08-15 | 2019-01-11 | 郑州云海信息技术有限公司 | 一种风扇调速方法及相关装置 |
CN109857614A (zh) * | 2018-12-28 | 2019-06-07 | 曙光信息产业(北京)有限公司 | 一种机架服务器的容灾装置和方法 |
CN110362175A (zh) * | 2019-06-29 | 2019-10-22 | 苏州浪潮智能科技有限公司 | 一种风扇控制方法及装置 |
CN110413435A (zh) * | 2019-07-12 | 2019-11-05 | 苏州浪潮智能科技有限公司 | 一种通信故障恢复方法、系统及相关组件 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113419884A (zh) * | 2021-06-11 | 2021-09-21 | 苏州浪潮智能科技有限公司 | 防止bmc镜像文件损坏的方法、装置、终端及存储介质 |
CN113835770A (zh) * | 2021-11-30 | 2021-12-24 | 四川华鲲振宇智能科技有限责任公司 | 一种服务器管理模块在线更换方法及系统 |
CN113835770B (zh) * | 2021-11-30 | 2022-02-18 | 四川华鲲振宇智能科技有限责任公司 | 一种服务器管理模块在线更换方法及系统 |
CN114442786A (zh) * | 2022-01-21 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 一种电源故障告警及恢复方法、装置及存储介质 |
CN114442786B (zh) * | 2022-01-21 | 2023-07-14 | 苏州浪潮智能科技有限公司 | 一种电源故障告警及恢复方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111966559B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966559A (zh) | 一种故障恢复方法、装置、电子设备和存储介质 | |
WO2022198972A1 (zh) | 一种服务器启动过程中的故障定位方法、系统及装置 | |
CN103136048B (zh) | 计算机系统 | |
US8909952B2 (en) | Power supply apparatus of computer system and method for controlling power sequence thereof | |
CN114116280B (zh) | 交互式bmc自恢复方法、系统、终端及存储介质 | |
US8321608B2 (en) | Pool I/O device operation confirmation method and computer system | |
CN113867807A (zh) | 一种缩短服务器上电时间的方法、装置、设备和存储介质 | |
CN112433580A (zh) | 风扇控制方法、装置、计算机设备及存储介质 | |
CN111158963A (zh) | 一种服务器固件冗余启动方法和服务器 | |
CN107179911B (zh) | 一种重启管理引擎的方法和设备 | |
CN217606356U (zh) | 一种切换控制电路、主板及电子设备 | |
CN113359967B (zh) | 一种设备启动方法和装置 | |
CN110795293B (zh) | 一种服务器软关机的测试方法、系统及装置 | |
CN115268785A (zh) | 一种应用于分布式存储系统的管理方法、装置及存储介质 | |
CN111338456B (zh) | 一种bbu掉电保护实现方法及系统 | |
JP3231561B2 (ja) | バックアップメモリ制御方式 | |
CN116737396B (zh) | 服务器可维护性配置方法、装置、电子设备和存储介质 | |
TWI715005B (zh) | 用於監控基板管理控制器之常駐程序的方法 | |
CN112380083B (zh) | 一种bmc主备切换稳定性测试方法和系统 | |
CN113868181B (zh) | 一种存储设备pcie链路协商方法、系统、设备及介质 | |
TWI757923B (zh) | 預啟動執行環境判斷系統及其方法 | |
TWI789627B (zh) | 儲存設備及其控制系統 | |
CN116737185A (zh) | 一种镜像加载方法、装置、设备及介质 | |
CN107832167B (zh) | 一种bmc故障导致无法开机的恢复方法及系统 | |
CN116906358A (zh) | 一种风扇停转修复的方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |