CN111966559B - 一种故障恢复方法、装置、电子设备和存储介质 - Google Patents

一种故障恢复方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111966559B
CN111966559B CN202010673265.3A CN202010673265A CN111966559B CN 111966559 B CN111966559 B CN 111966559B CN 202010673265 A CN202010673265 A CN 202010673265A CN 111966559 B CN111966559 B CN 111966559B
Authority
CN
China
Prior art keywords
bmc
module
server
power supply
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010673265.3A
Other languages
English (en)
Other versions
CN111966559A (zh
Inventor
范世新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Great Wall Technology Group Co ltd
Original Assignee
China Great Wall Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Great Wall Technology Group Co ltd filed Critical China Great Wall Technology Group Co ltd
Priority to CN202010673265.3A priority Critical patent/CN111966559B/zh
Publication of CN111966559A publication Critical patent/CN111966559A/zh
Application granted granted Critical
Publication of CN111966559B publication Critical patent/CN111966559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请实施例涉及一种故障恢复方法、装置、电子设备和存储介质,包括:获取BMC的状态信息;根据状态信息确定服务器发生故障;调整散热模块的功率,直到服务器的故障恢复。通过本申请实施例获取BMC的状态信息,确定服务器处于故障状态后,由于服务器处于故障状态时无法读到服务器器件的温度,为避免服务器温度过高,提升散热模块的功率即增加风扇的转速,确保服务器温度正常,从而使得服务器故障能在短时间内自动恢复。

Description

一种故障恢复方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及计算机服务器领域,尤其涉及一种故障恢复方法、装置、电子设备和存储介质。
背景技术
目前,在计算机服务器领域,BMC是基板管理控制器(Baseboard ManagerController)的简称,BMC是服务器非常重要的一个模块,实现对服务器的远程监控和管理。一旦BMC工作异常,对服务器影响极大。因此,当BMC发生故障,如何进行故障恢复BMC是重点需要解决的问题。
现有技术中,通常是人为的对各个模块的故障进行试错排除,这个过程中准确度不高,而且效率低。
发明内容
为了解决现有技术存在的至少一个问题,本申请实施例提供了一种故障恢复方法、装置、电子设备和存储介质。
第一方面,本申请实施例提供了一种故障恢复方法,应用于包括基板管理控制器BMC、散热模块的服务器中,所述方法包括:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
调整散热模块的功率,直到服务器的故障恢复。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述方法还包括:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常;
若主电源供电模块的供电正常,重启BMC,直到服务器的故障恢复。
在一些实施例中,上述方法中若所述主电源供电模块的供电正常,重启所述BMC后,还包括:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,上述方法还包括:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
在一些实施例中,上述方法中状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,上述方法中服务器故障恢复,包括:
获取到BMC的状态信息;
根据状态信息确定BMC的温度在预设范围内。
第二方面,本申请实施例提供了一种故障恢复装置,应用于包括基板管理控制器BMC、散热模块的服务器中,包括:
获取模块:用于获取BMC的状态信息;
确定模块:用于根据状态信息确定服务器发生故障;
调整模块:用于调整散热模块的功率,直到服务器的故障恢复。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述装置中的获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器发生故障;
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常;
若主电源供电模块的供电正常,重启所述BMC,直到服务器的故障恢复。
在一些实施例中,上述装置中若主电源供电模块的供电正常,重启BMC后,获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,上述装置中将所述服务器的供电方式由所述主电源供电模块切换为备用电源模块,重启BMC后,获取模块还用于:
获取BMC的状态信息;
根据状态信息确定服务器故障;
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
在一些实施例中,上述装置中的状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,服务器故障恢复,包括:
获取到BMC的状态信息;
根据状态信息确定BMC的温度在预设范围内。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述故障恢复方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,非暂态计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述故障恢复方法的步骤。
本申请实施例的优点在于:通过获取BMC的状态信息,确定服务器处于故障状态后,由于服务器处于故障状态无法读到服务器器件的温度,为避免服务器温度过高,提升散热模块的功率即增加风扇的转速,确保服务器温度正常,从而使得服务器故障能在短时间内自动恢复。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种故障恢复方法示意图一;
图2是本申请实施例提供的一种故障恢复方法的框架图示意图一;
图3是本申请实施例提供的一种故障恢复方法示意图二;
图4是本申请实施例提供的一种故障恢复方法示意图三;
图5是本申请实施例提供的一种故障恢复方法示意图四;
图6是本申请实施例提供的一种故障恢复方法的框架图示意图二;
图7是本申请实施例提供的一种故障恢复装置的示意图;
图8是本申请实施例提供的一种电子设备的框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1是本申请实施例提供的一种故障恢复方法示意图一;
图2是本申请实施例提供的一种故障恢复方法的框架图示意图一;
第一方面,本申请实施例提供了一种故障恢复方法,应用于包括基板管理控制器BMC、散热模块的服务器中,结合图1和图2,所述方法包括如下三个步骤101、102和103:
101:获取BMC的状态信息。
具体的,本申请实施例中,当BMC正常初始化完成后,会通过BMC的一个通用型之输入输出接口GPIO(GPIOA)发出一个低电平信号,逻辑可编程智能模块BMC已经初始化完成,逻辑可编程智能模块会向BMC的通用型之输入输出接口GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取BMC的状态信息。
102:根据状态信息确定服务器发生故障。
具体的,本申请实施例中,根据状态信息确定服务器发生故障包括:无法获取BMC的状态信息;和/或根据状态信息确定BMC的温度不在预设范围内。
具体的,BMC接收到请求信号后,通过通用型之输入输出接口GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,通过BMC温度传感器读取BMC温度;当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,确定BMC处于正常工作状态,当逻辑可编程智能模块接收不到BMC的同意信号,或读取到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
103:调整散热模块的功率,直到服务器的故障恢复。
具体的,本申请实施例中,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,即服务器发生故障后,散热模块具体是指风扇模块,逻辑可编程智能模块接管风扇模块,并将风扇模块的转速提高至全转,维持服务器基本工作,直到BMC恢复正常,即服务器的故障恢复,具体是逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内。
图3是本申请实施例提供的一种故障恢复方法示意图二。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,结合图2和图3,上述方法还包括如下四个步骤301、302、303和304:
301:获取BMC的状态信息。
具体的,本申请实施例中,逻辑可编程智能模块将系统风扇转速提高至全转后,逻辑可编程智能模块会向BMC的GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取状态信息。
302:根据状态信息确定服务器发生故障。
具体的,本申请实施例中,BMC接收到请求信号后,通过GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,会通过BMC温度传感器读到BMC温度;当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
303:获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常。
具体的,本申请实施例中,逻辑可编程智能模块检测BMC主电源供电模块的供电电平是否正常,可以是逻辑可编程智能模块通过I2C总线连接到一个ADC即模数转换器芯片,逻辑可编程智能模块可以准确读取主电源供电模块的供电电压,并与预设值进行对比,当读取的供电电压在预设范围内,确定主电源供电模块的供电正常,当读取的供电电压不在预设范围内,确定主电源供电模块的供电不正常。
304:若主电源供电模块的供电正常,重启BMC,直到服务器的故障恢复。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
图4是本申请实施例提供的一种故障恢复方法示意图三。
在一些实施例中,上述方法中若所述主电源供电模块的供电正常,重启所述BMC后,结合图4,还包括:
401:获取BMC的状态信息。
402:根据状态信息确定服务器故障。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
403:将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的供电方式由主电源供电模块切换为备用电源模块后,并确定供电电平正常后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,结合图5,上述方法还包括:
501:获取BMC的状态信息。
502:根据状态信息确定服务器故障。
具体的,本申请实施例中,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
503:将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的外设接口由主SPI模块切换为备用SPI模块后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,服务器的故障恢复。
图6是本申请实施例提供的一种故障恢复方法的框架图示意图二。
本申请实施例中,结合图6,通过编程将BMC的风扇模块信号,独立存储模块信号,SPI模块信号,与系统风扇模块、独立存储模块和SPI模块连接,逻辑可编程智能模块起到的是开关切换作用,一种是将相关模块如系统风扇模块,独立存储模块和SPI模块切换连接到BMC,另外一种方式是断开与BMC的连接,改为由逻辑可编程智能模块自己控制,从而能够自动发现BMC故障,以及快速智能恢复的方法,并确保在BMC恢复前,服务器能维持正常工作,由于采用了独立存储模块,同时也确保了BMC在自动恢复后保存的数据不会丢失。
图7是本申请实施例提供的一种故障恢复装置的示意图。
第二方面,本申请实施例提供了一种故障恢复装置,应用于包括基板管理控制器BMC、散热模块的服务器中,结合图7,包括:
获取模块701:用于获取BMC的状态信息。
具体的,本申请实施例中,当BMC正常初始化完成后,会通过BMC的一个通用型之输入输出接口GPIO(GPIOA)发出一个低电平信号,逻辑可编程智能模块BMC已经初始化完成,逻辑可编程智能模块会向BMC的通用型之输入输出接口GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,获取模块开始获取BMC的状态信息。
确定模块702:用于根据状态信息确定服务器发生故障。
具体的,本申请实施例中,根据状态信息确定服务器发生故障包括:无法获取BMC的状态信息;和/或根据状态信息确定BMC的温度不在预设范围内。
具体的,BMC接收到请求信号后,通过通用型之输入输出接口GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,通过BMC温度传感器读取BMC温度;当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,确定BMC处于正常工作状态,当逻辑可编程智能模块接收不到BMC的同意信号,或读取到BMC温度过高,确定模块确定BMC处于不正常工作状态,即服务器发生故障。
调整模块703:用于调整散热模块的功率,直到服务器的故障恢复。
具体的,本申请实施例中,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,即服务器发生故障后,散热模块具体是指风扇模块,逻辑可编程智能模块接管风扇模块,并将风扇模块的转速调整至全转,维持服务器基本工作,直到BMC恢复正常,即服务器的故障恢复,具体是逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内。
在一些实施例中,上述服务器还包括:主电源供电模块、备用电源模块,调整散热模块的功率后,上述装置中的获取模块还用于:
获取BMC的状态信息。
具体的,本申请实施例中,逻辑可编程智能模块将系统风扇转速提高至全转后,逻辑可编程智能模块会向BMC的GPIO(GPIOB)发送一个读取BMC温度的请求信号,BMC接收到请求信号后,开始获取状态信息。
根据状态信息确定服务器发生故障。
具体的,本申请实施例中,BMC接收到请求信号后,通过GPIO(GPIOC)发出同意信号,逻辑可编程智能模块接收到同意信号后,会通过BMC温度传感器读到BMC温度;当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
获取主电源供电模块的供电电平,并根据供电电平确定主电源供电模块的供电是否正常。
具体的,本申请实施例中,逻辑可编程智能模块检测BMC主电源供电模块的供电电平是否正常,可以是逻辑可编程智能模块通过I2C总线连接到一个ADC即模数转换器芯片,逻辑可编程智能模块可以准确读取主电源供电模块的供电电压,并与预设值进行对比,当读取的供电电压在预设范围内,确定主电源供电模块的供电正常,当读取的供电电压不在预设范围内,确定主电源供电模块的供电不正常。
若主电源供电模块的供电正常,重启所述BMC,直到服务器的故障恢复。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,上述装置中若主电源供电模块的供电正常,重启BMC后,获取模块还用于:
获取BMC的状态信息。
根据状态信息确定服务器故障。
具体的,本申请实施例中,确定主电源供电模块的供电正常,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
将服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的供电方式由主电源供电模块切换为备用电源模块后,并确定供电电平正常后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读取到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,服务器还包括主串行外设接口SPI模块、备用SPI模块,上述装置中将所述服务器的供电方式由所述主电源供电模块切换为备用电源模块,重启BMC后,获取模块还用于:
获取BMC的状态信息。
根据状态信息确定服务器故障。
具体的,本申请实施例中,将所述服务器的供电方式由主电源供电模块切换为备用电源模块,重启BMC后,当逻辑可编程智能模块接收不到BMC的同意信号,或读到BMC温度过高,确定BMC处于不正常工作状态,即服务器发生故障。
将服务器的外设接口由主SPI模块切换为备用SPI模块,重启BMC,直到服务器故障恢复。
具体的,本申请实施例中,逻辑可编程智能模块将服务器的外设接口由主SPI模块切换为备用SPI模块后,重启BMC,当逻辑可编程智能模块可以接收到BMC的同意信号,且读到BMC的温度在正常值范围内,服务器的故障恢复。
在一些实施例中,上述装置中的状态信息包括BMC的温度信息,以及根据状态信息确定服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据状态信息确定BMC的温度不在预设范围内。
在一些实施例中,服务器故障恢复,包括:
获取到BMC的状态信息。
根据状态信息确定BMC的温度在预设范围内。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述故障恢复方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,非暂态计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述故障恢复方法的步骤。
图8是本公开实施例提供的一种电子设备的结构示意图。如图8所示,电子设备包括:至少一个处理器801、至少一个存储器802和至少一个通信接口803。电子设备中的各个组件通过总线系统804耦合在一起。通信接口803,用于与外部设备之间的信息传输。可理解,总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图8中将各种总线都标为总线系统804。
可以理解,本实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器802存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的故障恢复方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器801通过调用存储器802存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器801用于执行本申请实施例提供的故障恢复方法各实施例的步骤。
本申请实施例提供的故障恢复方法中任一方法可以应用于处理器801中,或者由处理器801实现。处理器801可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的故障恢复方法任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (12)

1.一种故障恢复方法,其特征在于,应用于包括基板管理控制器BMC、散热模块或主电源供电模块的服务器中,所述方法包括:
基于逻辑可编程智能模块向所述BMC发送请求信号,在所述逻辑可编程智能模块接收到所述BMC的同意信号的情况下,获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;其中,在所述逻辑可编程智能模块接收不到所述BMC的同意信号的情况下,确定所述服务器发生故障;或者,在所述逻辑可编程智能模块读取到所述BMC温度不在预设范围内的情况下,确定所述服务器发生故障;调整所述散热模块的功率,直到所述服务器的故障恢复;其中,通过所述逻辑可编程智能模块调整所述散热模块的功率;
调整散热模块的功率后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;
获取所述主电源供电模块的供电电平,并根据所述供电电平确定所述主电源供电模块的供电是否正常;
若所述主电源供电模块的供电正常,重启所述BMC,直到所述服务器的故障恢复。
2.根据权利要求1所述的故障恢复方法,其特征在于,所述服务器还包括备用电源模块,若所述主电源供电模块的供电正常,重启所述BMC后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC,直到所述服务器故障恢复。
3.根据权利要求2所述的故障恢复方法,其特征在于,所述服务器还包括主串行外设接口SPI模块、备用SPI模块,所述将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC后,所述方法还包括:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的外设接口由所述主串行外设接口SPI模块切换为所述备用SPI模块,重启所述BMC,直到所述服务器故障恢复。
4.根据权利要求1至3中任意一项所述的故障恢复方法,其特征在于,所述状态信息包括所述BMC的温度信息,以及根据所述状态信息确定所述服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据所述状态信息确定所述BMC的温度不在预设范围内。
5.根据权利要求1至3中任意一项所述的故障恢复方法,其特征在于,所述服务器故障恢复,包括:
获取到所述BMC的状态信息;
根据所述状态信息确定所述BMC的温度在预设范围内。
6.一种故障恢复装置,其特征在于,应用于包括基板管理控制器BMC、散热模块或主电源供电模块的服务器中,包括:
获取模块:用于基于逻辑可编程智能模块向所述BMC发送请求信号,在所述逻辑可编程智能模块接收到所述BMC的同意信号的情况下,获取所述BMC的状态信息;
确定模块:用于根据所述状态信息确定所述服务器发生故障;其中,在所述逻辑可编程智能模块接收不到所述BMC的同意信号的情况下,确定所述服务器发生故障;或者,在所述逻辑可编程智能模块读取到所述BMC温度不在预设范围内的情况下,确定所述服务器发生故障;调整模块:用于调整所述散热模块的功率,直到所述服务器的故障恢复;其中,通过所述逻辑可编程智能模块调整所述散热模块的功率;
所述调整所述散热模块的功率后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器发生故障;
获取所述主电源供电模块的供电电平,并根据所述供电电平确定所述主电源供电模块的供电是否正常;
若所述主电源供电模块的供电正常,重启所述BMC,直到所述服务器的故障恢复。
7.根据权利要求6所述的故障恢复装置,其特征在于,所述服务器还包括备用电源模块,若所述主电源供电模块的供电正常,重启所述BMC后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC,直到所述服务器故障恢复。
8.根据权利要求7所述的故障恢复装置,其特征在于,所述服务器还包括主串行外设接口SPI模块、备用SPI模块,所述将所述服务器的供电方式由所述主电源供电模块切换为所述备用电源模块,重启所述BMC后,所述获取模块还用于:
获取所述BMC的状态信息;
根据所述状态信息确定所述服务器故障;
将所述服务器的外设接口由所述主串行外设接口SPI模块切换为所述备用SPI模块,重启所述BMC,直到所述服务器故障恢复。
9.根据权利要求6至8中任意一项所述的故障恢复装置,其特征在于,所述状态信息包括所述BMC的温度信息,以及根据所述状态信息确定所述服务器故障,包括:
无法获取所述BMC的状态信息;和/或
根据所述状态信息确定所述BMC的温度不在预设范围内。
10.根据权利要求6至8中任意一项所述的故障恢复装置,其特征在于,所述服务器故障恢复,包括:
获取到所述BMC的状态信息;
根据所述状态信息确定所述BMC的温度在预设范围内。
11.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至5任一项所述故障恢复方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至5任一项所述故障恢复方法的步骤。
CN202010673265.3A 2020-07-14 2020-07-14 一种故障恢复方法、装置、电子设备和存储介质 Active CN111966559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010673265.3A CN111966559B (zh) 2020-07-14 2020-07-14 一种故障恢复方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010673265.3A CN111966559B (zh) 2020-07-14 2020-07-14 一种故障恢复方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111966559A CN111966559A (zh) 2020-11-20
CN111966559B true CN111966559B (zh) 2023-12-15

Family

ID=73361666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010673265.3A Active CN111966559B (zh) 2020-07-14 2020-07-14 一种故障恢复方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111966559B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113419884B (zh) * 2021-06-11 2023-05-02 苏州浪潮智能科技有限公司 防止bmc镜像文件损坏的方法、装置、终端及存储介质
CN113835770B (zh) * 2021-11-30 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统
CN114442786B (zh) * 2022-01-21 2023-07-14 苏州浪潮智能科技有限公司 一种电源故障告警及恢复方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110805B1 (en) * 2014-10-27 2015-08-18 Quanta Computer Inc. Preventing device power on after unrecoverable error
CN108038019A (zh) * 2017-12-25 2018-05-15 曙光信息产业(北京)有限公司 一种基板管理控制器的故障自动恢复方法及系统
CN109185208A (zh) * 2018-08-15 2019-01-11 郑州云海信息技术有限公司 一种风扇调速方法及相关装置
CN109857614A (zh) * 2018-12-28 2019-06-07 曙光信息产业(北京)有限公司 一种机架服务器的容灾装置和方法
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN110413435A (zh) * 2019-07-12 2019-11-05 苏州浪潮智能科技有限公司 一种通信故障恢复方法、系统及相关组件

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8159160B2 (en) * 2008-12-30 2012-04-17 International Business Machines Corporation Apparatus, system, and method for improved fan control in a power supply

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110805B1 (en) * 2014-10-27 2015-08-18 Quanta Computer Inc. Preventing device power on after unrecoverable error
CN108038019A (zh) * 2017-12-25 2018-05-15 曙光信息产业(北京)有限公司 一种基板管理控制器的故障自动恢复方法及系统
CN109185208A (zh) * 2018-08-15 2019-01-11 郑州云海信息技术有限公司 一种风扇调速方法及相关装置
CN109857614A (zh) * 2018-12-28 2019-06-07 曙光信息产业(北京)有限公司 一种机架服务器的容灾装置和方法
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN110413435A (zh) * 2019-07-12 2019-11-05 苏州浪潮智能科技有限公司 一种通信故障恢复方法、系统及相关组件

Also Published As

Publication number Publication date
CN111966559A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111966559B (zh) 一种故障恢复方法、装置、电子设备和存储介质
WO2022198972A1 (zh) 一种服务器启动过程中的故障定位方法、系统及装置
TWI436546B (zh) 更新電力供應微控制器之系統及方法
US7809836B2 (en) System and method for automating bios firmware image recovery using a non-host processor and platform policy to select a donor system
CN113282434B (zh) 一种基于封装后修复技术的内存修复方法及相关组件
US8909952B2 (en) Power supply apparatus of computer system and method for controlling power sequence thereof
WO2019129022A1 (zh) 一种设备的故障处理方法、装置及系统
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
JP2013164842A (ja) Bmcファームウェアの修復機能を持つ電子装置及びその修復方法
CN111459557A (zh) 一种缩短服务器开机时间的方法及系统
JP6868087B2 (ja) 管理コントローラへの通信チャネルの方法及びシステム
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
TWI518680B (zh) 維護電腦系統之檔案系統的方法
US20230008412A1 (en) Multiple block error correction in an information handling system
CN113867807A (zh) 一种缩短服务器上电时间的方法、装置、设备和存储介质
CN111352764B (zh) 一种芯片修复的方法、装置、设备及存储介质
US11740969B2 (en) Detecting and recovering a corrupted non-volatile random-access memory
CN107179911B (zh) 一种重启管理引擎的方法和设备
CN113359967B (zh) 一种设备启动方法和装置
CN115904831A (zh) 一种服务器固件的启动方法及终端
CN110781527B (zh) 一种控制寄存器保护方法与装置
CN113868181B (zh) 一种存储设备pcie链路协商方法、系统、设备及介质
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
TWI764342B (zh) 啟動狀態偵測系統及其方法
WO2023082332A1 (zh) 一种故障恢复方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant