CN114138567A - 一种基板管理控制模块维护方法、装置、设备及存储介质 - Google Patents

一种基板管理控制模块维护方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114138567A
CN114138567A CN202111425738.9A CN202111425738A CN114138567A CN 114138567 A CN114138567 A CN 114138567A CN 202111425738 A CN202111425738 A CN 202111425738A CN 114138567 A CN114138567 A CN 114138567A
Authority
CN
China
Prior art keywords
control module
management control
baseboard management
substrate management
substrate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111425738.9A
Other languages
English (en)
Inventor
魏旭
赵现普
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202111425738.9A priority Critical patent/CN114138567A/zh
Publication of CN114138567A publication Critical patent/CN114138567A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种基板管理控制模块维护方法、装置、设备以及存储介质,包括:对第一基板管理控制模块和第二基板管理控制模块进行初始化操作,以将第一基板管理控制模块确定为主控制模块以及将第二基板管理控制模块确定为备控制模块;监测第一基板管理控制模块和第二基板管理控制模块的运行状态;当监测到第一基板管理控制模块出现故障,则激活第二基板管理控制模块以将第二基板管理控制模块切换为主控制模块,并切断第一基板管理控制模块与主板之间的电连接。本申请通过金手指将第一基板管理控制模块和第二基板管理控制模块安装至服务器主板上,并与服务器的控制器进行通信,能够实现控制模块的热插拔和信息的冗余备份从而提高系统维护效率。

Description

一种基板管理控制模块维护方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种基板管理控制模块维护方法、装置、设备以及存储介质。
背景技术
当前,BMC(Baseboard Manager Controller,基板管理控制器)作为服务器主板中独立的管理控制器,BMC主要是用来监视和控制功能,比如监控系统的健康状态,系统的温度,电压,风扇、电源等。当然,BMC作为平台管理者还负责记录各种硬件的信息和系统事件日志,用于提示用户和后续问题的定位,并且在发现问题及时做出一些相应的调整。例如,当BMC发现系统异常,可以通过复位的方式来重新启动系统。
基于基板管理控制器制作而成的SCM(Secure Control Module,安全控制模块)通过连接器与所述主板进行连接,也即,将所述基板管理控制模块做在一张小卡上,通过连接器插在主板上,从而构成主板上的单个安全控制模块,用户可以通过SCM的管理全程掌握服务器系统的运行状态,但是SCM一旦发生故障,服务器不能正常运行时,往往只能将服务器关机断电,再对主板中的BMC部分进行维修,将服务器关机下电会影响服务器的使用以及系统维护的时效性,而且暂停服务器的服务、将服务器关机还可能会导致服务器的数据的部分丢失,影响业务运行,在目前的大数据和5G(5th Generation Mobile CommunicationTechnology,第五代移动通信技术)时代,服务器关机断电,会造成客户的业务运行中断,影响用户体验。
发明内容
有鉴于此,本发明的目的在于提供一种基板管理控制模块维护方法、装置、设备以及存储介质,能够在基板管理控制模块发生故障时,在服务器不掉电的情况下,通过热插拔操作替换故障的基板管理控制模块,提高系统的维护效率,从而提高用户体验。其具体方案如下:
第一方面,本申请公开了一种基板管理控制模块维护方法,应用于服务器的控制器,所述控制器分别与所述服务器中的第一基板管理控制模块和第二基板管理控制模块进行通信连接,并且所述第一基板管理控制模块和所述第二基板管理控制模块分别通过各自对应的金手指安装至所述服务器的主板上;其中,所述方法包括:
对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;
控制所述第一基板管理控制模块进入主运行模式,并监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;
当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
可选的,所述控制所述第一基板管理控制模块进入主运行模式之后,还包括:
在所述第一基板管理控制模块处于主运行模式的过程中,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,以便所述第二基板管理控制模块在被切换为主控制模块后基于所述系统状态信息和所述日志信息接替所述第一基板管理控制模块的工作。
可选的,所述将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,包括:
通过所述第一基板管理控制模块和所述第二基板管理控制模块之间的系统管理总线,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块。
可选的,所述监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号;
如果监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的运行状态反馈信号,则判定该基板管理控制模块出现故障。
可选的,所述监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块通过系统管理总线发送的运行状态反馈信号。
可选的,所述监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期定期发送的喂狗信号。
可选的,所述切断所述第一基板管理控制模块与所述主板之间的电连接之后,还包括:
当监测到所述第一基板管理控制模块对应的金手指被安装上新的基板管理控制模块,则将所述新的基板管理控制模块配置为备控制模块。
第二方面,本申请公开了一种基板管理控制模块维护装置,应用于服务器的控制器,包括:
初始化操作模块,用于对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;
模式控制模块,用于控制所述第一基板管理控制模块进入主运行模式;
状态监控模块,用于监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;
故障处理模块,用于当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的基板管理控制模块维护方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的基板管理控制模块维护方法的步骤。
可见,本申请提供了一种应用于服务器的控制器,所述控制器分别与所述服务器中的第一基板管理控制模块和第二基板管理控制模块进行通信连接,并且所述第一基板管理控制模块和所述第二基板管理控制模块分别通过各自对应的金手指安装至所述服务器的主板上;其中,所述基板管理控制模块维护方法,包括对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;控制所述第一基板管理控制模块进入主运行模式,并监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。由此可见,本申请服务器系统中的第一基板管理控制模块和第二基板管理控制模块分别通过各自对应的金手指安装至所述服务器的主板上,能够实现基板管理控制模块的热插拔功能,然后与服务器的控制器进行通信,能够实现对基板管理控制模块的运行状态监控,从而确定基板管理控制模块是否发生故障,并且当基板管理控制模块发生故障时,可以在不关闭服务器系统的电源,不影响服务器系统业务运行的情况下,对故障的基板管理控制模块进行替换,从而降低服务器系统的维护成本,减少服务器系统的维护时间,进一步提高维护效率和提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种基板管理控制模块维护方法流程图;
图2为本申请公开的一种服务器系统示意图;
图3为本申请公开的一种具体的基板管理控制模块维护方法流程图;
图4为本申请公开的一种具体的基板管理控制模块维护方法流程图;
图5为本申请公开的一种具体的基板管理控制模块维护方法流程图;
图6为本申请公开的一种基板管理控制模块维护装置结构示意图;
图7为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,当主板上的单个基板管理控制模块出现故障时,服务器不能正常运行,为了对服务器进行维修往往需要将服务器关机下电,从而服务器不能正常运行,影响服务器的使用以及系统维护的时效性,而暂停服务、关机可能造成服务器的数据会有部分丢失,会造成客户的业务运行中断,影响业务运行以及影响用户体验,不适应现在的5G以及大数据的应用中。为此,本申请提供了一种基板管理控制模块维护方法,可以在不关闭服务器的情况下,实现基板管理控制模块的热插拔操作和系统信息的冗余备份,也即保证服务器系统事件的完整性以及服务器运行状态数据的完整性,从而提高服务器系统维护效率。
本发明实施例公开了一种基板管理控制模块维护方法,应用于服务器的控制器,参见图1所示,该方法包括:
步骤S11:对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块。
需要指出的是,所述服务器的控制器分别与所述服务器中的第一基板管理控制模块和第二基板管理控制模块进行通信连接,并且所述第一基板管理控制模块和所述第二基板管理控制模块分别通过各自对应的金手指安装至所述服务器的主板上。如图2所示,服务器系统主板上的控制器为CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)并通过SMBus(System Management Bus,系统管理总线)与主SCM(主安全控制模块)和备SCM(备安全控制模块)与进行通信,也即,所述控制器与所述第一基板管理控制模块和所述第二基板管理控制模块通过SMBus与所述控制器进行通信。从而通过所述系统管理总线进行信号的传递以监控基板管理控制模块的运行状态,并且实现基板管理控制模块之间主控制模块和备控制模块的切换,比如将其中一个基板管理控制模块配置为主控制模块,则将另一个基板管理控制模块配置为备控制模块,所述控制器还可以控制基板管理控制模块与服务器主板的电连接的断开与连接,从而实现热插拔功能等。其中,所述第一基板管理控制模块和所述第二基板管理控制模块对应所述主板连接器的地方做成金手指,如此一来,就可以直接通过所述主板上的连接器将所述基板管理控制模块插在主板上并且所述主安全控制模块和所述备安全控制模块之间也通过系统管理总线进行通信,也即所述第一基板管理控制模块和所述第二基板管理控制模块通过SMBus信息来传递系统信息。
本实施例中,上述控制器对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作。可以理解的是,上述初始化操作主要为了将所述第一基板管理控制模块和所述第二基板管理控制模块确定为主控制模块和备控制模块,例如,将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块,或者将所述第一基板管理控制模块确定为备控制模块以及将所述第二基板管理控制模块确定为主控制模块。也即,上述第一基板管理控制模块与上第二基板管理控制模块的主和备的功能可以根据实际的应用需求自由切换。
步骤S12:控制所述第一基板管理控制模块进入主运行模式,并监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态。
本实施中,对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,确定所述第一基板管理控制模块为主控制模块之后,则控制所述第一基板管理控制模块进入主运行模式。可以理解的是,所述控制器控制作为主控制模块的上述第一基板管理控制模块进入主运行模式时,也控制着作为备控制模块的上述第二基板管理控制模块进入低功耗模式。其中,所述主运行模式也即所述第一基板管理控制模块无故障时的正常运行模式。
需要指出的是,由于上述第一基板管理控制模块和上述第二基板管理控制模块通过系统管理总线进行通信,所以可以通过所述第一基板管理控制模块和所述第二基板管理控制模块之间的系统管理总线,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,也即,上述第一基板管理控制模块和上述第二基板管理控制模块通过SMBus信号来传递所述服务器的系统状态信息和日志信息备份。
本实施例中,上述服务器的控制器实时监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态以确定所述第一基板管理控制模块和所述第二基板管理控制模块是否发生故障。可以理解的是,上述第一基板管理控制模块作为主控制模块处于主运行模式也即处于正常运行模式并且所述第二基板管理控制模块作为备控制模块处于低功耗模式,如此一来,就可以监控所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态是否正常,从而判断基板管理控制器是否发生故障。
步骤S13:当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
本实施中,当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块。可以理解的是,由于所述第二基板管理控制模块备份有所述第一基板管理控制模块的系统信息,则可以激活处于低功耗模式的所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,也即将所述第二基板管理控制模块的低功耗模式切换至主运行模式,从而接替发生故障的所述第一基板管理控制模块的工作。由于所述第一基板管理控制模块出现故障,在激活所述第二基板管理控制模块的同时还需要切断所述第一基板管理控制模块与所述主板之间的电连接,使所述第一基板管理控制模块处于热插拔状态,从而维护人员就可以在服务器不断电的情况下,将所述第一基板管理控制模块进行拔出,并重新插上另一块无故障的基板管理控制器。并且,当监测到作为备控制模块的所述第二基板管理控制模块出现故障,只需要切断所述第二基板管理控制模块与所述主板之间的电连接,使其处于热插拔状态,以便维护人员将故障的所述第二基板管理控制模块拔下,重新插上正常的基板管理控制模块,该基板管理控制模块依旧作为备控制模块,并控制其处于低功耗模式。
本实施例中,在切断所述第一基板管理控制模块与所述主板之间的电连接之后,还可以包括:当监测到所述第一基板管理控制模块对应的金手指被安装上新的基板管理控制模块,则将所述新的基板管理控制模块配置为备控制模块。可以理解的是,将处于低功耗模式的上述第二基板管理控制模块切换为主运行模式,从而将上述第二基板管理控制模块配置为主控制模块,所以可以将被安装在服务器主板上的新的基板管理控制模块配置为备控制模块。
可见,本申请实施例中的服务器的控制器实时监控主控制模块对应的第一基板管理控制模块与被控制模块对应的第二基板管理控制模块的运行状态,以确定第一基板管理控制模块与第二基板管理控制模块是否发生故障,并且在第一基板管理控制模块出现故障时,激活第二基板管理控制模块为主控制模块,与此同时,服务器的控制器切断第一基板管理控制模块与服务器主板之间的电连接。由此可知,本申请能够在不关闭服务器系统电源情况下,实现基板管理控制模块的热插拔操作,从而降低系统的维护成本,减少系统维护的时间,进一步提高服务器系统的维护效率。
参见图3所示,本发明实施例公开了一种具体的基板管理控制模块维护方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S21:对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块。
步骤S22:控制所述第一基板管理控制模块进入主运行模式。
步骤S23:在所述第一基板管理控制模块处于主运行模式的过程中,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块。
本实施例中,在所述第一基板管理控制模块处于主运行模式的过程中,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,以便所述第二基板管理控制模块在被切换为主控制模块后基于所述系统状态信息和所述日志信息接替所述第一基板管理控制模块的工作。可以理解的是,上述第二基板管理控制模块处于低功耗模式的时候,一直在备份所述系统状态信息和所述日志信息,也就意味着,当所述第二基板管理控制模块切换为主控制模块时,其之前备份的所述系统状态信息和所述日志信息一直保存,从而可以实现系统信息的完整性,有利于后期维护。
步骤S24:监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态。
步骤S25:当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
关于上述步骤S21至步骤S22以及步骤S24至步骤S25的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中所述第一基板管理控制模块处于主运行模式时,将所述第一基板管理控制模块中采集到系统信息备份至所述第二基板管理控制模块,以便在所述第一基板管理控制模块出现故障时,激活所述第二基板管理控制模块为主控制模块,所述第二基板管理控制模块可以利用所述系统信息接替所述第一基板管理控制模块的工作。与此同时,所述控制器切断第一基板管理控制模块与服务器主板之间的电连接。由此可知,本申请能够在不关闭服务器系统电源情况下,实现基板管理控制模块的热插拔操作和信息的冗余备份,从而降低系统的维护成本,减少系统维护的时间,进一步提高服务器系统的维护效率。
参见图4所示,本发明实施例公开了一种具体的基板管理控制模块维护方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S31:对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块。
步骤S32:控制所述第一基板管理控制模块进入主运行模式。
步骤S33:监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号。
本实施中,所述第一基板管理控制模块和所述第二基板管理控制模块分别向所述服务器的控制器发送的运行状态反馈信号,由此一来,所述服务器的控制器就可以监控本地是否接收到上述运行状态反馈信号来确定所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态。可以理解的是,所述第一基板管理控制模块和所述第二基板管理控制模块通过所述系统管理总线与所述服务器的控制器进行通信,从而可以通过所述系统管理总线进行所述运行反馈信号的接收与发送,也即,监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块通过系统管理总线发送的运行状态反馈信号。
一种具体的实施方式,所述监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号可以包括:监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期定期发送的喂狗信号。相应地,如果监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的喂狗信号,则判定该基板管理控制模块出现故障。可以理解的是,控制所述第一基板管理控制模块进入主运行模式之后,所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期通过系统管理总线向所述服务器的控制器定期发送的喂狗信号,然后所述服务器的控制器就可以通过监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期定期发送的喂狗信号,从而监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态,从而判断所述第一基板管理控制模块和所述第二基板管理控制模块是否发生故障。也即,所述服务器的控制器基于对所述喂狗信号的接收情况监控基板管理控制模块的运行状态。
步骤S34:如果监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的运行状态反馈信号,则判定该基板管理控制模块出现故障。
本实施例中,假设所述服务器的控制器监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的运行状态反馈信号,则判定该基板管理控制模块出现故障。例如,如果监测到本地在连续的预设时间段内均未接收到所述第一基板管理控制模块发送的运行状态反馈信号,则判定所述第一基板管理控制模块出现故障;如果监测到本地在连续的预设时间段内均未接收到所述第二基板管理控制模块发送的运行状态反馈信号,则判定所述第二基板管理控制模块出现故障。
步骤S35:当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
关于上述步骤S21至步骤S22以及步骤S25的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请的基板管理控制模块维护方案的具体实施方式,如图5所示,在服务器上电后,已安装至所述服务器的主板上的基板管理控制模块在所述服务器的控制器的初始化操作下,所述第一基板管理控制模块被配置为主安全控制模块与所述第二基板管理控制模块被配置为备安全控制模块,所述主安全控制模块与所述备安全控制模块按照预设时间周期定期向所述服务器的控制器发送的喂狗信号,当所述主安全控制模块能够正常发送喂狗信号至所述服务器的控制器时,则说明所述主安全控制模块未发生故障,当所述主安全控制模块能够不能正常发送喂狗信号至所述服务器的控制器时,导致所述服务器的控制器在连续的预设时间段内未接收到主安全控制模块发送的喂狗信号,则说明所述主安全控制模块已发生故障,此时将所述备安全控制模块的低功耗模式切换为主运行模式,并将切断所述主安全控制模块与所述主板之间的电连接,使其处于热插拔状态,从而利用新的安全控制模块替换掉发生故障的所述主安全控制模块,将所述新的安全控制模块设置为备安全控制模块,使其处于低功耗模式。
可见,本申请实施例中,通过监控本地在连续的预设时间段内是否接收到所述第一基板管理控制模块与所述第二基板管理控制模块按照预设时间周期定期发送的运行状态反馈信号,实现基板管理控制模块的状态监控,从而确定基板管理控制模块是否发生故障,并且在第一基板管理控制模块出现故障时,激活第二基板管理控制模块为主控制模块,与此同时,服务器的控制器切断第一基板管理控制模块与服务器主板之间的电连接。由此可知,本申请能够在不关闭服务器系统电源情况下,实现基板管理控制模块的热插拔操作以及系统信息的冗余备份,从而降低系统的维护成本,减少系统维护的时间,进一步提高服务器系统的维护效率。
相应的,本申请实施例还公开了一种基板管理控制模块维护装置,应用于服务器的控制器,参见图6所示,该装置包括:
初始化操作模块11,用于对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;
模式控制模块12,用于控制所述第一基板管理控制模块进入主运行模式;
状态监控模块13,用于监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;
故障处理模块14,用于当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
可见,本申请实施例中的服务器的控制器实时监控主控制模块对应的第一基板管理控制模块与被控制模块对应的第二基板管理控制模块的运行状态,以确定第一基板管理控制模块与第二基板管理控制模块是否发生故障,并且在第一基板管理控制模块出现故障时,激活第二基板管理控制模块为主控制模块,与此同时,服务器的控制器切断第一基板管理控制模块与服务器主板之间的电连接。由此可知,本申请能够在不关闭服务器系统电源情况下,实现基板管理控制模块的热插拔操作以及系统信息的冗余备份,从而降低系统的维护成本,减少系统维护的时间,进一步提高服务器系统的维护效率。
在一些具体实施例中,所述模式控制模块12,具体可以包括:
第一信息备份单元,用于在所述第一基板管理控制模块处于主运行模式的过程中,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,以便所述第二基板管理控制模块在被切换为主控制模块后基于所述系统状态信息和所述日志信息接替所述第一基板管理控制模块的工作。
在一些具体实施例中,所述模式控制模块12,具体可以包括:
第二信息备份单元,用于通过所述第一基板管理控制模块和所述第二基板管理控制模块之间的系统管理总线,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块。
在一些具体实施例中,所述状态监控模块13,还可以包括:
第一信号监控单元,用于监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号;
故障判定单元,用于当监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的运行状态反馈信号,则判定该基板管理控制模块出现故障。
在一些具体实施例中,所述状态监控模块13,还可以包括:
第二信号监控单元,用于监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块通过系统管理总线发送的运行状态反馈信号。
在一些具体实施例中,所述状态监控模块13,还可以包括:
第三信号监控单元,用于监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期定期发送的喂狗信号。
在一些具体实施例中,所述基板管理控制模块维护装置,还包括:
配置模块,用于当监测到所述第一基板管理控制模块对应的金手指被安装上新的基板管理控制模块,则将所述新的基板管理控制模块配置为备控制模块。
进一步的,本申请实施例还提供了一种电子设备。图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的基板管理控制模块维护方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基板管理控制模块维护方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的基板管理控制模块维护方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种基板管理控制模块维护方法、装置、设备以及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基板管理控制模块维护方法,其特征在于,应用于服务器的控制器,所述控制器分别与所述服务器中的第一基板管理控制模块和第二基板管理控制模块进行通信连接,并且所述第一基板管理控制模块和所述第二基板管理控制模块分别通过各自对应的金手指安装至所述服务器的主板上;其中,所述方法包括:
对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;
控制所述第一基板管理控制模块进入主运行模式,并监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;
当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
2.根据权利要求1所述的基板管理控制模块维护方法,其特征在于,所述控制所述第一基板管理控制模块进入主运行模式之后,还包括:
在所述第一基板管理控制模块处于主运行模式的过程中,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,以便所述第二基板管理控制模块在被切换为主控制模块后基于所述系统状态信息和所述日志信息接替所述第一基板管理控制模块的工作。
3.根据权利要求2所述的基板管理控制模块维护方法,其特征在于,所述将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块,包括:
通过所述第一基板管理控制模块和所述第二基板管理控制模块之间的系统管理总线,将所述第一基板管理控制模块中采集到的所述服务器的系统状态信息和日志信息备份至所述第二基板管理控制模块。
4.根据权利要求1所述的基板管理控制模块维护方法,其特征在于,所述监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号;
如果监测到本地在连续的预设时间段内均未接收到任一基板管理控制模块发送的运行状态反馈信号,则判定该基板管理控制模块出现故障。
5.根据权利要求4所述的基板管理控制模块维护方法,其特征在于,所述监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块通过系统管理总线发送的运行状态反馈信号。
6.根据权利要求4所述的基板管理控制模块维护方法,其特征在于,所述监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块发送的运行状态反馈信号,包括:
监测本地是否接收到所述第一基板管理控制模块和所述第二基板管理控制模块按照预设时间周期定期发送的喂狗信号。
7.根据权利要求1至6任一项所述的基板管理控制模块维护方法,其特征在于,所述切断所述第一基板管理控制模块与所述主板之间的电连接之后,还包括:
当监测到所述第一基板管理控制模块对应的金手指被安装上新的基板管理控制模块,则将所述新的基板管理控制模块配置为备控制模块。
8.一种基板管理控制模块维护装置,其特征在于,应用于服务器的控制器,包括:
初始化操作模块,用于对所述第一基板管理控制模块和所述第二基板管理控制模块进行初始化操作,以将所述第一基板管理控制模块确定为主控制模块以及将所述第二基板管理控制模块确定为备控制模块;
模式控制模块,用于控制所述第一基板管理控制模块进入主运行模式;
状态监控模块,用于监测所述第一基板管理控制模块和所述第二基板管理控制模块的运行状态;
故障处理模块,用于当监测到所述第一基板管理控制模块出现故障,则激活所述第二基板管理控制模块以将所述第二基板管理控制模块切换为主控制模块,并切断所述第一基板管理控制模块与所述主板之间的电连接。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的基板管理控制模块维护方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基板管理控制模块维护方法的步骤。
CN202111425738.9A 2021-11-26 2021-11-26 一种基板管理控制模块维护方法、装置、设备及存储介质 Pending CN114138567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425738.9A CN114138567A (zh) 2021-11-26 2021-11-26 一种基板管理控制模块维护方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425738.9A CN114138567A (zh) 2021-11-26 2021-11-26 一种基板管理控制模块维护方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114138567A true CN114138567A (zh) 2022-03-04

Family

ID=80388925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425738.9A Pending CN114138567A (zh) 2021-11-26 2021-11-26 一种基板管理控制模块维护方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114138567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116225812B (zh) * 2023-05-08 2023-08-04 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN101071392B (zh) 用于维护服务器固件的备份副本的方法和多服务器系统
CN101908980B (zh) 一种网管升级的方法及系统
JP4155190B2 (ja) 無停電電源装置、電力供給制御プログラム、電力供給制御プログラム記録媒体及び電力供給制御方法
US7275182B2 (en) Method and apparatus for correlating UPS capacity to system power requirements
US7045914B2 (en) System and method for automatically providing continuous power supply via standby uninterrupted power supplies
JP3437176B2 (ja) 電源管理装置及び電源管理システム
CN101207519A (zh) 版本服务器、操作维护单元及其故障的恢复方法
WO2001073531A1 (en) Apparatus and method for power integrated control
CN114138567A (zh) 一种基板管理控制模块维护方法、装置、设备及存储介质
CN116699964A (zh) 一种工业过程控制器冗余运行方法和系统
US20040073817A1 (en) Method for automatically saving in-process programs before shutdown
JP5859562B2 (ja) コンピュータシステム、リモートメンテナンス構成及びリモートメンテナンス方法
CN111712776A (zh) 在电力波动和突然电力故障事件期间对计算和通信系统的电力管理
US11093014B2 (en) Method for monitoring, control and graceful shutdown of control and/or computer units
CN117453036A (zh) 调整服务器中的设备的功耗的方法、系统及装置
CN102478948A (zh) 服务器机柜系统及其启动方法、以及服务器启动方法
CN101557307A (zh) 调度自动化系统应用状态管理方法
JP2002207538A (ja) 情報処理システム、インターネット接続システム、電源供給装置及び停電処理用コンピュータプログラム
CN110740066A (zh) 一种席位不变的跨机故障迁移方法和系统
CN112822039B (zh) 双机热备系统主备模式切换的方法
CN111416726B (zh) 一种资源管理的方法、发送端设备和接收端设备
FI120809B (fi) Taajuusmuuttaja ja menetelmä taajuusmuuttajan muistiin talletetun datan ylläpitämiseksi
CN101330403B (zh) 一种防火墙服务器故障或者断电时局域网仍能通信的方法
JP4157807B2 (ja) 無停電電源装置
CN115480626A (zh) 一种服务器供电方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination