CN105912414A - 一种服务器管理的方法及系统 - Google Patents

一种服务器管理的方法及系统 Download PDF

Info

Publication number
CN105912414A
CN105912414A CN201610202102.0A CN201610202102A CN105912414A CN 105912414 A CN105912414 A CN 105912414A CN 201610202102 A CN201610202102 A CN 201610202102A CN 105912414 A CN105912414 A CN 105912414A
Authority
CN
China
Prior art keywords
smc
cycle
programmable hardware
hardware module
canis familiaris
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610202102.0A
Other languages
English (en)
Inventor
李清石
金长新
刘强
张雁鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201610202102.0A priority Critical patent/CN105912414A/zh
Publication of CN105912414A publication Critical patent/CN105912414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Programmable Controllers (AREA)

Abstract

本发明实施例提供了一种服务器管理的方法及系统,涉及计算机领域,用以灵活有效的提高服务器管理的可靠性。所述方法包括应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,包含定时子模块可编程硬件模块,所述方法包括:所述可编程硬件模块确定喂狗周期;所述可编程硬件模块确定在其内的定时子模块到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号;若所述可编程硬件模块在其内的定时子模块到达所述喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;所述SMC接收所述第一复位信号,并根据所述第一复位信号,进行复位处理。

Description

一种服务器管理的方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种服务器管理的方法及系统。
背景技术
随着科学技术的发展,数据中心中配备了大量的服务器,这些服务器的高效管理有赖于稳定可靠的服务器管理系统。随着管理功能需求的增多,与之相应的服务器管理系统的处理器运行速度越来越快,硬件平台和软件代码都更加复杂,根据可靠性建模理论,系统越复杂,可靠性越低。
为提高系统可靠性,通常在处理器内置有看门狗定时器,这种看门狗定时器可能会在处理器产生严重错误进入异常模式时失效,存在工作不可靠问题。
发明内容
本发明的实施例提供一种服务器管理的方法及系统,用以灵活有效的提高服务器管理的可靠性。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例提供了一种服务器管理的方法,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,包含定时子模块可编程硬件模块,所述方法包括:所述可编程硬件模块确定喂狗周期;所述可编程硬件模块确定在其内的定时子模块到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号;若所述可编程硬件模块在其内的定时子模块到达所述喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;所述SMC接收所述第一复位信号,并根据所述第一复位信号,进行复位处理。
可选地,在所述可编程硬件模块确定检测周期之前,还包括:所述SMC向所述可编程硬件模块发送设置信息;所述设置信息用于指示出所述可编程硬件模块的喂狗周期;所述可编程硬件模块确定喂狗周期包括:所述可编程硬件模块根据所述设置信息,确定喂狗周期。
可选地,还包括:若所述可编程硬件模块在其内的定时子模块到达所述喂狗周期期间接收到所述SMC发送的喂狗信号,则所述可编程硬件模块将所述定时子模块清零,并重新确定其内的定时子模块在到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号。
可选地,所述SMC向所述可编程硬件模块发送设置信息包括:所述SMC根据所述SMC的运行阶段,向可编程硬件模块发送设置信息;所述SMC的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
可选地,还包括:所述服务器管理系统还包括:基板管理控制器BMC;在所述SMC处于所述SMC管理进程运行阶段时,所述方法还包括:所述SMC在接收所述BMC发送的初始化完成信号时,向所述BMC发送状态报告周期;所述BMC接收所述SMC发送的状态报告周期,并根据所述状态报告周期向所述SMC发送报告信息;若所述SMC在BMC的状态报告周期内未接收到所述BMC发送的报告信息,则向所述BMC发送第二复位信号;所述BMC接收所述第二复位信号,并根据所述第二复位信号进行复位处理。
进一步的,本发明实施例提供了一种服务器管理系统,包括:包含有定时子模块的可编程硬件模块,系统管理控制器SMC;其中,所述可编程硬件模块,用于确定喂狗周期;所述定时子模块,用于记录时间;所述可编程硬件模块,还用于确定在其内的定时子模块到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号;所述可编程硬件模块,还用于确定出其内的定时子模块到达所述喂狗周期期间未接收到SMC发送的喂狗信号时,向SMC发出第一复位信号;所述SMC,用于接收所述第一复位信号,并根据所述第一复位信号,进行复位处理。
可选地,所述SMC,还用于向所述可编程硬件模块发送设置信息;所述设置信息用于指示出所述可编程硬件模块的喂狗周期;所述可编程硬件模块,具体用于根据所述设置信息,确定喂狗周期。
可选地,所述可编程硬件模块,还用于确定出其内的定时子模块到达所述喂狗周期期间接收到所述SMC发送的喂狗信号时,将所述定时子模块记录的时间清零,并重新确定其内的定时子模块在到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号。
可选地,所述SMC,具体用于根据所述SMC的运行阶段,向可编程硬件模块发送设置信息;所述SMC的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
可选地,还包括:基板管理控制器BMC;所述SMC,还用于在所述SMC处于所述SMC管理进程运行阶段时,若接收所述BMC发送的初始化完成信号时,向所述BMC发送状态报告周期;所述BMC,用于接收所述SMC发送的状态报告周期,并根据所述状态报告周期向所述SMC发送报告信息;所述SMC,还用于在BMC的状态报告周期内未接收到所述BMC发送的报告信息时,向所述BMC发送第二复位信号;所述BMC,还用于接收所述第二复位信号,并根据所述第二复位信号进行复位处理。
本发明实施例提供了一种服务器管理的方法及系统,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,可编程硬件模块,其中,可编程硬件模块确定喂狗周期;可编程硬件模块确定在其内的定时子模块在到达喂狗周期期间,是否接收到SMC发送的喂狗信号;若可编程硬件模块在其内的定时子模块到达喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;SMC接收第一复位信号,并根据第一复位信号,进行复位处理。这样,服务器管理系统中的可编程硬件模块包含有定时子模块,且可编程硬件模块独立的SMC,在SMC发生异常时,可编程硬件模块可以向SMC发送第一复位信号,以便SMC根据第一复位信号进行复位。这样一来,包含有定时子模块的可编程硬件模块外置于SMC,在SMC发生故障时,可以及时复位SMC,从而可以提高SMC的可靠性,进而灵活有效的提高服务器管理系统的可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种服务器管理的方法的流程示意图;
图2为本发明实施例提供的第二种服务器管理的方法的流程示意图;
图3为本发明实施例提供的第三种服务器管理的方法的流程示意图;
图4为本发明实施例提供的第四种服务器管理的方法的流程示意图;
图5为本发明实施例提供的一种服务器管理系统的结构示意图;
图6为本发明实施例提供的另一种服务器管理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种服务器管理的方法,应用于服务器管理系统,所述服务器管理系统包括SMC(System management controller,系统管理控制器),包含定时子模块可编程硬件模块。如图1所示,包括:
步骤101、可编程硬件模块确定喂狗周期。
具体的,可编程硬件模块是对SMC进行监控,防止SMC发生异常时,SMC无法进行复位处理。而SMC的运行阶段可以分为三个阶段即为SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段,可编程硬件模块在SMC的不同阶段,其喂狗周期各不相同。因此,可编程硬件模块在对SMC进行监控之前,需先确定出喂狗周期。
此时,可编程硬件模块可以根据SMC发送的信号来确定喂狗周期。例如,SMC向可编程硬件模块发送第一信号,可编程硬件模块可以确定SMC在SMC操作系统启动阶段,此时,确定出的喂狗周期为SMC操作系统启动阶段对应的喂狗周期。SMC向可编程硬件模块发送第二信号,可编程硬件模块可以确定SMC在SMC管理进行运行阶段,此时,确定出的喂狗周期为SMC管理进行运行阶段对应的喂狗周期。SMC向可编程硬件模块发送第三信号,可编程硬件模块可以确定SMC在SMC管理固件更新阶段,此时,确定出的喂狗周期为SMC管理固件更新阶段对应的喂狗周期。
需要说明的是,而在可编程硬件模块进行监控的过程中,若没有接收到SMC发送的指示其进入其他阶段的信号时,可编程硬件模块则确定其喂狗周期为当前SMC所在的阶段对应的喂狗周期。
需要说明的是,在本发明实施例中,服务器管理系统的可编程硬件模块通过看门狗机制实现对SMC的监控,因此需要设置喂狗周期,及SMC需向可编程硬件模块发送喂狗信号。
需要说明的是,本发明实施例中的喂狗周期可以由管理员根据实际情况进行设定,若设定喂狗周期不准确时,还可以重新设定,本发明对此不做限制。
步骤102、可编程硬件模块确定在其内的定时子模块到达喂狗周期期间,是否接收到SMC发送的喂狗信号。
具体的,可编程硬件模块确定了喂狗周期后,由于SMC在没有异常的情况下,需要在喂狗周期内向可编程硬件模块发送喂狗信号,以便告知可编程硬件模块其未异常,使可编程硬件模块内的定时模块清零,重新计时。因此,可编程硬件模块可以看其内的定时子模块记录的时间到达喂狗周期期间,是否接收到SMC发送的喂狗信号。
需要说明的是,定时子模块用于记录时间,喂狗信号即为使可编程硬件模块中的定时子模块记录的时间清零的信号。
需要说明的是,在本发明实施例中,由于信号在传输过程中可能存在时延,因此可编程硬件模块确定在其内的定时子模块到达喂狗周期期间,是否接收到SMC发送的喂狗信号时,可以将不同喂狗周期对应的时延误差考虑进去,即为可编程硬件模块确定在其内的定时子模块记录的时间到达喂狗周期加其对应的时延误差期间是否接收到SMC发送的喂狗信号。
需要说明的是,不同的喂狗周期对应的时延误差可以由管理员进行设定,本发明对此不作限制。
步骤103、若可编程硬件模块在其内的定时子模块到达喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号。
具体的,可编程硬件模块在其内的定时子模块记录的时间到达喂狗周期期间均没有接收到SMC发送的喂狗信号时,说明此SMC发生异常,此时,可编程硬件模块可以向SMC发送第一复位信号。
步骤104、SMC接收所述第一复位信号,并根据第一复位信号,进行复位处理。
具体的,SMC接收到第一复位信号后,利用此第一复位信号进行相应的复位。
本发明实施例提供了一种服务器管理的方法,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,可编程硬件模块,其中,可编程硬件模块确定喂狗周期;可编程硬件模块确定在其内的定时子模块在到达喂狗周期期间,是否接收到SMC发送的喂狗信号;若可编程硬件模块在其内的定时子模块到达喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;SMC接收第一复位信号,并根据第一复位信号,进行复位处理。这样,服务器管理系统中的可编程硬件模块包含有定时子模块,且可编程硬件模块独立的SMC,在SMC发生异常时,可编程硬件模块可以向SMC发送第一复位信号,以便SMC根据第一复位信号进行复位。这样一来,包含有定时子模块的可编程硬件模块外置于SMC,在SMC发生故障时,可以及时复位SMC,从而可以提高SMC的可靠性,进而灵活有效的提高服务器管理系统的可靠性。
进一步的,在上述步骤101之前,如图2所示,还包括:
步骤105、SMC向可编程硬件模块发送设置信息。
其中,设置信息用于指示出可编程硬件模块的喂狗周期。
具体的,可编程硬件模块在对SMC进行监控的喂狗周期可以是SMC设定。此时,SMC可以将指示出喂狗周期的设置信息发送给可编程硬件模块。
进一步的,由于SMC可以有不同的运行阶段,而其运行阶段不同时,其喂狗周期可以设置为不同的时间,此时,SMC向所述可编程硬件模块发送设置信息包括:SMC根据SMC的运行阶段,向可编程硬件模块发送设置信息。
其中,SMC的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
即为,预先设定了SMC的不同运行阶段对应不同的喂狗周期。例如,SMC操作系统启动阶段,由于SMC操作系统启动时间较长,此时可以将此阶段对应的喂狗周期设置的时间略大。而SMC管理进程运行阶段需要实时的检测各个进程的运行情况,此时,可以将此阶段对应的喂狗周期设置的时间略小。此时,SMC可以根据其当前所在的阶段,确定出当前阶段对应的喂狗周期,进而可以根据确定的当前阶段对应的喂狗周期生成设定信息,进而将此设定信息发送至可编程硬件模块。可编程硬件模块可以接收到设置信息。
需要说明的是,SMC的每个运行阶段对应的喂狗周期可以是用户预先设定的。
此时步骤101可编程硬件模块确定喂狗周期包括:可编程硬件模块根据设置信息,确定喂狗周期。
具体的,可编程硬件模块在接收到设置信息后,可以解析设置信息,进而可以解析出设置信息中喂狗周期,进而可以确定喂狗周期。
这样一来,通过上述步骤105SMC可以在SMC的不同运行阶段为可编程硬件模块设置不同的喂狗周期,此时,可编程硬件可以根据接收的设置信息,获知对应的喂狗周期,进而进行根据获取的喂狗周期对SMC进行相应的监控。
进一步的,在上述步骤102中可编程硬件模块需确定在其内的定时子模块到达喂狗周期期间,是否接收到SMC发送的喂狗信号,此时,可编程硬件模块的确定结果有两种,一种是在其内的定时子模块到达喂狗周期期间,未接收到SMC发送的喂狗信号;另一种是在其内的定时子模块到达喂狗周期期间,接收到SMC发送的喂狗信号。这样,可编程硬件模块根据其确定的结果不同,下面执行的步骤不同。在确定在其内的定时子模块到达喂狗周期期间,未接收到SMC发送的喂狗信号时,执行步骤103-104。在确定其内的定时子模块到达喂狗周期期间,接收到SMC发送的喂狗信号,执行步骤106,如图3所示。
步骤106、若可编程硬件模块在其内的定时子模块到达喂狗周期期间接收到SMC发送的喂狗信号,则可编程硬件模块将定时子模块清零,并重新确定其内的定时子模块在到达喂狗周期期间,是否接收到SMC发送的喂狗信号。
具体的,可编程硬件模块确定出在其内的定时子模块到达喂狗周期期间接收到SMC发送的喂狗信号时,则说明SMC并未发生异常,此时可编程硬件模块可以将其内的定时子模块记录的时间清零。定时子模块在记录的时间清零后,可以重新记录时间,进而使得可编程硬件模块重新确定定时子模块重新记录的时间在到达喂狗周期期间是否接收到SMC发送的喂狗信号。即为,在将定时子模块在记录的时间清零后,重新执行步骤102。
这样一来,可编程硬件模块可以一直对SMC进行监控,使得服务器管理系统更可靠。
进一步的,在服务器管理系统还包括:BMC(Baseboard ManagementController,基板管理控制器)时,在SMC处于SMC管理进程运行阶段时,上述方法,如图4所示,还包括:
步骤201、SMC在接收BMC发送的初始化完成信号时,向BMC发送状态报告周期。
具体的,为了增加服务器管理系统的可靠性,可以通过SMC对BMC的状态进行监控。此时,在BMC进行完初始化设置后,需要向SMC发送初始化完成信号,此时,SMC需要对BMC的状态进行监控,此时,SMC向BMC发送状态报告周期。
需要说明的是,BMC的状态报告周期可以是管理员根据实际需要设置的,在设置完成后,可以通过SMC发送至BMC。
步骤202、BMC接收SMC发送的状态报告周期,并根据状态报告周期向SMC发送报告信息。
具体的,BMC接收到SMC发送的状态报告周期后,可以获知其需发送报告信息的周期,此时,BMC在其未发生异常时,可以按照此状态报告周期向SMC发送报告信息。此时,SMC可以接收到BMC发送的报告信息,并记录此BMC的报告信息。由于在服务器管理系统中可以包含有多个BMC,因此,SMC可以对每个BMC的报告信息分别进行记录。
步骤203、若SMC在状态报告周期内未接收到BMC发送的报告信息,则向BMC发送第二复位信号。
具体的,SMC若在BMC的状态报告周期内没有接收到BMC发送的报告信息,则可以确定此BMC发生异常,此时可以向此BMC发送第二复位信号。
步骤204、BMC接收第二复位信号,并根据第二复位信号进行复位处理。
具体的,BMC在接收到第二复位信号后,可以根据此第二复位信号,进行相应的复位处理。
需要说明的是,BMC进行的重启操作如果不是由SMC发起的,则SMC通过检测BMC的初始化完成信号获得BMC的状态为启动进行中的状态,SMC可以执行相应定时的复位操作。
需要说明的是,BMC进行重启和固件更新操作由SMC统一控制,SMC需对其进行记录并执行不同定时的复位操作,SMC对BMC的重启监控类似于可编程硬件模块对SMC所执行的监控操作,SMC对BMC的管理固件更新监控,类似于可编程硬件模块对SMC所执行的SMC管理固件更新阶段的监控操作,在此不再赘述。
进一步的,可编程硬件模块对SMC所执行的SMC管理固件更新阶段的监控操作为:SMC在其固件更新时,可以在SMC管理固件更新阶段对应的喂狗周期期间,若未发生异常,这可以向可编程硬件模块发送喂狗信号。此时,可编程硬件模块接收到喂狗信号,并可以将定时子模块记录的时间清零,并重新对SMC进行监控。在SMC管理固件更新阶段对应的喂狗周期期间,若发生异常,没有向可编程硬件模块发送喂狗信号。此时,可编程硬件模块在定时子模块记录的时间到达SMC管理固件更新阶段对应的喂狗周期时,未接收到喂狗信号,可以确定出SMC发生异常,此时可以向SMC发送第一复位信号。SMC接收到第一复位信号后,可以进行相应的复位处理。
需要说明的是,SMC管理进程运行阶段是SMC管理服务器管理系统中各个器件对应的进程运行的阶段,因此,在此阶段中,SMC可以对BMC的运行状态进行监控。因此,上述步骤201-204需在SMC管理进程运行阶段进行。
本发明实施例提供了一种服务器管理的方法,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,可编程硬件模块,其中,可编程硬件模块确定喂狗周期;可编程硬件模块确定在其内的定时子模块在到达喂狗周期期间,是否接收到SMC发送的喂狗信号;若可编程硬件模块在其内的定时子模块到达喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;SMC接收第一复位信号,并根据第一复位信号,进行复位处理。这样,服务器管理系统中的可编程硬件模块包含有定时子模块,且可编程硬件模块独立的SMC,在SMC发生异常时,可编程硬件模块可以向SMC发送第一复位信号,以便SMC根据第一复位信号进行复位。这样一来,包含有定时子模块的可编程硬件模块外置于SMC,在SMC发生故障时,可以及时复位SMC,从而可以提高SMC的可靠性,进而灵活有效的提高服务器管理系统的可靠性。
本发明实施例提供了一种服务器管理系统,如图5所示,包括:包含有定时子模块511的可编程硬件模块51,系统管理控制器SMC52。其中,
可编程硬件模块51,用于确定喂狗周期。
定时子模块511,用于记录时间。
可编程硬件模块51,还用于确定在其内的定时子模块511到达喂狗周期期间,是否接收到SMC52发送的喂狗信号。
可编程硬件模块51,还用于确定出其内的定时子模块到达喂狗周期期间未接收到SMC52发送的喂狗信号时,向SMC52发出第一复位信号。
SMC52,用于接收第一复位信号,并根据第一复位信号,进行复位处理。
进一步的,SMC52,还用于向可编程硬件模块51发送设置信息。
其中,设置信息用于指示出可编程硬件模块51的喂狗周期。
具体的,SMC52,具体用于根据SMC52的运行阶段,向可编程硬件模块51发送设置信息。
其中,SMC52的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
可编程硬件模块51,具体用于根据设置信息,确定喂狗周期。
进一步的,可编程硬件模块51,还用于确定出其内的定时子模块511到达喂狗周期期间接收到SMC52发送的喂狗信号时,将定时子模块52记录的时间清零,并重新确定其内的定时子模块52在到达喂狗周期期间,是否接收到SMC52发送的喂狗信号。
进一步的,上述服务器管理系统,如图6所示,还包括:基板管理控制器BMC53。
此时,SMC52,还用于在所述SMC处于所述SMC管理进程运行阶段时,若接收BMC53发送的初始化完成信号时,向BMC53发送状态报告周期。
BMC53,用于接收SMC52发送的状态报告周期,并根据状态报告周期向SMC发送报告信息。
SMC52,还用于在BMC53的状态报告周期内未接收到BMC53发送的报告信息时,向BMC53发送第二复位信号。
BMC53,还用于接收第二复位信号,并根据第二复位信号进行复位处理。
进一步的,上述可编程硬件模块51可以为CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑器件)。
需要说明的是,服务器管理系统中还包括具有多个刀片的服务器,有一个管理载板和若干个计算单元,及机箱电源、风扇等必备组件。其中,管理载板上放置一颗SMC,每个计算单元上各放置一颗BMC,由CPLD实现SMC的看门狗的功能。
这样,SMC设置CPLD喂狗周期的GPIO(General Purpose InputOutput,通用输入/输出)有两根引脚,即为CPLD有两个输入引脚,此时SMC可以通过CPLD的两个输入引脚,设置SMC的不同运行阶段对应的喂狗周期。由于CPLD的两个输入引脚具有00b、01b、10b和11b四个电平状态,可支持四种喂狗周期的设置,这里使00b对应SMC操作系统启动阶段的设置,01b对应SMC管理进程运行阶段的设置,10b对应SMC管理固件更新阶段的设置,11b作为保留设置。通过对CPLD进行编程可实现对上述三种喂狗周期的设置的支持。这样一来,CPLD通过检测其引脚的电平即可确定出设置的喂狗周期。
本发明实施例提供了一种服务器管理系统,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,可编程硬件模块,其中,可编程硬件模块确定喂狗周期;可编程硬件模块确定在其内的定时子模块在到达喂狗周期期间,是否接收到SMC发送的喂狗信号;若可编程硬件模块在其内的定时子模块到达喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;SMC接收第一复位信号,并根据第一复位信号,进行复位处理。这样,服务器管理系统中的可编程硬件模块包含有定时子模块,且可编程硬件模块独立的SMC,在SMC发生异常时,可编程硬件模块可以向SMC发送第一复位信号,以便SMC根据第一复位信号进行复位。这样一来,包含有定时子模块的可编程硬件模块外置于SMC,在SMC发生故障时,可以及时复位SMC,从而可以提高SMC的可靠性,进而灵活有效的提高服务器管理系统的可靠性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种服务器管理的方法,其特征在于,应用于服务器管理系统,所述服务器管理系统包括系统管理控制器SMC,包含定时子模块可编程硬件模块,所述方法包括:
所述可编程硬件模块确定喂狗周期;
所述可编程硬件模块确定在其内的定时子模块到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号;
若所述可编程硬件模块在其内的定时子模块到达所述喂狗周期期间未接收到SMC发送的喂狗信号,则向SMC发出第一复位信号;
所述SMC接收所述第一复位信号,并根据所述第一复位信号,进行复位处理。
2.根据权利要求1所述的方法,其特征在于,在所述可编程硬件模块确定检测周期之前,还包括:
所述SMC向所述可编程硬件模块发送设置信息;所述设置信息用于指示出所述可编程硬件模块的喂狗周期;
所述可编程硬件模块确定喂狗周期包括:
所述可编程硬件模块根据所述设置信息,确定喂狗周期。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述可编程硬件模块在其内的定时子模块到达所述喂狗周期期间接收到所述SMC发送的喂狗信号,则所述可编程硬件模块将所述定时子模块清零,并重新确定其内的定时子模块在到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号。
4.根据权利要求2或3所述的方法,其特征在于,
所述SMC向所述可编程硬件模块发送设置信息包括:
所述SMC根据所述SMC的运行阶段,向可编程硬件模块发送设置信息;所述SMC的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
5.根据权利要求4所述的方法,其特征字在于,还包括:
所述服务器管理系统还包括:基板管理控制器BMC;在所述SMC处于所述SMC管理进程运行阶段时,所述方法还包括:
所述SMC在接收所述BMC发送的初始化完成信号时,向所述BMC发送状态报告周期;
所述BMC接收所述SMC发送的状态报告周期,并根据所述状态报告周期向所述SMC发送报告信息;
若所述SMC在BMC的状态报告周期内未接收到所述BMC发送的报告信息,则向所述BMC发送第二复位信号;
所述BMC接收所述第二复位信号,并根据所述第二复位信号进行复位处理。
6.一种服务器管理系统,其特征在于,包括:包含有定时子模块的可编程硬件模块,系统管理控制器SMC;其中,
所述可编程硬件模块,用于确定喂狗周期;
所述定时子模块,用于记录时间;
所述可编程硬件模块,还用于确定在其内的定时子模块到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号;
所述可编程硬件模块,还用于确定出其内的定时子模块到达所述喂狗周期期间未接收到SMC发送的喂狗信号时,向SMC发出第一复位信号;
所述SMC,用于接收所述第一复位信号,并根据所述第一复位信号,进行复位处理。
7.根据权利要求6所述的系统,其特征在于,
所述SMC,还用于向所述可编程硬件模块发送设置信息;所述设置信息用于指示出所述可编程硬件模块的喂狗周期;
所述可编程硬件模块,具体用于根据所述设置信息,确定喂狗周期。
8.根据权利要求7所述的系统,其特征在于,
所述可编程硬件模块,还用于确定出其内的定时子模块到达所述喂狗周期期间接收到所述SMC发送的喂狗信号时,将所述定时子模块记录的时间清零,并重新确定其内的定时子模块在到达所述喂狗周期期间,是否接收到所述SMC发送的喂狗信号。
9.根据权利要求7或8所述的系统,其特征在于,
所述SMC,具体用于根据所述SMC的运行阶段,向可编程硬件模块发送设置信息;所述SMC的运行阶段包括:SMC操作系统启动阶段,SMC管理进程运行阶段,SMC管理固件更新阶段。
10.根据权利要求9所述的系统,其特征在于,还包括:基板管理控制器BMC;
所述SMC,还用于在所述SMC处于所述SMC管理进程运行阶段时,若接收所述BMC发送的初始化完成信号时,向所述BMC发送状态报告周期;
所述BMC,用于接收所述SMC发送的状态报告周期,并根据所述状态报告周期向所述SMC发送报告信息;
所述SMC,还用于在BMC的状态报告周期内未接收到所述BMC发送的报告信息时,向所述BMC发送第二复位信号;
所述BMC,还用于接收所述第二复位信号,并根据所述第二复位信号进行复位处理。
CN201610202102.0A 2016-04-01 2016-04-01 一种服务器管理的方法及系统 Pending CN105912414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202102.0A CN105912414A (zh) 2016-04-01 2016-04-01 一种服务器管理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202102.0A CN105912414A (zh) 2016-04-01 2016-04-01 一种服务器管理的方法及系统

Publications (1)

Publication Number Publication Date
CN105912414A true CN105912414A (zh) 2016-08-31

Family

ID=56745390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202102.0A Pending CN105912414A (zh) 2016-04-01 2016-04-01 一种服务器管理的方法及系统

Country Status (1)

Country Link
CN (1) CN105912414A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
US20210365322A1 (en) * 2020-05-19 2021-11-25 EMC IP Holding Company LLC System and method for recovering an operating system after an upgrade hang using a dual-flash device
US11481278B2 (en) 2020-05-19 2022-10-25 EMC IP Holding Company LLC System and method for recovering an operating system after a runtime hang using a dual-flash device
US11550655B2 (en) 2020-05-19 2023-01-10 EMC IP Holding Company LLC System and method for monitoring and upgrading a dual-flash device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5513319A (en) * 1993-07-02 1996-04-30 Dell Usa, L.P. Watchdog timer for computer system reset
CN1917446A (zh) * 2006-09-04 2007-02-21 华为技术有限公司 服务器的故障恢复方法及系统
CN104049702A (zh) * 2014-06-16 2014-09-17 京信通信系统(中国)有限公司 一种基于单片机的cpu复位控制系统、方法及装置
CN105068880A (zh) * 2015-08-17 2015-11-18 上海斐讯数据通信技术有限公司 一种基于看门狗的设备复位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5513319A (en) * 1993-07-02 1996-04-30 Dell Usa, L.P. Watchdog timer for computer system reset
CN1917446A (zh) * 2006-09-04 2007-02-21 华为技术有限公司 服务器的故障恢复方法及系统
CN104049702A (zh) * 2014-06-16 2014-09-17 京信通信系统(中国)有限公司 一种基于单片机的cpu复位控制系统、方法及装置
CN105068880A (zh) * 2015-08-17 2015-11-18 上海斐讯数据通信技术有限公司 一种基于看门狗的设备复位方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
US20210365322A1 (en) * 2020-05-19 2021-11-25 EMC IP Holding Company LLC System and method for recovering an operating system after an upgrade hang using a dual-flash device
US11481278B2 (en) 2020-05-19 2022-10-25 EMC IP Holding Company LLC System and method for recovering an operating system after a runtime hang using a dual-flash device
US11550655B2 (en) 2020-05-19 2023-01-10 EMC IP Holding Company LLC System and method for monitoring and upgrading a dual-flash device
US11797389B2 (en) * 2020-05-19 2023-10-24 EMC IP Holding Company LLC System and method for recovering an operating system after an upgrade hang using a dual-flash device

Similar Documents

Publication Publication Date Title
CN106648958B (zh) 基本输入输出系统回复管理系统及其方法以及程序产品
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
CN104899055B (zh) 一种基于bios控制的me更新系统及其更新方法
US10102170B2 (en) System and method for providing input/output functionality by an I/O complex switch
US8397053B2 (en) Multi-motherboard server system
CN105912414A (zh) 一种服务器管理的方法及系统
US20200151048A1 (en) System for configurable error handling
CN117280327B (zh) 使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断
US11989548B2 (en) Pushing a firmware update patch to a computing device via an out-of-band path
CN101334735B (zh) 多处理器计算系统中单个处理器的代码更新的方法和系统
CN114201197A (zh) 固件升级方法、装置、电子设备及可读存储介质
CN111506331A (zh) 一种服务器bmc刷新方法、系统、终端及存储介质
CN114153477A (zh) Pcie驱动卡固件升级方法、装置、系统、设备及介质
CN107885626A (zh) 片上系统可编程器件的系统启动自检测的装置及方法
CN1856772A (zh) 用于确定一组健康的处理器和用来引导系统的关联固件的系统和方法
CN115145381A (zh) 一种远程重置bmc芯片的方法、系统、存储介质及设备
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
US11314582B2 (en) Systems and methods for dynamically resolving hardware failures in an information handling system
CN102043643B (zh) 安装中断事件处理程序的方法
CN105278968A (zh) 服务器及查询其配置状态的方法
CN102243601B (zh) 用来侦测及控制电脑主机状态的除错系统及其相关方法
US20240111579A1 (en) Termination of sidecar containers
TW201327139A (zh) 節點置換處理方法與使用其之伺服器系統
CN109165047B (zh) 维持图形处理器主板的正确时间的方法
CN117370152A (zh) 一种自动测试方法、装置、设备及机器可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160831