CN117234812B - 一种控制服务器重启的系统及方法 - Google Patents

一种控制服务器重启的系统及方法 Download PDF

Info

Publication number
CN117234812B
CN117234812B CN202311524845.6A CN202311524845A CN117234812B CN 117234812 B CN117234812 B CN 117234812B CN 202311524845 A CN202311524845 A CN 202311524845A CN 117234812 B CN117234812 B CN 117234812B
Authority
CN
China
Prior art keywords
downtime
processing unit
central processing
server
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311524845.6A
Other languages
English (en)
Other versions
CN117234812A (zh
Inventor
王启航
黄建新
晏显栋
曹俊标
费美婧
何建桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Hongtai Electronics Co ltd
Original Assignee
Zhongke Hongtai Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Hongtai Electronics Co ltd filed Critical Zhongke Hongtai Electronics Co ltd
Priority to CN202311524845.6A priority Critical patent/CN117234812B/zh
Publication of CN117234812A publication Critical patent/CN117234812A/zh
Application granted granted Critical
Publication of CN117234812B publication Critical patent/CN117234812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种控制服务器重启的系统及方法,该系统包括中央处理器和复杂可编程逻辑器件,中央处理器与复杂可编程逻辑器件电连接;中央处理器,用于在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向复杂可编程逻辑器件输出宕机信号,并接收复杂可编程逻辑器件输出的第一复位信号,基于第一复位信号执行服务器复位;复杂可编程逻辑器件,用于记录宕机信号的持续存在时间,根据持续存在时间输出第一复位信号给中央处理器,并将宕机信号和第一复位信号存入设定寄存器。本发明实现在服务器宕机后自动复位,避免大规模服务器集群中定位发生宕机问题的服务器再人工重启的情况,提升了服务器宕机后重启的时效性和便捷性。

Description

一种控制服务器重启的系统及方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种控制服务器重启的系统及方法。
背景技术
在服务器工作过程中,可能由于运行环境问题、服务器性能问题、数据丢失问题、数据损坏问题或服务器硬件问题等原因,导致服务器宕机。
目前,在服务器宕机后,只能手动重启服务器。如果是大规模服务器集群中的服务器出现宕机,则难以定位具体哪台服务器宕机,不能在服务器宕机后及时重启服务器,现有方案存在时效性和便捷性方面的问题。
发明内容
本发明实施例提供了一种控制服务器重启的系统及方法,可以提升服务器宕机后重启的时效性和便捷性。
根据本发明的一方面,提供了一种控制服务器重启的系统,包括:中央处理器和复杂可编程逻辑器件,所述中央处理器与复杂可编程逻辑器件电连接;
所述中央处理器,用于在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,并接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位,其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息;
所述复杂可编程逻辑器件,用于记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器。
可选地,该系统还包括:基板管理控制器;
所述基板管理控制器与复杂可编程逻辑器件通信连接,用于从所述设定寄存器中读取所述宕机信号和第一复位信号,并根据所述宕机信号和第一复位信号生成基板管理控制器日志。
通过上述方案,基板控制器从复杂可编程逻辑器件的寄存器中读取宕机信号和第一复位信号,以生成基板控制器日志,实现通过日志形式记录宕机信息和复位信息。
可选地,所述基板管理控制器与所述中央处理器通信连接,还用于:
根据所述基板管理控制器日志判断所述服务器是否成功复位;
若否,则发送第二复位信号给所述中央处理器,通过所述中央处理器根据所述第二复位信号执行服务器复位。
通过上述方案,在复杂可编程逻辑器件输出的第一复位信号未成功使中央处理器复位的情况下,通过基板管理控制器向中央处理器输出第二复位信号,以确保服务器成功复位,进一步提升了服务器宕机后重启的时效性和便捷性。
可选地,所述基板管理控制器与所述中央处理器通信连接,还用于:
发送所述基板管理控制器日志给中央处理器,以通过所述中央处理器根据所述基板管理控制器日志和中央处理器日志预测宕机时间。
通过上述方案,中央处理器可以根据基板管理控制器日志和中央处理器日志预测宕机时间,实现对未来服务器宕机的预警。
可选地,所述中央处理器还用于:
接收所述基板管理控制器日志,根据所述基板管理控制器日志获取服务器宕机信息;
根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态;
根据所述服务器宕机信息和工作状态信息预测宕机时间。
通过上述方案,可以根据基板管理控制器日志和中央处理器日志分析服务器发生宕机的影响因素,根据中央处理器日志分析影响因素的出现周期,从而,实现宕机时间预测,进而,实现对未来服务器宕机的预警。
可选地,包括:
所述中央处理器具体用于,在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号;接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位;
所述复杂可编程逻辑器件,具体用于通过看门狗模块记录所述宕机信号的持续存在时间,并在所述持续存在时间超过设定时间阈值时,输出所述第一复位信号给所述中央处理器的设定复位信号输入引脚,并将所述宕机信号和第一复位信号记录到设定寄存器。
通过上述方案,在自检编码停止在设定标志位时产生宕机信号,并输出宕机信号给复杂可编程逻辑器件,通过复杂可编程逻辑器件的看门狗模块监控宕机信号的持续存在时间,根据宕机信号的持续存在时间输出第一复位信号给中央处理器,提升了服务器宕机后重启的执行效率。
根据本发明的另一方面,提供了一种控制服务器重启的方法,应用于本发明第一方面所述的控制服务器重启的系统,包括:
所述中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,并接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位,其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息;
所述复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器。
可选地,在根据所述宕机信号和第一复位信号更新设定寄存器之后,还包括:
所述基板管理控制器根据所述宕机信号和第一复位信号生成基板管理控制器日志;
根据所述基板管理控制器日志判断所述服务器是否成功复位;
若否,则发送第二复位信号给所述中央处理器,通过所述中央处理器根据所述第二复位信号执行服务器复位。
通过上述方案,在复杂可编程逻辑器件输出的第一复位信号未成功使中央处理器复位的情况下,通过基板管理控制器向中央处理器输出第二复位信号,以确保服务器成功复位,进一步提升了服务器宕机后重启的时效性和便捷性。
可选地,在所述基板管理控制器根据所述宕机信号和第一复位信号生成基板管理控制器日志之后,还包括:
所述基板管理控制器发送所述基板管理控制器日志给中央处理器;
中央处理器根据所述基板管理控制器日志获取服务器宕机信息;
中央处理器根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态;
中央处理器根据所述服务器宕机信息和工作状态信息预测宕机时间。
通过上述方案,可以根据基板管理控制器日志和中央处理器日志分析服务器发生宕机的影响因素,根据中央处理器日志分析影响因素的出现周期,从而,实现宕机时间预测,进而,实现对未来服务器宕机的预警。
可选地,所述中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,包括:
所述中央处理器在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号;
以及,所述复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,包括:
所述复杂可编程逻辑器件通过看门狗模块记录所述宕机信号的持续存在时间,并在所述持续存在时间超过设定时间阈值时,输出所述第一复位信号给所述中央处理器的设定复位信号输入引脚。
通过上述方案,在自检编码停止在设定标志位时产生宕机信号,并输出宕机信号给复杂可编程逻辑器件,通过复杂可编程逻辑器件的看门狗模块监控宕机信号的持续存在时间,根据宕机信号的持续存在时间输出第一复位信号给中央处理器,提升了服务器宕机后重启的执行效率。
本发明实施例的技术方案提供一种控制服务器重启的系统,中央处理器在服务器开机自检编码停止在设定标志位时产生异常执行信息,并根据异常执行信息向复杂可编程逻辑器件输出宕机信号,通过复杂可编程逻辑器件根据宕机信号的持续存在时间输出第一复位信号给中央处理器,中央处理器基于第一复位信号执行自动复位,实现在服务器宕机后自动复位,避免大规模服务器集群中定位发生宕机问题的服务器再人工重启的情况,提升了服务器宕机后重启的时效性和便捷性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种控制服务器重启的系统的结构示意图;
图2为本发明实施例提供的一种控制服务器重启的系统的电路原理图;
图3为本发明实施例提供的一种控制服务器重启的方法的流程示意图;
图4为本发明实施例提供的另一种控制服务器重启的方法的流程示意图;
图5为本发明实施例通过的又一种控制服务器重启的方法的流程示意图;
图6为本发明实施例提供的又一种控制服务器重启的方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明实施例提供的一种控制服务器重启的系统的结构示意图,本实施例可适用于服务器宕机后重启的情况。该控制服务器重启的系统100包括中央处理器(Central Processing Unit,CPU)110和复杂可编程逻辑器件(Complex ProgrammableLogic Device,CPLD)120,所述中央处理器110与复杂可编程逻辑器件120电连接。如图1所示,该系统包括:
所述中央处理器110,用于在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件120输出宕机信号,并接收所述复杂可编程逻辑器件120输出的第一复位信号, 基于所述第一复位信号执行服务器复位,其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息;
所述复杂可编程逻辑器件120,用于记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器110,并根据所述宕机信号和第一复位信号更新设定寄存器。
本发明实施例中,在服务器上电之后,复杂可编程逻辑器件在确认供电正常后,发送power good信号给中央处理器,以通知中央处理器该复杂可编程逻辑器件已成功上电。中央处理器在确定供电正常的情况下,向复杂可编程逻辑器件再发出一个power good out信号给复杂可编程逻辑器件。然后,BIOS(Basic Input Output System,基础输入输出系统)执行自检编码。其中,自检编码可以为POST(Power On Self Test,上电自检)程序等。若在POST程序执行到0xAD标志位之时停止执行,则BOIS返回异常执行信息给中央处理器。
可选地,中央处理器监控POST的执行过程,若检测到POST程序停止在0xAD标志位,则产生自检编码的异常执行信息。
中央处理器根据异常执行信息拉低设定宕机信号输出引脚的电平。其中,设定宕机信号输出引脚用于记录服务器宕机情况,可以通过BIOS灵活配置作为设定宕机信号输出引脚的中央处理器引脚。可选地,设定宕机信号输出引脚可以为GPIO(General-purposeinput/output,通用型之输入输出的)引脚。
由于宕机信号输出引脚的电平被拉低后,并不会一直输出低电平,在持续输出设定时间的低电平之后,宕机信号输出引脚电平被拉高。
复杂可编程逻辑器件的宕机信号输入引脚与中央处理器的宕机信号输出引脚电连接,以接收中央处理器输出的宕机信号。由于在自检编码停止在设定标志位后,宕机信号输出引脚的电平被拉低,并输出低电平至复杂可编程逻辑器件的宕机信号输入引脚。然后,在持续输出设定时间的低电平之后,宕机信号输出引脚电平被拉高,复杂可编程逻辑器件可以记录宕机信号的持续存在时间,根据持续存在时间输出第一复位信号给中央处理器。
可选地,复杂可编程逻辑器件将宕机信号和第一复位信号记录至设定寄存器,以供基板管理控制器(Baseboard Management Controller,BMC)读取。其中,基板管理控制器与复杂可编程逻辑器件基于I2C总线协议通信连接。
示例性地,基板管理控制器与复杂可编程逻辑器件通信连接,用于从设定寄存器中读取宕机信号和第一复位信号,并根据宕机信号和第一复位信号生成基板管理控制器日志。
其中,基板管理控制器日志可以为系统事件日志(System Event Log,SEL),在SEL中记载宕机信号和第一复位信号等服务器宕机相关的信息。
例如,基板管理控制器根据宕机发生时间和宕机信号标识,以及复杂可编程逻辑器件输出第一复位信号的时间和复位信号标识生成基板管理控制器日志。需要说明的是,基板管理控制器日志还可以包括其他宕机相关信息和复位相关信息,本公开实施例并不作具体限定。
进一步地,所述中央处理器具体用于,在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号;接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位;
所述复杂可编程逻辑器件,具体用于通过看门狗模块记录所述宕机信号的持续存在时间,并在所述持续存在时间超过设定时间阈值时,输出所述第一复位信号给所述中央处理器的设定复位信号输入引脚,并将所述宕机信号和第一复位信号记录到设定寄存器。
图2为本发明实施例提供的一种控制服务器重启的系统的电路原理图。如图2所示,中央处理器210的设定宕机信号输出引脚与复杂可编程逻辑器件220的宕机信号输入引脚电连接。中央处理器210的设定宕机信号输出引脚串联第一上拉电阻后与电源VCC电连接。中央处理器210的设定复位信号输入引脚与复杂可编程逻辑器件220的设定复位信号输出引脚电连接。复杂可编程逻辑器件220的设定复位信号输出引脚串联第二上拉电阻后与电源VCC电连接。复杂可编程逻辑器件220包括一个设定寄存器221,该设定寄存器221用于存储宕机信号和第一复位信号。基板管理控制器230与复杂可编程逻辑器件220基于I2C总线协议通信连接。基板管理控制器230通过I2C总线读取设定寄存器221里面的存储宕机信号和第一复位信号。
本发明实施例的技术方案提供一种控制服务器重启的系统,中央处理器通过服务器开机自检编码停止在设定标志位产生异常执行信息,并根据异常执行信息向复杂可编程逻辑器件输出宕机信号,通过复杂可编程逻辑器件根据宕机信号的持续存在时间输出第一复位信号给中央处理器,中央处理器基于第一复位信号执行自动复位,实现在服务器宕机后自动复位,避免大规模服务器集群中定位发生宕机问题的服务器再人工重启的情况,提升了服务器宕机后重启的时效性和便捷性。
在本发明一些实施例中,基板管理控制器与所述中央处理器通信连接,还用于:根据基板管理控制器日志判断服务器器是否成功复位;若否,则发送第二复位信号给中央处理器,通过中央处理器根据第二复位信号执行服务器复位。由于基板管理控制器日志基于宕机信号和第一复位信号生成,若在向中央处理器发送第一复位信号之后,在设定时间段内基板管理控制器日志中再次出现宕机信号,则确定服务器复位失败,则发送第二复位信号给中央处理器。或者,基于基本管理控制器日志检测到出现复位失败的次数超过设定次数阈值时,发送第二复位信号给中央处理器。设定次数阈值可以根据实际情况灵活设定。其中,第二复位信号可以为bmc_rstbtn_out_n信号,可以通过基板管理控制器拉低bmc_rstbtn_out_n信号复位服务器。
若在向中央处理器发送第一复位信号之后,在设定时间段内基板管理控制器日志中未再次出现宕机信号,则基板管理控制器确定服务器成功复位,放弃向中央处理器发送第二复位信号。
通过上述方案,可以在复杂可编程逻辑器件输出的第一复位信号未成功使服务器复位的情况下,通过基板管理控制器向中央处理器输出第二复位信号,以确保服务器成功复位,进一步提升了服务器宕机后重启的时效性和便捷性。
在本发明一些实施例中,基板管理控制器与所述中央处理器通信连接,还用于:发送基板管理控制器日志给中央处理器,以通过中央处理器根据基板管理控制器日志和中央处理器日志预测宕机时间。
示例性地,中央处理器还用于:接收所述基板管理控制器日志,根据所述基板管理控制器日志获取服务器宕机信息;根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态;根据所述服务器宕机信息和工作状态信息预测宕机时间。
其中,服务器宕机信息表征服务器发生宕机的时间和宕机信号标识。由于复杂可编程逻辑器件在接收到宕机信号时,将宕机信号记录到设定寄存器。中央处理器在接收到基板管理控制器日志之后,解析基板管理控制器日志,并根据宕机信号标识获取各次服务器宕机发生的时间。并且,中央处理器解析中央处理器日志获取中央处理器中各个电子部件的工作环境和运行状态。然后,中央处理器根据服务器宕机发生的时间匹配对应时段中各个电子部件的工作环境和运行状态,再根据匹配成功的各个电子部件的工作环境和运行状态确定服务器发生宕机的影响因素。再根据中央处理器日志中上述影响因素的出现周期,预测未来服务器发生宕机的时间。
通过上述方案,可以根据基板管理控制器日志和中央处理器日志分析服务器发生宕机的影响因素,根据中央处理器日志分析影响因素的出现周期,从而,实现宕机时间预测,进而,实现对未来服务器宕机的预警。
图3为本发明实施例提供的一种控制服务器重启的方法的流程示意图。本实施例可适用于服务器宕机后重启的情况。该方法可以通过本发明任意实施例所述的控制服务器重启的系统执行。如图3所示,该方法包括:
S310、中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,并接收所述复杂可编程逻辑器件输出的第一复位信号,基于所述第一复位信号执行服务器复位。
其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息。
在服务器开机后,BIOS执行POST程序,若在POST程序执行到0xAD标志位之时停止执行,则BOIS返回异常执行信息给中央处理器。或者,中央处理器监控POST的执行过程,若检测到POST程序停止在0xAD标志位,则产生自检编码的异常执行信息。
中央处理器根据异常执行信息拉低设定GPIO的电平,使该设定GPIO输出宕机信号给复杂可编程逻辑器件的宕机信号输入引脚。由于宕机信号输出引脚的电平被拉低后,并不会一直输出低电平,在持续输出设定时间的低电平之后,宕机信号输出引脚电平被拉高。中央处理器在接收到第一复位信号后,根据第一复位信号执行服务器重启。其中,第一复位信号由复杂可编程逻辑器件输出至中央处理器。
示例性地,中央处理器在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号。
S320、复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器。
由于在自检编码停止在设定标志位后,宕机信号输出引脚的电平被拉低,并输出低电平至复杂可编程逻辑器件的宕机信号输入引脚。然后,在持续输出设定时间的低电平之后,宕机信号输出引脚电平被拉高,复杂可编程逻辑器件可以记录宕机信号的持续存在时间,根据持续存在时间输出第一复位信号给中央处理器。复杂可编程逻辑器件还将宕机信号和第一复位信号存入设定寄存器。基板管理控制器与复杂可编程逻辑器件基于I2C总线协议通信连接。基板管理控制器通过I2C总线读取设定寄存器里面的存储宕机信号和第一复位信号。
示例性地,复杂可编程逻辑器件通过看门狗模块记录宕机信号的持续存在时间,并在持续存在时间超过设定时间阈值时,输出第一复位信号给所述中央处理器的设定复位信号输入引脚。
本发明实施例的技术方案提供一种控制服务器重启的方法,中央处理器在服务器开机自检编码停止在设定标志位时产生异常执行信息,并根据异常执行信息向复杂可编程逻辑器件输出宕机信号,通过复杂可编程逻辑器件根据宕机信号的持续存在时间输出第一复位信号给中央处理器,中央处理器基于第一复位信号执行自动复位,实现在服务器宕机后自动复位,避免大规模服务器集群中定位发生宕机问题的服务器再人工重启的情况,提升了服务器宕机后重启的时效性和便捷性。
图4为本发明实施例提供的另一种控制服务器重启的方法的流程示意图。本发明实施例在上述各实施例的基础上,附加限定了基板管理控制器输出第二复位信号给中央处理器的步骤。如图4所示,该方法包括:
S401、中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号。
S402、复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器。
S403、中央处理器接收所述复杂可编程逻辑器件输出的第一复位信号,基于所述第一复位信号执行服务器复位。
S404、基板管理控制器根据所述宕机信号和第一复位信号生成基板管理控制器日志。
S405、基板管理控制器根据所述基板管理控制器日志判断服务器是否成功复位,若是,则执行S406,否则执行S407。
S406、基板管理控制器放弃向中央处理器发送第二复位信号。
S407、基板管理控制器向中央处理器发送第二复位信号。
在上述实施例中,S402的执行流程如图5所示,图5为本发明实施例通过的又一种控制服务器重启的方法的流程示意图。如图5所示,该方法包括:
S510、CPU检测到服务器宕机。
S520、BIOS拉低设定宕机信号输出引脚的电平,以输出宕机信号。
S530、CPLD接收到设定宕机信号输出引脚输出的宕机信号。
S540、CPLD将此次宕机的信息记录在内部寄存器内,以供BMC读取。
其中,宕机的信息可以包括宕机时间和宕机信号等。
S550、CPLD判断设定宕机信号输出引脚的电平拉低时间是否达到设定时间,若是,则执行S560,否则执行S570。
S560、CPLD向CPU输出第一复位信号,以复位CPU。
S570、CPLD放弃向CPU输出第一复位信号。
通过上述方案,可以在复杂可编程逻辑器件输出的第一复位信号未成功使中央处理器复位的情况下,通过基板管理控制器向中央处理器输出第二复位信号,以确保服务器成功复位,进一步提升了服务器宕机后重启的时效性和便捷性。
图6为本发明实施例提供的有一种控制服务器重启的方法的流程示意图。本发明实施例在上述各实施例的基础上,附加限定了预测宕机时间的步骤。如图6所示,该方法包括:
S601、中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号。
S602、复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器。
S603、中央处理器接收所述复杂可编程逻辑器件输出的第一复位信号,基于所述第一复位信号执行服务器复位。
S604、基板管理控制器根据所述宕机信号和第一复位信号生成基板管理控制器日志。
S605、基板管理控制器根据所述基板管理控制器日志判断服务器是否成功复位,若是,则执行S606,否则执行S607。
S606、基板管理控制器放弃向中央处理器发送第二复位信号,执行S609。
S607、基板管理控制器向中央处理器发送第二复位信号。
S608、中央处理器接收所述复杂可编程逻辑器件输出的第二复位信号,基于所述第二复位信号执行复位。
S609、基板管理控制器发送所述基板管理控制器日志给中央处理器。
S610、中央处理器根据所述基板管理控制器日志获取服务器宕机信息。
S611、中央处理器根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态。
S612、中央处理器根据所述服务器宕机信息和工作状态信息预测宕机时间。
通过上述方案可以根据基板管理控制器日志和中央处理器日志分析服务器发生宕机的影响因素,根据中央处理器日志分析影响因素的出现周期,从而,实现宕机时间预测。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种控制服务器重启的系统,其特征在于,包括:中央处理器、基板管理控制器和复杂可编程逻辑器件,所述中央处理器与复杂可编程逻辑器件电连接,所述中央处理器与基板管理控制器通信连接;
所述中央处理器,用于在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,并接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位,其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息;
所述复杂可编程逻辑器件,用于记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器;
所述中央处理器还用于:
接收基板管理控制器日志,根据所述基板管理控制器日志获取服务器宕机信息;
根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态;
根据所述服务器宕机信息和工作状态信息预测宕机时间。
2.根据权利要求1所述的系统,其特征在于,还包括:
所述基板管理控制器与复杂可编程逻辑器件通信连接,用于从所述设定寄存器中读取所述宕机信号和第一复位信号,并根据所述宕机信号和第一复位信号生成基板管理控制器日志。
3.根据权利要求2所述的系统,其特征在于,所述基板管理控制器,还用于:
根据所述基板管理控制器日志判断所述服务器是否成功复位;
若否,则发送第二复位信号给所述中央处理器,通过所述中央处理器根据所述第二复位信号执行服务器复位。
4.根据权利要求2所述的系统,其特征在于,所述基板管理控制器,还用于:
发送所述基板管理控制器日志给中央处理器,以通过所述中央处理器根据所述基板管理控制器日志和中央处理器日志预测宕机时间。
5.根据权利要求1所述的系统,其特征在于,包括:
所述中央处理器具体用于,在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号;接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位;
所述复杂可编程逻辑器件,具体用于通过看门狗模块记录所述宕机信号的持续存在时间,并在所述持续存在时间超过设定时间阈值时,输出所述第一复位信号给所述中央处理器的设定复位信号输入引脚,并将所述宕机信号和第一复位信号记录到设定寄存器。
6.一种控制服务器重启的方法,其特征在于,应用于所述权利要求1-5中任一项所述的控制服务器重启的系统,包括:
中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,并接收所述复杂可编程逻辑器件输出的第一复位信号, 基于所述第一复位信号执行服务器复位,其中,所述异常执行信息表征所述自检编码停止在设定标志位后产生的错误信息;
复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,并根据所述宕机信号和第一复位信号更新设定寄存器;
所述方法还包括:
所述基板管理控制器发送所述基板管理控制器日志给中央处理器;
根据基板管理控制器日志获取服务器宕机信息;
中央处理器根据中央处理器日志获取工作状态信息,其中,所述工作状态信息表征所述中央处理器中各个电子部件的工作环境和运行状态;
中央处理器根据所述服务器宕机信息和工作状态信息预测宕机时间。
7.根据权利要求6所述的方法,其特征在于,在根据所述宕机信号和第一复位信号更新设定寄存器之后,还包括:
基板管理控制器根据所述宕机信号和第一复位信号生成基板管理控制器日志;
根据所述基板管理控制器日志判断所述服务器是否成功复位;
若否,则发送第二复位信号给所述中央处理器,通过所述中央处理器根据所述第二复位信号执行服务器复位。
8.根据权利要求6所述的方法,其特征在于,所述中央处理器在服务器开机自检过程中,根据自检编码的异常执行信息在设定的时间段内持续向所述复杂可编程逻辑器件输出宕机信号,包括:
所述中央处理器在服务器开机自检过程中,若检测到自检编码停止在设定标志位,则通过拉低设定宕机信号输出引脚的电平以产生宕机信号,通过设定宕机信号输出引脚向所述复杂可编程逻辑器件输出所述宕机信号;
以及,所述复杂可编程逻辑器件记录所述宕机信号的持续存在时间,根据所述持续存在时间输出第一复位信号给所述中央处理器,包括:
所述复杂可编程逻辑器件通过看门狗模块记录所述宕机信号的持续存在时间,并在所述持续存在时间超过设定时间阈值时,输出所述第一复位信号给所述中央处理器的设定复位信号输入引脚。
CN202311524845.6A 2023-11-16 2023-11-16 一种控制服务器重启的系统及方法 Active CN117234812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311524845.6A CN117234812B (zh) 2023-11-16 2023-11-16 一种控制服务器重启的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311524845.6A CN117234812B (zh) 2023-11-16 2023-11-16 一种控制服务器重启的系统及方法

Publications (2)

Publication Number Publication Date
CN117234812A CN117234812A (zh) 2023-12-15
CN117234812B true CN117234812B (zh) 2024-01-30

Family

ID=89093440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311524845.6A Active CN117234812B (zh) 2023-11-16 2023-11-16 一种控制服务器重启的系统及方法

Country Status (1)

Country Link
CN (1) CN117234812B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN209297143U (zh) * 2019-03-14 2019-08-23 杭州海康威视数字技术股份有限公司 一种异常监控系统
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN115550291A (zh) * 2022-11-30 2022-12-30 苏州浪潮智能科技有限公司 交换机的复位系统及方法、存储介质、电子设备
CN116107819A (zh) * 2022-12-16 2023-05-12 苏州浪潮智能科技有限公司 一种服务器启动故障检测系统、方法、装置以及介质
CN116820827A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 一种节点服务器的基板管理控制器的控制方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991629B (zh) * 2015-07-10 2017-11-24 英业达科技有限公司 电源失效侦测系统与其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN209297143U (zh) * 2019-03-14 2019-08-23 杭州海康威视数字技术股份有限公司 一种异常监控系统
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN115550291A (zh) * 2022-11-30 2022-12-30 苏州浪潮智能科技有限公司 交换机的复位系统及方法、存储介质、电子设备
CN116107819A (zh) * 2022-12-16 2023-05-12 苏州浪潮智能科技有限公司 一种服务器启动故障检测系统、方法、装置以及介质
CN116820827A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 一种节点服务器的基板管理控制器的控制方法及其系统

Also Published As

Publication number Publication date
CN117234812A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN102244591A (zh) 客户端服务器及对其功能测试全程监测的方法
US8234526B2 (en) Computer system and monitoring device
CN111796959A (zh) 宿主机容器自愈方法、装置及系统
CN112100027A (zh) 一种服务器维护方法、装置、设备及机器可读存储介质
CN112732477A (zh) 一种带外自检故障隔离的方法
CN111367743A (zh) 一种循环重启测试过程中服务器掉电的诊断方法及系统
US6973412B2 (en) Method and apparatus involving a hierarchy of field replaceable units containing stored data
CN111966380A (zh) 一种bmc固件升级方法、系统、终端及存储介质
CN111176897A (zh) 一种封闭式bios自修复方法、系统、终端及存储介质
CN117234812B (zh) 一种控制服务器重启的系统及方法
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN113672306A (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN113076210B (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN111913551B (zh) 重置基板管理控制器的控制方法
CN113742120A (zh) 一种kdump触发方法、系统、设备以及介质
CN114253573A (zh) PCIe设备固件批量升级方法、系统、终端及存储介质
CN109684134B (zh) 用于在多个设备间快速部署固件设定的方法及服务器
JP2020086606A (ja) 情報処理装置及び制御プログラム
CN117311769B (zh) 服务器日志生成方法和装置、存储介质及电子设备
CN116340957B (zh) 程序启动方法、装置、服务器及非易失性存储介质
CN112084085B (zh) 系统断电记录方法
CN116126607A (zh) 诊断测试方法、装置、设备及存储介质
CN116680101A (zh) 一种操作系统宕机检测方法及装置、消除方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant