CN113360347A

CN113360347A - 一种服务器及其控制方法

Info

Publication number: CN113360347A
Application number: CN202110735814.XA
Authority: CN
Inventors: 袁迎春
Original assignee: Nanchang Huaqin Electronic Technology Co ltd
Current assignee: Nanchang Huaqin Electronic Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-07
Anticipated expiration: 2041-06-30
Also published as: CN113360347B; WO2023273085A1

Abstract

本发明实施例涉及计算机网络领域，公开了一种服务器及其控制方法。本发明中，服务器包括：存储器、与存储器相连的CPU、与CPU相连以给CPU供电的第一电源、与CPU通信连接的监控模块，以及与监控模块相连以给监控模块供电的第二电源，第一电源和第二电源独立设置；存储器用于存储操作系统，其中，操作系统包括主操作系统和备份操作系统；监控模块用于检测并记录CPU上当前运行的操作系统的崩溃次数；CPU用于当崩溃次数大于预设阈值时重启，以将CPU上运行的操作系统在主操作系统和备份操作系统之间进行切换。本发明实施例提供的服务器及其控制方法，能够自行恢复CPU上运行的操作系统，从而对中断业务进行自动恢复，提高服务器的稳定性，降低维护成本。

Description

一种服务器及其控制方法

技术领域

本发明实施例涉及计算机网络领域，特别涉及一种服务器及其控制方法。

背景技术

操作系统是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务。

对于传统的运算型服务器，其处于机房之中，可以实现族群之间的互相备份来增加抗风险能力，当业务中断时，不会造成较大影响。

发明人发现现有技术中至少存在如下问题：对于边缘服务器(单节点的主机)，由于缺乏足够的冗余节点备份，无法实现族群备份，当遇到诸如意外掉电，外界撞击，软件崩溃等情况时，可能会导致操作系统崩溃，运算业务中断，导致边缘服务器的运行稳定性不高；并且，由于边缘服务器分布较广，人工维护的时间成本和人工成本均较高。

发明内容

本发明实施方式的目的在于提供一种服务器及其控制方法，能够自行恢复CPU上运行的操作系统，从而对中断业务进行自动恢复，提高服务器的稳定性，降低维护成本。

为解决上述技术问题，本发明的实施方式提供了一种服务器，包括：存储器、与所述存储器相连的CPU、与所述CPU相连以给所述CPU供电的第一电源、与所述CPU通信连接的监控模块，以及与所述监控模块相连以给所述监控模块供电的第二电源，所述第一电源和所述第二电源独立设置；所述存储器用于存储操作系统，其中，所述操作系统包括主操作系统和备份操作系统；所述监控模块用于检测并记录所述CPU上当前运行的操作系统的崩溃次数；所述CPU用于当所述崩溃次数大于预设阈值时重启，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

本发明的实施方式还提供了一种服务器的控制方法，所述服务器包括：存储器、与所述存储器相连的CPU、与所述CPU通信连接的监控模块，所述方法包括：

所述监控模块检测并记录所述CPU上当前运行的操作系统的崩溃次数；在所述崩溃次数大于预设阈值时重启CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

本发明实施方式相对于现有技术而言，通过存储器存储冗余的操作系统(主操作系统和备份操作系统)，当CPU上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换，使得CPU上运行的操作系统切换到另一备用的操作系统，从而自行恢复CPU上运行的操作系统，以对中断业务进行自动恢复，提高了服务器的稳定性，同时，无需人工赶往服务器所在场地进行人工维护，降低了维护成本。

另外，所述监控模块包括看门狗计数器和超时次数计数器；所述CPU用于每隔第一预设时长向所述看门狗计数器发送清零信号；所述看门狗计数器用于不断增加计数，直到接收到所述清零信号或计数超过计数阈值时，进行清零；所述超时次数计数器用于在所述看门狗计数器的计数超过所述计数阈值时增加一次超时计数，并在所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换后清零；所述CPU用于当所述超时计数大于所述预设阈值时，重启所述CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

另外，所述监控模块还包括状态寄存器，所述状态寄存器中存储有操作系统类型参数；所述操作系统类型参数用于切换所述CPU上运行的操作系统为第一操作系统；其中，所述操作系统类型参数用于表征所述CPU上当前运行的操作系统为主操作系统和备份操作系统中一者，所述第一操作系统为主操作系统或备份操作系统中另一者。

另外，还包括只读内存，所述只读内存用于存储基本输入输出系统；所述基本输入输出系统用于在所述CPU重启时被运行，并从所述监控模块读取所述崩溃次数，根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行。

另外，所述基本输入输出系统还用于在调整所述CPU上运行的操作系统为第一操作系统后，停止被运行，直到下一次重启所述CPU。

另外，还包括：与所述CPU和所述监控模块均相连的管理模块；所述管理模块用于接收所述CPU发送的清零信号，并转发给所述看门狗计数器。

另外，所述管理模块还用于记录所述CPU的重启信息，其中，所述重启信息用于表征所述CPU上运行的操作系统是否已成功切换；所述管理模块包括用于供其他设备查询所述重启信息的管理网口。如此设置，能够经由管理网口在其他设备上查看记录所述CPU的重启信息，了解到CPU的运行状况，以便在CPU的运行状况不佳时及时采取干预措施，保证服务器的稳定运行。

另外，所述CPU还用于在掉电后的启动时，运行默认操作系统，其中，所述默认操作系统为主操作系统或备份操作系统。

另外，在所述CPU重启时运行基本输入输出系统；所述基本输入输出系统从所述监控模块读取所述崩溃次数，根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行，并停止基本输入输出系统被运行，直到下一次重启所述CPU；所述CPU读取配置文件，开始运行业务，并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明第一实施方式中的服务器的结构示意图；

图2是本发明第一实施方式中的服务器和配置服务器的示意图；

图3是本发明第一实施方式中的一种服务器(设置管理模块)的结构示意图；

图4是本发明第一实施方式中的另一种服务器(不设置管理模块)的结构示意图；

图5是本发明第一实施方式中的服务器崩溃次数大于预设阈值时重启的流程图；

图6是本发明第二实施方式中的服务器的控制方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种服务器，如图1所示，包括：存储器11、与存储器11相连的CPU12、与CPU12相连以给CPU12供电的第一电源、与CPU12通信连接的监控模块13，以及与监控模块13相连以给监控模块13供电的第二电源，第一电源和第二电源独立设置(即，监控模块13和CPU12单独供电)；存储器11用于存储操作系统(operating system，简称OS)，其中，操作系统包括主操作系统和备份操作系统；监控模块13用于检测并记录CPU12上当前运行的操作系统的崩溃次数；CPU12用于当崩溃次数大于预设阈值时重启，以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换，其中，预设阈值可以根据需要进行设置，例如，可以设置为3次。

通过存储器11存储冗余的操作系统(主操作系统和备份操作系统)，当CPU12上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU12，以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换，使得CPU12上运行的操作系统切换到另一备用的操作系统，从而自行恢复CPU12上运行的操作系统，以对中断业务进行自动恢复，提高了服务器的稳定性，同时，无需人工赶往服务器所在场地进行人工维护，降低了维护成本。

本实施方式中，重启CPU12具体可以为，CPLD来进行第一电源的电源控制，CPLD可以直接连接到第一电源相关的信号，直接通过操作信号进行第一电源的电源控制，从而实现重启。

实际应用中，存储器11还用于存储固件，固件是指设备内部保存的设备“驱动程序”，通过固件，操作系统才能按照标准的设备驱动实现特定机器的运行动作，比如光驱、刻录机等都有内部固件。如图2所示，业务程序的配置文件放置于配置服务器，本地机器上的两个操作系统(主操作系统和备份操作系统)中配置业务程序的执行单元。

其中，监控模块13可以为复杂可编程逻辑器件(Complex Programmable logicdevice，简称CPLD)，用来监控业务程序、操作系统和固件的执行状态，它采用CMOS EPROM、EEPROM、快闪存储器11和SRAM等编程技术，从而构成了高密度、高速度和低功耗的可编程逻辑器件。

具体的，监控模块13可以包括看门狗计数器和超时次数计数器，CPU12用于每隔第一预设时长向看门狗计数器发送清零信号，看门狗计数器用于不断增加计数，直到接收到清零信号或计数超过计数阈值时，进行清零，超时次数计数器用于在看门狗计数器的计数超过计数阈值时增加一次超时计数，并在CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换后清零，CPU12用于当超时计数大于预设阈值时，重启CPU12，以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换。也就是说，CPU12每隔第一预设时长喂看门狗(Watchdog Timer，简称WDT)，当CPU12发生系统崩溃而停止喂狗，则看门狗计数器超时，监控模块13记录一次系统崩溃。

可选的，监控模块13还可以包括状态寄存器，状态寄存器中存储有操作系统类型参数，操作系统类型参数用于切换CPU12上运行的操作系统为第一操作系统，其中，操作系统类型参数用于表征CPU12上当前运行的操作系统为主操作系统和备份操作系统中一者，第一操作系统为主操作系统或备份操作系统中另一者。也就是说，状态寄存器记录CPU12上当前运行的操作系统为主操作系统还是备份操作系统，以便根据崩溃次数和当前处于哪个操作系统，联合判断是否切换。

实际应用中，服务器还可以包括只读内存14(ROM芯片)，只读内存14用于存储基本输入输出系统，基本输入输出系统用于在CPU12重启时被运行，并从监控模块13读取崩溃次数，根据崩溃次数确认启动主操作系统还是所述备份操作系统在CPU12上运行，具体的，基本输入输出系统还可以用于在调整CPU12上运行的操作系统为第一操作系统后，停止被运行，直到下一次重启CPU12。

其中，基本输入输出系统(Basic Input Output System,简称BIOS)，是一种业界标准的固件接口。它是一组固化到计算机内主板上一个ROM芯片上的程序，它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序，它可从CMOS中读写系统设置的具体信息。

本实施方式中，如图3所示，服务器还可以包括：与CPU12和监控模块13均相连的管理模块15，管理模块15用于接收CPU12发送的清零信号，并转发给看门狗计数器，并且，CPU12可以经由管理模块15获取超时次数计数器中存储的超时计数。

实际应用中，服务器还可以包括：与管理模块15相连以给管理模块15供电的第三电源，第三电源和第一电源独立设置，从而避免第一电源损坏对管理模块15的运行造成影响。

可选的，管理模块15还可以用于记录CPU12的重启信息，其中，重启信息用于表征CPU12上运行的操作系统是否已成功切换，例如，“OS1(主操作系统)失败，切换到OS2(备份操作系统)成功”或者“OS2(备份操作系统)切换失败”等信息，管理模块15包括用于供其他设备查询重启信息的管理网口。如此设置，能够经由管理网口在其他设备上查看记录CPU12的重启信息，实现远程查询这些记录的功能，从而了解到CPU12的运行状况，以便在CPU12的运行状况不佳时及时采取干预措施，保证服务器的稳定运行。

具体的说，管理模块15可以为基板管理控制器(Baseboard Manager Controller，简称BMC)，服务器还包括与CPU12相连的主板，基板管理控制器与主板经由IPMI交互协议通信。其中，BMC可以在机器未开机的状态下，对机器进行固件升级、查看机器设备等一些操作。IPMI(Intelligent Platform Management Interface，智能平台管理接口)是一种开放标准的硬件管理接口规格，定义了嵌入式管理子系统进行通信的特定方法。IPMI信息通过BMC(位于IPMI规格的硬件组件上)进行交流。使用低级硬件智能管理而不使用操作系统进行管理，具有两个主要优点：首先，此配置允许进行带外服务器管理；其次，操作系统不必负担传输系统状态数据的任务。

当然，如图4所示，也可以不设置管理模块15，看门狗计数器直接接收CPU12发送的清零信号，后续CPU12无需经由管理模块15、而是直接获取超时次数计数器中存储的超时计数。

实际应用中，CPU12还可以用于在掉电后的启动时，运行默认操作系统，其中，默认操作系统为主操作系统或备份操作系统，本实施方式中，在掉电后的启动时，运行主操作系统。也就是说，在掉电后的启动时，先运行BIOS，以便从CMOS中读写系统设置的具体信息，实现开机后自检，之后将使用权交给主操作系统，同时打开CPLD，并停止BIOS自身的运行，直到崩溃次数大于预设阈值时重启。

如图5所示，为崩溃次数大于预设阈值时重启的流程图，具体包括以下步骤：

S11：系统重启。

S12：BIOS向BMC发命令，以便经由BMC从CPLD中读取崩溃次数。

S13：判断崩溃次数是否大于预设阈值，若是，进入步骤S14，若否，进入步骤S15。

S14：BIOS调整启动顺序，将备份操作系统置于最高优先级，指示BMC记录日志，并进入步骤S15。

S15：进入OS。

S16：OS读取配置文件，开始运行业务，并每隔第一预设时长向BMC发命令给CPLD喂狗。

本发明实施方式相对于现有技术而言，通过存储器11存储冗余的操作系统(主操作系统和备份操作系统)，当CPU12上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU12，以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换，使得CPU12上运行的操作系统切换到另一备用的操作系统，从而自行恢复CPU12上运行的操作系统，以对中断业务进行自动恢复，提高了服务器的稳定性，避免业务中断时间过久造成的损失，同时，无需人工赶往服务器所在场地进行人工维护，降低了维护成本。

本发明的第二实施方式涉及一种服务器的控制方法，应用于上述第一实施例的服务器，本实施方式的核心在于，包括以下步骤：监控模块检测并记录CPU上当前运行的操作系统的崩溃次数；在所述崩溃次数大于预设阈值时重启CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。通过设置冗余的操作系统(主操作系统和备份操作系统)，并在所述崩溃次数大于预设阈值时，将CPU上运行的操作系统切换到另一备用的操作系统，从而自行恢复CPU12上运行的操作系统，以对中断业务进行自动恢复，提高了服务器的稳定性，避免业务中断时间过久造成的损失，同时，无需人工赶往服务器所在场地进行人工维护，降低了维护成本。

实际应用中，在所述CPU重启时运行基本输入输出系统；所述基本输入输出系统从所述监控模块读取所述崩溃次数，根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行，并停止基本输入输出系统被运行，直到下一次重启所述CPU；所述CPU读取配置文件，开始运行业务，并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。

下面对本实施方式的服务器的控制方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的服务器的控制方法，如图6所示，具体包括以下步骤：

S21：系统重启，运行BIOS。

S22：BIOS从监控模块读取崩溃次数，根据崩溃次数确认启动主操作系统或备份操作系统在CPU上运行，并停止BIOS被运行。

S23：CPU读取配置文件，开始运行业务，并每隔第一预设时长给监控模块喂狗以检测崩溃次数。

需要说明的是，步骤S22为服务器崩溃次数大于预设阈值时重启执行的步骤，在掉电后的启动时，替换步骤S22执行“将使用权交给主操作系统(即，运行主操作系统)，同时打开CPLD，并停止BIOS自身的运行”。

由于第一实施方式与本实施方式相互对应，因此本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，在第一实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种服务器，其特征在于，包括：存储器、与所述存储器相连的CPU、与所述CPU相连以给所述CPU供电的第一电源、与所述CPU通信连接的监控模块，以及与所述监控模块相连以给所述监控模块供电的第二电源，所述第一电源和所述第二电源独立设置；

所述存储器用于存储操作系统，其中，所述操作系统包括主操作系统和备份操作系统；

所述监控模块用于检测并记录所述CPU上当前运行的操作系统的崩溃次数；

所述CPU用于当所述崩溃次数大于预设阈值时重启，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

2.根据权利要求1所述的服务器，其特征在于，所述监控模块包括看门狗计数器和超时次数计数器；

所述CPU用于每隔第一预设时长向所述看门狗计数器发送清零信号；

所述看门狗计数器用于不断增加计数，直到接收到所述清零信号或计数超过计数阈值时，进行清零；

所述超时次数计数器用于在所述看门狗计数器的计数超过所述计数阈值时增加一次超时计数，并在所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换后清零；

所述CPU用于当所述超时计数大于所述预设阈值时，重启所述CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

3.根据权利要求2所述的服务器，其特征在于，所述监控模块还包括状态寄存器，所述状态寄存器中存储有操作系统类型参数；

所述操作系统类型参数用于切换所述CPU上运行的操作系统为第一操作系统；

其中，所述操作系统类型参数用于表征所述CPU上当前运行的操作系统为主操作系统和备份操作系统中一者，所述第一操作系统为主操作系统或备份操作系统中另一者。

4.根据权利要求1所述的服务器，其特征在于，还包括只读内存，所述只读内存用于存储基本输入输出系统；

所述基本输入输出系统用于在所述CPU重启时被运行，并从所述监控模块读取所述崩溃次数，根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行。

5.根据权利要求4所述的服务器，其特征在于，所述基本输入输出系统还用于在调整所述CPU上运行的操作系统为第一操作系统后，停止被运行，直到下一次重启所述CPU。

6.根据权利要求2所述的服务器，其特征在于，还包括：与所述CPU和所述监控模块均相连的管理模块；

所述管理模块用于接收所述CPU发送的清零信号，并转发给所述看门狗计数器。

7.根据权利要求6所述的服务器，其特征在于，所述管理模块还用于记录所述CPU的重启信息，其中，所述重启信息用于表征所述CPU上运行的操作系统是否已成功切换；

所述管理模块包括用于供其他设备查询所述重启信息的管理网口。

8.根据权利要求1所述的服务器，其特征在于，所述CPU还用于在掉电后的启动时，运行默认操作系统，其中，所述默认操作系统为主操作系统或备份操作系统。

9.一种服务器的控制方法，其特征在于，所述服务器包括：存储器、与所述存储器相连的CPU、与所述CPU通信连接的监控模块，所述方法包括：

所述监控模块检测并记录所述CPU上当前运行的操作系统的崩溃次数；

在所述崩溃次数大于预设阈值时重启CPU，以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。

10.根据权利要求9所述的服务器的控制方法，其特征在于，包括：

在所述CPU重启时运行基本输入输出系统；

所述基本输入输出系统从所述监控模块读取所述崩溃次数，根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行，并停止基本输入输出系统被运行，直到下一次重启所述CPU；

所述CPU读取配置文件，开始运行业务，并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。