CN113360347A - 一种服务器及其控制方法 - Google Patents

一种服务器及其控制方法 Download PDF

Info

Publication number
CN113360347A
CN113360347A CN202110735814.XA CN202110735814A CN113360347A CN 113360347 A CN113360347 A CN 113360347A CN 202110735814 A CN202110735814 A CN 202110735814A CN 113360347 A CN113360347 A CN 113360347A
Authority
CN
China
Prior art keywords
operating system
cpu
running
server
monitoring module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110735814.XA
Other languages
English (en)
Other versions
CN113360347B (zh
Inventor
袁迎春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Huaqin Electronic Technology Co ltd
Original Assignee
Nanchang Huaqin Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Huaqin Electronic Technology Co ltd filed Critical Nanchang Huaqin Electronic Technology Co ltd
Priority to CN202110735814.XA priority Critical patent/CN113360347B/zh
Publication of CN113360347A publication Critical patent/CN113360347A/zh
Priority to PCT/CN2021/129142 priority patent/WO2023273085A1/zh
Application granted granted Critical
Publication of CN113360347B publication Critical patent/CN113360347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4406Loading of operating system
    • G06F9/441Multiboot arrangements, i.e. selecting an operating system to be loaded
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5055Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering software capabilities, i.e. software resources associated or available to the machine
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例涉及计算机网络领域,公开了一种服务器及其控制方法。本发明中,服务器包括:存储器、与存储器相连的CPU、与CPU相连以给CPU供电的第一电源、与CPU通信连接的监控模块,以及与监控模块相连以给监控模块供电的第二电源,第一电源和第二电源独立设置;存储器用于存储操作系统,其中,操作系统包括主操作系统和备份操作系统;监控模块用于检测并记录CPU上当前运行的操作系统的崩溃次数;CPU用于当崩溃次数大于预设阈值时重启,以将CPU上运行的操作系统在主操作系统和备份操作系统之间进行切换。本发明实施例提供的服务器及其控制方法,能够自行恢复CPU上运行的操作系统,从而对中断业务进行自动恢复,提高服务器的稳定性,降低维护成本。

Description

一种服务器及其控制方法
技术领域
本发明实施例涉及计算机网络领域,特别涉及一种服务器及其控制方法。
背景技术
操作系统是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务。
对于传统的运算型服务器,其处于机房之中,可以实现族群之间的互相备份来增加抗风险能力,当业务中断时,不会造成较大影响。
发明人发现现有技术中至少存在如下问题:对于边缘服务器(单节点的主机),由于缺乏足够的冗余节点备份,无法实现族群备份,当遇到诸如意外掉电,外界撞击,软件崩溃等情况时,可能会导致操作系统崩溃,运算业务中断,导致边缘服务器的运行稳定性不高;并且,由于边缘服务器分布较广,人工维护的时间成本和人工成本均较高。
发明内容
本发明实施方式的目的在于提供一种服务器及其控制方法,能够自行恢复CPU上运行的操作系统,从而对中断业务进行自动恢复,提高服务器的稳定性,降低维护成本。
为解决上述技术问题,本发明的实施方式提供了一种服务器,包括:存储器、与所述存储器相连的CPU、与所述CPU相连以给所述CPU供电的第一电源、与所述CPU通信连接的监控模块,以及与所述监控模块相连以给所述监控模块供电的第二电源,所述第一电源和所述第二电源独立设置;所述存储器用于存储操作系统,其中,所述操作系统包括主操作系统和备份操作系统;所述监控模块用于检测并记录所述CPU上当前运行的操作系统的崩溃次数;所述CPU用于当所述崩溃次数大于预设阈值时重启,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
本发明的实施方式还提供了一种服务器的控制方法,所述服务器包括:存储器、与所述存储器相连的CPU、与所述CPU通信连接的监控模块,所述方法包括:
所述监控模块检测并记录所述CPU上当前运行的操作系统的崩溃次数;在所述崩溃次数大于预设阈值时重启CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
本发明实施方式相对于现有技术而言,通过存储器存储冗余的操作系统(主操作系统和备份操作系统),当CPU上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换,使得CPU上运行的操作系统切换到另一备用的操作系统,从而自行恢复CPU上运行的操作系统,以对中断业务进行自动恢复,提高了服务器的稳定性,同时,无需人工赶往服务器所在场地进行人工维护,降低了维护成本。
另外,所述监控模块包括看门狗计数器和超时次数计数器;所述CPU用于每隔第一预设时长向所述看门狗计数器发送清零信号;所述看门狗计数器用于不断增加计数,直到接收到所述清零信号或计数超过计数阈值时,进行清零;所述超时次数计数器用于在所述看门狗计数器的计数超过所述计数阈值时增加一次超时计数,并在所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换后清零;所述CPU用于当所述超时计数大于所述预设阈值时,重启所述CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
另外,所述监控模块还包括状态寄存器,所述状态寄存器中存储有操作系统类型参数;所述操作系统类型参数用于切换所述CPU上运行的操作系统为第一操作系统;其中,所述操作系统类型参数用于表征所述CPU上当前运行的操作系统为主操作系统和备份操作系统中一者,所述第一操作系统为主操作系统或备份操作系统中另一者。
另外,还包括只读内存,所述只读内存用于存储基本输入输出系统;所述基本输入输出系统用于在所述CPU重启时被运行,并从所述监控模块读取所述崩溃次数,根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行。
另外,所述基本输入输出系统还用于在调整所述CPU上运行的操作系统为第一操作系统后,停止被运行,直到下一次重启所述CPU。
另外,还包括:与所述CPU和所述监控模块均相连的管理模块;所述管理模块用于接收所述CPU发送的清零信号,并转发给所述看门狗计数器。
另外,所述管理模块还用于记录所述CPU的重启信息,其中,所述重启信息用于表征所述CPU上运行的操作系统是否已成功切换;所述管理模块包括用于供其他设备查询所述重启信息的管理网口。如此设置,能够经由管理网口在其他设备上查看记录所述CPU的重启信息,了解到CPU的运行状况,以便在CPU的运行状况不佳时及时采取干预措施,保证服务器的稳定运行。
另外,所述CPU还用于在掉电后的启动时,运行默认操作系统,其中,所述默认操作系统为主操作系统或备份操作系统。
另外,在所述CPU重启时运行基本输入输出系统;所述基本输入输出系统从所述监控模块读取所述崩溃次数,根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行,并停止基本输入输出系统被运行,直到下一次重启所述CPU;所述CPU读取配置文件,开始运行业务,并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明第一实施方式中的服务器的结构示意图;
图2是本发明第一实施方式中的服务器和配置服务器的示意图;
图3是本发明第一实施方式中的一种服务器(设置管理模块)的结构示意图;
图4是本发明第一实施方式中的另一种服务器(不设置管理模块)的结构示意图;
图5是本发明第一实施方式中的服务器崩溃次数大于预设阈值时重启的流程图;
图6是本发明第二实施方式中的服务器的控制方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种服务器,如图1所示,包括:存储器11、与存储器11相连的CPU12、与CPU12相连以给CPU12供电的第一电源、与CPU12通信连接的监控模块13,以及与监控模块13相连以给监控模块13供电的第二电源,第一电源和第二电源独立设置(即,监控模块13和CPU12单独供电);存储器11用于存储操作系统(operating system,简称OS),其中,操作系统包括主操作系统和备份操作系统;监控模块13用于检测并记录CPU12上当前运行的操作系统的崩溃次数;CPU12用于当崩溃次数大于预设阈值时重启,以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换,其中,预设阈值可以根据需要进行设置,例如,可以设置为3次。
通过存储器11存储冗余的操作系统(主操作系统和备份操作系统),当CPU12上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU12,以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换,使得CPU12上运行的操作系统切换到另一备用的操作系统,从而自行恢复CPU12上运行的操作系统,以对中断业务进行自动恢复,提高了服务器的稳定性,同时,无需人工赶往服务器所在场地进行人工维护,降低了维护成本。
本实施方式中,重启CPU12具体可以为,CPLD来进行第一电源的电源控制,CPLD可以直接连接到第一电源相关的信号,直接通过操作信号进行第一电源的电源控制,从而实现重启。
实际应用中,存储器11还用于存储固件,固件是指设备内部保存的设备“驱动程序”,通过固件,操作系统才能按照标准的设备驱动实现特定机器的运行动作,比如光驱、刻录机等都有内部固件。如图2所示,业务程序的配置文件放置于配置服务器,本地机器上的两个操作系统(主操作系统和备份操作系统)中配置业务程序的执行单元。
其中,监控模块13可以为复杂可编程逻辑器件(Complex Programmable logicdevice,简称CPLD),用来监控业务程序、操作系统和固件的执行状态,它采用CMOS EPROM、EEPROM、快闪存储器11和SRAM等编程技术,从而构成了高密度、高速度和低功耗的可编程逻辑器件。
具体的,监控模块13可以包括看门狗计数器和超时次数计数器,CPU12用于每隔第一预设时长向看门狗计数器发送清零信号,看门狗计数器用于不断增加计数,直到接收到清零信号或计数超过计数阈值时,进行清零,超时次数计数器用于在看门狗计数器的计数超过计数阈值时增加一次超时计数,并在CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换后清零,CPU12用于当超时计数大于预设阈值时,重启CPU12,以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换。也就是说,CPU12每隔第一预设时长喂看门狗(Watchdog Timer,简称WDT),当CPU12发生系统崩溃而停止喂狗,则看门狗计数器超时,监控模块13记录一次系统崩溃。
可选的,监控模块13还可以包括状态寄存器,状态寄存器中存储有操作系统类型参数,操作系统类型参数用于切换CPU12上运行的操作系统为第一操作系统,其中,操作系统类型参数用于表征CPU12上当前运行的操作系统为主操作系统和备份操作系统中一者,第一操作系统为主操作系统或备份操作系统中另一者。也就是说,状态寄存器记录CPU12上当前运行的操作系统为主操作系统还是备份操作系统,以便根据崩溃次数和当前处于哪个操作系统,联合判断是否切换。
实际应用中,服务器还可以包括只读内存14(ROM芯片),只读内存14用于存储基本输入输出系统,基本输入输出系统用于在CPU12重启时被运行,并从监控模块13读取崩溃次数,根据崩溃次数确认启动主操作系统还是所述备份操作系统在CPU12上运行,具体的,基本输入输出系统还可以用于在调整CPU12上运行的操作系统为第一操作系统后,停止被运行,直到下一次重启CPU12。
其中,基本输入输出系统(Basic Input Output System,简称BIOS),是一种业界标准的固件接口。它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。
本实施方式中,如图3所示,服务器还可以包括:与CPU12和监控模块13均相连的管理模块15,管理模块15用于接收CPU12发送的清零信号,并转发给看门狗计数器,并且,CPU12可以经由管理模块15获取超时次数计数器中存储的超时计数。
实际应用中,服务器还可以包括:与管理模块15相连以给管理模块15供电的第三电源,第三电源和第一电源独立设置,从而避免第一电源损坏对管理模块15的运行造成影响。
可选的,管理模块15还可以用于记录CPU12的重启信息,其中,重启信息用于表征CPU12上运行的操作系统是否已成功切换,例如,“OS1(主操作系统)失败,切换到OS2(备份操作系统)成功”或者“OS2(备份操作系统)切换失败”等信息,管理模块15包括用于供其他设备查询重启信息的管理网口。如此设置,能够经由管理网口在其他设备上查看记录CPU12的重启信息,实现远程查询这些记录的功能,从而了解到CPU12的运行状况,以便在CPU12的运行状况不佳时及时采取干预措施,保证服务器的稳定运行。
具体的说,管理模块15可以为基板管理控制器(Baseboard Manager Controller,简称BMC),服务器还包括与CPU12相连的主板,基板管理控制器与主板经由IPMI交互协议通信。其中,BMC可以在机器未开机的状态下,对机器进行固件升级、查看机器设备等一些操作。IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法。IPMI信息通过BMC(位于IPMI规格的硬件组件上)进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。
当然,如图4所示,也可以不设置管理模块15,看门狗计数器直接接收CPU12发送的清零信号,后续CPU12无需经由管理模块15、而是直接获取超时次数计数器中存储的超时计数。
实际应用中,CPU12还可以用于在掉电后的启动时,运行默认操作系统,其中,默认操作系统为主操作系统或备份操作系统,本实施方式中,在掉电后的启动时,运行主操作系统。也就是说,在掉电后的启动时,先运行BIOS,以便从CMOS中读写系统设置的具体信息,实现开机后自检,之后将使用权交给主操作系统,同时打开CPLD,并停止BIOS自身的运行,直到崩溃次数大于预设阈值时重启。
如图5所示,为崩溃次数大于预设阈值时重启的流程图,具体包括以下步骤:
S11:系统重启。
S12:BIOS向BMC发命令,以便经由BMC从CPLD中读取崩溃次数。
S13:判断崩溃次数是否大于预设阈值,若是,进入步骤S14,若否,进入步骤S15。
S14:BIOS调整启动顺序,将备份操作系统置于最高优先级,指示BMC记录日志,并进入步骤S15。
S15:进入OS。
S16:OS读取配置文件,开始运行业务,并每隔第一预设时长向BMC发命令给CPLD喂狗。
本发明实施方式相对于现有技术而言,通过存储器11存储冗余的操作系统(主操作系统和备份操作系统),当CPU12上当前运行的操作系统的崩溃次数大于预设阈值时重启CPU12,以将CPU12上运行的操作系统在主操作系统和备份操作系统之间进行切换,使得CPU12上运行的操作系统切换到另一备用的操作系统,从而自行恢复CPU12上运行的操作系统,以对中断业务进行自动恢复,提高了服务器的稳定性,避免业务中断时间过久造成的损失,同时,无需人工赶往服务器所在场地进行人工维护,降低了维护成本。
本发明的第二实施方式涉及一种服务器的控制方法,应用于上述第一实施例的服务器,本实施方式的核心在于,包括以下步骤:监控模块检测并记录CPU上当前运行的操作系统的崩溃次数;在所述崩溃次数大于预设阈值时重启CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。通过设置冗余的操作系统(主操作系统和备份操作系统),并在所述崩溃次数大于预设阈值时,将CPU上运行的操作系统切换到另一备用的操作系统,从而自行恢复CPU12上运行的操作系统,以对中断业务进行自动恢复,提高了服务器的稳定性,避免业务中断时间过久造成的损失,同时,无需人工赶往服务器所在场地进行人工维护,降低了维护成本。
实际应用中,在所述CPU重启时运行基本输入输出系统;所述基本输入输出系统从所述监控模块读取所述崩溃次数,根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行,并停止基本输入输出系统被运行,直到下一次重启所述CPU;所述CPU读取配置文件,开始运行业务,并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。
下面对本实施方式的服务器的控制方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的服务器的控制方法,如图6所示,具体包括以下步骤:
S21:系统重启,运行BIOS。
S22:BIOS从监控模块读取崩溃次数,根据崩溃次数确认启动主操作系统或备份操作系统在CPU上运行,并停止BIOS被运行。
S23:CPU读取配置文件,开始运行业务,并每隔第一预设时长给监控模块喂狗以检测崩溃次数。
需要说明的是,步骤S22为服务器崩溃次数大于预设阈值时重启执行的步骤,在掉电后的启动时,替换步骤S22执行“将使用权交给主操作系统(即,运行主操作系统),同时打开CPLD,并停止BIOS自身的运行”。
由于第一实施方式与本实施方式相互对应,因此本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,在第一实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种服务器,其特征在于,包括:存储器、与所述存储器相连的CPU、与所述CPU相连以给所述CPU供电的第一电源、与所述CPU通信连接的监控模块,以及与所述监控模块相连以给所述监控模块供电的第二电源,所述第一电源和所述第二电源独立设置;
所述存储器用于存储操作系统,其中,所述操作系统包括主操作系统和备份操作系统;
所述监控模块用于检测并记录所述CPU上当前运行的操作系统的崩溃次数;
所述CPU用于当所述崩溃次数大于预设阈值时重启,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
2.根据权利要求1所述的服务器,其特征在于,所述监控模块包括看门狗计数器和超时次数计数器;
所述CPU用于每隔第一预设时长向所述看门狗计数器发送清零信号;
所述看门狗计数器用于不断增加计数,直到接收到所述清零信号或计数超过计数阈值时,进行清零;
所述超时次数计数器用于在所述看门狗计数器的计数超过所述计数阈值时增加一次超时计数,并在所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换后清零;
所述CPU用于当所述超时计数大于所述预设阈值时,重启所述CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
3.根据权利要求2所述的服务器,其特征在于,所述监控模块还包括状态寄存器,所述状态寄存器中存储有操作系统类型参数;
所述操作系统类型参数用于切换所述CPU上运行的操作系统为第一操作系统;
其中,所述操作系统类型参数用于表征所述CPU上当前运行的操作系统为主操作系统和备份操作系统中一者,所述第一操作系统为主操作系统或备份操作系统中另一者。
4.根据权利要求1所述的服务器,其特征在于,还包括只读内存,所述只读内存用于存储基本输入输出系统;
所述基本输入输出系统用于在所述CPU重启时被运行,并从所述监控模块读取所述崩溃次数,根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行。
5.根据权利要求4所述的服务器,其特征在于,所述基本输入输出系统还用于在调整所述CPU上运行的操作系统为第一操作系统后,停止被运行,直到下一次重启所述CPU。
6.根据权利要求2所述的服务器,其特征在于,还包括:与所述CPU和所述监控模块均相连的管理模块;
所述管理模块用于接收所述CPU发送的清零信号,并转发给所述看门狗计数器。
7.根据权利要求6所述的服务器,其特征在于,所述管理模块还用于记录所述CPU的重启信息,其中,所述重启信息用于表征所述CPU上运行的操作系统是否已成功切换;
所述管理模块包括用于供其他设备查询所述重启信息的管理网口。
8.根据权利要求1所述的服务器,其特征在于,所述CPU还用于在掉电后的启动时,运行默认操作系统,其中,所述默认操作系统为主操作系统或备份操作系统。
9.一种服务器的控制方法,其特征在于,所述服务器包括:存储器、与所述存储器相连的CPU、与所述CPU通信连接的监控模块,所述方法包括:
所述监控模块检测并记录所述CPU上当前运行的操作系统的崩溃次数;
在所述崩溃次数大于预设阈值时重启CPU,以将所述CPU上运行的操作系统在所述主操作系统和所述备份操作系统之间进行切换。
10.根据权利要求9所述的服务器的控制方法,其特征在于,包括:
在所述CPU重启时运行基本输入输出系统;
所述基本输入输出系统从所述监控模块读取所述崩溃次数,根据所述崩溃次数确认启动所述主操作系统或所述备份操作系统在所述CPU上运行,并停止基本输入输出系统被运行,直到下一次重启所述CPU;
所述CPU读取配置文件,开始运行业务,并每隔第一预设时长给所述监控模块喂狗以检测所述崩溃次数。
CN202110735814.XA 2021-06-30 2021-06-30 一种服务器及其控制方法 Active CN113360347B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110735814.XA CN113360347B (zh) 2021-06-30 2021-06-30 一种服务器及其控制方法
PCT/CN2021/129142 WO2023273085A1 (zh) 2021-06-30 2021-11-05 一种服务器及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110735814.XA CN113360347B (zh) 2021-06-30 2021-06-30 一种服务器及其控制方法

Publications (2)

Publication Number Publication Date
CN113360347A true CN113360347A (zh) 2021-09-07
CN113360347B CN113360347B (zh) 2023-08-25

Family

ID=77537497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110735814.XA Active CN113360347B (zh) 2021-06-30 2021-06-30 一种服务器及其控制方法

Country Status (2)

Country Link
CN (1) CN113360347B (zh)
WO (1) WO2023273085A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168080A (zh) * 2021-12-09 2022-03-11 深圳市瑞驰信息技术有限公司 一种服务器自动切换分区、备份方法
WO2023273085A1 (zh) * 2021-06-30 2023-01-05 南昌华勤电子科技有限公司 一种服务器及其控制方法
CN116991331A (zh) * 2023-09-25 2023-11-03 苏州元脑智能科技有限公司 日志文件的存储方法及装置、存储介质及电子装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033086B (zh) * 2023-10-09 2024-02-09 苏州元脑智能科技有限公司 操作系统的恢复方法、装置、存储介质和服务器管理芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677497A (zh) * 2015-12-10 2016-06-15 中国航空工业集团公司西安航空计算技术研究所 一种高可用性看门狗电路
CN107861422A (zh) * 2017-11-03 2018-03-30 山东超越数控电子股份有限公司 一种提高服务器主板电源稳定性的系统
CN110532178A (zh) * 2019-08-09 2019-12-03 四川虹美智能科技有限公司 一种安卓系统库文件崩溃位置定位方法及装置
CN111078441A (zh) * 2018-10-19 2020-04-28 迈普通信技术股份有限公司 一种系统运行状态监测方法、装置及电子设备
CN111124728A (zh) * 2019-12-12 2020-05-08 加弘科技咨询(上海)有限公司 业务自动恢复方法、系统、可读存储介质及服务器
CN112684876A (zh) * 2020-12-24 2021-04-20 苏州浪潮智能科技有限公司 一种服务器延迟断电存储系统、方法及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395121A (zh) * 2019-08-15 2021-02-23 奇安信安全技术(珠海)有限公司 一种驱动加载的处理方法及装置、存储介质、计算机设备
CN111628944B (zh) * 2020-05-25 2022-03-25 深圳市信锐网科技术有限公司 交换机及交换机系统
CN112860477A (zh) * 2020-12-31 2021-05-28 京信网络系统股份有限公司 一种操作系统高可靠运行方法、系统、存储介质及服务器
CN113360347B (zh) * 2021-06-30 2023-08-25 南昌华勤电子科技有限公司 一种服务器及其控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677497A (zh) * 2015-12-10 2016-06-15 中国航空工业集团公司西安航空计算技术研究所 一种高可用性看门狗电路
CN107861422A (zh) * 2017-11-03 2018-03-30 山东超越数控电子股份有限公司 一种提高服务器主板电源稳定性的系统
CN111078441A (zh) * 2018-10-19 2020-04-28 迈普通信技术股份有限公司 一种系统运行状态监测方法、装置及电子设备
CN110532178A (zh) * 2019-08-09 2019-12-03 四川虹美智能科技有限公司 一种安卓系统库文件崩溃位置定位方法及装置
CN111124728A (zh) * 2019-12-12 2020-05-08 加弘科技咨询(上海)有限公司 业务自动恢复方法、系统、可读存储介质及服务器
CN112684876A (zh) * 2020-12-24 2021-04-20 苏州浪潮智能科技有限公司 一种服务器延迟断电存储系统、方法及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张新林;潘日明;黄荣光;: "虚拟服务器在断电时的自我保护方法研究", 计算机与现代化, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273085A1 (zh) * 2021-06-30 2023-01-05 南昌华勤电子科技有限公司 一种服务器及其控制方法
CN114168080A (zh) * 2021-12-09 2022-03-11 深圳市瑞驰信息技术有限公司 一种服务器自动切换分区、备份方法
CN116991331A (zh) * 2023-09-25 2023-11-03 苏州元脑智能科技有限公司 日志文件的存储方法及装置、存储介质及电子装置
CN116991331B (zh) * 2023-09-25 2024-01-26 苏州元脑智能科技有限公司 日志文件的存储方法及装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN113360347B (zh) 2023-08-25
WO2023273085A1 (zh) 2023-01-05

Similar Documents

Publication Publication Date Title
CN113360347A (zh) 一种服务器及其控制方法
US9921915B2 (en) Baseboard management controller recovery
US10049010B2 (en) Method, computer, and apparatus for migrating memory data
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN111273923B (zh) 基于PCIe接口的FPGA升级方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN114116280B (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN102761439A (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
US20230333621A1 (en) Server firmware self-recovery system and server
US20130117518A1 (en) System controller, information processing system and method of saving and restoring data in the information processing system
CN112667462B (zh) 一种服务器的双闪存运行监测的系统、方法及介质
CN103713925A (zh) 避免存储阵列在升级过程的业务中断方法和装置
CN105242980A (zh) 互补式看门狗系统及互补式看门狗的监测方法
TW200426571A (en) Policy-based response to system errors occurring during os runtime
CN115658113A (zh) 服务器自启动方法、装置、可读存储介质及电子设备
CN101094091B (zh) 一种会议电视系统中的多点控制装置
CN116820827B (zh) 一种节点服务器的基板管理控制器的控制方法及其系统
CN101556542B (zh) 一种成对冗余结构中器件的升级方法及设备
CN111158963A (zh) 一种服务器固件冗余启动方法和服务器
KR100605031B1 (ko) Usb 메모리 장치를 이용한 임베디드 시스템의 장애복구 및 업그레이드 방법
US10353613B2 (en) Computer system and control method therefor for handling path failure
JP2001101034A (ja) 異種os間制御による障害復旧方法
CN115904831A (zh) 一种服务器固件的启动方法及终端
Cisco Operational Traps
Cisco Operational Traps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant