CN115576750A - 带外下电方法、计算机设备及存储介质 - Google Patents

带外下电方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN115576750A
CN115576750A CN202211131407.9A CN202211131407A CN115576750A CN 115576750 A CN115576750 A CN 115576750A CN 202211131407 A CN202211131407 A CN 202211131407A CN 115576750 A CN115576750 A CN 115576750A
Authority
CN
China
Prior art keywords
starting
power
hardware
file
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211131407.9A
Other languages
English (en)
Inventor
刘占全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202211131407.9A priority Critical patent/CN115576750A/zh
Publication of CN115576750A publication Critical patent/CN115576750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2247Verification or detection of system hardware configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Power Sources (AREA)

Abstract

本申请公开了一种带外下电方法、计算机设备及存储介质,涉及计算机技术领域。方法包括:接收带外控制器下发的下电指令,检测计算机设备下电后再次启动时的硬件启动配置和系统启动文件,在检测成功时,计算机设备执行下电操作。通过执行预启动检测可以确保计算机设备执行下电操作后可以再次启动,进而提高计算机设备执行带外下电进行维护的可靠性。

Description

带外下电方法、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种带外下电方法、计算机设备及存储介质。
背景技术
带外下电是通过计算机设备的带外控制器给复杂可编程逻辑器件下发下电指令,操作系统通过捕捉复杂可编程逻辑器件发出的下电信息执行下电操作。在带外下电后对计算机设备进行维护,以修复计算机设备的缺陷,提高计算机设备的性能。例如,对计算机设备进行部件更换、固件升级。但是,由于系统文件异常,可能导致带外下电后系统启动失败。因此,对计算机设备执行带外下电进行维护的可靠性较低。
发明内容
本申请提供一种带外下电方法、计算机设备及存储介质,解决了计算机设备执行带外下电进行维护时可靠性低的问题。
第一方面,提供了一种带外下电的方法,方法包括:接收计算机设备的带外控制器下发的下电指令,根据计算机设备下电后再次启动时的硬件启动配置和系统启动文件进行预启动检测,在检测成功的情况下,计算机设备执行下电操作。
在计算机设备接收到带外控制器下发的下电指令后,先进行预启动检测,在预启动检测正常的情况下再执行下电操作,可以避免计算机设备在硬件启动配置被误修改或系统启动文件被认为修改、删除的情况下继续执行下电操作,进而导致计算机设备无法再次启动,提高了执行带外下电进行维护的可靠性。
具体地,首先检测计算机设备下电后再次启动时的硬件启动配置,再检测计算机设备的系统启动文件。
先执行带外预启动检测可以,通过设置计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置一致,进而使得带外预启动检测成功后,再进行带内预启动检测,在带内预启动检测不成功时,仅对系统启动文件或操作系统所在的磁盘进行维护即可。
具体地,判断计算机设备下电后再次启动时的硬件启动配置与计算设备下电之前成功启动时所使用的硬件启动配置是否一致,若一致,根据下电指令触发下电,若不一致,将计算机设备下电后再次启动时的硬件启动配置设置为计算设备下电之前成功启动时所使用的硬件启动配置。
由于计算机设备的操作系统启动之后,可以通过基板管理控制器修改用于启动的硬件启动配置,因此通过在计算机设备下电前确保计算机设备再次启动时的硬件启动配置与计算机设备本次成功启动所使用的硬件启动配置一致,可以避免在硬件启动配置被修改的情况下启动计算机设备,导致启动设备错误,进而无法启动操作系统。
可选地,硬件启动配置包括:基本输入输出系统启动模式、基本输入输出系统启动项和磁盘阵列卡启动项中的至少一种。
基本输入输出系统启动模式、基本输入输出系统启动项和磁盘阵列卡启动项是计算机设备启动中所要使用的硬件启动配置,因此确保基本输入输出系统启动模式、基本输入输出系统启动项和磁盘阵列卡启动项均与本次启动时一致,就会避免计算机设备的操作系统启动失败。
具体地,判断计算机设备的系统启动文件与计算设备下电之前成功启动所述操作系统的系统启动文件是否一致,若一致,计算机设备执行下电操作,若不一致,取消计算机设备的下电操作。
由于系统启动文件是供计算机设备的操作系统启动的文件,因此通过带内预启动检测可以确保系统启动文件没有在计算机设备成功启动后被人为修改或删除。
可选地,检测计算机设备的操作系统所在的磁盘是否存在异常,若磁盘正常,计算机设备执行下电操作。
通过重新挂载计算机设备的操作系统所在的磁盘至对应的挂载目录中,可以避免在操作系统所在的磁盘存在异常的情况下进行下电,进而导致操作系统异常,无法再从该磁盘上启动操作系统的问题。
在一种可能的实现方式中,在预启动检测失败的情况下,取消计算机设备的下电操作。
在计算机设备的硬件启动配置、系统启动文件、磁盘任意一个与本次启动时所述使用的不一致的情况下,均不能执行计算机设备的下电操作,可以根据预启动检测出的问题对计算机设备进行维护,在故障修复后再对计算机设备执行下电操作,避免造成计算机设备故障。
在另一种可能的实现方式中,根据下电指令通过写CPLD触发下电。
通过写CPLD的方式模拟短按计算机设备的电源按钮,产生下电信号,以供计算机设备的操作系统捕捉,进而实现带外下电。
第二方面,提供一种带外下电装置,所述带外下电装置包括预启动模块和下电模块。
预启动模块用于根据带外控制器下发的下电指令执行预启动检测,预启动检测用于检测计算机设备下电后再次启动时的硬件启动配置和系统启动文件。
下电模块用于当预启动检测成功时,执行计算机设备的下电操作。
预启动模块具体用于:执行带外预启动检测,带外预启动检测用于检测计算机设备下电后再次启动时的硬件启动配置,硬件启动配置用于指示启动计算机设备的操作系统所使用的硬件;执行带内预启动检测,带内预启动检测用于检测计算机设备的系统启动文件,系统启动文件用于启动计算机设备的操作系统。
预启动模块具体用于:检测计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置是否一致;在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置一致的情况下,根据下电指令触发下电;在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置不一致的情况下,根据本次启动时的硬件启动配置设置下电后再次启动时的硬件启动配置。
预启动模块具体用于:检测系统启动文件与备份启动文件是否一致,备份启动文件为计算设备下电之前成功启动操作系统的系统启动文件。
下电模块还用于:在系统启动文件与备份启动文件一致的情况下,执行计算机设备的下电操作;在系统启动文件与备份启动文件不一致的情况下,取消计算机设备的下电操作。
预启动模块具体用于:根据挂载文件检测磁盘是否存在异常,挂载文件用于指示磁盘的挂载目录,磁盘用于指示操作系统所在的磁盘。
下电模块还用于:在磁盘正常的情况下,执行计算机设备的下电操作。
下电模块还用于:在预启动检测失败的情况下,取消计算机设备的下电操作。
带外下电装置还包括触发模块。触发模块用于根据下电指令通过写CPLD触发下电。
带外下电装置还包括存储模块。存储模块用于存储硬件启动配置和系统启动文件。
第三方面,提供一种计算机设备,所述计算机设备包括处理器、带外控制器、通信接口和存储器,存储器用于存储硬件启动配置和系统启动文件;通信接口用于接收下电指令;带外控制器用于执行带外预启动检测,带外预启动检测用于检测下电后再次启动时的硬件启动配置,硬件启动配置用于指示启动操作系统所使用的硬件;当带外控制器执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的方法的各个模块的功能。处理器用于执行带内预启动检测,带内预启动检测用于检测系统启动文件,系统启动文件用于启动操作系统;当处理器器执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的方法的各个模块的功能。
第四方面,提供一种计算机可读存储介质,包括计算机软件指令;当计算机软件指令在计算机中运行时,使得计算机执行如第一方面或第一方面可能的实现方式中任一项所述的方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面的任一种实现方式所述的方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为本申请提供的一种系统架构的示意图;
图2为本申请提供的一种带外下电方法的流程示意图;
图3为本申请提供的一种复杂可编程逻辑器件的波形示意图;
图4为本申请提供的一种带外下电装置的结构示意图;
图5为本申请提供的一种计算机设备的结构示意图。
具体实施方式
为方便理解本申请实施例的方案,首先给出相关概念的简要介绍如下:
带外管理:通过专用的数据通道对计算机设备进行远程维护和管理。
基板管理控制器(Baseboard Management Controller,BMC):是完全独立于计算机设备的操作系统之外,可以通过设备的带外管理接口与基本输入输出系统(basic inputoutput system,BIOS)和操作系统进行通信的带外管理模块。
磁盘阵列(Redundant Arrays of Independent Disks,RAID):是由多块独立的磁盘组合成的一个容量巨大的磁盘组。
高级配置和电源管理接口(Advanced Configuration and Power ManagementInterface,ACPI):是处理器固件和操作系统之间的硬件抽象接口。
挂载(mounting):是指由操作系统使一个存储设备(诸如硬盘、只读光盘存储器或共享资源)上的计算机文件和目录可供用户通过计算机的文件系统访问的一个过程。本申请提供了一种带外下电方法,即带外管理模块获取到下电指令后,执行带外预启动检测,确保下电后重启系统时硬件启动配置与下电前的硬件启动配置保持一致,以及处理器执行带内预启动检测,确保下电前系统启动文件与本次启动时的系统启动文件保持一致,以便于触发下电操作,避免由于用户误设置硬件启动配置或误删除系统启动文件导致下电后系统无法启动的问题,提高了执行带外下电进行维护的可靠性。
本申请可以应用于计算机设备的重启或计算机设备的维护,通过执行带外预启动检测和带内预启动检测,确保操作系统可以实现安全启动,计算设备可以是服务器,操作系统可以是linux操作系统。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图1为本申请实施例提供一种系统架构的示意图。该系统架构图是计算机设备的举例说明。参考图1,计算机设备100包括处理器110、带外控制器120、可编程逻辑器件(Programmable Logic Device,PLD)130和快闪(FLASH)存储140。FLASH存储器140用于存储硬件启动配置和系统启动文件,系统启动文件还可以存储在本地存储中。处理器110包括操作系统(operating system,OS)管理单元111和处理器固件112。
OS管理单元111,用于接收复杂可编程逻辑器件130下发的下电信号,根据下电信号检测计算机设备启动时所需的系统启动文件,当下电前的系统启动文件与本次启动时的系统启动文件一致时,执行下电操作。下述实施例中描述的OS管理单元某个步骤(如以下的步骤230),可以理解为是:中央处理器(central processing unit,CPU)调用OS管理单元执行该步骤。处理器固件112(也称为处理器固件程序)可以为固件(Firmware)、基本输入输出系统、管理引擎(management engine,ME)、微码或智能管理单元(intelligent managementunit,IMU)等固件。需要说明的,本申请实施例对处理器固件的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以处理器固件为BIOS为例进行说明。
下述实施例中描述的带外管理模块执行某个步骤(如以下的步骤210),可以理解为是:带外控制器调用带外管理模块执行该步骤。
带外控制器120包括带外管理模块121。带外管理模块可以为非业务模块的管理单元。例如,带外管理模块可以通过专用的数据通道对计算机设备进行远程维护和管理,该带外管理模块是完全独立于计算机设备的操作系统之外,可以通过计算机设备的带外管理接口与基本输入输出系统(basic input output system,处理器固件)和OS(或OS管理单元)进行通信。
示例性的,带外管理模块可以包括计算机设备外部的监控管理单元、处理器外的管理芯片中的管理系统、计算机设备基板管理单元(baseboard management controller,BMC)、系统管理模块(system management mode,SMM)等。需要说明的,本申请实施例对带外管理模块的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以带外管理模块为BMC为例进行说明。
带外管理模块121用于检测计算机设备启动时的硬件启动配置,并下发下电指令至复杂可编程逻辑器件130。例如,下述实施例中描述的带外管理模块执行某个步骤(如以下的步骤210),可以理解为是:带外控制器调用带外管理模块执行该步骤。
下述实施例中描述的读写模块执行某个步骤(如以下的步骤220),可以理解为是:可编程逻辑器件调用读写模块执行该步骤。
可编程逻辑器件130包括读写模块131。读写模块用于根据带外管理模块下发的下电指令执行写操作,进而触发操作系统执行下电操作。下述实施例中描述的可编程逻辑器件某个步骤(如以下的步骤220),可以理解为是:可编程逻辑器件调用读写模块执行该步骤。
可编程逻辑器件可以为简单逻辑阵列(Programmable Array Logic,PAL/GenericArray Logic,GAL)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)和现场可编程逻辑阵列(Field Programmable Gate Array,FPGA)。需要说明的,本申请实施例对可编程逻辑器件的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以可编程逻辑器件为复杂可编程逻辑器件为例进行说明。
本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
接下来,结合附图对带外下电方法进行详细说明。图2为本申请实施例提供一种带外下电方法的流程示意图。在这里以图1中所示的处理器110、和带外控制器120、可编程逻辑器件130和FLASH存储器140为例进行说明。
步骤210、带外控制器根据下电指令执行带外预启动检测。
在计算机设备上电后,基本输入输出系统(Basic Input Output System,BIOS)根据计算机设备的BIOS启动模式启动操作系统。BIOS启动模式包括:传统(Legacy)模式和统一可扩展固件接口(Unified Extensible Firmware Interface,UEFI)模式。BIOS执行开机自检程序,以确保计算机设备中的硬件设备存在且可以正常工作,硬件设备包括CPU、内存、主板、阵列卡。在计算机设备不存在某一硬件设备或计算机设备中的某一硬件设备存在故障时,BIOS给出错误提示。硬件设备故障可以是CPU温度过高或内存配置错误等。在硬件设备存在,且该硬件设备不存在故障时,根据快闪(FLASH)存储器中保存的硬件启动配置启动操作系统,硬件启动配置可以是BIOS启动模式、BIOS启动项和磁盘阵列(Redundant Arraysof Independent Disks,RAID)卡启动项中的至少一种。
BIOS启动项用于指示启动操作系统的硬件设备,该硬件设备可以是软驱、光驱或硬盘。
可选地,在BIOS启动项是硬盘时,设置RAID卡启动项。RAID是一种把多块独立的硬盘按不同的方式组合成一个硬盘组,从而提供比单个硬盘更高的存储性能和提供数据备份技术。RAID卡启动项用于指示硬盘组中启动操作系统的硬盘。
操作系统成功启动后,可以通过BMC修改计算机设备的硬件启动配置,因此可能存在误修改上述硬件启动配置的情况。在硬件启动配置被修改的情况下,会导致启动设备错误,进而无法启动操作系统,因此需要在计算机设备下电前检测硬件启动配置是否被修改。
在计算机设备下电前,基板管理单元从FLASH存储器获取计算机设备下电后再次启动时的硬件启动配置,并检测该硬件启动配置与本次启动时的硬件启动配置是否一致,以确保计算机设备下电后可以正常启动。由于计算机设备本次启动成功,因此本次启动时的硬件启动配置即为FLASH存储器中保存的本次启动时的硬件启动配置。
具体的,当计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置一致时,表示计算机设备的硬件启动配置在启动后未被修改,与FLASH存储器中保存的本次启动时的硬件启动配置一致,执行步骤220,即通知复杂可编程逻辑器件触发下电信号。
当计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置不一致时,表示计算机设备的硬件启动配置在本次启动后被修改。硬件启动配置可能是通过BIOS启动界面被误修改。所以操作系统下电后再次启动时的硬件启动配置与FLASH存储器中保存的本次启动时的硬件启动配置不一致,进而导致计算机设备下电后无法再次启动。
因此,当计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置不一致时,通过BMC内置的远程监控来远程控制计算机设备并进入BIOS启动界面修改下电后再次启动时的硬件启动配置为本次启动时的硬件启动配置。这样在计算机设备再次启动时使用的硬件启动配置与FLASH存储器中保存的本次启动时的硬件启动配置是一致的,从而避免因硬件启动配置不一致导致的无法启动。
具体的,带外管理模块BMC控制处理器固件BIOS对FLASH存储器中存储的硬件启动配置进行修改,从而使得计算机设备再次启动时的硬件配置与本次成功启动所使用的硬件启动配置一致。在计算机设备每次准备下电时,BMC通过BIOS读取FLASH存储器中的硬件配置来判断下次启动与本次启动的硬件配置是否一致。
举例来说,计算机设备本次启动时,BIOS启动模式是UEFI模式,BIOS启动项是硬盘,RAID卡启动项是硬盘组中的第一硬盘。通过带外预启动检测可知计算设备下电后再次启动时的BIOS启动项是软驱,则将该BIOS启动项设置为硬盘,RAID卡启动项设置为硬盘组中的第一硬盘,通知复杂可编程逻辑器件触发下电信号。
除此之外,由于每次检测到硬件启动配置不一致时,均需要设置下电后再次启动时的硬件启动配置,可以实现硬件启动配置单次有效。
通过带外预启动检测可以确保计算机设备下电后再次启动时的硬件启动配置与FLASH存储器中保存的本次启动时的硬件启动配置一致,避免计算机设备启动后下电前的硬件启动配置被误修改导致的计算机设备无法启动的问题。
步骤220、可编程逻辑器件根据下电指令触发下电。
预启动检测是在计算机设备下电前模拟下电后再次启动的过程,因此通过复杂可编程逻辑器件模拟短按电源按钮。计算机设备基板管理单元在设置硬件启动配置后通过写复杂可编程逻辑器件,使CPLD输出预设形式的脉冲,该预设形式的脉冲可以视为下电信息,以模拟短按电源按钮触发下电,进而实现带外下电。
举例来说,复杂可编程逻辑器件在获取到下电指令时,按照预设周期执行写操作。计算机设备基板管理单元在接收到下电指令后,使复杂可编程逻辑器件输出预设形式的脉冲,可以是图3所示的波形,也可以是其他波形,在此不做限制,仅用于向操作系统的ACPI接口下发下电信息。当操作系统捕捉到复杂可编程逻辑器件产生上述波形时,视其为复杂可编程逻辑器件下发的下电信号。
步骤230、处理器执行带内预启动检测。
处理器根据计算机设备基本输入输出系统中设定的启动次序确认需要启动的操作系统或不同的内核版本,根据确定的操作系统或内核版本启动操作系统。系统启动文件可以是多操作系统启动(GRand Unified Bootloader,GRUB)文件和内核文件,GRUB文件用于加载操作系统的内核,内核文件用于初始化操作系统的显示处理器、桌面环境等。
操作系统的ACPI接口在获取到复杂可编程逻辑器件下发的下电信号后,执行带内预启动检测。带内预启动检测包括检测系统启动文件是否异常和检测磁盘是否异常。首先检测系统启动文件与本次启动时存储的备份启动文件是否一致。
备份启动文件是操作系统成功启动后系统启动文件的备份文件,可以将系统启动文件的备份启动文件存储在内存或磁盘中。备份启动文件在每次操作系统成功启动后更新,且在操作系统下电前不会改变。由于备份启动文件是操作系统根据系统启动文件成功启动后备份的文件,因此可以使用备份启动文件启动操作系统。
在系统启动文件与备份启动文件不一致时,表示此时操作系统中的系统启动文件可能存在丢失或改变,系统启动文件的丢失或改变可能是在操作系统启动后误删或误修改,由于系统启动文件是操作系统启动所需的文件,系统启动文件丢失或改变会导致操作系统无法再次启动,因此不执行下电操作。
在系统启动文件与备份启动文件一致时,表示系统启动文件不存在异常。在系统启动文件正常的情况下,还需要检测操作系统所在的磁盘是否正常,以确保成功启动操作系统。
通过挂载的方式检测操作系统所在的磁盘是否正常。若该磁盘挂载成功,表示该磁盘正常,操作系统再次启动时可以使用该磁盘进行启动,此时操作系统执行下电操作。若该磁盘挂载不成功,表示该磁盘异常,需要提示该磁盘存在风险,该磁盘可能已损坏,操作系统再次启动时无法使用损坏的磁盘进行启动,因此不执行下电操作,在下电前对磁盘进行修复。若在操作系统所在的磁盘异常的情况下执行下电操作会导致操作系统无法启动。
具体的,操作系统启动时,将操作系统所在的磁盘的挂载信息写入/etc/fstab文件中,挂载信息用于指示操作系统所在的磁盘与该磁盘挂载的目录的对应关系。在下电前根据/etc/fstab文件中的挂载信息重新挂载该磁盘至对应的目录。若该磁盘正常,重新挂载成功。
通过检测系统启动文件和操作系统所在的磁盘可以避免在操作系统异常或系统启动文件丢失的情况下下电,进而导致的操作系统无法再次启动。
步骤240、操作系统执行下电操作。
在计算机设备的硬件启动配置和操作系统启动时所需的系统启动文件和磁盘均与计算机设备本次启动一致时,表示计算机设备在下电前不存在异常,可以执行下电操作。
通过带外预启动检测和带内预启动检测可以避免计算机设备在已存在异常的情况下下电,若硬件启动配置存在异常的时候,可以通过计算机设备基板管理单元带外重置计算机设备的硬件启动配置。若操作系统的系统启动文件或所在的磁盘存在异常,则需要对其进行维护,此时不能对计算机设备下电。在与启动相关的配置或文件均无异常的时候,操作系统执行下电操作才会避免无法启动的问题,还可以提升计算机设备的可靠性和维护效率。
可以理解的是,为了实现上述实施例中功能,计算机包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
图4为本申请的实施例提供的带外下电装置的结构示意图。这些带外下电装置可以用于实现上述方法实施例中计算机设备的功能,因此也能实现上述方法实施例所具备的有益效果。在本申请的实施例中,该带外下电装置可以是如图1所示的计算机设备100。
如图4所示,带外下电装置400包括预启动模块401和下电模块402。带外下电装置400用于实现上述图2中所示的方法实施例中计算机设备100的功能。
当带外下电装置400用于实现图2所示的方法实施例中计算机设备100的功能时:预启动模块401用于根据带外控制器下发的下电指令执行预启动检测,预启动检测用于检测计算机设备下电后再次启动时的硬件启动配置和系统启动文件。
下电模块402用于当预启动检测成功时,执行计算机设备的下电操作。
预启动模块401具体用于:执行带外预启动检测,带外预启动检测用于检测计算机设备下电后再次启动时的硬件启动配置,硬件启动配置用于指示启动计算机设备的操作系统所使用的硬件;执行带内预启动检测,带内预启动检测用于检测计算机设备的系统启动文件,系统启动文件用于启动计算机设备的操作系统。
预启动模块401具体用于:检测计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置是否一致;在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置一致的情况下,根据下电指令触发下电;在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置不一致的情况下,根据本次启动时的硬件启动配置设置下电后再次启动时的硬件启动配置。
预启动模块401具体用于:检测系统启动文件与备份启动文件是否一致,备份启动文件为计算设备下电之前成功启动操作系统的系统启动文件。
下电模块402还用于:在系统启动文件与备份启动文件一致的情况下,执行计算机设备的下电操作;在系统启动文件与备份启动文件不一致的情况下,取消计算机设备的下电操作。
预启动模块401具体用于:根据挂载文件检测磁盘是否存在异常,挂载文件用于指示磁盘的挂载目录,磁盘用于指示操作系统所在的磁盘。
下电模块402还用于:在磁盘正常的情况下,执行计算机设备的下电操作。
下电模块402还用于:在预启动检测失败的情况下,取消计算机设备的下电操作。
带外下电装置400还包括触发模块403。触发模块403用于根据下电指令通过写CPLD触发下电。
带外下电装置400还包括存储模块404。存储模块404用于存储硬件启动配置和系统启动文件。
有关上述预启动模块401、下电模块402、触发模块403和存储模块404更详细的描述可以参考图2所示的方法实施例中相关描述直接得到,这里不加赘述。
图5提供了一种计算机设备。图5所示的计算机设备500具体可以用于实现上述图4所示实施例中带外下电装置400的功能。
计算机设备500包括总线501、处理器502、带外控制器503、通信接口504和存储器505。处理器502、带外控制器503、存储器505和通信接口504之间通过总线501通信。总线501可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口504用于与外部通信。
其中,处理器502可以为中央处理器(central processing unit,CPU),处理器502用于执行带内预启动检测。带外控制器503用于检测计算机设备启动时的硬件启动配置,并下发下电指令至复杂可编程逻辑器件。带外控制器503可以包括计算机设备外部的监控管理单元、处理器外的管理芯片中的管理系统、计算机设备基板管理单元(baseboardmanagement controller,BMC)、系统管理模块(system management mode,SMM)。存储器505可以包括易失性存储器(volatile memory),例如随机存取存储器(random accessmemory,RAM)。存储器505还可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器,HDD或SSD。
存储器505中存储有可执行代码,处理器502和带外控制器503执行该可执行代码以执行前述带外下电的方法。
具体地,在实现图4所示实施例的情况下,且图4实施例中所描述的各模块为通过软件实现的情况下,存储器505存储执行图4中的预启动模块401和下电模块402的功能所需的软件或程序代码,处理器502和带外控制器503用于执行存储器505中的指令,执行应用于带外下电装置400的带外下电的方法。
本申请还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述应用于带外下电装置400的带外下电的方法。
本申请还提供了一种计算机程序产品,所述计算机程序产品被计算机执行时,所述计算机执行前述方法的任一方法。该计算机程序产品可以为一个软件安装包,在需要使用前述方法的任一方法的情况下,可以下载该计算机程序产品并在计算机上执行该计算机程序产品。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (10)

1.一种带外下电方法,应用于计算机设备,所述计算机设备包括带外控制器,其特征在于,包括:
根据所述带外控制器下发的下电指令执行预启动检测,所述预启动检测用于检测所述计算机设备下电后再次启动时的硬件启动配置和系统启动文件;
当所述预启动检测成功时,执行所述计算机设备的下电操作。
2.根据权利要求1所述的方法,其特征在于,根据所述带外控制器下发的下电指令执行预启动检测,包括:
执行带外预启动检测,所述带外预启动检测用于检测所述计算机设备下电后再次启动时的硬件启动配置,所述硬件启动配置用于指示启动所述计算机设备的操作系统所使用的硬件;
执行带内预启动检测,所述带内预启动检测用于检测所述计算机设备的系统启动文件,所述系统启动文件用于启动所述计算机设备的操作系统。
3.根据权利要求2所述的方法,其特征在于,所述执行带外预启动检测,包括:
检测所述计算机设备下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置是否一致;
在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置一致的情况下,根据所述下电指令触发下电;
在下电后再次启动时的硬件启动配置与本次启动时的硬件启动配置不一致的情况下,根据本次启动时的硬件启动配置设置下电后再次启动时的硬件启动配置。
4.根据权利要求3所述的方法,其特征在于,根据所述下电指令触发下电,包括:
根据所述下电指令通过写复杂可编程逻辑器件(CPLD)触发下电。
5.根据权利要求2或3所述的方法,其特征在于,所述硬件启动配置包括:基本输入输出系统启动模式、基本输入输出系统启动项和磁盘阵列卡启动项中的至少一种。
6.根据权利要求2所述的方法,其特征在于,所述执行带内预启动检测,包括:
检测所述系统启动文件与备份启动文件是否一致,所述备份启动文件为所述计算设备下电之前成功启动所述操作系统的系统启动文件;
在所述系统启动文件与备份启动文件一致的情况下,执行所述计算机设备的下电操作;
在所述系统启动文件与备份启动文件不一致的情况下,取消所述计算机设备的下电操作。
7.根据权利要求6所述的方法,其特征在于,在所述系统启动文件与备份启动文件一致的情况下,执行所述计算机设备的下电操作,包括:
根据挂载文件检测磁盘是否存在异常,所述挂载文件用于指示所述磁盘的挂载目录,所述磁盘用于指示操作系统所在的磁盘;
在所述磁盘正常的情况下,执行所述计算机设备的下电操作。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预启动检测失败的情况下,取消所述计算机设备的下电操作。
9.一种计算机设备,其特征在于,包括存储器、可编程逻辑器件、处理器和带外控制器,所述存储器用于存储一组计算机指令;所述可编程逻辑器件用于触发下电;所述处理器用于执行带内预启动检测;所述带外控制器用于执行带外预启动检测。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,当所述计算机指令在计算机设备上运行时,使得所述计算机执行如权利要求1-8中任一项所述的方法。
CN202211131407.9A 2022-09-16 2022-09-16 带外下电方法、计算机设备及存储介质 Pending CN115576750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131407.9A CN115576750A (zh) 2022-09-16 2022-09-16 带外下电方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131407.9A CN115576750A (zh) 2022-09-16 2022-09-16 带外下电方法、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115576750A true CN115576750A (zh) 2023-01-06

Family

ID=84580800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131407.9A Pending CN115576750A (zh) 2022-09-16 2022-09-16 带外下电方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115576750A (zh)

Similar Documents

Publication Publication Date Title
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
US10353779B2 (en) Systems and methods for detection of firmware image corruption and initiation of recovery
US10866623B2 (en) Information handling system and method to detect and recover from no power/no post failures
WO2022198972A1 (zh) 一种服务器启动过程中的故障定位方法、系统及装置
US9158628B2 (en) Bios failover update with service processor having direct serial peripheral interface (SPI) access
US7734945B1 (en) Automated recovery of unbootable systems
CN113489597B (zh) 用于网络装置的最佳启动路径的方法和系统
US20190278651A1 (en) Methods And Systems For Detecting And Capturing Host System Hang Events
TWI576764B (zh) 電腦系統
US20040172578A1 (en) Method and system of operating system recovery
US11157349B2 (en) Systems and methods for pre-boot BIOS healing of platform issues from operating system stop error code crashes
US11789820B2 (en) Methods and systems for preventing hangup in a post routine from faulty bios settings
US11314665B2 (en) Information processing system, information processing device, BIOS updating method for information processing device, and BIOS updating program for information processing device
US11704198B2 (en) Method and apparatus for providing recovery from a computing device boot up error
CN108345464A (zh) 一种安卓系统的启动方法及安卓车机
CN114116280A (zh) 交互式bmc自恢复方法、系统、终端及存储介质
KR20000049321A (ko) 플래시 카드를 이용한 리눅스 자동복구시스템
US10824517B2 (en) Backup and recovery of configuration files in management device
US11030047B2 (en) Information handling system and method to restore system firmware to a selected restore point
TWI764454B (zh) 韌體損壞恢復技術
US11263083B1 (en) Method and apparatus for selective boot-up in computing devices
CN111078469A (zh) 一种数据处理方法和数据处理设备
US20160179626A1 (en) Computer system, adaptable hibernation control module and control method thereof
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN114116330B (zh) 服务器性能测试方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination