CN116909821A - 服务器故障检测方法及装置、存储介质、电子设备 - Google Patents
服务器故障检测方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN116909821A CN116909821A CN202310869302.1A CN202310869302A CN116909821A CN 116909821 A CN116909821 A CN 116909821A CN 202310869302 A CN202310869302 A CN 202310869302A CN 116909821 A CN116909821 A CN 116909821A
- Authority
- CN
- China
- Prior art keywords
- server
- log
- mode
- debugging mode
- debugging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000002159 abnormal effect Effects 0.000 claims abstract description 81
- 230000008569 process Effects 0.000 claims abstract description 60
- 230000005856 abnormality Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000007639 printing Methods 0.000 claims description 11
- 230000002547 anomalous effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供了一种服务器故障检测方法及装置、存储介质、电子设备,其中,该方法包括:在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志;在第一调试模式输出第一异常日志出现异常的情况下,切换至第二调试模式,并通过第二调试模式采集服务器的第二异常日志;按照第二调试模式输出的第二异常日志检测服务器的故障。通过本申请,解决了相关技术中存在的不能有效的检测服务器的故障的问题,达到有效的检测服务器的故障的效果。
Description
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种服务器故障检测方法及装置、存储介质、电子设备。
背景技术
当今时代,科技进步突飞猛进,尤其是服务器产品技术,依靠其强大的CPU运算能力、可靠的运行稳定性,以及较好的安全性和便捷性等等优势,使其在科技领域处于领先地位,服务器产品的稳定运行至关重要,服务器的开机故障可能与硬件、BIOS等其他领域都有关系,一旦无法正常开机,能否快速有效精准定位服务器宕机问题成为服务器厂商维护人员为客户提供正确解决方案的关键点。现有技术中的服务器开机故障的调试处理方式仅仅使用一种调试模式获取故障的日志,一旦调试模式无法正常运作,则需要人工切换调试模式,不能有效的检测服务器的故障。
针对上述技术问题,相关技术尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种服务器故障检测方法及装置、存储介质、电子设备,以至少解决相关技术中存在的不能有效的检测服务器的故障的问题。
根据本申请的一个实施例,提供了一种服务器故障检测方法,包括:在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集上述服务器的第一异常日志;在上述第一调试模式输出上述第一异常日志出现异常的情况下,切换至第二调试模式,并通过上述第二调试模式采集上述服务器的第二异常日志;按照上述第二调试模式输出的上述第二异常日志检测上述服务器的故障。
根据本申请的另一个实施例,提供了一种服务器故障检测装置,包括:第一采集模块,用于在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集上述服务器的第一异常日志;第一切换模块,用于在上述第一调试模式输出上述第一异常日志出现异常的情况下,切换至第二调试模式,并通过上述第二调试模式采集上述服务器的第二异常日志;第一检测模块,用于按照上述第二调试模式输出的上述第二异常日志检测上述服务器的故障。
在一个示例性实施例中,上述第一采集模块,包括:第一开启单元,用于在确定上述服务器宕机在预设页面的情况下,开启上述第一调试模式,其中,上述第一调试模式是基板管理控制器BMC和通用异步收发传输器UART控制的调试模式;第一获取单元,用于在上述服务器中的串口设备日志初始化的过程中,获取上述串口设备的串口调试方式,其中,上述串口调试方式与上述串口设备的连接方式相对应;第二开启单元,用于通过预设命令开启基本输出输出系统BIOS的调试模式,其中,上述预设命令是上述BMC通过智能平台管理接口IPMI传输至上述BIOS的命令,上述BIOS的调试模式在上述服务器开启的过程中处于关闭状态;第一采集单元,用于通过上述第一调试模式采集上述串口设备在上述串口调试方式下的连接日志;第一打印单元,用于在通过上述第一调试模式采集上述串口设备在上述串口调试方式下的连接日志的过程中,通过上述BIOS的调试模式打印上述连接日志,得到上述第一异常日志。
在一个示例性实施例中,所述第一切换模块,包括:在通过上述第一调试模式采集上述服务器的第一异常日志的过程中,重启上述服务器;第一重启单元,用于在重启上述服务器的过程中,判断上述第一调试模式是否输出上述第一异常日志;第一确定单元,用于在上述第一调试模式未输出上述第一异常日志的情况下,确定上述第一调试模式输出上述第一异常日志出现异常;第一开启单元,用于开启上述第二调试模式,并通过上述第二调试模式采集上述服务器的第二异常日志。
在一个示例性实施例中,上述第一确定单元,包括:第一重启子单元,用于在上述第一调试模式未输出上述第一异常日志的情况下,重启上述服务器;第一确定子单元,用于在重启上述服务器的次数大于预设次数的情况下,确定上述第一调试模式输出上述第一异常日志出现异常。
在一个示例性实施例中,上述第二开启单元包括:第一开启子单元,用于在重启上述服务器的次数大于预设次数的情况下,开启上述第二调试模式,其中,上述第二调试模式是上述服务器中的安全启动服务模块S3M和通用异步收发传输器UART控制的调试模式;第一采集子单元,用于通过上述第二调试模式采集上述服务器的第二异常日志。
在一个示例性实施例中,通过以下方式通过上述第二调试模式采集上述服务器的第二异常日志:在上述服务器中的串口设备日志初始化的过程中,获取上述串口设备的串口调试方式,其中,上述串口调试方式与上述串口设备的连接方式相对应;通过预设命令开启基本输出输出系统BIOS的调试模式,其中,上述预设命令是上述BMC通过智能平台管理接口IPMI传输至上述BIOS的命令,上述BIOS的调试模式在上述服务器开启的过程中处于关闭状态;通过上述第二调试模式采集上述串口设备在上述串口调试方式下的连接日志;在通过上述第二调试模式采集上述串口设备在上述串口调试方式下的连接日志的过程中,通过上述BIOS的调试模式打印上述连接日志,得到上述第二异常日志。
在一个示例性实施例中,上述装置还包括:第一确定模块,用于在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集上述服务器的第一异常日志之后,在重启上述服务器的过程中,确定上述第一调试模式输出上述第一异常日志的情况下,从上述第一异常日志中定位上述服务器出现异常的位置;第一发送模块,用于将上述服务器出现异常的位置的信息和上述第一异常日志发送至远端服务器,以指示上述远端服务器对上述异常进行处理。
在一个示例性实施例中,上述第一检测模块,包括:第二确定单元,用于在重启上述服务器的过程中,确定上述第二调试模式输出上述第二异常日志的情况下,从上述第二异常日志中定位上述服务器出现异常的位置;第一发送单元,用于将上述服务器出现异常的位置的信息和上述第二异常日志发送至远端服务器,以指示上述远端服务器对上述异常进行处理。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,由于是在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志;在第一调试模式输出第一异常日志出现异常的情况下,切换至第二调试模式,并通过第二调试模式采集服务器的第二异常日志;按照第二调试模式输出的第二异常日志检测服务器的故障。实现了在第一调试模式出现故障的情况下,及时的切换至第二调试模式对服务器的故障进行检测。并不需要人工执行调试模式的切换,因此,可以解决相关技术中存在的不能有效的检测服务器的故障的问题,达到有效的检测服务器的故障的效果。
附图说明
图1是本申请实施例的一种服务器故障检测方法的移动终端的硬件结构框图;
图2是根据本申请实施例的服务器故障检测方法的流程图;
图3是根据本申请实施例的服务器故障检测方法的整体流程图;
图4是根据本申请实施例的切换调试模式的流程图;
图5是根据本申请实施例的服务器故障检测装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面对本申请中的相关技术进行解释:
BIOS:基本输入/输出系统;
BMC:(Baseboard management controller)基板管理控制器;
UART:(Universal Asynchronous Receiver/Transmitter)通用异步收发传输器;
S3M:(Secure Startup Services Module)安全启动服务模块;
Power on:开机;
CPU:中央处理器;
ESPI:(Enhanced Serial Peripheral Interface)增强型串行外设接口;
Early VGA:早期视频图形阵列;
IPMI:(Intelligent Platform Management Interface)智能平台管理接口;
Post(Power On Self Test)自检;
Setup:设置界面。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种服务器故障检测方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的服务器故障检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种服务器故障检测方法,图2是根据本申请实施例的服务器故障检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志;
步骤S204,在第一调试模式输出第一异常日志出现异常的情况下,切换至第二调试模式,并通过第二调试模式采集服务器的第二异常日志;
步骤S206,按照第二调试模式输出的第二异常日志检测服务器的故障。
本实施例可以应用于对服务器的故障进行调试的场景中,例如,在服务器无法正常开机的情况下,在Early VGA阶段或者POST阶段出现了宕机,检测服务器宕机的原因和定位宕机的位置。
可选地,在服务器出现宕机的情况下,可以先通过第一调试模式采集服务器的异常日志,也可以先通过第二调试模型采集服务器的异常日志。第一调试模式和第二调试模式开启的顺序可以调换,具体开启的先后可以预先进行设置。
可选地,第一调试模式输出第一异常日志出现异常的原因包括第一调试模式出现异常,例如,在第一调试模式是基板管理控制器BMC和通用异步收发传输器UART控制的调试模式BMC UART时,通过BMC UART串口打印的方式定位服务器可能的宕机位置,此串口方式ESPI协议发送不成功,则无法正常打印日志。例如,BIOS代码在运行时宕机,若在Early VGA阶段或者post阶段出现了宕机,非硬件问题没有串口日志输出是无法判断精确判断服务器宕机的位置,从而无法给出正确的解决方案。
可选地,第二调试模式的调试方式和第一调试模式的调试方式可以相同,也可以不相同。例如,在第二调试模式是服务器中的安全启动服务模块S3M和通用异步收发传输器UART控制的调试模式时,也是通过BMC UART串口打印的方式定位服务器可能的宕机位置。在第二调试模式也出现故障时,可以发出提示信息,提示无法定位服务器的宕机位置。也可以切换至其他的调试模式进行定位服务器宕机的位置。
可选地,本实施了主要是识别到一种调试模式出现故障时,自动切换至另一种调试方式。自动切换的方式用户可以远程操作界面,可以避免用户在高噪音机房进行现场调试,提供了便利性,并节省了调试的时间和成本。
其中,上述步骤的执行主体可以为处理器,或者与终端或者服务器相对独立设置的处理器或者处理设备等,但不限于此。
通过上述步骤,由于是在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志;在第一调试模式输出第一异常日志出现异常的情况下,切换至第二调试模式,并通过第二调试模式采集服务器的第二异常日志;按照第二调试模式输出的第二异常日志检测服务器的故障。实现了在第一调试模式出现故障的情况下,及时的切换至第二调试模式对服务器的故障进行检测。并不需要人工执行切换,因此,可以解决相关技术中存在的不能有效的检测服务器的故障的问题,达到有效的检测服务器的故障的效果。
在一个可选的实施例中,在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志,包括:在确定服务器宕机在预设页面的情况下,开启第一调试模式,其中,第一调试模式是基板管理控制器BMC和通用异步收发传输器UART控制的调试模式;在服务器中的串口设备日志初始化的过程中,获取串口设备的串口调试方式,其中,串口调试方式与串口设备的连接方式相对应;通过预设命令开启基本输出输出系统BIOS的调试模式,其中,预设命令是BMC通过智能平台管理接口IPMI传输至BIOS的命令,BIOS的调试模式在服务器开启的过程中处于关闭状态;通过第一调试模式采集串口设备在串口调试方式下的连接日志;在通过第一调试模式采集串口设备在串口调试方式下的连接日志的过程中,通过BIOS的调试模式打印连接日志,得到第一异常日志。在本实施例中,预设页面包括但不限于是Early VGA界面,POST界面。默认优先开启第一调试模式(例如,BMCUART调试模式)进行异常日志的收集。在服务器中的串口设备日志初始化的过程中,可以查看服务器当前使用的串口调试方式。通过IPMI命令开启BIOS的调试模式。本实施例在服务器出现宕机时,通过开启基板管理控制器BMC和通用异步收发传输器UART控制的调试模式,可以实现实时的对服务器宕机的位置进行定位。
在一个示例性实施例中,在第一调试模式输出第一异常日志出现异常的情况下,切换至第二调试模式,并通过第二调试模式采集服务器的第二异常日志,包括:在通过第一调试模式采集服务器的第一异常日志的过程中,重启服务器;在重启服务器的过程中,判断第一调试模式是否输出第一异常日志;在第一调试模式未输出第一异常日志的情况下,确定第一调试模式输出第一异常日志出现异常;开启第二调试模式,并通过第二调试模式采集服务器的第二异常日志。在本实施例中,在第一调试模式是BMC UART模式时,在服务器开机重启的过程中,通过观察BMC UART中是否存在日志信息的输出判断BMC UART模式是否正常。
可选地,在第一调试模式未输出第一异常日志的情况下,确定第一调试模式输出第一异常日志出现异常,包括:在第一调试模式未输出第一异常日志的情况下,重启服务器;在重启服务器的次数大于预设次数的情况下,确定第一调试模式输出第一异常日志出现异常。例如,服务器在重启3次之后,第一调试模式均为输出日志的情况下,确定第一调试模式出现异常。
可选地,开启第二调试模式,并通过第二调试模式采集服务器的第二异常日志,包括:在重启服务器的次数大于预设次数的情况下,开启第二调试模式,其中,第二调试模式是服务器中的安全启动服务模块S3M和通用异步收发传输器UART控制的调试模式;通过第二调试模式采集服务器的第二异常日志。第二调试模式的开启的顺序是预先设置的,可以与第一调试模式的开启顺序进行调换。需要说明的是,在包括多个调试模式时,还可以同时启动不同的调试模式对服务器的故障进行检测。在同时启动的调试模式均出现异常时,可以切换至多个其他调试模式同时采集异常日志。多个调试模式同时采集异常日志,可以减少切换的次数,增加日志采集的实时性。
本实施例通过多次重启服务器判断是否有日志输出,一方面可以减少对调试模式的误判断,另一方面可以及时的切换调试模式,增加对服务器故障检测的时效性。
在一个示例性实施例中,通过第二调试模式采集服务器的第二异常日志,包括:在服务器中的串口设备日志初始化的过程中,获取串口设备的串口调试方式,其中,串口调试方式与串口设备的连接方式相对应;通过预设命令开启基本输出输出系统BIOS的调试模式,其中,预设命令是BMC通过智能平台管理接口IPMI传输至BIOS的命令,BIOS的调试模式在服务器开启的过程中处于关闭状态;通过第二调试模式采集串口设备在串口调试方式下的连接日志;在通过第二调试模式采集串口设备在串口调试方式下的连接日志的过程中,通过BIOS的调试模式打印连接日志,得到第二异常日志。在本实施例中,第二调试模式获取日志的方式和第一调试模式基本相同,在此不再赘述。本实施例通过及时切换至第二调试模式采集异常日志,增加了对服务器故障检测的时效性。
在一个示例性实施例中,在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集服务器的第一异常日志之后,上述方法还包括:在重启服务器的过程中,确定第一调试模式输出第一异常日志的情况下,从第一异常日志中定位服务器出现异常的位置;将服务器出现异常的位置的信息和第一异常日志发送至远端服务器,以指示远端服务器对异常进行处理。在本实施例中,远端服务器可以远程对调试模式的切换进行控制,也可以远程获取异常日志,为服务器的故障检测提供了便利。
在一个示例性实施例中,按照第二调试模式输出的第二异常日志检测服务器的故障,包括:在重启服务器的过程中,确定第二调试模式输出第二异常日志的情况下,从第二异常日志中定位服务器出现异常的位置;将服务器出现异常的位置的信息和第二异常日志发送至远端服务器,以指示远端服务器对异常进行处理。在本实施例中,对第二调试模式的故障检测方式也是通过判断服务器的重启次数,与第一调试模式的判断方式相同。远端服务器可以远程对调试模式的切换进行控制,也可以远程获取异常日志,为服务器的故障检测提供了便利。
下面结合具体实施例对本发明进行说明:
如图3所示,是本具体实施例的流程图,包括以下步骤:
S31,服务器上电开机;
S32,判断服务器中的BIOS code是否运行正常,如果BIOS code运行正常,则服务器进入Setup界面,如果代码运行异常,则进行S33。
S33,如果服务器宕机在Early VGA或者post界面,则默认优先开启BMC UART调试模式进行异常日志的收集;可以在串口日志初始化阶段查看服务器当前用的串口调试方式;
S34,通过IPMI命令开启BIOS的调试模式(默认模式为关闭状态);
S35,服务器开机重启;
S36,判断BMC UART中是否存在异常日志输出;
S37,若异常日志输出正常,则可根据异常日志中的宕机位置信息进行精准定位;
S38,若BMC UART方式串口输出信息为0,一直黑屏,则重启服务器;
S39,若服务器连续启动两次后仍然黑屏且无信息,则判定为BMC UART方式启动失败,判定为BMC UART调试模式启动失败后,服务器重启,自动切换为S3M Uart调试模式抓取串口的异常日志。
可选地,在服务器BIOS出现宕机问题时,服务器检测系统自动切换调试模式,具体流程如图4所示,包括以下步骤:
S41,服务器在启动的过程中BIOS代码出现宕机问题;
S42,服务器检测系统切换至宕机检测;
S43,在BMC UART调试模式和S3M Uart调试模式中选择一个调试模式对服务器的异常日志进行采集,抓取串口的异常日志。
在本实施例中,服务器检测系统可以设置在服务器中,也可以外设在其他设备中,与服务器连接。在设置在服务器中时,服务器在通电后,服务器检测系统启动,开始选择调试模式获取服务器的运行日志。在设置外设的其他设备中时,在启动服务器通电后,启动服务器检测系统,选择调试模式对服务器的故障进行检测。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种服务器故障检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的服务器故障检测装置的结构框图,如图5所示,该装置包括:
第一采集模块52,用于在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集上述服务器的第一异常日志;
第一切换模块54,用于在上述第一调试模式输出上述第一异常日志出现异常的情况下,切换至第二调试模式,并通过上述第二调试模式采集上述服务器的第二异常日志;
第一检测模块56,用于按照上述第二调试模式输出的上述第二异常日志检测上述服务器的故障。
在一个示例性实施例中,上述第一采集模块,包括:
第一开启单元,用于在确定上述服务器宕机在预设页面的情况下,开启上述第一调试模式,其中,上述第一调试模式是基板管理控制器BMC和通用异步收发传输器UART控制的调试模式;
第一获取单元,用于在上述服务器中的串口设备日志初始化的过程中,获取上述串口设备的串口调试方式,其中,上述串口调试方式与上述串口设备的连接方式相对应;
第二开启单元,用于通过预设命令开启基本输出输出系统BIOS的调试模式,其中,上述预设命令是上述BMC通过智能平台管理接口IPMI传输至上述BIOS的命令,上述BIOS的调试模式在上述服务器开启的过程中处于关闭状态;
第一采集单元,用于通过上述第一调试模式采集上述串口设备在上述串口调试方式下的连接日志;
第一打印单元,用于在通过上述第一调试模式采集上述串口设备在上述串口调试方式下的连接日志的过程中,通过上述BIOS的调试模式打印上述连接日志,得到上述第一异常日志。
在一个示例性实施例中,所述第一切换模块,包括:
在通过上述第一调试模式采集上述服务器的第一异常日志的过程中,重启上述服务器;
第一重启单元,用于在重启上述服务器的过程中,判断上述第一调试模式是否输出上述第一异常日志;
第一确定单元,用于在上述第一调试模式未输出上述第一异常日志的情况下,确定上述第一调试模式输出上述第一异常日志出现异常;
第一开启单元,用于开启上述第二调试模式,并通过上述第二调试模式采集上述服务器的第二异常日志。
在一个示例性实施例中,上述第一确定单元,包括:
第一重启子单元,用于在上述第一调试模式未输出上述第一异常日志的情况下,重启上述服务器;
第一确定子单元,用于在重启上述服务器的次数大于预设次数的情况下,确定上述第一调试模式输出上述第一异常日志出现异常。
在一个示例性实施例中,上述第二开启单元包括:
第一开启子单元,用于在重启上述服务器的次数大于预设次数的情况下,开启上述第二调试模式,其中,上述第二调试模式是上述服务器中的安全启动服务模块S3M和通用异步收发传输器UART控制的调试模式;
第一采集子单元,用于通过上述第二调试模式采集上述服务器的第二异常日志。
在一个示例性实施例中,通过以下方式通过上述第二调试模式采集上述服务器的第二异常日志:在上述服务器中的串口设备日志初始化的过程中,获取上述串口设备的串口调试方式,其中,上述串口调试方式与上述串口设备的连接方式相对应;通过预设命令开启基本输出输出系统BIOS的调试模式,其中,上述预设命令是上述BMC通过智能平台管理接口IPMI传输至上述BIOS的命令,上述BIOS的调试模式在上述服务器开启的过程中处于关闭状态;通过上述第二调试模式采集上述串口设备在上述串口调试方式下的连接日志;在通过上述第二调试模式采集上述串口设备在上述串口调试方式下的连接日志的过程中,通过上述BIOS的调试模式打印上述连接日志,得到上述第二异常日志。
在一个示例性实施例中,上述装置还包括:
第一确定模块,用于在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集上述服务器的第一异常日志之后,在重启上述服务器的过程中,确定上述第一调试模式输出上述第一异常日志的情况下,从上述第一异常日志中定位上述服务器出现异常的位置;
第一发送模块,用于将上述服务器出现异常的位置的信息和上述第一异常日志发送至远端服务器,以指示上述远端服务器对上述异常进行处理。
在一个示例性实施例中,上述第一检测模块,包括:
第二确定单元,用于在重启上述服务器的过程中,确定上述第二调试模式输出上述第二异常日志的情况下,从上述第二异常日志中定位上述服务器出现异常的位置;
第一发送单元,用于将上述服务器出现异常的位置的信息和上述第二异常日志发送至远端服务器,以指示上述远端服务器对上述异常进行处理。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种服务器故障检测方法,其特征在于,包括:
在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集所述服务器的第一异常日志;
在所述第一调试模式输出所述第一异常日志出现异常的情况下,切换至第二调试模式,并通过所述第二调试模式采集所述服务器的第二异常日志;
按照所述第二调试模式输出的所述第二异常日志检测所述服务器的故障。
2.根据权利要求1所述的方法,其特征在于,在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集所述服务器的第一异常日志,包括:
在确定所述服务器宕机在预设页面的情况下,开启所述第一调试模式,其中,所述第一调试模式是基板管理控制器BMC和通用异步收发传输器UART控制的调试模式;
在所述服务器中的串口设备日志初始化的过程中,获取所述串口设备的串口调试方式,其中,所述串口调试方式与所述串口设备的连接方式相对应;
通过预设命令开启基本输出输出系统BIOS的调试模式,其中,所述预设命令是所述BMC通过智能平台管理接口IPMI传输至所述BIOS的命令,所述BIOS的调试模式在所述服务器开启的过程中处于关闭状态;
通过所述第一调试模式采集所述串口设备在所述串口调试方式下的连接日志;
在通过所述第一调试模式采集所述串口设备在所述串口调试方式下的连接日志的过程中,通过所述BIOS的调试模式打印所述连接日志,得到所述第一异常日志。
3.根据权利要求1所述的方法,其特征在于,在所述第一调试模式输出所述第一异常日志出现异常的情况下,切换至第二调试模式,并通过所述第二调试模式采集所述服务器的第二异常日志,包括:
在通过所述第一调试模式采集所述服务器的第一异常日志的过程中,重启所述服务器;
在重启所述服务器的过程中,判断所述第一调试模式是否输出所述第一异常日志;
在所述第一调试模式未输出所述第一异常日志的情况下,确定所述第一调试模式输出所述第一异常日志出现异常;
开启所述第二调试模式,并通过所述第二调试模式采集所述服务器的第二异常日志。
4.根据权利要求3所述的方法,其特征在于,在所述第一调试模式未输出所述第一异常日志的情况下,确定所述第一调试模式输出所述第一异常日志出现异常,包括:
在所述第一调试模式未输出所述第一异常日志的情况下,重启所述服务器;
在重启所述服务器的次数大于预设次数的情况下,确定所述第一调试模式输出所述第一异常日志出现异常。
5.根据权利要求4所述的方法,其特征在于,开启所述第二调试模式,并通过所述第二调试模式采集所述服务器的第二异常日志,包括:
在重启所述服务器的次数大于预设次数的情况下,开启所述第二调试模式,其中,所述第二调试模式是所述服务器中的安全启动服务模块S3M和通用异步收发传输器UART控制的调试模式;
通过所述第二调试模式采集所述服务器的第二异常日志。
6.根据权利要求1或5所述的方法,其特征在于,通过所述第二调试模式采集所述服务器的第二异常日志,包括:
在所述服务器中的串口设备日志初始化的过程中,获取所述串口设备的串口调试方式,其中,所述串口调试方式与所述串口设备的连接方式相对应;
通过预设命令开启基本输出输出系统BIOS的调试模式,其中,所述预设命令是BMC通过智能平台管理接口IPMI传输至所述BIOS的命令,所述BIOS的调试模式在所述服务器开启的过程中处于关闭状态;
通过所述第二调试模式采集所述串口设备在所述串口调试方式下的连接日志;
在通过所述第二调试模式采集所述串口设备在所述串口调试方式下的连接日志的过程中,通过所述BIOS的调试模式打印所述连接日志,得到所述第二异常日志。
7.根据权利要求1所述的方法,其特征在于,在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集所述服务器的第一异常日志之后,所述方法还包括:
在重启所述服务器的过程中,确定所述第一调试模式输出所述第一异常日志的情况下,从所述第一异常日志中定位所述服务器出现异常的位置;
将所述服务器出现异常的位置的信息和所述第一异常日志发送至远端服务器,以指示所述远端服务器对所述异常进行处理。
8.根据权利要求1所述的方法,其特征在于,按照所述第二调试模式输出的所述第二异常日志检测所述服务器的故障,包括:
在重启所述服务器的过程中,确定所述第二调试模式输出所述第二异常日志的情况下,从所述第二异常日志中定位所述服务器出现异常的位置;
将所述服务器出现异常的位置的信息和所述第二异常日志发送至远端服务器,以指示所述远端服务器对所述异常进行处理。
9.一种服务器故障检测装置,其特征在于,包括:
第一采集模块,用于在确定服务器开启的过程中出现宕机的情况下,通过第一调试模式采集所述服务器的第一异常日志;
第一切换模块,用于在所述第一调试模式输出所述第一异常日志出现异常的情况下,切换至第二调试模式,并通过所述第二调试模式采集所述服务器的第二异常日志;
第一检测模块,用于按照所述第二调试模式输出的所述第二异常日志检测所述服务器的故障。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至8任一项中所述的方法的步骤。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至8任一项中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869302.1A CN116909821A (zh) | 2023-07-14 | 2023-07-14 | 服务器故障检测方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869302.1A CN116909821A (zh) | 2023-07-14 | 2023-07-14 | 服务器故障检测方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116909821A true CN116909821A (zh) | 2023-10-20 |
Family
ID=88357689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310869302.1A Pending CN116909821A (zh) | 2023-07-14 | 2023-07-14 | 服务器故障检测方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116909821A (zh) |
-
2023
- 2023-07-14 CN CN202310869302.1A patent/CN116909821A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102571498B (zh) | 故障注入控制方法和装置 | |
CN110954849B (zh) | 电器设备的异常检测系统、方法和监控终端 | |
CN115827111B (zh) | 服务器启动项的调整方法和装置、存储介质及电子装置 | |
US10404559B2 (en) | Apparatus and system for automatically rebooting an electronically powered device via power over ethernet | |
CN108174400B (zh) | 一种终端设备的数据处理方法及系统、设备 | |
CN115658113A (zh) | 服务器自启动方法、装置、可读存储介质及电子设备 | |
CN116737471B (zh) | Bios自动切换方法、装置、电子设备及存储介质 | |
CN115543872A (zh) | 一种设备管理方法、装置及计算机存储介质 | |
CN106406963B (zh) | 一种Linux系统的初始化方法和装置 | |
CN111176958B (zh) | 信息监测方法、系统和存储介质 | |
CN116909821A (zh) | 服务器故障检测方法及装置、存储介质、电子设备 | |
CN101136756B (zh) | 网络远程控制主机上电自检的方法、系统和bmc芯片 | |
CN116137603A (zh) | 链路故障的检测方法和装置、存储介质及电子装置 | |
CN117251333A (zh) | 一种硬盘信息获取方法、装置、设备及存储介质 | |
CN115665785B (zh) | 基于linux板卡的无线网卡自管理应用程序模块及方法 | |
CN108829442A (zh) | 程序启动方法及装置 | |
CN103139036A (zh) | 电子设备及其信息处理方法 | |
CN111158944B (zh) | 一种信息处理方法、电源系统及电子设备系统 | |
CN115168146A (zh) | 一种异常检测方法和装置 | |
CN114338464A (zh) | 故障诊断方法、装置、设备及计算机可读存储介质 | |
CN114168205A (zh) | 一种bios固件校验系统、方法和装置 | |
CN113339935A (zh) | 一种故障原因的确定方法、装置和故障检测系统 | |
CN109391544B (zh) | 2g/3g/4g路由器死机自动重启方法和电路 | |
CN110659174A (zh) | 监控告警方法、装置和系统 | |
CN117527649A (zh) | 链路故障的检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |