CN116627712A - 服务器内存故障检测方法、装置、电子设备及存储介质 - Google Patents

服务器内存故障检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116627712A
CN116627712A CN202310402765.7A CN202310402765A CN116627712A CN 116627712 A CN116627712 A CN 116627712A CN 202310402765 A CN202310402765 A CN 202310402765A CN 116627712 A CN116627712 A CN 116627712A
Authority
CN
China
Prior art keywords
server
memory
serial port
fault
remote serial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310402765.7A
Other languages
English (en)
Inventor
李洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310402765.7A priority Critical patent/CN116627712A/zh
Publication of CN116627712A publication Critical patent/CN116627712A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1433Saving, restoring, recovering or retrying at system level during software upgrading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种服务器内存故障检测方法、装置、电子设备及存储介质,所述方法应用于基板管理控制器BMC,包括:在服务器重启过程中,获取远程串口日志;对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。本发明能够在服务器宕机进行重启时获取远程串口日志,通过远程串口日志确定是因服务器内存故障而引起的服务器宕机,并且能够确定故障内存地址生告警信息进行故障提示,从而实现对宕机现象进行服务器的故障排查。

Description

服务器内存故障检测方法、装置、电子设备及存储介质
技术领域
本发明涉及服务器技术领域,尤其涉及一种服务器内存故障检测方法、装置、电子设备及存储介质。
背景技术
当服务器存在损坏的内存时,服务器开机会宕机在内存自检状态,由于此时未自检完成,虽然基本输入输出系统BIOS开启故障排除debug模式后,通过远程串口日志可以打印出具体的故障内存,但是BIOS此时仍未开始向基板管理控制器BMC推送信息,且服务器告警灯由BMC控制,所以此时服务器无法对故障内存进行告警,BMC也无法记录故障内存信息,仅通过宕机页面,无法对宕机现象进行排查。
因此,如何针对宕机现象进行服务器的故障进行排查,是当前亟需解决的技术问题。
发明内容
本发明提供一种服务器内存故障检测方法、装置、电子设备及存储介质,用以解决现有技术中仅通过宕机页面,无法对宕机现象进行排查的缺陷,实现针对宕机现象进行服务器的故障排查,从而确定引起服务器宕机的故障内存,并针对该故障内存进行告警提示。
本发明提供一种服务器内存故障检测方法,包括:
在服务器重启过程中,获取远程串口日志;
对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
根据本发明提供的一种服务器内存故障检测方法,所述在服务器重启过程中,获取远程串口日志之前,还包括:
确定所述服务器宕机在自检状态;
开启基本输入输出系统的故障排除模式,并打开远程串口;
向服务器发送重启指令,以使所述服务器重启。
根据本发明提供的一种服务器内存故障检测方法,所述确定所述服务器宕机在自检状态,包括:
在所述服务器处于开机状态或重启状态的情况下,获取与所述基本输入输出系统之间的通信结果;
基于所述通信结果确定在预设时间内未接收所述基本输入输出系统发送的推送信息,确定所述服务器宕机在自检状态。
根据本发明提供的一种服务器内存故障检测方法,所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机之前,还包括:
确定所述远程串口日志停止更新,关闭所述远程串口;
所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机,包括:
对所述远程串口日志进行故障信息检测,判断是否为所述服务器内存故障引起所述服务器宕机;
在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址。
根据本发明提供的一种服务器内存故障检测方法,所述开启基本输入输出系统的故障排除模式,包括:
向所述基本输入输出系统发送第一指令,以使所述基本输入输出系统开启所述故障排除模式;
或,
在后台直接开启所述基本输入输出系统的故障排除模式。
根据本发明提供的一种服务器内存故障检测方法,所述在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址之后,还包括:
获取故障的所述服务器内存的内存信息,将所述内存信息和故障内存地址存储至告警日志中以供用户进行查看。
本发明还提供一种服务器内存故障检测装置,包括:
获取模块,用于在服务器重启过程中,获取远程串口日志;
检测模块,用于对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
告警模块,用于基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述服务器内存故障检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述服务器内存故障检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述服务器内存故障检测方法。
本发明提供的服务器内存故障检测方法、装置、电子设备及存储介质,通过在服务器重启过程中,获取远程串口日志,然后对远程串口日志进行检测,在确定远程串口日志中存在至少一个故障内存地址的情况下,确定故障内存引起服务器宕机,最后基于至少一个故障内存地址确定告警信息,基于告警信息进行故障提示。本发明能够在服务器宕机进行重启时获取远程串口日志,通过远程串口日志确定是因服务器内存故障而引起的服务器宕机,并且能够确定故障内存地址生告警信息进行故障提示,从而实现对宕机现象进行服务器的故障排查。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的服务器内存故障检测方法的流程示意图之一;
图2是本发明提供的服务器内存故障检测方法的流程示意图之二;
图3是本发明提供的服务器内存故障检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当服务器存在损坏的内存时,服务器开机会宕机在内存自检状态,由于此时未自检完成,虽然基本输入输出系统BIOS开启故障排除debug模式后,通过远程串口日志可以打印出具体的故障内存,但是BIOS此时仍未开始向基板管理控制器BMC推送信息,且服务器告警灯由BMC控制,所以此时服务器无法对故障内存进行告警,BMC也无法记录故障内存信息,仅通过宕机页面,无法对宕机现象进行排查。
相关技术中,当存在坏内存时,服务器宕机在自检状态,但是服务器状态仍显示正常。告警灯由BMC控制,且BMC可记录告警日志。BIOS开启debug模式后,通过串口日志可以查看故障内存信息,且只有存在自检不通过的内存故障时,才单独打印故障内存的具体信息。可以通过BMC开启BIOS debug模式。可通过BMC使用SOL的方式打印串口日志。打开SOL后,BMC会自动产生一个SOL日志文件,记录SOL打印的所有信息。
目前出现由于坏内存引起的宕机问题时,服务器状态仍是正常状态,且BMC也无法记录告警信息,无法对宕机现象进行排查。BIOS开启debug模式后,可以通过串口日志对故障进行定位,但是此方法客户难以使用,且并不直观,也不高效。
针对上述存在的问题,本发明提供一种服务器内存故障检测方法、装置、电子设备及存储介质。
参照图1,本发明提供的服务器内存故障检测方法,应用于基板管理控制器BMC,包括以下步骤:
步骤110、在服务器重启过程中,获取远程串口日志;
步骤120、对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
步骤130、基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
首先需要说明的是,本实施例是在服务器宕机的前提下进行的。本实施例中的方法流程的执行主体为基板管理控制器BMC,(Baseboard Management Controller),可以在机器未开机或正在启动的状态下,对机器进行固件升级、查看机器设备、等一些操作。
在上述步骤110中,在服务器重启过程获取远程串口日志。远程串口日志即SOL日志,是通过SOL(Serial Over Lan)远程串口获取的。
需要说明的是,SOL是一种通过网络访问远程计算机串口的技术。通过SOL技术,用户可以通过网络连接访问位于远程计算机上的串口设备,比如控制台、调试器和其他串口设备。
本实施例中的SOL远程串口日志,也称作串口远程管理日志,是指一个记录了远程串口管理器与被管理设备之间串口通信内容的日志文件。串口远程管理是通过网络连接,让用户远程访问和管理设备的串口,以方便进行监控和配置。
在远程串口管理过程中,串口远程管理器会将设备的串口信息转换为网络流传输到用户的计算机上,该信息包含了一些重要的参数,例如设备状态信息、端口参数、控制命令和调试信息等。这些信息在进行串口通信过程中都会被记录到远程串口日志中。
远程串口日志可以帮助用户快速定位和解决设备出现的问题。用户可以通过查看远程串口日志来获取有关设备状态、错误信息、错误代码和其他调试信息,以进一步排查故障原因。另外,远程串口日志还可以用于监控设备的性能和状态,以便及时发现和解决可能出现的问题。
通过上述步骤120,对获取到的远程串口日志进行检测,判断远程串口日志中是否单独记载了某一个或某几个服务器内存的具体信息。如果远程串口日志中存在至少一个服务器内存,则说明在服务器宕机且重新启动过程中,读取到服务器内存的数据,也就是服务器宕机是因服务器内存出现故障引起的。
最后通过上述步骤130,针对上述确定的故障的服务器内存的地址,生成告警信息对用户进行提示。在本实施例中,告警信息可以为通过控制服务器内存告警灯以红色常亮的方式进行提示,也可以为发出提示警报进行提示,在此不做过多的限定。
本发明提供的服务器内存故障检测方法,通过在服务器重启过程中,获取远程串口日志,然后对远程串口日志进行检测,在确定远程串口日志中存在至少一个故障内存地址的情况下,确定故障内存引起服务器宕机,最后基于至少一个故障内存地址确定告警信息,基于告警信息进行故障提示。本发明能够在服务器宕机进行重启时获取远程串口日志,通过远程串口日志确定是因服务器内存故障而引起的服务器宕机,并且能够确定故障内存地址生告警信息进行故障提示,从而实现对宕机现象进行服务器的故障排查。
在一些可选的实施例中,所述在服务器重启过程中,获取远程串口日志之前,还包括:
确定所述服务器宕机在自检状态;
开启基本输入输出系统的故障排除模式,并打开远程串口;
向服务器发送重启指令,以使所述服务器重启。
可以理解的是,本实施例中需要首先确定服务器宕机在自检状态,然后再对宕机的原因进行分析。
进一步地,所述确定所述服务器宕机在自检状态,包括:
在所述服务器处于开机状态或重启状态的情况下,获取与所述基本输入输出系统之间的通信结果;
基于所述通信结果确定在预设时间内未接收所述基本输入输出系统发送的推送信息,确定所述服务器宕机在自检状态。
具体地,服务器启动时会进行自检,检查硬件是否正常,包括但不限于CPU、内存、硬盘、电源等部件。自检状态一般分为POST(power-on self-test)和BIOS两个阶段。服务器启动后,POST程序会对硬件进行自检,测试硬件是否正常。POST程序会监测包括CPU、内存、硬盘、电源等部件在内的所有硬件设备,如果发现其中有部件未能正常运行,POST程序会发出错误信号,通知用户有部件需要更换或修复。
当服务器经过POST自检后,会进入BIOS程序初始化阶段。BIOS程序是一个位于主板上的固件,它包含了一系列设置和配置,用于管理硬件和软件。服务器启动时,BIOS程序会读取电脑的硬件信息和配置信息,并根据这些信息初始化硬件和软件。在BIOS阶段,用户有机会修改服务器的配置信息,例如更改启动顺序、修改时间和日期等。
本实施例中,服务器处于开机状态或重启状态时,需获取与基本输入输出系统BIOS之间的通信结果。可以通过观察服务器开机时的LED灯状态、听取声音报警等方式来判断服务器启动自检是否正常。
在正常情况下,服务器上的自检程序会在几秒钟内完成,然后启动操作系统。
而在服务器宕机在自检状态下时,自检程序在固定时间内便无法完成,具体体现在,BMC在预设时间内未接收到BIOS发送的推送信息。
在确定服务器宕机在自检状态后,需要开启基本输入输出系统BIOS的故障排除模式Debug,并打开远程串口SOL以获取远程串口日志,然后向服务器发送重启指令,以使服务器重启,从而在重启过程中获取远程串口日志进行故障检测。
本发明提供的服务器内存故障检测方法,通过对服务器的自检状态进行检测,确定服务器宕机在自检状态,开启BIOS的debug模式和BMC的远程串口,从而便于在服务器再次重启时获取SOL日志,进而对SOL进行故障检测,实现对服务器宕机进行故障排查。
在一些可选的实施例中,所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机之前,还包括:
确定所述远程串口日志停止更新,关闭所述远程串口;
所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机,包括:
对所述远程串口日志进行故障信息检测,判断是否为所述服务器内存故障引起所述服务器宕机;
在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址。
可以理解的是,本实施例中,当远程串口日志停止更新时,说明此时可能服务器重启已经完成,需要及时关闭远程串口以减少对BMC的内存占用,从而避免出现BMC系统卡顿的现象。
此外,在根据远程串口日志进行故障现象检测的过中,首先需要根据检测到的服务器地址的具体信息确定服务器内存故障引起服务器宕机。然后根据SOL远程串口日志中的内容,对故障的服务器内存进行定位,从而确定是哪一个或哪几个服务器内存出现故障而导致服务器宕机,记录这些出现故障的服务器内存的故障内存地址以生成告警信息。
本发明提供的服务器内存故障检测方法,通过及时关闭远程串口以减少对BMC的内存占用,从而避免出现BMC系统卡顿的现象,以及根据远程串口日志对服务器内存进行故障内存定位,提高了服务器宕机原因的检测效率。
在一些可选的实施例中,所述开启基本输入输出系统的故障排除模式,包括:
向所述基本输入输出系统发送第一指令,以使所述基本输入输出系统开启所述故障排除模式;
或,
在后台直接开启所述基本输入输出系统的故障排除模式。
具体地,本实施例示出了开启基本输入输出系统的两个不同实施方式。其一,基板管理控制器BMC可向基本输入输出系统发送第一指令,使得基本输入输出系统BIOS能够根据第一指令开启故障排除模式。其二,基板管理控制器BMC自身也具备debug模块的开启功能,可直接在后台开启基本输入输出系统BIOS的故障排除模式。
在一些可选的实施例中,所述在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址之后,还包括:
获取故障的所述服务器内存的内存信息,将所述内存信息和故障内存地址存储至告警日志中以供用户进行查看。
在本实施例中,由于SOL日志对于用户来说并不直观,可将故障的服务器内存的内存信息以及故障内存地址存储至告警日志,用户可直接查看告警日志从而确定引起服务器宕机的故障内存,相较于SOL日志来说更为直观,用户能够更快更高效地对服务器宕机进行排查。
参照图2,本发明提供是服务器内存故障检测方法的完整流程包括以下步骤:
步骤210、服务器开机或重启;
步骤220、宕机在自检状态;
步骤230、BMC长时间收不到BIOS post信息;
步骤240、BMC打开BIOS debug模式;
步骤250、BMC打开SOL;
步骤260、BMC发送服务器重启命令;
步骤270、BMC监控到SOL日志停止更新;
步骤280、关闭SOL;
步骤290、BMC查看SOL日志是否单独记录了某根或某几根内存的具体信息;
步骤201、在告警日志中记录内存故障,并记录获取到的内存地址;
步骤202、BMC控制服务器内存告警灯红色常亮。
下面对本发明提供的服务器内存故障检测装置进行描述,下文描述的服务器内存故障检测装置与上文描述的服务器内存故障检测方法可相互对应参照。
参照图3,本发明提供的服务器内存故障检测装置,包括以下模块:
获取模块310,用于在服务器重启过程中,获取远程串口日志;
检测模块320,用于对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
告警模块330,用于基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
在上述获取模块310中,在服务器重启过程获取远程串口日志。远程串口日志即SOL日志,是通过SOL(Serial Over Lan)远程串口获取的。
需要说明的是,SOL是一种通过网络访问远程计算机串口的技术。通过SOL技术,用户可以通过网络连接访问位于远程计算机上的串口设备,比如控制台、调试器和其他串口设备。
本实施例中的SOL远程串口日志,也称作串口远程管理日志,是指一个记录了远程串口管理器与被管理设备之间串口通信内容的日志文件。串口远程管理是通过网络连接,让用户远程访问和管理设备的串口,以方便进行监控和配置。
在远程串口管理过程中,串口远程管理器会将设备的串口信息转换为网络流传输到用户的计算机上,该信息包含了一些重要的参数,例如设备状态信息、端口参数、控制命令和调试信息等。这些信息在进行串口通信过程中都会被记录到远程串口日志中。
远程串口日志可以帮助用户快速定位和解决设备出现的问题。用户可以通过查看远程串口日志来获取有关设备状态、错误信息、错误代码和其他调试信息,以进一步排查故障原因。另外,远程串口日志还可以用于监控设备的性能和状态,以便及时发现和解决可能出现的问题。
通过上述检测模块320,对获取到的远程串口日志进行检测,判断远程串口日志中是否单独记载了某一个或某几个服务器内存的具体信息。如果远程串口日志中存在至少一个服务器内存,则说明在服务器宕机且重新启动过程中,读取到服务器内存的数据,也就是服务器宕机是因服务器内存出现故障引起的。
最后通过上述告警模块330,针对上述确定的故障的服务器内存的地址,生成告警信息对用户进行提示。在本实施例中,告警信息可以为通过控制服务器内存告警灯以红色常亮的方式进行提示,也可以为发出提示警报进行提示,在此不做过多的限定。
本发明提供的服务器内存故障检测装置,通过在服务器重启过程中,获取远程串口日志,然后对远程串口日志进行检测,在确定远程串口日志中存在至少一个故障内存地址的情况下,确定故障内存引起服务器宕机,最后基于至少一个故障内存地址确定告警信息,基于告警信息进行故障提示。本发明能够在服务器宕机进行重启时获取远程串口日志,通过远程串口日志确定是因服务器内存故障而引起的服务器宕机,并且能够确定故障内存地址生告警信息进行故障提示,从而实现对宕机现象进行服务器的故障排查。
在一些可选的实施例中,所述在服务器重启过程中,获取远程串口日志之前,还包括:
确定所述服务器宕机在自检状态;
开启基本输入输出系统的故障排除模式,并打开远程串口;
向服务器发送重启指令,以使所述服务器重启。
可以理解的是,本实施例中需要首先确定服务器宕机在自检状态,然后再对宕机的原因进行分析。
进一步地,所述确定所述服务器宕机在自检状态,包括:
在所述服务器处于开机状态或重启状态的情况下,获取与所述基本输入输出系统之间的通信结果;
基于所述通信结果确定在预设时间内未接收所述基本输入输出系统发送的推送信息,确定所述服务器宕机在自检状态。
具体地,服务器启动时会进行自检,检查硬件是否正常,包括但不限于CPU、内存、硬盘、电源等部件。自检状态一般分为POST(power-on self-test)和BIOS两个阶段。服务器启动后,POST程序会对硬件进行自检,测试硬件是否正常。POST程序会监测包括CPU、内存、硬盘、电源等部件在内的所有硬件设备,如果发现其中有部件未能正常运行,POST程序会发出错误信号,通知用户有部件需要更换或修复。
当服务器经过POST自检后,会进入BIOS程序初始化阶段。BIOS程序是一个位于主板上的固件,它包含了一系列设置和配置,用于管理硬件和软件。服务器启动时,BIOS程序会读取电脑的硬件信息和配置信息,并根据这些信息初始化硬件和软件。在BIOS阶段,用户有机会修改服务器的配置信息,例如更改启动顺序、修改时间和日期等。
本实施例中,服务器处于开机状态或重启状态时,需获取与基本输入输出系统BIOS之间的通信结果。可以通过观察服务器开机时的LED灯状态、听取声音报警等方式来判断服务器启动自检是否正常。
在正常情况下,服务器上的自检程序会在几秒钟内完成,然后启动操作系统。
而在服务器宕机在自检状态下时,自检程序在固定时间内便无法完成,具体体现在,BMC在预设时间内未接收到BIOS发送的推送信息。
在确定服务器宕机在自检状态后,需要开启基本输入输出系统BIOS的故障排除模式Debug,并打开远程串口SOL以获取远程串口日志,然后向服务器发送重启指令,以使服务器重启,从而在重启过程中获取远程串口日志进行故障检测。
本发明提供的服务器内存故障检测方法,通过对服务器的自检状态进行检测,确定服务器宕机在自检状态,开启BIOS的debug模式和BMC的远程串口,从而便于在服务器再次重启时获取SOL日志,进而对SOL进行故障检测,实现对服务器宕机进行故障排查。
在一些可选的实施例中,所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机之前,还包括:
确定所述远程串口日志停止更新,关闭所述远程串口;
所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机,包括:
对所述远程串口日志进行故障信息检测,判断是否为所述服务器内存故障引起所述服务器宕机;
在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址。
可以理解的是,本实施例中,当远程串口日志停止更新时,说明此时可能服务器重启已经完成,需要及时关闭远程串口以减少对BMC的内存占用,从而避免出现BMC系统卡顿的现象。
此外,在根据远程串口日志进行故障现象检测的过中,首先需要根据检测到的服务器地址的具体信息确定服务器内存故障引起服务器宕机。然后根据SOL远程串口日志中的内容,对故障的服务器内存进行定位,从而确定是哪一个或哪几个服务器内存出现故障而导致服务器宕机,记录这些出现故障的服务器内存的故障内存地址以生成告警信息。
本发明提供的服务器内存故障检测方法,通过及时关闭远程串口以减少对BMC的内存占用,从而避免出现BMC系统卡顿的现象,以及根据远程串口日志对服务器内存进行故障内存定位,提高了服务器宕机原因的检测效率。
在一些可选的实施例中,所述开启基本输入输出系统的故障排除模式,包括:
向所述基本输入输出系统发送第一指令,以使所述基本输入输出系统开启所述故障排除模式;
或,
在后台直接开启所述基本输入输出系统的故障排除模式。
具体地,本实施例示出了开启基本输入输出系统的两个不同实施方式。其一,基板管理控制器BMC可向基本输入输出系统发送第一指令,使得基本输入输出系统BIOS能够根据第一指令开启故障排除模式。其二,基板管理控制器BMC自身也具备debug模块的开启功能,可直接在后台开启基本输入输出系统BIOS的故障排除模式。
在一些可选的实施例中,所述在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址之后,还包括:
获取故障的所述服务器内存的内存信息,将所述内存信息和故障内存地址存储至告警日志中以供用户进行查看。
在本实施例中,由于SOL日志对于用户来说并不直观,可将故障的服务器内存的内存信息以及故障内存地址存储至告警日志,用户可直接查看告警日志从而确定引起服务器宕机的故障内存,相较于SOL日志来说更为直观,用户能够更快更高效地对服务器宕机进行排查。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行服务器内存故障检测方法,该方法包括:
在服务器重启过程中,获取远程串口日志;
对所述串口日志进行检测,在确定所述串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的服务器内存故障检测方法,该方法包括:
在服务器重启过程中,获取远程串口日志;
对所述串口日志进行检测,在确定所述串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的服务器内存故障检测方法,该方法包括:
在服务器重启过程中,获取远程串口日志;
对所述串口日志进行检测,在确定所述串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种服务器内存故障检测方法,其特征在于,应用于基板管理控制器BMC,方法包括:
在服务器重启过程中,获取远程串口日志;
对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
2.根据权利要求1所述的服务器内存故障检测方法,其特征在于,所述在服务器重启过程中,获取远程串口日志之前,还包括:
确定所述服务器宕机在自检状态;
开启基本输入输出系统的故障排除模式,并打开远程串口;
向服务器发送重启指令,以使所述服务器重启。
3.根据权利要求2所述的服务器内存故障检测方法,其特征在于,所述确定所述服务器宕机在自检状态,包括:
在所述服务器处于开机状态或重启状态的情况下,获取与所述基本输入输出系统之间的通信结果;
基于所述通信结果确定在预设时间内未接收所述基本输入输出系统发送的推送信息,确定所述服务器宕机在自检状态。
4.根据权利要求2所述的服务器内存故障检测方法,其特征在于,所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机之前,还包括:
确定所述远程串口日志停止更新,关闭所述远程串口;
所述对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机,包括:
对所述远程串口日志进行故障信息检测,判断是否为所述服务器内存故障引起所述服务器宕机;
在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址。
5.根据权利要求2所述的服务器内存故障检测方法,其特征在于,所述开启基本输入输出系统的故障排除模式,包括:
向所述基本输入输出系统发送第一指令,以使所述基本输入输出系统开启所述故障排除模式;
或,
在后台直接开启所述基本输入输出系统的故障排除模式。
6.根据权利要求4所述的服务器内存故障检测方法,其特征在于,所述在确定所述服务器内存故障的情况下,对故障的所述服务器内存进行定位,确定所述至少一个所述服务器内存对应的故障内存地址之后,还包括:
获取故障的所述服务器内存的内存信息,将所述内存信息和故障内存地址存储至告警日志中以供用户进行查看。
7.一种服务器内存故障检测装置,其特征在于,应用于基板管理控制器BMC,装置包括:
获取模块,用于在服务器重启过程中,获取远程串口日志;
检测模块,用于对所述远程串口日志进行检测,在确定所述远程串口日志中存在至少一个故障内存地址的情况下,确定所述故障内存引起所述服务器宕机;
告警模块,用于基于所述至少一个故障内存地址确定告警信息,基于所述告警信息进行故障提示。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述服务器内存故障检测方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述服务器内存故障检测方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述服务器内存故障检测方法。
CN202310402765.7A 2023-04-14 2023-04-14 服务器内存故障检测方法、装置、电子设备及存储介质 Pending CN116627712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310402765.7A CN116627712A (zh) 2023-04-14 2023-04-14 服务器内存故障检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310402765.7A CN116627712A (zh) 2023-04-14 2023-04-14 服务器内存故障检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116627712A true CN116627712A (zh) 2023-08-22

Family

ID=87620154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310402765.7A Pending CN116627712A (zh) 2023-04-14 2023-04-14 服务器内存故障检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116627712A (zh)

Similar Documents

Publication Publication Date Title
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
CN113064747B (zh) 一种服务器启动过程中的故障定位方法、系统及装置
TWI754317B (zh) 用於網路裝置之最佳啟動路徑之方法和系統
EP3627323B1 (en) Automatic diagnostic mode
WO2012000328A1 (zh) 一种多媒体终端设备及其维护方法
CN114546747A (zh) 一种bmc冷重启压力测试系统及方法
CN112559266B (zh) 固态硬盘测试方法、装置、可读存储介质及电子设备
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
CN116737471B (zh) Bios自动切换方法、装置、电子设备及存储介质
CN106411643B (zh) Bmc检测方法以及装置
CN106406963B (zh) 一种Linux系统的初始化方法和装置
CN116627712A (zh) 服务器内存故障检测方法、装置、电子设备及存储介质
CN110908839A (zh) 一种逻辑模块的故障解除方法、装置及设备
CN109104314B (zh) 一种修改日志配置文件的方法及装置
CN116032735A (zh) 一种交换机异常信息确定方法、装置、设备及介质
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN111400094A (zh) 一种服务器系统恢复出厂设置的方法、装置、设备及介质
TWI494754B (zh) 伺服器監控裝置和其操作方法
CN111352789B (zh) 一种用于服务器的交流循环测试方法、装置及存储介质
CN111400076B (zh) 一种宕机修复方法、装置、设备及存储介质
CN117687849A (zh) 服务器故障测试方法、装置、电子设备及存储介质
CN117472474B (zh) 配置空间调试方法、系统、电子设备及存储介质
CN116974804A (zh) 管理引擎挂死的调试方法、装置、设备及存储介质
CN116701071A (zh) 服务器上电测试方法及装置
JPH11259160A (ja) コンピュータの起動方法、コンピュータ、起動処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination