CN115495291A - 用于促进系统致命错误的记录的方法和设备 - Google Patents

用于促进系统致命错误的记录的方法和设备 Download PDF

Info

Publication number
CN115495291A
CN115495291A CN202110676818.5A CN202110676818A CN115495291A CN 115495291 A CN115495291 A CN 115495291A CN 202110676818 A CN202110676818 A CN 202110676818A CN 115495291 A CN115495291 A CN 115495291A
Authority
CN
China
Prior art keywords
information processing
processing apparatus
error
storage device
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110676818.5A
Other languages
English (en)
Inventor
周俊祥
王昀乐
管浩延
海迈汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202110676818.5A priority Critical patent/CN115495291A/zh
Publication of CN115495291A publication Critical patent/CN115495291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种信息处理设备,包括母板、可移除地安装在母板上的主处理器、以及安装在母板上的服务处理器。主处理器包含嵌入式第一存储设备。服务处理器适于使第一存储设备可写入,然后将与和主处理器相关联的系统致命错误有关的辅助数据写入第一存储设备中。本发明使得错误信息能够被记录在主处理器中并与主处理器一起可移动,从而更容易识别出损坏的主处理器,并调试系统致命错误。

Description

用于促进系统致命错误的记录的方法和设备
技术领域
本发明涉及信息处理设备中用于硬件的错误处理,尤其涉及在错误处理过程中的错误检测和记录。
背景技术
各种信息处理设备都包含一个或多个处理器(例如,CPU),其用于计算指令并管理诸如存储器或系统总线之类的其他组件。当CPU看起来有问题时,会使用户感到非常担忧。对于服务器而言,这尤其是个问题,因为与允许更长时间来执行计算机维护的个人计算机相比,服务器通常需要最大化其正常运行时间并以24/7基础响应客户端设备的请求。因此,对于系统管理员和维护人员而言,至关重要的是,如果发生致命错误时服务器变得无法运行,则必须迅速确定问题是否由CPU故障所引起。
但是,在传统技术中,没有有效的方法来判断服务器中致命错误的根源是什么。服务器中还有许多其他硬件组件可能会导致服务器完全无法操作的状态,例如平台控制器中心(PCH),系统内存,PCIe总线或外围设备(包括其驱动器)。对于用户而言,其中某些组件中的错误很难区分。已经提出了各种方式来存储服务器的日志以获取可能的错误消息。但是,即使存在日志,当致命错误也可能由其他组件引起时,也无法将系统致命错误和CPU(或在多CPU系统的情况下为特定CPU)关联到一起。这样的话,调试致命错误将涉及大量的停机时间,以找出错误是归因于CPU还是任何其他组件,例如通过使用试错法。更糟糕的是,当CPU实际上发生故障时,服务器的用户可能在不知道它损坏的情况下,将该CPU交换到其他系统上,从而导致更多问题。
发明内容
因此,本发明在一个方面提供了一种信息处理设备,包含:母板,可移除地安装在母板上的主处理器,以及安装在母板上的服务处理器。主处理器包含嵌入式第一存储设备。该服务处理器适于使第一存储设备可写入,然后将与和主处理器相关联的系统致命错误有关的数据写入第一存储设备中。
在某些实施方式中,服务处理器还适于在将辅助数据写入第一存储设备之后使第一存储设备不可写入。
在某些实施方式中,辅助数据包括由服务处理器捕获的系统致命错误的标识符,该标识符有助于确定与数据库中的系统致命错误相对应的配置记录。
在某些实施方式中,标识符包括以下一项或多项:时间戳,主处理器的序列号和信息处理设备的机器类型。
在某些实施方式中,服务处理器还适于将配置记录和标识符保存在嵌入在服务处理器中的第二存储设备中,该配置记录和标识符适于被提取并存储在数据库中。
在某些实施方式中,标识符和配置记录都能够从信息处理设备下载到外部存储设备以存储在数据库中。
在某些实施方式中,该配置记录包括型号专用寄存器(MSR),存储器映射的I/O(MMIO),控制和状态寄存器(CSR)或信息处理设备的系统配置。
在某些实施方式中,服务处理器是基板管理控制器(BMC),该基板管理控制器连接到现场可编程门阵列(FPGA),而现场可编程门阵列又连接到主处理器。FPGA适于在主处理器处施加有效电压信号或无效电压信号,以分别允许或禁用向第一存储设备的数据写入。
在某些实施方式中,如果估计系统致命错误与主处理器有关,则服务处理器适于在信息处理设备的显示器上显示主处理器已损坏。
在本发明的另一方面,提供一种有助于在信息处理设备上记录系统致命错误的方法。该方法包括以下步骤:由信息处理设备的服务处理器检测系统致命错误,允许写入嵌入在信息处理设备的主处理器中的第一存储设备,以及将与系统致命错误有关的辅助数据写入第一存储设备。
在某些实施方式中,该方法还包括在写入辅助数据的步骤之后,禁用写入第一存储设备的步骤。
在某些实施方式中,辅助数据包含由服务处理器捕获的系统致命错误的标识符,该标识符有助于确定与数据库中的系统致命错误相对应的配置记录。
在某些实施方式中,标识符包含以下一项或多项:时间戳,主处理器的序列号以及信息处理设备的机器类型。
在某些实施方式中,该方法还包括将配置记录和标识符保存在嵌入在服务处理器中的第二存储设备中的步骤。该配置记录和标识符适于被提取并存储在数据库中。
在某些实施方式中,标识符和配置记录都可以从信息处理设备下载到外部存储设备以存储在数据库中。
在某些实施方式中,该配置记录包括型号专用寄存器(MSR),存储器映射的I/O(MMIO),控制和状态寄存器(CSR)或信息处理设备的系统配置。
在某些实施方式中,服务处理器是基板管理控制器(BMC),该基板管理控制器连接到现场可编程门阵列(FPGA),而现场可编程门阵列又连接到主处理器。允许步骤还包括由FPGA在主处理器处施加有效电压信号,以及禁用步骤还包括由FPGA在主处理器处施加无效电压信号。
在某些实施方式中,该方法还包括以下步骤:如果估计系统致命错误与主处理器有关,则在信息处理设备的显示器上显示主处理器已损坏。
因此,本文档所述的实施方式解决了以下问题:当信息处理设备遇到系统致命错误时,传统的错误处理机制需要超长的时间才能识别错误的来源。通过利用嵌入在主处理器中的可用存储设备,本发明的实施方式允许与系统致命错误有关的辅助数据(例如,计数器和标识符)被存储在主处理器的嵌入式存储设备中。利用这种存储的数据,服务中心或系统管理员能够基于主处理器中的辅助数据,来未存储在主处理器中而是存储在其他地方(例如数据库)的仅仅是那些相关的完整错误日志。如果主处理器确实是错误的来源,这将允许在可能是大量相似错误日志的某些完整错误日志与主处理器之间创建关联,因为当特定的主处理器已安装时,它将知道创建了哪些错误日志。然后,在仅识别了相关的完整错误日志的情况下,如果这些错误日志来自不同的信息处理设备,则服务中心或系统管理员可以在系统配置之间进行比较,然后估计这些信息处理设备中在不同时间安装的特定主处理器是否可能是错误源。因此,该实施方式消除了对可能与信息处理设备中的其他硬件组件有关的所有错误日志进行盲目查找的需要。
另外,实现根据本发明的实施方式的错误处理机制不需要额外的成本,例如额外的硬件。错误数据被存储在主处理器中,例如存储在CPU的暂存电可擦可编程只读存储器(EEPROM)中,以后可以被动或主动地与信息处理设备的完整错误日志一起捕获,以用于进一步的分析。一旦识别出主处理器有可能导致系统致命错误,信息处理设备中的另一个处理器(例如服务处理器)就可以向用户显示警告消息,指示主处理器可能已损坏,这样可以大大减少用户发现错误源之前需要等待的时间,并提示用户及时更换损坏的主处理器。这样,可以使由于系统致命错误而导致的信息处理设备的运行中断最小化。
附图说明
通过以下实施方式的描述,本发明的前述和其他特征将变得显而易见,所述实施方式仅通过示例的方式结合附图提供,其中:
图1是根据实施方式的包括服务处理器和主处理器的信息处理设备的框图。
图2示出了一种方法的流程图,该方法捕获与系统致命错误有关的数据,将辅助数据存储在主处理器中,以及在图1的系统中使用该辅助数据进行分析。
图3示出了服务处理器如何转储与系统致命错误有关的信息并处理此类错误的示例,可以在图2的方法中使用该示例。
图4示出了根据另一实施方式的示例,该示例示出如何在将特定的CPU安装到不同的机器时捕获配置记录和辅助数据并将其用于分析系统致命错误的来源。
在附图中,贯穿本文所述的几个实施方式,相同的标号指示相同的部件。
具体实施方式
现在参考图1,其示出了根据本发明实施方式的信息处理设备。如本领域技术人员所理解的,该实施方式中的信息处理设备是服务器20,其适于处理请求并通过网络连接来传递数据。服务器20包含母板21,服务器20的基本组件被承载在该母板21上。特别地,FPGA芯片24设置在信息处理设备20的母板21上。服务器20还包括在母板21上的主处理器,该主处理器是中央处理单元(CPU)22,以及用于CPU的其他外围设备,例如逻辑芯片组,存储器等(未示出)。服务器20还包含位于母板21上的基板管理控制器(BMC)26。BMC 26是功能与CPU22不同并且适于独立于CPU 22运行的服务处理器的示例。
与BMC 26一样,FPGA芯片24就像小型计算机一样工作,并且在功能上与CPU 22分离,尽管它们都是服务器20的集成部分。FPGA芯片24是可编程逻辑器件,可以在制造后进行编程,甚至是由服务器20的最终用户编程,使得FPGA芯片24适合处理各种工作负载。服务器20中的集成FPGA芯片24用于执行一些基本的FPGA功能,例如系统电源控制、硬件控制等,并且包含诸如计算单元、输入/输出(I/O)单元和存储单元之类的功能单元。如本领域技术人员所理解的,它们均由可配置逻辑块、可配置I/O块和可编程互连来实现。
FPGA芯片24经由系统管理总线(SMBus)接口连接到CPU 22,并且在该实施方式中,这可以使用诸如通用串行总线(USB)链路28之类的各种连接来物理地实现。CPU 22包含嵌入在CPU芯片中的一个或多个存储设备,该存储设备包括处理器信息只读存储器(ROM,未示出)和暂存EEPROM23。如本领域技术人员所理解的,CPU 22上存储组件中的暂存EEPROM 23是EEPROM,其可根据系统或处理器供应商的判断用于其他数据。暂存EEPROM 23中的数据一旦被编程,就可以通过经由SMBus接口向CPU 22的对应引脚(未示出)施加高电平有效的SM_WP信号而被写入保护。该引脚的一个例子是位于第二代
Figure BDA0003120948500000061
可扩展处理器中的引脚CV59。暂存EEPROM 23位于存储组件的上半部分(地址80-FFh),下半部分包括处理器信息ROM(地址00-7Fh),该信息由处理器供应商永久性地置为写入保护。在服务器20中,FPGA芯片24适于施加高电平有效SM_WP信号(即,有效电压信号),以使CPU 22中的暂存EEPROM 23可写入。为了再次对CPU 22进行写入保护,去除了高电平有效SM_WP信号,这等同于施加无效电压信号。
另一方面,BMC 26是服务器20中的专用服务处理器,其使用传感器监视服务器20的物理状态,并通过独立连接(如箭头27所示)与操作外部计算设备25(例如膝上型计算机)的系统管理员进行通信。这样的独立连接例如由以太网接口实现。BMC 26既包含作为随机存取存储器(RAM)34的易失性存储器,又包含作为闪存29的非易失性存储器。BMC 26经由PCIe链接30连接到CPU 22。根据本领域技术人员的理解,I2C总线也可以在BMC26和CPU 22之间使用。BMC 26还经由串行外围接口总线(SPI)链路32连接到FPGA芯片24。
上述实施方式包括必要的硬件组件,以实现用于促进记录系统致命错误的方法。说明书的下一部分将关于根据如图2-3所示的实施方式的这种方法。应当注意,尽管图2-3中所示的方法可以应用于图1中的服务器,但这并不旨在进行限制,并且图2-3中所示的方法可以应用于具有不同硬件配置的所有其他信息处理设备。但是,为了便于描述和理解,将基于图1中的服务器进行以下描述。
图2中的方法在服务器20通电时或至少在步骤40中为BMC 26通电时开始。请注意,在服务器20中,当用户按下服务器20的机箱(未显示)上的电源按钮时,BMC 26不会通电。而是,作为独立于CPU 22的处理器的BMC 26在服务器20的母板21连接到电源后即会通电(例如,当母板通过电源安装到机箱上时)。因此,当服务器20也加电时,或者甚至在服务器20加电之前,将由BMC 26执行在步骤41中检测灾难性错误(CATERR)或PCIe错误(PCIERR)的动作。在该实施方式中,CATERR和PCIERR都是系统致命错误的类型。当在步骤41中没有检测到CATERR或PCIERR时,该方法返回到步骤40以在将来继续监视任何此类错误。当确实在步骤41中检测到CATERR或PCIERR时,该方法将转到步骤42,在该步骤中开始执行系统致命错误处理(FEH)过程。该FEH处理涉及以上针对图1提及的CPU 22,BMC26和FPGA芯片24。
图3示出了步骤41和42的细节。特别地,当在步骤41a中发生系统致命错误时,FPGA芯片24连接到CPU 22时,检测到此类错误,并且然后FPGA芯片24通知BMC 26(步骤41b)。这些错误包括但不限于CPU错误,例如CPU内部错误(IERR);机器检查异常和不可纠正的CPU复杂错误;内存错误,例如不可纠正的纠错码(ECC);其他不可纠正的内存错误以及内存清理失败;以及PCIERR,例如PCI奇偶校验错误/系统错误、总线不可纠正错误和总线致命错误。
然后,BMC 26在步骤44a中经由平台环境控制接口(PECI)或联合测试动作组(JTAG)接口转储包括型号专用寄存器(MSR)以及控制和状态寄存器(CSR)在内的CPU寄存器。BMC 26还捕获其他配置记录,包括存储器映射的I/O(MMIO)和服务器20的系统配置(例如,安装了多少个存储器模块)。在该实施方式中,MSR、CSR、MMIO和系统配置形成配置记录,并且因此将该配置记录用作服务器20的完整错误日志。在步骤44b中,BMC26然后解析转储的配置记录,从而压缩该配置记录。然后将压缩的配置记录存储在BMC 26的闪存29中。这完成了图2中的步骤44。同时,由BMC 26保存的配置记录与系统致命错误的标识符相关联,该系统致命错误的标识符便于以后仅在数据库中确定与系统致命错误相对应的配置记录。标识符包括时间戳、CPU 22的序列号和服务器20的机器类型,在此将其统称为MT-SN时间戳。
接下来,在标识和配置记录被捕获并存储在BMC 26中之后,在图2的步骤45-47中,与系统致命错误相关的辅助数据被单独存储在CPU 22中。辅助数据不是完整的错误日志,因为该数据要保存在CPU 22的暂存EEPROM 23中,而该EEPROM具有相当有限的存储容量。而是,仅有一些关键信息包括在辅助数据中,在该实施方式中,辅助数据包括FEH结果计数器以及上述标识符的一部分,包括CPU 22的序列号和服务器20的机器类型(即,统称为MT-SN)。FEH结果计数器包含用于各种类型错误的简单计数器值,并且每个计数器都用于特定的错误源。例如,对于CPU 22,一个FEH结果计数器为2,而对于PCIERR,另一个FEH结果计数器为1。当与特定类型的错误有关的错误不止一次发生时,暂存EEPROM 23中的各个计数器被递增。请注意,错误的类型并不等同于错误的来源,例如CATERR是一种错误类型,但是仅知道发生了CATERR的话并不能自动判断是哪个组件导致了错误。
为了允许写入暂存EEPROM 23,在步骤45中,BMC 26控制FPGA芯片24如上所述向CPU 22施加高电平有效SM_WP信号,以便临时去除CPU 22上的写入保护。然后,在步骤46中,BMC 26将MT-SN和FEH结果计数器值写入暂存EEPROM 23。在写入完成之后,在步骤47中,BMC26通过去除高电平有效SM_WP信号来禁用对暂存EEPROM 23的写入,从而使暂存EEPROM 23再次被写入保护。
通过将配置和标识符保存在BMC 26的闪存29中,并将与系统致命错误有关的辅助数据保存在CPU 22的暂存EEPROM 23中,调试系统致命错误的准备工作就完成了。在步骤43中,服务器20的用户选择是否想要启动调试过程,并且他/她可以选择不进行任何操作,然后服务器20进行重置,然后该方法返回到步骤40。在这种情况下,服务器20由BMC 26复位(因为它与CPU 22分开地运行),这在图3的步骤43a中示出。注意,尽管用户在步骤43中选择不进行任何操作,在步骤43a中,在检查CPU 22中的FEH计数器之后,BMC 26仍然至少针对错误的类型向用户报告它检测到的系统致命错误。
在步骤43中,如果用户希望主动地或被动地进行调试过程,则该方法前进至步骤48。有不同的方式提供给用户以启动调试过程,并且在主动方式中,用户启动“回叫”例程,以经由通信网络(均未示出)将配置记录以及存储在BMC 26中的标识符以及存储在CPU 22的暂存EEPROM 23中的辅助数据发送到远程服务中心。远程服务中心包含数据库,并且远程服务中心适于提取配置记录,标识符和辅助数据并将其保存在数据库中,以进一步分析配置记录。通信网络的一个示例是互联网。如果用户以被动方式启动调试过程,则服务器20的用户或服务人员使用图1中的外部计算设备25访问BMC 26,以将配置记录,标识符和辅助数据下载到外部计算设备25的外部存储驱动器(例如,硬盘驱动器)中,然后可以将其发送或携带到服务中心,以将配置记录,标识符和辅助数据传输到服务中心的数据库,以便进一步分析配置记录。用户操作BMC 26以经由专用软件应用程序(例如,集成管理模块(IMM))完成数据下载过程。
不管是使用“回叫”还是通过BMC 26手动导出数据,在步骤48中,用于分析/调试的完整数据都包含配置记录、标识和FEH结果计数器值。在步骤49中,专用的分析软件(在该实施方式中称为第一故障数据捕获(FFDC))从服务中心的数据库中捕获压缩的配置记录、标识符和辅助数据,并尝试分析导致系统致命错误的错误源。特别地,在步骤50中,FFDC检查存储在CPU 22的暂存EEPROM 23中的MT-SN。如果存储于暂存EEPROM 23中的MT-SN不同,则意味着已经在包括服务器20在内的多个信息处理设备中安装并运行了相同的CPU 22,然后该方法进入步骤51,其中FFDC在其(服务中心的)数据库中查找相关的保存在数据库中的完整错误日志。这里,相关的完整错误日志是指与CPU 22相关的日志,而无论它安装在什么信息处理设备中。从暂存EEPROM 23提取的辅助数据在此查找过程中都起着重要的作用,因为具有标识符(或标识符的一部分)存储在辅助数据和完整错误日志中,则有可能过滤掉无关的完整错误日志,仅识别与CPU 22相关的错误日志。然后,如果在CPU 22的暂存EEPROM 23中存储了不同的MT-SN,则意味着可能存在不止一组完整错误日志(例如,包含如上所述的配置记录和标识符),因为当CPU 22安装在信息处理设备中时,每个信息处理设备都会生成完整错误日志。但是,借助于存储在CPU 22的暂存EEPROM 23中的MT-SN,它大大减少了FFDC需要从可能庞大的数据库中仅查找与CPU 22相关的完整错误日志的时间。在没有辅助数据存储在CPU 22中的情况下,快速查找来自不同信息处理设备的与CPU 22相关的完整错误日志非常耗时,甚至根本不可能。
在步骤53中,FFDC检查多个系统(即,多个信息处理设备)之间的配置是否不同。如果它们不同,则FFDC将确定在这些系统中的其他组件不同的情况下,CPU 22在所有这些系统上引起系统致命错误的可能性很高,这在步骤54中进行了说明。另一方面,如果多个系统之间的配置非常相似甚至相同,则无法可靠地估计CPU 22在所有这些系统上引起了系统致命错误,因为这些系统共有的其他组件或驱动器可能导致了错误。这在步骤52中进行了说明。
来自FFDC的分析结果(即,关于导致系统致命错误的组件的估计)可以返回到服务器20。如果分析结果是CPU 22最有可能损坏并导致系统致命错误,则BMC 26可以在服务器20的显示器上显示(例如,通过BMC 26中的VGA模块)CPU 22被损坏。
转到图4,其示出了根据实施方式的与CPU(以下称为CPU1)有关的数据收集和存储处理的示例。尽管不是强制性的,但可以使用图2-3中的方法来实现图4中的方案。当CPU1被安装在第一信息处理设备(具有由MT-SN1指定的机器类型和序列号)中时,在步骤80a,80b和80c中捕获三个错误。第一错误是CPU错误,FEH过程使用标识符MT-SN1-时间戳1捕获了完整错误日志(例如配置记录)。同样,对于第二错误和第三错误,分别是PCI错误和CPU错误,将捕获分别带有MT-SN1-时间戳2和MT-SN1-时间戳3的标识符的两个完整错误日志。然后,在步骤81中,针对第一信息处理设备,在第一FFDC(FFDC1)中捕获所有这三个错误日志。此外,CPU1的暂存EEPROM中的FEH计数器针对CPU错误递增2,对于PCI错误递增1。
随后,将CPU1安装到由MT-SN2和MT-SN3指定的另外两个信息处理设备中,与上述过程类似,对于第二信息处理设备中的CPU错误以及第三信息处理设备中的PCI错误加上CPU错误,完整错误日志分别捕获在第二FFDC(FFDC2)和第三FFDC(FFDC3)中。CPU1的暂存EEPROM中的FEH计数器也被递增,但是请注意,每个信息处理设备的FEH计数器是不同的(因为它们由每个信息处理设备的MT-SN指定)。
在步骤82中,使用CPU1中的辅助数据(包括CPU1中的FEH计数器值),将FFDC1、FFDC2和FFDC3中的所有完整错误日志收集到一个中央FFDC中进行分析。使用与图2类似的方法,可以估计三个信息处理设备经历的系统致命错误是否很可能是由CPU1引起的。然后,如果估计CPU1可能引起了这些系统致命错误,则当前安装了CPU1的信息处理系统的BMC可能会向用户显示一条消息,说明CPU1可能是损坏的CPU。
因此,完整地描述了示例性实施方式。尽管该描述涉及特定的实施方式,但是对于本领域的技术人员将显而易见的是,可以通过改变这些具体细节来实践本发明。因此,本发明不应被解释为限于在此阐述的实施方式。
尽管已经在附图和前述描述中详细地示出和描述了实施方式,但是应将其视为示例性的,而在性质上不是限制性的,应理解,仅示出和描述了示例性实施方式,并且不以任何方式限制本发明的范围。可以理解,本文描述的任何特征可以与任何实施方式一起使用。说明性实施方式并不彼此排斥,也不排斥本文未列举的其他实施方式因此,本发明还提供了包括上述一个或多个说明性实施方式的组合的实施方式。在不脱离本发明的精神和范围的情况下,可以对本发明进行修改和变型,因此,仅应施加所附权利要求书中指出的这种限制。
作为示例,在图1的实施方式中,服务器被用作信息处理设备的示例,但是本领域技术人员应该理解,在本发明的其他变型中,可以使用不同类型的信息处理设备,例如包括个人计算机,笔记本电脑等,只要它们包含服务处理器和主处理器即可,其中服务处理器适用于将与错误相关的数据保存在主处理器中的存储设备中。
在上述实施方式中,在服务器或通常在信息处理设备中仅存在一个CPU作为主处理器。然而,本领域技术人员应该意识到,多CPU信息处理设备也可以实现本发明的实施方式,并且对于每个CPU,它可以具有用于存储FEH计数器值的暂存EEPROM,并且在稍后的数据分析处理中,例如,其可能可以识别多个CPU中的哪一个导致了系统致命错误。

Claims (10)

1.一种信息处理设备,包括:
a)母板;
b)可移除地安装在母板上的主处理器,该主处理器包括嵌入式的第一存储设备;
c)安装在所述母板上的服务处理器;
其中,所述服务处理器适于使所述第一存储设备可写入,然后将与和所述主处理器相关联的系统致命错误有关的辅助数据写入所述第一存储设备中。
2.根据权利要求1所述的信息处理设备,其中,所述服务处理器还适于在将所述辅助数据写入所述第一存储设备之后使第一存储设备不可写入。
3.根据权利要求1或2所述的信息处理设备,其中,所述辅助数据包括由所述服务处理器捕获的所述系统致命错误的标识符,该标识符有助于确定与数据库中的系统致命错误相对应的配置记录。
4.根据权利要求3所述的信息处理设备,其中,所述服务处理器还适于将所述配置记录和所述标识符保存在嵌入在所述服务处理器中的第二存储设备中,该配置记录和标识符适于被提取并存储在所述数据库中。
5.根据权利要求3所述的信息处理设备,其中,该配置记录包括型号专用寄存器(MSR)、存储器映射的I/O(MMIO)、控制和状态寄存器(CSR)或信息处理设备的系统配置。
6.根据权利要求1所述的信息处理设备,其中,所述服务处理器是基板管理控制器(BMC),该基板管理控制器连接到现场可编程门阵列(FPGA),而现场可编程门阵列又连接到主处理器;FPGA适于在主处理器处施加有效电压信号或无效电压信号,以分别允许或禁用向第一存储设备的数据写入。
7.根据权利要求1所述的信息处理设备,其中,如果估计所述系统致命错误与所述主处理器有关,则所述服务处理器适于在所述信息处理设备的显示器上显示主处理器已损坏。
8.一种有助于在信息处理设备上记录系统致命错误的方法,包括以下步骤:
a)由信息处理设备的服务处理器检测系统致命错误;
b)允许写入嵌入在信息处理设备的主处理器中的第一存储设备;以及
c)将与所述系统致命错误有关的辅助数据写入所述第一存储设备。
9.根据权利要求8所述的方法,还包括在写入所述辅助数据的步骤之后,禁用写入所述第一存储设备的步骤。
10.根据权利要求8或9所述的方法,其中,所述辅助数据包括由所述服务处理器捕获的所述系统致命错误的标识符,该标识符有助于确定与数据库中的系统致命错误相对应的配置记录。
CN202110676818.5A 2021-06-18 2021-06-18 用于促进系统致命错误的记录的方法和设备 Pending CN115495291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110676818.5A CN115495291A (zh) 2021-06-18 2021-06-18 用于促进系统致命错误的记录的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110676818.5A CN115495291A (zh) 2021-06-18 2021-06-18 用于促进系统致命错误的记录的方法和设备

Publications (1)

Publication Number Publication Date
CN115495291A true CN115495291A (zh) 2022-12-20

Family

ID=84465488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110676818.5A Pending CN115495291A (zh) 2021-06-18 2021-06-18 用于促进系统致命错误的记录的方法和设备

Country Status (1)

Country Link
CN (1) CN115495291A (zh)

Similar Documents

Publication Publication Date Title
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
US8843785B2 (en) Collecting debug data in a secure chip implementation
US6944796B2 (en) Method and system to implement a system event log for system manageability
US10474618B2 (en) Debug data saving in host memory on PCIE solid state drive
US20030188220A1 (en) Method and apparatus for backing up and restoring data from nonvolatile memory
CN104685474B (zh) 用于处理不可纠正的内存错误的方法及非瞬态处理器可读介质
CN110609778A (zh) 一种保存服务器宕机日志的方法及系统
CN110781053A (zh) 一种检测内存降级错误的方法和装置
EP3534259B1 (en) Computer and method for storing state and event log relevant for fault diagnosis
TW202234242A (zh) 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
CN117472623A (zh) 处理内存故障的方法、装置、设备及存储介质
JP3711871B2 (ja) Pciバスの障害解析容易化方式
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN115495291A (zh) 用于促进系统致命错误的记录的方法和设备
CN113468020A (zh) 内存监控方法、装置、电子设备及计算机可读存储介质
CN107451028A (zh) 错误状态储存方法及服务器
US11797368B2 (en) Attributing errors to input/output peripheral drivers
CN111190781A (zh) 服务器系统的测试自检方法
TWI840907B (zh) 偵測偏差的電腦系統及方法,及非暫態電腦可讀取媒體
CN117873771B (zh) 一种系统宕机处理方法、装置、设备、存储介质及服务器
US20230004476A1 (en) Application failure tracking features
CN113645056B (zh) 一种定位智能网卡故障的方法及系统
US20240256401A1 (en) Storage system
CN115686914A (zh) 一种故障记录方法、计算设备及存储介质
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination