CN113064745A

CN113064745A - 一种错误信息上报的方法、装置及介质

Info

Publication number: CN113064745A
Application number: CN202110193050.6A
Authority: CN
Inventors: 姚藩益; 李道童; 王兵; 钱慧娟
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-07-02
Anticipated expiration: 2041-02-20
Also published as: CN113064745B

Abstract

本发明公开了一种错误信息上报的方法，应用于服务器中BIOS，包括以下步骤：部署环境并设置中断条件；建立平台运行机制策略，并收集平台运行机制策略的信息；根据所述中断条件判断是否产生中断，若产生，则执行中断调用方法；中断调用方法为：调用平台运行机制策略，通过平台运行机制策略收集错误信息，并定位产生错误信息的地址，将错误信息发送至BMC以及所述服务器的系统；通过上述方式，本发明能够当出现内存错误时不会使用SMI进行内存CE错误信息上报，而是SCI中断里调用ASL方法，找到对应的PRM模块，在PRM模块中进行错误处理，可以解决影响系统性能问题，并且使用C语言编写PRM模块便于移植和更新。

Description

一种错误信息上报的方法、装置及介质

技术领域

本发明涉及固件技术领域，特别是涉及一种错误信息上报的方法、装置及介质。

背景技术

随着服务器技术的快速发展，易用性，性能及功能都在不断增强。随着功能增多，服务器稳定性与可靠性可能会随之下降，而稳定性和可靠性是用户对服务器系统的基本要求。BIOS(Basic Input Output System)基本输入输出系统，作为服务器主板最底层的、最直接的硬件设置和控制的管理者，能为服务器提供更多简单的易用性功能。BIOS是一组固化到主板上一个ROM芯片上的程序，它保存着计算机最重要的基本输入输出的程序、系统设置信息、开机后自检程序和系统自启动程序，其主要功能是为计算机提供最底层的、最直接的硬件设置和控制，以及检测硬件错误进行错误处理及错误上报。当前服务器系统当检测到硬件错误时，最常用的是通过触发SMI，让BIOS进入SMM，然后进行错误处理及上报。但是由于SMM进入退出都会产生延时，且进入SMM后会影响系统性能，而有的时候客户业务运行是对系统性能有很高的要求。

目前还有一种方式，使用SCI通知OS的ACPI驱动，调用BIOS的ASL方法进行内存错误信息上报，但是此种方法中撰写代码实现收集错误信息并给BMC或者OS发送，由于ASL语言的局限性导致代码写起来比较麻烦，并且使用特定的ASL语言不便于移植。

发明内容

本发明主要解决是服务器现有错误处理机制中通过调用SMI进行错误信息上报时会占用大量系统资源，严重影响服务器系统性能以及ASL方法进行错误信息上报时，代码写起来比较麻烦，且不便于移植问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种错误信息上报的方法，应用于服务器中BIOS，包括以下步骤：

部署环境并设置中断条件；

建立平台运行机制策略，并收集所述平台运行机制策略的信息；

根据所述中断条件判断是否产生中断，若产生中断，则执行中断调用方法；

所述中断调用方法为：调用所述平台运行机制策略，通过所述平台运行机制策略收集错误信息，并定位产生所述错误信息的地址，将所述错误信息发送至BMC以及所述服务器的系统。

优选的，所述通过所述平台运行机制策略收集错误信息的步骤进一步包括：产生错误信息后，产生中断，将所述错误信息存储至错误记录表；

所述BIOS从所述错误记录表中获取错误信息，并定位产生所述错误信息的地址。

优选的，所述定位产生所述错误信息的地址的步骤进一步包括：

根据所述错误信息定位所述错误信息的产生源；

根据所述错误信息的产生源确定所述产生源的物理地址。

优选的，所述发送至BMC以及服务器的系统中的步骤进一步包括：

将所述物理地址以及所述错误信息发送至所述BMC；

创建第一存储表；

将所述物理地址按照所述第一存储表的格式进行存储；

存储完成后，触发第一中断信号，所述服务器中的系统通过所述第一存储表获取错误信息，并记录至系统日志。

优选的，当所述平台运行机制策略更新时，创建第一平台运行机制策略，并生成启动文件；

通过所述启动文件在所述服务器的系统中使用内存注入方式，将所述平台运行机制策略替换为所述第一平台运行机制策略；

重启所述服务器的系统。

优选的，所述设置中断条件为：设置错误信息的阈值，将服务器中设备产生的错误信息的数据值与所述错误信息的阈值进行比较；

当所述错误信息的数据值不小于所述阈值时，产生中断，且所述服务器中CPU不产生系统管理中断信息。

本发明还提供一种错误信息上报的装置，包括：BMC、CPU、PCH、错误信息上报系统；

所述CPU分别与所述PCH、所述错误信息上报系统和所述BMC连接；

所述错误信息上报系统和所述BMC连接；

所述错误信息上报系统用于收集服务器中产生的错误信息，并将所述错误信息发送至BMC和服务器的系统中。

优选的，所述错误信息上报系统包括创建模块、判断模块、中断调用模块和平台运行机制模块；

所述创建模块用于创建平台运行机制模块，并收集所述平台运行机制模块的信息；

所述判断模块用于判断是否产生中断；

所述中断调用模块用于调用所述平台运行机制模块；

所述平台运行机制模块用于收集错误信息，并根据所述错误信息定位产生所述错误信息的地址，并发送至BMC以及服务器的系统中。

优选的，所述中断调用模块还包括升级模块；

所述升级模块用于创建第一平台运行机制模块，生成启动文件，通过所述启动文件在所述服务器的系统中使用内存注入方式，将所述平台运行机制模块替换为所述第一平台运行机制模块。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的一种错误信息上报的方法的步骤。

本发明的有益效果是：

1、本发明所述的错误信息上报的方法，当出现内存错误时不会使用SMI进行内存CE错误信息上报，SCI中断里调用ASL方法，通过GUID找到对应的PRM模块，在PRM模块中进行CE错误处理，取消了服务器系统进入SMM进行CE处理，从而可以解决影响系统性能问题，并且使用C语言编写PRM模块便于移植和更新。

2、本发明所述的错误信息上报的系统，可以解决Intel架构服务器现有处理机制中通过调用SMI进行错误信息上报时会占用大量系统资源，严重影响服务器系统性能的问题。

3、本发明所述的计算机可读存储介质，能够通过漏错机制进行过滤多余的内存，并且通过设置好的CE阈值进行判断是否进行保存，当达到阈值时，使用中断策略进行报错，从而节省系统资源，使服务器更快响应，并且通过PRM模块进行错误信息上报，若更新PRM模块则无需重启BIOS，节省时间。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的一种错误信息上报的方法示意图；

图2是本发明实施例2所述的一种错误信息上报的装置架构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在本发明的描述中

CPU(Central Processing Unit)是中央处理器；

ACPI(Advanced Configuration and Power Interface)是高级配置和电源接口；

APEI(ACPI Platform Error Interface ACPI)是平台错误接口，用于将错误信息传给OS；

OS(Operating System)是操作系统；

BMC(Board Management Controller)是基板管理控制器；

CE(Correctable Error)可修复错误；

ERR#0是Intel CPU中的一个Error处理信号；

GPIO(General Purpose Input/Output)是通用输入输出接口；

IPMI(Intelligent Platform Management Interface)是智能平台管理接口；

PCH(Platform Controller Hub)是平台控制器中枢，Intel架构服务器中的南桥芯片；

ASL的全称是ACPI Source language，它是用来描述硬件信息以及相关硬件操作给OS使用的表达式。

SMI(System Management Interrupt)是系统管理中断，CPU提供了SMI系统管理中断。使用时CPU要进入系统管理模式System Management Mode(SMM)中，CPU需要一块内存区域SMRAM。CPU在进入SMM前，会把寄存器的值存储SMRAM中，再将程序跳转到SMI ENTRYPOINT去执行，处理完后再利用RSM指令跳转回原来的地方继续执行，同时恢复CPU寄存器的值；

SMM(System Management Mode)是系统管理模式，CPU进入SMM模式后，执行BIOS的SMI代码；SMM模式通过调用SMI进入，进入之后，SMI就会disable，不过系统会暂存一个且只有一个SMI，当SMM模式退出时，检测到这个SMI会再次进入SMM模式。

SCI(Serial Communication Interface)，即串行通信接口，是一个双线的异步串口，即具有接收和发送两根信号线的异步串口，一般可以看作是UART(通用异步接收/发送装置)。

GUID(Globally Unique Identifier)全局唯一标识符。

PRM(Platform Runtime Mechanism)是平台运行机制。

EFI是系统里面里的启动文件，用于引导GPT分区，里面都是一些引导信息，系统启动后会读取efi文件，然后获取引导信息加载系统相关文件。

Protocol为进行网络中的数据交换而建立的规则、标准或约定。用于不同系统中实体间的通信。两个实体要想通信，必须有“同一种语言”，而且，对于通信内容，怎样通信和何时通信，都必须遵守一定的规定，这些规定就是协议。亦可简单地定义为：控制两实体间数据交换的一套规则。在电子通讯连接中，各个不同的层次都有自己的协议。

Error_Record为错误记录表。

第一存储表为APEI表。

实施例1

本发明实施例提供一种错误信息上报的方法，请参阅图1，包括以下步骤：

S100，部署环境，进行硬件拓扑连接，将CPU与PCH连接，使CPU传输的ERR#0信号连接到PCH上的一个GPIO上，并用来控制GPIO的电平；

S200，设置中断条件；

中断条件设置的具体步骤为：

S201，在BIOS开机过程中设置CE的阈值以及漏错机制，

S202，在BIOS开机过程中配置寄存器，配置寄存器具体步骤为：

根据CPU中或者其他设备的CE错误信息的数据值并与阈值进行比较，当CE错误信息数据值达到阈值时，下拉ERR#0信号并控制GPIO电平变化，并且CPU不产生SMI；

漏错机制为设置内存或者其他设备中的存储数据的阈值，当内存中存储的数据大于阈值时，将大于阈值部分的数据从内存中溢出，溢出部分的数据为第二数据，第二数据就是CE错误信息；

S203，配置PCH上的GPIO，使GPIO能够使能SCI功能，当GPIO的电信号改变时产生SCI中断；

S300，建立平台运行机制策略，平台运行机制策略具体通过控制PRM模块来实现，并收集PRM模块的主要信息，创建ACPI表；

PRM模块是由C语言编写的，便于移植；

当平台运行机制策略更新时，创建第一平台运行机制策略，并生成启动文件；在所述服务器的系统中使用内存注入方式以及启动文件使用第一平台运行机制策略；重启服务器的系统；

具体的实施步骤为：

当PRM模块中的代码需要升级时，再次通过C语言编写PRM模块，生成efi文件，在OS下使用内存注入方式以及efi文件在产生错误信息后使用另一个PRM模块，所以不需要重新升级整个BIOS，并且在升级完成后重启系统；

若使用平台运行机制策略使用ASL方法实现，则是需要修改ASL模块后编译到BIOS镜像中，把机器中BIOS镜像更新成新的BIOS镜像，然后重启BIOS生效。

若使用PRM方法，则实施的主体是BIOS的PRM模块，使用ASL方法只是操作BIOS写了一些操作步骤和操作方法，实施的主体是OS的驱动，并且给BMC和OS发送日志，所有这些收集发送的动作都是OS实现的；

ACPI表用于将PRM模块的信息进行存储，具体包括PRM名称、PRM GUID、PRM模块在内存位置等；

通过PRM模块中ACPI表的信息可以定位到具体的对应的某个PRM模块；

S400，设置中断调用方法，中断调用方法为ASL语言编写；当产生SCI中断时触发中断调用方法；

S500，根据中断条件中GPIO的电信号是否改变判断是否产生SCI中断，若产生，则触发中断调用方法；

中断调用方法为：调用PRM模块，通过PRM模块收集错误信息，并定位错误信息产生的地址，将错误信息发送至BMC以及OS；

具体步骤包括：

触发中断调用方法后，

S501，获取收集到的PRM模块信息，主要的步骤为：把BIOS代码中写的PRM模块进行内存分配、定义PRM名称、PRM GUID等主要信息，在这个模块中会把主要信息先进行收集并安装到Protocol中(可以理解成就是一个功能函数或者函数集合)，然后加载Protocol，获取收集到PRM模块的主要信息，并存储到ACPI表中。

S502，调用PRM模块，主要调用方法为通过ACPI表中PRM名称、GUID、内存位置等信息，让OS驱动能够调到与之对应的PRM模块；

S503，运行PRM模块，通过PRM模块收集错误信息，将错误信息发送给BMC和OS；PRM模块是BIOS中的代码，所以收集和发送是由BIOS的代码执行的。

通过PRM模块进行收集错误信息，当错误信息产生后，将错误信息存放到Error_Record的一个表中，BIOS从表中提取错误信息，并判断错误信息的产生源，例如，若错误信息为内存错误，诊断该错误信息是哪根内存条产生的；若错误信息为PCIe错误，则针对该错误信息是哪个PCIe设备或者PCIe插槽中产生的；

定位到内存或者PCIe产生的错误信息后，确定产生错误信息的位置；从BIOS中取出产生错误信息的位置信息得到故障的物理位置并确定物理地址，将物理地址以及错误信息通过IPMI发送至BMC，并将物理地址按照ACPI规范中的APEI表的格式进行存储，存储完成后触发第一中断信号，第一中断信号为一个新的SCI中断，通过OS的驱动获取APEI表获取错误信息，并记录到OS日志中。

本实施例以Intel平台的服务器架构做说明，但该方法不限于Intel平台的服务器，也不仅限于服务器系统，在其它平台的服务器系统或者其他计算机系统上仍然具有通用的应用价值，本实施例也不仅仅局限于内存CE、PCIe的CE，其他设备的CE也是可以采用类似方法处理。

实施例2

本发明实施例还提供一种错误信息上报的装置，请参阅图2，包括：BMC、CPU、PCH、错误信息上报系统；

所述错误信息上报系统和所述BMC连接；

所述错误信息上报系统用于收集服务器中产生的错误信息，并将所述错误信息发送至BMC和服务器的系统中；

所述错误信息上报系统包括创建模块、判断模块、中断调用模块和平台运行机制模块；

创建模块用于创建平台运行机制模块，并收集所述平台运行机制模块的信息；

判断模块用于判断是否产生中断；

中断调用模块用于调用所述平台运行机制模块；

平台运行机制模块用于收集错误信息，并根据所述错误信息定位产生所述错误信息的地址，并发送至BMC以及服务器的系统中。

中断调用模块还包括升级模块；

升级模块用于创建第一平台运行机制模块，生成启动文件，通过所述启动文件在所述服务器的系统中使用内存注入方式，将所述平台运行机制模块替换为所述第一平台运行机制模块。

基于与前述实施例中方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述公开的错误信息上报的方法的步骤。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种错误信息上报的方法，应用于服务器中BIOS，其特征在于，包括以下步骤：

部署环境并设置中断条件；

2.根据权利要求1所述的一种错误信息上报的方法，其特征在于：所述通过所述平台运行机制策略收集错误信息的步骤进一步包括：产生错误信息后，产生中断，将所述错误信息存储至错误记录表；

3.根据权利要求1或2所述的一种错误信息上报的方法，其特征在于：所述定位产生所述错误信息的地址的步骤进一步包括：

根据所述错误信息定位所述错误信息的产生源；

根据所述错误信息的产生源确定所述产生源的物理地址。

4.根据权利要求3所述的一种错误信息上报的方法，其特征在于：所述发送至BMC以及服务器的系统中的步骤进一步包括：

将所述物理地址以及所述错误信息发送至所述BMC；

创建第一存储表；

将所述物理地址按照所述第一存储表的格式进行存储；

5.根据权利要求1所述的一种错误信息上报的方法，其特征在于：当所述平台运行机制策略更新时，创建第一平台运行机制策略，并生成启动文件；

重启所述服务器的系统。

6.根据权利要求1所述的一种错误信息上报的方法，其特征在于：所述设置中断条件为：设置错误信息的阈值，将服务器中设备产生的错误信息的数据值与所述错误信息的阈值进行比较；

7.一种错误信息上报的装置，其特征在于，包括：BMC、CPU、PCH、错误信息上报系统；

所述错误信息上报系统和所述BMC连接；

8.根据权利要求7所述的一种错误信息上报的装置，其特征在于：所述错误信息上报系统包括创建模块、判断模块、中断调用模块和平台运行机制模块；

所述判断模块用于判断是否产生中断；

所述中断调用模块用于调用所述平台运行机制模块；

9.根据权利要求8所述的一种错误信息上报的装置，其特征在于：所述中断调用模块还包括升级模块；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-6任一项所述的一种错误信息上报的方法步骤。