CN113868058A

CN113868058A - 一种外设组件高速互联设备故障检测方法、装置及服务器

Info

Publication number: CN113868058A
Application number: CN202111146246.6A
Authority: CN
Inventors: 张俊
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-31

Abstract

本申请提供一种PCIE设备故障检测方法、装置及服务器，服务器包括CPU和BMC，BMC接收CPU获取的在位的PCIE设备的设备信息；并获得PCIE总线上支持MCTP的PCIE设备的设备信息；依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备；对待检测的PCIE设备进行故障检测，确定处于故障状态的故障PCIE设备。本申请中，BMC不再仅依赖BIOS中断服务程序检测PCIE设备故障，BMC可主动确定待检测PCIE设备，并对待检测PCIE设备进行故障检测，从而拓展了对PCIE设备的故障检测手段，可有效提升系统故障诊断率。

Description

一种外设组件高速互联设备故障检测方法、装置及服务器

技术领域

本申请涉及故障诊断技术，特别涉及一种PCIE设备故障检测方法、装置及服务器。

背景技术

BMC(Baseboard Management Controller，基板管理控制器)主要是实现对服务器各部件故障的及时监控和上报，以保障服务器的可靠运行。当前BMC对PCIE(PeripheralComponent Interconnect Express，外设组件高速互联)设备如网卡，GPU(graphicsprocessing unit，图形处理单元)卡的故障检测，主要依赖服务器上处理器通过BIOS(Basic Input Output System，基本输入输出系统)的中断服务程序对PCIE设备进行中断故障检测以将PCIE设备故障中断上报，并通过BIOS传递到BMC，BMC自身对PCIE设备的检测仅限于通过I2C总线获取PCIE设备温感等传感器信息。

然而，在实际应用中，由于PCIE设备的故障种类多种多样，有些故障可能通过服务器上处理器对PCIE设备的故障检测中断无法检测，例如一个PCIE设备故障，操作系统将该PCIE设备处理下线，造成该PCIE设备丢失，但这种故障并没有被BIOS中断服务程序检测到，也就不会发送给BMC，这也就是说，该种类故障，服务器上的处理器和BMC都没有检测到，使得该种类故障的PCIE设备被漏检，造成系统故障诊断率低。

发明内容

本申请提供了一种PCIE设备故障检测方法、装置以及服务器，用以提升系统的故障诊断率。

本申请提供的技术方案包括：

第一方面，本申请实施例提供了一种PCIE故障检测方法，该方法应用于服务器上的BMC，所述服务器至少还包括CPU(Central Processing Unit，中央处理器)，所述CPU通过PCIE总线连接PCIE设备，该方法包括：

接收所述CPU启动时，所述CPU获取的、在位的PCIE设备的设备信息；

获得所述PCIE总线上支持MCTP(Management Component Transport Protocol，管理器件传输协议)的PCIE设备的设备信息；

依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备；

对所述待检测的PCIE设备进行故障检测，确定处于故障状态的故障PCIE设备。

可选的，在所述接收所述CPU启动时，所述CPU获取的、在位的PCIE设备的设备信息之后，该方法进一步还包括：

向管理设备输出接收的设备信息，以使所述管理设备显示所述服务器中在位的PCIE设备的设备信息；

在所述确定处于故障状态的故障PCIE设备之后，该方法进一步还包括：

向所述管理设备输出所述故障PCIE设备的设备信息，以使所述管理设备将所显示的、在位的故障PCIE设备的状态更新为故障状态。

可选的，所述获得所述PCIE总线上支持MCTP的PCIE设备的设备信息之前，所述方法还包括：

针对通过PCIE总线连接在CPU上的每一个PCIE设备，向该PCIE设备发送用于确定该PCIE设备是否支持MCTP的检测请求，以使该PCIE设备在依据接收的检测请求确定自身支持MCTP时向本BMC发送应答；

若收到该PCIE设备针对所述检测请求的应答，则确定该PCIE设备支持MCTP。

可选的，所述对所述待检测的PCIE设备进行故障检测，包括：

针对每一个待检测的PCIE设备，向该待检测的PCIE设备发送发现请求，若存在连续发送预设次数的发现请求后均未收到应答，则判定该待检测的PCIE设备存在故障。

可选的，所述确定处于故障状态的故障PCIE设备之后，所述方法还包括：

针对每一个故障PCIE设备，向所述管理设备输出该故障PCIE设备的故障信息，以使所述管理设备更新该故障PCIE设备对应的故障信息日志。

第二方面，本申请实施例提供了一种PCIE设备故障检测装置，该装置应用于服务器上的BMC，所述服务器至少还包括CPU，所述CPU通过PCIE总线连接PCIE设备，该装置包括：

第一设备信息获得单元，用于接收所述CPU启动时，所述CPU获取的、在位的PCIE设备的设备信息；

第二设备信息获得单元，用于获得所述PCIE总线上支持MCTP的PCIE设备的设备信息；

待检测设备确定单元，用于依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备；

故障检测单元，用于对所述待检测的PCIE设备进行故障检测，确定处于故障状态的故障PCIE设备。

可选的，所述装置还包括：

信息输出单元，用于向管理设备输出接收的设备信息，以使所述管理设备显示所述服务器中在位的PCIE设备的设备信息；

所述信息输出单元，还用于向所述管理设备输出所述故障PCIE设备的设备信息，以使所述管理设备将所显示的、在位的故障PCIE设备的状态更新为故障状态。

可选的，所述装置还包括：

设备识别单元，用于针对通过PCIE总线连接在CPU上的每一个PCIE设备，向该PCIE设备发送用于确定该PCIE设备是否支持MCTP的检测请求，以使该PCIE设备在依据接收的检测请求确定自身支持MCTP时向本BMC发送应答；若收到该PCIE设备针对所述检测请求的应答，则确定该PCIE设备支持MCTP。

可选的，所述故障检测单元具体用于：

可选的，所述信息输出单元还用于：

第三方面，本申请实施例提供了一种服务器，包括BMC和机器可读存储介质，所述机器可读存储介质存储有能够被所述BMC执行的机器可执行指令；所述BMC用于执行机器可执行指令，以实现上述任一所述方法步骤。

由以上技术方案可以看出，本申请中，BMC不再仅依赖BIOS中断服务程序检测PCIE设备故障，BMC可主动根据获取的在位PCIE设备的设备信息以及PCIE总线上支持MCTP的PCIE设备的设备信息，确定待检测的PCIE设备，并对待检测的PCIE设备进行故障检测，从而拓展了对PCIE设备的故障检测手段，可有效提升系统故障诊断率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请提供的一种PCIE设备故障检测方法的流程图；

图2为本申请提供的一种服务器的结构示意图；

图3为本申请提供的一种识别支持MCTP的PCIE设备的实现流程；

图4为本申请提供的一种PCIE设备故障检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

参见图1，为本申请实施示出的一种PCIE故障检测方法的流程图，该流程应用于服务器包括的BMC，该服务器还包括CPU，该CPU通过PCIE总线连接PCIE设备。

参见图2，为本申请实施例示出的一种服务器结构示意图。该服务器包括BMC、CPU以及PCH(Platform Controller Hub，平台控制中心)芯片。其中，BMC通过PCIE总线连接到PCH芯片，PCH芯片通过DMI(Direct Media Interfacel，直接媒体接口)总线连接到CPU，CPU通过PCIE总线与插装在服务器上的PCIE设备(PCIE设备1～PCIE设备4)连接。这里，需要说明的是，PCH芯片可通过DMI总线访问到CPU下任一PCIE设备。

如图1所示，该流程可包括以下步骤：

步骤101，BMC接收CPU启动时CPU获取的、在位的PCIE设备的设备信息。

如前所述，CPU通过PCIE总线与各PCIE设备连接，因此，其能感知到所有在位的PCIE设备，并将各在位PCIE设备的设备信息传输给BMC。其中，该设备信息主要包括PCIE设备的位置信息，比如，设备的槽位号、设备号等。

BMC接收并记录CPU获取的各在位PCIE设备的设备信息。

作为一个实施例，BMC还可以将接收到的各在位PCIE设备的设备信息输出给管理设备，由管理设备显示服务器上各在位PCIE设备的设备信息，以便管理员可直观了解到服务器内各PCIE设备的情况。

步骤102，BMC获得PCIE总线上支持MCTP的PCIE设备的设备信息。

这里，需要说明的是，通过PCIE总线与CPU连接的各PCIE设备中可能包括支持MCTP的PCIE设备和不支持MCTP的PCIE设备，因此，需要从这些PCIE设备中识别出支持MCTP的PCIE设备。

BMC识别支持MCTP的PCIE设备的过程，在下文中描述，这里暂不赘述。

步骤103，依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备。

这里，需要说明的是，通过步骤101获取的在位PCIE设备的设备信息中，可能包括不支持MCTP的PCIE设备的设备信息；通过步骤102获取的支持MCTP的PCIE设备的设备信息中，可能包括CPU启动时不在位的PCIE设备的设备信息，比如，CPU启动后新增插入的支持MCTP的PCIE设备的设备信息，其不包括在CPU启动时获取的在位PCIE设备的设备信息中。

作为一个实施例，本步骤可求取两次(步骤101和步骤102)获取的设备信息的交集，即，同时存在于步骤101获取的设备信息中和步骤102获取的设备信息中的设备信息的集合，将该集合中各设备信息分别对应的PCIE设备确定为待检测的PCIE设备。简言之，该待检测PCIE设备为CPU启动时在位且支持MCTP的PCIE设备。

步骤104，BMC对待检测的PCIE设备进行故障检测，确定处于故障状态的故障PCIE设备。

作为一个实施例，BMC可周期性(比如，5分钟)向待检测的PCIE设备发送发现请求。如果接收到该发现请求的PCIE设备正常，则会向BMC回复发现响应，即，对BMC发送的请求进行应答；如果PCIE设备故障，则无法应答。

为了提升故障判断的准确性，本申请实施例中，针对每一个待检测PCIE设备，BMC统计连续未接收到该待检测PCIE设备的应答的次数，如果统计的次数达到预设次数(比如，3次)，即，存在连续发送预设次数的发现请求后均未收到应答的情况，则判定该待检测的PCIE设备存在故障。

作为一个实施例，BMC在检测出PCIE设备故障后，可将该故障PCIE设备的设备信息发送给管理设备，管理设备可将所显示的、在位的故障PCIE设备的状态更新为故障状态，以使管理员及时发现PCIE设备故障，进行维护管理。

进一步地，BMC还可将故障PCIE设备的故障信息(用于标识故障原因)发送给管理设备，管理设备可基于该故障信息更新该故障PCIE设备对应的故障信息日志，以使管理员通过浏览故障信息日志快速定位故障原因。

至此，完成图1所示的描述。

由以上技术方案可以看出，本申请中，BMC不再仅依赖BIOS中断服务程序检测PCIE设备故障，BMC可主动确定待检测PCIE设备，并对待检测PCIE设备进行故障检测，从而拓展了对PCIE设备的故障检测手段，可有效提升系统故障诊断率。

下面对BMC识别支持MCTP的PCIE设备的过程进行描述。参见图3，为本申请实施例示出的一种识别支持MCTP的PCIE设备的实现流程。

如图3所示，该流程可包括以下步骤：

步骤301，针对通过PCIE总线连接在CPU上的每一个PCIE设备，向该PCIE设备发送用于确定该PCIE设备是否支持MCTP的检测请求。

作为一个实施例，BMC可直接基于MCTP协议向与CPU连接的每一个PCIE设备发送检测请求。如果接收到检测请求的PCIE设备支持MCTP协议，则可识别出基于MCTP协议的检测请求，并针对该检测请求进行应答。

步骤302，如果BMC收到PCIE设备针对检测请求的应答，则确定该PCIE设备支持MCTP。

至此，完成图3所示流程。

通过图3所示流程实现BMC对支持MCTP的PCIE设备的识别。

下面仍以图2所示服务器为例对PCIE设备故障检测过程进行描述：

CPU启动时，可检测到在位的PCIE设备，并将在位的PCIE设备的设备信息传输给BMC。

BMC可将通过CPU获得的PCIE设备信息保存在列表1内，这些在位的PCIE设备信息包括：PCIE设备1、PCIE设备2、PCIE设备3和PCIE设备4。

这里，需要说明的是，PCIE设备1、PCIE设备2、PCIE设备3和PCIE设备4还有可能出现由于链路或PCIE设备自身的损坏造成一些PCIE设备不被感知，这样使得并不能向BMC传递所有的PCIE设备信息，但是在这样的情况下，这种故障会被BIOS中断服务程序检测到，上报至BMC。

BMC可通过PCH中的ME(Intel Management Engine，英特尔管理引擎)模块(该模块可提供MCTP相关功能)，向与CPU连接每一个PCIE设备发送检测请求，并在接收到PCIE设备针对检测请求的应答时，识别该PCIE设备为支持MCTP的PCIE设备。比如，如果BMC接收到PCIE设备1、PCIE设备2、PCIE设备3针对检测请求的应答，则确定PCIE设备1、PCIE设备2、PCIE设备3为支持MCTP的PCIE设备。BMC将获得的PCIE设备1、PCIE设备2、PCIE设备3的设备信息存储在列表2内。

BMC将列表1和列表2中相同的PCIE设备确定为待检测的PCIE设备，并保存在PCIE设备列表中。具体地，依据列表1和列表2内各自存储的PCIE设备信息，可确定PCIE设备列表中的PCIE设备分别为PCIE设备1、PCIE设备2、PCIE设备3。

BMC针对PCIE设备列表中的每一个待检测的PCIE设备，周期性发送发现请求。假设PCIE设备1正常、PCIE设备2正常、PCIE设备3故障，则PCIE设备1、PCIE设备2针对发现请求进行应答，BMC接收PCIE设备1的应答后，确认PCIE设备1正常；BMC接收PCIE设备2的应答后，确认PCIE设备2正常；由于PCIE设备3故障，其无法应答，因此，BMC接收不到PCIE设备3的应答，本申请中，BMC在确定连接预设次数(比如，3次)未接收PCIE设备3的应答时，确定PCIE设备3故障。

BMC可将故障PCIE设备的设备信息推送至管理设备，以使管理设备显示该故障PCIE设备的状态为故障状态，提醒管理员及时维修。

至此，完成本具体实施例的描述。

参见图4，为本实施例提供的PCIE设备故障检测装置的结构图。该装置应用于服务器上的BMC，所述服务器至少还包括CPU，所述CPU通过PCIE总线连接PCIE设备，该装置包括：

第一设备信息获得单元401，用于接收所述CPU启动时，所述CPU获取的、在位的PCIE设备的设备信息；

第二设备信息获得单元402，用于获得所述PCIE总线上支持MCTP的PCIE设备的设备信息；

待检测设备确定单元403，用于依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备；

故障检测单元404，用于对所述待检测的PCIE设备进行故障检测，确定处于故障状态的故障PCIE设备。

作为一个实施例，所述装置还包括：

作为一个实施例，所述故障检测单元404具体用于：

作为一个实施例，所述信息输出单元还用于：

至此，完成图4所示装置的结构图。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

本申请实施例还提供一种服务器，包括BMC和机器可读存储介质，所述机器可读存储介质存储有能够被所述BMC执行的机器可执行指令；所述BMC用于执行机器可执行指令，以实现上述示例公开的PCIE故障检测方法步骤。

这里，机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(RadomAccess Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种外设组件高速互联PCIE设备故障检测方法，该方法应用于服务器上的基板管理控制器BMC，所述服务器至少还包括中央处理器CPU，所述CPU通过PCIE总线连接PCIE设备，其特征在于，该方法包括：

获得所述PCIE总线上支持管理器件传输协议MCTP的PCIE设备的设备信息；

2.根据权利要求1所述的方法，其特征在于，在所述接收所述CPU启动时，所述CPU获取的、在位的PCIE设备的设备信息之后，该方法进一步还包括：

所述确定处于故障状态的故障PCIE设备之后，该方法进一步还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获得所述PCIE总线上支持MCTP的PCIE设备的设备信息之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述待检测的PCIE设备进行故障检测，包括：

5.根据权利要求2所述的方法，其特征在于，所述确定处于故障状态的故障PCIE设备之后，所述方法还包括：

6.一种外设组件高速互联PCIE设备故障检测装置，该装置应用于服务器上的基板管理控制器BMC，所述服务器至少还包括中央处理器CPU，所述CPU通过PCIE总线连接PCIE设备，其特征在于，该装置包括：

第二设备信息获得单元，用于获得所述PCIE总线上支持管理器件传输协议MCTP的PCIE设备的设备信息；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述故障检测单元具体用于：

10.一种服务器，其特征在于，包括BMC和机器可读存储介质，所述机器可读存储介质存储有能够被所述BMC执行的机器可执行指令；所述BMC用于执行机器可执行指令，以实现权利要求1至5任一所述方法步骤。