CN113868000B

CN113868000B - 一种链路故障修复方法、系统及相关组件

Info

Publication number: CN113868000B
Application number: CN202111031351.5A
Authority: CN
Inventors: 彭云武; 颜俐君; 史文举
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-07-18
Anticipated expiration: 2041-09-03
Also published as: CN113868000A

Abstract

本申请公开了一种链路故障修复方法、系统、装置及计算机可读存储介质，该链路故障修复方法包括：当磁盘阵列中任一磁盘存在单链路异常，确定单链路异常对应的目标控制器及目标PCIe端口；通过目标控制器执行当前修复等级的修复操作，若当前修复等级的修复操作未使单链路恢复正常，判断当前修复等级是否为最后一个修复等级；若否，按修复等级从低到高的顺序将当前修复等级的下一修复等级确定为当前修复等级，并执行通过目标控制器执行当前修复等级的修复操作的步骤；若是，生成故障报警信号。本申请能够准确定位故障源，提高修复效率,降低了对技术服务响应的时效性要求，提升了磁盘阵列的正常运行可靠性和可用度。

Description

一种链路故障修复方法、系统及相关组件

技术领域

本申请涉及服务器领域，特别涉及一种链路故障修复方法、系统及相关组件。

背景技术

参照图1所示，磁盘阵列一般以控制器1+1冗余配置及IO卡冗余配置，并采用双端口SAS(Serial Attached SCSI，串行连接SCSI)HDD(Hard Disk Drive，硬盘驱动器)/SSD(Solid State Disk，固态硬盘)或双端口NVMe SSD(Non-Volatile Memory ExpressSolid-State Disk，非易失性内存主机接口固态硬盘)。服务器向磁盘阵列的NVMe SSD写入数据，通过控制器0或控制器1把数据写入到同一个NVMe SSD的地址空间，当任意一条链路故障，能保证业务IO不受影响。现有技术方案中，当检测到某一条路径故障，需要立刻报警，以更换故障器件，由于很难定位该路径上哪一个环节出现故障，因此，一般是采用对该链路上存在的FRU模块，如控制器、IO卡、NVMe SSD、线缆等依次进行更换的修复方案，故障修复时间长，效率低。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本申请的目的是提供一种链路故障修复方法、系统、装置及计算机可读存储介质，能够准确定位故障源，提高修复效率,降低了对技术服务响应的时效性要求，提升了磁盘阵列的正常运行可靠性和可用度。

为解决上述技术问题，本申请提供了一种链路故障修复方法，包括：

当磁盘阵列中任一磁盘存在单链路异常，确定所述单链路异常对应的目标控制器及目标PCIe端口，所述目标PCIe端口为所述目标控制器中的PCIe Switch上连接所述磁盘的PCIe端口；

通过所述目标控制器执行当前修复等级的修复操作，若当前修复等级的修复操作未使所述单链路恢复正常，判断当前修复等级是否为最后一个修复等级；

若否，按修复等级从低到高的顺序将当前修复等级的下一修复等级确定为当前修复等级，并执行所述通过所述目标控制器执行当前修复等级的修复操作的步骤；

若是，生成故障报警信号。

可选的，按修复等级从低到高的顺序，第一修复等级的修复操作为对所述目标PCIe端口执行先关闭再打开的操作，第二修复等级的修复操作为对所述磁盘的端口执行PCIe复位操作，第三修复等级的修复操作为对所述目标PCIe端口执行先下电再上电的操作。

可选的，若当前修复等级为所述第一修复等级或所述第二修复等级，所述通过所述目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

控制所述目标PCIe端口与所述磁盘的端口进行retraining协商，若所述retraining协商成功，则判定所述第一修复等级对应的修复操作或所述第二修复等级对应的修复操作使所述单链路恢复正常，若所述retraining协商失败，则判定所述第一修复等级对应的修复操作或所述第二修复等级对应的修复操作未使所述单链路恢复正常。

可选的，若当前修复等级为所述第三修复等级，所述通过所述目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

控制所述目标PCIe端口与所述磁盘的端口进行物理层重协商，若所述物理层重协商成功，则判定所述第三修复等级对应的修复操作使所述单链路恢复正常，若所述物理层协商失败，则判定所述第三修复等级对应的修复操作未使所述单链路恢复正常。

可选的，所述通过所述目标控制器执行当前修复等级的修复操作的同时还包括：

生成与当前修复等级的修复操作对应的日志。

可选的，该链路故障修复方法还包括：

若当前业务状态为空闲状态，执行硬件修复操作。

可选的，所述硬件修复操作包括：

暂停所述磁盘的正常链路的读写操作；

通过所述目标控制器对所述磁盘的异常链路执行先下电再上电的操作，通过所述磁盘阵列中的另一控制器对所述磁盘的所述正常链路执行先下电再上电的操作。

为解决上述技术问题，本申请还提供了一种链路故障修复系统，包括：

第一确定模块，用于当磁盘阵列中任一磁盘存在单链路异常，确定所述单链路异常对应的目标控制器及目标PCIe端口，所述目标PCIe端口为所述目标控制器中的PCIeSwitch上连接所述磁盘的PCIe端口；

软件修复模块，用于通过所述目标控制器执行当前修复等级的修复操作，若当前修复等级的修复操作未使所述单链路恢复正常，判断当前修复等级是否为最后一个修复等级，若否，触发第二确定模块，若是，触发报警模块；

所述第二确定模块，用于按修复等级从低到高的顺序将当前修复等级的下一修复等级确定为当前修复等级，并触发所述软件修复模块；

所述报警模块，用于生成故障报警信号。

为解决上述技术问题，本申请还提供了一种链路故障修复装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任意一项所述的链路故障修复方法的步骤。

为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所述的链路故障修复方法的步骤。

本申请提供了一种链路故障修复方法，当磁盘阵列中某一磁盘存在单链路异常，对该单链路上的控制器的PCIe Switch的PCIe端口和磁盘的端口依次进行软件修复，若软件修复成功则无需更换硬件，软件修复均无效后再告警，一方面可以准确定位故障源，提高修复效率，另一方面降低了对技术服务响应的时效性要求，从而提升了磁盘阵列的正常运行可靠性和可用度。本申请还提供了一种链路故障修复系统、装置及计算机可读存储介质，具有和上述链路故障修复方法相同的有益效果。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种磁盘阵列的结构示意图；

图2为本申请所提供的一种链路故障修复方法的步骤流程图；

图3为本申请所提供的一种链路故障修复系统的结构示意图。

具体实施方式

本申请的核心是提供一种链路故障修复方法、系统、装置及计算机可读存储介质，能够准确定位故障源，提高修复效率,降低了对技术服务响应的时效性要求，提升了磁盘阵列的正常运行可靠性和可用度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图2，图2为本申请所提供的一种链路故障修复方法的步骤流程图，该链路故障修复方法包括：

S101：当磁盘阵列中任一磁盘存在单链路异常，确定单链路异常对应的目标控制器及目标PCIe(Peripheral Component Interconnect express，高速串行计算机扩展总线标准)端口，目标PCIe端口为目标控制器中的PCIe Switch上连接磁盘的PCIe端口；

为便于理解本申请的方案，参照图1所示，对磁盘阵列中双端口的磁盘的工作原理进行说明，每个磁盘有两个端口，分别记为端口0和端口1，端口0用于接收CPU0的操作信号，端口1用于接收CPU1的操作信号。当服务器向磁盘阵列中的一个磁盘写入数据，如果通过控制器0向磁盘的写入数据时，出现误码、IO阻塞、性能下降及中断等异常时，即控制器0到磁盘的链路存在异常，通过控制器1向磁盘的同一地址空间写入该数据，以保证任意路径故障时业务IO无影响，当控制器0到磁盘的链路异常，而控制器1到该磁盘的链路正常，则称为该磁盘存在单链路异常。其中，磁盘可以为双端口SAS HDD/SSD或双端口NVMe SSD。下文以双端口NVMe SSD为例进行说明。

具体的，磁盘阵列的集群软件在业务运行中，发现双端口NVMe SSD n出现单链路异常，例如控制器0对应的PCIe[0:n]链路故障，无法访问NVMe SSD n，控制器1对应的PCIe[1:n]链路正常，能正常对NVMe SSD n进行读写操作，则可确定NVMe SSD n的单链路PCIe[0:n]异常，目标控制器为控制器0，控制器0内的PCIe Switch上连接NVMe SSD n的端口0的PCIe端口m即为目标PCIe端口。

S102：通过目标控制器执行当前修复等级的修复操作，若当前修复等级的修复操作未使单链路恢复正常，判断当前修复等级是否为最后一个修复等级，若否，执行S103，若是，执行S104；

S103：按修复等级从低到高的顺序将当前修复等级的下一修复等级确定为当前修复等级，并执行S102；

S104：生成故障报警信号。

具体的，PCIe[0:n]链路包括以下几部分，分别为控制器0的PCIe Switch的端口m、NVMe SSD n的端口0、PCIe[0:n]物理信号通道(高速信号连接器、板卡PCIe走线等)。每一部分对应一个修复等级，不同的修复等级对应不同的修复操作。通过控制器0的CPU对以上几部分按其各自的修复等级执行修复操作，并判断是否存在任一修复操作可以使异常的单链路恢复正常，即使NVMe SSD n的双通道恢复正常。作为一种可选的实施例，按修复等级从低到高的顺序，对控制器0的PCIe Switch的端口m的修复为第一修复等级，对NVMe SSD n的端口0的修复为第二修复等级，对PCIe[0:n]物理信号通道的修复为第三修复等级，其中：第一修复等级对应的修复操作为对目标PCIe端口执行先关闭再打开的操作，第二修复等级的修复操作为对磁盘的端口执行PCIe复位操作，第三修复等级的修复操作为对目标PCIe端口执行先下电再上电的操作。

作为一种可选的实施例，若当前修复等级为第一修复等级或第二修复等级，通过目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

控制目标PCIe端口与磁盘的端口进行retraining协商，若retraining协商成功，则判定第一修复等级对应的修复操作或第二修复等级对应的修复操作使单链路恢复正常，若retraining协商失败，则判定第一修复等级对应的修复操作或第二修复等级对应的修复操作未使单链路恢复正常。

具体的，控制器0的CPU对PCIe Switch端口m进行disable和enable操作，PCIe端口m与NVMe SSD n的端口0进行retraining协商；如果retraining协商成功，PCIe[0:n]链路修复成功，NVMe SSD n双通道恢复正常。

如果PCIe[0:n]链路未恢复正常，即已排除PCIe Switch端口m的PCIe数据链路层异常，控制器0的CPU对NVMe SSD n的端口0执行PCIe reset操作；NVMe SSD n的端口0复位，PCIe端口m与NVMe SSD n的端口0进行retraining协商，如果retraining协商成功，PCIe[0:n]链路修复成功，NVMe SSD n双通道恢复正常。

作为一种可选的实施例，若当前修复等级为第三修复等级，通过目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

控制目标PCIe端口与磁盘的端口进行物理层重协商，若物理层重协商成功，则判定第三修复等级对应的修复操作使单链路恢复正常，若物理层协商失败，则判定第三修复等级对应的修复操作未使单链路恢复正常。

如果经过前两级修复后，PCIe[0:n]链路仍未恢复正常，即已排除PCIe Switch端口m、NVMe SSD n端口0的PCIe链路层异常，控制器0的CPU对PCIe Switch端口m执行unbind和bind操作，PCIe端口m与NVMe SSD n的端口0进行PCIe物理层重协商，如果PCIe[0:n]物理层、链路层修复成功，NVMe SSD n双通道恢复正常。如果PCIe[0:n]链路未恢复正常，即已排除PCIe Switch端口m、NVMe SSD n端口0的PCIe链路层和物理层异常，控制器0向集群软件反馈NVMe SSD n单链路异常未修复，即生成报警信号。

作为一种可选的实施例，通过目标控制器执行当前修复等级的修复操作的同时还包括生成与当前修复等级的修复操作对应的日志的操作，以便运维人员后续根据日志对磁盘阵列进行维护。

可见，本实施例中，当磁盘阵列中某一磁盘存在单链路异常，对该单链路上的控制器的PCIe Switch的PCIe端口和磁盘的端口依次进行软件修复，若软件修复成功则无需更换硬件，软件修复均无效后再告警，一方面可以准确定位故障源，提高修复效率，另一方面降低了对技术服务响应的时效性要求，从而提升了磁盘阵列的正常运行可靠性和可用度。

在上述实施例的基础上：

作为一种可选的实施例，按修复等级从低到高的顺序，第一修复等级的修复操作为对目标PCIe端口执行先关闭再打开的操作，第二修复等级的修复操作为对磁盘的端口执行PCIe复位操作，第三修复等级的修复操作为对目标PCIe端口执行先下电再上电的操作。

作为一种可选的实施例，该链路故障修复方法还包括：

若当前业务状态为空闲状态，执行硬件修复操作。

作为一种可选的实施例，硬件修复操作包括：

暂停磁盘的正常链路的读写操作；

通过目标控制器对磁盘的异常链路执行先下电再上电的操作，通过磁盘阵列中的另一控制器对磁盘的正常链路执行先下电再上电的操作。

具体的，如果经过以上三级修复，PCIe[0:n]链路均未恢复正常，即已排除PCIeSwitch端口m、NVMe SSD n端口0的PCIe链路层和物理层异常，控制器0向集群软件反馈NVMeSSD n单链路异常未修复，集群软件根据业务状态和修复等级进行后续操作，业务繁忙时不做硬件修复，业务空闲时进行硬件修复。当业务空闲时，集群软件停止NVMe SSD n正常通道(PCIe[1:n])的读写操作，让控制器0对NVMe SSD n的PCIe[0:n]通道进行下电/上电操作，控制器1对NVMe SSD n的PCIe[1:n]通道进行下电/上电操作，类似SSD热插拔操作；如果PCIe[0:n]修复成功，NVMe SSD n双通道恢复正常。如果PCIe[0:n]链路未恢复正常，控制器0上报集群软件：NVMe SSD n物理故障。集群软件告警：NVMe SSD n故障，建议联系原厂技术服务人员更换。

综上所述，采用本申请的方案，当磁盘阵列的双端口NVMe SSD出现PCIe单链路故障，无需立刻告警更换SSD，降低了对技术服务响应的时效性要求。集群软件首先进行故障源检测，再对控制器PCIe Switch和NVMe SSD端口进行软件修复，根据业务繁忙状态选择是否进行硬件修复，修复无效后精确定位故障FRU才告警，极大的降低了软失效、误告警、故障FRU误判的比例，提升了磁盘阵列的正常运行可靠性和可用度。

请参照图3，图3为本申请所提供的一种链路故障修复系统的结构示意图，该链路故障修复系统包括：

第一确定模块1，用于当磁盘阵列中任一磁盘存在单链路异常，确定单链路异常对应的目标控制器及目标PCIe端口，目标PCIe端口为目标控制器中的PCIe Switch上连接磁盘的PCIe端口；

软件修复模块2，用于通过目标控制器执行当前修复等级的修复操作，若当前修复等级的修复操作未使单链路恢复正常，判断当前修复等级是否为最后一个修复等级，若否，触发第二确定模块3，若是，触发报警模块4；

第二确定模块3，用于按修复等级从低到高的顺序将当前修复等级的下一修复等级确定为当前修复等级，并触发软件修复模块2；

报警模块4，用于生成故障报警信号。

作为一种可选的实施例，该链路故障修复系统还包括：

第一控制模块，用于控制目标PCIe端口与磁盘的端口进行retraining协商，若retraining协商成功，则判定第一修复等级对应的修复操作或第二修复等级对应的修复操作使单链路恢复正常，若retraining协商失败，则判定第一修复等级对应的修复操作或第二修复等级对应的修复操作未使单链路恢复正常。

作为一种可选的实施例，该链路故障修复系统还包括：

第二控制模块，用于控制目标PCIe端口与磁盘的端口进行物理层重协商，若物理层重协商成功，则判定第三修复等级对应的修复操作使单链路恢复正常，若物理层协商失败，则判定第三修复等级对应的修复操作未使单链路恢复正常。

作为一种可选的实施例，软件修复模块2，还用于生成与当前修复等级的修复操作对应的日志。

作为一种可选的实施例，该链路故障修复系统还包括：

硬件修复模块，用于若当前业务状态为空闲状态，执行硬件修复操作。

作为一种可选的实施例，硬件修复操作包括：

暂停磁盘的正常链路的读写操作；

另一方面，本申请还提供了一种链路故障修复装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上文任意一个实施例所描述的链路故障修复方法的步骤。

对于本申请所提供的一种链路故障修复装置的介绍请参照上述实施例，本申请在此不再赘述。

本申请所提供的一种链路故障修复装置具有和上述链路故障修复方法相同的有益效果。

另一方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上文任意一个实施例所描述的链路故障修复方法的步骤。

对于本申请所提供的一种计算机可读存储介质的介绍请参照上述实施例，本申请在此不再赘述。

本申请所提供的一种计算机可读存储介质具有和上述链路故障修复方法相同的有益效果。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种链路故障修复方法，其特征在于，包括：

若是，生成故障报警信号；

其中，PCIe链路包括控制器的PCIe Switch的端口、NVMe SSD的端口及物理信号通道，按修复等级从低到高的顺序，对所述控制器的PCIe Switch的端口的修复为第一修复等级，对所述NVMe SSD的端口的修复为第二修复等级，对所述物理信号通道的修复为第三修复等级；

所述第一修复等级的修复操作为对所述目标PCIe端口执行先关闭再打开的操作，所述第二修复等级的修复操作为对所述磁盘的端口执行PCIe复位操作，所述第三修复等级的修复操作为对所述目标PCIe端口执行先下电再上电的操作。

2.根据权利要求1所述的链路故障修复方法，其特征在于，若当前修复等级为所述第一修复等级或所述第二修复等级，所述通过所述目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

3.根据权利要求1所述的链路故障修复方法，其特征在于，若当前修复等级为所述第三修复等级，所述通过所述目标控制器执行当前修复等级的修复操作之后，该链路故障修复方法还包括：

4.根据权利要求1所述的链路故障修复方法，其特征在于，所述通过所述目标控制器执行当前修复等级的修复操作的同时还包括：

生成与当前修复等级的修复操作对应的日志。

5.根据权利要求1-4任意一项所述的链路故障修复方法，其特征在于，该链路故障修复方法还包括：

若当前业务状态为空闲状态，执行硬件修复操作。

6.根据权利要求5所述的链路故障修复方法，其特征在于，所述硬件修复操作包括：

暂停所述磁盘的正常链路的读写操作；

7.一种链路故障修复系统，其特征在于，包括：

第一确定模块，用于当磁盘阵列中任一磁盘存在单链路异常，确定所述单链路异常对应的目标控制器及目标PCIe端口，所述目标PCIe端口为所述目标控制器中的PCIe Switch上连接所述磁盘的PCIe端口；

所述报警模块，用于生成故障报警信号；

8.一种链路故障修复装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-6任意一项所述的链路故障修复方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的链路故障修复方法的步骤。