CN109726066B

CN109726066B - 用于标识存储系统中的问题部件的方法和设备

Info

Publication number: CN109726066B
Application number: CN201711025418.8A
Authority: CN
Inventors: 刘冰; 吕满; 游方
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2022-06-24
Anticipated expiration: 2037-10-27
Also published as: CN109726066A; US10891178B2; US20190129785A1

Abstract

本公开的实施例涉及用于标识存储系统中的问题部件的方法和设备。该方法包括基于存储系统的部件的历史错误记录，确定指示部件的错误信息的图，其中图中的节点指示部件，图中的边指示部件之间的连接关系；该方法还包括基于该图，标识存储系统的部件中的错误源，以作为问题部件。利用本公开的方法和设备，能够更为准确和有效地标识存储系统中的错误源，提升用户的使用体验。

Description

用于标识存储系统中的问题部件的方法和设备

技术领域

本公开的实施例总体涉及存储系统，具体涉及用于标识存储系统中的问题部件的方法和设备。

背景技术

为了适应对数据存储容量、读写速率、数据安全性等方面越来越高的需求，现有的企业级存储系统往往具有比传统产品更为复杂的拓扑结构和组成部件。例如，某型号的高端数据域产品，其能够支持多达56个数据阵列结构(DAE)，其中每个DAE又可以支持15个磁盘驱动器。这56个DAE可以位于8个不同的链条上，每个链条深度上具有7个DAE。在这样的数据存储系统中，还具有很多用于执行类似数据交换或路由功能的中继设备，例如扩展器；此外，数据存储系统中还具有大量的连接部件，例如用于连接这些设备的缆线。

具有如此众多部件的存储系统，很容易出现错误。这些错误可能是源于系统内部的存储设备、中继设备或者缆线。在某些情况下，单独的某个部件发生故障，将很可能直接或间接影响与其相关的其他部件，这种“连锁反应”将造成一些本身并未真正发生故障的其他部件受到影响。这导致了在存储系统出错之后，维护人员难于定位、标识并且处理这样的错误。

因此，在存储系统出错后，如何更有效或更准确地向用户标识出错误源，以作为存储系统中的问题部件提供给用户，成为一个挑战。

发明内容

本公开的实施例提供了用于标识存储系统中的问题部件的方法和设备。

根据本公开的第一方面，提供了一种用于标识存储系统中的问题部件的方法，该方法包括：基于存储系统的部件的历史错误记录，确定指示部件的错误信息的图，图中的节点指示部件，图中的边指示部件之间的连接关系；以及基于图，标识存储系统的部件中的错误源，以作为问题部件。

根据本公开的第二方面，提供了一种用于标识存储系统中的问题部件的设备，包括至少一个处理单元；至少一个存储器，该至少一个存储器被耦合到至少一个处理单元并且存储由至少一个处理单元执行的指令，该指令当由至少一个处理单元执行时，使得设备执行动作，该动作包括：基于存储系统的部件的历史错误记录，确定指示部件的错误信息的图，图中的节点指示部件，图中的边指示部件之间的连接关系；以及基于图，标识存储系统的部件中的错误源，以作为问题部件。

根据本公开的第三方面，提供了计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。

以上发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的附图标记通常代表相同部件。

图1示出了根据本公开的实施例的示例存储系统的示意图；

图2示出了根据本公开的实施例的标识存储系统中的问题部件的方法的流程图；

图3示出了根据本公开的实施例的示例存储系统的拓扑结构的图的示意图；；

图4示出了根据本公开的实施例的标识存储系统中的问题部件的方法的具体流程图；

图5-图7示出了根据本公开的实施例的算法所针对的图的示意图；

图8示出了根据本公开的实施例的利用附加部件的信息的图的示意图；

图9示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本文中使用的术语“错误”可以与“问题”和“出错”互换使用。

如前所述，商业用途的企业级存储系统往往具有较大的存储容量和复杂的拓扑结构。如此复杂的系统往往会易于产生错误。当前，对于这样的大型硬件系统，不存在能够有效地标识其中的错误源的系统性的解决方案。通常，在系统出现故障之后，系统维护人员采取“试错法”来定位问题部件，逐个替换可能出错的部件，并判断存储系统是否恢复正常。在这一过程中，维护人员需要花费大量时间，重复性地检查错误日志，并基于其专业经验和对系统的了解来试图从中提取出对于定位错误源有用的信息，查找可能的出错部件。

现有的上述解决方案，具有以下缺陷：

易出错性：系统维护人员主要是依赖于其个人经验来识别出错部件，这样的方式显然过于主观，并且易受其他因素的干扰。

跨团队复杂性：为了定位错误，需要获取与系统内部的组成结构相关的知识，维护人员可能需要系统开发人员的协助，从而增加了工作的复杂性。

不必要的成本：维护人员手动地标识错误，以及与开发人员进行讨论将消耗大量的时间与精力，为企业带来更多的成本。

用户不满意：随着系统复杂性的提升，定位问题部件并修复系统所需的时间和工作量也将随之增加，这往往会严重影响用户体验。长期来看，用户可能会倾向于寻找其他系统提供商。

为了至少部分地解决上述问题以及其他潜在问题，本公开的示例实施例提出了用于标识存储系统中的问题部件的机制。该机制通过将存储系统的拓扑结构抽象为指示其中的部件的错误信息的图(graph)，并通过对图进行处理，从图中标识出可能的问题部件。以下通过图1至图9更详细地描述根据本公开的实施例的问题部件标识方案。

图1示出了示出了根据本公开的实施例的示例存储系统的示意图。应当理解，为了便于描述和说明，图1中的存储系统100的内部结构进行了简化。以下，仅出于示例性的目的描述其结构和功能，而不是暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在其他的结构和/或功能中，或被体现在具有不同复杂程度的系统中。

存储系统100可以包括多种部件，例如相同或不同类型的设备、器件、装置、连线，等等。如图1所示，存储系统100包括主机总线适配器(HBA)102。该主机总线适配器可以具有接口卡的形式，并被插入适当的总线插槽中。该主机总线适配器具有多个端口104(图中仅示出了一个)，用于连接多个中继设备(例如，扩展器108)，扩展器108可以具有类似于数据交换或路由的功能，以控制所存取的数据的流向。每个扩展器又可以连接多个磁盘驱动器设备(简称“磁盘”)110。此外，存储系统100中还具有一条或多条缆线106，用于连接存储系统中的以上各个设备。缆线106可以例如包括：数据线、电源线等。应当理解，图1中所示出的各种部件的数目均是示意性的，例如，扩展器可以用于连接任意数目个磁盘而非两个磁盘。应当理解，图1所示的存储系统中所包含的具体部件仅仅是示意性的而非限制性的。

图2示出了根据本公开的实施例的标识存储系统中的问题部件的方法200的流程图。应当理解，该方法200所标识的问题部件，既可以包括存储系统100中的组成设备，也可以包括存储设备100中的连接缆线。应当理解，方法200除了所示出的框之外，还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

方法200开始于框202。在框202，基于所述存储系统的部件的历史错误记录，确定指示所述部件的错误信息的图(以下也称为“错误信息图”)。根据本公开的实施例，错误信息图可以通过多种方式来确定。在一些实施例中，可以从存储系统100的原始日志，确定存储系统100的各个部件的拓扑结构和历史错误记录。然后，可以基于拓扑结构来构建存储系统的结构图。随后，可以将历史错误记录应用于该结构图，以得到错误信息图。

存储系统的结构图是存储系统的实际物理结构在数学上的抽象，其可以通过多种方式来构建。在一些实施例中，可以基于图1所示的存储系统的硬件拓扑结构，来构建存储系统100的结构图。结构图例如可以以有向无环图(Directed Acyclic Graph,DAG)的形式表示。有向无环图可以被如下定义：如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图是一个有向无环图(简称为“DAG”)。

在建立从拓扑结构到该结构图的映射时，结构图中的每个节点都表示存储系统100中的一个现场可替换单元(FRU)。将理解的是，由于存储系统100中出错的对象既可以是存储设备(例如磁盘110)、中继设备(例如扩展器108)，也可以是连接这些设备的大量连接部件(例如缆线106)。缆线106可以具有数据线或电源线等具体形式。应当理解，以上关于缆线106的具体形式仅仅是示例性的，而非限制性的，本公开的实施例不限于此。因此在构建图1所示的存储系统100的结构图时，也将缆线106视为与存储设备或中继设备等同的节点。换言之，结构图中的节点指示存储系统中的各种部件(包括设备以及设备之间的缆线)。

结构图中的边表示FRU之间的连接关系。由于该结构图是有向无环图，其中的各个节点之间的边是有向的，每一条边表示从一个FRU节点到另一个FRU节点的有向连接关系。

图3示出了根据本公开的实施例的与示例存储系统的拓扑结构相关联的结构图的示意图。从图3可以看出，整个存储系统100的硬件拓扑结构被完整地映射为结构图300。根节点302与主机总线适配器(HBA)102对应，节点304与多个HBA端口中的一个HBA端口对应，节点306与图1中从HBA端口104到扩展器108的连接缆线对应，节点308与扩展器108对应，节点310与从扩展器108到磁盘110的连接缆线对应，节点312与磁盘110对应。应理解，在图3中，每个节点对应于存储系统100中的单个部件(诸如设备和缆线)，而图中的每个边对应于部件之间的连接关系。应当理解，虽然图3中仅示出了一个根节点302，但是在根据本公开的其他实施例中可以具有两个或更多个根节点，并且除了主机总线适配器102以外，根节点还可以对应于任何合适的其他部件，本公开的实施例并不限于此处所述的具体示例。

在得到存储系统的结构图后，可以将历史错误记录应用于该结构图，来得到错误信息图。在原始日志中，不仅可以包含可以用来构建所述存储系统的结构图的存储系统的拓扑结构信息，还可以包含该存储系统的历史错误记录。历史错误记录可以包括与存储系统的各部件相关联的错误信息。因此，通过将各个部件相关联的错误信息应用于包含这些部件连接关系的结构图，可以得到指示这些部件的错误信息的图。

可选地或附加地，在一些实施例中，可以确定错误信息图是否存在拓扑错误，例如可以通过一致性校验来进行。在存在拓扑错误的情况下，基于拓扑模板更新错误信息图。拓扑模板例如可以基于与存储系统的拓扑结构有关的先验知识而获取，也可以根据其他适当的方式来获取。经过更新后的错误信息图，可以补充拓扑图中缺失的多个节点，消除原本存在的拓扑错误，并为后续的处理做好准备。

继续参考图2，在框204，基于错误信息图，标识所述存储系统的部件中的错误源，以作为问题部件。可以从错误信息图中确定存储系统100中的各个部件的错误信息，并基于错误信息来确定错误信息图中的部件中的错误源。这种错误信息可以附加于错误信息图中的各个节点。

在一些实施例中，这种错误信息可以包括：非传染性错误，与拓扑结构有关的传染性错误，以及与拓扑结构无关的传染性错误，和/或其他有关的错误。通过将错误信息分类，能够对标识出的错误源的类型进行区分，从而便于用户快速、准确地辨别存储系统100中的不同错误源。

可以通过多种方式来基于上述错误信息而确定错误源。在一些实施例中，如果确定错误信息图中的某个部件具有与拓扑结构有关的传染性错误，那么将该部件标识为与拓扑结构有关的错误源。

可选地或附加地，在一些实施例中，如果确定错误信息图中的某个部件仅具有非传染性错误，那么将该部件标识为非传染性错误类型的错误源。

可选地或附加地，在一些实施例中，首先获取从根节点到与错误信息图中的具有与拓扑无关的传染性错误的部件相对应的节点的多条路径；随后基于多条路径，来生成对应的截断路径集合；并且基于截断路径集合中的具有唯一性的截断路径，从中确定出对应单独的节点的一类错误源；基于截断路径集合中的具有非唯一性的截断路径，从中确定出并非对应于单独的节点的另一类错误源。

通过以上方式所标识的错误源表示存储系统100中具有较高错误发生概率的部件。因此，在存储系统100发生故障的情况下，根据本公开的实施例而标识出错误源，能够使得系统维护人员能够更有效率、更为准确地对错误部件进行定位。

以下参照图4具体描述根据本公开的实施例的问题部件标识方法。图4示出了根据本公开的实施例的标识存储系统中的问题部件的方法400的具体流程图。应当理解，图4所示的方法400是图2所示的方法200的一个具体实施例，其仅仅是示例性的，而不是限制性的。

在框401，从原始日志中获取描述整个存储系统100的拓扑结构的信息以及历史错误记录信息。该历史错误记录信息记录了存储系统中的各个部件的具体错误情况。

所获取的历史错误记录，包含部件的名称、发生时间、错误属性、详细描述等信息。基于上述历史错误记录，可以对其进行初步分类。例如，根据错误的属性或详细描述，可以将其划分为传染性错误和非传染性错误。非传染性错误仅仅影响该部件自身，例如某个存储设备(例如磁盘)出现扇区错误。传染性错误除了影响该部件自身以外，还将影响与其直接或间接连接的其他部件。例如，某根缆线接触不良，将导致与其连接的下游设备出现错误。传染性错误还可以进一步细分为与拓扑结构相关的传染性错误，以及与拓扑结构无关的传染性错误。

可选地，可以利用预设的时间区段来过滤所获取的历史错误记录信息，仅保留与存储系统的最近状态有关的错误记录。这样的过滤操作能够有效地降低后续分析的工作量。较长时间之前的历史错误记录，与存储系统的当前状态几乎不具有相关性，因此可以不予考虑。

在框402，基于所获取的硬件拓扑信息，构建与存储系统100对应的结构图。基于前述描述可知，该结构图中的节点指示存储系统的部件，该结构图中的边指示存储系统的部件之间的连接关系。

随后，将错误信息(即，经分类的历史错误记录)应用于所创建的结构图，以生成错误信息图。在该步骤中，如果与结构图中的某个节点对应的部件存在错误信息，则将对应的错误信息附加到该节点，以供后续处理。重复以上步骤，直到全部的错误信息均已经被附加到结构图中的节点中。

在框404，判断当前所生成的错误信息图是否存在拓扑错误。该步骤是通过针对该错误信息图进行完整性检验实现的。所述完整性检验能够识别出一种需要特别关注的节点的错误类型，被称为“丢失部件”错误。在错误信息图中，这样的错误将体现为特定节点之下的全部节点均被丢失。如果在与特定的节点对应的部件处发生了这种类型的错误，该部件以下的较低层次的所有部件都将不可见。这种类型的错误例如包括，丢失磁盘组、丢失磁盘路径等。在这样的情况下，将无法构建硬件系统的完整拓扑，并且在其后的处理过程中也无法利用或处理这些丢失的节点。

在步骤406，响应于发现存在拓扑结构错误，基于拓扑模板来更新错误信息图。可以基于与存储系统的拓扑结构有关的先验知识来发现和处理这样的问题。例如，对于双路径SAS域存储系统，为了提供冗余，到每个磁盘驱动器均具有两个不同的对称路径。如果对于错误信息图中的任何与磁盘驱动器对应的节点，仅发现单个路径，那么认为在此处存在完整性错误。当检测到这样的错误之后，用户可以基于预期的系统完整拓扑结构，获取拓扑模板，并由此重建完整的双路径图。而对于产生“丢失部件”错误的特定部件，仍然被保留在图中，并被标记为“丢失部件”。经过上述过程之后，所生成的经过完整性检验的错误信息图将被用于后续算法的继续处理。

在框408，判断错误信息图中是否具有涉及拓扑结构错误的节点，也即判断是否具有已经在前述的完整性检验过程中被标识为“丢失部件”的节点。这类错误通常是传染性错误中的一类。响应于确定具有此类特殊类型的节点，在框410，将此类节点标识为第一类型的错误源，并输出到用户界面(UI)。

随后，在框412，判断错误信息图中是否有属于非传染性错误的节点。这样的非传染性错误例如是单个磁盘的扇区错误。基于前述描述可知，在构建错误信息图的过程中，结构图中的某个节点所涉及的错误信息(即，包含哪些非传染性错误和/或传染性错误)已经被附加到图中的各个节点。具体而言，可以获知错误信息图中的哪些节点既包含非传染性错误，也包含传染性错误。同样，还可以获知哪些节点仅包含非传染性错误。响应于确定某个节点仅包含非传染性错误而不包含传染性错误，则在框414，可以将这些节点归类并标识为第二类型的错误源，并输出到UI，提供给用户。

经过以上两轮筛选之后的包含错误信息的节点，将要经由以下的具体算法进行处理。容易理解，在筛去了具有非传染性错误的节点以及具有拓扑结构错误的节点之后，当前的包含错误信息的节点，均涉及与拓扑无关的传染性错误。随后的处理基于与寻找节点的“最近共同祖先(LCA)”相关联的算法而实现。基于这样的LCA算法，将能够有效地从错误信息图中的多个包含传染性错误信息的节点中，提取出最有可能是真实错误源的问题部件，并推荐给用户。为便于描述，以下将结合图4至图7进行说明。

在框416，对于每个当前的包含错误信息的节点，获取从根节点到与错误信息图中的具有与拓扑无关的传染性错误的部件相对应的节点的多条路径。容易理解，对于有多个根的情况，获取从每个根到多个包含错误信息的节点的路径。随后，生成包含这些路径的列表，列表中的每一项分别对应于从根节点到每个特定节点的一条路径。

在框418，针对列表中的每一条路径，执行从路径中移除最后一个节点的操作，以生成与多条路径对应的截断路径集合。这样新生成的路径列表被称为被截断路径列表。容易理解，被截断路径列表中的每一条被截断路径中，从根节点开始的每个节点均与先前生成的路径中的节点一致，而不再包括位于先前生成的路径末尾的、包含传染性错误的节点。此时，对于共同具有距离在一跳以内的最近共同祖先节点的若干个包含传染性错误的多个节点来说，从根节点到LCA节点的被截断路径是相同的。

参照图5的示例进行说明。图5示出了根据图4中的框416-框418所针对的错误信息图的示意图。在该具体实现中，具有单个根节点A，并且利用疏虚线示出了当前包含传染性错误的三个节点C、H和I。在框416处所获取的、从根节点到这三个节点的多条路径分别为：A→B→C、A→B→D→H以及A→B→D→I。在框418处所生成的被截断路径集合中，可以包含三个被截断路径A→B(对应于节点C)、A→B→D(对应于节点H)和A→B→D(对应于节点I)。

仍然回到图4。在步骤420，比较多个被截断路径。

这样的比较是基于如下判断准则：对于所有的包含错误信息的节点，可以将其分类为群组，使得对于每个群组，该群组的LCA满足以下的判据之一：

i.包含传染性错误的节点，距离他们所共享的LCA为1跳。选择这样的判据是由于，如果LCA距离包含传染性错误的节点大于1跳，将无法准确获知LCA与包含传染性错误的节点之间的中间节点的准确状态。从而，也无法判断这些中间节点是否在导致其下方节点的传染性错误方面是否产生影响。为了避免这样的不确定性，并简化算法的复杂度，可以选择仅标识与包含传染性错误的节点距离为1跳的LCA。

ii.群组中仅具有单一节点，并且LCA就是该节点本身。在这种情况下，该节点也被称为“自包含”LCA。

基于以上的判据，我们可以对被截断路径集合中的各个路径进行分类。例如，对于被截断路径集合中具有非唯一性的被截断路径(即，集合中具有相同的被截断路径)，对应于上述的第i类情形。容易理解，这些相同的被截断路径的最后一个共同节点，就是一个LCA。对于另一种情况，对于被截断路径集合中具有唯一性的被截断路径(即，集合中仅具有单一的被截断路径)，对应于上述的第ii类情形。容易理解，对于具有唯一性的被截断路径，其被截断之前的完整路径的最后一个节点，就是一个“自包含”LCA。

在图5的示例中，比较的是截断路径列表中所包含的三个路径A→B、A→B→D和A→B→D。显然，对于相同的路径A→B→D，标识出LCA节点D。对于单一路径A→B，将其恢复为截断前的完整路径(即，A→B→C)，并将节点C标识为LCA(“自包含”LCA)。

继续参考图4，由于被标识为“自包含”LCA的节点位于单一路径中，而不存在与其共享LCA的其他节点，所以这种“自包含”LCA节点很可能自身存在问题。因此，在框424，直接将这样的“自包含”LCA节点标识为第三类型的错误源，并向用户输出。

对于上述的第i类情形所标识的LCA节点，可以直接标识为第四类型的错误源，并输出给用户。在优选的实施例中，还可以对经以上操作所获取的多个LCA节点进行继续筛选。在该优选的实施例中，以上第一轮筛选中所获取的多个LCA节点被标识为候选的第四类型的错误源。

接下来，继续筛选这些候选的第四类型的错误源节点。在框426，执行比较两个候选的第四类型的错误源的距离的处理。如果当前所标识的两个LCA距离为1跳，那么在这两个LCA中，很有可能是更为靠近根的那个LCA节点自身产生了传染性错误，并且该错误影响到了该节点后续的节点。由此，在框428执行两个候选第四类型错误源之间的距离是否在1跳以内的判断。如果是，则在框432，可以“归并”(merge)这两个LCA，仅保留距离根节点更近的LCA，并移除距离根节点更远的那个LCA。

图6示出了图4中从框426到428以及分支432的流程所针对的错误信息图的示意图。参见图6可知，当前包含传染性错误的节点为C、H、I和E(在图6中以疏虚线表示)。基于之前的算法，节点B和节点D在第一轮处理中被标识为LCA(在图6中以密虚线表示)。由于这两个LCA的距离恰好为1跳，所以可以认为节点D所产生的错误很有可能是受了由更靠近根的节点B出错的影响而产生的。因此这两个LCA被“归并”，并且仅仅LCA节点B被保留。

对于另外一种情况，即在框430，如果两个LCA节点的距离大于1跳，那么通常将这两个LCA看作是互相独立的LCA，并均予以保留。也即在这种情况下，认为这两个LCA的错误是各自独立产生的，不具有相互影响。

图7示出了图4中从框426到428以及分支430的流程所针对的错误信息图的示意图。参见图7可知，当前的包含传染性错误的节点为C、E、L和M(在图7中以疏虚线表示)。基于之前的算法，节点B和节点H在第一轮处理中被标识为LCA(在图7中以密虚线表示)。由于这两个LCA的距离超过了1跳，那么将认为节点B和节点H的错误很有可能是相互独立地产生的。因此这两个LCA均被保留。

继续参考图4，在框434，将经过归并处理的前述步骤中所得到的候选第四类型的错误源，标识为第四类型的错误源并输出给用户。

基于以上的处理，该存储系统的部件中的各种不同类型的错误源，被标识出来以作为问题部件呈现给系统维护人员。系统维护人员在获取了被标识的问题部件的信息之后，能够实现对存储系统中的错误的快速、准确定位。

附加地或可选地，方法400还可以包括框436。在框436，确定与所标识的问题部件相关联的附加部件。这样的附加部件未被包括在该存储系统的拓扑结构中，从而在所生成的结构图或者错误信息图中，并不包含与该附加部件对应的节点。但是对于系统维护人员而言，这样的附加部件的信息，有时对于查找存储系统中的错误源而言同样是有帮助的。通过考虑实际操作情况下的真实硬件结构信息，可以向用户提供对于标识错误源有价值的附加信息。

例如，处在同一层级的几个LCA节点对应的部件，可能在实际硬件结构中，具有相互依赖的关系。它们可能共同连接到另一个附加部件(例如，背板)，但是该附加部件可能并未被包含在一开始所构建的系统的结构图中。在实际操作中，对于维护人员而言，与分别检查这几个出错的LCA节点相比，可能更为合理和更具操作性的选择是，检查和/或替换它们共同连接到的附加部件，因为这时更可能的错误源应当是它们共同连接到的该附加部件。

为了解决这样的场景中的问题，可以在所生成的结构图或错误信息图中，设置与上述特定的附加部件相关联的“虚拟”节点。这样的虚拟节点在标识LCA的算法处理过程中并不参与处理，而仅用于标识该特定附加部件与图中存在的其余部件之间的相互关系。容易理解的是，如果一个“虚拟”节点的所有子节点都出现在在最终输出的错误源中，那么可以认为，该附加部件是更有可能的错误源。从而，该“虚拟”节点所对应的附加部件被确定为比其子节点对应的部件需要更优先处理的错误源部件，并向用户输出。

以下进一步参照图8对图4中的框436进行说明。图8示出了根据本公开的实施例的利用附加部件的信息的错误信息图的示意图。在图8中，在构建结构图或错误信息图时，将虚拟节点α分配给了扩展器C和D所共同存在的扩展器背板。如果基于前述的算法处理之后，最终确定C和D都是错误源，那么可以有充足的理由认为，此时与该虚拟节点α对应的背板是需要被更优先地处理的错误源，并在向用户输出时作为附加信息向用户进行优先推荐。

基于以上的描述可知，与以往的耗时并且易出错的过程相比，本公开的方案提出了一种用于标识存储系统中的问题部件的新的方案。该方案通过分析与存储系统的拓扑结构相关联的图、应用LCA算法、考虑附加部件的影响等有效手段，能够更为智能、更为准确、同时也更为有效地标识错误源，并且有效减少了操作成本、提高工作效率，同时提升了用户的使用体验。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200或方法400，可由处理单元901执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU 901执行时，可以执行上文描述的方法200或方法400的一个或多个框。备选地，CPU 801也可以通过任何其他适当的方式(例如，借助于固件)而被配置为执行上文描述的方法200或方法400。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于标识存储系统中的问题部件的方法，包括：

基于所述存储系统的部件的历史错误记录，确定指示所述部件的错误信息的图，所述图中的节点指示所述部件，所述图中的边指示所述部件之间的连接关系，其中利用预设的时间区段来过滤所述历史错误记录信息中的所述部件的所述错误信息，使得仅保留与所述存储系统的最近状态有关的错误记录，并且其中所述错误信息包括以下至少一项：

非传染性错误，

与拓扑结构有关的传染性错误，以及

与拓扑结构无关的传染性错误；以及

基于所述图，标识所述存储系统的所述部件中的错误源，以作为问题部件，其中标识所述存储系统的所述部件中的错误源包括：

从所述图来确定所述部件的错误信息；以及

基于所述错误信息来确定所述图中的所述部件中的错误源。

2.根据权利要求1所述的方法，其中确定指示所述部件的错误信息的图包括：

从所述存储系统的原始日志，确定所述存储系统的所述部件的拓扑结构和历史错误记录；

基于所述拓扑结构来构建所述存储系统的结构图；以及

将所述历史错误记录应用于所述结构图，以得到指示所述部件的错误信息的图。

3.根据权利要求1所述的方法，其中确定指示所述部件的错误信息的图包括：

确定所述图是否存在拓扑错误；

响应于发现存在拓扑错误，则基于拓扑模板更新所述图，其中所述拓扑模板是基于与所述存储系统的拓扑结构有关的先验知识获取的。

4.根据权利要求1所述的方法，其中确定所述图中的所述部件中的错误源还包括：

响应于确定所述部件具有与拓扑结构有关的传染性错误，将所述部件标识为第一类型的错误源。

5.根据权利要求1所述的方法，其中确定所述图中的所述部件中的错误源还包括：

响应于确定所述部件仅具有非传染性错误，将所述部件标识为第二类型的错误源。

6.根据权利要求1所述的方法，其中确定所述图中的所述部件中的错误源还包括：

获取从根节点到与所述图中的具有与拓扑无关的传染性错误的部件相对应的节点的多条路径；以及

基于所述多条路径，来生成对应的截断路径集合；以及

基于所述截断路径集合中的具有唯一性的截断路径，确定第三类型的错误源；以及

基于所述截断路径集合中的具有非唯一性的截断路径，确定第四类型的错误源。

7.根据权利要求1所述的方法，还包括：

确定与所述问题部件相关联的附加部件，所述附加部件未被包括在所述图中；以及

向用户提供与所述附加部件有关的信息。

8.一种用于标识存储系统中的问题部件的设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：

非传染性错误，

与拓扑结构有关的传染性错误，以及

与拓扑结构无关的传染性错误；以及

从所述图来确定所述部件的错误信息；以及

基于所述错误信息来确定所述图中的所述部件中的错误源。

9.根据权利要求8所述的设备，其中确定指示所述部件的错误信息的图包括：

基于所述拓扑结构来构建所述存储系统的结构图；以及

10.根据权利要求8所述的设备，其中确定指示所述部件的错误信息的图包括：

确定所述图是否存在拓扑错误；

11.根据权利要求8所述的设备，其中确定所述图中的所述部件中的错误源还包括：

12.根据权利要求8所述的设备，其中确定所述图中的所述部件中的错误源还包括：

13.根据权利要求8所述的设备，其中确定所述图中的所述部件中的错误源还包括：

基于所述多条路径，来生成对应的截断路径集合；以及

14.根据权利要求8所述的设备，其中所述动作还包括：

向用户提供与所述附加部件有关的信息。

15.一种计算机可读介质，包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至7中任一项所述的方法的步骤。