CN106021062B

CN106021062B - 关联故障的预测方法和系统

Info

Publication number: CN106021062B
Application number: CN201610298092.5A
Authority: CN
Inventors: 付博; 冯伯庚; 蒋芳玉; 李红伟
Original assignee: Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2018-08-07
Anticipated expiration: 2036-05-06
Also published as: CN106021062A

Abstract

本发明涉及一种关联故障的预测方法和系统，其中关联故障的预测方法包括以下步骤：获取分布式计算系统的历史故障信息，并根据历史故障信息得到故障信息样本库；获取故障信息样本库中的有效故障信息，并对有效故障信息进行时间离散化处理，得到样本数据矩阵；根据样本数据矩阵，得到分布式计算系统的当前概率共享风险组结构；获取实时采集到的分布式计算系统的当前故障样本信息；根据当前概率共享风险组结构和当前故障样本信息，对分布式计算系统进行故障预测。本发明可以全面准确的描述关联故障的多样性和传播性特征，提升预测精度，有效提高预测方法执行效率，方便在线故障的部署和实施，对于提升分布式计算系统的可用性和可靠性具有重要意义。

Description

关联故障的预测方法和系统

技术领域

本发明涉及分布式计算系统领域，特别是涉及分布式计算系统中的一种关联故障的预测方法和系统。

背景技术

分布式计算系统由多个异构的、互连的计算单元(CE：Computing Elements)组成，且这些系统通常承载着大量并行的、协作式的应用。然而，随着计算单元规模的增加、计算单元同其他系统组件间交互的复杂化以及系统承载应用的多样化，分布式计算系统更容易发生故障和异常。这些故障具有时间关联性和空间关联性。这种关联故障会导致系统中其他计算单元发生异常，甚至影响整个分布式计算系统的可用性。故障预测可以在无需了解底层根故障的前提下对故障进行预测，是一种有效的故障容忍机制。如何准确预测分布式计算系统中的关联故障已经成为目前亟待解决的问题。

目前，故障预测方法主要分为两类：基于监控的故障预测和基于追踪的故障预测。基于监控的故障预测将故障视作对正常行为的偏差，通过函数近似、系统建模、模式识别、分类等技术进行预测。基于追踪的预测对已发生故障进行分析，通过评估下次故障发生时间的概率分布或构建故障关联性模型，进而预测未来故障的发生。

在实现过程中，发明人发现传统技术中至少存在如下问题：分布式计算系统中的故障关联性表现为故障多样性关联和故障传播性关联，具体表现为由同一个底层根故障引起的故障实例可能同时发生在系统中的多个计算单元上，且发生在某个计算单元上的故障可能引起其他计算单元相继发生故障。然而，基于监控的故障预测方法中，很难通过函数近似等方法完全且准确的描述这种关联关系。同时，由于系统中的计算单元通常是异构的、分层的，并承载着不同的应用。因此，基于追踪的故障预测方法中，对系统故障进行统一的概率分布建模也是不合适的，无法有效的实现故障的准确预测。

发明内容

基于此，有必要针对传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的问题，提供一种关联故障的预测方法和系统。

为了实现上述目的，本发明技术方案的实施例为：

一方面，提供了一种关联故障的预测方法，包括以下步骤：

获取分布式计算系统的历史故障信息，并根据历史故障信息得到故障信息样本库；

获取故障信息样本库中的有效故障信息，并对有效故障信息进行时间离散化处理，得到样本数据矩阵；有效故障信息为呈现关联性的故障信息；

根据样本数据矩阵，得到分布式计算系统的当前概率共享风险组结构；

获取实时采集到的分布式计算系统的当前故障样本信息；

根据当前概率共享风险组结构和当前故障样本信息，对分布式计算系统进行故障预测。

另一方面，提供了一种关联故障的预测系统，包括：

故障样本库获取单元，用于获取分布式计算系统的历史故障信息，并根据历史故障信息得到故障信息样本库；

样本数据矩阵获取单元，用于获取故障信息样本库中的有效故障信息，并对有效故障信息进行时间离散化处理，得到样本数据矩阵；有效故障信息为呈现关联性的故障信息；

概率共享风险组结构获取单元，用于根据样本数据矩阵，得到分布式计算系统的当前概率共享风险组结构；

采集信息单元，用于获取实时采集到的分布式计算系统的当前故障样本信息；

故障检测单元，用于根据当前概率共享风险组结构和当前故障样本信息，对分布式计算系统进行故障预测。

上述技术方案具有如下有益效果：

本发明关联故障预测方法和系统，可以包括概率共享风险组挖掘阶段和故障预测阶段两部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联故障模式，通过将贝叶斯网络和状态空间模型相结合，形成可以用来描述关联故障的特征的概率共享风险组结构的模型，使得本发明可以全面准确的描述关联故障的多样性和传播性特征，在故障预测中对于提升预测精度具有重要作用。此外，采用的关联规则挖掘技术可以通过一种并行的方式执行，这种方法可以有效提高预测方法执行效率，方便在线故障的部署和实施。故障预测阶段基于生成的概率共享风险组结构，通过一种关联故障预测方法来评估未来故障发生的概率。这种预测方便后续其他故障容忍技术的及时实施，对于提升分布式计算系统的可用性和可靠性具有重要意义。

附图说明

图1为本发明关联故障的预测方法实施例1的流程示意图；

图2为本发明关联故障的预测方法实施例1中概率共享风险组结构的挖掘过程的流程示意图；

图3为本发明关联故障的预测方法实施例1中故障预测的流程示意图；

图4为本发明关联故障的预测方法实施例1中概率共享风险组结构的生成过程的流程示意图；

图5为本发明关联故障的预测方法实施例1中故障预测具体步骤流程示意图；

图6为本发明关联故障的预测方法一具体实施例中在预设时隙内发生故障数的统计示意图；

图7为本发明关联故障的预测方法一具体实施例中概率共享风险组结构的示意图；

图8为本发明关联故障的预测方法一具体实施例中不同故障触发阈值设定下的故障预测性能的示意图；

图9为本发明关联故障的预测方法一具体实施例中针对不同类型故障的预测效果的示意图；

图10为本发明关联故障的预测系统实施例1的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

为了解决传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的问题，首先对本发明技术方案涉及的相关技术术语以及应用场景给予详细说明；本发明中涉及到的“故障”可以指由硬件或软件缺陷、设计错误、环境不稳定或操作失误引起的服务或计算节点的不可用。本发明主要关注故障停止类(fail-stop)故障，即服务器(或计算节点)发生故障后不可恢复。本发明待解决问题的模型的描述如下：

假设一个分布式计算系统由异构的计算单元组成，同时系统承载多个并行应用和协作式应用，且应用和计算单元呈现多对多的关系。具体而言，系统中每个应用可能运行于多个计算单元上，同时每个计算单元可能承载着多个应用。假设分布式计算系统的配置信息和服务拓扑信息是动态变化的、不可知的。

通常，一个包含有n个计算单元的分布式系统可以抽象成一个无向连接图G＝(V，E)，其中G表示分布式计算系统中包含的n个计算单元及它们之间的互联关系，V＝(CE₁，……，CE_n)，即V是分布式计算系统中包含的n个计算单元的集合，具体而言元素CE_i表示分布式计算系统中的第i个计算单元；是分布式计算系统中的通信链路集合，表示分布式系统中各计算单元间的连接关系。

为了方便问题的描述和解决，将时间离散化为小的间隔，用时隙来衡量时间窗。定义时隙为一个小的时间间隔，期间只允许一个故障事件发生在一个计算单元上。假设计算单元CE_j在时隙t的状态为：

那么，分布式计算系统在时隙t的状态可以表达为系统X(t)表示分布式计算系统在时隙t的状态，通过描述系统中包含的n个计算单元是否发生故障来表示，Rⁿ表示n维实数集合。

分布式计算系统中，若时隙t发生故障受此影响未来可能多个计算单元相继发生故障。因此，可以将计算单元集合V分成两部分：和表示受影响共享通用故障风险的计算单元集合，即可称节点集合为一个共享风险组(SRG:Shared Risk Group)；表示其他没有受到故障影响的计算单元集合。

其中，引入共享风险组的概念用来描述分布式计算系统中的关联故障，可以认为共享一个通用故障风险的一组计算单元，可能受到一个通用底层根故障影响而同时或相继发生故障。定义概率共享风险组(PSRG:Probabilistic Shared Risk Group)为发生一个共享风险组故障时，以一定概率发生故障的计算单元集合。

本发明关联故障的预测方法实施例1：

为了解决传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的问题，本发明提供了一种关联故障的预测方法实施例1；图1为本发明关联故障的预测方法实施例1的流程示意图；如图1所示，可以包括以下步骤：

步骤S110：获取分布式计算系统的历史故障信息，并根据历史故障信息得到故障信息样本库；

步骤S120：获取故障信息样本库中的有效故障信息，并对有效故障信息进行时间离散化处理，得到样本数据矩阵；有效故障信息为呈现关联性的故障信息；

步骤S130：根据样本数据矩阵，得到分布式计算系统的当前概率共享风险组结构；

步骤S140：获取实时采集到的分布式计算系统的当前故障样本信息；

步骤S150：根据当前概率共享风险组结构和当前故障样本信息，对分布式计算系统进行故障预测。

具体而言，本发明的技术方案可以包括概率共享风险组的挖掘过程和故障预测两个过程，具体可分别参考图2和图3的流程示意图；本发明实施例中的有效故障信息可以是历史故障信息的一个子集；因为本发明针对的是关联性故障预测，因而对本发明而言有效故障信息指的是呈现关联性的故障信息。

在一个示例中，确定历史故障信息中的有效故障信息可以通过一种粗粒度的判定方法来实现：可以通过检查分布式计算系统中计算单元的投入工作时间来进行判断故障信息是否有效；具体而言，从系统中大部分计算单元投入工作的时间点开始的故障信息认定为有效故障信息。通常情况下，历史故障信息都是有效故障信息。具体有效故障信息的提取实例可参见本发明关联故障的预测方法一具体实施例中的故障数据预处理部分。

在一个具体的实施例中，图2为本发明关联故障的预测方法实施例1中概率共享风险组结构的挖掘过程的流程示意图；如图2所示，步骤S130可以包括：

确定分布式计算系统中是否存在概率共享风险组结构；

若存在，根据样本数据矩阵对概率共享风险组结构进行信息更新，得到当前概率共享风险组结构；

若不存在，根据样本数据矩阵生成当前概率共享风险组结构。

具体而言，如图2所示，概率共享风险组结构的挖掘过程可以包括以下步骤：

步骤S210：开始执行关联故障预测流程。

获取分布式计算系统的历史故障信息，生成故障信息样本库。

步骤S220：历史故障信息预处理。

在一个具体的实施例中，步骤S120可以包括：根据预设的时隙和有效故障信息中样本数据，对有效故障信息进行压缩和离散化，得到样本数据矩阵；预设的时隙为最小的平均故障间隔时间。

具体而言，即可以提取故障信息样本库中的有效故障信息，然后将这些有效故障信息进行时间离散化处理(即根据样本数据的具体情况，定义合适的时间间隔为时隙，从而压缩并离散化故障信息)，进而生成样本数据矩阵D。

步骤S230：判断分布式计算系统当前是否存在概率共享风险组结构(SPSRG：Structure of Probabilistic Shared Risk Groups)。

通过判断是否存在概率共享风险组结构来决定后续的操作。具体而言，若已经存在，后续可通过对样本数据矩阵D的分析挖掘进行概率共享风险组结构信息的更新；否则，可基于样本数据矩阵D生成一个概率共享风险组结构。关于概率共享风险组结构的相关定义描述如下：

1、给定一个包含有n个元素的集合S＝(S₁，S₂，…，S_n)，定义函数parent(S)返回集合(或序列)S的父集合(或序列)；其中，由于上述定义是针对集合或序列的操作，因此对具体的元素n的类型可不做限定。

2、给定一个矩阵D，定义函数col_index(c，D)按照行顺序依次返回条件c作用于D后所得结果的列序号；定义函数count(c，D)返回D中满足条件c的元素频度(或计数次数)；函数block(c，D)返回D中满足条件c的子集。其中，函数block(c，D)满足交换律，即block(c₁，block(c₂，D))＝block(c₂，block(c₁，D))。

3、定义概率共享风险组结构包含节点和边，其中每个节点代表组成一个共享风险组的计算单元集合。沿着概率共享风险组结构到下游低层节点，每个节点包含的元素个数逐渐增加。每个节点通过加权边同一个或多个下游节点相连，表示一种可能的转移。这种转移意味着，基于一个特定概率共享风险组结构节点所代表的共享风险组故障，可能触发新的计算单元发生故障(即向该节点表示的共享风险组中加入了新的元素)。概率共享风险组结构中包含的节点、边和终端路径定义如下：

节点：如N_j＝(I₁，…，I_k)，其中包含的每个元素I_k(1≤k≤K)，其中，I_k表示节点集合N_j中的第j个元素，对应于分布式计算系统中的某个计算单元，需满足：

节点N_j表示I₁，…，I_k共享一个通用故障风险并组成一个共享风险组。特别地，定义顶层节点Root为一个空集。此外，针对节点N_j，其子节点为：

child(N_j)＝I_q∪N_j)

其中新加入的元素I_q必须是没有出现在N_j及其祖先节点中的新元素。因此，节点N_j的子节点个数为n-|N_j|。

边：和边相关联的权重记录着连接节点的统计信息。给定一个连接节点N_i和N_j的边e_ij，其中N_i是N_j的父节点并且I_q＝N_j-N_i是N_j中的新增元素。那么，和e_ij相关联的权重包括：i)P(I_q|N_i)，即I_q同N_i的关联强度，表示向给定共享风险组N_i插入新元素I_q的概率；ii)P(N_j)，即N_j的频度；iii)occurence(N_j)，即N_j的计算次数。

终端分支：表示一条从根节点Root到一个终端节点的路径。通常一个终端分支代表一个代评估的备选概率共享风险组。

步骤S240：生成概率共享风险组结构并输出。

在一个示例中，概率共享风险组结构的生成可以如图4所示，图4为本发明关联故障的预测方法实施例1中概率共享风险组结构的生成过程的流程示意图；如图4，可以包括以下步骤：

步骤S410：初始化。

在进行概率共享风险组结构挖掘之前，对后续用到的参数，包括所有备选数据集CanD、概率共享风险组结构SPSRG和SPSRG指针currentNode，进行初始化。具体初始化过程为：

1)CanD←{D}；

2)SPSRG←(Root)；

3)currentNode←Root；

步骤S420：权重信息统计计算。具体计算可以采用如下方法实现；

针对CanD中的每个元素CD_i，对包含的每个计算单元进行信息统计计算，具体过程为：

1)计数每个计算单元的发生次数：C_i＝(c₁，c₂，…)，其中集合中的元素取值为c_k＝count(I_k＝1，CD_i)；其中，c_k是集合C_i＝(c₁，c₂，…)中包含元素的通用表达，是元素c₁，c₂的代表。

2)计算权重信息：

步骤S430：生成新节点和关联的边；

针对CD_i中的每个元素I_k生成新节点和关联的边，具体可以采用如下方法实现：

1)生成新节点：N_k＝I_k∪currentNode；

2)生成currentNode和N_k间的边，相关的权重分别为：P(I_k，currentNode)，P(I_k|currentNode)和occurence(N_k)＝c_k。

步骤S440：更新备选数据集，具体可以采用如下方法实现：

1)将当前处理的元素CD_i从备选数据集CanD中移除；

2)2)向备选数据集中添加新元素：block(I_k＝1，CD_i)和block(I_k＝0，CD_i)。

步骤S450：更新指针；

本步骤更新指向SPSRG的指针currentNode：currentNode←N_k。

步骤S460：判断备选数据集是否为空。

判断更新后的CanD是否为空，若不为空则继续后续概率共享风险组结构的挖掘，返回步骤S420；否则终止，进入步骤S470。

步骤S470：输出，即输出生成概率共享风险组结构SPSRG。

步骤S250：更新概率共享风险组结构并输出。

当获取了新的样本数据D_new(本发明的方法是实时在线的，概率共享风险组结构是利用历史收集的系统故障信息进行生成的；但是系统故障数据的采集是持续进行的，因此，当有新的没有被用于概率共享风险组结构生成的系统故障信息到达时，需要更新现有的已经生成的概率共享风险组结构。而D_new是通过处理这些实时采集的系统故障信息获得的样本数据。所谓的“新的”是相较于样本故障矩阵D中的数据而言的)时，需要据此更新已经生成的概率共享风险组结构。类似于概率共享风险组结构的生成，更新过程的步骤如图4，具体的差异体如下：

(1)初始化。概率共享风险组结构的更新过程中，需要对参数CanD和currentNode进行初始化，其中CanD←{D_new}。

(2)权重信息统计计算。差异体现在：

1)针对CanD中的每个元素分别计数包含的每个计算单元的发生次数进而将每个计算单元总的计数次数C_i更新为：

2)因此，权重信息更新为：

(3)将“生成新节点和关联的边”调整为“更新结构中相关的边”，即利用前面步骤计算出的统计信息更新currentNode同其子节点间边的权重。

在一个具体示例中，为了提高本发明提出方法的高效性，本发明提出的概率共享风险组挖掘过程可以通过Map-Reduce(并行化计算里面的专业术语：映射-规约)实现并行化，可以减少计算时间，进而更加适用于分布式计算系统中的大规模数据并行计算。

概率共享风险组挖掘的并行化的具体过程为：i)数据预处理和分割；ii)Map过程；iii)Reduce过程。具体而言，主程序控制并行化的主流程。首先，主程序将样本数据矩阵D分成N个子矩阵，并将这些子矩阵分发给每个计算节点进行挖掘分析。然后，每个计算节点上的Map函数基于接收的子矩阵，按照上面描述的方法(步骤S210-步骤S260)计算并生成子概率共享风险组结构。最后，Reduce过程这些子概率共享风险组结构和并称为一个完整的概率共享风险组结构。

此后进入故障预测流程。在一个具体的实施例中，图3为本发明关联故障的预测方法实施例1中故障预测的流程示意图，如图3所示，步骤S150可以包括以下步骤：

获取当前故障样本信息的故障序列；

获取当前概率共享风险组结构的节点；

对故障序列和节点进行匹配，并在匹配成功时，根据各匹配成功的节点的相关边的权重信息，对分布式计算系统进行故障预测。

在一个具体的实施例中，上述根据各匹配成功的节点的相关边的权重信息，对分布式计算系统进行故障预测的步骤可以包括：

分别对各匹配成功的节点对应的计算单元进行处理，获取计算单元的故障触发概率；

在故障触发概率大于预设的故障触发阈值时，生成故障预警，并输出故障预测的结果。

具体而言，如图3所示，故障预测流程可以包括如下步骤：

步骤S310：分布式计算系统的实时故障信息采集输入。

此步骤接收系统中实时采集的当前故障样本信息D_τ，后续的故障预测将基于D_τ进行。

其中，当前故障样本信息D_τ和前步骤获得最新的概率共享风险组结构(即当前概率共享风险组结构)一起用于故障预测。具体而言，可以用D_τ的故障序列(步骤S320)和概率共享风险组结构中的节点进行匹配，匹配成功以后，以匹配的节点为依据，根据概率共享风险组结构中和节点相关边的权重信息，进行故障预测(步骤S330)。

当前故障样本信息D_τ是距离当前时刻t之前τ个时隙内采集到的系统故障信息，采集时间段为[t－τ，t)，用于提取故障序列进而进行后续的故障预测；而样本数据矩阵D是用于生成概率共享风险组结的故障数据集，可能包括从系统故障数据监控开始到概率共享风险组结构生成这段时间内的全部故障数据，因而一般采集时效更久。值得说明的是，D_τ积累一定时间以后，会作为新的样本数据D_new用于概率共享风险组结构的更新。

步骤S320：故障序列提取；

从输入的D_τ中提取故障序列FailS，具体为：

FailS＝col_index(D_τ＝1，D_τ)

其中，col_index是定义的一个操作函数。

步骤S330：故障预测；

该步骤中，基于故障序列FailS以及最新的概率共享风险组结构，评估相关计算单元发生故障的概率。具体的故障预测过程可以如图5所示，图5为本发明关联故障的预测方法实施例1中故障预测具体步骤流程示意图；可以包括以下步骤：

步骤S510：故障序列匹配：将故障序列FailS同概率共享风险组结构中的节点进行匹配，匹配过程中优先匹配结构中的底层节点。因此FailS可以表示为一组所有可能匹配成功的节点集，记为NS_f。

步骤S520：故障概率计算；

针对NS_f中代表的每个计算单元，分别计算这个计算单元触发其他计算单元发生故障的概率。概率表达式为：

其中，s_i,j表示概率共享风险组结构中从节点NS_f到的第i个路径上的第j个节点；i和j用于指示具体的路径序号和节点序号；是概率共享风险组结构中的节点集N_can中的一个元素，含义是所代表的计算单元可能同时受到一个共享风险组故障的影响而发生故障。

(1)且N_can为概率共享风险组结构中的节点集，表示节点中的元素可能同时受到一个共享风险组故障的影响而同时或相继发生故障。因此，表示给定故障NS_f，其触发由所表示的共享风险组发生故障的概率。

(2)参数PathNum表示概率共享风险组结构中，从匹配节点NS_f到共享风险组的所有路径数；参数PathLen是对应路径的长度。

(3)pr(s_i，j→s_i，j+1)＝P(I_k|s_i，j)，其中s_i，j→s_i，j+1表示路径中的一段链路。其中，pr是概率(probability)的简化，其具体含义如上述公式所示，左侧pr(s_i，j→s_i，j+1)表示在概率共享任务组结构中，节点s_i，j和节点s_i，j+1之间边的支持度权重；P的含义同样是概率，是数学中的通用表达法，具体P(I_k|s_i，j)的含义是已知s_i，j发生故障，I_k未来发生故障的概率；在本发明的各实施例中，这两个概率的取值是相等的。I_k是新加入到s_i，j+1中的元素，即I_k＝s_i，j+1-s_i，j。

(4)路径上的每段链路必须满足默认的两个约束，以减少大量不必要的概率计算。这两个约束为：i)条目I_k必须是满足最小支持度阈值的频繁项；ii)条目I_k同其父节点s_i，j的关联强度必须满足最小置信度阈值。

步骤S530：故障概率分析比较：将同系统设定的故障触发阈值比较，若高于设定的阈值，则预测中包含的计算单元将会发生故障；否则不产生故障预警。

步骤S340：输出故障预测结果。

本发明的实施例利用概率共享风险组建模关联故障模式，同时将贝叶斯网络和状态空间模型相结合，提出了一种命名为概率共享风险组结构的模型来描述关联故障的特征；利用一种关联规则挖掘技术并采用一种并行的方式，统计并分析故障样本数据信息并生成概率共享风险组结构，进而表征故障的同步发生。提出一种关性故障预测方法，该方法利用生成的概率共享风险组结构，评估故障发生时受到影响的计算单元发生故障的概率，用于指导后续其他故障容忍技术的展开。

具体而言，本发明提出了一种基于概率共享风险组(PSRG:Probabilistic SharedRisk Group)和数据挖掘的关联故障预测方法。这是一种基于追踪的故障预测，通过数据挖掘技术对已发生故障数据进行分析并生成故障关联性规则，同时利用概率共享风险组来描述这种规则，进而实现对关联故障的预测。这种方法主要着重于两方面：一是故障关联规则的发现和描述；二是实时的、并行的故障预测。这种方法是一种在线的、并行的、准确性较高的关联故障预测方法。

本发明关联故障的预测方法一具体实施例：

为了进一步阐述本发明的技术方案，特以美国洛斯阿拉莫斯国家实验室提供的故障信息数据集为例，说明本发明的实现流程：

(一)故障数据预处理

本发明可以采用美国洛斯阿拉莫斯国家实验室提供的故障信息数据集进行所提方法效果的验证。该故障信息数据集包含了监控期间系统发生的所有故障信息条目，本部分选定系统A(包含5个系统节点的集群系统)和系统B(包含16个节点的分布式高性能系统)进行相关验证。

上述系统的基本信息如表格1所示，系统A在监控期间(1998.2-2005.9)共产生了564个故障纪录。而本发明关注于系统关联故障的预测，因此我们提取2002.12到2004.9的故障数据用于后续实验，因为在此期间系统A中所有节点的故障信息都有记录。这样经过处理用于实验的有效故障条目是163条。同样对系统B进行上述处理后，产生了1192条有效故障条目。

表格-1系统信息总览

本发明将故障分成3类：硬件(原因引起的)故障、软件(原因引起的)故障和其他故障(包括设施故障、网络故障、人为原因引起的故障及其他未知原因的故障)。用于实验的故障数据中，每类故障所占比例如下表格2所示。

表格-2实验中每种故障类型所占比例

系统名称(％)	硬件原因故障(％)	软件原因故障(％)	其他故障(％)
				A	42.11	18.42	39.47
B	65.70	19.86	14.44

值得注意的是，本发明中所提方法的输入是一个二元矩阵D，因此需要将获得的故障数据进行离散化处理，即将时间离散化为小的时间间隔。具体到本实例中，定义最小的平均故障间隔时间(TBF：time between failures)为一个时隙，这样可以生成矩阵D作为预测方法的输入样本。下图6为实例中各系统在有效运行时间内每个时隙内发生的故障数统计。图6为本发明关联故障的预测方法一具体实施例中在预设时隙内发生故障数的统计示意图；图6表明，一个时隙内可能发生多个故障，且不同时隙下故障发生数呈现波动。这说明样本数据中的故障实例呈现了时间和空间关联性。

(二)共享风险组挖掘

本发明基于采集的故障样本数据进行共享风险组挖掘，进而分别针对系统A和B生成概率共享风险组结构。其中，系统A对应的概率共享风险组结构如下图7所示，图7为本发明关联故障的预测方法一具体实施例中概率共享风险组结构的示意图；图7中椭圆代表节点表示可能的概率共享风险组，带箭头的边表示转移关系，边上的权重用于衡量对应转移的可能性。

(三)故障预测

按照给定的实时故障样本数据，提取故障序列后基于生成的概率共享风险组结构进行故障概率评估。图8和图9呈现了本发明提出方法针对系统A、B的预测性能。图8为本发明关联故障的预测方法一具体实施例中不同故障触发阈值设定下的故障预测性能的示意图；其中，图8呈现了不同故障触发阈值设定下的故障预测性能，图8中描述了设定故障触发阈值分别为最小相关权重、权重算数平均值、权重几何平均值以及权重中位值时，故障预测方法获得的准确度(Precision)、真正率(Recall)、误判率(Fpr)和调和参数(F-measure)。图9为本发明关联故障的预测方法一具体实施例中针对不同类型故障的预测效果的示意图；图9呈现了本发明提出的故障预测方法针对不同类型故障(包括硬件故障(HardwareFailures)，软件故障(Software Failures)和其他故障(Other Failures))的预测效果。

表格3总结了本发明所提方法在最佳状态下获得的性能参数统计。

表格-3预测性能统计

由此可以看出，本发明提出的关联故障预测方法能够准确的预测中分布式计算系统中的关联故障。

本发明提出的关联故障预测方法，性能高效；该方法可包括概率共享风险组挖掘阶段和故障预测阶段两部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联故障模式，通过将贝叶斯网络和状态空间模型相结合，形成一种命名为概率共享风险组结构的模型来描述关联故障的特征。这种模型可以全面准确的描述关联故障的多样性和传播性特征，这在故障预测中对于提升预测精度具有重要作用。此外，采用的关联规则挖掘技术可以通过一种并行的方式执行，这种方法可以提高预测方法执行效率，方便在线故障的部署和实施。故障预测阶段基于生成的概率共享风险组结构，通过一种关联故障预测方法来评估未来故障发生的概率。这种预测方便后续其他故障容忍技术的及时实施，对于提升系统的可用性和可靠性具有重要意义。

本发明关联故障的预测系统实施例1：

基于上述方法的技术思想，同时为了解决传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的问题，本发明还提供了一种关联故障的预测系统实施例1；图10为本发明关联故障的预测系统实施例1的结构示意图，如图10所示，可以包括：

故障样本库获取单元10，用于获取分布式计算系统的历史故障信息，并根据历史故障信息得到故障信息样本库；

样本数据矩阵获取单元20，用于获取故障信息样本库中的有效故障信息，并对有效故障信息进行时间离散化处理，得到样本数据矩阵；有效故障信息为呈现关联性的故障信息；

概率共享风险组结构获取单元30，用于根据样本数据矩阵，得到分布式计算系统的当前概率共享风险组结构；

采集信息单元40，用于获取实时采集到的分布式计算系统的当前故障样本信息；

故障检测单元50，用于根据当前概率共享风险组结构和当前故障样本信息，对分布式计算系统进行故障预测。

在一个具体的实施例中，概率共享风险组结构获取单元30可以包括：

判断模块32，用于确定分布式计算系统中是否存在概率共享风险组结构；

信息更新模块34，用于在判断模块的判断结果为是时，根据样本数据矩阵对概率共享风险组结构进行信息更新，得到当前概率共享风险组结构；

概率共享风险组结构生成模块36，用于在判断模块的判断结果为否时，根据样本数据矩阵生成当前概率共享风险组结构。

在一个具体的实施例中，故障检测单元50可以包括：

故障序列获取模块52，用于获取当前故障样本信息的故障序列；

节点获取模块54，用于获取当前概率共享风险组结构的节点；

匹配预测模块56，用于对故障序列和节点进行匹配，并在匹配成功时，根据各匹配成功的节点的相关边的权重信息，对分布式计算系统进行故障预测。

在一个具体的实施例中，匹配预测模块56可以包括：

处理模块562，用于分别对各匹配成功的节点对应的计算单元进行处理，获取计算单元的故障触发概率；

预警输出模块568，用于在故障触发概率大于预设的故障触发阈值时，生成故障预警，并输出故障预测的结果。

在一个具体的实施例中，样本数据矩阵获取单元20可以包括：

数据离散模块22，用于根据预设的时隙和有效故障信息中样本数据，对有效故障信息进行压缩和离散化，得到样本数据矩阵；预设的时隙为最小的平均故障间隔时间。

本发明关联故障预测系统，可以包括概率共享风险组挖掘阶段和故障预测阶段两部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联故障模式，通过将贝叶斯网络和状态空间模型相结合，形成一种命名为概率共享风险组结构的模型来描述关联故障的特征。这种模型可以全面准确的描述关联故障的多样性和传播性特征，这在故障预测中对于提升预测精度具有重要作用。此外，采用的关联规则挖掘技术可以通过一种并行的方式执行，可以有效提高预测方法执行效率，方便在线故障的部署和实施。故障预测阶段基于生成的概率共享风险组结构，通过一种关联故障预测方法来评估未来故障发生的概率。这种预测方便后续其他故障容忍技术的及时实施，对于提升分布式计算系统的可用性和可靠性具有重要意义。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种关联故障的预测方法，其特征在于，包括以下步骤：

获取分布式计算系统的历史故障信息，并根据所述历史故障信息得到故障信息样本库；

获取所述故障信息样本库中的有效故障信息，并对所述有效故障信息进行时间离散化处理，得到样本数据矩阵；所述有效故障信息为呈现关联性的故障信息；

根据所述样本数据矩阵，得到所述分布式计算系统的当前概率共享风险组结构；

获取实时采集到的所述分布式计算系统的当前故障样本信息；

根据所述当前概率共享风险组结构和所述当前故障样本信息，对所述分布式计算系统进行故障预测；

其中，对所述有效故障信息进行时间离散化处理，得到样本数据矩阵的步骤包括：

根据预设的时隙和所述有效故障信息中样本数据，对所述有效故障信息进行压缩和离散化，得到所述样本数据矩阵；所述预设的时隙为最小的平均故障间隔时间；

其中，根据所述样本数据矩阵，得到所述分布式计算系统的当前概率共享风险组结构的步骤包括：

确定所述分布式计算系统中是否存在概率共享风险组结构；

若存在，根据所述样本数据矩阵对所述概率共享风险组结构进行信息更新，得到所述当前概率共享风险组结构；

若不存在，根据所述样本数据矩阵生成所述当前概率共享风险组结构；

其中，根据所述当前概率共享风险组结构和所述当前故障样本信息，对所述分布式计算系统进行故障预测的步骤包括：

获取所述当前故障样本信息的故障序列；

获取所述当前概率共享风险组结构的节点；

对所述故障序列和所述节点进行匹配，并在所述匹配成功时，根据各匹配成功的节点的相关边的权重信息，对所述分布式计算系统进行故障预测。

2.根据权利要求1所述的关联故障的预测方法，其特征在于，根据各匹配成功的节点的相关边的权重信息，对所述分布式计算系统进行故障预测的步骤包括：

分别对各所述匹配成功的节点对应的计算单元进行处理，获取计算单元的故障触发概率；

在所述故障触发概率大于预设的故障触发阈值时，生成故障预警，并输出故障预测的结果。

3.一种关联故障的预测系统，其特征在于，包括：

故障样本库获取单元，用于获取分布式计算系统的历史故障信息，并根据所述历史故障信息得到故障信息样本库；

样本数据矩阵获取单元，用于获取所述故障信息样本库中的有效故障信息，并对所述有效故障信息进行时间离散化处理，得到样本数据矩阵；所述有效故障信息为呈现关联性的故障信息；

概率共享风险组结构获取单元，用于根据所述样本数据矩阵，得到所述分布式计算系统的当前概率共享风险组结构；

采集信息单元，用于获取实时采集到的所述分布式计算系统的当前故障样本信息；

故障检测单元，用于根据所述当前概率共享风险组结构和所述当前故障样本信息，对所述分布式计算系统进行故障预测；

其中，所述样本数据矩阵获取单元包括：

数据离散模块，用于根据预设的时隙和所述有效故障信息中样本数据，对所述有效故障信息进行压缩和离散化，得到所述样本数据矩阵；所述预设的时隙为最小的平均故障间隔时间；

其中，所述概率共享风险组结构获取单元包括：

判断模块，用于确定所述分布式计算系统中是否存在概率共享风险组结构；

信息更新模块，用于在所述判断模块的判断结果为是时，根据所述样本数据矩阵对所述概率共享风险组结构进行信息更新，得到所述当前概率共享风险组结构；

概率共享风险组结构生成模块，用于在所述判断模块的判断结果为否时，根据所述样本数据矩阵生成所述当前概率共享风险组结构；

其中，所述故障检测单元包括：

故障序列获取模块，用于获取所述当前故障样本信息的故障序列；

节点获取模块，用于获取所述当前概率共享风险组结构的节点；

匹配预测模块，用于对所述故障序列和所述节点进行匹配，并在所述匹配成功时，根据各匹配成功的节点的相关边的权重信息，对所述分布式计算系统进行故障预测。

4.根据权利要求3所述的关联故障的预测系统，其特征在于，所述匹配预测模块包括：

处理模块，用于分别对各所述匹配成功的节点对应的计算单元进行处理，获取计算单元的故障触发概率；

预警输出模块，用于在所述故障触发概率大于预设的故障触发阈值时，生成故障预警，并输出故障预测的结果。