CN116775423A

CN116775423A - 用于集群故障预测的方法

Info

Publication number: CN116775423A
Application number: CN202211104811.7A
Authority: CN
Inventors: 姬莉霞; 张庆开; 张晗; 李鹏; 王新宇; 周洪鑫; 马俊波
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-09-19

Abstract

本发明公开了一种用于集群故障预测的方法，以解决现有故障预测中长时间序列预测精度低的技术问题。本发明包括：数据预处理，获取集群系统的系统日志作为原始数据，将该原始数据的多元特征映射到初始向量序列；将所述初始向量序列输入BiGRU模型，输出特征向量序列；将BiGRU模型输出的特征向量序列输入Transformer模型进行二次提取，输出状态序列；故障预测，将Transformer模型生成的状态序列输入到全连接神经网络，并转换为需要预测的时间长度的状态序列，最终得到预测结果。本发明的有益技术效果在于：提取特征全面，预测故障精确。

Description

用于集群故障预测的方法

技术领域

本发明涉及深度学习技术领域，具体涉及一种用于集群故障预测的方法。

背景技术

针对集群系统故障预测的研究大部分是基于系统日志的故障预测方法，这种方法通过追踪和分析反映系统状态变化过程的系统日志来达到故障预测的目的，更适合于大规模集群系统的可靠性主动管理，是目前的主要研究方向。

有关技术人员利用Apriori-LIS和Apriori-simiLIS算法来挖掘日志事件之间的关联，并提出事件关联图来表示事件规则和预测故障事件，之后又进一步完善了上述方法中的规则提取部分，增加了基于公共事件的频繁事件序列聚类和因果关系重构等步骤，大大提升了预测正确率。但是，这种方法大部分没有综合考虑事件之间的时间相关性，在数据特征挖掘阶段，大部分方法没有综合考虑事件之间的时间相关性，缺乏故障之间的因果关系(如故障传播)对预测性能的影响，缺乏一种通用而有效的方法来量化和评估故障的时间相关性。在面向更细粒度的故障类型的预测时，通常不能够有效的区分。

近些年基于统计的机器学习和基于神经网络的深度学习方法也被用于故障预测领域，有关技术人员首先针对IBM的BlueGene/L集群系统日志进行了研究，采用基于规则挖掘的分类算法RIPPER、支持向量机(SVM)、k-近邻(KNN)和自定义最近邻方法分别构建了故障预测模型进行二分类预测；在此基础上进一步优化了日志特征提取和分类器的选择部分，利用两级时间窗口提取各类事件的统计特征，使用贝叶斯网络、随机森林、AdaBoostSVM自适应提升算法等构建分类预测模型；还有人提出了一个基于ARIMA时间序列和机器学习的故障预测模型，或基于长短期记忆循环神经网络的故障预测方法。这些方法通过挖掘事件之间的时序特征，提高了模型对故障预测的精度。但面对长时间序列时，存在着因部分关键信息丢失导致梯度消失或爆炸等问题，降低了后续的故障预测精度。

发明内容

本发明提供一种用于集群故障预测的方法，以解决现有故障预测中长时间序列预测精度低的技术问题。

为解决上述技术问题，本发明采用如下技术方案：

设计一种用于集群故障预测的方法，包括：

数据预处理，获取集群系统的系统日志作为原始数据，将该原始数据的多元特征映射到初始向量序列；

将所述初始向量序列输入BiGRU模型，输出特征向量序列；

将BiGRU模型输出的特征向量序列输入Transformer模型进行二次提取，输出状态序列；

故障预测，将Transformer模型生成的状态序列输入到全连接神经网络，并转换为需要预测的时间长度的状态序列，最终得到预测结果；其中，BiGRU模型和Transformer模型构成TBGRU模型，TBGRU模型的训练包括以下步骤：

首先为TBGRU模型的每个参数定义了一个有限的值集。其中重要的网络参数为:训练过程中的滑动窗口步长(L)、神经元数量(N)、隐藏层层数(H)、学习速率(η)、Batch Size(b)、Epoch(E)等参数。输入是一个原始的故障数据集的时间序列：一个长度为L的滑动窗口步长集，一个包含隐藏层H的数目的有限集。保持其他参数不变，通过算法，运用类似网格的搜索机制找到最优性能时滑动窗口步长L的参数。同理，通过算法，找到最优性能时隐藏层层数H的参数。最后，输出适合模型的滑动窗口贺隐藏层层数的最优参数。

进一步的，数据预处理阶段包括以下步骤：

过滤冗余的数据信息，保留事件类型、故障级别和时间戳三个方面的信息；

对过滤后的信息进行标记化，将事件类型、故障级别分别分类并进行两个维度的信息融合；

分别用不同的向量表示在不同时间内每种事件的发生，并对不同的向量进行数据标准化处理，消除量纲的影响。

进一步的，采用最大最小标准化的方法进行标准化处理，对原始数据进行归一化使原始数据都映射到[0，1]之间，即

其中，为原始数据，x_i为归一化后的数据，/>为原始数据中的最大值，/>为原始数据中的最小值。

进一步的，所述BiGRU模型包括前向传播层和反向传播层，对于t时刻的输入序列x_t，经过BiGRU处理后可得到对应的输出

u_t＝sigmoid(x_tW_z+h_t-1U_z)

r_t＝sigmoid(x_tW_r+h_t-1U_r)

h_t＝(1-u_t)h_t-1+u_t*tanh(x_tW_h+(h_t-1r_t)*U_h)

其中，r_t为复位门，u_t为更新门，x_t为t时刻的输入向量，h_t-1表示t-1时刻的状态信息，表示候选隐藏状态，h_t表示隐藏状态，W_z，r，h，U_z，r，h为需要训练的权值矩阵。

进一步的，所述Transformer模型包括多头自注意力网络和前馈网络，计算公式如下：

MultiHead(Q，K，V)＝concat(Att₁，Att₂，…，Att_n)

其中，Q、K、V分别表示查询、键和值，它们都是输入矩阵，d_k表示键的维数，n等于正面的个数，n＝2；

使用从BiGRU模型得到的特征向量序列作为Q、K、V，输出/>

范数为归一层，前馈网络FFN由两个线性变换和一个ReLU组成：

进一步的，在故障预测阶段，使用全连接神经网络对Transformer模型输出的结果H∈R^N×T进行线性变化处理，

其中，T是预测的时间长度，δ(·)表示线性神经网络的激活函数，W_f∈R^2d ^×T是全连接神经网络的权重矩阵，b_f是偏置项。

进一步的，采用软动态时间规整soft-dtw算法作为损失函数，对于任意节点Xi的预测值和真实标签值/>损失值计算过程为：

其中，表示欧几里得损失值的取值范围，/>为长度均为T序列上的校准矩阵集合，A∈A_T，T代表一条路径。

与现有技术相比，本发明的有益技术效果在于：

1、本发明集合了Transformer的全局特征提取能力和双向循环模型BiGRU的特性处理序列的局部特征，同时捕获局部的时间依赖性和整体时间内事件的时序关系并抓取长时的依赖信息，更适用于集群系统故障的长时间序列预测。

2、在实验部分，使用Blue Gene/L集群系统日志数据对该模型有效性进行了验证，结果表明，TBGRU与其他模型的最佳效果相比，正确率和F-1值均提高了2-3％，有更好的故障预测精度。

附图说明

图1为本发明TBGRU模型的结构示意图。

图2为本发明数据预处理归一化过程示意图。

图3为本发明BiGRU模型的结构示意图。

图4为本发明Transformer模型的结构示意图。

图5为本发明全连接神经网络的结构示意图。

图6为本发明对比实验结果示意图。

图7为本发明对比实验效果分析示意图。

具体实施方式

下面结合附图和实施例来说明本发明的具体实施方式，但以下实施例只是用来详细说明本发明，并不以任何方式限制本发明的范围。

实施例1：一种用于集群故障预测的方法，采用Transformer和BiGRU相结合的TBGRU模型。在该模型中，Transformer的多头自注意力机制和残差连接能更好的处理长时间序列信息特征丢失的问题，同时双向GRU叠加的设计使得每个GRU单元在当前输入的基础上，能够更好的获得当前时间点的上下文信息并学习其中的因果关系，可以更好地解决深层次的特征挖掘的问题。

集群系统中的故障预测问题被描述为：通过输入时长为S的历史时刻日志中事件的实时数据来预测接下来T时刻内的集群实时状态。选择一个长度为L的滑动窗口来定义原始序列X的特征序列：X＝(x₁，x₂，…，x_n)，历史值或真实值由Y给出：Y＝(y₁，y₂，…，y_n-1)，其中，R是实数，dl代表某个滑动窗口，目标是预测接下来一段时间内/>表示的值。通过将时间序列特征X经过TBGRU模型的训练来预测得到估计值/>上述集群系统状态包含故障、可恢复故障和非故障等一系列信息，使用系统日志中的实时状态作为集群系统是否故障的一种表示方式。

TBGRU模型由四个部分组成：数据预处理层，BiGRU层，Transformer层和故障预测层，如图1，首先，通过数据预处理将原始数据的关键信息进行向量化。然后，将序列数据输入到BiGRU中，通过双向的信息传递获得日志上下文时序特征的动态变化，以捕获汲取日志事件中的局部的时间依赖性和时序数据的因果关系。再由Transformer对处理后的特征序列信息进行再处理，获得序列信息中的全局时序特征。最后，以Transformer的最终状态作为分类的输入，输出到全连接神经网络层继而得到预测概率。该方法可以同时抓取时序序列的局部时间依赖性和全局时间依赖性，使每个处理后的向量由整个输入向量序列确定，由于处理后的向量具有全局信息，可以更好地处理长时间序列信息丢失的问题。

在数据预处理阶段，如图2，将原始数据的多元特征映射到向量序列X＝(x₁，x₂，…，x_n)，其中R表示实数，dR表示维度，n为数据数量，dR为表示的维数。原始数据到特征向量主要由三部分组成：过滤、标记化和表示。由于原始数据通常包含大量冗余的记录和与故障症状无关的正常系统记录，影响故障估测的效率和准确性。因此，在数据预处理阶段，主要完成以下三个任务，一是过滤冗余的数据信息，原始数据包含一些与故障预测无关的数据信息，如事件的描述，事件发生的地点等信息。本实施例中只保留了事件类型，故障级别和时间戳三个方面的信息；二是对于原始数据进行标记化，由于复杂的集群环境和故障症状，将事件类别分为六类：APP(应用程序)、HARDWARE(硬件)、KERNEL(内核，一般与内存或网络相关)、LINKCARD(中间件通信)、DISCOVERY(资源更新和初始配置)、MONITOR(电源、温度等异常监控)。将故障级别分为三类：无故障、可自愈的轻微故障和严重故障，并且将事件类型和故障级别两个维度的信息进行融合；三是对处理好的数据进行向量化表示，分别用不同的向量表示在不同时间内每种事件的发生。不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。本实施例中采用最大最小标准化(Min-MaxNormalization)的方法，如式(1)所示对原始数据进行归一化使原始数据都映射到[0，1]之间：

式(1)中，为原始数据；x_i为归一化后的数据；/>为原始数据中的最大值；/>为原始数据中的最小值。接下来，使用向量来表示这些标记，将每种故障类型作为输入，向量序列X＝(x₁，x₂，…，x_n)作为输出。

经过上述处理后，将原始的数据转换为矢量序列X，继而输出给BiGRU层提取它们的时序特征信息。

BiGRU模型是通过引入第二隐藏层(Back hidden layer和Forwardhidden layer)来扩展传统GRU网络，并且能够获得过去和未来的上下文信息。该结构可以捕获序列的正向扫描和反向扫描，并且具有对输入向量的依赖性小，复杂度低，响应时间快的优点。BiGRU的网络架构图如图3所示，对于t时刻的输入序列x_t，(其中x_t∈X)，经过BiGRU处理后可得到对应的输出

u_t＝sigmoid(x_tW_z+h_t-1U_z) (2)

r_t＝sigmoid(x_tW_r+h_t-1U_r) (3)

h_t＝(1-u_t)h_t-1+u_t*tanh(x_tW_h+(h_t-1r_t)*U_h) (5)

其中r_t为复位门，u_t为更新门，x_t为t时刻的输入向量，h_t-1表示t-1时刻的状态信息，表示候选隐藏状态，h_t表示隐藏状态，W_z，r，h，U_z，r，h为需要训练的权值矩阵。

将经过BiGRU处理后得到的特征向量序列作为Transformer模型的输入，生成状态序列H＝(h₁，h₂，…，h_n)。如图4所示，变换编码器主要分为多头自注意力网络和前馈网络，计算公式如式(7)-(8)：

MultiHead(Q，K，V)＝concat(Att₁，Att₂，...，Att_n) (7)

其中Q、K、V分别表示查询、键和值，它们都是输入矩阵，d_k表示键的维数，n等于正面的个数，在模型中设置n＝2。在这里，使用从BiGRU层得到的特征向量序列作为Q、K、V，然后输出/>

范数为归一层，FFN由两个线性变换和一个ReLU组成：

其中，内部层的大小为2048。最后，生成状态序列H＝(h₁，h₂，…，h_n)。接下来，使用最终状态H_n作为Transformer的输出，然后输入到全连接神经网络来实现故障预测分类。

为了实现多分类故障预测，使用全连接神经网络对时间卷积层输出的结果H∈R^N×T进行线性变化处理，即将时间序列的维度转换成需要预测的时间长度。此过程可用式(13)表示：

其中T是预测的时间长度，δ(·)表示线性神经网络的激活函数，是全连接神经网络的权重矩阵，b_f是偏置项。

为了进一步优化预测结果，本实施例采用软动态时间规整(soft-dtw)算法作为模型的损失函数。即，软动态时间规整算法可以根据两个时间序列的特征找到合适的匹配来计算两个序列的相似性，然后，通过反向传播不断校正模型，最终达到最优的预测结果。对于任意节点X_i的预测值和真实标签值/>损失值计算过程如式(14)所示：

其中表示欧几里得损失值的取值范围，/>为长度均为T序列上的校准矩阵集合，A∈A_T，T代表一条路径。此外，这里的分类简单地由一个Linear层和logsoftmax组成。最终，将Transformer层得到的状态序列H＝(h₁，h₂，…，h_n)作为输入，最终输出模型预测的接下来一段时间集群系统的状态/>

对上述TBGRU模型进行训练时，由于神经网络参数和超参数多种多样，本申请为TBGRU模型的每个参数定义了一个有限的值集。其中重要的网络参数为：训练过程中的滑动窗口步长(L)、神经元数量(N)、隐藏层层数(H)、学习速率(η)、BatchSize(b)、Epoch(E)等参数。在本搜索实验中，为了演示该模型的更好性能，执行了类似网格的搜索机制。这个机制是一种实现双目标的算法，即调整超参数：BiGRU和Transformer的隐藏层层数和搜索滑动窗口时间步长，以便更好地验证和预测集群故障。该算法的输入是一个原始的故障数据集的时间序列：一个长度为L的滑动窗口步长集，一个包含隐藏层H的数目的有限集，输出为两者最佳的数值。本实施例对TBGRU网络的输入层神经元的数目、激活函数、批处理窗口的大小、Epoch的数目、隐藏层层数、优化函数和损失函数进行了初始化。其中，每个参数的范围是：第一层神经元N∈{16、32、64，128，256}、滑动窗口步长L∈{3、6、12、18、24}、隐藏层层数H∈{16、32、64，128，256}和学习率η∈{0.1，0.2，0.5，0.8，1.0}。在这些实验中的TBGRU模型使用的参数分别是：激活层函数：ReLU，损失函数：Soft-DTW，优化器函数：Adam，最后一层激活层：Sigmoid和Batch Size：64和64。

通过实验证明TBGRU模型的有效性。参见图6，第一个实验验证了TBGRU模型相对于其他基线模型提高了模型性能和预测精度。参见图7，第二个实验验证了TBGRU在预测长时间序列时相对于其他模型有着更精准的特征抓取能力，最后我们通过消融实验，证明了TBGRU模型各个模块的有效性。使用Blue Gene/L集群系统日志数据对该模型有效性进行了验证，结果表明，TBGRU与其他模型的最佳效果相比，正确率和F-1值均提高了2-3％，有更好的故障预测效果。

上面结合附图和实施例对本发明作了详细的说明，但是，所属技术领域的技术人员能够理解，在不脱离本发明宗旨的前提下，还可以对上述实施例中的各个具体参数进行变更，形成多个具体的实施例，均为本发明的常见变化范围，在此不再一一详述。

Claims

1.一种用于集群故障预测的方法，其特征在于，包括：

将所述初始向量序列输入BiGRU模型，输出特征向量序列；

故障预测，将Transformer模型生成的状态序列输入到全连接神经网络，并转换为需要预测的时间长度的状态序列，最终得到预测结果；其中，

BiGRU模型和Transformer模型构成TBGRU模型，TBGRU模型的训练包括以下步骤：

首先为TBGRU模型的每个参数定义了一个有限的值集，该值集包括训练过程中的滑动窗口步长(L)、神经元数量(N)、隐藏层层数(H)、学习速率(η)、Batch Size(b)、Epoch(E)；

然后，输入集群系统日志的时间序列，即一个长度为L的滑动窗口步长集和一个包含隐藏层H的数目的有限集；

保持其他参数不变，找到最优性能时滑动窗口步长L的参数以及最优性能时隐藏层层数H的参数；

最后，输出适合模型的滑动窗口的隐藏层层数的最优参数。

2.根据权利要求1所述的用于集群故障预测的方法，其特征在于，数据预处理阶段包括以下步骤：

3.根据权利要求2所述的用于集群故障预测的方法，其特征在于，采用最大最小标准化的方法进行标准化处理，对原始数据进行归一化使原始数据都映射到[0，1]之间，即

4.根据权利要求1所述的用于集群故障预测的方法，其特征在于，所述BiGRU模型包括前向传播层和反向传播层，对于t时刻的输入序列x_t，经过BiGRU处理后可得到对应的输出

u_t＝sigmoid(x_tW_z+h_t-1U_z)

r_t＝sigmoid(x_tW_r+h_t-1U_r)

h_t＝(1-u_t)h_t-1+u_t*tanh(x_tW_h+(h_t-1r_t)*U_h)

5.根据权利要求1所述的用于集群故障预测的方法，其特征在于，所述Transformer模型包括多头自注意力网络和前馈网络，计算公式如下：

MultiHead(Q，K，V)＝concat(Att₁，Att₂，…，Att_n)

使用从BiGRU模型得到的特征向量序列作为Q、K、V，输出/>

范数为归一层，前馈网络FFN由两个线性变换和一个ReLU组成：

6.根据权利要求1所述的用于集群故障预测的方法，其特征在于，在故障预测阶段，使用全连接神经网络对Transformer模型输出的结果H∈R^N×T进行线性变化处理，

其中，T是预测的时间长度，δ(·)表示线性神经网络的激活函数，W_f∈R^2d×T是全连接神经网络的权重矩阵，b_f是偏置项。

7.根据权利要求6所述的用于集群故障预测的方法，其特征在于，采用软动态时间规整soft-dtw算法作为损失函数，对于任意节点X_i的预测值和真实标签值/>损失值计算过程为：