CN114004331A

CN114004331A - 一种基于关键指标和深度学习的故障分析方法

Info

Publication number: CN114004331A
Application number: CN202111198167.XA
Authority: CN
Inventors: 徐爱波; 陈琪美; 江昊; 吴静; 彭薇; 胡记伟; 曾勇
Original assignee: Wuhan University WHU; Wuhan Fiberhome Technical Services Co Ltd
Current assignee: Wuhan University WHU; Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-02-01

Abstract

本发明公开了一种基于关键指标和深度学习的故障分析方法，涉及智能运维相关的故障定位技术领域，该方法包括对待预测的目标监控项和其余监控项间进行时间序列相关性分析，得到时间序列的波动特征序列；对得到的各波动特征序列间进行相关性度量；得到其余监控项中与目标监控项相关度较高的监控项；将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理；得到每个时间步长下的隐状态，得到修正后的隐状态；将目标监控项的告警信息与修正后的隐状态进行融合，得到预测序列输出，并获得预测的告警信息。本发明能够更加精确地对待预测项未来时刻的变化进行预测，有效避免故障的漏报和误报。

Description

一种基于关键指标和深度学习的故障分析方法

技术领域

本发明涉及智能运维相关的故障定位技术、以及大数据分析、深度神经网络技术领域，具体涉及一种基于关键指标和深度学习的故障分析方法。

背景技术

随着5G、物联网技术的快速发展，服务器管理向更加智能的方向发展，各种虚拟化、容器化运维系统得以建成。海量监控项的出现给运维人员的工作带来了很大的挑战，要想实现智能运维，最关键的部分就是监控系统和告警系统，并利用机器学习算法进行快速监控和排障。

智能物联网设备为我们提供了海量数据，随着计算机和数据量的增多，数据中心作为传递、加速、展示、计算、储存数据信息的基础设施，其重要性日益凸显。数据中心网络常见的故障主要集中在硬件故障和系统故障。维护数据中心的正常运行，是运维工作中至关重要的一环。为了使运维工作更加高效，需要把监控、管理和故障定位三部分有机结合起来，利用人工智能技术最终达到智能运维。但当前的监控和告警系统往往不够精准，经常出现漏报和误报现象，对异常难以检测从而出现漏报现象，对正常设备进行告警从而出现误报现象。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于关键指标和深度学习的故障分析方法，能够更加精确地对待预测项未来时刻的变化进行预测，有效避免故障的漏报和误报。

为达到以上目的，本发明提供的一种基于关键指标和深度学习的故障分析方法，具体包括以下步骤：

对待预测的目标监控项和其余监控项间进行时间序列相关性分析，并通过特征提取得到时间序列的波动特征序列；

对得到的各波动特征序列间进行相关性度量，判断得到时间序列之间的相关性；

基于得到的时间序列之间的相关性，得到其余监控项中与目标监控项相关度较高的监控项，并记作相关监控项；

将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理；

基于时序特征提取处理结果，得到每个时间步长下的隐状态，并基于注意力机制对影响力不同的相关监控项的时间序列进行修正，得到修正后的隐状态；

基于全连接层融合方式，将目标监控项的告警信息与修正后的隐状态进行融合，得到预测序列输出，并获得预测的告警信息。

在上述技术方案的基础上，所述目标监控项和其余监控项的时间序列由智能运维系统中各监控项的历史监控状态值得到。

在上述技术方案的基础上，所述对待预测的目标监控项和其余监控项间进行时间序列相关性分析，并通过特征提取得到时间序列的波动特征序列，对得到的各波动特征序列间进行相关性度量，判断得到时间序列之间的相关性，具体步骤包括：

基于特征检测器检测得到目标监控项和其余监控项的时间序列S＝[s₁,…,s_m]的预测序列P＝[p₁,…,p_m]，其中，S表示时间序列，s_m表示时间序列的子序列，P表示预测序列，p_m表示预测序列的子序列；

基于特征检测器检测得到的预测序列，提取得到波动特征序列E＝[ε₁,…,ε_m]，其中，E表示波动特征序列，ε_m表示波动特征序列的子序列，且ε_m＝s_m-p_m；

对得到的波动特征序列进行z-score的归一化处理，并对归一化处理后的波动特征序列进行特征放大；

基于相位差并结合cross-correlation计算各特征放大后的波动特征序列之间的相关性，得到目标监控项和其余监控项的时间序列之间的相关性。

在上述技术方案的基础上，所述对归一化处理后的波动特征序列进行特征放大，其中，进行特征放大所使用的函数为：

其中，f_α,β(x)表示特征放大函数，α表示放大系数，β表示方法阈值，波动特征序列E＝[ε₁,…,ε_m]放大后为

其中，

表示放大后的波动特征序列，f(ε₁)和f(ε_n)均表示放大后的波动特征序列的子序列，x表示特征放大函数中的变量。

在上述技术方案的基础上，所述计算各特征放大后的波动特征序列之间的相关性，具体的计算过程为：

对于进行相关性计算的波动特征序列G＝[g₁,…,g_m]和波动特征序列H＝[h₁,…,h_m]，定义：

其中，G_s表示定义的波动特征序列，且-l＜s＜l；

定义波动特征序列G_s和波动特征序列H之间的相关性为：

其中，CC(G_S,H)表示波动特征序列G_s和波动特征序列H之间的相关性，R(G_S,H)＝G_S·H，表示波动特征序列G_s和波动特征序列H向量之间的内积，R(H,H)＝H·H，表示波动特征序列H和波动特征序列H向量之间的内积；

计算得到波动特征序列之间的相关性，计算公式为：

其中，FCC(G,H)表示波动特征序列G和波动特征序列H之间的相关性，CC＝CC(G_S,H)。

在上述技术方案的基础上，所述将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理，基于时序特征提取处理结果，得到每个时间步长下的隐状态，并基于注意力机制对影响力不同的相关监控项的时间序列进行修正，得到修正后的隐状态，具体步骤包括：

将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理，得到每个时刻下的隐状态h_i、每个h_i的维度m、过去时刻的隐状态矩阵H＝[h_t-w,h_t-w+1,...,h_t-1]以及最后一个时刻的隐状态h_t，其中，h_t-w、h_t-w+1和h_t-1均表示过去时刻的隐状态，w表示滑窗窗口长度；

基于CNN，并通过k个过滤器对过去时刻的隐状态进行时间检测，得到：

H^C∈R^m×k

其中，H^C表示进行时间检测后的过去时刻的隐状态矩阵，R表示实数；

基于H^C计算得到行向量的注意力权重a，并基于注意力机制对行向量进行带权求和得到v_t，v_t表示对行向量进行带权求和得到的值；

融合v_t和h_t，得到经过注意力机制修正后的隐状态：

h＇_t＝W_hh_t+W_vv_t

其中，h＇_t表示修正后的隐状态，W_h和W_v均表示训练参数。

在上述技术方案的基础上，所述过去时刻的隐状态矩阵的行向量表示某单一变量在所有时间步下的状态。

在上述技术方案的基础上，在基于CNN对过去时刻的隐状态进行时间检测之前，还包括，基于卷积捕获可变的信号模式，其中，具体的计算公式为：

其中，

表示经过第j个过滤器的第i行向量的卷积值，l表示过滤器数目，过滤器C_i∈R^1×T，i＝1,2,...,k，k表示总过滤器个数，w表示过滤器个数，T表示转置，H_i,t-w-1+l表示过去时刻的隐转态，C_j,T-w+1表示过滤器。

在上述技术方案的基础上，所述基于H^C计算得到行向量的注意力权重a，基于注意力机制对行向量进行带权求和得到v_t，其中，得到v_t的具体步骤为：

基于评分函数评估H^C中行向量

与最后一个时刻的隐状态h_t之间，所述评分函数为

其中，

表示评分函数，W_a表示训练参数；

基于sigmoid激活函数对行向量进行归一化处理，得到行向量的权重：

其中，α_i表示行向量的权重，sigmoid表示激活函数；

基于注意力机制对行向量进行带权求和得到v_t：

在上述技术方案的基础上，所述基于全连接层融合方式，将目标监控项的告警信息与修正后的隐状态进行融合，具体的融合算法为：

Y＝W_xX+W_hh＇_t

其中，Y表示目标监控项的告警信息与修正后的隐状态融合后的值，X表示目标监控项的告警信息，W_x表示训练参数。

与现有技术相比，本发明的优点在于：采用能够真正有效地利用长距离时序信息的长短时记忆网络，考虑到不同因子对最终结果的影响力不同，利用卷积神经网络检测时间模式，加上注意力机制，为输入的不同时间序列进行加权以区分重要性，另外，为了避免大量运算，通过时间序列的相关分析，找到与待预测项相关程度更高的监控项，减少噪声的干扰，从而更加精确地对待预测项未来时刻的变化进行预测，有效避免故障的漏报和误报。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于关键指标和深度学习的故障分析方法的流程图；

图2为本发明实施例中监控项相关分析的示意图；

图3为本发明实施例中通过注意力机制对相关变量进行加权的示意图。

具体实施方式

本发明提供一种基于关键指标和深度学习的故障分析方法，通过对历史数据中的故障信息进行分析，用深度学习的方法得到故障产生的相关项，学习各项之间的对应关系，从而可以利用海量监控项数据对故障进行预测，实现异常发现，有效避免故障的漏报和误报。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本发明实施例提供的一种基于关键指标和深度学习的故障分析方法，用以解决现有的技术方法中存在的局限性，通过时间序列相关分析找到待预测项的相关项，结合注意力机制利用LSTM算法对待预测项的变化情况进行预测，具体包括以下步骤：

S1：对待预测的目标监控项和其余监控项间进行时间序列相关性分析，并通过特征提取得到时间序列的波动特征序列；

S2：对得到的各波动特征序列间进行相关性度量，判断得到时间序列之间的相关性；

即待预测的目标监控项和其余监控项间进行时间序列相关性分析，首先对数据进行预处理得到时间序列，继而通过特征提取得到时间序列的波动特征序列，接着对波动特征序列进行相关性度量，判断两条时间序列之间的波动相关性，该过程可以参见图2所示。

具体的，对于上述过程，选取数据中心的某待预测目标监控项与另一监控项，首先对故障数据进行预处理，预处理包括处理缺失值、离群点、噪声干扰等，然后对预处理后的时间序列S＝[s₁,…,s_m]，经过时间序列预测模型(特征检测器)得到预测序列P＝[p₁,…,p_m]，其中，p_m表示s_m的预测值，则波动特征序列为E＝[ε₁,…,ε_m]，ε_m＝s_m-p_m。由于正常部分比较容易被准确预测，而异常波动部分通常难以预测，因此预测误差可以很好的用来表示监控项的波动特征，如果两时间序列波动特征序列相关，则认为时间序列本身波动相关。

本发明实施例中，目标监控项和其余监控项的时间序列由智能运维系统中各监控项的历史监控状态值得到。与目标监控项相关的监控项的时间序列可以通过时间序列相关性分析方法，由智能运维系统在所有监控项数据中筛选得出。

S3：基于得到的时间序列之间的相关性，得到其余监控项中与目标监控项相关度较高的监控项，并记作相关监控项；

S4：将目标监控项和得到的相关监控项的时间序列均输入LSTM(Long-ShortTermMemory，长短期记忆网络)以进行时序特征提取处理；

S5：基于时序特征提取处理结果，得到每个时间步长下的隐状态，并基于注意力机制对影响力不同的相关监控项的时间序列进行修正，得到修正后的隐状态；

即将目标监控项和得到的相关监控项的时间序列用LSTM进行处理，得到每个时间步长下的隐状态，由于不同的相关监控项对目标监控项的影响往往是不同的，需要加入注意力机制，得到最后修正的隐状态。

具体的，传统的注意力机制是为时间维度的量赋权，而对不同的变量则是采取统一的操作，在这里我们需要考虑到不同变量对预测变量的影响，为了实现这一目标，通过CNN(卷积神经网络)对时间模式进行检测，再利用注意力机制对不同变量进行加权得到v_t，最后将v_t和h_t融合，得到h＇_t。

S6：基于全连接层融合方式，将目标监控项的告警信息与修正后的隐状态进行融合，得到预测序列输出，并获得预测的告警信息。

本发明实施例中，对待预测的目标监控项和其余监控项间进行时间序列相关性分析，并通过特征提取得到时间序列的波动特征序列，对得到的各波动特征序列间进行相关性度量，判断得到时间序列之间的相关性，具体步骤包括：

S201：基于特征检测器检测得到目标监控项和其余监控项的时间序列S＝[s₁,…,s_m]的预测序列P＝[p₁,…,p_m]，其中，S表示时间序列，s_m表示时间序列的子序列，P表示预测序列，p_m表示预测序列的子序列；

特征检测器包括多种类型，例如，以日周为周期计算差分、Holt-Winters方法、时间序列分解法等。

S202：基于特征检测器检测得到的预测序列，提取得到波动特征序列E＝[ε₁,…,ε_m]，其中，E表示波动特征序列，e_m表示波动特征序列的子序列，且ε_m＝s_m-p_m；

S203：对得到的波动特征序列进行z-score的归一化处理，并对归一化处理后的波动特征序列进行特征放大。z-score为数据处理的一种常用方法，它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。

对波动特征序列进行归一化处理，再对归一化后的波动序列进行特征放大，使得特征更加便于区分，有利于波动特征的识别。

本发明实施例中，对归一化处理后的波动特征序列进行特征放大，其中，进行特征放大所使用的函数为：

其中，

表示放大后的波动特征序列，f(ε₁)和f(ε_n)均表示放大后的波动特征序列的子序列，x表示特征放大函数中的变量。当x＞β，变换后为常数。

S204：基于相位差并结合cross-correlation(互相关)计算各特征放大后的波动特征序列之间的相关性，得到目标监控项和其余监控项的时间序列之间的相关性。

本发明实施例中，计算各特征放大后的波动特征序列之间的相关性，具体的计算过程为：

S2041：对于进行相关性计算的波动特征序列G＝[g₁,…,g_m]和波动特征序列H＝[h₁,…,h_m]，定义：

其中，G_s表示定义的波动特征序列，且-l＜s＜l；且上述公式中，每一分项中0的个数为s个。

S2042：定义波动特征序列G_s和波动特征序列H之间的相关性为：

S2043：计算得到波动特征序列之间的相关性，计算公式为：

其中，FCC(G,H)表示波动特征序列G和波动特征序列H之间的相关性，CC＝CC(G_S,H)。由于波动有可能是反向的，则不仅要考虑相关性大于0的情况，也要考虑小于0的情况。对于上述公式，FCC(G,H)的值越接近1或-1，则G和H越相关。

本发明实施例中，参见图3所示中，将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理，基于时序特征提取处理结果，得到每个时间步长下的隐状态，并基于注意力机制对影响力不同的相关监控项的时间序列进行修正，得到修正后的隐状态，具体步骤包括：

S501：将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理，得到每个时刻下的隐状态h_i、每个h_i的维度m、过去时刻的隐状态矩阵H＝[h_t-w,h_t-w+1,...,h_t-1]以及最后一个时刻的隐状态h_t，其中，h_t-w、h_t-w+1和h_t-1均表示过去时刻的隐状态，w表示滑窗窗口长度；过去时刻的隐状态矩阵的行向量表示某单一变量在所有时间步下的状态。列向量表示同一时间步下所有变量的状态。

S502：基于CNN，并通过k个过滤器对过去时刻的隐状态进行时间检测，得到：

H^C∈R^m×k

对于该步骤，在基于CNN对过去时刻的隐状态进行时间检测之前，还包括，基于卷积捕获可变的信号模式，其中，具体的计算公式为：

其中，

S503：基于H^C计算得到行向量的注意力权重a，并基于注意力机制对行向量进行带权求和得到v_t，v_t表示对行向量进行带权求和得到的值；

本发明实施例中，基于H^C计算得到行向量的注意力权重a，基于注意力机制对行向量进行带权求和得到v_t，其中，得到v_t的具体步骤为：

S5031：基于评分函数评估H^C中行向量

与最后一个时刻的隐状态h_t之间，所述评分函数为

其中，

表示评分函数，W_a表示训练参数；

S5032：基于sigmoid激活函数对行向量进行归一化处理，得到行向量的权重：

其中，α_i表示行向量的权重，sigmoid表示激活函数；

S5034：基于注意力机制对行向量进行带权求和得到v_t：

S504：融合v_t和h_t，得到经过注意力机制修正后的隐状态：

h＇_t＝W_hh_t+W_vv_t

其中，h＇_t表示修正后的隐状态，W_h和W_v均表示训练参数。

本发明实施例中，基于全连接层融合方式，将目标监控项的告警信息与修正后的隐状态进行融合，具体的融合算法为：

Y＝W_xX+W_hh＇_t

本发明的故障分析方法，设计了时间序列相关性分析方法，捕捉待预测项与其他监控项之间的关系，判断时间序列之间的波动相关性，并进一步分析波动的先后顺序，找到对待预测项有影响的监控项；设计了结合注意力机制的用于多变量时间序列预测方法，考虑到不同监控项对于结果的影响作用不同，传统LSTM的注意力机制选择相关的时间步进行加权，而本发明的注意力机制则是选择相关变量加权，有助于多维特征的融合。

通过对关键指标进行相关性分析，可以得到与目标监控项的故障存在关联关系的相关监控项，大大减小了预测故障时所需处理的数据量。另外，通过设计LSTM的注意力机制，区分了不同相关监控项对于目标监控项的影响，结合目标监控项的告警信息，使得预测序列更加准确。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims

1.一种基于关键指标和深度学习的故障分析方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的一种基于关键指标和深度学习的故障分析方法，其特征在于：所述目标监控项和其余监控项的时间序列由智能运维系统中各监控项的历史监控状态值得到。

3.如权利要求1所述的一种基于关键指标和深度学习的故障分析方法，其特征在于，所述对待预测的目标监控项和其余监控项间进行时间序列相关性分析，并通过特征提取得到时间序列的波动特征序列，对得到的各波动特征序列间进行相关性度量，判断得到时间序列之间的相关性，具体步骤包括：

4.如权利要求3所述的一种基于关键指标和深度学习的故障分析方法，其特征在于，所述对归一化处理后的波动特征序列进行特征放大，其中，进行特征放大所使用的函数为：

其中，f_α,β(x)表示特征放大函数，α表示放大系数，β表示方法^^阈值，波动特征序列E＝[ε₁,…,ε_m]放大后为E＝{f(ε₁),...,f(ε_n)}，其中，E表示放大后的波动特征序列，f(ε₁)和f(ε_n)均表示放大后的波动特征序列的子序列，x表示特征放大函数中的变量。

5.如权利要求3所述的一种基于关键指标和深度学习的故障分析方法，其特征在于，所述计算各特征放大后的波动特征序列之间的相关性，具体的计算过程为：

其中，G_s表示定义的波动特征序列，且-l＜s＜l；

定义波动特征序列G_s和波动特征序列H之间的相关性为：

计算得到波动特征序列之间的相关性，计算公式为：

6.如权利要求1所述的一种基于关键指标和深度学习的故障分析方法，其特征在于，所述将目标监控项和得到的相关监控项的时间序列均输入LSTM以进行时序特征提取处理，基于时序特征提取处理结果，得到每个时间步长下的隐状态，并基于注意力机制对影响力不同的相关监控项的时间序列进行修正，得到修正后的隐状态，具体步骤包括：