CN116910657A

CN116910657A - 一种基于无监督学习的故障诊断方法和设备

Info

Publication number: CN116910657A
Application number: CN202310054333.1A
Authority: CN
Inventors: 龙军; 欧毅奇; 罗跃逸; 齐倩倩
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-10-20

Abstract

本发明公开了一种基于无监督学习的故障诊断方法和设备，方法用于对运维工具的运维对象进行故障诊断，包括步骤：获取运维工具的历史日志数据，采用自然语言处理方法表示为日志向量，并嵌入时间和位置信息；对所有历史日志向量聚类；使用同类别下的i个历史日志向量学习对应类别日志的内在模式；获取运维工具的当前日志数据，表示为入有位置和时间的当前日志向量；用当前日志向量所属类别的内在模式，根据当前日志向量及其所属类别下近似的i‑1个历史日志向量，获得参照日志向量；将当前日志向量与参照日志向量对比，判断运维对象是否故障以及故障所在的模块。本发明能快速对运维对象故障进行诊断定位，提高运维对象的故障检测效率和准确率。

Description

一种基于无监督学习的故障诊断方法和设备

技术领域

本发明属于智能运维技术领域，具体涉及一种基于无监督学习的故障诊断方法和设备。

背景技术

随着人工智能的发展，智能运维的概念于2016年被Gartner首次提出，即通过机器学习等算法分析来自于多种运维工具和设备的大规模数据，自动发现并实时相应系统出现的问题，进而提升信息技术运维能力和自动化程度，在AIOps趋势下，以多源运维数据为驱动，以机器学习等算法为核心的智能化故障发现与根因诊断技术，引起广泛关注。其中，基于日志数据的故障诊断通过智能化手段分析系统运行时产生的日志数据以自动化地发现系统异常、诊断系统故障、故障根因定位以及故障自愈，正成为数学界和工业界的研究热点。

发明内容

本发明提供一种基于无监督学习的故障诊断方法，通过对运维工具的日志数据分析，快速对运维对象故障进行诊断定位，提高运维对象的故障检测效率和准确率。

为实现上述技术目的，本发明采用如下技术方案：

一种基于无监督学习的故障诊断方法，用于对运维工具的运维对象进行故障诊断，包括以下步骤：

获取运维工具的大量历史日志数据，采用自然语言处理方法将每条日志数据表示为日志向量，并向其中嵌入日志数据的时间和对应的模块位置；

对得到的历史日志向量进行聚类，且类别数与运维对象的模块数量相同；然后使用同类别下的i个历史日志向量学习对应类别日志的内在模式；

获取运维工具的当前日志数据，按历史日志数据相同的处理方式获得嵌入有位置和时间的当前日志向量；

通过距离判断当前日志向量所属类别，然后用所属类别的内在模式，根据当前日志向量及其所属类别下近似的i-1个历史日志向量，获得参照日志向量；

将当前日志向量与参照日志向量对比，判断运维对象是否故障以及故障所在的模块。

进一步地，采用自编码器学习各类别日志的内在模式，具体为：

首先将同类别下的i个历史日志向量拼接成矩阵；

然后对日志矩阵中的部分日志向量进行掩码处理，输入至编码器进行编码得到编码矩阵；

再将编码矩阵中掩码位置处的编码向量，输入至解码器进行解码；记解码输出为预测日志向量；

最后根据所有的预测日志向量和对应掩码处理前的日志向量，使用损失函数对解码器网络进行训练，训练所得解码器可表示该类别下的日志内在模式。

进一步地，所述用所属类别的内在模式，根据当前日志向量及其所属类别下近似的i-1个历史日志向量，获得参照日志向量，具体为：

首先将当前日志向量及其所属类别下近似的i-1个历史日志向量拼接成矩阵；

然后对拼接的日志矩阵中的当前日志向量进行掩码处理，再输入至编码器进行编码，得到编码矩阵；

最后将编码矩阵中当前日志向量对应的编码向量，输入至训练好的解码器，输出得参照日志向量。

进一步地，损失函数的表达式为：

式中，τ为权重因子，D_j为解码器输出的第j条预测日志向量，V_j表示D_j对应的掩码处理前的日志向量

进一步地，在学习内在模式的过程中，采用随机掩码的方式，对日志矩阵中一半的日志向量进行掩码处理。

进一步地，采用K-means方法对历史日志向量进行无监督聚类。

进一步地，采用Word2Vec算法将日志数据表示成日志向量。

进一步地，在向日志向量嵌入位置和时间之前，先采用主成分分析法对日志向量进行降维处理。

进一步地，根据当前日志向量中嵌入的位置信息确定故障位置，即故障所在的模块。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项技术方案所述的基于无监督学习的故障诊断方法。

有益效果

本发明能够自动化地根据运维工具海量的日志数据，可以快速地对系统故障进行定位与诊断，大大减少人工处理的成本，同时提高了系统故障检测效率和准确率。另外在对日志数据进行向量表示时，通过降维处理提高算法效率；使用无监督的方法自动化地对日志进行分类，分类对日志数据输出参考向量进行对比，提高故障诊断的准确率。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

实施例1

本实施例提供一种基于无监督学习的故障诊断方法，包括以下步骤：

第一阶段：无监督日志分类器

步骤1，获取运维工具的大量历史日志数据，采用自然语言处理方法将每条日志数据表示为日志向量，并向其中嵌入日志数据的时间和对应的模块位置。

1.1，日志信息嵌入

首先要做的就是提取运维工具日志数据中的潜在信息，并表示成计算机能够处理的信号。本实施例采用基于自然语言处理的方法，通过Word2Vec将日志数据表示成日志向量V(v₁，v₂...，v_n)。

考虑到日志数据的规模较大，为了能更加高效地处理日志向量，在更优的实施例中可以当前的日志向量进行降维，具体方法是通过主成分分析的方法对日志向量进行降维，即：

V(v₁，v₂...，v_n)→V(v₁，v₂，...，v_m)，其中m＜n

在本实施中对运维工具做出两点假设：①来自同一模块的日志数据具有更大的相似度；②同一时间窗口内产生的日志数据同样具有更大的相似度。因此对于上述日志向量，可进一步向其中嵌入位置信息和时间信息，以供后续对解码器网络进行学习。

1.2位置信息嵌入

对上述降维得到的日志向量V(v₁，v₂，...，v_m)，向其中嵌入位置信息P₀，包括系统位置、模块号等：

1.3时间信息嵌入

对上述嵌入位置后的日志向量V(v₁，v₂，...，v_m，p₀)，再向其中嵌入时间信息t₀：

步骤2，对得到的历史日志向量进行聚类，且类别数与运维对象的模块数量相同。

基于步骤1得到的日志向量V(v₁，v₂，...，v_m，p₀，t₀)，通过K-means的方法对所有日志向量进行无监督聚类，通过聚类操作，将海量的日志向量进行分类，实现对不同模块以及不同时间窗口的日志向量进行无监督的区分。本实施例通过添加权重因子监督聚类过程，以达到区分不同模块日志的目的。对于两个日志向量V_i，V_j，对其相似度得分进行了定义，函数为：

score(V_i，V_j)＝∑Bias·(V_i-V_j)²

其中，Bias＝(b₁，b₂，...，b_m，w₀，w₁)表示由m个日志特征量和位置、时间的权重因子构成的权重矩阵。

第二阶段：无监督训练

步骤3，使用同类别下的i个历史日志向量学习对应类别日志的内在模式。

在步骤2中，通过日志分类器将所有日志向量分成k个类：C₁，C₂，...，C_k。然后通过本步骤3的采用无监督的方式，学习每个类别的内在模式。

本实施例中，采用自编码器学习各类别的内在模式，每个类别的内在模式学习方法包括：

首先，取来自同一个类别的i个日志向量V₁，V₂，...，V_i拼接成一个矩阵Z_input：

然后，对日志矩阵Z_input中的部分日志向量进行掩码处理，输入至编码器进行编码得到编码矩阵；

其中掩码可表示为：

Z_mask＝(x₁，x₂，...，x_i)^T·Z_input

x_j＝random(0，1)，j＝1，2，3，...，i

本实施例中，采用随机掩码的方式将日志矩阵中的一半日志向量进行遮蔽，然后将得到的掩码序列Z_mask输入至Transformer编码器。其中Transformer编码器通过上游任务迁移得到，在网络训练过程中不需要更新，而且能够利用Transfomer编码器中的自注意力机制关注日志矩阵的全局信息的特性，以实现日志向量编码。

另外可将编码表示为：

Z_Code＝EnCoder(Z_maske)＝(E₁，E₂，...，E_i)

式中，Z_Code为编码器得到的编码矩阵，包括原始i个日志向量对应的i个编码向量。

再将编码矩阵中掩码位置处的编码向量，输入至解码器进行解码；记解码输出为预测日志向量；解码器对掩码位置处的编码向量进行解码可表示为：

D_j＝DeCoder(E_j)while x_j＝0，j＝1，2，3，...i；

式中，D_j为解码输出的预测日志向量。

最后根据所有的预测日志向量和对应掩码处理前的日志向量，使用损失函数对解码器网络进行训练，训练所得解码器可表示该类别下的日志内在模式。损失函数表示为：

式中，τ为权重因子，D_j为解码器输出的第j条预测日志向量，V_j表示D_j对应的掩码处理前的日志向量。

第三阶段：异常日志检测

步骤4，获取运维工具的当前日志数据，按历史日志数据相同的处理方式获得嵌入有位置和时间的当前日志向量。

步骤5，通过距离判断当前日志向量所属类别，然后用所属类别的内在模式，根据当前日志向量及其所属类别下近似的i-1个历史日志向量，获得参照日志向量。

当前日志向量所属类别的判断，具体通过将当前日志向量与各聚类中心的距离进行对比，选择其中距离最小的类别，确定为当前日志向量所属类别。

本实施例如前所述，采用自编码器学习各类别的内在模式，训练所得解码器可表示该类别下的日志内在模式，因此，本实施例相应地使用解码器来获得参照日志向量，具体包括：

首先将当前日志向量及其所属类别下近似的i-1个历史日志向量拼接成矩阵；其中所述近似的i-1个历史日志向量，是指当前日志向量所属类别下的所有历史日志向量中，与当前日志向量之间距离最接近的i-1个历史日志向量。具体的矩阵拼接方法与步骤3中所述相同。

然后对拼接的日志矩阵中的当前日志向量进行掩码处理，再输入至编码器进行编码，得到编码矩阵。

步骤6，将当前日志向量与参照日志向量对比，判断运维对象是否故障以及故障所在的模块，实现故障快速诊断。

实施例2

本实施例提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现实施例1所述的基于无监督学习的故障诊断方法

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于无监督学习的故障诊断方法，其特征在于，用于对运维工具的运维对象进行故障诊断，包括以下步骤：

对得到的历史日志向量进行聚类，且类别数与运维对象的模块数量相同；

使用同类别下的i个历史日志向量学习对应类别日志的内在模式；

2.根据权利要求1所述的基于无监督学习的故障诊断方法，其特征在于，采用自编码器学习各类别日志的内在模式，具体为：

首先将同类别下的i个历史日志向量拼接成矩阵；

3.根据权利要求2所述的基于无监督学习的故障诊断方法，其特征在于，所述用所属类别的内在模式，根据当前日志向量及其所属类别下近似的i-1个历史日志向量，获得参照日志向量，具体为：

4.根据权利要求2所述的基于无监督学习的故障诊断方法，其特征在于，损失函数的表达式为：

5.根据权利要求2所述的基于无监督学习的故障诊断方法，其特征在于，在学习内在模式的过程中，采用随机掩码的方式，对日志矩阵中一半的日志向量进行掩码处理。

6.根据权利要求1所述的基于无监督学习的故障诊断方法，其特征在于，采用K-means方法对历史日志向量进行无监督聚类。

7.根据权利要求1所述的基于无监督学习的故障诊断方法，其特征在于，采用Word2Vec算法将日志数据表示成日志向量。

8.根据权利要求1所述的基于无监督学习的故障诊断方法，其特征在于，在向日志向量嵌入位置和时间之前，先采用主成分分析法对日志向量进行降维处理。

9.根据权利要求1所述的基于无监督学习的故障诊断方法，其特征在于，根据当前日志向量中嵌入的位置信息确定故障位置，即故障所在的模块。

10.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～9中任一项所述的方法。