CN111190804A

CN111190804A - 一种云原生系统的多层次的深度学习日志故障检测方法

Info

Publication number: CN111190804A
Application number: CN201911383963.3A
Authority: CN
Inventors: 杜庆峰; 张双俐; 赵亮; 殷康璘; 韩永琦; 徐锦程; 邱娟
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2020-05-22

Abstract

本发明涉及一种云原生系统的多层次的深度学习日志故障检测方法，该方法利用训练完成的异常检测模型，进行系统故障检测，所述的异常检测模型包括第一子模型和第二子模型，该故障检测方法包括以下步骤：S1)系统捕获一条新的日志；S2)解析该日志的历史日志模式值流和该日志模式值对应的参数值向量；S3)第一子模型根据历史日志模式值流检测该日志模式值是否正常，若是，则执行步骤S4)，若否，则判断系统出现故障，并输出对应日志故障信息；S4)第二子模型检测该日志模式值的参数值向量是否正常，若是，则判断系统正常，若否，则判断系统出现故障，并输出对应日志故障信息，与现有技术相比，本发明具有检测准确性高等优点。

Description

一种云原生系统的多层次的深度学习日志故障检测方法

技术领域

本发明涉及深度神经网络模型，尤其是涉及一种云原生系统的多层次的深度学习日志故障检测方法。

背景技术

系统运维是保证计算机系统正常运行的重要手段，而故障检测是系统运维的关键步骤。随着计算机系统复杂性的不断增加，尤其是随着云原生系统及物联网的发展，系统故障呈现复杂性、多样化的趋势，影响用户的体验和使用，甚至造成巨大的经济损失。故障检测技术旨在自动及时地检测系统故障的发生并提供相关的故障信息以帮助诊断，避免或减少服务失效。

已有的故障检测方法有基于规则的方法、基于系统度量分析的方法、基于行为分析的方法和基于日志分析的方法。

1)基于规则的方法根据历史故障所表现的现象来定义故障出现时可辨别的特征，而后将观察到的现象与已定义的故障特征进行匹配。当匹配成功则检测为有故障，发出警报，否则认为系统运行正常。

2)基于系统度量分析的方法并不需要了解系统内部结构及请求处理流程，而只是利用操作系统提供的接口即可搜集监测数据来分析度量值的变化或建立度量间的关联模型。这类方法无需对系统进行代码注入，监测开销较小，且适用范围较广。

3)基于系统行为分析的方法，通过监测框架对中间件进行注入，以跟踪组件交互行为和请求处理路径，基于此对系统行为进行建模。该方法需要了解系统内部执行流信息(如数据流和控制流)，这些信息可以在设计文档、源代码或配置源文件中分析得到。但大多数情况下，系统对于管理员是透明的，这时，只能够利用面向方面编程等方法进行代码注入，以搜集运行时的系统行为。

4)基于日志的方法，主要通过搜集系统运行过程中产生的日志，采取模式匹配、时序分析等方法对日志文本信息进行挖掘，具有较高的精度和较好的可解释性。

基于规则、基于系统度量分析和基于行为分析的方法都不是完全自动化的故障检测方法，无法持续地面向大规模、高复杂性的系统提供高质量的故障检测，检测精确度也不够高。而现有的基于日志进行故障检测的研究方法，往往是针对特定的系统提出来的且对日志的格式有一定的要求，只能用于特定的系统和特定格式的日志，不具有普遍适用性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供的一种更为智能且更具可解释性的基于云原生系统的多层次的深度学习日志故障检测方法。

本发明的目的可以通过以下技术方案来实现：

一种云原生系统的多层次的深度学习日志故障检测方法，该方法利用训练完成的异常检测模型，根据系统生成的日志进行系统故障检测，所述的异常检测模型包括第一子模型和第二子模型，该故障检测方法包括以下步骤：

S1)系统捕获一条新的日志；

S2)解析该日志的历史日志模式值流和该日志模式值对应的参数值向量；

S3)第一子模型根据历史日志模式值流检测该日志模式值是否正常，若是，则执行步骤S4)，若否，则判断系统出现故障，并输出对应日志故障信息；

S4)第二子模型检测该日志模式值的参数值向量是否正常，若是，则判断系统正常，若否，则判断系统出现故障，并输出对应日志故障信息。

优选地，所述的第一子模型和第二子模型均为LSTM神经网络结构。

进一步地，所述的第一子模型为基于上下文的异常日志检测模型，其通过条件概率分布结果，来判断系统事件流是否为正常执行流的顺序。

更进一步地，所述的第一子模型的训练步骤包括：

101)获取云原生系统运行产生的日志，并提取出正常的日志序列；

102)对正常的日志序列中每条日志对应的日志模式进行数字化处理，得到正常日志模式值流；

103)将正常日志模式值流分成与每个日志模式值对应的子流，所述的子流包括当前日志模式值和位于当前日志模式值之前的长度为l的历史日志模式值流；

104)向第一子模型依次输入每个日志模式值和该日志模式值对应的历史日志模式值流；

105)第一子模型的深度学习神经网络通过正常的日志模式值流，学习系统正常执行流的顺序。

更进一步地，所述的步骤S3)具体包括：

S301)第一子模型根据输入的历史日志模式值流，计算得到预测日志模式值的条件概率分布结果；

S302)选取概率最高的前m个预测日志模式值，作为候选值；

S303)检测该m个候选值中是否包含步骤S1)中捕获日志的日志模式值，若是，则执行步骤S4)，若否，则判断系统出现故障，并输出对应日志故障信息。

更进一步优选地，所述的候选值的数量m为系统执行事务的最大分支的数量，所述的历史日志模式值流的长度l为系统最长事务的模式值流序列的长度。

进一步地，所述的第二子模型为针对特定日志模式的参数值异常监测模型，其根据预测参数值与正常参数值的偏离情况，来判断特定日志模式的参数值是否处于正常范围。

更进一步地，所述的第二子模型的训练步骤包括：

201)获取云原生系统运行产生的正常日志；

202)获取每个正常日志的参数值向量，对属于同一日志模式的参数值向量进行归一化处理，得到各个日志模式对应的参数值向量；

204)第二子模型的深度学习神经网络根据各个日志模式对应的参数值向量，分别学习各个日志模式的参数值正常变化范围或变化规律；

205)向训练完成的第二子模型输入所有日志模式的实际参数值向量，得到各个日志模式的预测参数值向量；

206)计算预测参数值向量和实际参数值向量之间的均方误差MSE，并得到各个日志模式的参数值向量均方误差MSE对应的高斯分布。

更进一步地，所述的步骤S4)具体包括：

S401)第二子模型根据输入的特定日志模式的实际参数值向量，计算得到该日志模式值对应的预测参数值向量；

S402)计算预测参数值向量与实际参数值向量之间的均方误差MSE；

S403)判断均方误差MSE是否处于该日志模式均方误差MSE高斯分布的置信区间内，若是，则判断系统正常，若否，则判断系统出现故障，并输出对应日志故障信息。

与现有技术相比，本发明具有以下优点：

1)本发明通过设置由两个子模型结合而成的故障检测模型，分两个层次分别对系统事务执行流顺序和日志参数值进行检测，提高故障检测的效率和精确度；

2)本发明的第一子模型根据日志模式值流的顺序，来检测系统事件流是否异常，可以有效检测出大部分系统异常，提高故障检测效率；

3)本发明的第二子模型通过对特定日志模式的参数值向量检测，可以有效检测到每条日志的所有参数值是否异常，有效提高故障检测的准确性；

4)本发明所构建的日志故障检测模型面向的日志格式更为广泛，如Kubernetes集群环境日志、Linux系统日志、4G/5G日志及其他云原生系统日志等，不同格式的日志数据经过预处理后会被解析成对应的日志模式值和参数值向量集，通过更改日志模式类型数量和每个日志模式所对应的参数值向量长度值，便可利用神经网络对新的日志数据进行学习，进而得到针对特定系统的日志故障检测模型；

5)本发明通过对系统的日志数据进行分析与建模，解决大规模的复杂系统运维过程中的故障自动检测的问题，同时可以满足计算机系统复杂性不断增加、云原生系统及物联网不断发展的需求，为实现智能运维提供了可靠的支撑。

附图说明

图1为第一子模型和第二子模型的神经网络结构图；

图2为故障检测模型训练的流程图；

图3为系统故障检测方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本发明提出了一种基于云原生系统的多层次的深度学习日志故障检测方法。该方法通过训练完成的故障检测模型，能够利用日志文本数据对系统的故障进行检测，相比于基于规则、基于系统度量及行为分析的故障检测方法更为智能且更具可解释性。故障检测模型为多层次深度学习神经网络模型，体现在两个子模型的结合使用，包括第一子模型和第二子模型，第一子模型是日志模式的故障检测模型，第二子模型是针对特定日志模式的参数值异常检测模型。这两个子模型的类型、输入及输出信息如表1所示：

表1日志故障检测模型中的子模型信息

第一子模型和第二子模型均采用LSTM(Long Short-Term Memory)神经网络结构，如图1所示。第一子模型利用深度学习神经网络模型去学习正常执行流的顺序，并通过条件概率分布结果，来判断系统事件流是否为正常执行流的顺序。第二子模型利用深度学习神经网络模型去学习参数值的正常变化范围或者变化规律，并根据预测参数值与正常参数值的偏离情况，来判断特定日志模式的参数值是否处于正常范围。

本模型的输出结果可以对系统的故障进行检测与定位。通过结合两个子模型来共同判断某个日志序列中是否存在异常，从而对系统的故障作出更准确的检测与定位。故障检测模型的训练和异常检测过程分别如图2和图3所示。

(一)模型训练

该模型的训练数据来源于云原生系统运行产生的日志，且这些日志包含了对应的系统的所有正常事务的日志流。

(1)第一子模型的训练

第一子模型的训练步骤包括：

日志文件中的每条日志都有其对应的日志模式值，日志模式值是利用聚类分析算法对日志进行分析处理的结果，每个日志模式都有对应的正常或异常标签，第一子模型的训练数据的来源是从日志文件中提取出来的正常日志模式序列，这些序列蕴含了系统事务的正常执行流，对正常日志模式序列中每条日志对应的日志模式数字化以后，可得到第一子模型的训练数据，即日志模式值流。

第一子模型可被视作一个多分类模型，每一个不同的日志模式代表了不同的类。原始日志的模式值流反映了被测系统特定的事件执行顺序和状态，利用LSTM神经网络可以训练一个基于上下文的异常日志检测模型。每个日志模式值对之前出现的日志模式值流都有很强的依赖性。某个日志模式值可以由前面出现的日志模式值流来预测。

在训练阶段，供训练的日志模式值流会被分成一定长度的子流，设子流长度为l，其值为最长事务的模式值流序列的长度。每个子流包含两部分含义：历史日志模式值流和当前日志模式值。例如，有一个正常日志模式值流为{k₂₃，k₆，k₁₂，k₅，k₂₆，k₁₂}，设子流长度l＝3，则训练数据将被分成如下形式：

{历史日志模式值流：k₂₃，k₆，k₁₂，当前日志模式值：k₅}，

{历史日志模式值流：k₆，k₁₂，k₅，当前日志模式值：k₂₆}，

{历史日志模式值流：k₁₂，k₅，k₂₆，当前日志模式值：k₁₂}。

通过本发明方法训练完成的第一子模型，在检测日志模式是否异常时，可以输入位于该日志模式之前的长度为l的历史日志模式值流，第一子模型输出一个条件概率分布结果。若概率最高的前m个候选值(m可定为事务的最大分支数量的值)中包含了该日志模式值，则该日志被视为正常，否则为异常。

(2)第二子模型的训练

第二子模型的训练步骤包括：

201)获取云原生系统运行产生的正常日志；

第一子模型对于系统事件流中的异常检测非常有帮助，但是还有一些异常不能由这些日志模式值直接检测到，它们隐藏在每条日志的其他参数值当中。第二子模型能解决这个问题，其是针对每个日志模式训练的异常日志故障检测模型。第二子模型对每个不同的日志模式，都会进行单独训练。

第二子模型的训练数据是所有日志模式下的向量化日志数据，这些向量化日志数据由每条日志中的各参数值根据所述日志模式的不同，通过归一化处理后得到，本实施例中，归一化处理办法是：对于属于同一个日志模式的所有参数值向量，将在同一位置出现的参数值通过计算均值和标准差，用Z-score标准化方法对数据进行归一化处理。

向量化日志数据是由与时间序列有关的一系列参数组成的向量集，即每个日志模式对应的参数值向量。针对每个日志模式，其参数值向量同时间序列有关，因此，可运用LSTM神经网络对第二子模型进行训练。

训练时，将训练数据分为训练集和验证集，利用训练集对第二子模型进行训练，并将验证集中特定日志模式对应的参数值向量输入训练完成的第二子模型，第二子模型选取参数值向量中的前n个参数值，预测得到第n+1个参数值，再根据第2个至第n+1个参数值，预测得到第n+2个参数值，以此类推，最终得到完整的预测参数值向量，该预测参数值向量需要用到该验证集中位于每个参数值向量之前的向量，计算得到验证集中各个日志模式下，预测参数值向量和实际的参数值向量之间的均方误差(Mean square error，MSE)服从高斯分布。

因此，通过本发明步骤训练的第二子模型在进行异常检测的时候，可以不通过设置阈值来判断，而是通过计算预测出来的向量和真实的向量之间的差异来判断，即通过判断预测参数值向量和实际参数值向量之间的均方误差MSE是否处于高斯分布的置信区间，来检测其是否异常。

(二)故障检测

故障检测方法包括以下步骤：

S1)系统捕获一条新的日志；

如图3所示，故障检测时，将两个子模型相结合。

当捕获到新的日志时，系统会将这些日志解析成日志模式值流和对应的由参数值向量。系统首先利用第一子模型对每个日志模式值进行检测，看其是否正常，如果正常，系统会利用第二子模型对特定日志模式的参数值向量做进一步的异常检测。若两个步骤的检测结果都无异常，则该系统无故障，否则系统有故障，模型将给出相应的日志故障信息，便于故障的定位。

第一子模型的检测是通过条件概率分布结果来判断的，其具体包括以下步骤：

S302)选取概率最高的前m个预测日志模式值，作为候选值；

第二子模型的检测是通过预测的参数值同正常参数值的偏离情况来判断的，其具体包括以下步骤：

两个子模型的结合使得利用日志对系统进行故障检测的精度和准确度提高，对实现故障检测的自动化具有重要的实际意义。本故障检测模型是基于云原生系统的日志来进行训练和测试的，其能够应用于当下复杂的分布式系统的日志故障检测。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，该方法利用训练完成的异常检测模型，根据系统生成的日志进行系统故障检测，所述的异常检测模型包括第一子模型和第二子模型，该故障检测方法包括以下步骤：

S1)系统捕获一条新的日志；

2.根据权利要求1所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的第一子模型和第二子模型均为LSTM神经网络结构。

3.根据权利要求2所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的第一子模型为基于上下文的异常日志检测模型，其通过条件概率分布结果，来判断系统事件流是否为正常执行流的顺序。

4.根据权利要求3所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的第一子模型的训练步骤包括：

5.根据权利要求4所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的步骤S3)具体包括：

S302)选取概率最高的前m个预测日志模式值，作为候选值；

6.根据权利要求5所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的候选值的数量m为系统执行事务的最大分支的数量，所述的历史日志模式值流的长度l为系统最长事务的模式值流序列的长度。

7.根据权利要求2所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的第二子模型为针对特定日志模式的参数值异常监测模型，其根据预测参数值与正常参数值的偏离情况，来判断特定日志模式的参数值是否处于正常范围。

8.根据权利要求7所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的第二子模型的训练步骤包括：

201)获取云原生系统运行产生的正常日志；

9.根据权利要求8所述的一种云原生系统的多层次的深度学习日志故障检测方法，其特征在于，所述的步骤S4)具体包括：