CN112882899B

CN112882899B - 一种日志异常检测方法及装置

Info

Publication number: CN112882899B
Application number: CN202110215022.XA
Authority: CN
Inventors: 王迪; 冯伟华; 陈瑞; 宗国浩; 王锐; 王峙; 王永胜; 郑新章
Original assignee: Zhengzhou Tobacco Research Institute of CNTC
Current assignee: Zhengzhou Tobacco Research Institute of CNTC
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2023-07-04
Anticipated expiration: 2041-02-25
Also published as: CN112882899A

Abstract

本发明属于日志异常检测技术领域，具体涉及一种日志异常检测方法及装置。首先将日志解析为日志事件；然后将日志事件输入至日志检测模型中，得到日志的异常检测结果。其中，日志检测模型包括用于将日志事件进行转化处理以得到向量表示的日志向量转化模块和结果分类模块。转化处理包括：将日志事件中的每个词转换为词向量，得到日志事件的向量序列，并生成每个词的区域矩阵；将向量序列输入至卷积层得到自适应上下文单元；将日志事件中所有词的区域矩阵与自适应上下文中各元素相乘，得到映射嵌入；对映射嵌入进行最大池化操作并求和，得到日志事件的向量表示。本发明更有助于理解日志，能够有效解决日志数据不平衡带来的不利影响，检测精度较高。

Description

一种日志异常检测方法及装置

技术领域

本发明属于日志异常检测技术领域，具体涉及一种日志异常检测方法及装置。

背景技术

最近几年，日志被用来对系统进行异常检测。据统计，微软的两个开源项目中，每58行源代码中就有一条代码被用来记录日志，一旦错误发生，审查日志是常规操作。因此，日志在软件服务系统异常检测方面扮演了重要的角色，但随着系统规模的扩大，系统产生日志的速度加快，人工审查日志变成了一项不可能的事情，并且是非常耗时且容易出错的，所以实现基于日志的异常检测自动化是非常重要的。

烟草大数据云平台包括基于Openstack的云平台管理系统以及基于云平台的大数据处理系统hadoop、hdfs等业务系统，因此其中任意一个服务出现了异常可能会影响到相关用户的体验，准确快速地进行日志异常检测对烟草大数据云平台来说非常重要的，它能够减少烟草大数据云服务提供者以及云平台用户的损失。

已有研究中，LogRobust捕获了日志事件中嵌入的语义信息，实现了对不稳定日志数据的异常检测。但是，它不能充分利用语义，没有考虑到现实中日志数据不平衡带来的不利影响。首先，LogRobust利用现成的单词嵌入向量进行日志向量化。然而，词嵌入向量不能捕获日志事件的动态语义信息。因此，LogRobust不能很好地理解日志，需要更多的日志数据来训练异常检测中的分类器。其次，在大多数现实世界的分类问题中，收集的数据遵循长尾分布，即大多数数据属于少数类，因此它们是不平衡数据。日志数据分布不平衡，使得异常分类器偏向多数类，分类器很难正确地学习检测异常。例如给一条日志“instructioncache parity error corrected”，LogRobust将日志中每个单词的词嵌入向量加权平均作为该日志的向量表示，当“error”和“corrected”同时出现，LogRobust不能够辨别出该日志是否是正常的。因此，日志数据的不平衡对基于日志的异常检测有很大的不利影响。大多数基于日志的异常检测方法都忽略了这一重要问题，因此在实际系统中表现不佳。

如何在烟草大数据云平台产生不平衡日志数据的情况下，对云平台日志数据进行正确的分类是烟草大数据云平台日志异常检测领域面临的核心问题。

发明内容

本发明提供了一种日志异常检测方法及装置，用以解决现有技术中的方法无法解决日志数据不平衡带来的不利影响的问题。

为解决上述技术问题，本发明所包括的技术方案以及技术方案对应的有益效果如下：

本发明提供了一种日志异常检测方法，包括如下步骤：

1)将获取的日志解析为日志事件；

2)将解析得到的日志事件输入至构建的日志检测模型中，得到日志的异常检测结果；所述日志检测模型包括日志向量转化模块和结果分类模块，且所述日志检测模型利用已异常与否的日志事件以及异常与否的结果进行训练得到；

所述日志向量转化模块用于将输入的日志事件进行转化处理，得到日志事件的向量表示，所述转化处理包括：将日志事件中的每个词转换为词向量，以得到日志事件对应的向量序列，并生成每个词的区域矩阵；根据向量序列，得到日志事件的自适应上下文单元；将日志事件中所有词的区域矩阵与自适应上下文中各元素相乘，得到日志事件的映射嵌入；根据映射嵌入，得到日志事件的区域嵌入；求取区域嵌入中各元素的和，得到日志事件的向量表示；

所述结果分类模块用于根据日志事件的向量表示得到日志的异常检测结果。

上述技术方案的有益效果为：本发明先将日志解析为日志事件，然后将日志事件输入至构建的日志检测模型中，便可得到日志的异常检测结果。其中，日志检测模型包括日志向量转化模块和结果分类模块，日志向量转化模块用于将输入的日志事件进行转化处理便可得到日志事件的向量表示，再结合分类器，便可得到日志的异常检测结果。其中，在将日志事件进行转化处理过程中，得到的映射嵌入为日志事件中所有词的区域矩阵与自适应上下文中各元素的乘积，使得映射嵌入不仅包含日志事件中每个词的语义含义，还包含日志事件中任意区域内所有词的含义，相比之下，LogRobust仅仅利用了日志事件中每个单词的语义信息，没有考虑上下文信息，而本发明日志异常检测方法综合利用词嵌入和区域嵌入，能够正确的挖掘并理解上述日志中“系统发生了错误并且错误被修复了”这一潜在信息，具有更丰富的语义信息理解能力，因此本发明日志异常检测方法更有助于理解日志，能够有效解决日志数据不平衡带来的不利影响，检测精度较高。

进一步的，步骤2)中，若获取的日志为单个日志，则所述结果分类模块包括分类器，所述日志检测模型用于将所述单个日志的向量表示作为分类器的输入直接输入分类器中；若获取的日志为一个日志序列，则所述结果分类模块包括向量表示模型和分类器，所述日志检测模型用于将日志序列中各日志的向量表示输入至构建的向量表示模型中，以得到所述日志序列的向量表示，并将得到的日志序列的向量表示作为分类器的输入输入至分类器中。

进一步的，所述向量表示模型为Bi-LSTM模型。

进一步的，步骤1)中，利用日志解析器Drain将获取的日志解析为日志事件。

进一步的，所述日志解析器Drain采用三层的Drain解析树。

进一步的，步骤2)的所述转化处理中，将日志事件中的每个词转换为词向量前，还包括对日志事件进行预处理的步骤；所述预处理为：删除对语义信息提取无意义的字符标记，并将一些字符标记拆分为单独的单词。

进一步的，步骤2)的所述转化处理中，将向量序列输入至卷积层中，得到所述日志事件的自适应上下文单元。

进一步的，步骤2)的所述转化处理中，将映射嵌入进行最大池化操作，得到所述日志事件的区域嵌入。

进一步的，所述分类器为softmax分类器。

本发明还提供了一种日志异常检测装置，包括存储器和处理器，所述处理器用于执行存储在存储器中的指令以实现上述介绍的日志异常检测方法，并达到与该方法相同的有益效果。

附图说明

图1是本发明的日志异常检测方法的流程图；

图2是本发明的HDFS系统日志示例图；

图3是本发明所使用的三层Drain解析树的示意图；

图4是本发明的日志向量化的流程图；

图5是在Openstack云管数据集上分别采用Context-aware和LogRobust的检测结果图；

图6是在Openstack云管数据集上分别采用LogRobust、cosen-LogRobust和Context-aware的检测结果图；

图7是不同数量训练样本和不同比例的“正常”和“异常”的训练数据集上Context-aware和LogRobust准确率结果图；

图8是hadoop数据集上分别采用Context-aware和LogRobust的检测结果图；

图9是本发明的日志异常检测装置的结构图。

具体实施方式

方法实施例：

本发明的一种日志异常检测方法实施例，其整体流程如图1所示，该实施例针对烟草大数据云平台中的日志进行异常检测，即实现一种基于Context-aware的烟草大数据云平台日志异常检测方法。

步骤一，收集日志。

在所有烟草大数据处理节点(DataNode)部署FileBeat日志采集系统，根据配置读取对应位置的日志，并将收集到的原始日志(Raw log)输出到Kafka固定的topic；通过订阅Kafka的topic，可实时读取采集的日志序列(Log sequence)。

步骤二，利用日志解析器Drain将每条日志解析为日志事件。

日志一般有固定的结构，记录了系统运行时的关键信息，是无结构化的自由文本。图2是烟草大数据云平台hadoop大数据系统的一条日志，由时间戳、日志等级、组件、日志内容等部分组成，加粗部分为日志内容。

为了对日志内容进行分析，需要将它解析成半结构化的日志模板(Templates ofa sequence)，也即本发明所提到的日志事件。由于在现代的系统中，日志的数量增长很快且经常更新，人工解析日志的方法早已淘汰。本发明采用了一个基于树的在线日志解析器Drain，能够以流的形式准确、高效地对原始日志消息解析。Drain允许用户提供正则表达式表示变量，例如IP或block ID，然后Drain移除日志中匹配到正则表达式的部分。

如图3所示是一个三层的Drain解析树，第一层为日志解析树的根节点，第二层节点表示日志消息的长度Length，该层基于这样的假设：可以用同一个日志事件表示的日志有相同的长度。第三层节点是叶子节点，由一系列首token组成，如Send、Receive等，该层基于这样的假设：日志第一个的token通常是常量，如果第一个token是常数，可能会导致分支爆炸，因此需要将常数转为*。当到达叶子节点后，Drain会计算出当前日志和所有日志组的相似度，选出最匹配的日志组，如果相似度没超过阈值，返回未匹配标记。如果匹配到日志组，Drain扫描日志和该日志组内的日志事件，如果在相同位置日志事件的token和日志的token不一样，将日志事件该位置的token变为*。如果匹配不到日志组，将会为该日志创建一个新的日志组，该日志就作为新日志组的日志事件。故在实施该步骤时，具体包括：

1、配置日志解析器Drain的过滤正则表达式，将日志中的常见变量(例如IP地址、主机名称、文件路径等)和特殊符号(例如逗号、冒号等)使用“*”代替。

2、设置日志解析器Drain的参数(例如树的深度、相似度阈值等)。计算一个日志和已存在日志事件的相似度simValue，如果simValue大于设定的相似度阀值，则表明这个日志与已存在的日志事件相匹配，否则为该日志新生产一个日志事件。simValue的计算公式为：

其中，l(i)是日志的第i个token，e(i)是日志事件的第i个token；函数eq()的计算公式为：

其中，t₁和t₂是两个token。

步骤三，将解析得到的日志事件输入至构建的日志检测模型中，便可得到日志的异常检测结果。其中，日志检测模型包括日志向量转化模块和结果分类模块，且利用已异常与否的日志事件以及异常与否的结果进行训练得到。下面对日志向量转化模块和结果分类模块进行详细介绍。

(一)日志向量转化模块。

日志向量转化模块用于将输入的日志事件进行转化处理，得到每个日志事件的向量表示。转化处理过程如图4所示，包括：

1、对于得到的日志事件(Log Event)进行预处理，包括：用自然语言表示为S＝[t₁,t₂...t_L]，t_i表示日志事件S的第i个token，L为日志事件的长度；删除无字符意义的token，并将以驼峰命名法或者帕斯卡命名法书写的token拆分为单独的单词，例如将token“MidplaneSwitchController”拆分成三个单词“Midplane”、“Switch”和“Controller”。

2、通过使用在普通爬虫语料库上预训练的词向量(Word Vectors)，将日志事件中的每个词转换成h维的词向量wv_i∈R^h，也即通过词嵌入(Word Embedding)可以得到一条日志事件对应的向量序列[wv₁,wv₂,…,wv_L]，wv_i是一个h维的向量，每个词的区域矩阵(Region matrics)为：

E_i-r:i+r＝[wv_i-r,…,wv_i+r]∈R^r*h

其中，r为区域大小。

3、将日志事件的向量序列输入到一维卷积层(1D-Convolution)中，L是输入的总长度，h为输入的通道数，设一维卷积层的窗口大小为r，过滤器数量为r*h，设置合适的填充方式使卷积后的长度依然为L，得到自适应上下文单元(Adaptive Context Unit,ACU)，ACU＝[K₁,K₂,…,K_L]，其中K_i∈R^r*h，它可以根据不同的上下文动态捕捉日志事件的任意区域中所有单词的语义信息。

4、将日志事件中的所有词的区域矩阵与ACU元素相乘得到日志事件的映射嵌入(Projected Embedding,PE)，PE＝[P₁,P₂,…,P_L]，即：

P_i＝K_i⊙E_i-r:i+r

其中，⊙为element-wise multiplication，即对应位置相乘；E_i-r:i+r为第i个位置为中心的区域中所有单词的词嵌入；K_i为第i个位置为中心的上下文单元；P_i∈R^r*h。因此，PE不仅包含日志事件中每个词的语义含义，还包括日志事件中任意区域内所有词的含义。

5、对映射嵌入PE内元素进行最大池化(Max-Pooling)操作，池化的窗口大小为r，得到区域嵌入(Region Embedding,RE)，RE＝[r₁,r₂,…,r_L]，其中r_i∈R^h；对区域嵌入中每个元素进行求和操作，得到每个日志事件的向量表示e∈R^h。

(二)结果分类模块。

结果分类模块用于根据日志事件的向量表示得到日志的异常检测结果，具体过程如下：

1、判断是对单个日志的异常检测还是一个日志序列的异常检测：

1)对于单个日志的异常检测，该日志的向量表示作为分类器输入直接输入至结果分类模块所包括的分类器即可；

2)对于一个日志序列的异常检测，先使用注意力机制的Bi-LSTM模型来处理日志序列的向量表示，以计算出结果分类模块所包括的分类器输入。其中，使用Keras框架构建Bi-LSTM模型，将一个序列的所有日志事件的向量表示作为Bi-LSTM模型的输入，计算该序列的向量表示，采用keras.preprocessing.sequence的pad_sequence方法将数据对齐，使用Masking层忽略输入数据中对齐的0，自定义Attention层计算序列中各个日志事件的权重。

2、然后将得到的分类器输入输入至softmax进行分类，以得到日志的异常检测结果。其中，分类包括二分类和多分类，且Softmax采用随机梯度下降算法更新权重。

为了展示本发明的方法在烟草大数据云平台检测不平衡日志数据上的进步性，现将本发明方法在Openstack云管日志、hadoop日志以及HDFS日志三个数据集上面进行试验，并将试验结果与最新日志检测系统LogRobust进行比较，试验内容及试验结果为：

为了评估本发明的基于Context-aware的烟草大数据云平台日志异常检测方法(以下简称Context-aware)在多类日志数据上的性能，将Context-aware和LogRobust分别在过滤后的Openstack云管日志数据集上进行测试，结果如图5所示。从图5中可以看出，Context-aware的检测准确率为1.00，远高于LogRobust的0.40，这是因为在Context-aware的日志向量化阶段，得到的PE不仅包含日志事件中每个词的语义信息，还包含日志事件中任意区域内所有词的含义，更有助于理解日志。同时，由于代价敏感学习适用并广泛应用于不平衡问题，将其应用于cosen-LogRobust。结果显示cosen-LogRobust精确度，精确度，召回率和F1得分均提高到0.80以上，如图6所示。成本敏感型学习可以有效降低日志数据不平衡带来的不利影响，但是Context-aware达到的准确率仍然高出20％。此外，Context-aware获得的F1-score比cosen-LogRobust高出20％。结果表明，Context-aware比现有的从多类不平衡日志数据中学习的典型方法更能有效地进行异常检测。

为了评估Context-aware在二分类日志数据上的性能，将Context-aware和LogRobust分别应用在过滤后的HDFS日志数据集上，从HDFS日志数据集中选取了4组数据集，每组数据集数据均由“正常”数据和“异常”数据组成，比例分别为2：1、3：1、4：1和5：1，并基于上述四组数据集，分别用1500个、3000个和8000个样本进行Context-aware和LogRobust训练。Context-aware的结果表明，当“正常”样本数和“异常”样本数的比例从2：1增加到5：1时，Context-aware-8000(即对样本数为8000的训练集应用Context-aware)的准确率仅从0.99下降到0.98，如图7所示，而LogRobust-8000(即对样本数为8000的训练集应用LogRobust)的准确率从0.93下降到0.74。实验结果表明，Context-aware能够减少二进制不平衡日志数据带来的负面影响，能够达到最先进的性能。

为了评估Context-aware的鲁棒性，Context-aware和LogRobust进行了不可见日志数据(即测试日志数据集中的一些样本在训练数据集中是不存在的)的测试，如图8所示，选定的数据集是过滤后的Hadoop日志数据集。虽然Context-aware和LogRobust实现的准确率几乎相同(Context-aware为0.98，LogRobust为0.94)，但LogRobust实现的精准度、召回率和F1得分的值都是0.00，因为测试数据集的所有样本都被识别为“正常”。日志矢量化阶段的最大池化操作有助于我们的方法集中在更重要的语义信息上，这有利于我们的方法从先前的样本中提取每一类的模式。因此，Context-aware对于不平衡的不可见日志数据是健壮的。

由此可见，本发明在不平衡、不可见的日志数据集上的异常检测取得了巨大的成功，对日志的异常进行预测，从而及时的帮助开发人员和操作人员排除故障。

装置实施例：

本发明的一种日志异常检测装置实施例，如图9所示，包括存储器、处理器和内部总线，处理器、存储器之间通过内部总线完成相互间的通信和数据交互。存储器包括至少一个存储于存储器中的软件功能模块，处理器通过运行存储在存储器中的软件程序以及模块，执行各种功能应用以及数据处理，实现本发明的方法实施例中介绍的一种日志异常检测方法。

其中，处理器可以为微处理器MCU、可编程逻辑器件FPGA等处理装置。存储器可为利用电能方式存储信息的各式存储器，例如RAM、ROM等；也可为利用磁能方式存储信息的各式存储器，例如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘等；还可为利用光学方式存储信息的各式存储器，例如CD、DVD等；当然，还可为其他方式的存储器，例如量子存储器、石墨烯存储器等。

Claims

1.一种日志异常检测方法，其特征在于，包括如下步骤：

1)将获取的日志解析为日志事件；

所述日志向量转化模块用于将输入的日志事件进行转化处理，得到日志事件的向量表示，所述转化处理包括：将日志事件中的每个词转换为词向量，以得到日志事件对应的向量序列，并生成每个词的区域矩阵；根据向量序列，得到日志事件的自适应上下文单元；所述上下文单元能够根据不同的上下文动态捕捉日志事件的任意区域中所有单词的语义信息；将日志事件中所有词的区域矩阵与自适应上下文中各元素相乘，得到日志事件的映射嵌入；所述日志事件的映射嵌入包含日志事件每个词的语义含义以及日志事件中任意区域内所有词的含义；根据映射嵌入，得到日志事件的区域嵌入；求取区域嵌入中各元素的和，得到日志事件的向量表示；所述每个词的区域矩阵为：

E_i-r:i+r＝[wv_i-r,…,wv_i+r]∈R^r*h，

其中，E_i-r:i+r为每个日志事件中第i个词的区域矩阵，r为区域大小，wv_i为每个日志事件中第i个词的词向量；

所述自适应上下文单元获取的方法为：将日志事件的向量序列输入到一维卷积层中，设置合适的填充方式使卷积后的长度与输入总长度相等，所述一维卷积层的窗口大小为区域矩阵的区域大小r，过滤器数量为r*h，h为向量维度；

2.根据权利要求1所述的日志异常检测方法，其特征在于，步骤2)中，若获取的日志为单个日志，则所述结果分类模块包括分类器，所述日志检测模型用于将所述单个日志的向量表示作为分类器的输入直接输入分类器中；若获取的日志为一个日志序列，则所述结果分类模块包括向量表示模型和分类器，所述日志检测模型用于将日志序列中各日志的向量表示输入至构建的向量表示模型中，以得到所述日志序列的向量表示，并将得到的日志序列的向量表示作为分类器的输入输入至分类器中。

3.根据权利要求2所述的日志异常检测方法，其特征在于，所述向量表示模型为Bi-LSTM模型。

4.根据权利要求1所述的日志异常检测方法，其特征在于，步骤1)中，利用日志解析器Drain将获取的日志解析为日志事件。

5.根据权利要求4所述的日志异常检测方法，其特征在于，所述日志解析器Drain采用三层的Drain解析树。

6.根据权利要求1所述的日志异常检测方法，其特征在于，步骤2)的所述转化处理中，将日志事件中的每个词转换为词向量前，还包括对日志事件进行预处理的步骤；所述预处理为：删除对语义信息提取无意义的字符标记，并将一些字符标记拆分为单独的单词。

7.根据权利要求1所述的日志异常检测方法，其特征在于，步骤2)的所述转化处理中，将向量序列输入至卷积层中，得到所述日志事件的自适应上下文单元。

8.根据权利要求1所述的日志异常检测方法，其特征在于，步骤2)的所述转化处理中，将映射嵌入进行最大池化操作，得到所述日志事件的区域嵌入。

9.根据权利要求2所述的日志异常检测方法，其特征在于，所述分类器为softmax分类器。

10.一种日志异常检测装置，其特征在于，包括存储器和处理器，所述处理器用于执行存储在存储器中的指令以实现如权利要求1～9任一项所述的日志异常检测方法。