CN114785606B

CN114785606B - 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质

Info

Publication number: CN114785606B
Application number: CN202210466869.XA
Authority: CN
Inventors: 詹东阳; 齐向东; 谭凯; 冯词童; 高晓红; 谢慧昭; 叶麟; 余翔湛
Original assignee: Qax Technology Group Inc; Harbin Institute of Technology
Current assignee: Qax Technology Group Inc; Harbin Institute of Technology
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-02-02
Anticipated expiration: 2042-04-27
Also published as: CN114785606A

Abstract

本发明提出一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质，属于日志异常检测技术领域。包括以下步骤：S1.将日志消息进行预处理，将日志消息拆分为字符标记和数字标记；S2.将日志消息标识化；S3.将日志消息进行词集表示，从日志消息中获取词序列，将词序列编码为向量；S4.将日志消息进行数字值表示后将日志消息表示为语义向量；S5.基于Transformer的分类模型进行异常检测。本发明使用了transformer模型来捕获日志序列的上下文依赖关系并检测异常b能够稳健地表示日志消息，有效提高检测精度；解决了现有技术中存在的概念漂移引起的误报、日志解析错误、日志信息利用不足的技术问题。

Description

一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质

技术领域

本申请涉及一种日志异常检测方法，尤其涉及一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质，属于日志异常检测技术领域。

背景技术

大型计算机系统通常使用日志来记录其运行状态。日志检测方法可以有效、及时地发现系统中的异常或故障，从而保证系统的安全稳定运行。

现有方法主要使用日志解析提取的特征模板的方法来构建深度学习模型用于异常检测。主要包括四个步骤：日志收集、日志解析、特征提取和异常检测，如图3所示。日志收集：大型计算机系统利用日志来记录其运行状态和系统事件信息，原始日志消息通常由时间戳和日志内容组成，可用于诊断系统故障，例如，图3显示了从BlueGene/L(BGL)大型计算机系统收集的日志消息；日志解析：日志解析过程中将对原始日志消息进行结构化处理，并将其划分为日志事件模板(关键字)和参数(变量部分)，例如，“BGL”CE sym 20，at0x1438f9e0，mask 0x40的日志消息内容可以解析为“事件38”，事件模板为“CE sym<*>at<*>mask<*>*”；特征提取：日志解析后，需要将日志消息分组为序列，并将序列转换为数值特征向量(即事件索引向量)，以便应用异常检测模型，序列分组技术主要包括固定窗口、滑动窗口和会话窗口；异常检测：最后，将数字特征向量输入到机器学习或深度学习模型中，以进行训练和异常检测。当新的日志出现时，模型可以识别异常。

然而，现有技术可能导致许多检测错误，主要包括：1)概念漂移引起的误报，2)日志解析错误，3)日志信息利用不足。

1)概念漂移引起的误报，即日志消息随时间的变化。最近的工作已经确定，不断发展的日志事件是由底层源代码中日志记录语句的更改引起的。因此，异常检测模型的准确性会降低。

2)日志解析错误，日志解析器错误也会降低异常检测系统的准确性，现有的日志解析器(即DRAIN、Logsig、LKE)不可避免地会引入解析错误，现有的日志解析器主要引入两种错误，第一种是日志分析器将参数错误地标识为关键字，从而引入额外的日志事件；第二种是日志解析器将关键字错误地识别为参数并省略关键字，这可能会错过潜在的关键信息；图4显示了两种解析错误。

3)日志信息利用不足，基于日志的异常检测方法需要利用日志消息的多个信息，现有的方法(例如Deeplog)通常训练一个模型来学习日志事件(即日志模板)的顺序，该顺序表示日志序列的行为模式；但是，如果出现不稳定的日志事件(即概念漂移和配对误差)，则需要重新训练模型，LogAnomaly和LogRobust尝试将日志模板转换为语义向量，以捕获日志模板的语义含义并处理不稳定的日志事件，但是，此类方法会忽略参数值，NeuralLog提出了一种基于日志的异常检测，无需日志解析，它将日志消息编码为语义向量而无需日志解析，但它也没有利用参数值。例如，“10秒的计划快照周期”和“750秒的计划快照周期”共享同一模板，它们将被标识为相同的日志事件，但值“10”和“750”也应被视为检测异常的基本因素。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在的概念漂移引起的误报、日志解析错误、日志信息利用不足的技术问题，本发明提供一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质。

方案一：一种基于预训练LogXLNet模型的日志异常检测方法，包括以下步骤：

S1.将日志消息进行预处理；

S2.将日志消息标识化；

S3.将日志消息进行词集表示，从日志消息中获取词序列，将词序列编码为向量；

S4.将日志消息进行数字值表示后将日志消息表示为语义向量；

S5.基于Transformer的分类模型进行异常检测。

优选的，所述将日志消息进行预处理的方法是，将日志消息拆分为字符标记和数字标记。

优选的，所述日志消息标识化的方法是，使用SentencePiece标识化，将单词分成更小的语义单元，SentencePiece捕获日志消息中频繁和多样化的子单词。

优选的，所述将日志消息拆分为字符标记和数字标记的具体方法是，包括以下步骤：

S11.使用空格和标点符号来拆分日志的语句，将日志语句分为单词和数值；

S12.将大写字母转换为小写字母；

S13.将所有单词划分为字集，将所有数值划分为数字集。

优选的，所述将日志消息进行词集表示，从日志消息中获取词序列，将词序列编码为向量的具体方法是，在日志消息标记化后，将字集和数字集输入到预先训练的XLNet模型中，并转移到具有固定n维的语义向量中，并定义为M＝{m₁,m₂,...,m_n}。

优选的，所述将日志消息进行数字值表示后将日志消息表示为语义向量的具体方法是，在日志消息标识化和词集表示后，通过数字值表示来丰富语义信息，令数字集为V＝{k₁,k₂,...,k_t}，定义超参数向量{α₁,α₂,...,α_t}，最后将日志消息表示为语义向量。

优选的，所述Transformer分类模型包括位置嵌入层、transformer encoder层、池和MLP分类层；

a)位置嵌入层：预先训练的XLNet模型可以理解每个日志的语义信息，用位置嵌入层来嵌入语义向量的位置，该层使用不同频率的sin和cos函数来表示顺序信息，并将位置向量添加到日志序列的语义向量中；

b)transformer encoder层：分类模型堆叠多个transformer编码块，每个transformer编码块包含多头自注意层，后跟位置前馈层；

c)池化层和MLP分类层：将Transformer编码器的输出张量减少到具有池化层的特征向量，并添加最终的多层感知器分类，使用softmax函数计算识别正常/异常日志序列的分类概率。

优选的，以日志消息的语义向量X＝{x₁,x₂,...,x_n}作为输入，将向量分组为序列，然后使用基于transformer的模型进行异常检测。

方案二：一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于预训练LogXLNet模型的日志异常检测方法的步骤。

方案三：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于预训练LogXLNet模型的日志异常检测方法。

本发明的有益效果如下：本发明可以保证大型云计算服务系统的安全稳定运行，现有方法无法充分利用日志消息的语义信息；本发明还可以在不解析日志的情况下检测异常日志消息，克服了不稳定的日志数据和日志解析错误造成的限制；本发明利用预训练语言模型XLNet来捕获日志数据的语义信息，并用参数信息丰富语义信息；本发明使用了transformer模型来捕获日志序列的上下文依赖关系并检测异常；本发明能够稳健地表示日志消息，有效提高检测精度；解决了现有技术中存在的概念漂移引起的误报、日志解析错误、日志信息利用不足的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明方法流程示意图；

图2为本发明实施例示例示意图；

图3为背景技术所述基于日志的异常情况检测框架概述示意图；

图4为背景技术所述日志解析错误示例示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-2说明本实施方式，一种基于预训练LogXLNet模型的日志异常检测方法，包括以下步骤：

S1.将日志消息进行预处理,具体的方法是将日志消息拆分为字符标记和数字标记；

具体的，包括以下步骤：

S12.将大写字母转换为小写字母；

S13.将所有单词划分为字集，将所有数值划分为数字集。

具体的，现有的检测方法通常只考虑日志数据中单词的语义信息。但本实施例中考虑到了数值，数值也用于提高检测性能。

例如，原始日志消息"081111 091837 24935INFO dfs。DataNode$PacketResponder：PacketResponder 0for block blk_34905976850091068terminating"最终将转换为一个字集和一个数字集：{info，dfs，datanode，packetresponder，for，block，blk，terminating}，{081111，091837，24935，0，34905976850091068}。

具体的，日志消息反映了系统的不同事件，现有方法通常使用日志模板作为日志事件，忽略了一些关键信息。本发明利用所有单词和可变数值来捕获日志数据的语义信息。日志消息的单词集将被编码到语义向量中，以保留日志消息的上下文关系。此外，可变数值将用于丰富语义信息。

S2.将日志消息标识化，使用SentencePiece标识化，将单词分成更小的语义单元，SentencePiece捕获日志消息中频繁和多样化的子单词。

具体的，使用SentencePiece标识化可以减少单词集中词汇外单词的数量，可以将单词分成更小的语义单元。SentencePiece可以捕获日志消息中最频繁和最多样化的子单词。例如，原始单词集"{datanode，packetresponder}"可以分成更常用的子单词："{"data，node，packet"，"responder"}。通过这种方式，可以捕获到日志的语义含义同时减少词汇量。SentencePiece具有高分割速度，约为50k句子/秒，因此与其他分词器相比，它适用于大规模日志检测。

S3.将日志消息进行词集表示，从日志消息中获取词序列，将词序列编码为向量，具体方法是，在日志消息标记化后，将字集和数字集输入到预先训练的XLNet模型中，并转移到具有固定n维的语义向量中，并定义为M＝{m₁,m₂,...,m_n}。

具体的，有许多句子嵌入方法，例如Word2Vec，Glove，但是，这些嵌入方法会忽略词序并将同一单词编码到同一向量中，这可能会丢失一些上下文信息。

本发明的XLNet是一种无监督语言表示学习方法，基于一种新的广义排列语言建模目标函数，该目标函数已经在巨大的自然语言语料库上进行了预训练，在我们的工作中，我们使用XLNet来获取日志消息的语义含义；

更具体地说，在标记化之后，词集被输入到预先训练的XLNet模型中，并转移到具有固定n维的语义向量中，并定义为M＝{m₁,m₂,...,m_n}。LogXLNet使用XLNet模型，该模型具有基于自注意机制的多个transformer-XL层；词嵌入由XLNet模型的最后一层生成，并且计算词嵌入的平均值以表示日志消息的字集；因此，LogXLNet可以分析单词的重要性，并理解同一单词在不同日志消息下的语义信息。

S4.将日志消息进行数字值表示后将日志消息表示为语义向量的具体方法是，在日志消息标识化和词集表示后，通过数字值表示来丰富语义信息，令数字集为V＝{k₁,k₂,...,k_t}，定义超参数向量{α₁,α₂,...,α_t}，最后将日志消息表示为语义向量。

S5.基于Transformer的分类模型进行异常检测，以日志消息的语义向量X＝{x₁,x₂,...,x_n}作为输入，将向量分组为序列，然后使用基于transformer的模型进行异常检测。

具体的，所述Transformer分类模型包括位置嵌入层、transformer encoder层、池和MLP分类层；

本发明所述的LogXLNet可以直接从日志消息中提取语义信息，从而避免了日志解析错误对检测性能的影响。此外，LogXLNet使用SentencePiece和XLNet实现日志消息的句子嵌入，并通过数值表示来丰富语义信息。此外，基于transformer的模型可以有效地学习日志序列的上下文信息并识别异常。

本发明可以保证大型云计算服务系统的安全稳定运行，现有方法无法充分利用日志消息的语义信息，为了克服不稳定的日志数据和日志解析错误造成的限制，本发明提出了LogXLNet，它可以在不解析日志的情况下检测异常日志消息，LogXLNet利用预训练语言模型XLNet来捕获日志数据的语义信息，并用参数信息丰富语义信息，使用了transformer模型来捕获日志序列的上下文依赖关系并检测异常。我们评估了LogXLNet在公共日志数据集上的性能。结果表明，LogXLNet能够稳健地表示日志消息，有效提高检测精度。

本发明的名词解释：

SentencePiece标识化：字词的切分算法；

Transformer分类模型：Google的团队在2017年提出的一种NLP经典模型；

transformer encoder层：transformer的编码层；

Transformer编码器：transformer模型中包含有编码器和解码器两个部分；

transformer编码块：transformer编码器中所包含的内部结构。

实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例3、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于预训练logXLNet模型的日志异常检测方法，其特征在于，包括以下步骤：

S1.将日志消息进行预处理，方法是，将日志消息拆分为字符标记和数字标记，包括以下步骤：

S12.将大写字母转换为小写字母；

S13.将所有单词划分为字集，将所有数值划分为数字集；

S2.将日志消息标识化，方法是，使用SentencePiece标识化，将单词分成更小的语义单元，SentencePiece捕获日志消息中频繁和多样化的子单词；

S3.将日志消息进行词集表示，从日志消息中获取词序列，将词序列编码为向量，方法是，在日志消息标记化后，词集被输入到预先训练的XLNet模型中，并转移到具有固定n维的语义向量中，并定义为M＝{m₁,m₂,...,m_n}，LogXLNet使用XLNet模型，XLNet模型具有基于自注意机制的多个transformer-XL层；词嵌入由XLNet模型的最后一层生成，并且计算词嵌入的平均值以表示日志消息的字集；LogXLNet分析单词的重要性，并理解同一单词在不同日志消息下的语义信息；

S4.将日志消息进行数字值表示后将日志消息表示为语义向量，方法是，在日志消息标识化和词集表示后，通过数字值表示来丰富语义信息，令数字集为V＝{k₁,k₂,...,k_t}，定义超参数向量{α₁,α₂,...,α_t}，最后将日志消息表示为语义向量；

S5.基于Transformer的分类模型进行异常检测，以日志消息的语义向量X＝{x₁,x₂,...,x_n}作为输入，将向量分组为序列，使用基于transformer的模型进行异常检测，所述Transformer分类模型包括位置嵌入层、transformer encoder层、池和MLP分类层；

2.根据权利要求1所述的一种基于预训练logXLNet模型的日志异常检测方法，其特征在于，以日志消息的语义向量X＝{x₁,x₂,...,x_n}作为输入，将向量分组为序列，然后使用基于transformer的模型进行异常检测。

3.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-2任一项所述的一种基于预训练logXLNet模型的日志异常检测方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-2任一项所述的一种基于预训练logXLNet模型的日志异常检测方法。