CN115757695A

CN115757695A - 一种日志语言模型训练方法及系统

Info

Publication number: CN115757695A
Application number: CN202211405950.3A
Authority: CN
Inventors: 田富龙; 杜庆峰; 何诚; 吴嘉琦
Original assignee: Shanghai Dingmao Information Technology Co ltd
Current assignee: Shanghai Dingmao Information Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-07

Abstract

本发明提供一种日志语言模型训练方法，接受日志的输入并构建对应的日志语料库，构造数据集训练相应的日志语言模型，使用日志语言模型对日志模板进行向量表征，将得到的日志模板向量应用到异常检测的下游任务训练中，截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B，将日志语料重复构造十次形成数据集。本发明能够对不同系统的日志训练对应的日志语言模型，提升日志词向量的语义表达能力；生成的日志模板向量输入到日志异常检测、日志分类等下游任务模型中进行训练，提升了模型的效果。

Description

一种日志语言模型训练方法及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种日志语言模型训练方法及系统。

背景技术

日志作为一种由时间戳和文本信息组成的非结构化时序文本数据，实时记录了软件系统运行的状态信息，是运维人员剖析系统的异常行为与错误的重要依据。近年来，随着人工智能的不断发展，统计、数据挖掘和机器学习等技术被广泛用于日志的自动化分析，以协助和促进应用的监控、管理和故障排查。

在AIOps(智能运维)领域中，日志异常检测指的是使用机器学习方法，识别日志数据中不符合预期行为的系统异常模式，发掘异常模式背后潜在的软件故障。与传统的人工处理日志数据方法相比，该研究可以帮助应用系统进一步实现自动化运维工作，减轻人力资源的负担，此外还能帮助应用系统尽快发现异常情况，从而在最短的时间内做出响应，减轻系统因异常情况带来的损失。

目前日志异常检测方法一般的通用步骤：首先按照标准对日志进行分词(如时间或者标识符)，之后进行日志解析，将日志消息解析为日志模板，接下来从解析后的日志中提取特征，将日志模板转换为对应的模板向量，最后再采用不同的模型进行异常检测。其中，特征提取是异常检测的关键，而语义向量又是异常检测中最常用的特征，选择不同的语义向量提取方法会直接影响异常检测模型的效果。

近年来，以BERT为代表的预训练语言模型发展迅速，其对不同语言的表征能力远超过去的所有语言模型。当前关于该领域的研究主要分为两方面，一是针对语言模型本身结构的改进，如更换预训练任务，在词嵌入层添加新的特征，自注意力机制优化等；二是针对不同的下游任务设计不同的微调方案。这些研究都是围绕自然语言文本进行的，在日志领域还未有人研究出一套可用性强的日志语言模型训练方案。

由于日志语句是半结构化的，且与自然语言的表达方式有差异，如果直接将其他领域数据训练的语言模型直接用于日志领域，则导致对日志语义信息的表征能力较弱，制约了下游任务(如异常检测)的表现。因此，有必要提出一种日志语言模型训练方法，可以对日志语言进行更准确的表征，从而提高异常检测等下游任务的效果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种日志语言模型训练方法及系统，用于解决现有技术中日志语言表征不准确，异常检测效果较差的问题。

为实现上述目的及其他相关目的，本发明提供一种日志语言模型训练方法，接受日志的输入并构建对应的日志语料库，构造数据集训练相应的日志语言模型，使用日志语言模型对日志模板进行向量表征，将得到的日志模板向量应用到异常检测的下游任务训练中，其中数据集构造具体步骤如下：

S1、对日志语料库内日志语料进行分词，然后遍历日志语料；

S2、截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B；

S3、计算概率，产生0～1随机数，当数值小于0.5，将句子B替换为其它日志段落中的句子，否则维持句子B不变；拼接句子A和句子B并添加[CLS]和[SEP]标识符，分别构成NSP任务的正例/反例；

S4、步骤S3中的句子对中每个词对应的位置打乱，选择词序列排序前15％的句子对进行掩码，每个词有80％的概率替换为[mask]标签，10％的概率替换为词表中的任意词，10％的概率保持原词不变；将被替换的词在词表中的索引作为标签用于MLM任务的训练；

S5、将日志语料重复构造十次形成数据集。

于本发明的一实施例中，还包括步骤S5后的语言模型训练，具体步骤如下：

S6、在通用预训练语言模型的基础上固定预训练语言模型的参数，使其不参与梯度计算；

S7、构建三个适配器用于接收预训练语言模型第0、6和11层的输出向量以及前一个适配器的输出向量；

S8、得到两个维度为768维的初始输出向量，将两个初始输出向量连接后输入到全连接层进行降维，最终得到维度为768的向量作为该语言模型的最终输出向量，由所述最终输出向量形成所述日志模板向量。

上述实施例的有益效果在于：将预训练模型的全部参数进行固定，在模型外构建可插入的适配器用于接收模型中部分层的输出，通过调整适配器的参数得到需要的日志语言模型，在维持模型语义提取能力的基础上将模型训练时可调整的参数数量减少至原来的40％，提高了模型的参数利用率，同时减少了模型的训练时间。

于本发明的一实施例中，预训练语言模型训练时使用交叉熵函数计算损失，AdamW为优化器，适配器隐藏层维度为768维。

于本发明的一实施例中，其中构建对应的日志语料包括步骤S9，日志预处理，包括日志结构和变量类型的识别。

于本发明的一实施例中，还包括步骤S9之后的步骤S10，日志解析，根据步骤S9得到的日志结构以及变量类型对应的正则表达式，使用日志解析算法，提取日志模板。

于本发明的一实施例中，所述日志解析算法为Drain、Spell或LogMine。

上述实施例的有益效果在于：多种日志解析算法能够满足多种应用场景，增强适用性。

于本发明的一实施例中，步骤S4中的掩码采用bert-base-uncased、bert-large或RoBERTa掩码式预训练模型。

为实现上述目的及其他相关目的，本发明还提供一种日志语言模型训练系统，基于上述日志语言模型训练方法，包括数据集构造模块，用于对日志语料库内日志语料进行分词，然后遍历日志语料；截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B；计算概率，产生0～1随机数，当数值小于0.5，将句子B替换为其它日志段落中的句子，否则维持句子B不变；拼接句子A和句子B并添加[CLS]和[SEP]标识符，分别构成NSP任务的正例/反例；将句子对中每个词对应的位置打乱，选择词序列排序前15％的句子对进行掩码，每个词有80％的概率替换为[mask]标签，10％的概率替换为词表中的任意词，10％的概率保持原词不变；将被替换的词在词表中的索引作为标签用于MLM任务的训练；将日志语料重复构造十次形成数据集。

还包括语言模型训练模块，用于在通用预训练语言模型的基础上固定预训练语言模型的参数，使其不参与梯度计算；构建三个适配器用于接收预训练语言模型第0、6和11层的输出向量以及前一个适配器的输出向量；得到两个维度为768维的初始输出向量，将两个初始输出向量连接后输入到全连接层进行降维，最终得到维度为768的向量作为该语言模型的最终输出向量，由所述最终输出向量形成所述日志模板向量。

上述实施例的有益效果在于：将预训练模型的全部参数进行固定，在模型外构建可插入的适配器用于接收模型中部分层的输出，通过调整适配器的参数得到需要的日志语言模型，能够明显缩短耗时，提高效率。

如上所述，本发明的日志语言模型训练方法及系统，具有以下有益效果：本发明能够对不同系统的日志训练对应的日志语言模型，提升日志词向量的语义表达能力；生成的日志模板向量输入到日志异常检测、日志分类等下游任务模型中进行训练，提升了模型的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的日志语言模型训练方法的整体流程示意图；

图2为本发明的日志语言模型训练方法的MLM数据集构造流程图；

图3为本发明的日志语言模型训练方法的NSP数据集构造流程图；

图4为本发明的日志语言模型训练方法的语言模型训练框架图；

图5为本发明的日志语言模型训练方法的适配器结构示意图；

图6为本发明的日志语言模型训练方法的HDFS日志语料库示意图；

图7为本发明的日志语言模型训练方法的HDFS日志异常检测结果示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

术语解释：

AIOps：Artificial Intelligence for IT Operations智能运维。

日志解析：把非结构化的日志转化为结构化的日志，用于日志挖掘，如日志异常检测、故障预测等。

预训练语言模型：预训练语言模型是预训练一个多层网络结构，用以初始化下游任务模型的多层网络结构，可以同时学到浅层信息和深层信息。该模型是一种动态的文本表示方法，会根据当前上下文对文本表征进行动态调整，经过调整后的文本表征更能表达词语在该上下文中的具体含义，能有效处理一词多义的问题。

OOV：Out of Value自然语言处理中常见问题，即当序列中词汇超出了语言模型的词表引发的语言模型无法对该词汇进行编码的问题。

Bert-uncase-based：HuggingFace公司使用掩码语言模型(MLM)对英语语言进行预训练的模型。

MLM：Masked Language Modeling掩码语言模型，将语料中的部分词汇替换为其它词汇，使语言模型通过还原被替换的词汇来学习语料中的语义信息，是BERT模型常用的预训练方法之一。

NSP：Next Sentence Prediction下一句预测，将语料中相邻或不相邻的句子组成句子对，语言模型通过学习两个句子的语义信息判断句子对是否相邻，是BERT模型常用的预训练方法之一。

NLP：Natural Language Processing，自然语言处理。

日志分词：英文翻译为tokenization，指将原始文本分解成小块。分词将原始文本分解为单词，即被称为分词句子。这些分词有助于理解上下文或开发NLP的模型。

句子对：BERT模型预训练数据集中通用术语。名词中的句子对指的是由[CLS]标签和[SEP]标签分隔出的一组词序列，可能由语料中的多个语句组成。

实施例一

请参阅图1至图7，本发明提供一种日志语言模型训练方法，接受日志的输入并构建对应的日志语料库，构造数据集训练相应的日志语言模型，使用日志语言模型对日志模板进行向量表征，将得到的日志模板向量应用到异常检测的下游任务训练中，其中数据集构造具体步骤如下：S1、对日志语料库内日志语料进行分词，然后遍历日志语料；S2、截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B；S3、计算概率，当产生0～1随机数，当数值小于0.5，将句子B替换为其它日志段落中的句子，否则维持句子B不变；拼接句子A和句子B并添加[CLS]和[SEP]标识符，分别构成NSP任务的正例/反例；S4、步骤S3中的句子对中每个词对应的位置打乱，选择词序列排序前15％的句子对进行掩码，每个词有80％的概率替换为[mask]标签，10％的概率替换为词表中的任意词，10％的概率保持原词不变；将被替换的词在词表中的索引作为标签用于MLM任务的训练；S5、将日志语料重复构造十次形成数据集。

请参照图2和图3，由于每次构造的句子对以及被掩码的词汇不同，模型可以更充分的学习到日志语句的语义信息。

在另一可行实施例中，构造用于MLM和NSP任务的数据集时，被掩码的词汇比例除15％外，也可以采用其它比例。将词汇按三种方案对应8：1：1的比例进行替换时，也可采用其它比例，抑或是只使用其中部分替换方法，如将90％的词汇替换为词表中的其它词汇，10％保持不变。

还包括步骤S5后的语言模型训练，具体步骤如下：S6、在通用预训练语言模型的基础上固定预训练语言模型的参数，使其不参与梯度计算；S7、构建三个适配器用于接收预训练语言模型第0、6和11层的输出向量以及前一个适配器的输出向量；具体的，请参阅图5，所述适配器由一个下投影层，两个Transformer编码器和一个上投影层组成，将第0、6和11层的输出向量以及前一个适配器的输出向量相加后用于训练，这样可以在减少模型可训练参数量的同时融合预训练模型中的通用语义信息。

简而言之，本发明的语言模型训练是将预训练模型的全部参数进行固定，在模型外构建可插入的适配器用于接收模型中部分层的输出，通过调整适配器的参数得到需要的日志语言模型。

本实施例中的下游任务训练具体为：训练好的日志语言模型可用来对日志模板进行编码，得到日志模板对应的模板向量。将该向量输入到日志异常检测，日志分类等下游任务模型中进行训练，将提升模型的效果。以日志异常检测模型为例，在用LogAnomaly和LogRobust模型进行异常检测时，相比于目前最常使用的FastText预训练词向量方法，使用日志语言模型生成的日志模板向量训练得到的异常检测模型在多个数据集上的准确率，召回率和F1分数均提升了0.5％-3％。

详细的，预训练语言模型训练时使用交叉熵函数计算损失，AdamW为优化器，适配器隐藏层维度为768维，具体的，将[CLS]对应的输出向量作为整个句子对的表征向量输入到NSP任务分类器中，预测两个句子是否相邻并计算交叉熵损失。整个微调阶段的损失为两部分损失之和，使用AdamW优化器更新模型参数，最终完成日志语言模型的训练。

其中构建对应的日志语料包括步骤S9，日志预处理，包括日志结构和变量类型的识别，即便于在日志解析时进行日志语句的结构拆分和变量替换。日志通常由日志头和日志消息组成，日志头中包含时间戳，日志等级等信息，日志消息中包含程序执行时的操作与对应的结果等丰富的语义信息，因此结构拆分的关键是将日志消息从日志语句中提取出来。提取后的日志消息中往往包含丰富的变量信息，如数字，ip，url，文件路径等，在预处理时需编写对应的正则表达式，用于识别并替换所有的变量信息。

还包括步骤S9之后的步骤S10，日志解析，根据步骤S9得到的日志结构以及变量类型对应的正则表达式，使用日志解析算法，提取日志模板。

所述日志解析算法为Drain、Spell或LogMine。

步骤S4中的掩码采用bert-base-uncased、bert-large或RoBERTa掩码式预训练模型，可以理解的是，在训练带有适配器的日志语言模型时，除了上述的适配器结构外，也可以采用前馈神经网络等简单网络结构进行替换。

本发明的实施例以HDFS日志异常检测数据集为例，本发明的具体实现步骤如下：

第一阶段，构建日志语料库

使用Drain解析方法将HDFS日志解析为日志模板，其中需要识别并替换的变量类型有块id，数字，IP地址等。将日志模板中变量标识符‘<*>’去除，剩余词汇组成日志模板对应的日志语句。以块id为标识符，将日志语句组成具有上下文关系的日志段落，去重后存放到文件中作为HDFS日志语料库，如图6所示。

第二阶段，语言模型训练

选择英文语料预训练的bert-base-uncased作为基础模型，该模型由12层Transformer Encoder组成，生成的词向量维度为768，同时该模型对应的词表大小为30522。借助词表对日志语料进行分词，将日志语句转换为一组索引序列，索引大小位于[0,30521]之间。遍历日志段落中的日志语句，截取长度为512的一组句子用于构建句子对(512为BERT模型可接受的最大序列长度)。将一组句子随机分成两个长句，分别为句子A和句子B。在0-1之间生成随机数，若小于0.5则从其它语段中选择一组句子替换句子B，否则保持不变。将句子A和句子B合并后修剪句子长度，最终将日志语料转换为一组句子对，每个句子对长度为512。

每个句子对中选择15％的词汇进行替换，按8：1：1的比例选择三种词汇替换方式，被替换的词汇索引作为MLM任务的标签。由此构建好微调语言模型所需的数据集。

构建带适配器的日志语言模型。首先需要将预训练语言模型的参数进行固定，然后构建3个适配器用于接收BERT模型第0，6，11输出向量以及前一个适配器的输出向量。最终模型得到两个维度为768维的输出向量，将两个向量连接后输入到全连接层进行降维，最终得到维度为768的向量作为该语言模型的输出向量。模型训练时使用交叉熵函数计算损失，AdamW为优化器，适配器隐藏层维度为768。

编码日志模板。在构建好日志语言模型后，将日志模板语句输入到语言模型中进行编码。以HDFS为例，最终该数据集中的48条日志模板均生成了长度为768维的日志模板向量。

第三阶段，下游任务

使用LogAnomaly和LogRobust异常检测模型进行验证。这两个模型的输入为日志模板序列对应的模板向量序列，输出为序列是否异常。因此本专利将第二阶段生成的日志模板向量作为特征输入到异常检测模型中进行训练。同时选择模型最初使用的FastText预训练词向量(300维)作为实验的baseline。

将所有模型均训练50个epoch后使用相同的测试集进行测试，得到每个模型的准确率，召回率和F1分数。结果如图7所示，从结果中可以看出，日志语言模型生成的日志模板向量对异常检测模型的性能有较大的提升，因此可以说明本专利提出的基于微调的日志语言模型在语义提取能力上要优于现有的预训练词向量方法。

实施例二

本发明提供一种日志语言模型训练系统，基于权利要求1-7任一项所述日志语言模型训练方法，包括数据集构造模块，用于对日志语料库内日志语料进行分词，然后遍历日志语料；截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B；计算概率，产生0～1随机数，当数值小于0.5，将句子B替换为其它日志段落中的句子，否则维持句子B不变；拼接句子A和句子B并添加[CLS]和[SEP]标识符，分别构成NSP任务的正例/反例；将句子对中每个词对应的位置打乱，选择词序列排序前15％的句子对进行掩码，每个词有80％的概率替换为[mask]标签，10％的概率替换为词表中的任意词，10％的概率保持原词不变；将被替换的词在词表中的索引作为标签用于MLM任务的训练；将日志语料重复构造十次形成数据集。

还包括语言模型训练模块，在通用预训练语言模型的基础上固定预训练语言模型的参数，使其不参与梯度计算；构建三个适配器用于接收预训练语言模型第0、6和11层的输出向量以及前一个适配器的输出向量；得到两个维度为768维的初始输出向量，将两个初始输出向量连接后输入到全连接层进行降维，最终得到维度为768的向量作为该语言模型的最终输出向量，由所述最终输出向量形成所述日志模板向量。

综上所述，本发明的日志语言模型训练方法及系统，能够对不同系统的日志训练对应的日志语言模型，提升日志词向量的语义表达能力；生成的日志模板向量输入到日志异常检测、日志分类等下游任务模型中进行训练，提升了模型的效果。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种日志语言模型训练方法，其特征在于，接受日志的输入并构建对应的日志语料库，构造数据集训练相应的日志语言模型，使用日志语言模型对日志模板进行向量表征，将得到的日志模板向量应用到异常检测的下游任务训练中，其中数据集构造具体步骤如下：

S5、将日志语料重复构造十次形成数据集。

2.根据权利要求1所述的日志语言模型训练方法，其特征在于，还包括步骤S5后的语言模型训练，具体步骤如下：

3.根据权利要求2所述的日志语言模型训练方法，其特征在于，预训练语言模型训练时使用交叉熵函数计算损失，AdamW为优化器，适配器隐藏层维度为768维。

4.根据权利要求1所述的日志语言模型训练方法，其特征在于，其中构建对应的日志语料包括步骤S9，日志预处理，包括日志结构和变量类型的识别。

5.根据权利要求4所述的日志语言模型训练方法，其特征在于，还包括步骤S9之后的步骤S10，日志解析，根据步骤S9得到的日志结构以及变量类型对应的正则表达式，使用日志解析算法，提取日志模板。

6.根据权利要求5所述的日志语言模型训练方法，其特征在于，所述日志解析算法为Drain、Spell或LogMine。

7.根据权利要求1所述的日志语言模型训练方法，其特征在于，步骤S4中的掩码采用bert-base-uncased、bert-large或RoBERTa掩码式预训练模型。

8.一种日志语言模型训练系统，基于权利要求1-7任一项所述日志语言模型训练方法，其特征在于：包括数据集构造模块，用于对日志语料库内日志语料进行分词，然后遍历日志语料；截取固定序列长度的日志段落用于构建句子对，即将固定长度的日志段落随机划分为两个长句，分别为句子A和句子B；计算概率，产生0～1随机数，当数值小于0.5，将句子B替换为其它日志段落中的句子，否则维持句子B不变；拼接句子A和句子B并添加[CLS]和[SEP]标识符，分别构成NSP任务的正例/反例；将句子对中每个词对应的位置打乱，选择词序列排序前15％的句子对进行掩码，每个词有80％的概率替换为[mask]标签，10％的概率替换为词表中的任意词，10％的概率保持原词不变；将被替换的词在词表中的索引作为标签用于MLM任务的训练；将日志语料重复构造十次形成数据集。

9.根据权利要求8所述的日志语言模型训练系统，其特征在于，还包括语言模型训练模块，用于在通用预训练语言模型的基础上固定预训练语言模型的参数，使其不参与梯度计算；构建三个适配器用于接收预训练语言模型第0、6和11层的输出向量以及前一个适配器的输出向量；得到两个维度为768维的初始输出向量，将两个初始输出向量连接后输入到全连接层进行降维，最终得到维度为768的向量作为该语言模型的最终输出向量，由所述最终输出向量形成所述日志模板向量。