CN114969241A

CN114969241A - 一种基于rnn神经网络和倒排索引的日志自动化解析方法

Info

Publication number: CN114969241A
Application number: CN202210588074.6A
Authority: CN
Inventors: 应时; 葛心泉; 黄浩; 甘庭
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-30

Abstract

本发明公开了一种基于RNN神经网络和倒排索引的日志自动化解析方法，本发明的日志自动化解析技术分为三个阶段：第一个阶段针对解析完成的日志数据，将日志中的词分为模板类与变量类，并进行标准化处理得到标准化数据；第二个阶段基于RNN神经网络模型对经过处理后的标准化数据进行学习，学习得到能够对日志中词进行二分类的神经网络分类器，根据准确率、召回率和F指标选择最佳模型；第三个阶段根据得到的RNN分类模型，输入待解析的日志消息，对消息内的词进行分类，保留日志消息中模板类的词作为日志模板；利用倒排索引的方式对日志消息进行模板匹配。本发明中的模型具有很强的泛化能力，能够在不同的日志数据集上取得较高的解析精度。

Description

一种基于RNN神经网络和倒排索引的日志自动化解析方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于RNN神经网络和倒排索引的日志自动化解析方法。

背景技术

在许多软件系统的开发和维护过程中，日志都是必不可少的。他们记录详细运行时信息，使开发人员和维护工程师可以监视他们的系统并分析异常行为和错误。日志中包含的丰富信息以及系统中无处不在的日志使得许多系统管理和诊断任务变得可能，例如分析使用情况，保证应用安全，分辨性能异常，诊断系统的错误与崩溃。

但是随着现代软件系统的规模和复杂性的提升，随之产生的日志数量也爆炸性地增长。在许多场合，传统的手动日志检查方式变得不切合实际。最近的许多研究以及工业界所使用的工具，借助强大的基于文本和机器学习的工具分析解决上述问题的方案。因为日志的非结构性特点，第一个关键的步骤就是解析日志为结构化的数据，为了后续工作的分析做准备。

国内外自动化日志解析的技术主要包括基于频繁模式挖掘、聚类、启发式方法这三类方法。

基于频繁模式挖掘方法方面，日志事件的模板可以看作一组不变的在日志中经常出现的记号。频繁模式挖掘是一种很直接的方法。SLCT、LFA、LogCluster就是利用的这种方法。所有方法都是离线的，而且遵循相似的解析步骤：多次遍历数据、每次遍历建立频繁模式项集、将日志消息进行聚类、从每个簇中提取事件模板。这种方法无法做到在线对日志进行解析。

基于聚类的方法方面，事件模板形成了日志消息自然的模式组，从这个角度来看日志解析可以看作日志消息的聚类问题。LKE、LogSig、LogMine是运用聚类算法的离线算法，SHISO、LenMa是在线算法。LKE算法采用了基于成对编辑的分层日志距离聚类算法。LogSig是一个基于消息签名的算法，用于将日志消息聚类到预定义数量的簇中。LogMine能够基于层次聚类的算法产生事件模板，自下而上的将日志消息分组。SHISO和LenMa都是在线方法，用相似的流处理的方法解析日志。对于每条到来的日志消息，解析器首先计算与现有的日志模板之间的相似度。如果成功地匹配，则将这条日志归类到已有模板中；否则，建立新的消息模板。使用聚类方法，对不同的日志数据需要设置不同的参数，使得方法的泛用性不强。

启发式方法方面，与通常的文字数据不同，日志消息有一些独特的特征。AEL、IPLoM、Drain提出了基于启发式方法的日志解析器。特别地，AEL通过比较常量记号与变量记号的出现频率将日志消息进行分类。IPLoM使用了一种迭代的分类方法，基于日志的消息长度、记号出现的位置和对应关系。Drain运用了修改的深度树结构去表示日志，并且从日志中高效地提取模板。启发式方法需要引入较多的前置知识，并且对日志数据需要进行假设，在不同的日志数据之间迁移性不高。

在与本发明密切相关的基于机器学习的日志自动化解析方法上，在自动化日志解析上，Tong Xiao等人考虑了日志数据中词的词频出现概率，用机器学习中经典的Word2Vec预处理方法对词进行向量化，再利用聚类方法将相同类型的日志模板分为一类。SashoNedelkoski等人提出了一种利用自然语言处理中流行的掩码模型(masked languagemodeling)方法，用自监督的深度学习技术进行自动化日志解析。Weibin Meng等人在已有的日志解析器基础上，利用解析好的日志数据作为训练集，用SVM方法训练了一个词分类器，用于后续更新日志的解析。

目前对于自动日志解析技术大部分都需要已有的日志数据集作为训练集，并且该训练集与需要被解析的日志数据属于同一个系统所产生的。另外，现有的日志解析器仍需要部分手动定义的正则表达式，在不同的日志数据集间的泛化性不强。

发明内容

本发明提供一种基于RNN神经网络和倒排索引的日志自动化解析方法，用以解决或者至少部分解决现有技术中存在的泛化性不强、解析效率不高的技术问题。

本发明提供了一种基于RNN神经网络和倒排索引的日志自动化解析方法，包括：

S1：获取历史日志数据，并对历史日志数据进行预处理和标准化处理，得到标准化数据，基于标准化数据得到训练数据集；

S2：利用RNN神经网络模型训练数据集进行学习，根据训练数据集得到多个模型，计算每种模型的分类准确率、召回率和F指标，并基于分类准确率、召回率和F指标得到最佳模型，作为分类器；

S3：将待解析的日志数据进行预处理后输入所述分类器中进行分类，得到分类结果，分类结果包括日志模板类和变量类；再利用倒排索引的数据结构以及分类器得到的分类结果，对待解析的日志数据进行模板提取以及模板匹配，得到标准化的日志模板，其中，倒排索引的数据结构为一个Python字典；已解析的日志数据被分配唯一的模板ID后，将该条日志中的模板词作为键，模板ID作为值，以键值对的形式加入Python字典中，模板词为被分类器分类为日志模板类的词语。

在一种实施方式中，步骤S1包括：

S1.1：从历史日志数据中提取组成日志消息的词语；

S1.2：对步骤S1.1中提取出的组成日志消息的词语进行分类，分为日志模板类以及变量类，对两类数据进行人工标注，其中日志模板类是在日志生成过程中人工定义的部分，变量类是在日志生成过程中程序生成的部分；

S1.3：对标注后的词语进行标准化处理，得到标准化数据，作为训练数据集。

在一种实施方式中，根据标准化数据得到测试数据集，步骤S2包括：

S2.1：将训练数据集中的数据用One-Hot编码方式进行向量化处理，得到每一个词的向量表示；

S2.2：将训练数据集中词的向量表示输入预先构建的RNN神经网络进行训练；

S2.3：使用测试数据集对训练得到的RNN神经网络模型进行测试，根据分类准确率、找回率和F指标三个标准得到最佳模型，作为分类器。

在一种实施方式中，步骤S3将待解析的日志数据进行预处理后输入所述分类器中进行分类，包括：

S3.1：对待解析的日志数据进行内部部分提取，提取出组成日志消息的词语；

S3.2：将提取出的词语利用One-Hot编码方式进行向量化处理，输入到步骤S2中得到的分类器，得到一个分类结果：日志模板类或者变量类。

在一种实施方式中，步骤S3利用倒排索引的数据结构以及分类器得到的分类结果，对待解析的日志数据进行模板提取以及模板匹配，得到标准化的日志模板，包括：

S3.3：对尚未解析的日志消息，当该日志消息中的词语被分类器分类为日志模板类时，在Python字典中查询与该词语对应的模板ID号；

S3.4：取所有模板词对应的模板ID号的交集，得到唯一的模板ID，作为当前日志消息的匹配模板ID。

本申请相对于现有技术的主要特点和创新之处在于：

1.提出了将日志中的词分为日志模板类与变量类，将日志解析问题转化为词分类问题。使得使用深度学习技术成为可能。

2.提出了使用与待解析日志不同类型的日志数据作为训练集，从字符级(character level)的角度挖掘出模板类与变量类在不同数据集中的相似性及差异性，并且使用RNN神经网络描述这种特征。

3.在本发明的方法中没有使用大部分方法中需要的正则表达式，使得方法具有较强的迁移性。同时，倒排索引的技术能够以较高的精度对未匹配的日志进行匹配，提高了方法的精确度。

本发明创建的基于RNN神经网络和倒排索引的日志自动化解析技术与国内外已有的日志解析技术相比具有更加强大的泛化能力，使用RNN神经网络作为分类器，使得在解析过程中不需要额外的人工定义正则表达式，能够使该方法简单地在不同日志数据集之间进行迁移；利用倒排索引的技术，能够高效快速地对未匹配的日志进行匹配，提高了日志解析的解析精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中RNN神经网络训练过程示意图；

图2是本发明实施例中使用RNN神经网络以及倒排索引方法进行模板提取的流程示意图。

具体实施方式

本发明提出一种基于RNN神经网络和倒排索引的日志模板提取方法，用于将非结构化的日志解析为结构化的模板形式。传统的日志解析方法大部分需要基于手动定义的正则表达式来对日志内容进行解析，且对不同的日志数据集要设置不同的参数来保证解析精度，这就导致了传统方法在不同日志数据上的迁移性不强、泛化能力不够。本发明通过将日志中的词分为日志模板类与变量类，在字符的层面上揭露出两者的差异，使用RNN神经网络模型作为分类器，可以使得方法的迁移性提高，在不同的日志数据集上都能够获得较高的精度，且不需要人为修改已定义的正则表达式。利用倒排索引的技术，可以加快日志的解析过程，提高解析效率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于RNN神经网络和倒排索引的日志自动化解析方法，包括：

S2：利用RNN神经网络模型训练数据集进行学习，根据训练数据集得到多个模型，计算每种模型的分类准确率、召回率和F指标((F-measure))，并基于分类准确率、召回率和F指标得到最佳模型，作为分类器；

S3：将待解析的日志数据进行预处理后输入所述分类器中进行分类，得到分类结果，分类结果包括日志模板类和变量类；

具体实施过程中，通过步骤S3中分类器的分类后，保留分类结果为日志模板类的词作为模板词，得到标准化的日志模板再利用标准化日志模板匹配后续日志消息。

本发明提出使用RNN神经网络模型作为分类器，通过训练神经网络将日志中的词分为日志模板类与变量类。如图1所示，首先选取已有的日志数据集(历史日志数据)，需要说明的是，已有日志数据可以是与待解析日志同类型的日志数据，也可以是不同的日志数据集。通过对日志数据进行人工标注，将日志数据中的词分为模板类与变量类。接下来使用One-Hot编码方式将词进行向量化处理后，送入到RNN神经网络进行训练。根据模型的精准度、F值等指标，选择最优模型作为后续步骤的分类器。

本发明提出将RNN神经网络模型与倒排索引相结合，对原始日志进行模板提取，流程请见图2。

①原始日志预处理：通过预先定义好的方式，对日志消息中的无关信息进行处理，只保留日志消息内容，即提取出构成日志消息内容的词语。

②日志中的词分类：使用训练好的RNN神经网络，将日志中词经过向量化后输入到RNN模型中，得到一个分类结果。

③模板匹配：根据一条日志中词分类的结果，利用倒排索引，查找相匹配的日志模板；如果匹配成功，则分配一个模板ID；如果匹配失败，则进入模板提取环节，提取模板。

④模板提取：如果当前日志没有模板匹配，则进入模板提取环节，根据RNN模型分类结果，保留模板类的词，将变量类用‘<*>’替代。

⑤分配模板ID：经过模板匹配与模板提取后的日志，最终分配一个模板ID号，作为最后的解析结果。

本发明对日志自动化解析技术进行分析，解析过程利用预训练好的RNN神经网络分类器对待解析日志消息词进行分类，并且利用倒排索引技术对未解析的日志数据进行匹配。需要注意的是，此方法不需要定义正则表达式，并且用于训练RNN神经网络的日志数据可以与待解析的日志数据无关联。

在一种实施方式中，步骤S1包括：

S1.1：从历史日志数据中提取组成日志消息的词语；

具体实施过程中，训练数据集的日志数据，可以是与待解析日志从属于同一个系统的日志，也可以是从属于不同系统的日志数据。经过人工标注，将日志数据中的词分为日志模板类与变量类。

在一种实施方式中根据标准化数据得到测试数据集，步骤S2包括：

具体实施过程中，在模型调优过程中，可以设置不同超参数的参数值，如隐藏层大小，学习率等值，用测试数据集对模型进行测试，根据标准选择效果最好的RNN神经网络模型，作为后续步骤的分类器。需要说明的是，本发明实施例的方法聚焦于日志数据中日志模板类与变量类在字符构成上的差异，用神经网络表示这种差异性，且这种差异性在不同的日志数据集间具有普遍性。因此，在步骤S1中能够使用不同类的日志数据作为神经网络的训练集。

具体来说，Python字典是预先构建的，对于历史日志数据中的每一条日志消息，如果当中的词语被分类器判断为变量类，则利用通配符‘<*>’替代；如果被判断为模板类，则在日志消息中保留。日志被解析为模板的形式。为日志中每一个被保留的模板词分配一个唯一的、从0开始自增的模板ID号，并且将模板词作为键，模板ID作为值，将它们以键值对的形式加入到一个Python字典中。对尚未解析的日志消息，当中的词被判断为模板类后，对被判断为模板类的每一个词查询Python字典中对应的模板ID号，并且取这些模板词对应的模板ID号的交集，得到唯一的模板ID，作为当前日志消息的匹配模板ID。

具体实施过程中，首先进行模板匹配，如果当前日志匹配到现有模板，则直接分配模板ID；如果没有匹配到现有模板，则根据分类器的分类结果，在日志模板中保留分类结果为模板类的词，对变量词用通配符’<*>’替代。最终得到一条日志模板，分配一个唯一的模板ID。对于模板中保留的模板词，将模板ID号与该条日志中的模板词以键值对的形式加入到倒排索引中。在进行模板匹配时，根据分类器的分类结果，如果一个词被判断为模板词，首先在倒排索引中查询它的对应的模板ID；对一条日志中所有被判断为模板词的词执行此操作，对获得的所有模板ID取交集，最终得到唯一的模板ID，则为匹配成功的模板ID号，分配给当前日志。

与现有技术相比较，本发明的有益效果在于：

1.提出了将日志中的词分为模板类与变量类，将日志解析问题转化为词分类问题。使得使用深度学习技术成为可能。

3.在本方法中没有使用大部分方法中需要的正则表达式，使得方法具有较强的迁移性。同时，倒排索引的技术能够以较高的精度对未匹配的日志进行匹配，提高了方法的精确度。

本发明创建的基于RNN神经网络和倒排索引的日志自动化解析技术与国内外已有的日志解析技术相比具有更加强大的泛化能力，使用RNN神经网络作为分类器，使得在解析过程中不需要额外的人工定义正则表达式，能够使该方法简单地在不同日志数据集间迁移；利用倒排索引的技术，能够高效快速地对未匹配的日志进行匹配，提高了日志解析的解析精度。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于RNN神经网络和倒排索引的日志自动化解析方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1包括：

S1.1：从历史日志数据中提取组成日志消息的词语；

3.如权利要求1所述的方法，其特征在于，根据标准化数据得到测试数据集，步骤S2包括：

4.如权利要求1所述的方法，其特征在于，步骤S3将待解析的日志数据进行预处理后输入所述分类器中进行分类，包括：

5.如权利要求1所述的方法，其特征在于，步骤S3利用倒排索引的数据结构以及分类器得到的分类结果，对待解析的日志数据进行模板提取以及模板匹配，得到标准化的日志模板，包括：