CN110990353A

CN110990353A - 日志提取方法、日志提取装置及存储介质

Info

Publication number: CN110990353A
Application number: CN201911271340.7A
Authority: CN
Inventors: 李岩; 邝展华; 龚向宇; 曾宪峰; 李雯; 郑其进
Original assignee: SHENZHEN STOCK EXCHANGE
Current assignee: SHENZHEN STOCK EXCHANGE
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-10
Anticipated expiration: 2039-12-11
Also published as: CN110990353B

Abstract

本发明公开了一种日志提取方法，包括以下步骤：对未匹配日志消息进行分类，并根据分类结果确定父染色体；基于所述父染色体进行迭代繁衍，其中，所述父染色体在迭代繁衍时通过交叉和变异生成子代染色体；在迭代预设代数后，根据最终代染色体确定日志提取模板，并根据所述日志提取模板进行日志提取。本发明还公开了一种日志提取装置及计算机可读存储介质，达成了提升日志提取的准确性的效果。

Description

日志提取方法、日志提取装置及存储介质

技术领域

本发明涉及日志处理技术领域，尤其涉及日志提取方法、日志提取装置及计算机可读存储介质。

背景技术

日志用于收集一个IT(Internet Technology，互联网技术)系统的运行信息，包括日期、时间、使用者及/或动作等相关操作的描述。在对IT系统的运行状态进行分析时，需要提取日志。

在传统技术中，一般通过聚类方法对日志的相似性和重复技术进行分析，以生成日志提取目模板。为提高日志提取的准确性，则需要使得日志提取模板满足高特异性和高匹配度的要求。但是高特异性和高匹配度是互相矛盾的，而聚类方法又无法解决这一矛盾，导致存在日志提取的准确性较低的缺陷。

发明内容

本发明的主要目的在于提供一种日志提取方法、日志提取装置及计算机可读存储介质，旨在达成提升日志提取的准确性的效果。

为实现上述目的，本发明提供一种日志提取方法，所述日志提取方法包括以下步骤：

对未匹配日志消息进行分类，并根据分类结果确定父染色体；

基于所述父染色体进行迭代繁衍，其中，所述父染色体在迭代繁衍时通过交叉和变异生成子代染色体；

在迭代预设代数后，根据最终代染色体确定日志提取模板，并根据所述日志提取模板进行日志提取。

可选地，所述对未匹配日志消息进行分类，并根据分类结果确定父染色体的步骤之前，还包括：

对初始日志消息进行预处理，其中所述预处理包括去无关量和/或去重；

将预处理后的所述初始日志消息作为所述未匹配日志消息。

可选地，所述对未匹配日志消息进行分类，并根据分类结果确定父染色体的步骤包括：

在所述未匹配日志消息中随机选定一日志消息，并根据选定的所述日志消息生成模板；

提取所述未匹配日志中与所述模板匹配的日志作为同类日志消息；

重复执行上述步骤，并在将全部未匹配日志全部提取后，将根据每一同类日志消息中编码数量相同的日志消息生成的模板作为一染色体的基因，生成多个父染色体。

可选地，基于所述父染色体进行迭代繁衍的步骤包括：

对所述父染色体进行配对；

对每一对所述父染色体进行交叉处理；

对交叉处理后的父染色体进行变异处理，生成子代染色体；

将生成的所述子代染色体作为新的父染色体，直至迭代所述预设代数后结束。

可选地，所述对所述父染色体进行配对的步骤包括：

计算每一父染色体的适应度函数值；

根据所述适应度函数对所述父染色体进行排序；

根据所述排序结果对所述父染色体进行配对。

可选地，所述对每一对所述父染色体进行交叉处理的步骤包括：

获取预设的混沌序列计算方程，并根据所述混沌序列计算方程确定混沌值；

根据所述混沌值确定交叉点，并交换匹对的父染色体上交叉点处的基因。

可选地，每一所述日志包括固定字段和通配符，所述对交叉处理后的父染色体进行变异处理，生成子代染色体的步骤包括：

获取预设的固定字段变异概率以及通配符变异概率；

基于所述固定字段变异概率将所述固定字段变异为通配符，以及基于所述通配符变异概率将所述通配符变异为固定字段。

此外，为实现上述目的，本发明还提供一种日志提取装置，所述日志提取装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志提取装置的控制程序，所述日志提取装置的控制程序被所述处理器执行时实现如上所述的日志提取方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有日志提取装置的控制程序，所述日志提取装置的控制程序被处理器执行时实现如上所述的日志提取方法的步骤。

本发明实施例提出的一种日志提取方法、日志提取装置及计算机可读存储介质，可以先对未匹配日志消息进行分类，并根据分类结果确定父染色体，然后基于所述父染色体进行迭代繁衍，其中，所述父染色体在迭代繁衍时通过交叉和变异生成子代染色体，并在迭代预设代数后，根据最终代染色体确定日志提取模板，并根据所述日志提取模板进行日志提取。由于可以使用改进遗传算法优化日志编码方案，以及使用混沌序列的方法来选取交叉位置，使得日志模板可以兼容高匹配度和高特异性，从而达成了提高日志消息提取时的准确性的效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明日志提取方法一实施例的流程示意图；

图3为本发明另一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于在传统技术中，一般通过聚类方法对日志的相似性和重复技术进行分析，以生成日志提取目模板。为提高日志提取的准确性，则需要使得日志提取模板满足高特异性和高匹配度的要求。但是高特异性和高匹配度是互相矛盾的，而聚类方法又无法解决这一矛盾，导致存在日志提取的准确性较低的缺陷。

为解决上述缺陷，本发明实施例主要提供一种日志提取方法，其主要解决方案是：

由于可以使用改进遗传算法优化日志编码方案，以及使用混沌序列的方法来选取交叉位置，使得日志模板可以兼容高匹配度和高特异性，从而达成了提高日志消息提取时的准确性的效果。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是服务器。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及日志提取装置的控制程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的日志提取装置的控制程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的日志提取装置的控制程序，还执行以下操作：

将预处理后的所述初始日志消息作为所述未匹配日志消息。

对所述父染色体进行配对；

对每一对所述父染色体进行交叉处理；

对交叉处理后的父染色体进行变异处理，生成子代染色体；

计算每一父染色体的适应度函数值；

根据所述适应度函数对所述父染色体进行排序；

根据所述排序结果对所述父染色体进行配对。

获取预设的固定字段变异概率以及通配符变异概率；

参照图2，在本发明日志提取方法的一实施例中，所述日志提取方法包括以下步骤：

步骤S10、对未匹配日志消息进行分类，并根据分类结果确定父染色体；

步骤S20、基于所述父染色体进行迭代繁衍，其中，所述父染色体在迭代繁衍时通过交叉和变异生成子代染色体；

步骤S30、在迭代预设代数后，根据最终代染色体确定日志提取模板，并根据所述日志提取模板进行日志提取。

在本实施例中，GALM(GA-based LOG Modelling，基于遗传算法的测井建模)可以将一组日志消息作为输入，即将一组日志消息作为所述未匹配日志消息。

当接收到所述未匹配日志消息时，可以在所述未匹配日志中随机选定一日志消息，并根据选定的所述日志消息生成模板。

具体地，GALM可以先创建一空模板，然后在所述未匹配日志消息中随机选定一日志消息，并用通配符替换提取的日志消息中的随机字段，从而将用通配符替换随机字段的日志消息作为模板。

当根据当前提取的日志消息生成模板后，可以根据所述模板去更新未匹配日志消息集合中的其它日志消息。并将与所述模板匹配的其它日志消息提取，并根据提取的日志消息生成一种群。即提取所述未匹配日志中与所述模板匹配的日志作为同类日志。

需要说明的是，在根据提取的日志消息生成模板集合时，可以将提取的日志消息中的随机字段替换为通配符。

进步一地，可以重复执在所述未匹配日志中随机选定一日志消息，并根据选定的所述日志消息生成模板；提取所述未匹配日志中与所述模板匹配的日志作为同类日志消息的步骤，直至提取完所述未匹配日志消息集合中的所有日志消息时结束。

当提取完所述未匹配日志消息集合中的全部日志消息后，可以得到多个种群。然后获取所述多个种群中，每一种群的个体编码数量，将统一种群中，编码数量相同的个体作为一染色体的基因。使得可以在同一种群内生成多个染色体。

然后将所述多个染色体作为父染色体进行迭代繁衍。即当获取到多个父染色体后，可以对所述父染色体进行配对，然后对对每一对所述父染色体进行交叉处理和变异处理生成子代染色体。

并将当前生成的子代染色体再次作为新的父染色体，进行配对后，在进行交叉和变异，生成第三代染色体。依次类推，直至迭代次数达到预设代数后结束。

具体地，当确定父染色体后，可以计算每一父染色体的适应度函数值，并根据所述适应度函数值的大小对所述父染色体进行排序。进而根据所述排序结果对所述父染色体进行配对。例如，可以在根据适应度函数值对父染色体进行排序后，可以将根据排序顺序进行一一配对。

进一步地，在确定父染色体的配对结果后可以获取预设的混沌序列计算方程，并根据所述混沌序列计算方程确定混沌值，然后根据所述混沌值确定交叉点，并交换匹对的父染色体上交叉点处的基因。

具体地，使用Logistics(计算科学)混沌序列确定交叉点位置。即取一个(0，1)区间上的随机数作为初值，然后利用x(n)＝4*x(n-1)(1-x(n-1))迭代产生一个(0，1)区间的混沌值，保存以上混沌值作为产生下一代交叉项的混沌迭代初值，再把这个值分别乘以父染色体的编码数量L，再加上1，最后取整作为交叉点，得到整个混沌序列，互换交叉点的基因，形成新的子代。由于仅仅更换部分点基因，没有连成片段，改动较小，这样可以避免遗传算法在组合优化应用中产生的寻优抖振问题。

示例性地，获得两个后代O1和O2的方法如下：

当β(交叉算子)中长度为L组中的二进制元素为0时，后代O1继承组AL(AL为种群A中编码长度为L的父染色)，而O2继承组BL(BL为种群B中编码长度为L的父染色)；否则，O1继承组BL，而O2继承组AL。

交叉算子举例β：【0 0 0 1 1】

需要说明的是，此交叉运算符在两个父体之间交换模板组，而不更改组成每个组的模板集。因此，它生成的是合法解决方案：每个组AL∈A和BL∈B涵盖所有日志消息(不会出现重叠的模板匹配相同的日志消息)。由于AL和BL不由我们的交叉修改，因此上述属性将独立保存，后代从中继承这两个组。

进一步地，交叉后使用变异算子对子代进行突变，以随机更改生成的模板。其中，在进行变异处理时先删除重叠模板(即两个或多个与相同预处理的日志消息匹配的模板)。以及如果突变的组模板与初始未匹配日志消息集中的所有消息不匹配，则添加随机生成的模板。

可选地，还可以对一个模板τ进行后处理，该过程会暂时删除其可变标记之一，并检查匹配τ的日志消息集是否保持不变。如果应用的更改影响匹配日志消息集，则更改将被回滚；如果应用的更改不影响匹配的日志消息集，则将维持更改。

如果经过多次迭代后，生成的Pareto(帕累托)最优的解决方案数量很大，则可能很难在不同的备选方案中选择一种解决方案(最佳权衡)。因此，可以查找pareto front(最优边界)的兴趣点，如膝关节点、中点或每个目标的最佳点对应的模板。

进一步地，当确定模板后，可以根据模板提取日志消息。

可以理解的是，所述日志提取方法的实施装置可以是基于B/S(Browser/Server，浏览器/服务器模式)架构的装置，即可以基于浏览器获取日志编码器的输出。例如，当服务器基于上述日志提取方法确定处理结果后，PC机可以通过浏览器与所述服务器连接，然后接收所述服务器确定的所述处理结果，并输出所述处理结果。

需要说明的是，本发明实施例并不限定所述处理结果的输出方式。在本发明公开的技术方案中，可以先对未匹配日志消息进行分类，并根据分类结果确定父染色体，然后基于所述父染色体进行迭代繁衍，其中，所述父染色体在迭代繁衍时通过交叉和变异生成子代染色体，并在迭代预设代数后，根据最终代染色体确定日志提取模板，并根据所述日志提取模板进行日志提取。由于可以使用改进遗传算法优化日志编码方案，以及使用混沌序列的方法来选取交叉位置，使得日志模板可以兼容高匹配度和高特异性，从而达成了提高日志消息提取时的准确性的效果。

参照图3，基于上述实施例，在另一实施例中，所述步骤S10之后，还包括：

步骤S40、对初始日志消息进行预处理，其中所述预处理包括去无关量和/或去重；

步骤S50、将预处理后的所述初始日志消息作为所述未匹配日志消息。

在本实施例中，可以在开始搜索过程之前，先对日志消息进行预处理，以提高处理的准确性。

具体地，可以设置用于标识日志中不重要可变部分的正则表达式，即基于域知识的消息，例如数字、内存和IP地址。日志消息中与这些规则匹配的字符串表达式替换为特殊变量标记，在后续的迭代过程中不参加变异。

为了减少模板识别过程的计算成本，还可以过滤删除重复的日志消息，减少消息数量。空格、括号和标点符号将被标记为单词分隔符。最后，相同符号长度的日志被分到一个bucket(数据存放容器)中。

在本实施例公开的技术方案中，可以先对初始日志消息进行预处理，并将预处理后的所述初始日志消息作为所述未匹配日志消息，这样达成了提高处理的准确性的效果。

此外，本发明实施例还提出一种日志提取装置，所述日志提取装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志提取装置的控制程序，所述日志提取装置的控制程序被所述处理器执行时实现如上各个实施例所述的日志提取方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有日志提取装置的控制程序，所述日志提取装置的控制程序被处理器执行时实现如上各个实施例所述的日志提取方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是服务器、计算机等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种日志提取方法，其特征在于，所述日志提取方法包括以下步骤：

2.如权利要求1所述的日志提取方法，其特征在于，所述对未匹配日志消息进行分类，并根据分类结果确定父染色体的步骤之前，还包括：

将预处理后的所述初始日志消息作为所述未匹配日志消息。

3.如权利要求1所述的日志提取方法，其特征在于，所述对未匹配日志消息进行分类，并根据分类结果确定父染色体的步骤包括：

4.如权利要求1所述的日志提取方法，其特征在于，基于所述父染色体进行迭代繁衍的步骤包括：

对所述父染色体进行配对；

对每一对所述父染色体进行交叉处理；

对交叉处理后的父染色体进行变异处理，生成子代染色体；

5.如权利要求4所述的日志提取方法，其特征在于，所述对所述父染色体进行配对的步骤包括：

计算每一父染色体的适应度函数值；

根据所述适应度函数对所述父染色体进行排序；

根据所述排序结果对所述父染色体进行配对。

6.如权利要求4所述的日志提取方法，其特征在于，所述对每一对所述父染色体进行交叉处理的步骤包括：

7.如权利要求4所述的日志提取方法，其特征在于，每一所述日志包括固定字段和通配符，所述对交叉处理后的父染色体进行变异处理，生成子代染色体的步骤包括：

获取预设的固定字段变异概率以及通配符变异概率；

8.一种日志提取装置，其特征在于，所述日志提取装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志提取装置的控制程序，所述日志提取装置的控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的日志提取方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有日志提取装置的控制程序，所述日志提取装置的控制程序被处理器执行时实现如权利要求1至7中任一项所述的日志提取方法的步骤。