CN111581057B

CN111581057B - 一种通用日志解析方法、终端设备及存储介质

Info

Publication number: CN111581057B
Application number: CN202010379526.0A
Authority: CN
Inventors: 姚鸿富; 陈奋; 陈荣有
Original assignee: Xiamen Fuyun Information Technology Co ltd
Current assignee: Xiamen Fuyun Information Technology Co ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-06-14
Anticipated expiration: 2040-05-08
Also published as: CN111581057A

Abstract

本发明涉及一种通用日志解析方法、终端设备及存储介质，该方法中包括：采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息。本发明根据编辑距离将日志消息进行分组，从分组中提取得到该组的日志类别模板，可以效率较高地解析各种类型的日志消息，具有较高的准确率、实现简单且支持在线处理。

Description

一种通用日志解析方法、终端设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种通用日志解析方法、终端设备及存储介质。

背景技术

系统日志是现代信息系统不可或缺的一部分。系统日志作为一个通用的数据源，包含了关于系统的重要信息，如使用模式、执行路径和程序运行状态等，是帮助这些信息系统分析运行状态的宝贵资产，以便获得有助于增强系统健康性、稳定性和可用性的见解。对日志的分析可用于信息系统检测执行异常、监视网络故障、发现安全风险和诊断性能问题，甚至查找软件错误。然而日志消息通常是自然语言文本的非结构化数据，开展上述分析需要一个将非结构化的日志数据转化为结构化的数据的过程，称之为日志解析。每个日志消息都是由日志语句打印，并用其消息头和消息内容记录特定的系统事件。消息头通常由日志框架确定，因此可以相对容易地提取，例如时间戳、详细级别(例如ERROR/INFO/DEBUG)和组件(component)等。相反，开发人员编写的日志消息内容通常很难结构化，因为它是由常量字符串和变量值组成的。结构化日志解析器是大多数自动和智能日志挖掘和数据驱动日志分析解决方案的首要步骤，也是日志管理系统中管理日志的关键步骤。仅当日志解析精度足够高时，日志挖掘和分析才有效；因为日志挖掘可能对某些关键事件敏感，关键事件上的4％解析错误可能导致日志挖掘中性能下降一个数量级。一种可能的解析方法是将日志条目解析为Log Key和参数向量。Log Key是日志输出源代码中的固定字符部分，而可变的部分通常构造成参数向量。传统的日志解析方法依赖于手工构建的正则表达式或grok模式来提取事件模板和关键参数，这是一件容易出错且工作量巨大的工作。也有直接从源代码中提取事件模板的静态分析技术，但是这不通用，很多时候分析者并没有应用程序的源码。也有使用数据驱动的方法开展日志解析的，但是在面对越来越复杂的系统和应用，这些方法通常也难以同时满足高效率、高准确率、通用、及时响应、支持在线处理等要求。

发明内容

为了解决上述问题，本发明提出了一种通用日志解析方法、终端设备及存储介质。

具体方案如下：

一种通用日志解析方法，包括以下步骤：

采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息。

进一步的，日志组的划分方法为：当处理第一条日志消息时，新增一个日志组，将第一条日志消息添加至该日志组内，并设定该第一条日志消息为日志组的代表样本；当处理后续的日志消息时，计算该日志消息与各日志组对应的代表样本的日志消息内容之间的编辑距离相似度，如果存在编辑距离相似度大于相似度阈值，则将该日志消息添加至编辑距离相似度最高时对应的日志组内，并更新添加后的日志组的代表样本；否则，新增一个日志组，将该日志消息添加至新增的日志组内，并设定为添加后的日志组的代表样本。

进一步的，所述编辑距离相似度通过Levenshtein编辑距离进行计算。

进一步的，更新日志组的代表样本的方法为：当该日志组每新增额定数量的不重复日志消息后，取该日志组的所有日志消息中日志消息内容长度为所有日志消息中日志消息内容长度的中位数的日志消息作为该日志组的代表样本。

进一步的，提取日志消息中日志消息内容的结构化信息的方法为：针对每个日志组设定对应的结构化存储格式，将每条日志消息的日志消息内容按照其对应的结构化存储格式进行提取。

进一步的，结构化存储格式包括事件模板类型ID，事件模板和参数向量列表，其中：

事件模板类型ID与日志组的ID相对应；

事件模板的设定方法为：针对每一日志组，随机选取该日志组内的至少一百条日志消息，以分隔符对选取的每条日志消息的消息内容进行分割，获得相应数量的分割后的日志消息序列；依次遍历所述日志消息序列的各个位置，如果日志消息序列中每一个序列的第i个位置的词频最高的词的出现频率大于频率阈值，则设定该词为事件模板中第i个位置对应的词；否则，将事件模板中第i个位置的内容设定为代表参数变量的特定符号；

参数向量列表为日志消息中与系统运行状态相关的变量。

进一步的，对日志消息进行日志组划分之前还包括对日志消息进行预处理，将不同日志消息中的属性相同但内容不同的字符串替换为的相同符号。

一种通用日志解析终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，根据编辑距离将日志消息进行分组，从分组中提取得到该组的日志类别模板，可以效率较高地解析各种类型的日志消息，具有较高的效率、较高的准确率、实现简单且支持在线处理。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中日志消息预处理的示意图。

图3所示为该实施例中日志消息分组的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种通用日志解析方法，如图1所示，所述方法包括以下步骤：

S1：日志消息采集。

日志消息是系统或应用在运行时生成的，日志消息可以通过Flume和Kafka等数据流传输管道聚合到一个指定的集中存储的位置，以便于进行解析、查询、分析等深入处理。

S2：对采集的日志消息进行预处理。

如图2所示，该实施例中对日志消息的预处理为将不同日志消息中的属性相同但内容不同的字符串替换为的相同符号，该实施例中上述字符串包括但不限于：IP、文件路径、URL、HDFS中的blk_id、时间日期、纯数字等，替换方法如：针对含IP或IP:端口号的日志的相应位置替换为<ip>；纯数字相应的位置替换为<num>；时刻替换为<time>；日期替换为<date>；以此类推。该实施例中的日志消息的预处理为可选步骤，通过增加预处理的步骤可以一定程度提高整体的解析准确率，避免极端情况下解析出错。

S3：根据编辑距离相似度将采集的日志消息划分为不同的日志组。

日志消息是长度相对短的文本，一般是使用空格符号作为分割符号的自然语言。日志消息之间同一打印语句的固定部分，即LogKey相比于可变部分一般占比更大，因此，如果把同一打印语句的输出日志消息视为同一类，不同打印语句的输出日志消息视为不同类，那么不同组之间的日志消息的相似性较低。对于日志消息这种短文本，编辑距离是一种合适的刻画日志之间相似程度的指标。因此，该实施例中采用编辑距离相似度来对日志消息进行分组。

如图3所示，该实施例采用的划分方法为：当处理第一条日志消息时，新增一个日志组E0，将第一条日志消息添加至该日志组E0内，并设定该第一条日志消息为日志组E0的代表样本。当处理后续的日志消息时，计算该日志消息与各日志组对应的代表样本的编辑距离相似度，如果存在编辑距离相似度大于预先设定的相似度阈值，则将该日志消息添加至计算编辑距离相似度最高时对应的日志组内，并更新添加后的日志组的代表样本；否则，新增一个日志组，将该日志消息添加至新增的日志组内，并设定为添加后的日志组的代表样本。

所述相似度阈值本领域技术人员可以根据经验和实验进行设定，在此不做限制。本实施例中经过实验优选设定为0.7。

日志消息分组完成后，为每个日志组设定独立的日志组ID。

该实施例中的编辑距离相似度通过Levenshtein编辑距离来计算，其为一种度量两个字符序列之间差异的度量标准。两个字符串之间的Levenshtein编辑距离是将一个字符串转换为另一个字符串所需的单字符编辑(插入、删除或替换)的最小数量，而Levenshtein编辑距离相似度是其归一化结果。Levenshtein编辑距离的具体计算方法如下：

对于字符串a、b，设定长度为|a|、|b|，则字符串a、b之间的Levenshtein编辑距离lev_a,b(|a|,|b|)定义为：

1_{ai！＝bj}表示当a_i＝b_j时，值为0，否则值为1；a_i表示a的第i个字符；b_j表示b的第j个字符；max表示求最大值；min表示求最小值；lev_a,b(i,j)表示a的前i个字符与b的前j个字符的编辑距离。字符串a、b的Levenshtein编辑距离相似度Sim_a,b为：

Sim_a，b＝1-(lev_a，b(|a|，|b|)/max(|a|，|b|)

该实施例中更新日志组的代表样本的方法为：当该日志组每新增额定数量的不重复日志消息后，取该日志组的所有日志消息中日志消息内容长度为所有日志消息中日志消息内容长度的中位数的日志消息作为该日志组的代表样本。所述额定数量本领域技术人员可以自行设定，当额定数量较高时，则更新频率慢，反之则更新频率快，该实施例中设定额定数量为100。通过持续更新日志组的代表样本可以确保该代表样本与日志组内的其他样本足够相似。

S4：提取日志消息的结构化信息。

每条日志消息均由日志语句打印，并用消息头和日志消息内容记录特定的系统事件。日志的结构化信息从日志消息头和日志消息内容中分别提取，共同构成。

日志的消息头由日志框架确定，因此比较很容易提取，该实施例中采用现有的方式进行提取，如时间戳、详细级别(ERROR/INFO/DEBUG)和组件(component)，只需要按分隔符(如空格)切割日志设定每列的列表名称就能提取消息头的结构化信息。

针对日志消息内容的结构化信息提取，在日志消息分组的基础上，该实施例中针对每条日志消息内容设定结构化存储格式，即(事件模板类型ID，事件模板，参数向量列表)，其中：

事件模板类型ID为日志消息分组后对应的日志组ID。

事件模板的设定方法为：针对每一日志组，随机选取该日志组内的至少一百条日志消息，以分隔符对选取的每条日志消息的消息内容进行分割，获得相应数量的分割后的日志消息序列。依次遍历所述日志消息序列的各个位置，如果日志消息序列中每一个序列的第i个位置的词频最高的词的出现频率大于频率阈值，则设定该词为事件模板中第i个位置对应的词；否则，将事件模板中第i个位置的内容设定为代表参数变量的特定符号，如<*>。当所有位置均设定完成后，即实现了该日志组对应的时间模板的设定。该实施例中优选设定频率阈值为95％，在其他的实施例中，本领域技术人员可以进行相应的修改，在此不做赘述。

参数向量列表为日志消息中与系统运行状态相关的变量，增加该参数向量列表可以有助于更好的理解系统运行状态，该实施例中包括但不限于常见的通用成分：IP、文件路径、URL、日期、时间，特定系统的常见固定成分：HDFS日志的blk_id等。该实施例中使用正则表达式提取这些变量。

下面以一个示例进行说明。

日志消息内容为“Received block blk_-562725280853087585of size 67108864from 10.251.91.84”，其对应的结构化存储格式为：(E0,’Received block<*>of size<*>from<*>’,[‘blk_-562725280853087585’,’67108864’,’10.251.91.84’])。

将每个日志消息对应的由消息头和日志消息内容提取的结构化信息合并后存储到数据库内，以供更高级别的分析如，可视化、异常检测、性能监测等使用。

本发明实施例一所提出的通用日志解析方法具有简单有效且支持在线运行的优点，可以满足及时解析分析日志的需求。通过实验结果显示，在未经过日志消息预处理的情况下，本实施例方法解析2000条HDFS系统日志耗时0.6秒，解析准确率99.9％；解析2000条SPARK日志耗时1.3秒，准确率98.5％。在进行日志消息预处理后，准确率得到进一步提高。

实施例二：

本发明还提供一种通用日志解析终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述通用日志解析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述通用日志解析终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述通用日志解析终端设备的组成结构仅仅是通用日志解析终端设备的示例，并不构成对通用日志解析终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述通用日志解析终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述通用日志解析终端设备的控制中心，利用各种接口和线路连接整个通用日志解析终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述通用日志解析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述通用日志解析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种通用日志解析方法，其特征在于，包括以下步骤：

采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；

根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息；提取日志消息中日志消息内容的结构化信息的方法为：针对每个日志组设定对应的结构化存储格式，将每条日志消息的日志消息内容按照其对应的结构化存储格式进行提取；

结构化存储格式包括事件模板类型ID，事件模板和参数向量列表，其中：

事件模板类型ID与日志组的ID相对应；

参数向量列表为日志消息中与系统运行状态相关的变量。

2.根据权利要求1所述的通用日志解析方法，其特征在于：日志组的划分方法为：当处理第一条日志消息时，新增一个日志组，将第一条日志消息添加至该日志组内，并设定该第一条日志消息为日志组的代表样本；当处理后续的日志消息时，计算该日志消息与各日志组对应的代表样本的日志消息内容之间的编辑距离相似度，如果存在编辑距离相似度大于相似度阈值，则将该日志消息添加至编辑距离相似度最高时对应的日志组内，并更新添加后的日志组的代表样本；否则，新增一个日志组，将该日志消息添加至新增的日志组内，并设定为添加后的日志组的代表样本。

3.根据权利要求2所述的通用日志解析方法，其特征在于：所述编辑距离相似度通过Levenshtein编辑距离进行计算。

4.根据权利要求2所述的通用日志解析方法，其特征在于：更新日志组的代表样本的方法为：当该日志组每新增额定数量的不重复日志消息后，取该日志组的所有日志消息中日志消息内容长度为所有日志消息中日志消息内容长度的中位数的日志消息作为该日志组的代表样本。

5.根据权利要求1所述的通用日志解析方法，其特征在于：对日志消息进行日志组划分之前还包括对日志消息进行预处理，将不同日志消息中的属性相同但内容不同的字符串替换为相同符号。

6.一种通用日志解析终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。