CN112883004B

CN112883004B - 一种基于日志聚合的日志知识库与健康度获取方法及系统

Info

Publication number: CN112883004B
Application number: CN202110206817.4A
Authority: CN
Inventors: 李虎; 曾毅峰; 俞敏; 朱祥
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-04-07
Anticipated expiration: 2041-02-24
Also published as: CN112883004A

Abstract

本发明涉及一种基于日志聚合的日志知识库与健康度获取方法及系统，所述的方法包括获取工程级的日志数据，通过提取日志模板对日志数据进行一次聚合，基于文本相似度计算对日志数据进行二次聚合，获取工程级日志聚合结果；对工程级日志聚合结果进行系统级聚合，获取系统级日志聚合结果，对系统级日志聚合结果进行异常标注，形成日志知识库；根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态。与现有技术相比，本发明具有日志聚合效率、准确性高，有效生成日志知识库、获取日志健康状态的优点。

Description

一种基于日志聚合的日志知识库与健康度获取方法及系统

技术领域

本发明涉及日志数据处理领域，尤其是涉及一种基于日志聚合的日志知识库与健康度获取方法及系统。

背景技术

现如今，互联网服务已经深入到用户生活的方方面面，在基础设施基本一致的情况下，服务质量变得越来越重要，这也成为各公司的所面临的一个巨大挑战。各公司在实际运营过程中，所维护的各项业务可能面临各种各样的问题，这也就需要我们将各应用系统运行日志保存起来进行管理，以便问题排查和根因定位。因此将问题对应的异常日志及时反馈给运维和开发人员，是解决问题的关键。但随着业务量的增长，数据量激增，需要对所产生的大量重复日志进行聚合，即将多条具有相同特征的日志合成为一条日志，以减少日志的数量，现有的日志聚合方法对系统的所有数据进行聚合，聚合算法的计算时间成本、算力要求高，日志聚合效果不能满足基于日志聚合的后续系统日志知识库和日志健康度获取需求，并且现有技术日志聚合的结果与日志知识库建立、日志健康度获取的配合差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于日志聚合的日志知识库与健康度获取方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于日志聚合的日志知识库与健康度获取方法，包括以下步骤：

S1：获取工程级的日志数据，通过提取日志模板对日志数据进行一次聚合，基于文本相似度计算对日志数据进行二次聚合，获取工程级日志聚合结果；

S2：对工程级日志聚合结果进行系统级聚合，获取系统级日志聚合结果，对系统级日志聚合结果进行异常标注，形成日志知识库；

S3：根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态。

优选地，所述的步骤S1具体包括：

S11：提取系统级日志数据，对系统级日志数据中各工程的日志分别进行聚合，获取各工程的工程级的日志数据；

S12：提取工程级日志数据的日志模板，根据日志模板对日志数据进行聚合；

S13：根据文本相似度计算的编辑距离算法计算日志字符串的相似度，将相似度高于设定阈值的日志聚合为一条日志记录，获取工程级日志聚合结果。

优选地，所述的步骤S12中对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板。

进一步优选的，所述的通用变量替换包括对常见的变量进行替换，包括IP、URL、证件号，所述的标准模板替换对各系统的个性化日志进行提取，所述的特殊字符过滤模块将将一些没有含义的特殊字符剔除，形成真正有价值的，可用的日志信息。

优选地，所述的步骤S2的具体步骤包括：

S21：基于文本相似度计算分别对每个系统的工程级日志聚合结果进行聚合，获取系统级日志聚合结果；

S22：对系统级日志聚合结果进行异常标注，获取日志知识库，所述的异常标注的内容包括日志是否值得关注、日志异常原因和异常解决方案。

优选地，所述的个体日志规范指标包括合规性个体指标和冗余率个体指标，所述的工程级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率，所述的系统级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率。

一种基于日志聚合的日志知识库、健康度获取系统，包括工程级日志聚合模块、系统级日志聚合模块、日志知识库标注模块、日志健康状态计算模块，

所述的工程级日志聚合模块用于获取工程级的日志数据，通过提取日志模板对日志数据进行一次聚合，基于文本相似度计算对日志数据进行二次聚合，获取工程级日志聚合结果，

所述的系统级日志聚合模块用于对工程级日志聚合结果进行系统级聚合，获取系统级日志聚合结果，

所述的日志知识库标注模块用于对系统级日志聚合结果进行异常标注，形成日志知识库，

所述的日志健康状态计算模块根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态。

优选地，所述的工程级日志聚合模块的日志处理流程包括：

提取系统级日志数据，对系统级日志数据中各工程的日志分别进行聚合，获取各工程的工程级的日志数据；

提取工程级日志数据的日志模板，根据日志模板对日志数据进行聚合；

根据文本相似度计算的编辑距离算法计算日志字符串的相似度，将相似度高于设定阈值的日志聚合为一条日志记录，获取工程级日志聚合结果。

优选地，所述的工程级日志聚合模块对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板。

优选地，所述的日志知识库标注模块对系统级日志聚合结果进行异常标注，获取日志知识库，所述的异常标注的内容包括日志是否值得关注、日志异常原因和异常解决方案。

与现有技术相比，本发明具有如下优点：

(1)本发明的日志聚合过程先对工程级的日志进行聚合，然后基于工程级日志聚合结果获取系统及日志聚合结果，有效降低日志聚合算法的计算量和计算时间，提高日志聚合的效果和准确性；

(2)本发明通过提取日志模板，将符合不同日志模板的分别聚合，可以大幅提高日志聚合的效率，可以剔除变量、无效字符等干扰项，增加日志的可用性；并通过文本相似度计算中的编辑距离算法进行文本相似度计算，进一步提高日志聚合的准确性；

(3)本发明通过计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态，能够较好的区分出各系统的日志健康状况，进行日志数据治理，对于日志健康分较低的系统，可以根据工程规范指标来确定具体哪些工程日志健康度低，然后再根据个体日志规范，来确定具体的不合规或者冗余日志，层层递进，以达到精确定位，准确修改的效果；

(4)本发明能够根据系统级日志聚合结果对日志进行异常标注，获取日志知识库，所述的异常标注的内容包括日志是否值得关注、日志异常原因和异常解决方案，以辅助日志告警和后续的问题解决，以此形成一个可不断迭代更新的日志知识库。

附图说明

图1为本发明的流程图；

图2为本发明实施例中的数据处理流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

一种基于日志聚合的日志知识库与健康度获取方法，如图1所示，包括以下步骤：

S1：获取工程级的日志数据，通过提取日志模板对日志数据进行一次聚合，基于文本相似度计算对日志数据进行二次聚合，获取工程级日志聚合结果。

具体地，本发明步骤S1包括：

本发明的步骤S12中对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板。

通常情况下，一个工程下数量最多、出现最频繁的日志往往具有相似的内容和结构，唯一的差别仅在于日志中的一些路径、IP、用户id等变量不同。因此通过设计日志模板，将符合不同日志模板的分别聚合，可以大幅提高日志聚合的效率。日志模板提取主要通过编写替换规则，对源日志进行数据清洗和替换，将类似路径、IP、用户id等变量剔除后，剩余的日志内容作为日志模板。在不影响日志整体的可读性的情况下，给定的替换规则越多，则日志提取的效果越好，整体干扰项就越低。

本实施例中，利用通用变量替换，标准模板匹配和特殊字符过滤三部分，首先通过通用变量替换常见的一些信息，如IP，URL，证件号等信息；其次通过标准模板，对各系统的个性化日志进行提取；最后经过特殊字符过滤，将一些没有含义的特殊字符剔除，形成真正有价值的，可用的日志信息。以下给出部分替换规则，基于正则表达式进行匹配替换。本实施例中的日志提取表达式如下表所示：

基于正则表达式的模板提取，针对提取后的模板，进行一次日志聚合。由于很多系统都存在大量重复日志，此次聚合后，一方面，日志数量级由百万、千万级缩减至万级甚至千级，大大减少了日志的数量，从而有效降低下一步文本相似度算法的时间成本；另一方面，可以剔除变量，无效字符等干扰项，增加日志的可用性。

本实施例中，经过S12日志模板提取后，日志聚合的效果已经初显，但是还有部分模板无法识别的日志。这时候，我们采用一种文本相似度算法来检测每条信息的相似性，这样可以把日志中结构相似但信息不同的语素归于一类。很多日志在结构和信息上都十分相似，但是在模板上很难进行发现和识别，为了解决这类问题，我们通过文本相似度检测来进行相似度计算，实现日志聚合的目的。文本相似度我们采用的方案是编辑距离。编辑距离是Levenshtein提出的用于计算字符串相似度的算法。编辑距离是指把一个字符串通过插入、删除或替换的编辑操作，变成另外一个字符串所需要的最少编辑次数。

例如，设定相似度阈值为0.95，通过编辑距离计算“查询xx接口异常com.xxxxx.xxxx.xxxx.exception.ArgumentException:未找到对应的信息”和“xx接口异常com.xxxxx.xxxx.xxxx.exception.ArgumentException:未找到对应的信息”的相似度为0.98，高于相似度设定阈值，针对这种相似度极高的日志，会被聚合成一条日志记录。

S2：对工程级日志聚合结果进行系统级聚合，获取系统级日志聚合结果，对系统级日志聚合结果进行异常标注，形成日志知识库。

步骤S2的具体步骤包括：

经过第一步的日志聚合，得到工程级别的聚合结果，由于同一系统下的不同工程可能存在相似的日志，在此通过相似度计算，对同一系统下各个工程的日志聚合结果再做进一步聚合，得到最终系统级别的日志聚合。

本实施例中，根据8个系统共计约1000万条日志进行收敛聚合，经过两次算法聚合收敛后，得到约2千条数据，信息降噪比达到99％，降噪效果明显。对于降噪后的得到的系统级日志聚合结果，由各系统人员针对所属系统的相关日志，进行标记日志是否值得关注、日志异常原因和异常解决方案，以辅助日志告警和后续的问题解决，以此形成一个可不断迭代更新的日志知识库。

本实施例中，所述的个体日志规范指标包括合规性个体指标和冗余率个体指标，所述的工程级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率，所述的系统级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率。

本实施例中各指标的定义为：

1、合规性个体指标

规则一：基于关键词判断“异常日志”是否合规：如果包含“exception、error、fail、null、异常、错误、失败、出错、超时、为空、报错、不一致”关键字之一，则表示合规，否则表示不合规，否则判断合规。

规则二：单条日志中特殊字符占比过高导致可读性差，引起的不合规：若单条日志中特殊字符占比高于设定阈值，表示不合规，否则判断合规。

具体地，

所述的特殊字符包括：。-+＝

例如某异常日志为“------------------开始执行---”。该日志的单条日志中特殊字符占比为21/25＝0.84，单条日志中特殊字符占比过高，属于不合规日志。

规则三：单条异常信息长度过长导致没有重点，引起的不合规：在不包含上述规则一的关键字的情况下，若长度大于预设阈值180，表示不合规，否则判断合规。

规则四：某段时间内频繁出现的日志，引起的不合规：同一日志，出现频次大于预设阈值100次/每天，则表示不合规，否则判断合规。

规则五：补充规则，判断是否合规。补充规则作为后续系统方法调整规则进行判断。

若上述五个规则均判断合规，则合规性个体指标，否则判断不合规。

2、冗余率个体指标

规则一：基于日志聚合后出现次数，判断是否冗余，若聚合后出现次数大于设定阈值，则判断冗余，否则判断不冗余。

规则二：基于日志聚合关键字占比，判断是否冗余：若日志聚合关键字占比小于设定阈值，则判断冗余，否则判断不冗余。

具体地，

例如某日志源日志为：the line length:0。聚合关键字为：thelinelength。则关键字占比为13/17＝0.76。

规则三：基于汉字+特殊字符占比，判断是否冗余：若汉字、特殊占比小于设定阈值，则判断冗余，否则判断不冗余。

具体地，

例如某异常日志为：“------------------开始执行---”。该日志特殊字符占比25/25＝1。

四、规则四：补充规则，判断是否冗余。

若上述四个规则均判断不冗余，则冗余率为0

3、日志总量合规率：基于不规范日志数量，计算日志总量合规率，计算公式为：

4、日志类别合规率：基于不规范日志类别，计算日志类别合规率。

例如某系统总日志聚合类别共65个，其中不合规类别为40个，则日志类别不合规率为：40/65＝0.62。

5、日志整体冗余率：基于冗余日志，计算日志整体冗余率。

6、本实施例中的日志健康状态根据日志健康度评分指标评判，具体为：基于日志总量合规率、日志类别合规率和日志整体冗余率，计算日志健康分。

其中，A、B、C分别为第一权重、第二权重和第三权重，例如某系统日志总量合规率为30，日志分类合规率为60，日志冗余率为80。预设的A、B、C权重为4，2，1。则该系统日志健康分为：29分。

通过上述一系列的日志指标，较好的区分出各系统的日志健康状况，对于日志健康分较低的系统，可以根据工程规范指标来确定具体哪些工程日志健康度低，然后再根据个体日志规范，来确定具体的不合规或者冗余日志，层层递进，以达到精确定位，准确修改的效果。

另外，为了发明方法的具体运行，本发明的数据处理流程如图2所示，包括数据加工层、算法执行层、数据库、接口服务层、展示层，

数据加工层主要通过从ES，MySQL，mongoDB收集各日志系统源日志，提取系统名，工程名，类名，方法名，时间戳和具体日志内容等字段，统一保存至Hive；算法执行层则根据加工后的数据进行业务处理，本发明中主要包括日志模板提取、日志相似度计算、规范指标计算，计算结果进行存储。其中日志模板提取主要对数据加工层中加工后的具体日志内容通过正则表达式进行模板识别、提取，得到日志内容模板数据，日志相似度则通过对日志内容模板数据，用编辑距离文本相似度算法进行模板收敛，得到最终日志聚合结果，系统指标计算通过日志总量合规率，日志类别合规率和日志整体冗余率三大指标，对聚合后的日志进行健康分打分，形成系统级别日志健康分；接口服务层主要按需为展示层提供数据支撑；展示层主要展示各项指标结果，直观展示业务效果。

具体地，本发明的数据处理流程本实施例中主要通过python脚本对各外部应用系统ERROR日志以天级别进行数据抽取和粗加工，加工完成后进行数据库存储；模型部分则通过正则对表中数据进行模板提取，提取完成后通过编辑距离算法进行文本相似度计算，达到日志聚合收敛的效果，形成知识库；同时，通过制定一系列的日志规范指标，对聚合后的结果进行指标规则检测形成系统日志健康指标，完成后将模型结果保存至数据库；接口服务层则跟据需求进行定制化的数据查询，如每日各系统日志健康分和error日志数量等；展示层则根据接口层获取的数据，进行可视化展示，如各系统日志健康分变化折线图等。同时，外部系统也可对接我们的接口服务，进行自定义开发。

工程级日志聚合模块用于获取工程级的日志数据，通过提取日志模板对日志数据进行一次聚合，基于文本相似度计算对日志数据进行二次聚合，获取工程级日志聚合结果，系统级日志聚合模块用于对工程级日志聚合结果进行系统级聚合，获取系统级日志聚合结果，日志知识库标注模块用于对系统级日志聚合结果进行异常标注，形成日志知识库，日志健康状态计算模块根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态。

工程级日志聚合模块的日志处理流程包括：提取系统级日志数据，对系统级日志数据中各工程的日志分别进行聚合，获取各工程的工程级的日志数据；提取工程级日志数据的日志模板，根据日志模板对日志数据进行聚合；根据文本相似度计算的编辑距离算法计算日志字符串的相似度，将相似度高于设定阈值的日志聚合为一条日志记录，获取工程级日志聚合结果。

工程级日志聚合模块对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板。日志知识库标注模块对系统级日志聚合结果进行异常标注，获取日志知识库，异常标注的内容包括日志异常原因和异常解决方案。个体日志规范指标包括合规性个体指标和冗余率个体指标，工程级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率，系统级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率。

本申请实施例所提供的系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，在此不再赘述。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于日志聚合的日志知识库与健康度获取方法，其特征在于，包括以下步骤：

S3：根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态；

所述的步骤S1具体包括：

S13：根据文本相似度计算的编辑距离算法计算日志字符串的相似度，将相似度高于设定阈值的日志聚合为一条日志记录，获取工程级日志聚合结果；

所述的步骤S12中对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板；

所述的步骤S2的具体步骤包括：

2.根据权利要求1所述的一种基于日志聚合的日志知识库与健康度获取方法，其特征在于，所述的个体日志规范指标包括合规性个体指标和冗余率个体指标，所述的工程级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率，所述的系统级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率。

3.一种基于日志聚合的日志知识库、健康度获取系统，其特征在于，包括工程级日志聚合模块、系统级日志聚合模块、日志知识库标注模块、日志健康状态计算模块，

所述的日志健康状态计算模块根据工程级、系统级日志聚合结果依次计算个体日志规范指标、工程级规范指标和系统级规范指标，获取日志健康状态；

所述的工程级日志聚合模块的日志处理流程包括：

根据文本相似度计算的编辑距离算法计算日志字符串的相似度，将相似度高于设定阈值的日志聚合为一条日志记录，获取工程级日志聚合结果；

所述的工程级日志聚合模块对工程级日志数据进行通用变量替换、标准模板匹配、特殊字符过滤，获取日志模板；

所述的日志知识库标注模块对系统级日志聚合结果进行异常标注，获取日志知识库，所述的异常标注的内容包括日志是否值得关注、日志异常原因和异常解决方案。

4.根据权利要求3所述的一种基于日志聚合的日志知识库、健康度获取系统，其特征在于，所述的个体日志规范指标包括合规性个体指标和冗余率个体指标，所述的工程级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率，所述的系统级规范指标包括日志总量合规率、日志类别合规率和日志整体冗余率。