CN116069595B

CN116069595B - 一种基于日志的运维监控方法

Info

Publication number: CN116069595B
Application number: CN202310356797.8A
Authority: CN
Inventors: 戴小佳; 谭若男; 麻明宁; 仲俊光; 咸彬; 张雯惠; 范振兴; 宗宇; 于亮; 许铭芮; 张先登; 王跃飞; 郜文乔; 冯璐; 赵洋
Original assignee: Huaneng Shandong Power Generation Co Ltd; Huaneng Yantai Bajiao Thermoelectricity Co Ltd; Huaneng Information Technology Co Ltd
Current assignee: Huaneng Shandong Power Generation Co Ltd; Huaneng Yantai Bajiao Thermoelectricity Co Ltd; Huaneng Information Technology Co Ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-09
Anticipated expiration: 2043-04-06
Also published as: CN116069595A

Abstract

本发明公开了一种基于日志的运维监控方法，涉及数据处理技术领域，包括根据待监控目标任务确定初始关键词；根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展建立关键词列表；基于关键词列表按照预设组合方式对关键词进行组合，根据组合后的关键词进行试检索，建立关键词之间的关联关系；根据关键词之间的关联关系确定检索所需资源耗费理论值；基于系统运行指标建立动态日志收集规则；基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志；进行日志分析，并根据分析结果判断系统运维情况。提高了日志收集的准确性以及适应性，保证了收集日志过程中对日志进行初步筛选。

Description

一种基于日志的运维监控方法

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种基于日志的运维监控方法。

背景技术

随着业务的快速发展，系统架构越来越复杂，对于系统的运维监控也变得越来越重要。在这个背景下，业务中台逐渐成为企业实现业务数字化、智能化、平台化的重要手段之一。而基于日志的运维监控则是业务中台实现运维监控的重要技术之一。基于日志的运维监控，即通过分析系统日志，实现对系统运行状态的监控和分析，以便及时发现问题并采取相应的措施。

在分析日志之前，需要先收集所需的日志，从而完成初步筛选，减少日志分析的工作量，现有技术中，往往不能准确且适应性的收集日志，提高初步筛选的效率，均是采用单独的关键字筛选或日志级别、来源等方式进行收集，收集的日志数据量较大，冗余性较高，从而给后续日志分析造成了极大困扰。

因此，如何提高日志收集的准确性和适应性，是目前有待解决的技术问题。

发明内容

本发明提供一种基于日志的运维监控方法，用以解决现有技术中日志收集准确性差、适应性低的技术问题。所述方法包括：

获取待监控目标任务，根据待监控目标任务确定初始关键词；

根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表；

基于关键词列表按照预设组合方式对关键词进行组合，根据组合后的关键词进行试检索，基于试检索的结果建立关键词之间的关联关系；

根据关键词之间的关联关系确定检索所需资源耗费理论值；

获取系统运行指标，基于系统运行指标建立动态日志收集规则；

基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志；

将收集来的日志进行日志分析，并根据分析结果判断系统运维情况。

本申请一些实施例中，根据待监控目标任务确定初始关键词，包括：

待监控目标任务包括业务需求、涉及的日志类型、历史问题和经验总结；

根据业务需求、涉及的日志类型、历史问题和经验总结得到分别对应的第一关键词集合、第二关键词集合、第三关键词集合以及第四关键词集合；

若第一关键词集合、第二关键词集合、第三关键词集合以及第四关键词集合存在共同交集，则将共同交集中的关键词作为初始关键词；

若第一关键词集合、第二关键词集合、第三关键词集合以及第四关键词集合不存在共同交集，则依次判断三者交集和二者交集，分别记作第一交集和第二交集，获取业务需求、涉及的日志类型、历史问题和经验总结分别对应的影响权重，并确定第一交集和第二交集的权重，若存在三者交集，且存在第一交集的权重与剩余集合的权重之差超过第一权重差的第一交集，则将该第一交集中的关键词作为初始关键词，其中，第一权重差是第一交集的权重平均值；

若不存在三者交集，或第一交集的权重与剩余集合的权重之差不超过第一权重差，则根据第二交集的权重与剩余集合的权重之差确定初始关键词，若第二交集的权重大于剩余集合的权重，且存在第二交集的权重与剩余集合的权重之差超过第二权重差的第二交集，则将该第二交集中的关键词作为初始关键词，其中，第二权重差是剩余集合的权重的

，根据第二交集涉及的权重较大的关键词集合对应权重与剩余集合中权重较大的关键词集合对应的权重之差确定k值；

其中，剩余集合是指不涉及交集关系的单个关键词集合或两个关键词集合，第二交集涉及的权重较大的关键词集合是指第二交集涉及的关键词集合中权重最大的关键词集合，剩余集合中权重较大的关键词集合是指剩余集合中权重最大的关键词集合，

为权重的平均占比，k为权重的平均常数。

本申请一些实施例中，根据待监控目标任务确定初始关键词，还包括：

若第二交集的权重大于剩余集合的权重，且存在第二交集的权重与剩余集合的权重之差超过第二权重差的第二交集的数量为多个，则将对应的多个第二交集所形成的并集记为第一并集，根据第一并集和多个第二交集确定每个第二交集的占比，将第二交集占比中最大占比的第二交集和最小占比的第二交集所形成的并集记为第二并集，将第二并集中的关键词作为初始关键词。

本申请一些实施例中，根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表，包括：

初始关键词的属性值包括词性值和逻辑值；

根据初始关键词和预设属性值表确定初始关键词的属性值，其中，属性值表中每个初始关键词对应有一个词性值和一个逻辑值；

根据词性值在词库中选择与初始关键词相对应的若干个关键词作为第一关键词，根据逻辑值在词库中选择与初始关键词相对应的若干个关键词作为第二关键词，将第一关键词和第二关键词进行词性的划分，得到多种关键词类别，根据多种关键词类别建立关键词列表。

本申请一些实施例中，基于关键词列表按照预设组合方式对关键词进行组合，根据组合后的关键词进行试检索，基于试检索的结果建立关键词之间的关联关系，包括：

多种关键词类别包括近义词、相关词和反义词；

定义关键词与近义词之间通过or连接，此为第一连接，定义关键词与相关词之间通过and连接，此为第二连接，定义关键词与反义词之间通过not连接，此为第三连接，根据第一连接、第二连接和第三连接进行所有存在的组合连接，得到关键词的所有组合可能性；

获取系统运行历史数据，根据系统运行历史数据建立虚拟环境，在虚拟环境中进行关键词的所有组合可能性的试检索，若试检索的结果不为无，则将该关键词的组合可能性进行保留，并对关键词之间的连接关系进行关联标记；

若试检索的结果为无，则将该关键词的组合可能性进行去除。

本申请一些实施例中，获取系统运行指标，基于系统运行指标建立动态日志收集规则，包括：

获取当前之前一段时间内的系统运行指标，系统运行指标包括负载指标、运行指标和异常指标，根据负载指标、运行指标和异常指标建立对应的日志收集规则数组；

根据负载指标建立第一日志收集规则数组（a1，a2），其中，a1为负载指标，a2为日志收集频率；

根据运行指标建立第二日志收集规则数组（b1，b2），其中，b1为运行指标，b2为日志收集规则数量；

根据异常指标建立第三日志收集规则数组（c1，c2），其中，c1为异常指标，c2为日志收集范围；

第一日志收集规则数组（a1，a2）的动态日志收集规则：

；

其中，a10为当前负载指标，a11、a12均为预设负载指标值，a13为此段时间内负载指标变化量，a20是初始日志收集频率，exp是指数函数，k1、k2均是补偿常数；

第二日志收集规则数组（b1，b2）的动态日志收集规则：

；

其中，b10是当前运行指标，b11、b12是预设运行指标值，b20是初始日志收集规则数量，

、/>

2为转换系数，maxb为b11-b10和b13中较大者，minb为b12-b10和b13中较小者，b13为此段时间内运行指标变化量；

第三日志收集规则数组（c1，c2）的动态日志收集规则：

；

其中，c10为当前异常指标，c11、c12均为预设异常指标值，c20是初始日志收集范围，l1为c11-c10和c13所对应的修正因子，l2为c12-c10和c13所对应的修正因子，c13为此段时间内异常指标变化量。

本申请一些实施例中，基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志，包括：

基于动态日志收集规则所确定的日志收集频率、日志收集规则数量和日志收集范围收集一段时间内的日志，记为初始日志；

基于关键词之间的关联关系在初始日志中进行检索，得到日志以及检索所需资源耗费实际值；

若检索所需资源耗费实际值不大于检索所需资源耗费理论值，则将该日志输出；

若检索所需资源耗费实际值大于检索所需资源耗费理论值，则记该日志为第一日志，并根据检索所需资源耗费实际值与检索所需资源耗费理论值之差确定调整量，调整量包括第一调整量、第二调整量和第三调整量，根据第一调整量、第二调整量和第三调整量调整第一日志收集规则数组（a1，a2）、第二日志收集规则数组（b1，b2）和第三日志收集规则数组（c1，c2），分别得到调整后的第一日志收集规则数组（a1，a2，a3）、第二日志收集规则数组（b1，b2，b3）和第三日志收集规则数组（c1，c2，c3），其中，a3是第一调整量，b3是第二调整量，c3是第三调整量；

调整后的第一日志收集规则数组的输出是a2+a3，调整后的第二日志收集规则数组的输出是b2+b3，调整后的第三日志收集规则数组的输出是c2+c3；

根据调整后的第一日志收集规则数组的输出、调整后的第二日志收集规则数组的输出以及调整后的第三日志收集规则数组的输出重新确定初始日志，并根据关键词之间的关联关系在初始日志中进行检索，得到日志，记作第二日志，将第一日志和第二日志的交集作为日志输出。

本申请一些实施例中，将收集来的日志进行日志分析，并根据分析结果判断系统运维情况，包括：

获取阈值类型列表和时间类型列表，在日志中选取一部分具有数值表征性的数据，记为第一部分，根据阈值类型列表计算第一部分中每个阈值类型的完成度，并得到第一完成度，在日志中选取一部分具有时间表征性的数据，记为第二部分，根据时间类型列表计算第二部分中每个时间类型的完成度，并得到第二完成度；

选择第一完成度和第二完成度中较大一方对应的方法进行分析，根据分析结果判断系统运维情况；

其中，第一完成度对应的是阈值规则法，第二完成度对应的是时间窗口规则法。

通过应用以上技术方案，获取待监控目标任务，根据待监控目标任务确定初始关键词；根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表；基于关键词列表按照预设组合方式对关键词进行组合，根据组合后的关键词进行试检索，基于试检索的结果建立关键词之间的关联关系；根据关键词之间的关联关系确定检索所需资源耗费理论值；获取系统运行指标，基于系统运行指标建立动态日志收集规则；基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志；将收集来的日志进行日志分析，并根据分析结果判断系统运维情况。本申请通过根据待监控目标任务确定初始关键词，根据初始关键词确定关键词之间的关联关系，再基于关键词之间的关联关系和动态日志收集规则进行日志的收集，提高了日志收集的准确性以及适应性，保证了收集日志过程中对日志进行初步筛选，合理提高了后续分析的效果和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种基于日志的运维监控方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种基于日志的运维监控方法，如图1所示，该方法包括以下步骤：

步骤S101，获取待监控目标任务，根据待监控目标任务确定初始关键词；

步骤S102，根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表；

步骤S103，基于关键词列表按照预设组合方式对关键词进行组合，根据组合后的关键词进行试检索，基于试检索的结果建立关键词之间的关联关系；

步骤S104，根据关键词之间的关联关系确定检索所需资源耗费理论值；

步骤S105，获取系统运行指标，基于系统运行指标建立动态日志收集规则；

步骤S106，基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志；

步骤S107，将收集来的日志进行日志分析，并根据分析结果判断系统运维情况。

本实施例中，待监控目标任务是指系统中某个具体监控的目标，此处系统是指业务中台，但是其它同类系统均符合。根据具体监控的目标确定初始关键词。

本实施例中，初始关键词的属性值包括词性值和逻辑值，词性值是指与关键词本身相关的词性相关程度，逻辑值是指与关键词在系统中技术相关的程度。

本实施例中，关键词之间的关联关系也就是关键词之间的逻辑连接关系，即“and”、“or”和“not”等。

上述方案的有益效果：根据待监控目标任务确定初始关键词，基于试检索的结果建立关键词之间的关联关系，基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志。提高了日志收集的精度以及可靠性，并且进一步保证了日志数据量的筛选，将无关数据筛掉，将相关数据进行保留。并且动态日志收集规则更符合系统本身的运行变化情况，不会对系统造成过多负荷。

本申请一种基于日志的运维监控方法一些实施例中，根据待监控目标任务确定初始关键词，包括：

为权重的平均占比，k为权重的平均常数。

本实施例中，待监控目标的业务需求、涉及的日志类型、历史问题和经验总结，分别是指，业务需求为确定需要监控和分析的关键业务指标和问题点，以确定需要收集哪些关键字。涉及的日志类型为不同类型的日志数据包含的关键字也不同。例如，系统日志和应用程序日志包含的关键字和格式不同。历史问题为根据之前出现的问题点进行分析，找出与问题相关的关键字。经验总结是根据之前的经验总结，可以确定哪些关键字是比较重要的，并且在实际应用中有较高的使用频率。

本实施例中，三者交集是指三个集合相交，二者交集是指两个集合相交。

本实施例中，业务需求、涉及的日志类型、历史问题和经验总结分别对应的影响权重，总和为1。第一交集的权重是指相交的三个集合的权重之和。第二交集的权重是指相交的两个集合的权重之和。

本实施例中，最少存在一个第二交集的可能。不存在完全不相交的情况。

本实施例中，此处所述情况默认为，只有一个第一交集或第二交集满足要求的存在。

本实施例中，第二交集涉及的权重较大的关键词集合对应权重与剩余集合中权重较大的关键词集合对应的权重之差对应有一个k值。

上述方案的有益效果：综合考虑了业务需求、涉及的日志类型、历史问题和经验总结四个方面对应的关键词，根据交集情况选定对应交集里关键词作为初始关键词。提高了关键词筛选的准确性，并且综合了各个方面因素影响。为后续关键词拓展奠定了稳固基础。

本实施例中，此处进一步讨论存在多个满足要求的第二交集时的方法。

本实施例中，如果存在四个第二交集，说明不存在剩余集合，则将最小第二交集（关键词数量）涉及到的较小权重的集合作为剩余集合。

本实施例中，为了筛选一部分关键词，将第二交集占比中最大占比的第二交集和最小占比的第二交集所形成的并集记为第二并集。

需要说明的是，若第一交集与第二交集同时存在，则以第一交集中关键词为初始关键词。其余情况，均以交集的并集中关键词为初始关键词。

本申请一种基于日志的运维监控方法一些实施例中，根据初始关键词确定初始关键词的属性值，根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表，包括：

初始关键词的属性值包括词性值和逻辑值；

本实施例中，词性值和逻辑值均是排名值，即选取排名前几名的关键词。词性值包括近义词值、相关词值和反义词值，各自表示各自排名。例如，近义词值为2、相关词值为3和反义词值为2，逻辑值为3。则在词库中获取与该初始关键词对应的近义词、相关词和反义词的各自排名表，以及逻辑的排名表，将排名前2名的关键词作为近义词，将排名前3名的关键词作为相关词，将排名前2名的关键词作为反义词，第一关键词包括近义词、相关词和反义词，将排名前3名的关键词作为逻辑词，第二关键词为逻辑词。属性值表为所有关键词的汇总，在该表中可以找到所有关键词，表中每个初始关键词均对应有一个词性值和一个逻辑值。

本实施例中，将第一关键词和第二关键词进行词性的划分，第一关键词已经划分好了，不用再分。只需将第二关键词的逻辑词进行近义词、相关词和反义词的划分即可。

本实施例中，根据多种关键词类别建立关键词列表，即近义词、相关词和反义词各自对应一个关键词列表。

多种关键词类别包括近义词、相关词和反义词；

本实施例中，虚拟环境是指能表征系统运行的虚拟环境。

本实施例中，并对关键词之间的连接关系进行关联标记是指逻辑连接关系，即“and”、“or”和“not”。

上述方案的有益效果：根据初始关键词的属性值对初始关键词进行拓展，从而建立关键词列表，基于试检索的结果建立关键词之间的关联关系。提高了关键词之间的联系以及检索的可靠性。

本申请一种基于日志的运维监控方法一些实施例中，获取系统运行指标，基于系统运行指标建立动态日志收集规则，包括：

第一日志收集规则数组（a1，a2）的动态日志收集规则：

；

第二日志收集规则数组（b1，b2）的动态日志收集规则：

；

、/>

第三日志收集规则数组（c1，c2）的动态日志收集规则：

；

本实施例中，负载指标是监控系统负载情况，如CPU使用率、内存使用率等参数综合而成的指标，运行指标是监控应用程序的运行状态，如请求处理速度、请求响应时间、错误率等参数综合而成的指标，异常指标是监控实时的日志数据，如错误日志、警告日志、异常日志等综合而成的指标。负载指标对应的是日志收集频率，运行指标对应的是日志收集规则数量，这里的收集规则是指除了关键字以外的规则，异常指标对应的是日志的收集范围。

本实施例中，当负载指标较高时，可以降低日志收集的频率，以减轻系统负担，负载指标较低时，可以提高日志收集的频率，以更全面收集日志。运行指标越高，说明系统运行状态越好。运行指标较低时，增加日志收集的规则，更全面地收集有关问题的日志数据。运行指标较高时，可以适当减少日志收集的规则，降低系统负担。异常指标越高，说明运行越正常。异常指标较低时，增加日志收集的范围，以收集更全面的日志数据，帮助快速定位和解决问题。异常指标较高时，可以适当缩小日志收集的范围，以降低系统负担。

本实施例中，第一日志收集规则数组中

的取值范围在0.1-0.2之间，

的取值范围在-0.85到-0.95之间。第三日志收集规则数组中，l1为c11-c10和c13所对应的修正因子，即不同的c11-c10和c13所对应的修正因子不同。l2为c12-c10和c13所对应的修正因子，即不同的c12-c10和c13所对应的修正因子不同。l1取值范围在1.2-1.5之间，l2取值范围在0.7-0.86之间。

需要说明的是，日志收集的规则数量处所对应的公式是默认取整的。

上述方案的有益效果：根据负载指标、运行指标和异常指标动态调整日志收集的规则，以满足系统的多变性和监控的需要。提高了日志收集的可靠性和适应性。

本申请一种基于日志的运维监控方法一些实施例中，基于检索所需资源耗费理论值、关键词之间的关联关系以及动态日志收集规则收集日志，包括：

本实施例中，检索所需资源耗费理论值是虚拟环境下模拟计算出来的，一般来说实际值要小于理论值，因为设置了动态日志收集规则，所以检索的资源耗费变小了。如果没变小，说明动态日志收集规则不合理，需要进行反馈调节。

本申请一种基于日志的运维监控方法一些实施例中，将收集来的日志进行日志分析，并根据分析结果判断系统运维情况，包括：

本实施例中，阈值规则法：这种规则基于预定义的阈值，来识别出某个指标是否超过了正常范围。例如，当CPU使用率超过90%时，触发报警。这里指的阈值是多种阈值。基于时间窗口规则法：这种规则基于时间窗口，来识别出某个指标在特定时间段内是否连续出现异常。例如，当某个服务在5分钟内连续出现5次请求失败时，触发报警。此处指的同样是多种指标。

本实施例中，在日志中选取一部分具有数值表征性的数据，是指根据数据特征选择数值属性较强的一部分数据。在日志中选取一部分具有时间表征性的数据，是指根据数据特征选择时间属性较强的一部分数据。

本实施例中，根据第一部分和第二部分数据确定对应完成度，从而选择合适的日志分析方法，进行分析。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施场景所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于日志的运维监控方法，其特征在于，所述方法包括：

获取待监控目标任务，根据待监控目标任务确定初始关键词，具体为，待监控目标任务包括业务需求、涉及的日志类型、历史问题和经验总结，根据业务需求、涉及的日志类型、历史问题和经验总结得到分别对应的第一关键词集合、第二关键词集合、第三关键词集合以及第四关键词集合，并基于第一关键词集合、第二关键词集合、第三关键词集合和第四关键词集合的交集情况及其对应的权重情况确定初始关键词；

根据关键词之间的关联关系确定检索所需资源耗费理论值；

2.如权利要求1所述的方法，其特征在于，并基于第一关键词集合、第二关键词集合、第三关键词集合和第四关键词集合的交集情况及其对应的权重情况确定初始关键词，包括：