CN116089224B - 告警分析方法、装置、计算节点及计算机可读存储介质 - Google Patents
告警分析方法、装置、计算节点及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116089224B CN116089224B CN202310376489.1A CN202310376489A CN116089224B CN 116089224 B CN116089224 B CN 116089224B CN 202310376489 A CN202310376489 A CN 202310376489A CN 116089224 B CN116089224 B CN 116089224B
- Authority
- CN
- China
- Prior art keywords
- node
- target
- alarm
- index
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明提供了一种告警分析方法、装置、计算节点及计算机可读存储介质,涉及大数据技术领域。通过确定告警指标所属的目标告警类别对应的目标权重配比,接着获取与告警指标相关联的每个关联节点的关联指标信息。再基于目标权重配比,利用预先训练的决策树模型生成目标告警类别对应的目标决策树,然后基于目标权重配比,利用目标决策树处理所有关联指标信息,得到每个关联节点的至少一条分析结果。本方案中,该分析结果表征对应的关联节点中导致告警指标触发告警的原因,利用决策树模型生成的目标决策树可以全面的对每个关联节点的关联指标信息进行分析,实现了对告警指标的所有关联节点的全面性分析以及告警原因的查找与定位。
Description
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种告警分析方法、装置、计算节点及计算机可读存储介质。
背景技术
随着互联网的飞速发展,集群中的若干节点作为一个整体能够提供更为高效、稳定的网络资源。而为了保证集群的稳定性,通常需要对集群中的各个节点进行指标监控,以便在某个节点异常时及时告警。
通常情况下,集群中由于业务部署的关系,告警节点可能还存在相关联的节点。进一步地,为了对集群进行维护与管理,如何全面性针对告警节点及其关联节点进行告警原因的定位与排查是本领域技术人员亟需考虑的问题。
发明内容
本发明的目的在于提供一种告警分析方法、装置、计算节点及计算机可读存储介质,以改善现有技术存在的问题。
本发明的实施例可以这样实现:
第一方面,本发明提供一种告警分析方法,应用于计算节点,所述计算节点与若干从节点通信连接;所述方法包括:
确定告警指标所属的目标告警类别;所述告警指标为任一所述从节点的任一监控指标;
获取与所述告警指标相关联的每个关联节点的关联指标信息;所述关联指标信息包括所述关联节点中与所述告警指标相关的多种相关监控指标的指标值;所述关联节点为全部所述从节点中的一个;
确定所述目标告警类别对应的目标权重配比;
基于所述目标权重配比,利用预先训练的决策树模型生成所述目标告警类别对应的目标决策树;
基于所述目标权重配比,利用所述目标决策树分别处理每个所述关联节点的关联指标信息,得到每个所述关联节点的至少一条分析结果;所述分析结果表征对应的关联节点中导致所述告警指标触发告警的原因。
在可选的实施方式中,在所述确定告警指标所属的目标告警类别的步骤之前,所述方法还包括:
定时采集每个所述从节点的若干监控指标;
基于预设的告警配置文件对每个所述从节点的每个监控指标进行监控;所述告警配置文件包括多条告警策略;
当任一从节点的任一监控指标触发任一告警策略时,将所述监控指标作为所述告警指标。
在可选的实施方式中,所述获取与所述告警指标相关联的每个关联节点的关联指标信息的步骤,包括:
查找出与所述告警指标相关联的至少一个所述关联节点;
针对每个所述关联节点,统计所述关联节点中每种所述相关监控指标各自在预设时段内的指标数据;
基于所述指标数据,分别计算每种所述相关监控指标的指标值。
在可选的实施方式中,所述目标权重配比包括每种所述相关监控指标对应的权重系数;
所述目标决策树包括根节点、多个分支节点和多个叶子节点;所述分支节点或者所述根节点的子节点数量不唯一;所述根节点的子节点为所述分支节点或者所述叶子节点;
所述分支节点包括匹配条件,所述叶子节点包括匹配条件和预测结果,所述匹配条件为多个阈值条件的组合,所述阈值条件与至少一个所述相关监控指标相关;所述子节点的匹配条件中包括其对应父节点的匹配条件。
在可选的实施方式中,所述基于所述目标权重配比,利用所述目标决策树分别处理每个所述关联节点的关联指标信息,得到每个所述关联节点的至少一条分析结果的步骤,包括:
针对每个所述关联节点,将所述关联节点的全部所述相关监控指标的指标值输入所述根节点;
基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点;
分别获取每个所述目标叶子节点的预测结果;
将所述预测结果作为所述分析结果,得到所述关联节点的至少一条所述分析结果;
遍历每个所述关联节点,得到每个所述关联节点的至少一条所述分析结果。
在可选的实施方式中,所述基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点的步骤,包括:
基于所述目标权重配比,计算所述根节点的每个子节点的平均权重;
按照所述平均权重,对所述根节点的全部子节点进行降序排序;
从排序后的第一个子节点开始,将所述子节点作为目标节点;
判断全部所述指标值是否满足所述目标节点的匹配条件;
若全部所述指标值满足所述目标节点的匹配条件,则判断所述目标节点是否为所述叶子节点;
若所述目标节点是所述叶子节点,则得到一个所述目标叶子节点;
若所述目标节点不是所述叶子节点,则对所述目标节点所在的子树进行搜索;
在对所述子树搜索完成后,将所述目标节点替换为下一个子节点;返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点;
若全部所述指标值不满足所述目标节点的匹配条件,则直接将所述目标节点替换为所述下一个子节点,并返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点。
在可选的实施方式中,还包括:
将每个所述关联节点的分析结果发送至运维平台,以使所述运维平台基于全部所述分析结果生成所述分析结果的展示页面,并将所述展示页面的跳转链接发送至运维人员的个人账户。
第二方面,本发明提供一种告警分析装置,应用于计算节点,所述计算节点与若干从节点通信连接;所述装置包括:
节点监控模块,用于确定告警指标所属的目标告警类别;所述告警指标为任一所述从节点的任一监控指标;
数据获取模块,用于获取与所述告警指标相关联的每个关联节点的关联指标信息;所述关联指标信息包括所述关联节点中与所述告警指标相关的多种相关监控指标的指标值;所述关联节点为全部所述从节点中的一个;
所述节点监控模块,还用于确定所述目标告警类别对应的目标权重配比;
数据处理模块,用于基于所述目标权重配比,利用预先训练的决策树模型生成所述目标告警类别对应的目标决策树;
所述数据处理模块,还用于基于所述目标权重配比,利用所述目标决策树分别处理每个所述关联节点的关联指标信息,得到每个所述关联节点的至少一条分析结果;所述分析结果表征对应的关联节点中导致所述告警指标触发告警的原因。
第三方面,本发明提供一种计算节点,包括:存储器和处理器,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算节点运行时所述处理器执行所述机器可读指令以实现如前述实施方式中任一项所述的告警分析方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式中任一项所述的告警分析方法。
与现有技术相比,本发明实施例提供了一种告警分析方法、装置、计算节点及计算机可读存储介质,通过确定告警指标所属的目标告警类别对应的目标权重配比。接着获取与告警指标相关联的每个关联节点的关联指标信息,该关联指标信息包括关联节点中与告警指标相关的多种相关监控指标的指标值。再基于目标权重配比,利用预先训练的决策树模型生成目标告警类别对应的目标决策树,然后基于目标权重配比,利用目标决策树分别处理每个关联节点的关联指标信息,得到每个关联节点的至少一条分析结果。本方案中,该分析结果表征对应的关联节点中导致告警指标触发告警的原因,利用决策树模型生成的目标决策树可以全面的对每个关联节点的关联指标信息进行分析,实现了对告警指标的所有关联节点的全面性分析以及告警原因的查找与定位。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种计算节点的结构示意图。
图2为本发明实施例提供的一种告警分析方法的流程示意图之一。
图3为本发明实施例提供的一种告警分析方法的流程示意图之二。
图4为本发明实施例提供的一种告警分析方法的流程示意图之三。
图5为本发明实施例提供的一种目标决策树的结构示意图。
图6为本发明实施例提供的一种告警分析装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
经发明人长期调研发现,目前大部分大数据平台能配置了对监控指标的监控和配置告警策略等功能,例如:HDP(全称为Hortonworks Data Platform,一款基于ApacheHadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务)中,基于Granafa组件展示获取的监控指标,通过配置告警策略,实现了对监控指标的监控。
但是当前的告警策略只是简单阈值表达式,且监控的方式只是针对于单个或多个策略的匹配。而且在告警之后,也并未进一步地对告警进行分析与定位。
通常地,在集群中,为了提供服务的高效性和可持续性,一个业务组件通常会部署在多个业务节点。若是某个业务节点告警,若不对其告警的原因进行分析与定位,很可能会导致这几个业务节点均无法提供服务。而若是人工排查,不仅耗费人力物力,并且还很难精确定位。
基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
有鉴于此,本发明实施例提供一种告警分析方法,能够利用决策树模型生成的目标决策树来全面的对每个关联节点的关联指标信息进行分析,实现了对告警指标的所有关联节点的全面性分析以及告警原因的查找与定位。以下通过实施例,并配合所附附图,进行详细说明。
请参见图1,图1为本发明实施例提供的一种计算节点的结构示意图。该计算节点100包括处理器110、存储器120和总线130,处理器110通过总线130与存储器120连接。
存储器120可用于存储软件程序以及模组,例如,如本发明实施例所提供的告警分析装置200对应的程序指令/模组。处理器110通过运行存储在存储器120内的软件程序以及模组,从而执行各种功能应用以及数据处理,如本发明实施例所提供的告警分析方法。
其中,存储器120可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),闪存存储器(Flash),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
处理器110可以是一种集成电路芯片,具有信号处理能力。该处理器110可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,计算节点100可以是集群中的主节点或者任意一个节点,计算节点100与集群的若干从节点通信连接,计算节点100用于对所有从节点进行监控,并在异常时及时告警并进行告警原因的分析与定位。该计算节点100可以是但不限于服务器、个人计算机等。
可以理解,图1所示的结构仅为示意,计算节点100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参考图2,图2为本发明实施例提供的一种告警分析方法的流程示意图,该方法的执行主体可以是上述计算节点,该方法包括以下步骤:
S400、确定告警指标所属的目标告警类别。
在本实施例中,对于集群中的一个从节点来说,计算节点可以对从节点的多种监控指标进行监控。告警指标可以是集群中任一从节点的任一监控指标。可选的示例中,监控指标可以分为系统级指标、环境级指标、组件级指标这三种类型。
其中,告警指标所属的目标告警类别可以取决于其所属的指标类别,即:当告警指标为系统级指标时,目标告警类别为系统级告警;当告警指标为环境级指标时,目标告警类别为环境级告警;当告警指标为组件级指标时,目标告警类别为组件级告警。
从节点的系统级指标可以包括但不限于:CPU利用率、内存使用率、磁盘空间占用率、磁盘I/O利用率、网络带宽利用率等。
从节点中安装的某个软件运行需要依赖于相应的运行环境,在此情况下,可以对从节点中该软件的环境级指标进行监控,以保障该软件的运行稳定性。以JAVA的运行环境为例,环境级指标可以包括:当前进程数、句柄数、分配CPU核数、分配内存量、当前内存占用量、JVM(JAVA虚拟机)运行线程数。
对于从节点中部署的目标组件来说,组件级指标可以包括但不限于:目标组件的CPU利用率、内存使用率、磁盘空间占用率、磁盘I/O利用率、网络带宽利用率,以及一些目标组件相关的特定指标。以从节点部署的目标组件为HDFS(Hadoop Distributed FileSystem,分布式文件系统)组件为例,该从节点中,HDFS组件相关的特定指标可以包括:块校验平均时间、块检验次数、块报告平均时间、块报告次数、块验证失败次数、从硬盘读块总次数、删除块数目、块复制总次数、块验证总次数、向硬盘写块总次数、读出总字节包含CRC(Cyclic Redundancy Check,循环冗余校验)验证文件字节数、写入总字节数、复制块平均时间(单位为ms)等。
需要说明的是,上述举例仅为示例,实际中从节点的监控指标视其部署的组件情况、需要依赖运行环境的具体软件情况而定,在此不做限定。
S500、获取与告警指标相关联的每个关联节点的关联指标信息。
在本实施例中,关联指标信息包括关联节点中与告警指标相关的多种相关监控指标的指标值。
S600、确定目标告警类别对应的目标权重配比。
在本实施例中,计算节点可以预先存储有系统级告警、环境级告警、组件级告警各自对应的系统级告警权重配比、环境级告警权重配比、组件级告警权重配比。
S700、基于目标权重配比,利用预先训练的决策树模型生成目标告警类别对应的目标决策树。
可选的示例中,决策树模型可以基于C4.5算法得到。
S800、基于目标权重配比,利用目标决策树分别处理每个关联节点的关联指标信息,得到每个关联节点的至少一条分析结果。
在本实施例中,关联指标信息包括多种相关监控指标的指标值,关联指标信息即为目标决策树的输入数据。一种情况下,分析结果可以表征对应的关联节点中导致告警指标触发告警的原因;另一种情况下,分析结果可以表征对应的关联节点系统运行正常。
如此,每个关联节点都会得到至少一条分析结果,这样就实现了告警原因的定位和分析。本发明实施例提供的告警分析方法,通过确定告警指标所属的目标告警类别对应的目标权重配比。接着获取与告警指标相关联的每个关联节点的关联指标信息,该关联指标信息包括关联节点中与告警指标相关的多种相关监控指标的指标值。再基于目标权重配比,利用预先训练的决策树模型生成目标告警类别对应的目标决策树,然后基于目标权重配比,利用目标决策树分别处理每个关联节点的关联指标信息,得到每个关联节点的至少一条分析结果。本方案中,该分析结果表征对应的关联节点中导致告警指标触发告警的原因,利用决策树模型生成的目标决策树可以全面的对每个关联节点的关联指标信息进行分析,实现了对告警指标的所有关联节点的全面性分析以及告警原因的查找与定位。
在可选的实施方式中,在集群中,可以由计算节点负责监控其通信连接的若干从节点。对应地,在上述步骤S400之前,还可以包括:
S100、定时采集每个从节点的若干监控指标。
在本实施例中,对于一个从节点,计算节点定时采集的该从节点的所有监控指标可以包括上述提及的系统级指标、环境级指标、组件级指标中的至少一种类型。
S200、基于预设的告警配置文件对每个从节点的每个监控指标进行监控。
在本实施例中,告警配置文件的文件类型可以是“.yml”格式。告警配置文件可以是运维人员在运维平台对集群的告警相关内容进行配置得到的,然后发送并存储至计算节点。
可选的示例中,告警配置文件可以定义如下内容:
1、配置不同的告警组。当需要不同的告警业务时,可配置不同的告警组,不同的告警组的告警信息接收端不同。例如,系统级告警的告警信息需要发送给系统管理员,环境级告警、组件级告警的告警信息需要发给开发人员,告警信息接收端可以设为信息接收人的邮箱、工作账户等。
2、每个告警组下配置的多条告警策略。每个监控指标可以配置一条告警策略。
3、监控指标的采集频率。
4、不同告警策略被触发时的告警重要程度(可分为一般、重要、严重、紧急)。
5、不同告警策略被触发时需要定位的告警的从节点(可以是一个或多个)。
6、不同告警策略被触发时显示的告警来源。例如:网络IO超阈值、网络不可达等。
7、告警模型的加载路径。
需要说明的是,上述对告警配置文件的内容介绍仅为一种示例,在此不作限定。
S300、当任一从节点的任一监控指标触发任一告警策略时,将监控指标作为告警指标。
在本实施例中,当任一从节点的任一监控指标触发其对应的任一告警策略时,将该监控指标作为告警指标。
在可选的实施方式中,告警原因的定位与分析需要参照每个关联节点的每个相关监控指标在过期一段时间内的数据。对应的,上述步骤S500的子步骤可以包括:
S510、查找出与告警指标相关联的至少一个关联节点。
可以理解,告警指标可能会与集群中的多个从节点相关联,告警指标相关联的从节点即称为关联节点,其中一个关联节点为告警指标所属的从节点。
可选的示例中,假设集群中从节点A1-A5均部署了目标组件a,若告警指标为从节点A中目标组件a的特定指标a1,那么目标告警类别即为组件级告警,那么特定指标a1相关联的关联节点包括从节点A1-A5一共5个。该举例仅为示例,在此不作限定。
S520、针对每个关联节点,统计关联节点中每种相关监控指标各自在预设时段内的指标数据。
预设时段可以是当前时刻之前的预设时长,例如,预设时段可以设置为过去10分钟、过去20分钟等。
S530、基于指标数据,分别计算每种相关监控指标的指标值。
在本实施例中,预设时段内的指标数据通常是呈现连续的波形变化的。因此,对于预设时段内一个相关监控指标的指标数据:可以直接计算均值得到指标值,或者,计算所有波峰的均值得到指标值。
在可选的实施方式中,决策树模型可以通过以下步骤(1)~(5)训练得到:
(1)、加载预先建立的决策树模型。
(2)、获取训练数据集,训练数据集包括若干样本指标值,每种样本指标值携带特征标签和类别标签。
其中,特征标签可以包括但不限于:该样本指标值的权重系数、该样本指标值与其余样本指标值的关联度、该样本指标值的物理属性(即单位)。类别标签可以包括但不限于:该样本指标值的所属的指标类别、报错原因等。
也就是,训练数据集中可以包括各种系统级指标的样本指标值、各种环境级指标的样本指标值以及各种组件级指标的样本指标值。
(3)、基于设定特征标签使用信息增益或其他相关度量来选择最佳特征作为根节点,并递归地将训练数据集分为多个数据子集,直到所有叶子节点都具有相同的类别或标签。
(4)、分别利用每个训练子集对决策树模型进行训练,得到训练后的决策树模型。
以一个训练子集为例,训练时,需要将该训练子集输入决策树模型,还需设置相应的参数,例如决策树深度、特征选择算法等。通常的,特征选择算法可以为Pearson(皮尔逊)相关系数、卡方验证法、互信息和最大信息系数、距离相关系数、包装法等。
(5)、利用训练数据集可以构建得到测试集,使用测试集来评估训练后的决策树模型的性能。将测试集的特征作为参数输入,得到预测的标签,并与实际标签进行比较。
在可选的实施方式中,目标权重配比可以包括每种相关监控指标对应的权重系数。基于目标权重配比,即可以利用决策树模型生成目标告警类别对应的目标决策树。为了避免过拟合,可以使用交叉验证方式对目标决策树进行剪枝处理。
以下先对目标决策树的结构进行介绍。
目标决策树由节点和分支组成,分支用于连接各个节点。其中,节点有三种类型:根节点、分支节点和叶子节点。一般的,目标决策树可以包括一个根节点、多个分支节点和多个叶子节点,分支节点或者根节点的子节点数量不唯一,根节点的子节点可以是分支节点或者也可以是叶子节点。
在目标决策树中,分支节点可以包括匹配条件,叶子节点可以包括匹配条件和预测结果,匹配条件可以是多个阈值条件的组合。阈值条件可以与至少一个相关监控指标相关。可以理解,不同节点的匹配条件是不同的,但是子节点的匹配条件中可以包括其对应父节点的匹配条件。
可以理解,在系统级告警中,目标决策树中各节点的匹配条件是与系统级指标关联的;在环境级告警中,目标决策树中各节点的匹配条件是与系统级指标、环境级指标关联的;在组件级告警中,目标决策树中各节点的匹配条件是与系统级指标、组件级指标关联的。
在可选的实施方式中,利用目标决策树处理关联节点的关联指标信息是通过将全部相关监控指标的指标值输入至目标决策树的根节点,然后沿着目标决策树的分支利用所有的指标值与节点进行匹配,直到匹配上叶子节点,该叶子节点包括的预测结果即为一条分析结果。
对应地,在图2的基础上,结合图3,上述步骤S800的子步骤可以包括S810~S840:
S810、针对每个关联节点,将关联节点的全部相关监控指标的指标值输入根节点。
S820、基于目标权重配比和全部指标值,对目标决策树进行匹配搜索,查找出至少一个目标叶子节点。
可选的示例中,在图3的基础上,结合图4,步骤S820的子步骤可以包括S821~S828:
S821、基于目标权重配比,计算根节点的每个子节点的平均权重。
在本实施例中,字节点的平均权重可以是该子节点中匹配条件涉及的多个相关监控指标的权重系数的均值。
S822、按照平均权重,对根节点的全部子节点进行降序排序。
S823、从排序后的第一个子节点开始,将子节点作为目标节点。
S824、判断全部指标值是否满足目标节点的匹配条件。
在本实施例中,判断全部指标值是否满足目标节点的匹配条件的过程可以是:
从全部指标值中,查找与目标节点的匹配条件相关的各个相关监控指标的目标指标值;分别将每个目标指标值与目标节点中对应的阈值条件进行匹配;若每个目标指标值均满足对应的阈值条件,则说明全部指标值满足目标节点的匹配条件;若存在任意一个目标指标值不满足对应的阈值条件,则说明全部指标值不满足目标节点的匹配条件。
其中,若全部指标值满足目标节点的匹配条件,则执行步骤S825。若全部指标值不满足目标节点的匹配条件,则执行步骤S827。
S825、判断目标节点是否为叶子节点。
若目标节点是叶子节点,即搜索得到了一个目标叶子节点,接着可以继续执行步骤S827。若目标节点不是叶子节点,则执行步骤S826。
S826、对目标节点所在的子树进行搜索。
在对子树搜索完成后,执行步骤S827。
S827、判断目标节点是否为排序后的最后一个子节点。
若目标节点不是排序后的最后一个子节点,那么就继续执行以下步骤S828后返回执行步骤S824直至目标节点为排序后的最后一个子节点。若目标节点是排序后的最后一个子节点,那么即完成对目标决策树的搜索,得到了全部的目标叶子节点。
S828、将目标节点替换为下一个子节点。
以上步骤S821~S828是从根节点下的每个子节点及其所在子树,依次进行搜索。
而在步骤S826中对目标节点所在的子树进行搜索的基体过程与S821~S828类似,也是从该目标节点下的每个子节点及其所在子树,依次进行搜索的,在此不做赘述。目标决策树的具体搜索过程可参见后续的示例性举例。
S830、分别获取每个目标叶子节点的预测结果,并将预测结果作为分析结果,得到关联节点的至少一条分析结果。
S840、遍历每个关联节点,得到每个关联节点的至少一条分析结果。
上述通过上述步骤S810~S830,即可得到一个关联节点的所有分析结果。对于每个关联节点的关联指标信息均通过步骤S810~S830的处理,即可得到每个关联节点的所有分析结果,实现对告警原因的定位分析。
以下给出一种对目标决策树进行搜索的示例性举例。
假设目标告警类别即为组件级告警,关联节点包括从节点A1-A5,以其中的关联节点A1为例,若告警指标的相关监控指标包括系统级指标S1~S4,组件级指标C1~C11,目标权重配比即包括S1~S4、C1~C11各自对应的权重系数。假设S1~S4、C1~C11各自的指标值分别为k1~k15。
图5为本发明实施例提供的一种目标决策树的结构示意图,图5中,目标决策树总计14个节点,节点以方框表示,方框上方数字为节点标号。对图5中目标决策树的搜索过程如下:
一、将k1~k15输入至根节点(节点1),计算出根节点下三个子节点各自的平均权重。
以节点2为例,计算相关监控指标S1、S2、S3三者的权重系数的平均值,该平均值即为节点2的平均权重。后续节点的平均权重计算方式与此类似。
二、假设节点2、节点7、节点13各自的平均权重为0.18、0.2、0.15,按照平均权重降序排序为节点7、节点2、节点13。故需要依次对节点7、节点2、节点13及其各自的子树进行匹配搜索:
(1)对节点7及其子树进行搜索,可以包括以下5步:
1)将相关监控指标S1、S2、S3各自的指标值k1、k2、k3与节点7中的三个阈值条件相匹配,假设三个阈值条件皆满足,即节点7匹配成功。
2)计算出节点7的两个子节点的平均权重,假设节点8、节点9各自的平均权重为0.18、0.16。
3)先将相关监控指标S1、S2、S3、C5各自的指标值k1、k2、k3、k9与节点8中的四个阈值条件相匹配,假设四个阈值条件皆满足,即节点8匹配成功,且节点8为叶子节点,得到第一个目标叶子节点为节点8。
4)再将相关监控指标S1、S2、S3、C6、C7各自的指标值k1、k2、k3、k10、k11与节点9中的四个阈值条件相匹配,假设四个阈值条件皆满足,即节点9匹配成功。
5)继续计算出节点9的三个子节点的平均权重,假设节点10、节点11、节点12各自的平均权重为0.12、0.14、0.13。与上述匹配节点7、节点8类似,依次对节点11、节点12、节点10进行匹配。假设节点12匹配成功,另外两个皆匹配失败,那么此时得到第二个目标叶子节点即为节点12,完成对节点7及其子树的搜索。
(2)在对节点7及其子树的搜索完成后,接着针对节点2及其子树进行搜索:
将相关监控指标S1、S2、S3各自的指标值k1、k2、k3与节点7中的三个阈值条件相匹配,此时三个阈值条件皆不满足,即节点2匹配失败,不再对节点2之下的子节点进行搜索,即可视为完成对节点2及其子树的搜索。
(3)在对节点2及其子树的搜索完成后,接着针对节点13及其子树进行搜索:
1)将相关监控指标S1、S2、S3、S4各自的指标值k1、k2、k3、k4与节点13中的四个阈值条件相匹配,假设四个阈值条件皆满足,即节点13匹配成功。
2)计算出节点13的子节点的平均权重,假设节点14的平均权重为0.14。
3)由于节点13的子节点只有节点14,那么即可直接将相关监控指标S1、S2、S3、S4、C11各自的指标值k1、k2、k3、k4、k15与节点14中的五个阈值条件相匹配,假设五个阈值条件皆满足,即节点14匹配成功,且节点14为叶子节点,得到第三个目标叶子节点为节点8,即完成对节点13及其子树的搜索。
通过以上步骤一、步骤二及其子步骤即完成对图5所示的目标决策树的搜索,得到三个目标叶子节点(节点8、节点12、节点14),那么节点8、节点12、节点14各自包含的预测结果D4、D7、D8即为关联节点A1的三个分析结果。这样就得到了关联节点A1中导致告警的原因。
需要说明的是,上述举例以及结合图5的搜索过程仅为一种搜索逻辑的展示,具体告警指标的相关监控指标、目标决策树的结构、目标决策树中各节点中的阈值条件以及叶子节点中的预测结果以实际应用情况为准,在此不做限定。
在可选的实施方式中,每个关联节点的分析结果可以辅助运维人员对集群进行管理与维护。告警分析方法还可以包括:
S900、将每个关联节点的分析结果发送至运维平台,以使运维平台基于全部分析结果生成分析结果的展示页面,并将展示页面的跳转链接发送至运维人员的个人账户。
其中,个人账户可以是运维人员的个人邮箱或者是工作账户。可选的示例中,运维平台可以将包括具体告警详情以及展示页面的跳转链接告警信息发送至运维人员的个人账户。
需要说明的是,上述方法实施例中各个步骤的执行顺序不以附图所示为限制,各步骤的执行顺序以实际应用情况为准。
为了执行上述方法实施例及各个可能的实施方式中的相应步骤,下面分别给出一种告警分析装置的实现方式。
请参见图6,图6示出了本发明实施例提供的告警分析装置的结构示意图。该告警分析装置200应用于计算节点,该计算节点与若干从节点通信连接。该告警分析装置200包括:节点监控模块210、数据获取模块220、数据处理模块230。
节点监控模块210,用于确定告警指标所属的目标告警类别;所述告警指标为任一所述从节点的任一监控指标;
数据获取模块220,用于获取与所述告警指标相关联的每个关联节点的关联指标信息;所述关联指标信息包括所述关联节点中与所述告警指标相关的多种相关监控指标的指标值;所述关联节点为全部所述从节点中的一个;
所述节点监控模块210,还用于确定所述目标告警类别对应的目标权重配比;
数据处理模块230,用于基于所述目标权重配比,利用预先训练的决策树模型生成所述目标告警类别对应的目标决策树;
所述数据处理模块230,还用于基于所述目标权重配比,利用所述目标决策树分别处理每个所述关联节点的关联指标信息,得到每个所述关联节点的至少一条分析结果;所述分析结果表征对应的关联节点中导致所述告警指标触发告警的原因。
在可选的实施方式中,所述节点监控模块210在用于确定告警指标所属的目标告警类别之前,还用于:定时采集每个所述从节点的若干监控指标;基于预设的告警配置文件对每个所述从节点的每个监控指标进行监控;所述告警配置文件包括多条告警策略;当任一所述从节点的任一监控指标触发任一告警策略时,将所述监控指标作为所述告警指标。
在可选的实施方式中,数据获取模块220用于获取与所述告警指标相关联的每个关联节点的关联指标信息时,具体可以用于:查找出与所述告警指标相关联的至少一个所述关联节点;针对每个所述关联节点,统计所述关联节点中每种所述相关监控指标各自在预设时段内的指标数据;基于所述指标数据,分别计算每种所述相关监控指标的指标值。
在可选的实施方式中,目标权重配比包括每种所述相关监控指标对应的权重系数。所述目标决策树包括根节点、多个分支节点和多个叶子节点;所述分支节点或者所述根节点的子节点数量不唯一;所述根节点的子节点为所述分支节点或者所述叶子节点。所述分支节点包括匹配条件,所述叶子节点包括匹配条件和预测结果,所述匹配条件为多个阈值条件的组合,所述阈值条件与至少一个所述相关监控指标相关;所述子节点的匹配条件中包括其对应父节点的匹配条件。
在可选的实施方式中,数据处理模块230在用于基于所述目标权重配比,利用所述目标决策树分别处理每个所述关联节点的关联指标信息,得到每个所述关联节点的至少一条分析结果时,具体可以用于:针对每个所述关联节点,将所述关联节点的全部所述相关监控指标的指标值输入所述根节点;基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点;分别获取每个所述目标叶子节点的预测结果;将所述预测结果作为所述分析结果,得到所述关联节点的至少一条所述分析结果;遍历每个所述关联节点,得到每个所述关联节点的至少一条所述分析结果。
在可选的实施方式中,数据处理模块230在用于基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点时,具体可以用于:基于所述目标权重配比,计算所述根节点的每个子节点的平均权重;按照所述平均权重,对所述根节点的全部子节点进行降序排序;从排序后的第一个子节点开始,将所述子节点作为目标节点;判断全部所述指标值是否满足所述目标节点的匹配条件;若全部所述指标值满足所述目标节点的匹配条件,则判断所述目标节点是否为所述叶子节点;若所述目标节点是所述叶子节点,则得到一个所述目标叶子节点;若所述目标节点不是所述叶子节点,则对所述目标节点所在的子树进行搜索;在对所述子树搜索完成后,将所述目标节点替换为下一个子节点;返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点;若全部所述指标值不满足所述目标节点的匹配条件,则直接将所述目标节点替换为所述下一个子节点,并返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点。
在可选的实施方式中,数据处理模块230还可以用于:将每个所述关联节点的分析结果发送至运维平台,以使所述运维平台基于全部所述分析结果生成所述分析结果的展示页面,并将所述展示页面的跳转链接发送至运维人员的个人账户。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的告警分析装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述实施例揭示的告警分析方法。该计算机可读存储介质可以是但不限于:U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、FLASH磁碟或者光盘等各种可以存储程序代码的介质。
综上,本发明实施例提供了一种告警分析方法、装置、计算节点及计算机可读存储介质,通过确定告警指标所属的目标告警类别对应的目标权重配比。接着获取与告警指标相关联的每个关联节点的关联指标信息,该关联指标信息包括关联节点中与告警指标相关的多种相关监控指标的指标值。再基于目标权重配比,利用预先训练的决策树模型生成目标告警类别对应的目标决策树,然后基于目标权重配比,利用目标决策树分别处理每个关联节点的关联指标信息,得到每个关联节点的至少一条分析结果。本方案中,该分析结果表征对应的关联节点中导致告警指标触发告警的原因,利用决策树模型生成的目标决策树可以全面的对每个关联节点的关联指标信息进行分析,实现了对告警指标的所有关联节点的全面性分析以及告警原因的查找与定位。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种告警分析方法,其特征在于,应用于计算节点,所述计算节点与若干从节点通信连接;所述方法包括:
确定告警指标所属的目标告警类别;所述告警指标为任一所述从节点的任一监控指标;
获取与所述告警指标相关联的每个关联节点的关联指标信息;所述关联指标信息包括所述关联节点中与所述告警指标相关的多种相关监控指标的指标值;所述关联节点为全部所述从节点中的一个;
确定所述目标告警类别对应的目标权重配比;所述目标权重配比包括每种所述相关监控指标对应的权重系数;
基于所述目标权重配比,利用预先训练的决策树模型生成所述目标告警类别对应的目标决策树;其中,所述目标决策树包括根节点、多个分支节点和多个叶子节点;所述分支节点或者所述根节点的子节点数量不唯一;所述根节点的子节点为所述分支节点或者所述叶子节点;所述分支节点包括匹配条件,所述叶子节点包括匹配条件和预测结果,所述匹配条件为多个阈值条件的组合,所述阈值条件与至少一个所述相关监控指标相关;所述子节点的匹配条件中包括其对应父节点的匹配条件;
针对每个所述关联节点,将所述关联节点的全部所述相关监控指标的指标值输入所述根节点;
基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点;
分别获取每个所述目标叶子节点的预测结果,并将所述预测结果作为分析结果,得到所述关联节点的至少一条所述分析结果;所述分析结果表征对应的关联节点中导致所述告警指标触发告警的原因;
遍历每个所述关联节点,得到每个所述关联节点的至少一条所述分析结果。
2.根据权利要求1所述的方法,其特征在于,在所述确定告警指标所属的目标告警类别的步骤之前,所述方法还包括:
定时采集每个所述从节点的若干监控指标;
基于预设的告警配置文件对每个所述从节点的每个监控指标进行监控;所述告警配置文件包括多条告警策略;
当任一从节点的任一监控指标触发任一告警策略时,将所述监控指标作为所述告警指标。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述告警指标相关联的每个关联节点的关联指标信息的步骤,包括:
查找出与所述告警指标相关联的至少一个所述关联节点;
针对每个所述关联节点,统计所述关联节点中每种所述相关监控指标各自在预设时段内的指标数据;
基于所述指标数据,分别计算每种所述相关监控指标的指标值。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点的步骤,包括:
基于所述目标权重配比,计算所述根节点的每个子节点的平均权重;
按照所述平均权重,对所述根节点的全部子节点进行降序排序;
从排序后的第一个子节点开始,将所述子节点作为目标节点;
判断全部所述指标值是否满足所述目标节点的匹配条件;
若全部所述指标值满足所述目标节点的匹配条件,则判断所述目标节点是否为所述叶子节点;
若所述目标节点是所述叶子节点,则得到一个所述目标叶子节点;
若所述目标节点不是所述叶子节点,则对所述目标节点所在的子树进行搜索;
在对所述子树搜索完成后,将所述目标节点替换为下一个子节点;返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点;
若全部所述指标值不满足所述目标节点的匹配条件,则直接将所述目标节点替换为所述下一个子节点,并返回执行所述判断全部所述指标值是否满足所述目标节点的匹配条件的步骤,直至排序后的最后一个子节点,得到至少一个所述目标叶子节点。
5.根据权利要求1所述的方法,其特征在于,还包括:
将每个所述关联节点的分析结果发送至运维平台,以使所述运维平台基于全部所述分析结果生成所述分析结果的展示页面,并将所述展示页面的跳转链接发送至运维人员的个人账户。
6.一种告警分析装置,其特征在于,应用于计算节点,所述计算节点与若干从节点通信连接;所述装置包括:
节点监控模块,用于确定告警指标所属的目标告警类别;所述告警指标为任一所述从节点的任一监控指标;
数据获取模块,用于获取与所述告警指标相关联的每个关联节点的关联指标信息;所述关联指标信息包括所述关联节点中与所述告警指标相关的多种相关监控指标的指标值;所述关联节点为全部所述从节点中的一个;
所述节点监控模块,还用于确定所述目标告警类别对应的目标权重配比;所述目标权重配比包括每种所述相关监控指标对应的权重系数;
数据处理模块,用于基于所述目标权重配比,利用预先训练的决策树模型生成所述目标告警类别对应的目标决策树;其中,所述目标决策树包括根节点、多个分支节点和多个叶子节点;所述分支节点或者所述根节点的子节点数量不唯一;所述根节点的子节点为所述分支节点或者所述叶子节点;所述分支节点包括匹配条件,所述叶子节点包括匹配条件和预测结果,所述匹配条件为多个阈值条件的组合,所述阈值条件与至少一个所述相关监控指标相关;所述子节点的匹配条件中包括其对应父节点的匹配条件;
所述数据处理模块,还用于:
针对每个所述关联节点,将所述关联节点的全部所述相关监控指标的指标值输入所述根节点;
基于所述目标权重配比和全部所述指标值,对所述目标决策树进行匹配搜索,查找出至少一个目标叶子节点;
分别获取每个所述目标叶子节点的预测结果,并将所述预测结果作为分析结果,得到所述关联节点的至少一条所述分析结果;所述分析结果表征对应的关联节点中导致所述告警指标触发告警的原因;
遍历每个所述关联节点,得到每个所述关联节点的至少一条所述分析结果。
7.一种计算节点,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算节点运行时所述处理器执行所述机器可读指令以实现如权利要求1-5中任一项所述的告警分析方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的告警分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376489.1A CN116089224B (zh) | 2023-04-11 | 2023-04-11 | 告警分析方法、装置、计算节点及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376489.1A CN116089224B (zh) | 2023-04-11 | 2023-04-11 | 告警分析方法、装置、计算节点及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116089224A CN116089224A (zh) | 2023-05-09 |
CN116089224B true CN116089224B (zh) | 2023-06-30 |
Family
ID=86204881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310376489.1A Active CN116089224B (zh) | 2023-04-11 | 2023-04-11 | 告警分析方法、装置、计算节点及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089224B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117289143B (zh) * | 2023-11-27 | 2024-04-19 | 宁德时代新能源科技股份有限公司 | 一种故障预测方法、装置、设备、系统和介质 |
CN117389997B (zh) * | 2023-12-12 | 2024-04-16 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881349A (zh) * | 2022-05-26 | 2022-08-09 | 平安银行股份有限公司 | 基于大数据分析的预警方法及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452825B (zh) * | 2016-07-20 | 2019-08-06 | 国网江苏省电力公司南京供电公司 | 一种基于改进决策树的配用电通信网告警关联分析方法 |
US11200488B2 (en) * | 2017-02-28 | 2021-12-14 | Cisco Technology, Inc. | Network endpoint profiling using a topical model and semantic analysis |
CN112152852B (zh) * | 2020-09-23 | 2023-02-03 | 创新奇智(北京)科技有限公司 | 根因分析方法、装置、设备及计算机存储介质 |
CN113222140B (zh) * | 2021-05-10 | 2022-09-20 | 重庆邮电大学 | 一种基于c4.5算法和bp神经元的配电网故障辅助决策方法 |
CN113591393A (zh) * | 2021-08-10 | 2021-11-02 | 国网河北省电力有限公司电力科学研究院 | 智能变电站的故障诊断方法、装置、设备和存储介质 |
CN115865611A (zh) * | 2021-09-24 | 2023-03-28 | 中国移动通信集团湖南有限公司 | 一种网络设备的故障处理方法、装置及电子设备 |
CN115529219A (zh) * | 2022-09-16 | 2022-12-27 | 中国工商银行股份有限公司 | 告警分析方法、装置、计算机可读存储介质及电子设备 |
-
2023
- 2023-04-11 CN CN202310376489.1A patent/CN116089224B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881349A (zh) * | 2022-05-26 | 2022-08-09 | 平安银行股份有限公司 | 基于大数据分析的预警方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116089224A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116089224B (zh) | 告警分析方法、装置、计算节点及计算机可读存储介质 | |
US10977154B2 (en) | Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data | |
JP6643211B2 (ja) | 異常検知システム及び異常検知方法 | |
US9542255B2 (en) | Troubleshooting based on log similarity | |
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
US8453027B2 (en) | Similarity detection for error reports | |
CN108683530B (zh) | 多维度数据的数据分析方法、装置及存储介质 | |
US8185781B2 (en) | Invariants-based learning method and system for failure diagnosis in large scale computing systems | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
CN109697456B (zh) | 业务分析方法、装置、设备及存储介质 | |
CN113282461B (zh) | 传输网的告警识别方法和装置 | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
US11240119B2 (en) | Network operation | |
CN113516174B (zh) | 调用链异常检测方法、计算机设备以及可读存储介质 | |
CN113590451B (zh) | 一种根因定位方法、运维服务器及存储介质 | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
CN111078513A (zh) | 日志处理方法、装置、设备、存储介质及日志告警系统 | |
CN109815085B (zh) | 告警数据的分类方法、装置和电子设备及存储介质 | |
CN112769605A (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN112817785A (zh) | 一种微服务系统的异常检测方法及装置 | |
CN113626241A (zh) | 应用程序的异常处理方法、装置、设备及存储介质 | |
CN110719200B (zh) | 信息识别方法和装置 | |
CN117170915A (zh) | 数据中心设备故障预测方法、装置和计算机设备 | |
US11838171B2 (en) | Proactive network application problem log analyzer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |