CN109634808B - 一种基于关联分析的链式监控事件根因分析方法 - Google Patents

一种基于关联分析的链式监控事件根因分析方法 Download PDF

Info

Publication number
CN109634808B
CN109634808B CN201811477127.7A CN201811477127A CN109634808B CN 109634808 B CN109634808 B CN 109634808B CN 201811477127 A CN201811477127 A CN 201811477127A CN 109634808 B CN109634808 B CN 109634808B
Authority
CN
China
Prior art keywords
monitoring
index
alarm
index chain
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811477127.7A
Other languages
English (en)
Other versions
CN109634808A (zh
Inventor
鞠向明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CITIC Aibank Corp Ltd
Original Assignee
CITIC Aibank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CITIC Aibank Corp Ltd filed Critical CITIC Aibank Corp Ltd
Priority to CN201811477127.7A priority Critical patent/CN109634808B/zh
Publication of CN109634808A publication Critical patent/CN109634808A/zh
Application granted granted Critical
Publication of CN109634808B publication Critical patent/CN109634808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于关联分析的链式监控事件根因分析方法。以预定义的指标链树为参考,对于频繁同时发生的两条监控事件,分别提取两个不同的监控类型,提取第一条事件的监控类型为A,提取第二条事件的监控类型为B,并根据事件A和事件B的数量做比较和预判:若得到指标链为A小于B,则事件A更靠近指标链树根节点,并且以A为链接点,将此指标链添加到指标链树中;若A和B相同,则并列添加到指标链树中上一层的应用节点。针对报警风暴,将从监控事件中所得的报警类型与已经生成的指标链树做匹配,根据与根节点的报警距离确定根因报警,其他报警可以聚合到该根因报警中去。采用这样的方法,可以解决报警数量多导致运维排障效率低、过度依赖运维人员个人经验和技术的问题,有助于高效恢复业务,保障业务系统的稳定运行。

Description

一种基于关联分析的链式监控事件根因分析方法
技术领域
本发明属于计算机系统和应用监控技术领域,特别涉及一种基于关联分析的链式监控事件根因分析方法。
背景技术
在现有技术解决方案中,事件处理缺乏对多指标深度复杂场景的报警关联和聚合,遇到网络、数据库、核心系统异常容易产生报警风暴,跨系统的报警缺乏根因定位和快速发现,对监控事件压缩智能在定制化的情况下做到单个事件数量的累计,使得在面对大量的监控报警时,排障工作主要依赖运维人员的经验。
目前的监控报警系统存在以下不足:一是报警孤立。当前业务平台一般都涉及若干系统,系统之间都存在依赖,报警中缺乏其关联信息,同时收到的多条报警,需要逐一排查才能追溯哪一个报警是根因;二是故障根因分析效率慢。常见监控产品尚无有效的根因报警分析策略,收到大量的监控报警,需要运维人员执行若干命令,查询若干数据,基于经验和知识库进行判断异常原因,效率不高;三是大量报警。当系统关键节点发送故障,容易产生大量报警,缺乏有效聚合会导致报警风暴,干扰判断,造成资源浪费。
发明内容
本发明要解决的技术问题在于当报警风暴产生,跨系统的报警缺乏根因定位和快速发现,排障工作效率低,主要依靠运维人的经验。
为解决上述问题,本发明提供一种基于关联分析的链式监控事件根因分析方法,能够解决如下技术问题:一是实现故障根因分析。在报警风暴当中,必定有少量的报警是导致其他报警发生的根本原因,通过根因分析技术,能够找出这些根因报警;二是有效应对报警风暴。当同时爆发大量的报警时,通过报警压缩技术可以有效的减少报警数量。
本发明提供一种基于关联分析的链式监控事件根因分析方法,能够取得如下技术效果:一是,通过本发明可以快速发现根因报警,据此可以将由其引发的其他报警都聚合到这条根因报警当中,从而实现故障根因分析;二是,报警通知量明显减少(短信、邮件等),可以有效应对报警风暴,让运维人员从有效报警当中更快的发现问题、解决问题,减少无效报警的干扰。
本发明提供一种基于关联分析的链式监控事件根因分析方法,该根因分析方法包括:
1)将监控系统的监控指标分类,每一类根据指标权重抽象为树形结构,以预定义指标链树;
2)结合历史报警数据生成指标链,扩充指标链树;
3)提取当前监控报警的监控类型,匹配指标链树;
4)分析指标链树,得到根因报警。
所述监控指标,是指监控系统对监控对象进行检测的一个项目,并需要根据监控对象的运行情况对其设定一个阙值,当采集到的数据不符合阙值时会触发监控的报警事件。
所述指标链,是指根据关联分析结果,经常同时发生的监控报警,极有可能有内在联系,因此可以形成一条指标链。
所述指标链树,是指多条指标链的相同节点以靠近根节点为原则进行合并,形成树状结构的指标链树。
所述关联分析,又称关联挖掘,是指可以发现存在于大量数据集中的关联性或相关性,从而描述了一个事务中某些属性同时出现的规律和模式。在此可以用来挖掘出经常同时发生的事件。
所述指标权重,系现有技术,是指在整体数量中所占的比例大小量化值,将某个事物所含各个指标权重之和视为1,其中每个指标的权重用小数表示。
进一步地,为了应对报警风暴的发生,根据实际的监控系统配置情况,将监控指标进行分组归类,每一类根据指标权重区分根节点和叶子节点,抽象成为树形结构,预定义指标链树。
所述报警风暴,指的是监控系统在短期内发生的大量监控报警的现象。
进一步地,为了生成指标链,针对同时发生的两条监控事件,分别提取两个不同的监控类型,提取第一条事件的监控类型为A,提取第二条事件的监控类型为B。
进一步地,为了判断报警数量,从指标链树中查找是否包含第一条事件的监控类型A、 B的规则:如是,则计算权重;如否,则分析监控类型A和监控类型B的数量。
进一步地,为了生成指标链,分析监控类型A和监控类型B的数量:若A的数量少于B的数量,则暂定指标链为A小于B;若A的数量和B的数量相等,则A和B并列,不生成新的指标链。
进一步地,为了与指标树相匹配,若得到指标链为A小于B,则事件A更靠近指标链树根节点,并且以A为链接点,将此指标链添加到指标链树中;若A和B并列,挂在指标链树上层的应用节点。
进一步地,为了判断是否为根因报警,将监控所得的报警类型与已经生成的指标链树做匹配,根据与根节点的报警距离确定根因报警。
所述根节点,属于现有技术,是指除本身外所有节点的祖先,没有父节点,即指没有上一级节点。
所述根因报警,是指如果一条监控报警发生后,会引发数条其他的报警,这一条报警便是这一组监控报警中的根因报警。
进一步地,其他报警可以聚合到根因报警中去。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
下面结合附图对本发明的具体实施方式做进一步详细的说明,其中:
图1是根据一示例性实施例示出基于关联分析的链式监控事件根因分析方法流程图;
图2是根据一示例性实施例示出的预定义指标链树示意图;
图3是根据一示例性实施例示出的生成指标链示意图;
图4是根据一示例性实施例示出的匹配指标链示意图。
具体实施方式
为更容易理解本发明的优点、特征以及达到技术效果的技术方法将参照例示性实施例进行更详细地描述,且本发明可以不同形式来实现,故不应被理解为本发明仅限于此处所陈述的实施例,相反地,对本领域的技术人员,所提供的实施例将更加透彻与全面且完整地传达本发明的范畴,且本发明将以申请专利文件的权利要求确定保护范围。
以下结合附图对本申请进行进一步的说明。
如图1所示,本实施例为模拟一个报警风暴产生,采用关联分析的链式监控事件进行根因分析,有效提取进行根因分析和快速发现。
如图2所示,根据实际的监控系统配置情况,将监控指标进行分组归类,每一类根据指标权重来区分根节点和叶子节点,从而抽象成为树形结构,预定义一颗指标链树。
某应用的发生1条进程CPU使用率100%报警,1条内存使用超过90%报警,同时端口8031、8032、8033共有3条报警,1条java进程报警,2条网址访问超时报警,3条 API接口状态报警,3条F5端口状态报警,共计14条监控报警事件,报警风暴产生。
如图3所示,经过结合历史事件的关联分析,发现某应用APP曾频繁同时发生java进程报警PROC_java,8031端口报警PORT_8031,和API接口异常状态报警API_03,以及 F5检测到的端口状态报警F5_8031,根据指标链生成规则,可得到一条具体的指标链:进程报警APP_PROC_java->端口报警APP_PORT_8031->API_03,由于端口报警 PORT_8031和F5_8031是一一对应的关系,查询指标链树模板发现已有 PROC->PORT->API这样一条指标链的预定义,F5_8031挂在PORT_8031的后面;经过对历史事件的关联分析,能发现进程PROC_java下面还有PORT_8032和PORT_8033两个端口的指标链,统一都挂在指标链树的PROC_java节点。由此可以得到一棵针对某应用APP的java进程的监控指标链树。
如图4所示,将上述14条报警事件与指标链树匹配,分析监控事件,每一个方格对应1条监控报警,从指标链树中可分析出java进程已占用100%CPU,根因事件就是最靠近根节点的一条swap内存占用过高报警。分析出了这1条根因报警,其他的13条报警事件就可以聚合到这一条报警事件当中。
通过使用这种根因事件分析方法,可以将这14条报警事件聚合到1条根因事件当中,监控系统只需要发出1条报警通知信息,运维人员收到信息之后,可以立刻找到故障原因并进行应急处置,从而快速的恢复业务。

Claims (6)

1.一种基于关联分析的链式监控事件根因分析方法,其特征在于,包括如下步骤:
1)将监控系统的监控指标分类,每一类根据指标权重抽象为树形结构,以预定义指标链树;
2)结合历史报警数据生成指标链,扩充指标链树;
生成所述指标链时,若同时发生两条监控事件,分别提取两个不同的监控类型,提取第一条事件的监控类型为A,提取第二条事件的监控类型为B;
从指标链树中查找是否包含第一条事件的监控类型A、B的规则;
如是,则计算权重;
如否,则分析监控类型A和监控类型B的数量;
3)提取监控报警的监控类型,匹配指标链树;
4)分析指标链树,得到根因报警;
所述监控指标是监控系统对监控对象进行检测的项目;
所述指标链是存在关联关系的监控指标;
所述关联分析用于发现同时发的监控报警。
2.根据权利要求1所述的基于关联分析的链式监控事件根因分析方法,其特征在于,根据实际的监控系统配置情况,将监控指标进行分组归类,每一类根据指标权重区分根节点和叶子节点,抽象成为树形结构,预定义指标链树。
3.根据权利要求1所述的基于关联分析的链式监控事件根因分析方法,其特征在于,生成所述指标链时,分析监控类型A和监控类型B的数量:
若A的数量少于B的数量,则暂定指标链为A小于B;
若A的数量和B的数量相等,则A和B并列,不生成新的指标链。
4.根据权利要求3所述的基于关联分析的链式监控事件根因分析方法,其特征在于,扩充所述指标链树时,
若得到指标链为A小于B,则事件A更靠近指标链树根节点,并且以A为链接点,将此指标链添加到指标链树中;
若A和B并列,则并列添加到指标链树上层的应用节点,指标链树得以扩充。
5.根据权利要求1所述的基于关联分析的链式监控事件根因分析方法,其特征在于,匹配所述指标链树时,将监控所得的报警类型与已经生成的指标链树做匹配,根据与根节点的报警距离确定根因报警。
6.根据权利要求5所述的基于关联分析的链式监控事件根因分析方法,其特征在于,确定出一条根因报警后,其他报警事件即聚合到该根因报警中去。
CN201811477127.7A 2018-12-05 2018-12-05 一种基于关联分析的链式监控事件根因分析方法 Active CN109634808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811477127.7A CN109634808B (zh) 2018-12-05 2018-12-05 一种基于关联分析的链式监控事件根因分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811477127.7A CN109634808B (zh) 2018-12-05 2018-12-05 一种基于关联分析的链式监控事件根因分析方法

Publications (2)

Publication Number Publication Date
CN109634808A CN109634808A (zh) 2019-04-16
CN109634808B true CN109634808B (zh) 2022-05-10

Family

ID=66071108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811477127.7A Active CN109634808B (zh) 2018-12-05 2018-12-05 一种基于关联分析的链式监控事件根因分析方法

Country Status (1)

Country Link
CN (1) CN109634808B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147387B (zh) * 2019-05-08 2023-06-09 腾讯科技(上海)有限公司 一种根因分析方法、装置、设备及存储介质
CN111309567B (zh) 2020-01-23 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN104252401A (zh) * 2014-08-29 2014-12-31 北京阅联信息技术有限公司 一种基于权重的设备状态判断方法及其系统
CN106095659A (zh) * 2016-06-15 2016-11-09 安徽天枢信息科技有限公司 一种非结构化事件日志数据的实时监控方法与装置
CN106254137A (zh) * 2016-08-30 2016-12-21 广州汇通国信信息科技有限公司 监管系统的告警根源分析系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650284B2 (en) * 2011-02-28 2014-02-11 Oracle International Corporation User activity monitoring

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN104252401A (zh) * 2014-08-29 2014-12-31 北京阅联信息技术有限公司 一种基于权重的设备状态判断方法及其系统
CN106095659A (zh) * 2016-06-15 2016-11-09 安徽天枢信息科技有限公司 一种非结构化事件日志数据的实时监控方法与装置
CN106254137A (zh) * 2016-08-30 2016-12-21 广州汇通国信信息科技有限公司 监管系统的告警根源分析系统及方法

Also Published As

Publication number Publication date
CN109634808A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
CN105659528B (zh) 一种实现故障定位的方法及装置
CN111176879A (zh) 设备的故障修复方法及装置
US20220269577A1 (en) Data-Center Management using Machine Learning
CN103441982A (zh) 一种基于相对熵的入侵报警分析方法
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN113268399B (zh) 一种告警处理方法、装置和电子设备
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN101997709A (zh) 一种根告警数据分析的方法及其系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN113553210A (zh) 告警数据的处理方法、装置、设备及存储介质
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
US10884805B2 (en) Dynamically configurable operation information collection
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN109634808B (zh) 一种基于关联分析的链式监控事件根因分析方法
CN108809734A (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
He et al. Large-scale IP network behavior anomaly detection and identification using substructure-based approach and multivariate time series mining
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN115237717A (zh) 一种微服务异常检测方法和系统
CN110149303B (zh) 一种党校的网络安全预警方法及预警系统
CN108055152B (zh) 基于分布式服务日志的通信网络信息系统异常检测方法
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN115037559B (zh) 一种基于流量的数据安全监测系统、电子设备及存储介质
CN116232695A (zh) 一种网络安全运维关联分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant