CN111865689B - 一种基于指标集树的告警压降方法 - Google Patents
一种基于指标集树的告警压降方法 Download PDFInfo
- Publication number
- CN111865689B CN111865689B CN202010701287.6A CN202010701287A CN111865689B CN 111865689 B CN111865689 B CN 111865689B CN 202010701287 A CN202010701287 A CN 202010701287A CN 111865689 B CN111865689 B CN 111865689B
- Authority
- CN
- China
- Prior art keywords
- index
- indexes
- index set
- alarm
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000000694 effects Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/0636—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0686—Additional information in the notification, e.g. enhancement of specific meta-data
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Monitoring And Testing Of Exchanges (AREA)
Abstract
本发明公开了一种基于指标集树的告警压降方法,包括:步骤1:构建多个指标集,每个指标集由多个具有业务相关性的指标构建得到;步骤2:针对每一个指标集,选取一个指标作为主指标,其余指标作为普通指标,并将各普通指标进行关联;步骤3:基于业务特性,对各指标集中的主指标进行分析,以各指标集中的主指标之间的关系构建得到指标集树;步骤4:从叶节点开始倒序遍历指标集树中的每个节点,依次判断每个节点中的指标是否存在告警,若存在告警,则输出告警内容,并进行下一个节点判断,若不存在告警,则进行下一个节点判断;直至遍历完指标集树中的每个节点。
Description
技术领域
本发明属于告警压降技术领域,具体涉及一种基于指标集树的告警压降方法。
背景技术
智能运维涉及实时指标异常检测和告警输出,很多情况下告警输出的量可能很大,因此需要进行告警压降。常用的告警压降方法包括:
1、告警分级:只输出严重告警,从而达到告警压降的效果。
2、按某一个维度进行告警合并,比如一个区域的告警只输出一个。
3、使用频繁模式、聚类等AI算法进行告警压降。
4、借助于已知的拓扑关系进行告警压降等。
这些常用的告警压降方法已经可以起到较好的数量压缩效果,
发明内容
发明目的:本发明针对指标对象这个维度,提出了一种基于指标集树的告警压降方法,既能对告警数量进行压降,还能给出较好的告警提醒内容。
技术方案:一种基于指标集树的告警压降方法,包括以下步骤:
步骤1:构建多个指标集,每个指标集由多个具有业务相关性的指标构建得到;
步骤2:针对每一个指标集,选取一个指标作为主指标,其余指标作为普通指标,并将各普通指标进行关联;
步骤3:基于业务特性,对各指标集中的主指标进行分析,以各指标集中的主指标之间的关系构建得到指标集树;
步骤4:从叶节点开始倒序遍历指标集树中的每个节点,依次判断每个节点中的指标是否存在告警,若存在告警,则输出告警内容,并进行下一个节点判断,若不存在告警,则进行下一个节点判断;直至遍历完指标集树中的每个节点。
进一步的,所述步骤2中将率指标作为主指标,量指标作为普通指标。
进一步的,所述步骤4中的告警内容包括主指标告警内容和/或普通指标告警内容。
进一步的,基于各普通指标之间的关联关系,依次获取各普通指标的告警内容,汇总得到最终输出的普通指标告警内容。
进一步的,所述步骤2中采用预设规则进行普通指标关联。
有益效果:本发明与现有技术相比,具有以下优点:
1、充分利用不同相关指标对业务的不同影响度来进行告警压降,具体来说,就是指标集中的指标是具有一定相关性的不同指标,同时有些指标比较重要作为主指标,有些指标作为普通指标进行辅助告警。
2、通过指标集进行指标关联,然后输出关联后的告警内容,增加告警内容的可读性,提升运维人员处理故障的效率。
3、从算法应用实例效果来看,本方法是一种简单、有效、有一定创新性的告警压降方法。
附图说明
图1为本发明的指标集树构建示意图;
图2为本实施例的指标集1中普通指标告警关联输出结果示意图。
具体实施方式
下面结合附图和实施例进一步阐述本发明。
为方便理解本发明方法,现对各步骤中出现的名词进行如下说明:
指标:比如“系统成功率”是一个指标,具体的指标值是依附于指标对象,比如某个服务调用的系统成功率。
指标对象:比如“某个服务调用的系统成功率”中的某个服务就是指标对象。
对象内指标:比如某个服务调用的系统成功率、及时率同属于这个服务的,称为对象内指标。
对象间指标:比如某个服务调用的系统成功率、某台主机的CPU占有率,这两个指标分属不同的指标对象,称为对象间指标。
指标集:若干个指标构成一个指标集,比如“系统成功率、业务总量、系统失败量”这三个指标构成一个指标集A。每个指标集有唯一的一个主指标和若干个普通指标,比如指标集A中可以设定系统成功率为主指标,业务总量和系统失败量为普通指标。
指标集树:由指标集构成的一个树,树上的每个节点都是一个指标集。
本发明的一种基于指标集数的告警压降方法,具体包括以下步骤:
步骤1:一般选择有直接公式关系的指标构成最基础的指标集;比如:系统成功率=(业务总量-系统失败量)/业务总量,所以“系统成功率、业务总量、系统失败量”这三个指标可以构成一个指标集,并且根据业务经验,一般选择率指标作为主指标,量指标作为普通指标。
步骤2:根据业务特性对步骤1构建的指标集中的主指标进行分析确定,以各指标集中的主指标之间的关系构建得到指标集树;每个指标集均具有一个主指标,那么这些主指标之间也有可能可以构建新的指标集,从而构成一颗指标集树,指标集树上的每个节点都是一个指标集。
比如,系统成功率和及时率作为两个主指标,从业务上考虑,一般认为系统成功率为主,因为系统成功率下降了,说明系统可用性出问题了;而及时率下降了,只是说明使用体验感知下降,系统仍然可用,但如果及时率持续恶化的话会进一步影响系统的可用性。所以,把系统成功率作为主指标,及时率作为普通指标构成一个新的指标集,从而形成一颗指标集树。
步骤3:指标集的告警收敛方案如下:
首先,判断主指标是否有告警;若主指标有告警,则输出的告警内容为主指标告警内容+指标集内普通指标告警关联输出结果;若主指标没有告警,则输出的告警内容为指标集内普通指标告警关联输出结果。
实施例:
现以电信运营商某个实际的项目为例,针对CSB服务调用的告警压降。每个CSB服务调用的指标包括:系统成功率、及时率、业务总量、系统失败量和超时量,这五个指标的指标生成周期是1分钟,也就是每隔1分钟会生成5个告警。根据本发明步骤构建得到如图1所示的指标集树;参见图2,以指标集1为例说明采用规则实现指标集1内普通指标关联。
现以2020.6.6一天的CSB告警量为例说明告警压降的效果:
业务总量告警1658个,系统失败量告警265个,系统成功率告警520个,系统及时率告警671个,超时量告警325个,共计3439个告警。采用指标集树的告警压降算法后,告警压降到493个,效果明显。
某个告警输出内容示意:
【能力调用(CSB)告警】6月6日20:05-20:10监测发现,集团统一门户|SGW|用户鉴权(SVC37082):系统成功率为57.45%,低于告警阈值65%;系统及时率为67%,低于告警阈值70%,并且及时率已经持续15分钟总体异常。
Claims (5)
1.一种基于指标集树的告警压降方法,其特征在于:包括以下步骤:
步骤1:构建多个指标集,每个指标集由多个具有业务相关性的指标构建得到;
步骤2:针对每一个指标集,选取一个指标作为主指标,其余指标作为普通指标,并将各普通指标进行关联;
步骤3:基于业务特性,对各指标集中的主指标进行分析,以各指标集中的主指标之间的关系构建得到指标集树;
步骤4:从叶节点开始倒序遍历指标集树中的每个节点,依次判断每个节点中的指标是否存在告警,若存在告警,则输出告警内容,并进行下一个节点判断,若不存在告警,则进行下一个节点判断;直至遍历完指标集树中的每个节点。
2.根据权利要求1所述的一种基于指标集树的告警压降方法,其特征在于:所述步骤2中将率指标作为主指标,量指标作为普通指标。
3.根据权利要求1所述的一种基于指标集树的告警压降方法,其特征在于:所述步骤4中的告警内容包括主指标告警内容和/或普通指标告警内容。
4.根据权利要求3所述的一种基于指标集树的告警压降方法,其特征在于:基于各普通指标之间的关联关系,依次获取各普通指标的告警内容,汇总得到最终输出的普通指标告警内容。
5.根据权利要求1所述的一种基于指标集树的告警压降方法,其特征在于:所述步骤2中采用预设规则进行普通指标关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010701287.6A CN111865689B (zh) | 2020-07-20 | 2020-07-20 | 一种基于指标集树的告警压降方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010701287.6A CN111865689B (zh) | 2020-07-20 | 2020-07-20 | 一种基于指标集树的告警压降方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111865689A CN111865689A (zh) | 2020-10-30 |
CN111865689B true CN111865689B (zh) | 2022-04-08 |
Family
ID=73002407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010701287.6A Active CN111865689B (zh) | 2020-07-20 | 2020-07-20 | 一种基于指标集树的告警压降方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111865689B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034148A (zh) * | 2010-12-08 | 2011-04-27 | 山东浪潮齐鲁软件产业股份有限公司 | 一种监控系统的事件预警及防风暴策略的实现方法 |
CN107483240A (zh) * | 2017-08-07 | 2017-12-15 | 国网安徽省电力公司淮北供电公司 | 基于网络资源关联关系的电力通信网业务健康度分析方法 |
CN109120439A (zh) * | 2018-08-03 | 2019-01-01 | 郑州云海信息技术有限公司 | 分布式集群告警输出方法、装置、设备及可读存储介质 |
CN109560956A (zh) * | 2017-09-27 | 2019-04-02 | 中兴通讯股份有限公司 | 一种业务告警方法、装置及存储介质 |
-
2020
- 2020-07-20 CN CN202010701287.6A patent/CN111865689B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034148A (zh) * | 2010-12-08 | 2011-04-27 | 山东浪潮齐鲁软件产业股份有限公司 | 一种监控系统的事件预警及防风暴策略的实现方法 |
CN107483240A (zh) * | 2017-08-07 | 2017-12-15 | 国网安徽省电力公司淮北供电公司 | 基于网络资源关联关系的电力通信网业务健康度分析方法 |
CN109560956A (zh) * | 2017-09-27 | 2019-04-02 | 中兴通讯股份有限公司 | 一种业务告警方法、装置及存储介质 |
CN109120439A (zh) * | 2018-08-03 | 2019-01-01 | 郑州云海信息技术有限公司 | 分布式集群告警输出方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111865689A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021114977A1 (zh) | 一种异常事件根因定位方法及装置 | |
CN105095048B (zh) | 一种基于业务规则的监控系统告警关联处理方法 | |
CN109783322A (zh) | 一种企业信息系统运行状态的监控分析系统及其方法 | |
CN103856339B (zh) | 一种对告警信息进行压缩的方法和设备 | |
US11378415B2 (en) | Method and system for detecting anomalies in energy consumption | |
WO2016029570A1 (zh) | 一种面向电网调度的智能告警分析方法 | |
CN106371986A (zh) | 一种日志处理运维监控系统 | |
CN108572905B (zh) | 一种基于分布式计算的监控方法及系统 | |
CN108073611A (zh) | 一种告警信息的过滤方法及装置 | |
CN114201374B (zh) | 基于混合机器学习的运维时序数据异常检测方法及系统 | |
CN106972626A (zh) | 电力设备的运行状态检查方法、装置及系统 | |
CN111949480B (zh) | 一种基于组件感知的日志异常检测方法 | |
CN115378711B (zh) | 一种工控网络的入侵检测方法和系统 | |
CN112328425A (zh) | 一种基于机器学习的异常检测方法和系统 | |
CN108390793A (zh) | 一种分析系统稳定性的方法及装置 | |
CN116436659A (zh) | 一种网络安全威胁的量化分析方法及装置 | |
CN103107912A (zh) | 基于离群挖掘的异常检测系统 | |
CN114531338A (zh) | 一种基于调用链数据的监控告警和溯源方法及系统 | |
CN109634808B (zh) | 一种基于关联分析的链式监控事件根因分析方法 | |
CN101345656B (zh) | 全局故障率测量方法 | |
CN117560300B (zh) | 一种智能物联网流量预测与优化系统 | |
CN114238020A (zh) | 多维度的高精度智能业务监控方法及系统 | |
CN111865689B (zh) | 一种基于指标集树的告警压降方法 | |
CN103713976B (zh) | 用于信号集中监测系统的信号设备故障根源搜索方法 | |
CN109858807A (zh) | 一种企业运营监控的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |