CN110532152A - 一种基于Kapacitor计算引擎的监控告警处理方法及系统 - Google Patents
一种基于Kapacitor计算引擎的监控告警处理方法及系统 Download PDFInfo
- Publication number
- CN110532152A CN110532152A CN201910715624.4A CN201910715624A CN110532152A CN 110532152 A CN110532152 A CN 110532152A CN 201910715624 A CN201910715624 A CN 201910715624A CN 110532152 A CN110532152 A CN 110532152A
- Authority
- CN
- China
- Prior art keywords
- data
- monitor control
- original
- kapacitor
- control index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 51
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000012800 visualization Methods 0.000 claims abstract description 9
- 230000000295 complement effect Effects 0.000 claims description 7
- 230000002688 persistence Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 9
- 235000019580 granularity Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 208000032369 Primary transmission Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Abstract
本发明公开了一种基于Kapacitor计算引擎的监控告警处理方法及系统,属于计算机运行监控技术领域,解决了现有技术中数据处理效率低、告警信息发出不及时、不准确的问题。一种基于Kapacitor计算引擎的监控告警处理方法,包括以下步骤:设置监控指标的阈值区间和监控时段;获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。实现了对原始监控指标数据的高效处理,并及时、准确的发出可视化的告警信息。
Description
技术领域
本发明涉及计算机运行监控技术领域,尤其是涉及一种基于Kapacitor计算引擎的监控告警处理方法及系统。
背景技术
运行监控的关键目标是监控异常告警,在系统实际处理过程中,需要快速针对数以百万计的运行监控指标数据进行分析,依据阈值设置进行比较和判断,实时产生运行异常告警信息并通知用户。传统的处理方式,均采用服务模块在内存中对数据进行串行的分析和处理,告警逻辑通过编程以代码的方式封装,这种处理方式存在以下几个问题:(1)数据存放在内存中处理会导致当server因故障宕掉后,服务重启后丢失判断状态,而为了保证数据一致性进行频繁的数据持久化操作又会影响数据处理效率;(2)串行数据处理方式效率不高,在监控的数据点位数以百万或者上千万后,计算效率偏低导致数据处理延迟,告警通知滞后;(3)告警处理不够灵活、扩展性差,针对告警阈值设置的告警逻辑以代码的方式封装,每次有特殊的告警要求时,都需要重写告警模块,重新编译发布,效率低下,出错率高;(4)单告警处理模块的设计也使得数据解析和告警信息数据的压力增大,监控性能无法满足大数据环境下的数据处理。
发明内容
本发明的目的在于至少克服上述一种技术不足,提出一种基于Kapacitor计算引擎的监控告警处理方法。
一方面,本发明提供了一种基于Kapacitor计算引擎的监控告警处理方法,包括以下步骤:
设置监控指标的阈值区间和监控时段;
获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
进一步地,所述基于Kapacitor计算引擎的监控告警处理方法还包括对所述监控指标的阈值区间进行调整,具体包括:判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并进行反馈,根据反馈对所述基准阈值区间进行调整。
进一步地,所述获取IT系统的原始监控指标数据,具体包括:
采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行
采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
进一步地,所述基于Kapacitor计算引擎的监控告警处理方法还包括对所述运行状态指标数据进行持久化,具体包括,对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
另一方面,本发明提供了一种基于Kapacitor计算引擎的监控告警处理系统,包括监控指标设置模块、运行状态指标数据生成模块、原始告警信息生成模块和最终告警信息生成模块;
所述监控指标设置模块,用于设置监控指标的阈值区间和监控时段;
所述运行状态指标数据生成模块,用于获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
原始告警信息生成模块,用于利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
最终告警信息生成模块,用于对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
进一步地,所述监控指标设置模块还包括标记与反馈单元和阈值区间调整单元,
所述标记与反馈单元用于判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并反馈至阈值区间调整单元;所述阈值区间调整单元用于根据反馈,对所述基准阈值区间进行调整。
进一步地,所述运行状态指标数据生成模块获取IT系统的原始监控指标数据,具体包括:
运行状态指标数据生成模块,采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
进一步地,所述基于Kapacitor计算引擎的监控告警处理系统还包括运行状态指标数据存储模块,用于对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
与现有技术相比,本发明的有益效果包括:通过设置监控指标的阈值区间和监控时段,获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据,利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息;实现了大数据环境下,对原始监控指标数据的高效处理,并及时、准确的发出可视化的告警信息。
附图说明
图1是本发明实施例1所述的基于Kapacitor计算引擎的监控告警处理方法的流程示意图;
图2是本发明实施例1所述的技术方案的流程示意图;
图3是本发明实施例1所述的针对多设备的阈值设置界面示意图;
图4是本发明实施例1所述的告警中心列表图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本发明的实施例提供了一种基于Kapacitor计算引擎的监控告警处理方法,包括以下步骤:
步骤S1、设置监控指标的阈值区间和监控时段;
步骤S2、获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
步骤S3、利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
步骤S4、对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
优选的,所述的基于Kapacitor计算引擎的监控告警处理方法还包括对所述监控指标的基准阈值区间进行调整,具体包括:判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并进行反馈,根据反馈对所述基准阈值区间进行调整。
本发明实施例技术方案的流程示意图,如图2所示,其中,动态阈值模型用于针对多个监控指标设置多个阈值、对应多个告警基本和多个检测时段(监控时段)。针对多设备的阈值设置界面示意图,如图3所示;
具体实施时,首先设置一个基准阈值区间和检测时间段(监控时段),每个监控指标的阈值区间都和系统的运行时间段关联,比如,时段8:30~12:00,对应的CPU利用率的基准阈值区间为60%~95%;基于该基准阈值区间产生的最终告警信息,用户可以进行标识为正样本或者负样本,若标识为负样本,则说明基准阈值区间设置不合理,有2种情况,实际值大于阈值,或者小于阈值;大于阈值的情况,系统将根据用户的反馈,对阈值区间正调整10%,小于阈值的情况,对阈值区间负调整10%。
优选的,所述获取IT系统的原始监控指标数据,具体包括:
采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
具体实施时,使用Python脚本,采用特定数据采集协议,对IT设备软件和硬件运行状态数据进行采集;例如,使用SSH或者Telnet协议采集服务器运行状态数据,采用SNMP协议采集网络设备运行状态数据,使用SMI-S协议采集存储设备运行状态数据等。
运行监控按照一定的采样频率,持续对监控对象的运行指标进行数据采样,指标数据具有典型的时序数据,具有鲜明的时序特征:趋势、季节性、噪音、其他。趋势可以是线性或非线性的,可以是上升或者下降趋势。
最初采集的运行状态数据为原始信息,需要进一步处理为可量化的指标数值;具体地,对采集的原始数据进行初步的规范性处理,比如统一精度、漏值的补值操作;最终形成原始监控指标数据;需要说明的是,补值采用获取前一段时间的线性变化率,根据线性变化率计算一个新值,作为补值数据;
下面是一个采集CPU利用率的Python代码示例;
需要说明是的,原始监控指标数据为字符串数据,需要对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;在进行解析和数值化后,对每个采集值标识时间标记;
对所述原始监控指标数据进行解析和数值化的技术要求为,配置信息保存和维护,采集数据接收、解析、校验和存储,各数据处理节点互不通讯,各数据处理节点互为镜像,支持服务快速恢复,内部数据分析支持任务拆分,无状态服务,分布式部署提供failover,提供高可用性。
具体实施时,使用Java语言,针对每个具体的IT设备类型,定义相应的数据分析和处理类,如下为Linux服务器的一个数据解析和处理类部分代码:
优选的,所述的基于Kapacitor计算引擎的监控告警处理方法还包括对所述运行状态指标数据进行持久化,具体包括,对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
需要说明是,运行状态指标数据主要是指系统采集的监控对象的指标数据,运行状态指标数据的显著特点就是时序化,动态增加,数据量大;运行状态指标数据需要按照统计要求进行各种时间颗粒度的汇聚,同时,在存储效率上,要能对实时数据进行不同采样频率的汇聚,不同时实时数据对应的采样频率不同,降低采样频率,以利于数据长期存储;
运行状态指标数据使用InfluxDB进行存储,InfluxDB是时序数据库,适合存储采集的指标数据,提供了对时序数据高效率的存储优化,以时间维度的高效率的数据检索,内置丰富的数据计算函数,支持数据的科学计算。
具体实施时,对上述运行状态指标数据,直接写入到原始采样表mydb.day60.perftab(measurement),格式如下
对运行状态指标数据的汇聚分为3个粒度,分别为小时、天、月,Influxdb使用CQ任务对运行状态指标数据进行汇总,根据指标类型,按“1间隔累加”、“2平均值”、“3替换”三种类型进行聚合计算;
默认字段time,由指标采集时间带入,存储精度设置为秒(Influxdb默认时间精度为纳秒),由“precision=s”指定精度到秒,Value值精度到小数点后三位。
上述步骤S3,具体实施时,需要利用Kapacitor计算引擎定义参数实例化模板(Template);Kapacitor有一个模板系统,它允许定义模板并重用它来完成多个任务,每个任务可以为模板中的各种vars定义自己的值,模板可以重用,对于同样的告警逻辑,不同的设备可以使用自己的参数实例化模板产生具体的告警处理任务,模板通过DSL脚本定义,可以直接修改而不需要编译,在实际系统环境中可以方便的修改和部署,快速响应需求。定义参数实例化模板示例程序如下:
定义参数实例化模板后,使用所述参数实例化模板调用所述运行状态指标数据,具体的,将运行状态指标数据与阈值区间(基准阈值区间或调整后的取值区间)进行比较,获取预定时间内运行状态指标不在阈值区间的次数,依此为依据,形成告警处理任务,并生成原始告警信息;
Kapacitor中的task表示对一组数据执行的一些工作,任务类型分为两种:stream和batch,Kapacitor使用名为TICKscript的DSL来定义任务,每个TICKscript定义一个管道,告诉Kapacitor要处理哪些数据以及如何处理,TICKscript语言是一种调用链接语言,每个脚本都有一个作用范围,并且作用范围中的每个变量都定义了可以在其上调用的方法;
这些方法有两种:属性方法(修改调用的节点并返回对同一节点的引用)和链接方法(创建一个新节点作为节点的子节点,并返回一个对新节点的引用),每个TICKscript都有一个流或批变量,取决于想要运行的任务类型;
Kapacitor使用TICKscript定义数据处理管道,管道是一组节点,它处理连接节点的数据和边缘,Kapacitor的中的管道是有向无环图(DAGs),这意味着每个边有一个数据流的方向,而管道中不可能有任何循环,每个边缘都有一个类型,StreamEdge是一次传输单个数据点的数据的边缘,BatchEdge是一种以块方式而不是一次一次地传送数据的边缘,连接节点时,TICKscript语言不会阻止连接错误类型的边缘,而是在运行时执行检查,因此,语法正确的脚本可以定义无效的管道。
使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息,具体实施时,调用定义task API,用vars参数传入具体值,示例程序如下,
需要说明的是,Kapacitor产生的原始告警信息,是一种数字化的告警状态信息,在通知到告警中心之前,需要进行可视化的处理,格式化为用户可以阅读的信息,原始告警信息类似为.message('{{.ID}}is{{.Level}}cpu-95th:{{index.Fields"percentile"}}',具体实施时将.ID标识的设备更换为实际设备名称,比如“OA服务器”.Level告警级别更换为实际的告警基本,比如“严重告警”,使用正则表达式匹配并替换实际告警对象和告警描述信息,生产用户可阅读和理解的告警信息描述;可阅读和理解的告警信息描述,可以列表的形式显示,告警中心列表图,如图4所示;并可以设置告警通知策略,以短消息或者是邮件的方式通知到用户。
实施例2
本发明实施例提供了一种基于Kapacitor计算引擎的监控告警处理系统,包括监控指标设置模块、运行状态指标数据生成模块、原始告警信息生成模块和最终告警信息生成模块;
所述监控指标设置模块,用于设置监控指标的阈值区间和监控时段;
所述运行状态指标数据生成模块,用于获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
原始告警信息生成模块,用于利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
最终告警信息生成模块,用于对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
优选的,所述监控指标设置模块还包括标记与反馈单元和阈值区间调整单元,
所述标记与反馈单元用于判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并反馈至阈值区间调整单元;所述阈值区间调整单元用于根据反馈,对所述基准阈值区间进行调整。
优选的,所述运行状态指标数据生成模块获取IT系统的原始监控指标数据,具体包括:
运行状态指标数据生成模块,采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
优选的,所述基于Kapacitor计算引擎的监控告警处理系统还包括运行状态指标数据存储模块,用于对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
本发明公开了一种基于Kapacitor计算引擎的监控告警处理方法及系统,通过设置监控指标的阈值区间和监控时段,获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据,利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息;实现了大数据环境下,对原始监控指标数据的高效处理,并及时、准确的发出可视化的告警信息;
本发明用数据处理、InfluxDB和Kapacitor的组合替换了原来的server端,达到了去中心化的目的,通过处理原始数据,将数据采集获取的原始监控数据存储在InfluxDB中,Kapacitor能够支持处理流数据和批处理数据,并能够按计划从InfluxDB查询数据,并通过线路协议和InfluxDB支持的任何其他方法接收数据,在InfluxQL中执行当前可能的任何转换,并将转换后的数据存储在InfluxDB中,其中内置的模板可以提供基本的规则设置,Kapacitor根据模板和前端阈值设置,触发生成相应的任务,以节点为单位进行任务的生成,将单个节点的所有指标监控作为一个任务。
原始的告警信息被发送并存储在Redis内存数据库中,通过部署在web服务Tomcat上的应用,最后在平台的告警中心中进行展示;
Kapacitor提供了丰富的函数来处理各种任务,也支持添加用户自定义的函数来检测异常,为了能够支持更广泛的阈值告警范围和阈值告警级别,对Kapacitor的核心代码进行修改,使其可满足告警范围无限制、告警级别至少5个;基于Kapacitor的计算引擎的监控告警框架中,数据处理模块支持分布式部署,可以根据需要部署多个,大大提升了数据处理的效率,引入的时序数据库和时序数据处理引擎也使得数据的存储、告警信息的管理更加的方便快捷;
Kapacitor计算引擎可以与HipChat、OpsGenie、Alerta、Sensu、PagerDuty、Slack等集成,在框架的设计上满足可扩展性、高效性和灵活性,保证监控平台的稳定和高效运行;
本发明基于Kapacitor计算引擎,结合时序数据库,匹配模板和处理函数,以任务的方式对满足阈值设置的监控数据进行监控告警,并支持分布式可扩展性,支持对大数据的分析和处理。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (8)
1.一种基于Kapacitor计算引擎的监控告警处理方法,其特征在于,包括以下步骤:
设置监控指标的阈值区间和监控时段;
获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
2.根据权利要求1所述的基于Kapacitor计算引擎的监控告警处理方法,其特征在于,还包括对所述监控指标的阈值区间进行调整,具体包括:判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并进行反馈,根据反馈对所述基准阈值区间进行调整。
3.根据权利要求1所述的基于Kapacitor计算引擎的监控告警处理方法,其特征在于,所述获取IT系统的原始监控指标数据,具体包括:
采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
4.根据权利要求1所述的基于Kapacitor计算引擎的监控告警处理方法,其特征在于,还包括对所述运行状态指标数据进行持久化,具体包括,对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
5.一种基于Kapacitor计算引擎的监控告警处理系统,其特征在于,包括监控指标设置模块、运行状态指标数据生成模块、原始告警信息生成模块和最终告警信息生成模块;
所述监控指标设置模块,用于设置监控指标的阈值区间和监控时段;
所述运行状态指标数据生成模块,用于获取IT系统的原始监控指标数据,并对所述原始监控指标数据进行解析和数值化,生成运行状态指标数据;
原始告警信息生成模块,用于利用Kapacitor计算引擎定义参数实例化模板,使用所述参数实例化模板调用所述运行状态指标数据,形成告警处理任务,并生成原始告警信息;
最终告警信息生成模块,用于对所述原始告警信息进行可视化处理,生成用户可阅读和理解的最终告警信息。
6.根据权利要求5所述的基于Kapacitor计算引擎的监控告警处理系统,其特征在于,所述监控指标设置模块还包括标记与反馈单元和阈值区间调整单元,
所述标记与反馈单元用于判断所述基准阈值区间对应的最终告警信息是否符合实际情况,是则将所述最终告警信息标记为正样本,否则将所述最终告警信息标记为负样本,并反馈至阈值区间调整单元;所述阈值区间调整单元用于根据反馈,对所述基准阈值区间进行调整。
7.根据权利要求5所述的基于Kapacitor计算引擎的监控告警处理系统,其特征在于,所述运行状态指标数据生成模块获取IT系统的原始监控指标数据,具体包括:
运行状态指标数据生成模块,采用数据采集协议,按照预设采样频率,对IT设备软件和硬件运行状态数据进行采集,获得采集数据,对所述采集数据进行精度统一、漏值的补值,形成原始监控指标数据。
8.根据权利要求5所述的基于Kapacitor计算引擎的监控告警处理系统,其特征在于,还包括运行状态指标数据存储模块,用于对运行状态指标数据进行对应频率的颗粒度的汇聚,并利用时序数据库对汇聚后的运行状态指标数据存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715624.4A CN110532152A (zh) | 2019-08-05 | 2019-08-05 | 一种基于Kapacitor计算引擎的监控告警处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715624.4A CN110532152A (zh) | 2019-08-05 | 2019-08-05 | 一种基于Kapacitor计算引擎的监控告警处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532152A true CN110532152A (zh) | 2019-12-03 |
Family
ID=68661333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910715624.4A Pending CN110532152A (zh) | 2019-08-05 | 2019-08-05 | 一种基于Kapacitor计算引擎的监控告警处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532152A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111290916A (zh) * | 2020-02-18 | 2020-06-16 | 深圳前海微众银行股份有限公司 | 大数据监控方法、装置、设备及计算机可读存储介质 |
CN112035404A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗数据监控与预警方法、装置、设备及存储介质 |
CN112950908A (zh) * | 2021-02-03 | 2021-06-11 | 重庆川仪自动化股份有限公司 | 一种数据监测预警方法、系统、介质及电子终端 |
CN113342608A (zh) * | 2021-06-08 | 2021-09-03 | 中国建设银行股份有限公司 | 流式计算引擎任务的监控方法及装置 |
CN113542068A (zh) * | 2021-07-15 | 2021-10-22 | 中国银行股份有限公司 | 一种Redis多实例的监控系统及方法 |
CN114697192A (zh) * | 2022-03-16 | 2022-07-01 | 浪潮云信息技术股份公司 | 一种基于Skywalking的应用性能指标告警系统 |
CN115002205A (zh) * | 2022-08-04 | 2022-09-02 | 浩鲸云计算科技股份有限公司 | 一种基于表路由代理模式的Kapacitor集群方法 |
CN115827398A (zh) * | 2023-02-24 | 2023-03-21 | 天翼云科技有限公司 | 告警信息分量值的计算方法、装置、电子设备及存储介质 |
CN117118862A (zh) * | 2023-10-19 | 2023-11-24 | 湖南三湘银行股份有限公司 | 一种大数据中心监控数据可视化系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236677A1 (en) * | 2002-06-21 | 2003-12-25 | Fabio Casati | Investigating business processes |
US20130179937A1 (en) * | 2012-01-10 | 2013-07-11 | Marco Casassa Mont | Security model analysis |
CN104572401A (zh) * | 2015-02-09 | 2015-04-29 | 浪潮软件股份有限公司 | 一种告警方法及告警系统 |
US20160350722A1 (en) * | 2014-01-24 | 2016-12-01 | N'8Kd Decision Pty Ltd | Managing scheduled events in network-hosted time management system |
CN107832200A (zh) * | 2017-10-24 | 2018-03-23 | 平安科技(深圳)有限公司 | 告警处理方法、装置、计算机设备及存储介质 |
CN108228431A (zh) * | 2018-01-04 | 2018-06-29 | 北京中关村科金技术有限公司 | 一种配置化爬虫质量监测的方法及系统 |
US20180322765A1 (en) * | 2017-05-04 | 2018-11-08 | General Electric Company | Communicating Alarm Trigger Status |
-
2019
- 2019-08-05 CN CN201910715624.4A patent/CN110532152A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236677A1 (en) * | 2002-06-21 | 2003-12-25 | Fabio Casati | Investigating business processes |
US20130179937A1 (en) * | 2012-01-10 | 2013-07-11 | Marco Casassa Mont | Security model analysis |
US20160350722A1 (en) * | 2014-01-24 | 2016-12-01 | N'8Kd Decision Pty Ltd | Managing scheduled events in network-hosted time management system |
CN104572401A (zh) * | 2015-02-09 | 2015-04-29 | 浪潮软件股份有限公司 | 一种告警方法及告警系统 |
US20180322765A1 (en) * | 2017-05-04 | 2018-11-08 | General Electric Company | Communicating Alarm Trigger Status |
CN107832200A (zh) * | 2017-10-24 | 2018-03-23 | 平安科技(深圳)有限公司 | 告警处理方法、装置、计算机设备及存储介质 |
CN108228431A (zh) * | 2018-01-04 | 2018-06-29 | 北京中关村科金技术有限公司 | 一种配置化爬虫质量监测的方法及系统 |
Non-Patent Citations (2)
Title |
---|
HAHP: "试用基于 influxdb+kapacitor 的监控系统", 《HTTPS://WWW.BBSMAX.COM/A/KE5JRVQJ5R/》 * |
HAHP: "试用基于 influxdb+kapacitor 的监控系统", 《HTTPS://WWW.BBSMAX.COM/A/KE5JRVQJ5R/》, 16 October 2017 (2017-10-16), pages 1 - 6 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111290916A (zh) * | 2020-02-18 | 2020-06-16 | 深圳前海微众银行股份有限公司 | 大数据监控方法、装置、设备及计算机可读存储介质 |
CN112035404A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗数据监控与预警方法、装置、设备及存储介质 |
CN112035404B (zh) * | 2020-08-28 | 2023-02-10 | 康键信息技术(深圳)有限公司 | 医疗数据监控与预警方法、装置、设备及存储介质 |
CN112950908B (zh) * | 2021-02-03 | 2022-12-30 | 重庆川仪自动化股份有限公司 | 一种数据监测预警方法、系统、介质及电子终端 |
CN112950908A (zh) * | 2021-02-03 | 2021-06-11 | 重庆川仪自动化股份有限公司 | 一种数据监测预警方法、系统、介质及电子终端 |
CN113342608A (zh) * | 2021-06-08 | 2021-09-03 | 中国建设银行股份有限公司 | 流式计算引擎任务的监控方法及装置 |
CN113542068B (zh) * | 2021-07-15 | 2022-12-23 | 中国银行股份有限公司 | 一种Redis多实例的监控系统及方法 |
CN113542068A (zh) * | 2021-07-15 | 2021-10-22 | 中国银行股份有限公司 | 一种Redis多实例的监控系统及方法 |
CN114697192A (zh) * | 2022-03-16 | 2022-07-01 | 浪潮云信息技术股份公司 | 一种基于Skywalking的应用性能指标告警系统 |
CN115002205A (zh) * | 2022-08-04 | 2022-09-02 | 浩鲸云计算科技股份有限公司 | 一种基于表路由代理模式的Kapacitor集群方法 |
CN115002205B (zh) * | 2022-08-04 | 2022-11-08 | 浩鲸云计算科技股份有限公司 | 一种基于表路由代理模式的Kapacitor集群方法 |
CN115827398A (zh) * | 2023-02-24 | 2023-03-21 | 天翼云科技有限公司 | 告警信息分量值的计算方法、装置、电子设备及存储介质 |
CN117118862A (zh) * | 2023-10-19 | 2023-11-24 | 湖南三湘银行股份有限公司 | 一种大数据中心监控数据可视化系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532152A (zh) | 一种基于Kapacitor计算引擎的监控告警处理方法及系统 | |
US10311044B2 (en) | Distributed data variable analysis and hierarchical grouping system | |
US9846632B2 (en) | Real-time reporting based on instrumentation of software | |
CN109344170B (zh) | 流数据处理方法、系统、电子设备及可读存储介质 | |
CN108600009B (zh) | 一种基于告警数据分析的网络告警根源定位方法 | |
US11409962B2 (en) | System and method for automated insight curation and alerting | |
CN109831478A (zh) | 基于规则及模型的分布式实时处理智能决策系统及方法 | |
CN110019116B (zh) | 数据追溯方法、装置、数据处理设备及计算机存储介质 | |
CN106796520B (zh) | 基于软件的仪器化的实时报告 | |
CN111949429A (zh) | 基于密度聚类算法的服务器故障监测方法及系统 | |
CN116166505B (zh) | 金融行业双态it架构的监控平台、方法、存储介质及设备 | |
CN114090378A (zh) | 一种基于Kapacitor的自定义监控告警方法 | |
Bielefeld | Online performance anomaly detection for large-scale software systems | |
CN115588244A (zh) | 一种车联网大数据实时分析方法、装置、设备及介质 | |
Dani et al. | K-means application for anomaly detection and log classification in hpc | |
CN114443437A (zh) | 告警根因输出方法、装置、设备、介质和程序产品 | |
CN111901156B (zh) | 一种监控故障的方法及装置 | |
CN111679950B (zh) | 接口级动态数据采样方法及装置 | |
CN106293890A (zh) | 一种基于复杂度的业务处理方法和装置 | |
WO2021067385A1 (en) | Debugging and profiling of machine learning model training | |
CN114756301A (zh) | 日志处理方法、装置和系统 | |
CN113259878B (zh) | 话单结算方法、系统、电子设备及计算机可读存储介质 | |
CN114358910A (zh) | 异常财务数据处理方法、装置、设备及存储介质 | |
CN113821418A (zh) | 故障跟因分析方法及装置、存储介质和电子设备 | |
CN113138896A (zh) | 一种应用运行情况的监控方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |