CN114385454A - 一种基于Consul的告警规则管理方法及系统 - Google Patents

一种基于Consul的告警规则管理方法及系统 Download PDF

Info

Publication number
CN114385454A
CN114385454A CN202210039655.4A CN202210039655A CN114385454A CN 114385454 A CN114385454 A CN 114385454A CN 202210039655 A CN202210039655 A CN 202210039655A CN 114385454 A CN114385454 A CN 114385454A
Authority
CN
China
Prior art keywords
alarm
alarm rule
consul
platform
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210039655.4A
Other languages
English (en)
Inventor
周桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongtongji Network Technology Co Ltd
Original Assignee
Shanghai Zhongtongji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongtongji Network Technology Co Ltd filed Critical Shanghai Zhongtongji Network Technology Co Ltd
Priority to CN202210039655.4A priority Critical patent/CN114385454A/zh
Publication of CN114385454A publication Critical patent/CN114385454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于Consul的监控平台告警规则管理方法,包括;操作人员封装告警规则;在Consul中存储告警规则;在运管平台中使用模板渲染告警规则;将Consul中储存的告警规则文件投递到Prometheus监控集群中。通过告警规则key/value存储、Prometheus告警规则管理机制和精准投递IP告警规则,并采用采用全新的运用运管平台和Consul,改善了常规样式编写告警规则文件使用范围小和正则规则匹配编写告警规则文件无法适应差异化阈值需求场景的问题,本方法可实现对Prometheus数十万IP告警规则文件的有效管理,提高了维护效率。

Description

一种基于Consul的告警规则管理方法及系统
技术领域
本申请涉及运维监控领域,尤其涉及一种基于Consul的告警规则管理方法及系统。
背景技术
Prometheus是一款开源的监控软件,监控服务端通过exporter采集到监控数据,通过触发服务端预先加载的告警规则文件,可实现多种类型的metric指标告警,但该软件不提供告警规则文件管理的UI功能。
当前业界针对告警规则文件较多的方法为:(1)采用常规样式编写告警规则文件:这种方式为人工编写告警规则,当有告警修改需求时,由运维人员登录服务端操作,适合告警规则量少,且没有非运维人员自助操作要求的场景;(2)采用正则规则匹配编写告警规则文件在告警规则中,使用正则表达式匹配,可以批量适配有统一阈值的告警规则。但遇到差异化阈值需求场景时,同样需要运维人员操作,效率低下。
因此,需要一种平台化管理方法和系统,有效管理Prometheus数十万IP告警规则文件,提高维护效率。
发明内容
本发明提供了一种基于Consul的告警规则管理方法及系统,以解决现有技术中IP告警规则文件管理困难、效率低下的问题。
本发明提供的技术方案如下:
一方面,一种基于Consul的告警规则管理方法,包括:
操作人员封装告警规则;
在Consul中存储告警规则;
将Consul中储存的告警规则文件投递到Prometheus监控集群中。
可选的,所述的操作人员封装告警规则包括:将IP地址设定为key字段,将该IP的告警项、计算表达式和告警级别信息聚合形成value值。
可选的,所述的在Consul中存储告警规则包括:将key字段和value值存储到Consul的key/value中。
可选的,还包括:在监控平台中使用模板渲染告警规则,以实现所述监控平台获取告警后展示告警详细信息。
可选的,所述的在运管平台中使用模板渲染告警规则包括:读取Consul中的key/value,逆向解析value数据,按照告警规则模板,渲染生成含有告警项、计算表达式、告警级别信息的IP告警规则文件。
可选的,所述的将Consul中储存的告警规则文件投递到Prometheus监控集群中包括:按照Prometheus监控平台的监控IP清单,将对应的所述IP告警规则文件,投递至Prometheus监控平台,重新加载服务,使IP告警生效。
一方面,一种基于Consul的告警规则管理系统,用于实现上述任一项技术方案所述的基于Consul的监控平台告警规则管理方法。
本发明内容提供的技术方案可以包括以下有益效果:提供了一种平台化管理方法,运用运管平台和Consul,有效管理Prometheus数十万IP告警规则文件,满足了差异化阈值需求场景,提高了维护效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本具体实施例提供的一种基于Consul的监控平台告警规则管理方法流程图;
图2为本具体实施例提供的一种基于Consul的监控平台告警规则管理方法中的告警规则封装流程图;
图3为本具体实施例提供的一种基于Consul的监控平台告警规则管理系统中的告警规则管理流程图;
图4为本具体实施例提供的一种基于Consul的监控平台告警规则管理系统中的Consul架构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
针对告警规则文件,当前业界使用较多的方法为:
(1)采用常规样式编写告警规则文件;
这种方式为人工编写告警规则,当有告警修改需求时,由运维人员登录服务端操作,适合告警规则量少,且没有非运维人员自助操作要求的场景。
(2)采用正则规则匹配编写告警规则文件;
在告警规则中,使用正则表达式匹配,可以批量适配有统一阈值的告警规则。但遇到差异化阈值需求场景时,同样需要运维人员操作,效率低下。
本发明提供了一种基于Consul的告警规则管理方法及系统,以解决现有技术中IP告警规则文件管理困难、效率低下的问题。
参考图一、图二、图三,一方面,一种基于Consul的告警规则管理方法,包括:
操作人员封装告警规则;
在Consul中存储告警规则;
将Consul中储存的告警规则文件投递到Prometheus监控集群中。
优选实施例中,所述的操作人员封装告警规则包括:将IP地址设定为key字段,将该IP的告警项、计算表达式和告警级别信息聚合形成value值。
优选实施例中,所述的在Consul中存储告警规则包括:将key字段和value值存储到Consul的key/value中。
优选实施例中,还包括:在监控平台中使用模板渲染告警规则,以实现所述监控平台获取告警后展示告警详细信息。
优选实施例中,所述的在运管平台中使用模板渲染告警规则包括:读取Consul中的key/value,逆向解析value数据,按照告警规则模板,渲染生成含有告警项、计算表达式、告警级别信息的IP告警规则文件。
优选实施例中,所述的将Consul中储存的告警规则文件投递到Prometheus监控集群中包括:按照Prometheus监控平台的监控IP清单,将对应的所述IP告警规则文件,投递至Prometheus监控平台,重新加载服务,使IP告警生效。
一方面,一种基于Consul的告警规则管理系统,包含上述技术方案中任意一种的基于Consul的告警规则管理方法。
其功能实现流程如下:
(1)规则存储:
运维人员操作运管平台,将所有的资产上线后,运管平台初始化改资产IP信息;
封装告警规则,将IP地址与告警信息聚合,组成可存储的k/v字符串信息;
运维人员定义资产是否启用监控告警,如启用则触发封装告警规则信息,将封装后的信息存储至Consul集群;如不启用则删除已存在的key/value数据。
(2)规则渲染投递:
启动运管平台的计划任务,定时读取Consul集群中的key/value数据,解析数据,拆分后,按照设定的告警模板,以IP地址为规则文件名,渲染出所有IP的告警规则;
启动同步机制,判断IP是否在分片监控服务器的监控IP清单中,如是则触发投递告警规则文件,精准投递该IP告警规则文件至分片服务器端;如否,则否则忽略不投递规则文件。
本实施例提供的技术方案可包含以下有益效果:提供了一种平台化管理系统,包含一平台化管理系统,运用运管平台和Consul,有效管理Prometheus数十万IP告警规则文件,满足了差异化阈值需求场景,提高了维护效率。
根据图3,其中,Consul采用server模式,其所有注册到当前节点的服务会被转发到server,把所有的信息持久化的本地,方便遇到故障时信息可以保留在当前容器中;
其中,Consul server中的leader负责同步注册的信息给其它的server,同时也要负责各个节点的健康监测;
基于Consul作为服务注册中心,那么首先必须在每个服务所在的机器上部署一个Consul Agent,作为一个服务所在机器的代理。然后在多台机器上部署Consul Server作为核心的服务注册中心。Consul Agent收集已注册服务信息后发送给Consul Server,同时对已注册服务不停的发送请求检查服务运行是否健康,此外,若有发现其他服务服务的请求,Consul Agent会转发请求给Consul Server,查询其他服务所在机器。Consul Server按需求部署多台机器,以保证高度可用以及数据一致性。其节点之间会自动实现数据同步,部署完成后,Consul Server集群会自动选举出一台机器作为leader,其他的Consul Server作为follower。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
启动运管平台的计划任务,定时读取Consul集群中的key/value数据,解析数据,拆分后,按照设定的告警模板,以IP地址为规则文件名,渲染出所有IP的告警规则。
b)启动同步机制,判断IP是否在分片监控服务器的监控IP清单中,如是则触发投递告警规则文件,精准投递该IP告警规则文件至分片服务器端;如否,则否则忽略不投递规则文件。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种基于Consul的监控平台告警规则管理方法,其特征在于,包括:
操作人员封装告警规则;
在Consul中存储告警规则;
将Consul中储存的告警规则文件投递到Prometheus监控集群中。
2.根据权利要求1所述的一种基于Consul的监控平台告警规则管理方法,其特征在于,所述的操作人员封装告警规则包括:将IP地址设定为key字段,将该IP的告警项、计算表达式和告警级别信息聚合形成value值。
3.根据权利要求2所述的一种基于Consul的监控平台告警规则管理方法,其特征在于,所述的在Consul中存储告警规则包括:将key字段和value值存储到Consul的key/value中。
4.根据权利要求1所述的一种基于Consul的监控平台告警规则管理方法,其特征在于,还包括:在监控平台中使用模板渲染告警规则,以实现所述监控平台获取告警后展示告警详细信息。
5.根据权利要求4所述的一种基于Consul的监控平台告警规则管理方法,其特征在于,所述的在运管平台中使用模板渲染告警规则包括:读取Consul中的key/value,逆向解析value数据,按照告警规则模板,渲染生成含有告警项、计算表达式、告警级别信息的IP告警规则文件。
6.根据权利要求1所述的一种基于Consul的监控平台告警规则管理方法,其特征在于,所述的将Consul中储存的告警规则文件投递到Prometheus监控集群中包括:按照Prometheus监控平台的监控IP清单,将对应的所述IP告警规则文件,投递至Prometheus监控平台,重新加载服务,使IP告警生效。
7.一种基于Consul的告警规则管理系统,其特征在于,用于实现上述权利要求1-6任一项所述的基于Consul的监控平台告警规则管理方法。
CN202210039655.4A 2022-01-14 2022-01-14 一种基于Consul的告警规则管理方法及系统 Pending CN114385454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210039655.4A CN114385454A (zh) 2022-01-14 2022-01-14 一种基于Consul的告警规则管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210039655.4A CN114385454A (zh) 2022-01-14 2022-01-14 一种基于Consul的告警规则管理方法及系统

Publications (1)

Publication Number Publication Date
CN114385454A true CN114385454A (zh) 2022-04-22

Family

ID=81202372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210039655.4A Pending CN114385454A (zh) 2022-01-14 2022-01-14 一种基于Consul的告警规则管理方法及系统

Country Status (1)

Country Link
CN (1) CN114385454A (zh)

Similar Documents

Publication Publication Date Title
CN107402963A (zh) 搜索数据的构建方法、增量数据的推送方法及装置和设备
CN109074362A (zh) 分布式系统中的拆分和移动范围
CN112256401B (zh) 基于Kubernetes环境下的Prometheus高可用系统及实现方法
US20200186619A1 (en) Extraction and Distribution of Content Packages in a Digital Services Framework
CN111694612A (zh) 配置检查方法、装置、计算机系统及存储介质
US20160162825A1 (en) Monitoring the impact of information quality on business application components through an impact map to data sources
CN107832446B (zh) 一种配置项信息的搜索方法及计算设备
CN109597766A (zh) 一种测试报告的处理方法和系统
CN110347664A (zh) 一种数据可视化处理方法及装置
JP6561742B2 (ja) 物資運用方法、物資運用装置、物資運用システムおよび物資運用プログラム
CN101425072A (zh) 用于内容管理的装置和方法
CN114385454A (zh) 一种基于Consul的告警规则管理方法及系统
CN107295059A (zh) 业务推送量的统计系统及方法
CN109783185B (zh) 云端虚拟机创建方法、装置及云端设备
CN111813880B (zh) 一种国土空间规划项目管理方法、系统及存储介质
CN115237889A (zh) 数据库切换方法及装置、存储介质、计算机设备
US20210357427A1 (en) Reverse classification
CN114022240A (zh) 一种造价偏离处理方法和系统
CN114404991A (zh) 数据替换方法、服务器、更新系统及计算机可读存储介质
US11394626B2 (en) Digital services framework
CN111158873A (zh) 系统状态机实现方法、装置、存储介质及处理器
CN110795114A (zh) 应用程序安装包的监测方法、装置、电子设备及存储介质
CN103190117B (zh) 网络中的错误报告系统及方法
CN115391364A (zh) 一种商品库存数据处理方法及装置
CN113822014B (zh) 一种代码物料的存储方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination