CN112965874B - 一种可配置的监控告警方法及系统 - Google Patents

一种可配置的监控告警方法及系统 Download PDF

Info

Publication number
CN112965874B
CN112965874B CN202110253174.9A CN202110253174A CN112965874B CN 112965874 B CN112965874 B CN 112965874B CN 202110253174 A CN202110253174 A CN 202110253174A CN 112965874 B CN112965874 B CN 112965874B
Authority
CN
China
Prior art keywords
monitoring
alarm
indexes
index
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110253174.9A
Other languages
English (en)
Other versions
CN112965874A (zh
Inventor
张栋
胡清
李国涛
阚宝铎
孙亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110253174.9A priority Critical patent/CN112965874B/zh
Publication of CN112965874A publication Critical patent/CN112965874A/zh
Application granted granted Critical
Publication of CN112965874B publication Critical patent/CN112965874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种可配置的监控告警方法及系统,属于系统监控告警领域,检测服务运行过程中的几项关键指标,根据检测结果,综合分析服务的运行状态;根据不同的服务运行情况,将关键指标划分维度,每一个维度对应一种检测手段,并可根据需求定制监控内容和监控指标;将需要抓取的监控指标初始化到数据库中,进行监控指标注册;除了基本的监控指标外,通过设置监控类型和是否启用标签,对不同的监控指标进行分类和是否启用管理。本发明能够有效的弥补传统监控方案监控维度、监控灵活性、监控性能不能兼顾的问题,提高系统监控的有效性、可靠性和灵活性,为系统的稳定运行奠定了基础。

Description

一种可配置的监控告警方法及系统
技术领域
本发明涉及系统监控告警技术领域,具体地说是一种可配置的监控告警方法及系统。
背景技术
随着云计算与大数据等技术的快速发展,监控工具种类繁多,监控方案纷繁复杂。随着集群规模增大,监控难度也随之增加。此外,不同的系统,需要定制化以满足不同的监控需求。因此,如何选择合理的监控工具,降低运维成本,如何选择合理的监控方案,保证监控系统能否及时、准确监测系统的运行状态(大到整个系统的运行状态,小到每个服务的运行状态),监测到异常之后能否及时发出告警信息,是每一个企业/系统都需要关注的一个问题。
传统的监控告警系统,一般采用Nagios、Zabbix、Cacti等软件作为监控工具,这些软件制化成本太高,无法支持更大的集群规模,而且一般采用关系型数据库进行监控数据存储,难以从现有数据中扩展维度;另外,采用Prometheus的监控方案,普遍的做法是编写各种各样的Exporter针对不同的服务进行监控,但随着服务增多,Exporter也会增多,这会带来一个节点上运行多个Exporter负责采集不同服务的不同监控指标的问题,导致监控节点资源消耗变高,运维成本增加,甚至影响机器性能。此外,采集指标过多也会导致Prometheus服务端拉取数据时间过长,压力过大等问题。一般的监控系统不支持指标定制与配置,无法灵活满足不同场景下的不同需求。
由此可见,现阶段的监控方案中,并不能兼顾监控维度、资源占用、运维成本和监控灵活度之间的问题,所以如何在监控维度和资源消耗中进行平衡,如何多维度监测服务的各项指标,分析服务的真实运行状态,并及时有效地告知用户是一个亟待解决的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种可配置的监控告警方法及系统,能够有效的弥补传统监控方案监控维度、监控灵活性、监控性能不能兼顾的问题,提高系统监控的有效性、可靠性和灵活性,为系统的稳定运行奠定了基础。
本发明解决其技术问题所采用的技术方案是:
一种可配置的监控告警方法,检测服务运行过程中的几项关键指标,根据检测结果,综合分析服务的运行状态;
根据不同的服务运行情况,将关键指标划分为几个维度,每一个维度对应一种检测手段,并可根据需求定制监控内容和监控指标;
将需要抓取的监控指标初始化到数据库中,进行监控指标注册;除了基本的监控指标外,通过设置“监控类型”和“是否启用标签”,对不同的监控指标进行分类和是否启用管理。
优选的,系统抓取“是否启用标签”为enable的监控指标,Dispatcher将不同监控类型的监控指标分发到对应的Collector进行采集,从而达到任务分发的目的;不同的监控类型,对应不同的Collector,从而保证监测方案的多样性。
具体的,所述监控类型包括PID类型、PORT类型、SCRIPT类型和API类型,
PID类型的指标由PID Collector负责采集,用于判断服务的PID是否存在,如不存在,则说明服务未正常启动;
PORT类型的指标由PORT Collector负责采集,通过socket监听服务的端口是否正常;
SCRIPT类型的指标由SCRIPT Collector负责采集,通过运行相应的检测脚本,根据脚本执行结果判断服务是否正常;
API类型又可以成为第三方接入类型,第三方接入类型指标由第三方提供API检测服务是否正常,指标由API Collector负责采集,用于采集第三方API的返回结果。
用户可以通过自定义API的方式使用API Collector扩展新的监控指标;也通过上传不同的脚本,使用SCRIPT Collector扩展新的监控指标;还可以自定义Collector扩展新的监控指标;从而达到后期扩展的目的。
进一步的,所述不同的Collector的采集流程是一致的,都是按照Prometheus的指标采集规则,通过以下几个步骤进行:
S1、定义指标名称:指定指标类型,给对应的指标定义一个描述语句,同时设定一个标签集;
S2、抓取指标数据:根据指标名称,和对应的labelSet,确定一个指标,抓取指标数据,根据不同的指标类型,指定不同的抓取方式,将指标名称、labelSet、数据、时间戳进行绑定;
S3、注册指标:将collector注册到CollectorRegistry中,CollectorRegistry保存一个dict类型的数据结构,用于存放指标的name和collector信息,通过调用Collector的collect方法,获取所有指标name列表,与collector进行绑定;
S4、启动http服务:启动一个http服务,暴露出一个url,将采集的数据export到对应的url中供Prometheus Server端定时拉取数据。
进一步的,可直接在Prometheus的配置文件中配置Exporter的信息以抓取监控指标,也可以通过服务发现的方式,将Exporter的信息注册到服务发现服务器中,Prometheus配置里配置服务发现服务器的信息以抓取监控指标。
用Consul(一个高可用的分布式服务注册系统)进行服务发现为例:
1)、将Exporter的信息注册到Consul集群中;
2)、在Prometheus的配置文件中配置Consul的信息,这样就能保证Promehteus可以在S4中暴露出的url中定时抓取到监控指标。
优选的,提供分类赋权的系统健康程度评分机制,通过对不同维度的监控指标进行分类梳理,用户可以对不同类型的监控指标进行赋权,结合监控数据实时计算系统监控得分来展示系统的健康程度。分类赋权的好处是可以针对关注的侧重点反映系统的健康程度。
优选的,根据初始化的监控指标数据,用户可以从可视化监控系统查看到监控指标规则等信息,一般用户可以对指标是否启用进行修改,资深用户可以根据需求修改监控指标,或者添加自定义监控指标,达到监控可配置的目的;
如果后期用户决定不再抓取某项监控指标,可通过API服务将是否启用的标签置disable,系统将不再识别对应的监控指标,达到监控指标是否启用的目的。
优选的,根据注册好的监控指标,将需要进行告警的规则注册到数据库中,形成告警指标注册,通过设置告警类型和是否启用标签,系统自动解析成Alertmanager所需要的规则文件;
所述告警类型包括阈值类型和状态类型,阈值类型的告警用于设置某项告警范围,例如CPU使用率超过80%则进行告警,响应时间超过1S则进行告警等;状态类型的告警用于实际状态与期望状态不一致时触发告警,例如某进程异常停止与期望进程正常运行的不一致;
告警页面调用Alertmanager服务API实时获取告警信息,同时进行可视化展示。
进一步的,通过可视化系统,一般用户可以对告警项进行是否启用的修改,也可以修改阈值类告警指标的告警阈值;资深用户可以根据需求修改告警指标规则,或者添加自定义告警规则,达到告警可定配置的目的;
同时支持进行用邮件、企业微信、短信等多种方式进行告警通知,通过可视化系统选取需要进行通知的告警指标和通知方式,当产生告警时会自动发送通知;也支持通知的启用与禁用。
本方法基于Prometheus技术,提出了一种可配置的监控告警系统及方法,用以提高系统监控告警的可靠性、灵活性和及时性,能实时反映系统的真实运行状态。确保在实际的应用场景中,只需部署一套Exporter即可实现多维度采集服务各项监控指标,同时结合监控系统实现监控告警指标可配置化,保证监控准确性、降低运维成本,方便后期维护扩展。
本发明还要求保护一种可配置的监控告警系统,包括数据库模块、Dispatcher模块、Collectors模块、HTTP服务模块和Prometheus模块,该系统实现上述的可配置的监控告警方法。
本发明的一种可配置的监控告警方法及系统与现有技术相比,具有以下有益效果:
该方法及系统基于Prometheus,只需部署一套Exporter便可实现从多维度监测服务的监控指标,占用资源少,维护简单,一方面,可以从多个维度组合判断服务状态,能更全面的反映服务的真实状态,不容易误报;另一方面,可根据实际场景,灵活配置,同时满足一般场景和个性化场景的需求,更加准确的反映系统状态;
同时,本方法及系统可以对外提供API服务,可以动态更新需要采集的指标;同时还提供自定义的Collector接口,用户可以根据已有的Collector标准,自定义监控指标和采集方式,便于后期的扩展和维护,有效的解决了传统监控方案中,监控维度和资源占用、运维成本不可兼得的问题。
附图说明
图1是本发明实施例提供的整体软件流程图;
图2是本发明实施例提供的基于Prometheus的多维度监控服务的方法的架构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明实施例提供一种可配置的监控告警方法,检测服务运行过程中的几项关键指标,根据检测结果,综合分析服务的运行状态;
根据不同的服务运行情况,将关键指标划分为几个维度,每一个维度对应一种检测手段,并可根据需求定制监控内容和监控指标。
该方法的实现步骤如下:
S1、监控指标注册,将需要抓取的监控指标初始化到数据库中。除了基本的监控指标外,额外提供了“监控类型”和“是否启用”标签,用来对不同的监控指标进行分类和是否启用管理。
S2、根据S1中的初始化数据,用户可以从可视化监控系统查看到监控指标规则等信息,一般用户可以对指标是否启用进行修改,资深用户可以根据需求修改监控指标,或者添加自定义监控指标,达到监控可配置的目的。
S3、根据S1中的初始化数据,如果后期用户决定不再抓取某项监控指标,可以通过API服务将“是否启用”标签置disable,系统将不再识别对应的监控指标,达到监控指标是否启用的目的。
S4、根据S1中的数据,系统将抓取是否启用标签为enable的监控指标,Dispatcher将不同监控类型的监控指标分发到对应的Collector进行采集。不同的监控类型,对应不同的Collector,包括但不限于以下几种类型:
“PID类型”:PID类型的指标由PID Collector负责采集,主要判断服务的PID是否存在,如不存在,则说明服务未正常启动;
“PORT类型”:PORT类型的指标由PORT Collector负责采集,主要通过socket监听服务的端口是否正常;
“SCRIPT类型”:SCRIPT类型的指标由SCRIPT Collector负责采集,主要运行相应的检测脚本,根据脚本执行结果判断服务是否正常;
“API类型”:API类型又可以成为第三方接入类型,第三方接入类型指标由第三方提供API检测服务是否正常,可以通过API Collector负责采集,主要用于采集第三方API的返回结果。
S5、虽然S4步中的Collector采集方式都不一样,但是每个Collector的采集流程是一致的。都是按照Prometheus的指标采集规则,分为以下几个步骤进行:
1)、定义指标名称:指定“指标类型”(Count,Gauge,Summary,Histogram,四选一),给对应的指标定义一个描述语句,同时设定一个“标签集”(labelSet);
2)、抓取指标数据:根据指标名称,和对应的labelSet,确定一个指标,抓取指标数据,根据不同的“指标类型”,指定不同的抓取方式(实现不同的metric接口),将指标名称、labelSet、数据、时间戳进行绑定;
3)、注册指标:将collector注册到CollectorRegistry中,CollectorRegistry保存一个dict类型的数据结构,用于存放指标的name和collector信息,通过调用Collector的collect方法,获取所有指标name列表,与collector进行绑定;
4)、启动http服务:启动一个http服务,暴露出一个url,将采集的数据export到对应的url中供Prometheus Server端定时拉取数据。
S6、在Prometheus的配置文件中配置Exporter的信息。
因为Prometheus支持服务发现的功能,所以这里包括但不限于用Consul(一个高可用的分布式服务注册系统)进行服务发现:
1)、将Exporter的信息注册到Consul集群中;
2)、在Prometheus的配置文件中配置Consul的信息,这样就能保证Promehteus可以在S5的步骤4)中暴露出的url中定时抓取到监控指标。
S7、有了监控指标数据,结合可视化工具Grafana(强大的可视化监控指标展示工具)展示服务的各个维度的状态,同时可以自行对展示页面进行排版,展示最关注的监控数据。
S8、本实施例中系统系统提供了分类赋权的系统健康程度评分机制,通过对不同纬度的监控指标进行分类梳理,用户可以对不同类型的监控指标进行赋权,结合监控数据实时计算系统监控得分来展示系统的健康程度。
S9、告警指标注册,依赖于注册好的监控指标,将需要进行告警的规则注册到数据库中,额外提供了“告警类型”和“是否启用”的标签,系统自动解析成Alertmanager所需要的规则文件。“告警类型”包括:
“阈值类型”:阈值类型的告警一般是设置某项告警范围,例如CPU使用率超过80%则进行告警,响应时间超过1S则进行告警等;
“状态类型”:状态类型的告警一般是指实际状态与期望状态不一致触发告警,例如某进程异常停止与期望进程正常运行的不一致。
S10、告警页面会带调用Alertmanager服务API实时获取告警信息,同时进行可视化展示。
S11、通过可视化的告警系统,一般用户可以对告警项进行是否启用的修改,也可以修改阈值类告警指标的告警阈值,资深用户可以根据需求修改告警指标规则,或者添加自定义告警规则,达到告警可定配置的目的。
S12、同时支持进行用邮件、企业微信、短信等多种方式进行告警通知,只需要通过可视化系统选取需要进行通知的告警指标和通知方式,当产生告警是会自动发送通知,也支持通知的启用与禁用。
上述方法从多个维度监测服务的运行状态,能够有效的发现服务异常情况并及时将告警发送给用户,保证系统能够安全稳定的运行。同时,该方案在一个节点上只需启动一个Exporter,即启动一个服务,无需过多资源开销,即可从多个维度监测多个服务的运行状态,极大的降低了系统的运维成本。
本发明实施例还提供一种可配置的监控告警系统,参考图2所示,该系统包括数据库模块、Dispatcher模块、Collectors模块、HTTP服务模块和Prometheus模块,该系统实现上述实施例中描述的可配置的监控告警方法。
数据库模块实现将需要抓取的监控指标初始化到数据库中,并进行监控指标注册;
Dispatcher模块将不同监控类型的监控指标分发到对应的Collector进行采集;不同的监控类型,对应不同的Collector;
Collectors模块对应不同的监控类型,监控类型包括PID类型、PORT类型、SCRIPT类型和API类型;则Collectors模块包括PID Collectors、PORT Collectors、SCRIPTCollectors和API Collectors;
HTTP服务模块用于暴露出url,将采集的数据export到对应的url中供PrometheusServer端定时拉取数据;
Prometheus模块用于配置配置Exporter的信息的信息,可直接在Prometheus的配置文件中配置Exporter的信息以抓取监控指标,也可以通过服务发现的方式,将Exporter的信息注册到服务发现服务器中,Prometheus配置里配置服务发现服务器的信息以抓取监控指标。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (8)

1.一种可配置的监控告警方法,其特征在于,检测服务运行过程中的关键指标,根据检测结果,综合分析服务的运行状态;
根据不同的服务运行情况,将关键指标划分维度,每一个维度对应一种检测手段,并可根据需求定制监控内容和监控指标;
将需要抓取的监控指标初始化到数据库中,进行监控指标注册;除了基本的监控指标外,通过设置监控类型和是否启用标签,对不同的监控指标进行分类和是否启用管理;
系统抓取是否启用标签为enable的监控指标,Dispatcher将不同监控类型的监控指标分发到对应的Collector进行采集,不同的监控类型,对应不同的Collector;
所述不同的Collector的采集流程是一致的,都是按照Prometheus的指标采集规则,通过以下几个步骤进行:
S1、定义指标名称:指定指标类型,给对应的指标定义一个描述语句,同时设定一个标签集;
S2、抓取指标数据:根据指标名称,和对应的labelSet,确定一个指标,抓取指标数据,根据不同的指标类型,指定不同的抓取方式,将指标名称、labelSet、数据、时间戳进行绑定;
S3、注册指标:将collector注册到CollectorRegistry中,CollectorRegistry保存一个dict类型的数据结构,用于存放指标的name和collector信息,通过调用Collector的collect方法,获取所有指标name列表,与collector进行绑定;
S4、启动http服务:启动一个http服务,暴露出一个url,将采集的数据export到对应的url中供Prometheus Server端定时拉取数据。
2.根据权利要求1所述的一种可配置的监控告警方法,其特征在于,所述监控类型包括PID类型、PORT类型、SCRIPT类型和API类型,
PID类型的指标由PID Collector负责采集,用于判断服务的PID是否存在,如不存在,则说明服务未正常启动;
PORT类型的指标由PORT Collector负责采集,通过socket监听服务的端口是否正常;
SCRIPT类型的指标由SCRIPT Collector负责采集,通过运行相应的检测脚本,根据脚本执行结果判断服务是否正常;
API类型指标由API Collector负责采集,用于采集第三方API的返回结果。
3.根据权利要求1所述的一种可配置的监控告警方法,其特征在于,直接在Prometheus的配置文件中配置Exporter的信息以抓取监控指标,或通过服务发现的方式,将Exporter的信息注册到服务发现服务器中,Prometheus配置里配置服务发现服务器的信息以抓取监控指标。
4.根据权利要求1所述的一种可配置的监控告警方法,其特征在于,提供分类赋权的系统健康程度评分机制,通过对不同维度的监控指标进行分类梳理,用户可以对不同类型的监控指标进行赋权,结合监控数据实时计算系统监控得分来展示系统的健康程度。
5.根据权利要求1所述的一种可配置的监控告警方法,其特征在于,一般用户可以对指标是否启用进行修改,资深用户可以根据需求修改监控指标,或者添加自定义监控指标,达到监控可配置的目的;
如果后期用户决定不再抓取某项监控指标,可通过API服务将是否启用的标签置disable,系统将不再识别对应的监控指标,达到监控指标是否启用的目的。
6.根据权利要求1所述的一种可配置的监控告警方法,其特征在于,根据注册好的监控指标,将需要进行告警的规则注册到数据库中,形成告警指标注册,通过设置告警类型和是否启用标签,系统自动解析成Alertmanager所需要的规则文件;
所述告警类型包括阈值类型和状态类型,阈值类型的告警用于设置某项告警范围,状态类型的告警用于实际状态与期望状态不一致时触发告警;
告警页面调用Alertmanager服务API实时获取告警信息,同时进行可视化展示。
7.根据权利要求6所述的一种可配置的监控告警方法,其特征在于,通过可视化系统,一般用户可以对告警项进行是否启用的修改,也可以修改阈值类告警指标的告警阈值;资深用户可以根据需求修改告警指标规则,或者添加自定义告警规则,达到告警可定配置的目的;
通过可视化系统选取需要进行通知的告警指标和通知方式,当产生告警时会自动发送通知;也支持通知的启用与禁用。
8.一种可配置的监控告警系统,其特征在于,包括数据库模块、Dispatcher模块、Collectors模块、HTTP服务模块和Prometheus模块,该系统实现权利要求1-7任一项所述的可配置的监控告警方法。
CN202110253174.9A 2021-03-04 2021-03-04 一种可配置的监控告警方法及系统 Active CN112965874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110253174.9A CN112965874B (zh) 2021-03-04 2021-03-04 一种可配置的监控告警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110253174.9A CN112965874B (zh) 2021-03-04 2021-03-04 一种可配置的监控告警方法及系统

Publications (2)

Publication Number Publication Date
CN112965874A CN112965874A (zh) 2021-06-15
CN112965874B true CN112965874B (zh) 2023-02-28

Family

ID=76276929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110253174.9A Active CN112965874B (zh) 2021-03-04 2021-03-04 一种可配置的监控告警方法及系统

Country Status (1)

Country Link
CN (1) CN112965874B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779339A (zh) * 2021-08-24 2021-12-10 行云智网络科技(北京)有限公司 一种自动化监控和告警方法及系统
CN113791948A (zh) * 2021-09-10 2021-12-14 北京百度网讯科技有限公司 分布式计算系统的监控方法、装置、电子设备及存储介质
CN113778001A (zh) * 2021-09-28 2021-12-10 上海市大数据股份有限公司 一种适用于应用系统的实时数据监控系统
CN114726755A (zh) * 2022-02-25 2022-07-08 中盈优创资讯科技有限公司 一种业务切片性能指标采集监控方法及装置
CN114723072B (zh) * 2022-05-05 2023-10-03 中国电信股份有限公司 Exporter组合方法、系统、设备及存储介质
CN115269308A (zh) * 2022-06-29 2022-11-01 北京结慧科技有限公司 一种Kafka监控方法及系统、计算机设备及介质
CN116132317B (zh) * 2022-12-12 2024-06-07 南京理工大学 工业互联网数据采集分析及可视化一体系统及其部署方法
CN116737498A (zh) * 2023-06-15 2023-09-12 中科驭数(北京)科技有限公司 遥测数据采集方法、系统、装置、设备及介质
CN117520096B (zh) * 2023-11-23 2024-05-03 广东堡塔安全技术有限公司 一种智能服务器安全监控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347377A (zh) * 2019-07-08 2019-10-18 紫光云技术有限公司 一种Prometheus exporter数据库监控系统
CN111752805A (zh) * 2020-07-01 2020-10-09 浪潮云信息技术股份公司 一种云服务器资源监控及告警系统
CN111831508A (zh) * 2020-06-12 2020-10-27 新浪网技术(中国)有限公司 一种动态监控数据采集方法及装置
CN112073252A (zh) * 2020-11-12 2020-12-11 北京优炫软件股份有限公司 一种云平台监控方法及系统、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798375B (zh) * 2019-09-29 2021-10-01 烽火通信科技股份有限公司 一种增强容器集群高可用性的监控方法、系统及终端设备
CN111752795A (zh) * 2020-06-18 2020-10-09 多加网络科技(北京)有限公司 一种全流程监控报警平台及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347377A (zh) * 2019-07-08 2019-10-18 紫光云技术有限公司 一种Prometheus exporter数据库监控系统
CN111831508A (zh) * 2020-06-12 2020-10-27 新浪网技术(中国)有限公司 一种动态监控数据采集方法及装置
CN111752805A (zh) * 2020-07-01 2020-10-09 浪潮云信息技术股份公司 一种云服务器资源监控及告警系统
CN112073252A (zh) * 2020-11-12 2020-12-11 北京优炫软件股份有限公司 一种云平台监控方法及系统、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Docker的容器集群管理平台的研究与实现;张城城;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;对比文件正文第2.3节、第5、7章 *

Also Published As

Publication number Publication date
CN112965874A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112965874B (zh) 一种可配置的监控告警方法及系统
US11126538B1 (en) User interface for specifying data stream processing language programs for analyzing instrumented software
CN111309567B (zh) 数据处理方法、装置、数据库系统、电子设备及存储介质
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
US9419917B2 (en) System and method of semantically modelling and monitoring applications and software architecture hosted by an IaaS provider
CN111352921A (zh) 基于elk的慢查询监控方法、装置、计算机设备及存储介质
CN110309030A (zh) 基于ELK和Zabbix的日志分析监控系统和方法
CN105718351A (zh) 一种面向Hadoop集群的分布式监控管理系统
CN102801785B (zh) 一种对广告投放引擎进行监控的系统及方法
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN101088072A (zh) 用于监视基于交易的系统的方法和系统
CN111245672A (zh) 一种通用可扩展的追踪业务全链路的监控方法及系统
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN112181704A (zh) 一种大数据任务处理方法、装置、电子设备及存储介质
CN110597861A (zh) 实时告警方法、装置及设备和计算机可读存储介质
CN114048090A (zh) 基于k8s的容器云平台监控的方法、设备及存储介质
CN202009391U (zh) 一种对信息系统运行情况进行实时监控与预警的装置
CN116232844A (zh) 一种基于分布式体系下的系统监控方法
CN109815080A (zh) 计算机设备的三维监控方法及其装置
CN114020893A (zh) 一种基于分布式存储的日志检索方法、装置及存储介质
CN114780378A (zh) 基于业务接口的系统稳定性检测溯源方法及相关设备
US10296967B1 (en) System, method, and computer program for aggregating fallouts in an ordering system
CN111835566A (zh) 一种系统故障管理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant