CN111949483A - 监控装置和监控系统 - Google Patents

监控装置和监控系统 Download PDF

Info

Publication number
CN111949483A
CN111949483A CN202010813963.9A CN202010813963A CN111949483A CN 111949483 A CN111949483 A CN 111949483A CN 202010813963 A CN202010813963 A CN 202010813963A CN 111949483 A CN111949483 A CN 111949483A
Authority
CN
China
Prior art keywords
component
monitoring
service core
core component
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010813963.9A
Other languages
English (en)
Inventor
郑亮
张旭明
王豪迈
胥昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xsky Beijing Data Technology Corp ltd
Original Assignee
Xsky Beijing Data Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xsky Beijing Data Technology Corp ltd filed Critical Xsky Beijing Data Technology Corp ltd
Priority to CN202010813963.9A priority Critical patent/CN111949483A/zh
Publication of CN111949483A publication Critical patent/CN111949483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种监控装置和监控系统,该监控装置包括:服务核心组件,与目标组件通信连接,用于收集和存储目标组件的监控指标,目标组件为监控装置监控的组件;自监控组件,与服务核心组件通信连接,用于检测服务核心组件的故障。该监控装置通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。

Description

监控装置和监控系统
技术领域
本申请涉及监控技术领域,具体而言,涉及一种监控装置和监控系统。
背景技术
Prometheus是由SoundCloud公司开发的开源告警系统并且带时序数据库,其基本原理是通过HTTP周期性地抓取被监控组件的状态,任意组件只要提供对应的HTTP接口并且符合Prometheus定义的数据格式,就可以接入Prometheus监控。
Prometheus Server是Prometheus的核心,根据配置完成数据采集,服务发现以及数据存储,推送告警,以及提供PromQL查询语言的支持。
Prometheus Server负责定时在目标上抓去Metrics数据,每个抓取目标都需要暴露一个HTTP服务接口用于Prometheus定时抓取。这种调用监控对象获取监控数据的方式称为Pull。Pull方式可以降低耦合,通过Pull方式,被采集端无须感知监控系统的存在,完全独立于监控系统之外,这样数据的采集完全由监控系统控制,增强了整个系统的稳定性。
但是,Prometheus无法实现自监控,当监控系统发生故障时,我们无法及时发现问题并快速定位止损。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种监控装置和监控系统,以解决现有技术中监控系统法实现自监控的问题。
根据本发明实施例的一个方面,提供了一种监控装置,包括:服务核心组件,与目标组件通信连接,用于收集和存储所述目标组件的监控指标,所述目标组件为所述监控装置监控的组件;自监控组件,与所述服务核心组件通信连接,用于检测所述服务核心组件的故障。
可选地,所述自监控组件有多个。
可选地,所述监控装置还包括:告警组件,与所述服务核心组件和所述自监控组件分别通信连接,用于发送告警信息,所述告警信息为所述监控指标的异常信息或者所述服务核心组件的故障信息。
可选地,所述告警信息包括第一告警信息,所述告警组件包括第一告警模块,所述第一告警模块用于在所述监控指标异常的情况下,发送所述第一告警信息。
可选地,所述告警信息包括第二告警信息,所述告警组件还包括第二告警模块,在所述服务核心组件发生故障的情况下,发送所述第二告警信息。
可选地,所述监控装置还包括:可视化模块,与所述服务核心组件和所述自监控组件分别通信连接,用于展示所述服务核心组件和所述目标组件的状态信息。
可选地,,所述监控装置还包括:环境设置组件,与所述服务核心组件通信连接,用于检测所述监控指标的上传中断异常。
根据本发明实施例的另一方面,还提供了一种监控系统,包括目标组件和监控装置,所述监控装置为任意一种所述的监控装置。
在本发明实施例中,上述监控装置中,服务核心组件与目标组件通信连接,上述服务核心组件用于收集和存储上述目标组件的监控指标,其中,上述目标组件为所述监控系统监控的组件,自监控组件与上述服务核心组件通信连接,上述自监控组件用于检测上述服务核心组件的故障。该监控装置通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的一种实施例的监控装置的示意图。
其中,上述附图包括以下附图标记:
10、服务核心组件;11、数据抓取模块;12、存储模块;13、查询模块;20、自监控组件;30、短期任务;40、推送网关;50、监控对象;60、对接组件;70、告警组件;80、可视化组件;90、环境设置组件;91、硬盘。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
Openstack:云计算领域最活跃的开源项目之一,是一个开源的云计算管理平台项目;
存储集群:将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池。
正如背景技术中所说的,现有技术中监控系统法实现自监控,为了解决上述问题,本申请的一种典型的实施方式中,提供了一种监控装置和监控系统。
根据本申请的实施例,提供了一种监控装置。
图1是根据本申请实施例的监控装置的示意图。如图1所示,该装置包括:
服务核心组件10,与目标组件通信连接,用于收集和存储上述目标组件的监控指标,上述目标组件为上述监控装置监控的组件;
自监控组件20,与上述服务核心组件10通信连接,用于检测上述服务核心组件的故障。
上述监控装置中,服务核心组件与目标组件通信连接,上述服务核心组件用于收集和存储上述目标组件的监控指标,其中,上述目标组件为所述监控系统监控的组件,自监控组件与上述服务核心组件通信连接,上述自监控组件用于检测上述服务核心组件的故障。该监控装置通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。
本申请的一种实施例中,上述服务核心组件为prometheus server组件,上述自监控组件为auto-monitor组件,auto-monitor组件主动从Prometheus server组件抓取数据,通过本地配置加载监控实例、报警接收人信息、报警通道信息等,以简化报警链路,使得故障的发现过程实时可靠。
更为具体地,如图1所示,上述服务核心组件10包括数据抓取模块11、存储模块12和查询模块13,数据抓取模块11用于采用Pull方式抓取metrics数据,即收集上述目标组件的监控指标,抓取metrics数据存储在存储模块12中,上述查询模块13支持通过PromQL语言进行查询。
需要说明的是,上述存储模块通过一定的规则清理和整理数据,并把得到的结果存储到新的时间序列中,主要有两种存储方式,即本地存储和远端存储,本地存储通过Prometheus自带的时序数据库保存到本地磁盘,远端存储通过中间层的适配器的转化,目前Prometheus支持OpenTSDB,InfluxDB,ElasticSearch等后端存储。
本申请的一种实施例中,如图1所示,上述监控装置还包括推送网关40,短期任务30将metrics数据上传至推送网关40,服务核心组件10通过推送网关40抓取metrics数据,或者定期从直接监控对象50抓取数据,监控对象50通过jobs或者exporters暴露给服务核心组件10。
本申请的一种实施例中,如图1所示,上述监控装置还包括对接组件60,上述对接组件60用于发现监控对象,通过如下两种方式获取监控对象,第一种方式,通过配置文件,文本文件等进行静态配置,第二种方式,支持Kubernetes,file_sd,Consul等方式进行动态发现。
本申请的一种实施例中,上述自监控组件有多个。具体地,auto-monitor组件足够轻量,代码少、功能简单,这样能够保障单个auto-monitor的可用性,同时,auto-monitor组件是无状态的,没有实例变量的对象,部署多个自监控组件,进一步保证了自监控组件的高可用性。另外,部署多个自监控组件之后,再给auto-monitor添加一个进程存活监控告警,多个自监控组件互相监控对方,以排查自监控组件是否正常工作,及时发现问题,例如,三个自监控组件中,两个发出告警,一个没有发出告警,即可排查没有发出告警的自监控组件是否正常工作。
需要说明的是,在同一个重要的网络分区内,通常要部署多个auto-monitor,但是不会让auto-monitor做跨网络分区的监控,以避免带来很多网络层面的误报。部署多个自监控组件会造成报警通知的重复发送,但是大大提升了故障和异常发现的概率,因此基于网络安全的考虑,这种重复是可以接受的。
本申请的一种实施例中,如图1所示,上述监控装置还包括告警组件70,上述告警组件70与上述服务核心组件10和上述自监控组件20分别通信连接,用于发送告警信息,上述告警信息为上述监控指标的异常信息或者上述服务核心组件的故障信息。具体地,上述告警组件为alertmanager组件,上述服务核心组件检测到监控指标异常的情况下,推送告警信息至alertmanager组件,或者上述自监控组件检测到服务核心组件的故障的,推送告警信息至alertmanager组件,alertmanager组件通过pagerduty或者Email等方式将告警信息发送至相关的技术人员,便于及时发现问题并且快速定位止损。
本申请的一种实施例中,上述告警信息包括第一告警信息,上述告警组件包括第一告警模块,上述第一告警模块用于在上述监控指标异常的情况下,发送上述第一告警信息。具体地,上述服务核心组件检测到监控指标异常的情况下,推送第一告警信息至alertmanager组件,alertmanager组件通过pagerduty或者Email等方式将第一告警信息发送至相关的技术人员。
本申请的一种实施例中,上述告警信息包括第二告警信息,上述告警组件还包括第二告警模块,在上述服务核心组件发生故障的情况下,发送上述第二告警信息。具体地,上述自监控组件检测到服务核心组件的故障的,推送告警信息至alertmanager组件,alertmanager组件通过pagerduty或者Email等方式将第二告警信息发送至相关的技术人员。
本申请的一种实施例中,如图1所示,上述监控装置还包括可视化组件80,上述可视化组件80与上述服务核心组件10和上述自监控组件20分别通信连接,用于展示上述服务核心组件10和上述目标组件的状态信息。具体地,上述可视化组件可以通过web UI界面、grafana或者API客户端,将目标组件的监控指标和服务核心组件的状态数据以图形化的形式展示出来,方便技术人员查看,并且当收到告警信息时,技术人员可以通过web UI界面、grafana或者API客户端查询相应的数据指标,立即定位问题,则可以直接进行止损操作。
本申请的一种实施例中,上述监控装置还包括环境设置组件90,上述环境设置组件90与上述服务核心组件10通信连接,用于检测上述监控指标的上传中断异常。具体地,上述环境设置组件90为nodata,上述环境设置组件90的硬盘91与服务核心组件10的存储模块通信连接,从而检测监控指标的上传状态,监控指标的上传中断,则nodata上报默认值,默认值触发报警,提示监控指标的上传出现中断异常。
本申请实施例还提供了一种监控系统,包括目标组件和监控装置,上述监控装置为任意一种上述的监控装置。
上述监控系统中,包括目标组件和监控装置服务核心组件与目标组件通信连接,上述服务核心组件用于收集和存储上述目标组件的监控指标,其中,上述目标组件为所述监控系统监控的组件,自监控组件与上述服务核心组件通信连接,上述自监控组件用于检测上述服务核心组件的故障。该监控系统通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的监控装置中,服务核心组件与目标组件通信连接,上述服务核心组件用于收集和存储上述目标组件的监控指标,其中,上述目标组件为所述监控系统监控的组件,自监控组件与上述服务核心组件通信连接,上述自监控组件用于检测上述服务核心组件的故障。该监控装置通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。
2)、本申请的监控系统中,包括目标组件和监控装置服务核心组件与目标组件通信连接,上述服务核心组件用于收集和存储上述目标组件的监控指标,其中,上述目标组件为所述监控系统监控的组件,自监控组件与上述服务核心组件通信连接,上述自监控组件用于检测上述服务核心组件的故障。该监控系统通过服务核心组件对目标组件进行监控,通过自监控组件对服务核心组件的故障进行监控,在监控目标组件同时实现自监控,从而及时发现问题,以便于快速确定目标组件的监控指标异常还是服务核心组件故障,从而快速定位止损。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种监控装置,其特征在于,包括:
服务核心组件,与目标组件通信连接,用于收集和存储所述目标组件的监控指标,所述目标组件为所述监控装置监控的组件;
自监控组件,与所述服务核心组件通信连接,用于检测所述服务核心组件的故障。
2.根据权利要求1所述的装置,其特征在于,所述自监控组件有多个。
3.根据权利要求1所述的装置,其特征在于,所述监控装置还包括:
告警组件,与所述服务核心组件和所述自监控组件分别通信连接,用于发送告警信息,所述告警信息为所述监控指标的异常信息或者所述服务核心组件的故障信息。
4.根据权利要求3所述的装置,其特征在于,所述告警信息包括第一告警信息,所述告警组件包括第一告警模块,所述第一告警模块用于在所述监控指标异常的情况下,发送所述第一告警信息。
5.根据权利要求4所述的装置,其特征在于,所述告警信息包括第二告警信息,所述告警组件还包括第二告警模块,在所述服务核心组件发生故障的情况下,发送所述第二告警信息。
6.根据权利要求1所述的装置,其特征在于,所述监控装置还包括:
可视化模块,与所述服务核心组件和所述自监控组件分别通信连接,用于展示所述服务核心组件和所述目标组件的状态信息。
7.根据权利要求1所述的装置,其特征在于,所述监控装置还包括:
环境设置组件,与所述服务核心组件通信连接,用于检测所述监控指标的上传中断异常。
8.一种监控系统,包括目标组件和监控装置,其特征在于,所述监控装置为权利要求1至7中任意一项所述的监控装置。
CN202010813963.9A 2020-08-13 2020-08-13 监控装置和监控系统 Pending CN111949483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010813963.9A CN111949483A (zh) 2020-08-13 2020-08-13 监控装置和监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010813963.9A CN111949483A (zh) 2020-08-13 2020-08-13 监控装置和监控系统

Publications (1)

Publication Number Publication Date
CN111949483A true CN111949483A (zh) 2020-11-17

Family

ID=73343331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010813963.9A Pending CN111949483A (zh) 2020-08-13 2020-08-13 监控装置和监控系统

Country Status (1)

Country Link
CN (1) CN111949483A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344454A (zh) * 2021-07-05 2021-09-03 湖南快乐阳光互动娱乐传媒有限公司 一种压测数据的处理方法及装置
CN113381884A (zh) * 2021-06-02 2021-09-10 上海数禾信息科技有限公司 用于监控告警系统的全链路监控方法及装置
CN113570476A (zh) * 2021-07-26 2021-10-29 广东电网有限责任公司 基于自定义告警规则的电网监控系统容器服务监控方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴叶磊: "Prometheus 不完全避坑指南", pages 1 - 3, Retrieved from the Internet <URL:https://aleiwu.com/post/prometheus-bp/> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113381884A (zh) * 2021-06-02 2021-09-10 上海数禾信息科技有限公司 用于监控告警系统的全链路监控方法及装置
CN113344454A (zh) * 2021-07-05 2021-09-03 湖南快乐阳光互动娱乐传媒有限公司 一种压测数据的处理方法及装置
CN113570476A (zh) * 2021-07-26 2021-10-29 广东电网有限责任公司 基于自定义告警规则的电网监控系统容器服务监控方法

Similar Documents

Publication Publication Date Title
CA2835446C (en) Data analysis system
CN111949483A (zh) 监控装置和监控系统
US10200506B2 (en) Method, system and device for monitoring data
US8156219B2 (en) System and method of health monitoring and fault monitoring in a network system
CN108829560A (zh) 数据监控方法、装置、计算机设备及存储介质
CN112653586A (zh) 基于全链路监控的时空大数据平台应用性能管理方法
US20070036308A1 (en) Method of collecting data from network elements
CN108390907B (zh) 一种基于Hadoop集群的管理监控系统及方法
US6678729B1 (en) Method of monitoring the availability of a messaging and VOIP networking
CN111163150A (zh) 一种分布式调用追踪系统
CN108234161A (zh) 用于线上线下多层网络架构的通路检测方法及系统
EP1622310B1 (en) Administration method and system for network management systems
CN111510351B (zh) 基于普罗米修斯监控系统的异常检测方法和装置
WO2016067299A1 (en) Location aware failover solution
CN113760634A (zh) 一种数据处理方法和装置
Ellsworth et al. A non-proprietary network operations platform for openroadm environment
CN112882892B (zh) 数据处理方法和装置、电子设备及存储介质
CN113821412A (zh) 一种设备运维管理方法及装置
US10296967B1 (en) System, method, and computer program for aggregating fallouts in an ordering system
KR101520103B1 (ko) It서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법
CN112242928B (zh) 一种业务系统管理系统
US20230195603A1 (en) Application health monitoring and reporting system
KR20130095767A (ko) 통신 네트워크에서의 네트워크 구성 관리
JP7167749B2 (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
CN103166805B (zh) 云测试环境的监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100094 101, floors 1-5, building 7, courtyard 3, fengxiu Middle Road, Haidian District, Beijing

Applicant after: Beijing Xingchen Tianhe Technology Co.,Ltd.

Address before: 100097 room 806-1, block B, zone 2, Jinyuan times shopping center, indigo factory, Haidian District, Beijing

Applicant before: XSKY BEIJING DATA TECHNOLOGY Corp.,Ltd.