CN112015753B - 适于容器化部署开源云平台的监控系统和方法 - Google Patents

适于容器化部署开源云平台的监控系统和方法 Download PDF

Info

Publication number
CN112015753B
CN112015753B CN202010894479.3A CN202010894479A CN112015753B CN 112015753 B CN112015753 B CN 112015753B CN 202010894479 A CN202010894479 A CN 202010894479A CN 112015753 B CN112015753 B CN 112015753B
Authority
CN
China
Prior art keywords
component
monitoring
thanos
promethaus
copies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010894479.3A
Other languages
English (en)
Other versions
CN112015753A (zh
Inventor
李向军
成启亮
吴俊生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Easy Star Technology Development Co ltd
Original Assignee
Beijing Easy Star Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Easy Star Technology Development Co ltd filed Critical Beijing Easy Star Technology Development Co ltd
Priority to CN202010894479.3A priority Critical patent/CN112015753B/zh
Publication of CN112015753A publication Critical patent/CN112015753A/zh
Application granted granted Critical
Publication of CN112015753B publication Critical patent/CN112015753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种适于容器化部署开源云平台的监控系统,包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件;所述多个prometheus副本部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据;所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据。本发明能够对基于容器化的开源云的平台资源和平台物理环境信息等进行全方位监控,具备广适性,可扩展性及高可靠性。

Description

适于容器化部署开源云平台的监控系统和方法
技术领域
本发明涉及云监控技术领域,具体而言涉及一种适于容器化部署开源云平台的监控系统和方法。
背景技术
随着云计算的成熟,各种云平台尤其是开源云平台逐渐成为各机构的IT业务平台。作为IT基础结构,云平台承载着应用程序和数据,它的运行状态直接影响日常业务的进行,关系机构的正常运作。实时监控云平台的状态,及时发现云平台异常并产生告警,保证云平台的正常运行,变得极为重要。
开源云平台的监控主要包括对云平台资源和物理节点信息的实时监控。但针对容器化部署的开源云平台的监控方案通常是不全面的。
Zabbix是一款企业级的,开源的,分布式的监控套件。支持Agent、IPMI、SNMP、JMX等多种数据采集方式;具有自动发现(Auto registration)、LLD(Low-Level Discovery)等多种功能自动化、智能化部署监控系统。但是Zabbix对于基于Kubernetes容器化部署的云平台的监控具有局限性,Zabbix无法做到对云计算除主机外服务还有容器编排这种跨宿主机的对象持续的数据收集和监控。
prometheus是一款面向云原生应用程序的开源监控工具,其对于传统的监控系统的测试和告警模型进行彻底的颠覆,形成了基于中央化的规则计算、统一分析和告警的新模型。多维的数据模型,和灵活的查询语句;无依赖存储,Prometheus自带时序数据库TSDB用于本地存储,也能对接远程存储。Prometheus对于平台资源、以及平台物理环境的监控都十分全面。
在传统的监控部署模式中,需要针对不同的环境加载不同的配置,无法做到应用之间的相互隔离;部署过程十分复杂,需要大量的人力参与,也需要消耗大量的时间;部署的新版本的过程大部分都是手动的,难以回滚;很难通过增加新的实例来进行横向扩展;如果服务器停机需要手动的花费大量时间来恢复。
众多的开源监控软件提供的解决方案只能在部分层面解决监控问题,但不能从整体上、多方位的提供开源云平台的资源监控方案,且在部署方式上也需要发生改变。
专利号为CN111459763A的发明中公开了一种跨kubernetes集群监控系统及方法,包括:多个开阳Alcor集群、prometheus-out和grafana-out组件,prometheus-out和grafana-out组件部署于Alcor集群外;Alcor集群中安装prometheus、alertmanager和grafana监控组件,node-exporter、process-exporter和blackbox数据采集组件;prometheus-out组件从prometheus监控组件同步监控数据;grafana-out组件对监控数据进行展示。该方案解决了跨集群数据收集的监控和数据展示。然而,在该方案中,需要在每个集群中布设一组包括prometheus、alertmanager和grafana监控组件,node-exporter、process-exporter和blackbox数据采集组件在内的复杂组件,监控数据的计算过程各自独立,当集群数量增大时,整个监控系统将会变得极为复杂,难以维护,且难以实现多个集群数据的共享互通。该方案集群内部未解决prometheus高可用问题,且未使用thanos进行数据聚合,一旦集群内部prometheus组件出现问题,整个集群的监控将处于不可用状态。该方案未使用ceilometer对openstack平台进行监控,仅仅监控到kubernetes集群和节点健康状态,无法监控到虚拟资源,不适用于云平台监控。
发明内容
本发明针对现有技术中的不足,提供一种适于容器化部署开源云平台的监控系统和方法,对基于容器化的开源云的平台资源和平台物理环境信息等进行全方位监控,具备广适性,可扩展性及高可靠性。
为实现上述目的,本发明采用以下技术方案:
一种适于容器化部署开源云平台的监控系统,所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件;
所述多个prometheus副本部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据;
所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB;
所述prometheus的PromQL查询语言组件用于设置告警规则,所述Prometheusserver端基于告警规则,根据聚合后的数据产生报警信息;
所述Alertmanager组件用于对报警信息进行管理;
所述Grafana组件展示各种监控数据。
为优化上述技术方案,采取的具体措施还包括:
进一步地,所述监控系统还包括Openstack-Ceilometer组件,用于收集Openstack中发生的事件,为监控和计费以及其他服务提供数据支撑。
进一步地,所述Thanos组件包括部署在prometheus的服务端一侧充当代理服务器的Thanos Sidecar组件,以及在另一端运行的一个能够横向拓展并且无状态的ThanosQuerier组件;
所述Thanos Sidecar组件通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据;所述Thanos Querier组件用于对高可用部署的Prometheus的数据进行聚合。
进一步地,所述Exporter组件包括用于监控openstack平台的prometheus-openstack-exporter组件和用于获取物理主机的监控信息的node-exporter组件。
进一步地,所述Alertmanager组件具体用于:
接收并处理来自Prometheus Server或其他客户端程序发送的告警信息,对告警信息进行去重、分组且路由到对应的通知方。
进一步地,所述Alertmanager组件还用于采用分组机制将部分告警信息合并成一个通知。
进一步地,所述Alertmanager组件根据垃圾告警数量自适应地调整抑制规则。
基于前述监控系统,本发明还提及一种适于容器化部署开源云平台的监控方法,所述监控方法包括以下步骤:
将多个prometheus副本分别部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据;
采用Thanos组件整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB;
采用prometheus的PromQL查询语言组件设置告警规则;
基于前述告警规则,根据聚合后的数据产生报警信息,采用Alertmanager组件对报警信息进行管理;
采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示。
本发明还提及一种计算机设备,包括存储器、处理器及存储在存储器上并并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法。
本发明还提及一种计算机可读存储介质,所述计算机可读存储介质有执行前述方法的计算机程序。
本发明的有益效果是:
(1)对开源云平台的平台服务状态、平台资源及物理环境,进行多维度、全方位的一体化资源监控。自定义的告警规则,满足告警条件后则会触发告警通知。
(2)容器化部署云平台监控系统,实现自动化快速部署,管理更加便捷,高度的资源利用率与隔离,减小对环境的依赖,可移植性更强。
(3)监控系统的高可用,使单一副本出现故障不会影响监控系统的正常使用也不会造成数据丢失,支持负载均衡,减轻单节点服务压力,保证监控质量。
(4)使用Thanos对多副本prometheus数据进行聚合,统一查询入口,轻松备份和恢复数据。
附图说明
图1是本发明的适于容器化部署开源云平台的监控系统的结构示意图。
图2是本发明的采用thanos组件实现高可用prometheus的无缝集成的结构示意图。
图3是本发明的适于容器化部署开源云平台的监控系统的部署示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
结合图1,本发明提及一种适于容器化部署开源云平台的监控系统,所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheusserver端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件。
所述多个prometheus副本部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据。
所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB。
所述prometheus的PromQL查询语言组件用于设置告警规则,所述Prometheusserver端基于告警规则,根据聚合后的数据产生报警信息。
所述Alertmanager组件用于对报警信息进行管理。
所述Grafana组件展示各种监控数据。
开源云平台的监控系统对云平台的多种资源进行监控,需要完善的社区生态实现数据的采集,数据的存储,以及监控数据的统一的展示。
一、原理阐述
数据的采集由各监控对象所对应的Exporter组件,如prometheus-openstack-exporter负责openstack平台的监控,node-exporter负责获取物理主机的监控信息如cpu、内存、磁盘等。各个Exporter组件所采集到的数据由Prometheus统一抓取。
本发明基于Prometheus的时序数据库TSDB作为监控和性能指标信息的本地存储方案,使用Grafana作为可视化组件进行多样化展示。Prometheus通过自身丰富的Promql查询语言来设置告警规则,所产生的告警发送给Alertmanager组件.Alertmanager从Prometheus server端接收到告警后,会进行数据去重,分组,路由到对端的接收方式,并发出告警。Alertmanager可配置的告警发送方式有:电子邮件、slack、企业微信和钉钉等。本发明的技术路线实现图如图1所示。
(1)Prometheus:是一套开源的完整的监控解决方案,其对传统监控系统的测试和告警模型进行了彻底的颠覆,形成了基于中央化的规则计算,统一分析和告警的新模型。Prometheus核心部分只有一个单独的二进制文件不存在任何的第三方库的依赖,其所有采集的数据均以Metric的形式保存在内置的时间序列数据库中(TSDB),而且prometheus能够高效的处理所监控任务产生的大量数据。Prometheus内置的PromQL能够实现对监控数据的查询聚合,同时PromQL也被应用于Grafana数据可视化以及告警当中。
(2)Grafana:是一款跨平台的开源的度量分析和可视化工具,官方库中拥有丰富的仪表盘和图表等多种展现方式,在同一图表中混合使用不同的数据源,可以基于每个查询指定数据源,甚至自定义数据源,Grafana拥有众多插件,可针对不同开源云平台安装不同的插件,方便采集各种监控数据Alertmanager。
(3)Alertmanager:Alertmanager是一款独立的组件,负责接收并处理来自Prometheus Server(也可以是其他客户端程序)的告警信息,同时对告警信息进行分组且路由到正确的通知方。Alertmanager的分组机制可以将详细的告警信息合并成一个通知,避免一次性接受大量告警通知,而无法对问题进行快速定位。Alertmanager也可以合理的设置抑制规则可以减少垃圾告警的产生。
(4)Ceilometer:Ceilometer是Openstack中的一个子项目,用于收集Openstack中发生的事件,然后为监控和计费以及其他服务提供数据支撑。Ceilometer能够对节点上的云主机进行监控,获取各个云主机的CPU,网络磁盘等监控信息。
二、实现高可用
监控系统高可用的实现。以Prometheus为例,一个云平台集群部署多副本Prometheus,即使单点故障也不会影响到整个集群的数据监控,最终保证整个监控系统的高可靠性。本发明使用Thanos来整合多个相同的prometheus副本,对所有副本上所采集到的监控数据进行去重和合并,从单个端点查询和聚合所有Prometheus副本所采集到的数据,而且可以轻松地备份个归档数据。图2是Prometheus的高可用示例示,就Thanos与prometheus之间的联系进行说明。
Thanos Sidecar组件部署在prometheus的服务端一侧充当代理服务器,通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据。在另一端运行的是一个可以横向拓展并且无状态的Thanos Querier组件,可以实现对高可用部署的Prometheus的数据进行聚合,从而解决全局视图和高可用问题。
三、部署方式
在三节点Kubernetes平台中安装Prometheus Operator,以声明式的方式自定义Prometheus以及Exporter等其他监控系统组件,自动化部署监控系统。
结合图3,本监控系统的所有组件均以容器化的方式进行部署,使用Kubernetes管理和扩展容器化应用,将构成应用的容器按逻辑单位进行分组以便于管理和发现。
一体化资源监控系统可实现对以下资源的全方位监控:
(1)对云平台的整体健康状况、资源使用状况、平台服务健康状态、物理节点状态、存储集群状态从全局的角度进行监控。
(2)对开源云平台的虚拟机的资源进行监控。包括云主机的运行状态、云主机的CPU/内存使用情况和利用率、磁盘使用状态、网络IO状态、云硬盘的磁盘使用状态、健康程度等资源进行监控,并支持多种告警通知机制。
(3)对存储集群的状态进行监控,包括对各状态OSD的数量、存储集群实际可用量、存储池使用率、存储集群裸容量和存储集群容量使用率、存储集群性能等多方面进行监控。
(4)对物理节点状态进行监控,包括各节点的CPU和内存使用率、节点磁盘IO使用情况、节点磁盘信息、节点网络数据流量等方面的监控。其中节点磁盘信息包括磁盘类型、磁盘型号、磁盘健康状态、磁盘容量及使用量、raid信息等。
(5)对RabitMQ进行监控,包括对RabbitMQ集群状态、RabbitMQ节点状态、RabbitMQ状态趋势、RabbitMQ资源等进行监控。
(6)各监控项根据之前设置的告警阈值,一旦监控信息满足告警条件,则会产生告警、告警通过邮件方式发送给通知方。告警界面支持所有的告警信息展示,历史告警查阅等功能。
容器化部署开源云平台监控系统包括且不限于以上监控项目。并支持自定义监控设置,支持不同开源云平台的特定开发。
基于前述监控系统,本发明还提及一种适于容器化部署开源云平台的监控方法,所述监控方法包括以下步骤:
S1,将多个prometheus副本分别部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据。
S2,采用Thanos组件整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB。
S3,采用prometheus的PromQL查询语言组件设置告警规则。
S4,基于前述告警规则,根据聚合后的数据产生报警信息,采用Alertmanager组件对报警信息进行管理。
S5,采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示。
本发明还提及一种计算机设备,包括存储器、处理器及存储在存储器上并并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法。
本发明还提及一种计算机可读存储介质,所述计算机可读存储介质有执行前述方法的计算机程序。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种适于容器化部署开源云平台的监控系统,其特征在于,所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件;
所述多个prometheus副本部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据;
所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB;
所述prometheus的PromQL查询语言组件用于设置告警规则,所述Prometheus server端基于告警规则,根据聚合后的数据产生报警信息;
所述Alertmanager组件用于对报警信息进行管理;
所述Grafana组件展示各种监控数据;
其中,所述Thanos组件包括部署在prometheus的服务端一侧充当代理服务器的ThanosSidecar组件,以及在另一端运行的一个能够横向拓展并且无状态的Thanos Querier组件;
所述Thanos Sidecar组件通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据;所述Thanos Querier组件用于对高可用部署的Prometheus的数据进行聚合;
所述Exporter组件包括用于监控openstack平台的prometheus-openstack-exporter组件和用于获取物理主机的监控信息的node-exporter组件。
2.根据权利要求1所述的适于容器化部署开源云平台的监控系统,其特征在于,所述监控系统还包括Openstack-Ceilometer组件,用于收集Openstack中发生的事件,为监控和计费以及其他服务提供数据支撑。
3.根据权利要求1所述的适于容器化部署开源云平台的监控系统,其特征在于,所述Alertmanager组件具体用于:
接收并处理来自Prometheus Server或其他客户端程序发送的告警信息,对告警信息进行去重、分组且路由到对应的通知方。
4.根据权利要求1所述的适于容器化部署开源云平台的监控系统,其特征在于,所述Alertmanager组件还用于采用分组机制将部分告警信息合并成一个通知。
5.根据权利要求1所述的适于容器化部署开源云平台的监控系统,其特征在于,所述Alertmanager组件根据垃圾告警数量自适应地调整抑制规则。
6.一种适于容器化部署开源云平台的监控方法,其特征在于,所述监控方法包括以下步骤:
将多个prometheus副本分别部署在云平台集群上,每个prometheus副本均包括与监控对象对应的Exporter组件,用于采集对应的监控数据;
采用Thanos组件整合部署在云平台集群上的多个相同的prometheus副本,对所有prometheus副本所采集到的监控数据进行去重和合并处理,并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据,将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB;
采用prometheus的PromQL查询语言组件设置告警规则;
基于前述告警规则,根据聚合后的数据产生报警信息,采用Alertmanager组件对报警信息进行管理;
采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示;
其中,所述Thanos组件包括部署在prometheus的服务端一侧充当代理服务器的ThanosSidecar组件,以及在另一端运行的一个能够横向拓展并且无状态的Thanos Querier组件;
所述Thanos Sidecar组件通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据;所述Thanos Querier组件用于对高可用部署的Prometheus的数据进行聚合;
所述Exporter组件包括用于监控openstack平台的prometheus-openstack-exporter组件和用于获取物理主机的监控信息的node-exporter组件。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求6所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质有执行权利要求6所述方法的计算机程序。
CN202010894479.3A 2020-08-31 2020-08-31 适于容器化部署开源云平台的监控系统和方法 Active CN112015753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010894479.3A CN112015753B (zh) 2020-08-31 2020-08-31 适于容器化部署开源云平台的监控系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010894479.3A CN112015753B (zh) 2020-08-31 2020-08-31 适于容器化部署开源云平台的监控系统和方法

Publications (2)

Publication Number Publication Date
CN112015753A CN112015753A (zh) 2020-12-01
CN112015753B true CN112015753B (zh) 2023-10-31

Family

ID=73503080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010894479.3A Active CN112015753B (zh) 2020-08-31 2020-08-31 适于容器化部署开源云平台的监控系统和方法

Country Status (1)

Country Link
CN (1) CN112015753B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559296A (zh) * 2020-12-23 2021-03-26 南方电网深圳数字电网研究院有限公司 基于prometheus的虚拟机监控方法和工具、电子设备、存储介质
CN112994935B (zh) * 2021-02-04 2022-06-17 烽火通信科技股份有限公司 prometheus管控方法、装置、设备及存储介质
CN114003312A (zh) * 2021-10-29 2022-02-01 广东智联蔚来科技有限公司 大数据服务组件管理方法、计算机装置及存储介质
CN114860510B (zh) * 2022-07-08 2022-12-02 飞狐信息技术(天津)有限公司 微服务系统的数据监控方法和系统
CN115499431A (zh) * 2022-07-29 2022-12-20 天翼云科技有限公司 一种公有云多资源池运维监控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108512719A (zh) * 2018-03-02 2018-09-07 南京易捷思达软件科技有限公司 一种基于开源云平台的一体化资源监控系统
CN110531987A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 基于Kubernetes集群的管理方法、装置及计算机可读存储介质
CN111427749A (zh) * 2020-04-01 2020-07-17 山东汇贸电子口岸有限公司 一种openstack环境下针对ironic服务的监控工具及方法
CN111459763A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 跨kubernetes集群监控系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200177373A1 (en) * 2018-11-14 2020-06-04 Royal Bank Of Canada System and method for storing contract data structures on permissioned distributed ledgers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108512719A (zh) * 2018-03-02 2018-09-07 南京易捷思达软件科技有限公司 一种基于开源云平台的一体化资源监控系统
CN110531987A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 基于Kubernetes集群的管理方法、装置及计算机可读存储介质
CN111427749A (zh) * 2020-04-01 2020-07-17 山东汇贸电子口岸有限公司 一种openstack环境下针对ironic服务的监控工具及方法
CN111459763A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 跨kubernetes集群监控系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Docker Swarm的台站分布式系统设计的技术可行性分析;陆武生等;《视听技术与应用呢》;第第250-251页卷;第250-251页 *

Also Published As

Publication number Publication date
CN112015753A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112015753B (zh) 适于容器化部署开源云平台的监控系统和方法
CN108512719B (zh) 一种基于开源云平台的一体化资源监控系统
Sukhija et al. Towards a framework for monitoring and analyzing high performance computing environments using kubernetes and prometheus
TWI650659B (zh) 一種關聯信息查詢方法、終端及設備
US10353918B2 (en) High availability and disaster recovery in large-scale data warehouse
CN111209011A (zh) 一种跨平台的容器云自动化部署系统
US8301759B2 (en) Monitoring agent programs in a distributed computing platform
EP2457153B1 (en) Method and system for power analysis
US8965912B2 (en) Integrating databases
CN112084098A (zh) 资源监控系统及工作方法
US7783743B1 (en) Methods and apparatus for processing electronic mail-related data
CN104657497A (zh) 一种基于分布式计算的海量用电信息并行计算系统及方法
US10936375B2 (en) Hyper-converged infrastructure (HCI) distributed monitoring system
KR20150118963A (ko) 큐 모니터링 및 시각화
US20190146839A1 (en) Distributed data platform resource allocator
US8850321B2 (en) Cross-domain business service management
Wang et al. Research on key technology of edge-node resource scheduling based on linear programming
US20100049559A1 (en) Method and system for focused and scalable event enrichment for complex ims service models
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN114567633A (zh) 一种支撑多栈数据库全生命周期的云平台系统及管理方法
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理系统
CN113312174A (zh) 一种信息查询方法、装置、电子设备及容器管理系统
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
EP2833300B1 (en) Power management of electronic devices configured to generate analytical reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221026

Address after: 100094 107-2, 1st Floor, Building 1, East Yard, No. 10, Xibeiwang East Road, Haidian District, Beijing

Applicant after: Beijing easy Star Technology Development Co.,Ltd.

Address before: 109-110, 1st Floor, Building 4, No. 168, Software Avenue, Yuhuatai District, Nanjing, Jiangsu Province, 210012

Applicant before: NANJING EASYSTACK SOFTWARE TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant