CN112015753B

CN112015753B - 适于容器化部署开源云平台的监控系统和方法

Info

Publication number: CN112015753B
Application number: CN202010894479.3A
Authority: CN
Inventors: 李向军; 成启亮; 吴俊生
Original assignee: Beijing Easy Star Technology Development Co ltd
Current assignee: Beijing Easy Star Technology Development Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-10-31
Anticipated expiration: 2040-08-31
Also published as: CN112015753A

Abstract

本发明公开了一种适于容器化部署开源云平台的监控系统，包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件；所述多个prometheus副本部署在云平台集群上，每个prometheus副本均包括与监控对象对应的Exporter组件，用于采集对应的监控数据；所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本，对所有prometheus副本所采集到的监控数据进行去重和合并处理，并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据。本发明能够对基于容器化的开源云的平台资源和平台物理环境信息等进行全方位监控，具备广适性，可扩展性及高可靠性。

Description

适于容器化部署开源云平台的监控系统和方法

技术领域

本发明涉及云监控技术领域，具体而言涉及一种适于容器化部署开源云平台的监控系统和方法。

背景技术

随着云计算的成熟，各种云平台尤其是开源云平台逐渐成为各机构的IT业务平台。作为IT基础结构，云平台承载着应用程序和数据，它的运行状态直接影响日常业务的进行，关系机构的正常运作。实时监控云平台的状态，及时发现云平台异常并产生告警，保证云平台的正常运行，变得极为重要。

开源云平台的监控主要包括对云平台资源和物理节点信息的实时监控。但针对容器化部署的开源云平台的监控方案通常是不全面的。

Zabbix是一款企业级的，开源的，分布式的监控套件。支持Agent、IPMI、SNMP、JMX等多种数据采集方式；具有自动发现(Auto registration)、LLD(Low-Level Discovery)等多种功能自动化、智能化部署监控系统。但是Zabbix对于基于Kubernetes容器化部署的云平台的监控具有局限性，Zabbix无法做到对云计算除主机外服务还有容器编排这种跨宿主机的对象持续的数据收集和监控。

prometheus是一款面向云原生应用程序的开源监控工具，其对于传统的监控系统的测试和告警模型进行彻底的颠覆，形成了基于中央化的规则计算、统一分析和告警的新模型。多维的数据模型，和灵活的查询语句；无依赖存储，Prometheus自带时序数据库TSDB用于本地存储，也能对接远程存储。Prometheus对于平台资源、以及平台物理环境的监控都十分全面。

在传统的监控部署模式中，需要针对不同的环境加载不同的配置，无法做到应用之间的相互隔离；部署过程十分复杂，需要大量的人力参与，也需要消耗大量的时间；部署的新版本的过程大部分都是手动的，难以回滚；很难通过增加新的实例来进行横向扩展；如果服务器停机需要手动的花费大量时间来恢复。

众多的开源监控软件提供的解决方案只能在部分层面解决监控问题，但不能从整体上、多方位的提供开源云平台的资源监控方案，且在部署方式上也需要发生改变。

专利号为CN111459763A的发明中公开了一种跨kubernetes集群监控系统及方法，包括：多个开阳Alcor集群、prometheus-out和grafana-out组件，prometheus-out和grafana-out组件部署于Alcor集群外；Alcor集群中安装prometheus、alertmanager和grafana监控组件，node-exporter、process-exporter和blackbox数据采集组件；prometheus-out组件从prometheus监控组件同步监控数据；grafana-out组件对监控数据进行展示。该方案解决了跨集群数据收集的监控和数据展示。然而，在该方案中，需要在每个集群中布设一组包括prometheus、alertmanager和grafana监控组件，node-exporter、process-exporter和blackbox数据采集组件在内的复杂组件，监控数据的计算过程各自独立，当集群数量增大时，整个监控系统将会变得极为复杂，难以维护，且难以实现多个集群数据的共享互通。该方案集群内部未解决prometheus高可用问题，且未使用thanos进行数据聚合，一旦集群内部prometheus组件出现问题，整个集群的监控将处于不可用状态。该方案未使用ceilometer对openstack平台进行监控，仅仅监控到kubernetes集群和节点健康状态，无法监控到虚拟资源，不适用于云平台监控。

发明内容

本发明针对现有技术中的不足，提供一种适于容器化部署开源云平台的监控系统和方法，对基于容器化的开源云的平台资源和平台物理环境信息等进行全方位监控，具备广适性，可扩展性及高可靠性。

为实现上述目的，本发明采用以下技术方案：

一种适于容器化部署开源云平台的监控系统，所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件；

所述多个prometheus副本部署在云平台集群上，每个prometheus副本均包括与监控对象对应的Exporter组件，用于采集对应的监控数据；

所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本，对所有prometheus副本所采集到的监控数据进行去重和合并处理，并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据，将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB；

所述prometheus的PromQL查询语言组件用于设置告警规则，所述Prometheusserver端基于告警规则，根据聚合后的数据产生报警信息；

所述Alertmanager组件用于对报警信息进行管理；

所述Grafana组件展示各种监控数据。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述监控系统还包括Openstack-Ceilometer组件，用于收集Openstack中发生的事件，为监控和计费以及其他服务提供数据支撑。

进一步地，所述Thanos组件包括部署在prometheus的服务端一侧充当代理服务器的Thanos Sidecar组件，以及在另一端运行的一个能够横向拓展并且无状态的ThanosQuerier组件；

所述Thanos Sidecar组件通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据；所述Thanos Querier组件用于对高可用部署的Prometheus的数据进行聚合。

进一步地，所述Exporter组件包括用于监控openstack平台的prometheus-openstack-exporter组件和用于获取物理主机的监控信息的node-exporter组件。

进一步地，所述Alertmanager组件具体用于：

接收并处理来自Prometheus Server或其他客户端程序发送的告警信息，对告警信息进行去重、分组且路由到对应的通知方。

进一步地，所述Alertmanager组件还用于采用分组机制将部分告警信息合并成一个通知。

进一步地，所述Alertmanager组件根据垃圾告警数量自适应地调整抑制规则。

基于前述监控系统，本发明还提及一种适于容器化部署开源云平台的监控方法，所述监控方法包括以下步骤：

将多个prometheus副本分别部署在云平台集群上，每个prometheus副本均包括与监控对象对应的Exporter组件，用于采集对应的监控数据；

采用Thanos组件整合部署在云平台集群上的多个相同的prometheus副本，对所有prometheus副本所采集到的监控数据进行去重和合并处理，并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据，将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB；

采用prometheus的PromQL查询语言组件设置告警规则；

基于前述告警规则，根据聚合后的数据产生报警信息，采用Alertmanager组件对报警信息进行管理；

采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示。

本发明还提及一种计算机设备，包括存储器、处理器及存储在存储器上并并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法。

本发明还提及一种计算机可读存储介质，所述计算机可读存储介质有执行前述方法的计算机程序。

本发明的有益效果是：

(1)对开源云平台的平台服务状态、平台资源及物理环境，进行多维度、全方位的一体化资源监控。自定义的告警规则，满足告警条件后则会触发告警通知。

(2)容器化部署云平台监控系统，实现自动化快速部署，管理更加便捷，高度的资源利用率与隔离，减小对环境的依赖，可移植性更强。

(3)监控系统的高可用，使单一副本出现故障不会影响监控系统的正常使用也不会造成数据丢失，支持负载均衡，减轻单节点服务压力，保证监控质量。

(4)使用Thanos对多副本prometheus数据进行聚合，统一查询入口，轻松备份和恢复数据。

附图说明

图1是本发明的适于容器化部署开源云平台的监控系统的结构示意图。

图2是本发明的采用thanos组件实现高可用prometheus的无缝集成的结构示意图。

图3是本发明的适于容器化部署开源云平台的监控系统的部署示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

结合图1，本发明提及一种适于容器化部署开源云平台的监控系统，所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheusserver端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件。

所述多个prometheus副本部署在云平台集群上，每个prometheus副本均包括与监控对象对应的Exporter组件，用于采集对应的监控数据。

所述Thanos组件用于整合部署在云平台集群上的多个相同的prometheus副本，对所有prometheus副本所采集到的监控数据进行去重和合并处理，并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据，将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB。

所述prometheus的PromQL查询语言组件用于设置告警规则，所述Prometheusserver端基于告警规则，根据聚合后的数据产生报警信息。

所述Alertmanager组件用于对报警信息进行管理。

所述Grafana组件展示各种监控数据。

开源云平台的监控系统对云平台的多种资源进行监控，需要完善的社区生态实现数据的采集，数据的存储，以及监控数据的统一的展示。

一、原理阐述

数据的采集由各监控对象所对应的Exporter组件，如prometheus-openstack-exporter负责openstack平台的监控，node-exporter负责获取物理主机的监控信息如cpu、内存、磁盘等。各个Exporter组件所采集到的数据由Prometheus统一抓取。

本发明基于Prometheus的时序数据库TSDB作为监控和性能指标信息的本地存储方案，使用Grafana作为可视化组件进行多样化展示。Prometheus通过自身丰富的Promql查询语言来设置告警规则，所产生的告警发送给Alertmanager组件.Alertmanager从Prometheus server端接收到告警后，会进行数据去重，分组，路由到对端的接收方式，并发出告警。Alertmanager可配置的告警发送方式有：电子邮件、slack、企业微信和钉钉等。本发明的技术路线实现图如图1所示。

(1)Prometheus：是一套开源的完整的监控解决方案，其对传统监控系统的测试和告警模型进行了彻底的颠覆，形成了基于中央化的规则计算，统一分析和告警的新模型。Prometheus核心部分只有一个单独的二进制文件不存在任何的第三方库的依赖，其所有采集的数据均以Metric的形式保存在内置的时间序列数据库中(TSDB)，而且prometheus能够高效的处理所监控任务产生的大量数据。Prometheus内置的PromQL能够实现对监控数据的查询聚合，同时PromQL也被应用于Grafana数据可视化以及告警当中。

(2)Grafana：是一款跨平台的开源的度量分析和可视化工具，官方库中拥有丰富的仪表盘和图表等多种展现方式，在同一图表中混合使用不同的数据源，可以基于每个查询指定数据源，甚至自定义数据源，Grafana拥有众多插件，可针对不同开源云平台安装不同的插件，方便采集各种监控数据Alertmanager。

(3)Alertmanager：Alertmanager是一款独立的组件，负责接收并处理来自Prometheus Server(也可以是其他客户端程序)的告警信息，同时对告警信息进行分组且路由到正确的通知方。Alertmanager的分组机制可以将详细的告警信息合并成一个通知，避免一次性接受大量告警通知，而无法对问题进行快速定位。Alertmanager也可以合理的设置抑制规则可以减少垃圾告警的产生。

(4)Ceilometer：Ceilometer是Openstack中的一个子项目，用于收集Openstack中发生的事件，然后为监控和计费以及其他服务提供数据支撑。Ceilometer能够对节点上的云主机进行监控，获取各个云主机的CPU，网络磁盘等监控信息。

二、实现高可用

监控系统高可用的实现。以Prometheus为例，一个云平台集群部署多副本Prometheus，即使单点故障也不会影响到整个集群的数据监控，最终保证整个监控系统的高可靠性。本发明使用Thanos来整合多个相同的prometheus副本，对所有副本上所采集到的监控数据进行去重和合并，从单个端点查询和聚合所有Prometheus副本所采集到的数据，而且可以轻松地备份个归档数据。图2是Prometheus的高可用示例示，就Thanos与prometheus之间的联系进行说明。

Thanos Sidecar组件部署在prometheus的服务端一侧充当代理服务器，通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据。在另一端运行的是一个可以横向拓展并且无状态的Thanos Querier组件，可以实现对高可用部署的Prometheus的数据进行聚合，从而解决全局视图和高可用问题。

三、部署方式

在三节点Kubernetes平台中安装Prometheus Operator，以声明式的方式自定义Prometheus以及Exporter等其他监控系统组件，自动化部署监控系统。

结合图3，本监控系统的所有组件均以容器化的方式进行部署，使用Kubernetes管理和扩展容器化应用，将构成应用的容器按逻辑单位进行分组以便于管理和发现。

一体化资源监控系统可实现对以下资源的全方位监控：

(1)对云平台的整体健康状况、资源使用状况、平台服务健康状态、物理节点状态、存储集群状态从全局的角度进行监控。

(2)对开源云平台的虚拟机的资源进行监控。包括云主机的运行状态、云主机的CPU/内存使用情况和利用率、磁盘使用状态、网络IO状态、云硬盘的磁盘使用状态、健康程度等资源进行监控，并支持多种告警通知机制。

(3)对存储集群的状态进行监控，包括对各状态OSD的数量、存储集群实际可用量、存储池使用率、存储集群裸容量和存储集群容量使用率、存储集群性能等多方面进行监控。

(4)对物理节点状态进行监控，包括各节点的CPU和内存使用率、节点磁盘IO使用情况、节点磁盘信息、节点网络数据流量等方面的监控。其中节点磁盘信息包括磁盘类型、磁盘型号、磁盘健康状态、磁盘容量及使用量、raid信息等。

(5)对RabitMQ进行监控，包括对RabbitMQ集群状态、RabbitMQ节点状态、RabbitMQ状态趋势、RabbitMQ资源等进行监控。

(6)各监控项根据之前设置的告警阈值，一旦监控信息满足告警条件，则会产生告警、告警通过邮件方式发送给通知方。告警界面支持所有的告警信息展示，历史告警查阅等功能。

容器化部署开源云平台监控系统包括且不限于以上监控项目。并支持自定义监控设置，支持不同开源云平台的特定开发。

S1，将多个prometheus副本分别部署在云平台集群上，每个prometheus副本均包括与监控对象对应的Exporter组件，用于采集对应的监控数据。

S2，采用Thanos组件整合部署在云平台集群上的多个相同的prometheus副本，对所有prometheus副本所采集到的监控数据进行去重和合并处理，并从单个端点查询和聚合所有Prometheus副本所采集到的监控数据，将聚合后的数据保存至内置在prometheus中的时间序列数据库TSDB。

S3，采用prometheus的PromQL查询语言组件设置告警规则。

S4，基于前述告警规则，根据聚合后的数据产生报警信息，采用Alertmanager组件对报警信息进行管理。

S5，采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种适于容器化部署开源云平台的监控系统，其特征在于，所述监控系统包括多个prometheus副本、Thanos组件、prometheus的时间序列数据库TSDB、Prometheus server端、prometheus的Promql查询语言组件、Alertmanager组件、Grafana组件和Thanos组件；

所述prometheus的PromQL查询语言组件用于设置告警规则，所述Prometheus server端基于告警规则，根据聚合后的数据产生报警信息；

所述Alertmanager组件用于对报警信息进行管理；

所述Grafana组件展示各种监控数据；

其中，所述Thanos组件包括部署在prometheus的服务端一侧充当代理服务器的ThanosSidecar组件，以及在另一端运行的一个能够横向拓展并且无状态的Thanos Querier组件；

所述Thanos Sidecar组件通过Thanos规范化的基于gRPC的Store API提供Prometheus的本地数据；所述Thanos Querier组件用于对高可用部署的Prometheus的数据进行聚合；

所述Exporter组件包括用于监控openstack平台的prometheus-openstack-exporter组件和用于获取物理主机的监控信息的node-exporter组件。

2.根据权利要求1所述的适于容器化部署开源云平台的监控系统，其特征在于，所述监控系统还包括Openstack-Ceilometer组件，用于收集Openstack中发生的事件，为监控和计费以及其他服务提供数据支撑。

3.根据权利要求1所述的适于容器化部署开源云平台的监控系统，其特征在于，所述Alertmanager组件具体用于：

4.根据权利要求1所述的适于容器化部署开源云平台的监控系统，其特征在于，所述Alertmanager组件还用于采用分组机制将部分告警信息合并成一个通知。

5.根据权利要求1所述的适于容器化部署开源云平台的监控系统，其特征在于，所述Alertmanager组件根据垃圾告警数量自适应地调整抑制规则。

6.一种适于容器化部署开源云平台的监控方法，其特征在于，所述监控方法包括以下步骤：

采用prometheus的PromQL查询语言组件设置告警规则；

采用Grafana组件从prometheus-PromQL组件、Alertmanager组件和openstack-Ceilometer组件中获取各种监控数据并进行展示；

7.一种计算机设备，包括存储器、处理器及存储在存储器上并并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求6所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质有执行权利要求6所述方法的计算机程序。