CN110247810B - 一种收集容器服务监控数据的系统及方法 - Google Patents

一种收集容器服务监控数据的系统及方法 Download PDF

Info

Publication number
CN110247810B
CN110247810B CN201910614984.5A CN201910614984A CN110247810B CN 110247810 B CN110247810 B CN 110247810B CN 201910614984 A CN201910614984 A CN 201910614984A CN 110247810 B CN110247810 B CN 110247810B
Authority
CN
China
Prior art keywords
monitoring
container service
cluster
data
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910614984.5A
Other languages
English (en)
Other versions
CN110247810A (zh
Inventor
孙思清
石光银
蔡卫卫
高传集
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201910614984.5A priority Critical patent/CN110247810B/zh
Publication of CN110247810A publication Critical patent/CN110247810A/zh
Application granted granted Critical
Publication of CN110247810B publication Critical patent/CN110247810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种收集容器服务监控数据的系统及方法,属于容器服务,本发明要解决的技术问题为如何使运维人员及时查看容器服务的状态以及资源使用情况,并能够针对异常情况给与告警,保证运维人员及时响应,采用的技术方案为:该系统包括容器服务代理器、监控告警平台、容器服务集群管理平台和监控服务器;容器服务代理器用于连接监控告警平台并获取监控数据,同时实现监控数据的推送、缓存、封装以及清理,并能够获取集群状态以及提供定时任务;监控告警平台用于收集集群的监控数据并基于容器服务的监控数据配置告警规则,用户通过监控告警平台能够查看容器服务的监控数据及告警信息。本发明还公开了一种收集容器服务监控数据的方法。

Description

一种收集容器服务监控数据的系统及方法
技术领域
本发明涉及容器服务,具体地说是一种收集容器服务监控数据的系统及方法。
背景技术
容器技术是比较流行的提供微服务的PaaS(平台即服务)技术,而Kubernetes(容器编排管理组件)是近期最流行的容器编排管理技术,各互联网厂商相继推出了基于Kubernetes的公有云容器服务,如何收集容器服务的监控数据,如何收集容器服务中具体容器的资源使用数据一直都是一个难题。
Kubernetes是一个全新的基于容器技术的分布式架构领先方案,在Docker技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列功能,提高了大规模容器集群管理的便捷性和高可用性。
浪潮云基于Kubernetes提供了容器服务,用户可以在浪潮云购买容器服务,可以通过监控界面查看容器服务的状态、资源使用等情况;随着浪潮云容器服务的用户越来越多,故运维人员如何及时查看容器服务的状态以及资源使用情况,并能够针对异常情况给与告警,确保运维人员及时响应,降低容器服务出异常的几率,保证容器服务的高可用性是目前现有技术中急需解决的技术问题。
专利号为CN109743199A的专利文献公开了一种基于微服务的容器化管理系统,包括Kubernetes集群,Kubernetes集群中设置有多个节点,每个节点上设置有至少一个docker容器,其中,docker容器为微服务的运行承载平台;日志组件,用于采集各docker容器所承载的微服务的日志信息,并根据日志信息生成可视化数据;监控组件,用于获取各docker容器所承载的微服务的监控数据,并根据监控数据生成时间序列数据,时间序列数据用于展示微服务的运行。但是该技术方案不能确保运维人员及时查看容器服务的状态以及资源使用情况,并能够针对异常情况给与告警,保证运维人员及时响应。
专利号为CN108156225A的专利文献公开了一种基于容器云平台的微应用监控系统和方法,包括监控数据收集装置,监控数据收集装置包括顺序连接的容器运行时后台适配器、监控数据合并器和监控收集代理装置;容器运行时后台适配器从容器运行时后台按照容器收集监控数据;监控数据合并器将属于同一微应用的多个容器的监控数据合并为一条监控数据;监控收集代理装置负责与监控汇总服务器通信,将同一主机的监控数据按照微应用分类汇报;监控配置服务器负责接收用户的配置管理请求,发送配置信息给容器运行时后台适配器、监控数据合并器、监控收集代理和监控汇总服务器。该技术方案能够减少减少监控收集代理的个数,从而提高系统利用效率,但是不能确保运维人员及时查看容器服务的状态以及资源使用情况,并能够针对异常情况给与告警,保证运维人员及时响应。
发明内容
本发明的技术任务是提供一种收集容器服务监控数据的系统及方法,来解决如何使运维人员及时查看容器服务的状态以及资源使用情况,并能够针对异常情况给与告警,保证运维人员及时响应,降低容器服务出异常的几率,保证容器服务的高可用性的问题。
本发明的技术任务是按以下方式实现的,一种收集容器服务监控数据的系统,包括,
容器服务代理器(Cks-agent),用于连接监控告警平台并获取监控数据,同时实现监控数据的推送、缓存、封装以及清理,并能够获取集群状态以及提供定时任务;容器服务代理器用于监控数据抽取推送,不存放任何元数据;
监控告警平台,用于收集集群的监控数据并基于容器服务的监控数据配置告警规则,用户通过监控告警平台能够查看容器服务的监控数据及告警信息;
容器服务集群管理平台(cks-core-api),用于获取集群数据;
监控服务器(prometheus),用于提供所有块k8s集群的监控数据。
作为优选,所述容器服务代理器包括,
数据封装单元,用于提供封装符合监控告警平台的数据格式,并发给对应的监控消息服务器;
数据推送单元,用于给监控告警平台推送对接了监控告警平台的集群监控数据;
Kafka连接单元,用于通过监控消息服务器完成与监控告警平台的无缝对接;
数据获取单元,用于调用容器服务集群管理平台的api获取集群数据;
集群状态获取单元,用于调用总的监控服务器服务获取k8s集群的监控数据;
定时任务执行单元,用于提供定任务,定时推送对接监控告警平台的监控数据;
集群数据缓存单元,用于缓存集群的元数据,提升处理性能;
集群数据缓存清理单元,用于定时清理集群缓存数据。
更优地,所述监控服务器包括若个用户注册的容器服务(Prom-data-k8s)子单元,容器服务子单元用于把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号并获取对应用户的监控数据。
更优地,所述监控告警平台包括监控消息服务器(kafka),监控消息服务器用于完成容器服务代理器与监控告警平台的无缝对接。
一种收集容器服务监控数据的方法,该方法的具体步骤如下:
S1、用户创建容器服务时选择是否对接监控告警平台;
若是,则执行步骤S2;
S2、用户创建的k8s集群的容器服务集群管理平台定期向总的监控服务器推送监控数据;
S3、容器服务代理器给监控告警平台推送对接了监控平台的集群监控数据;
S4、容器服务代理器调用容器服务集群管理平台获取集群数据并将集群数据缓存起来,容器服务代理器提供一个缓冲集群数据的功能;
S5、容器服务代理器每隔指定时间(比如3分钟)会获取对接监控告警平台的集群的监控数据,并推送给监控告警平台的监控消息服务器,容器服务代理器提供一个定时任务;
S6、容器服务代理器提供封装符合监控告警平台的数据格式,发给对应的监控消息服务器;
S7、用户通过监控告警平台获取容器服务的监控数据,并基于容器服务的监控数据配置告警规则,查看告警信息。
作为优选,所述步骤S7中用户通过监控告警平台获取容器服务的监控数据的具体步骤如下:
S701、用户购买容器服务时,把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号(Prom-data-k8s-n);
S702、购买容器服务成功后,监控服务器从注册的容器服务中抽取监控数据;
S703、容器服务代理器(cks-agent)定时从监控服务器中抽取监控数据,并推送给监控消息服务器(kafka);
S704、监控告警平台定期从监控消息服务器抽取监控数据推送到监控告警平台;
S705、用户通过监控告警平台获取容器服务的监控数据。
更优地,所述容器服务的监控数据包括:集群维度监控项、节点维度监控项和命名空间维度监控项。
更优地,所述集群维度监控项包括集群的状态、集群的容器服务机器节点(node)的个数及状态、近24小时CPU的使用率统计、近24小时内存(memory)使用率统计、集群容器组(pod)的个数及状态、集群持久化存储卷声明(pvc)的个数及状态以及集群持久化存储卷(pv)的个数及状态;
节点维度监控项包括容器服务机器节点(node)的根磁盘使用情况、容器服务机器节点近24小时CPU的使用率统计及CPU的使用情况、容器服务机器节点近24小时内存(memory)使用率统计及内存使用情况、容器服务机器节点容器组(pod)的个数及状态;
命名空间维度监控项包括每个命名空间的CPU使用情况、每个命名空间内存(memory)使用情况、每个命名空间的容器组(pod)的健康情况、每个命名空间的持久化存储卷声明(pvc)的健康情况。
更优地,所述容器服务的告警信息包括:集群维度告警项、节点维度告警项、命名空间维度告警项和POD维度告警项。
更优地,所述集群维度告警项包括CPU的使用率超高90%、内存(memory)使用率超过90%、集群所有节点本地存储超过90%、命名空间的资源使用超过90%、集群容器组(pod)的状态异常、集群持久化存储卷声明(pvc)的状态异常以及集群持久化存储卷(pv)的状态异常;
节点维度告警项包括容器服务机器节点(node)的CPU使用率超高90%、容器服务机器节点(node)的内存使用率超过90%以及容器服务机器节点(node)本地存储使用情况超过90%;
命名空间维度告警项包括命名空间的资源配额(resourcequota)超过90%;
POD维度告警项包括容器组(pod)的CPU使用率超过90%以及容器组(pod)的内存使用率超过90%。
本发明的收集容器服务监控数据的系统及方法具有以下优点:
(一)、本发明为浪潮云提供一个收集容器服务监控数据的技术方案,实现了浪潮云收集到容器服务的状态、资源使用等数据,基于这些监控数据,可以设置告警规则,对容器服务异常情况及时进行告警信息,有效提升浪潮云容器服务的高可用性;
(二)、本发明在浪潮公有云,可以让用户在容器服务监控界面查看容器的状态以及容器资源使用情况,并可以针对这些监控数据做告警规格,当容器服务监控数据异常时,即可发出告警,让租户及时处理容器服务的异常情况,保证容器服务的高可用;
(三)、本发明的容器服务代理器分别与容器服务集群管理品台、监控服务器和监控告警平台无缝对接,实现监控数据的传输;
(四)、容器服务代理器不保存元数据,仅是缓存集群数据,提升处理性能;
(五)、容器服务代理器定时推送监控数据到监控告警平台且推送的数据复合监控告警平台的数据格式要求,实现了用户通过监控告警平台查看容器服务的监控数据,并基于容器服务的监控数据配置告警规则,查看告警信息。
附图说明
下面结合附图对本发明进一步说明。
附图1为收集容器服务监控数据的系统的结构框图;
附图2为收集容器服务监控数据的方法的流程框图;
附图3为用户通过监控告警平台获取容器服务的监控数据的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种收集容器服务监控数据的系统及方法作以下详细地说明。
实施例1:
如附图1所示,本发明的收集容器服务监控数据系统,该系统主要包括容器服务代理器(Cks-agent)、监控告警平台、容器服务集群管理平台(cks-co re-api)和监控服务器(prometheus)。
其中,容器服务代理器(Cks-agent)用于连接监控告警平台并获取监控数据,同时实现监控数据的推送、缓存、封装以及清理,并能够获取集群状态以及提供定时任务;容器服务代理器用于监控数据抽取推送,不存放任何元数据;容器服务代理器主要包括数据封装单元、数据推送单元、Kafka连接单元、数据获取单元、集群状态获取单元、定时任务执行单元、集群数据缓存单元以及集群数据缓存清理单元;
其中,数据封装单元用于提供封装符合监控告警平台的数据格式,并发给对应的监控消息服务器;
数据推送单元用于给监控告警平台推送对接了监控告警平台的集群监控数据;
Kafka连接单元用于通过监控消息服务器完成与监控告警平台的无缝对接;
数据获取单元用于调用容器服务集群管理平台的api获取集群数据;
集群状态获取单元用于调用总的监控服务器服务获取k8s集群的监控数据;
定时任务执行单元用于提供定任务,定时推送对接监控告警平台的监控数据;
集群数据缓存单元用于缓存集群的元数据,提升处理性能;
集群数据缓存清理单元用于定时清理集群缓存数据。
监控告警平台用于收集集群的监控数据并基于容器服务的监控数据配置告警规则,用户通过监控告警平台能够查看容器服务的监控数据及告警信息;监控告警平台包括监控消息服务器(kafka),监控消息服务器用于完成容器服务代理器与监控告警平台的无缝对接。
容器服务集群管理平台(cks-core-api)用于获取集群数据;
监控服务器(prometheus),用于提供所有块k8s集群的监控数据。监控服务器包括若个用户注册的容器服务(Prom-data-k8s)子单元,容器服务子单元用于把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号并获取对应用户的监控数据。
实施例2:
如附图2所示,本发明的收集容器服务监控数据的方法,该方法的具体步骤如下:
S1、用户创建容器服务时选择是否对接监控告警平台;
若是,则执行步骤S2;
S2、用户创建的k8s集群的容器服务集群管理平台定期向总的监控服务器推送监控数据;
S3、容器服务代理器给监控告警平台推送对接了监控平台的集群监控数据;
S4、容器服务代理器调用容器服务集群管理平台获取集群数据并将集群数据缓存起来,容器服务代理器提供一个缓冲集群数据的功能;
S5、容器服务代理器每隔指定时间(比如3分钟)会获取对接监控告警平台的集群的监控数据,并推送给监控告警平台的监控消息服务器,容器服务代理器提供一个定时任务;
S6、容器服务代理器提供封装符合监控告警平台的数据格式,发给对应的监控消息服务器;
S7、用户通过监控告警平台获取容器服务的监控数据,并基于容器服务的监控数据配置告警规则,查看告警信息;如附图3所示,具体步骤如下:
S701、用户购买容器服务时,把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号(Prom-data-k8s-n);
S702、购买容器服务成功后,监控服务器从注册的容器服务中抽取监控数据;
S703、容器服务代理器(cks-agent)定时从监控服务器中抽取监控数据,并推送给监控消息服务器(kafka);
S704、监控告警平台定期从监控消息服务器抽取监控数据推送到监控告警平台;
S705、用户通过监控告警平台获取容器服务的监控数据。
其中,容器服务的监控数据包括:集群维度监控项、节点维度监控项和命名空间维度监控项。集群维度监控项包括集群的状态、集群的容器服务机器节点(node)的个数及状态、近24小时CPU的使用率统计、近24小时内存(memory)使用率统计、集群容器组(pod)的个数及状态、集群持久化存储卷声明(pvc)的个数及状态以及集群持久化存储卷(pv)的个数及状态;
节点维度监控项包括容器服务机器节点(node)的根磁盘使用情况、容器服务机器节点近24小时CPU的使用率统计及CPU的使用情况、容器服务机器节点近24小时内存(memory)使用率统计及内存使用情况、容器服务机器节点容器组(pod)的个数及状态;
命名空间维度监控项包括每个命名空间的CPU使用情况、每个命名空间内存(memory)使用情况、每个命名空间的容器组(pod)的健康情况、每个命名空间的持久化存储卷声明(pvc)的健康情况。
容器服务监控项如下表所示:
Figure BDA0002123632920000071
容器服务的告警信息包括:集群维度告警项、节点维度告警项、命名空间维度告警项和POD维度告警项。集群维度告警项包括CPU的使用率超高90%、内存(memory)使用率超过90%、集群所有节点本地存储超过90%、命名空间的资源使用超过90%、集群容器组(pod)的状态异常、集群持久化存储卷声明(pvc)的状态异常以及集群持久化存储卷(pv)的状态异常;
节点维度告警项包括容器服务机器节点(node)的CPU使用率超高90%、容器服务机器节点(node)的内存使用率超过90%以及容器服务机器节点(node)本地存储使用情况超过90%;
命名空间维度告警项包括命名空间的资源配额(resourcequota)超过90%;
POD维度告警项包括容器组(pod)的CPU使用率超过90%以及容器组(pod)的内存使用率超过90%。
容器服务告警项如下表所示:
Figure BDA0002123632920000081
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种收集容器服务监控数据的系统,其特征在于,包括,
容器服务代理器,用于连接监控告警平台并获取监控数据,同时实现监控数据的推送、缓存、封装以及清理,并能够获取集群状态以及提供定时任务;
监控告警平台,用于收集集群的监控数据并基于容器服务的监控数据配置告警规则,用户通过监控告警平台能够查看容器服务的监控数据及告警信息;
容器服务集群管理平台,用于获取集群数据;
监控服务器,用于提供所有块k8s集群的监控数据;
其中,容器服务代理器包括,
数据封装单元,用于提供封装符合监控告警平台的数据格式,并发给对应的监控消息服务器;
数据推送单元,用于给监控告警平台推送对接了监控告警平台的集群监控数据;
Kafka连接单元,用于通过监控消息服务器完成与监控告警平台的无缝对接;
数据获取单元,用于调用容器服务集群管理平台的api获取集群数据;
集群状态获取单元,用于调用总的监控服务器服务获取k8s集群的监控数据;
定时任务执行单元,用于提供定时任务,定时推送对接监控告警平台的监控数据;
集群数据缓存单元,用于缓存集群的元数据,提升处理性能;
集群数据缓存清理单元,用于定时清理集群缓存数据;
该系统的工作过程具体如下:
S1、用户创建容器服务时选择是否对接监控告警平台;
若是,则执行步骤S2;
S2、用户创建的k8s集群的容器服务集群管理平台定期向总的监控服务器推送监控数据;
S3、容器服务代理器给监控告警平台推送对接了监控告警平台的集群监控数据;
S4、容器服务代理器调用容器服务集群管理平台获取集群数据并将集群数据缓存起来,容器服务代理器提供一个缓冲集群数据的功能;
S5、容器服务代理器每隔指定时间会获取对接监控告警平台的集群的监控数据,并推送给监控告警平台的监控消息服务器,容器服务代理器提供一个定时任务;
S6、容器服务代理器提供封装符合监控告警平台的数据格式,发给对应的监控消息服务器;
S7、用户通过监控告警平台获取容器服务的监控数据,并基于容器服务的监控数据配置告警规则,查看告警信息;
其中,监控服务器包括若干个用户注册的容器服务子单元,容器服务子单元用于把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号并获取对应用户的监控数据;
监控告警平台包括监控消息服务器,监控消息服务器用于完成容器服务代理器与监控告警平台的无缝对接。
2.一种基于如权利要求1所述的系统收集容器服务监控数据的方法,其特征在于,该方法的具体步骤如下:
S1、用户创建容器服务时选择是否对接监控告警平台;
若是,则执行步骤S2;
S2、用户创建的k8s集群的容器服务集群管理平台定期向总的监控服务器推送监控数据;
S3、容器服务代理器给监控告警平台推送对接了监控告警平台的集群监控数据;
S4、容器服务代理器调用容器服务集群管理平台获取集群数据并将集群数据缓存起来,容器服务代理器提供一个缓冲集群数据的功能;
S5、容器服务代理器每隔指定时间会获取对接监控告警平台的集群的监控数据,并推送给监控告警平台的监控消息服务器,容器服务代理器提供一个定时任务;
S6、容器服务代理器提供封装符合监控告警平台的数据格式,发给对应的监控消息服务器;
S7、用户通过监控告警平台获取容器服务的监控数据,并基于容器服务的监控数据配置告警规则,查看告警信息;其中,用户通过监控告警平台获取容器服务的监控数据的具体步骤如下:
S701、用户购买容器服务时,把购买的容器服务编号注册到监控服务器,即获得该容器服务对应的注册的容器服务编号;
S702、购买容器服务成功后,监控服务器从注册的容器服务中抽取监控数据;
S703、容器服务代理器定时从监控服务器中抽取监控数据,并推送给监控消息服务器;
S704、监控告警平台定期从监控消息服务器抽取监控数据推送到监控告警平台;
S705、用户通过监控告警平台获取容器服务的监控数据。
3.根据权利要求2所述的收集容器服务监控数据的方法,其特征在于,所述容器服务的监控数据包括:集群维度监控项、节点维度监控项和命名空间维度监控项。
4.根据权利要求3所述的收集容器服务监控数据的方法,其特征在于,所述集群维度监控项包括集群的状态、集群的容器服务机器节点的个数及状态、近24小时CPU的使用率统计、近24小时内存使用率统计、集群容器组的个数及状态、集群持久化存储卷声明的个数及状态以及集群持久化存储卷的个数及状态;
节点维度监控项包括容器服务机器节点的根磁盘使用情况、容器服务机器节点近24小时CPU的使用率统计及CPU的使用情况、容器服务机器节点近24小时内存使用率统计及内存使用情况、容器服务机器节点容器组的个数及状态;
命名空间维度监控项包括每个命名空间的CPU使用情况、每个命名空间内存使用情况、每个命名空间的容器组的健康情况、每个命名空间的持久化存储卷声明的健康情况。
5.根据权利要求4所述的收集容器服务监控数据的方法,其特征在于,所述容器服务的告警信息包括:集群维度告警项、节点维度告警项、命名空间维度告警项和POD维度告警项。
6.根据权利要求5所述的收集容器服务监控数据的方法,其特征在于,所述集群维度告警项包括CPU的使用率超过90%、内存使用率超过90%、集群所有节点本地存储超过90%、命名空间的资源使用超过90%、集群容器组的状态异常、集群持久化存储卷声明的状态异常以及集群持久化存储卷的状态异常;
节点维度告警项包括容器服务机器节点的CPU使用率超过90%、容器服务机器节点的内存使用率超过90%以及容器服务机器节点本地存储使用情况超过90%;
命名空间维度告警项包括命名空间的资源配额超过90%;
POD维度告警项包括容器组的CPU使用率超过90%以及容器组的内存使用率超过90%。
CN201910614984.5A 2019-07-09 2019-07-09 一种收集容器服务监控数据的系统及方法 Active CN110247810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614984.5A CN110247810B (zh) 2019-07-09 2019-07-09 一种收集容器服务监控数据的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614984.5A CN110247810B (zh) 2019-07-09 2019-07-09 一种收集容器服务监控数据的系统及方法

Publications (2)

Publication Number Publication Date
CN110247810A CN110247810A (zh) 2019-09-17
CN110247810B true CN110247810B (zh) 2023-03-28

Family

ID=67891427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614984.5A Active CN110247810B (zh) 2019-07-09 2019-07-09 一种收集容器服务监控数据的系统及方法

Country Status (1)

Country Link
CN (1) CN110247810B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532114B (zh) * 2019-09-04 2022-06-14 浪潮云信息技术股份公司 基于消息队列的定时任务管理系统及分配方法
CN110661657B (zh) * 2019-09-23 2022-07-08 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用的网络安全监控方法及其系统
CN110825580A (zh) * 2019-10-11 2020-02-21 紫光云(南京)数字技术有限公司 Kuberrnates Pod健康监控方法
CN110932935A (zh) * 2019-11-26 2020-03-27 深圳前海微众银行股份有限公司 资源控制方法、装置、设备及计算机存储介质
CN111064781A (zh) * 2019-12-10 2020-04-24 北京金山云网络技术有限公司 多容器集群监控数据的采集方法、装置及电子设备
CN111290908A (zh) * 2020-01-15 2020-06-16 四川万益能源科技有限公司 一种Kafka数据消费积压情况监控报警方法
CN111277460B (zh) * 2020-01-17 2022-02-25 江苏满运软件科技有限公司 一种ZooKeeper容器化控制的方法、装置、存储介质及电子设备
CN111459749A (zh) * 2020-03-18 2020-07-28 平安科技(深圳)有限公司 基于Prometheus的私有云监控方法、装置、计算机设备及存储介质
CN111459763B (zh) * 2020-04-03 2023-10-24 中国建设银行股份有限公司 跨kubernetes集群监控系统及方法
CN111597087A (zh) * 2020-05-15 2020-08-28 山东汇贸电子口岸有限公司 一种制作云监控指标的方法
CN111813575B (zh) * 2020-07-06 2024-06-25 珠海西山居数字科技有限公司 一种基于容器服务的定制化清理方法及系统
CN112035221B (zh) * 2020-11-03 2021-01-26 江苏苏宁银行股份有限公司 一种基于定时调度的PaaS平台无效容器清理方法和系统
CN112817827A (zh) * 2021-01-22 2021-05-18 中国银联股份有限公司 运维方法、装置、服务器、设备、系统及介质
CN113535513B (zh) * 2021-07-02 2024-05-24 厦门点触科技股份有限公司 一种基于微服务架构的全球后台服务端运行状态监控系统及方法
CN113791864B (zh) * 2021-09-08 2024-03-26 国电南瑞科技股份有限公司 一种基于容器和微服务化功能的监控系统及其构建方法
CN114297172B (zh) * 2022-01-04 2022-07-12 北京乐讯科技有限公司 一种基于云原生的分布式文件系统
CN114900449B (zh) * 2022-03-30 2024-02-23 网宿科技股份有限公司 一种资源信息管理方法、系统及装置
CN115269341B (zh) * 2022-09-26 2023-01-03 浩鲸云计算科技股份有限公司 一种gpu虚拟化资源使用率的多维度监控方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697153A (zh) * 2018-12-28 2019-04-30 浙江省公众信息产业有限公司 监控方法、监控系统及计算机可读存储介质
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
CN109828886A (zh) * 2018-12-29 2019-05-31 南京南瑞信息通信科技有限公司 一种容器云环境下的ci/cd监控方法和系统
WO2019113216A1 (en) * 2017-12-05 2019-06-13 Agile Stacks Inc. Machine generated automation code for software development and infrastructure operations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019113216A1 (en) * 2017-12-05 2019-06-13 Agile Stacks Inc. Machine generated automation code for software development and infrastructure operations
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
CN109697153A (zh) * 2018-12-28 2019-04-30 浙江省公众信息产业有限公司 监控方法、监控系统及计算机可读存储介质
CN109828886A (zh) * 2018-12-29 2019-05-31 南京南瑞信息通信科技有限公司 一种容器云环境下的ci/cd监控方法和系统

Also Published As

Publication number Publication date
CN110247810A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110247810B (zh) 一种收集容器服务监控数据的系统及方法
CN110502494B (zh) 日志处理方法、装置、计算机设备及存储介质
CN111913818B (zh) 一种确定服务间依赖关系的方法及相关装置
CN104090891B (zh) 数据处理方法、装置及系统
CN103235820B (zh) 一种集群系统中数据存储方法与装置
CN108156225B (zh) 基于容器云平台的微应用监控系统和方法
CN112118174B (zh) 软件定义数据网关
CN103067297B (zh) 一种基于资源消耗预测的动态负载均衡方法及装置
CN108134830A (zh) 基于消息队列的负载均衡方法、系统、装置及存储介质
CN104933114A (zh) 一种海量日志管理云平台
CN109739919A (zh) 一种用于电力系统的前置机和采集系统
CN105429791A (zh) 一种分布式服务状态检测器及方法
CN111625419B (zh) 一种日志采集方法、系统、设备及计算机可读存储介质
CN104410512A (zh) 一种适用于云计算的资源监控告警框架及其方法
CN108540353A (zh) 一种网络节点的监测方法与系统
CN114328124A (zh) 用于业务监控的方法以及装置、存储介质、电子装置
CN110674101A (zh) 文件系统的数据处理方法、装置和云服务器
CN101645736A (zh) 历史性能数据的有效性检测方法及装置
CN111352726A (zh) 一种基于容器化微服务的流数据处理方法及装置
CN107547643A (zh) 一种负载分担方法和装置
CN106210101B (zh) 消息管理系统及消息管理方法
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN102655480B (zh) 相似邮件处理系统和方法
CN112187543A (zh) 一种云平台事件监控系统、方法及电子设备
CN114584593A (zh) 一种基于集群状态感知的数据采集系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Inspur cloud Information Technology Co.,Ltd.

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant before: Tidal Cloud Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant