CN112162821A - 容器集群资源监视方法、装置及系统 - Google Patents

容器集群资源监视方法、装置及系统 Download PDF

Info

Publication number
CN112162821A
CN112162821A CN202011024477.5A CN202011024477A CN112162821A CN 112162821 A CN112162821 A CN 112162821A CN 202011024477 A CN202011024477 A CN 202011024477A CN 112162821 A CN112162821 A CN 112162821A
Authority
CN
China
Prior art keywords
monitoring
information
acquisition
cluster
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011024477.5A
Other languages
English (en)
Other versions
CN112162821B (zh
Inventor
武书舟
夏文岳
黄运豪
王佳琪
马欣欣
杨清波
刘�东
陶蕾
崔灿
张鹏
肖飞
王治华
陈书里
狄方春
张周杰
冯琼
陈宏福
高峰
韩政
苏凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011024477.5A priority Critical patent/CN112162821B/zh
Publication of CN112162821A publication Critical patent/CN112162821A/zh
Application granted granted Critical
Publication of CN112162821B publication Critical patent/CN112162821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于容器集群领域,公开了一种容器集群资源监视方法、装置及系统,包括获取监视指标;根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;发送采集信息至服务端,采集信息用于容器集群资源的监视。通过采用插件模式使本发明监视方法具有更好的拓展性,可根据需求扩展监视指标,能够适配业务领域与公共组件等监视指标的实时监视,进而进行定制化的监视,同时,采集信息的统一上送也使监视指标的监视过程更便于管理。

Description

容器集群资源监视方法、装置及系统
技术领域
本发明属于容器集群领域,涉及一种容器集群资源监视方法、装置及系统。
背景技术
随着调控云平台建设的开展和深入,基于不同生产环境、业务应用场景、技术实现架构的软件部署量显著提升,传统的大型系统软件不断被拆分,轻量级容器集群也被广泛应用于各种业务系统中。容器集群实现了技术标准化、容器隔离安全性以及容器的轻量级等特点,对系统架构解耦,使应用的版本迭代与后期维护更加稳定快捷,提升研发效率,规范了系统应用治理。
容器集群的广泛使用使得集群监视也逐渐被重视,国内外也出现了针对容器集群监视的核心产品,包括Kubernetes原生的监视API、Prometheus以及cAdvisor-Heapster模式的监视体系。现有对集群监视技术中,比较常用的为Prometheus方案。Prometheus是由SoundCloud开发的开源监视报警系统和时序列数据库(TSDB)。其具备高维度数据模型,自定义查询语言,适配Grafana进行可视化展示,同时提供告警信息的发送和报告的生成。
但是,Prometheus是具备较为完善的开源系统监视和警报工具包。但是由于其设计本身原因,Prometheus对其对数据的准确性要求不高,同时Prometheus监视方案针对更多的是容器以及集群指标的监视,对于业务本身指标兼容性较低。综上,现有的集群监视技术存在对于业务程序关键指标采集兼容性不高的问题。
发明内容
本发明的目的在于克服上述现有技术中,集群监视技术存在对于业务程序关键指标采集兼容性不高的缺点,提供一种容器集群资源监视方法、装置及系统。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种容器集群资源监视方法,应用于容器集群内的集群节点,所述方法包括以下步骤:
获取监视指标;
根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;
发送采集信息至服务端,采集信息用于容器集群资源的监视。
本发明第一方面容器集群资源监视方法进一步的改进在于:
还包括:
发送心跳信息至服务端;所述心跳信息用于触发服务端检验当前集群节点,并当当前集群节点属于预设监视范围时,生成注册成功信息并发送集群节点;
接收并根据服务端下发的注册成功信息,存储集群节点的节点信息。
还包括:
通过预设的采集插件,根据预设采集周期,对服务进程状态信息及服务详情信息进行采集,并将采集结果汇集为汇集信息;
根据预设提交周期,周期的发送汇集信息至服务端,所述汇集信息用于进行容器集群的监视。
还包括:
接收服务端下发的进程守护信息;
根据进程守护信息,周期的检查进程守护信息指定的进程的状态,当存在离线进程时,重启离线进程并获取重启结果;
将离线进程信息及重启结果发送至服务端。
还包括:
接收服务端下发的进程控制信息;
根据进程控制信息,切换进程控制信息指定的进程的工作状态;
获取切换结果,将切换结果发送至服务端。
发送采集信息至服务端的具体方法为:
获取监视指标的配置信息,根据配置信息配置监视指标的采集信息,发送配置后的采集信息至服务端。
还包括:
接收服务端下发的监视任务;
根据监视任务获取监视指标以及采集周期;
通过目标采集插件进行监视指标的采集的具体方法为:通过目标采集插件,根据采集周期对监视指标进行采集。
本发明第二方面,一种容器集群资源监视方法,应用于服务端,所述监视方法包括以下步骤:
发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送;
接收集群节点发送的采集信息,将采集信息进行可视化显示。
本发明第二方面容器集群资源监视方法进一步的改进在于:
还包括:
通过prometheus的预测机制并根据采集信息,得到监视指标的预测信息,将预测信息进行可视化显示,并根据预测信息进行监视告警和/或运维部署。
还包括:
发送监视对象和采集周期至容器集群内的集群节点;所述监视对象和采集周期用于触发集群节点通过目标采集插件,根据采集周期对监视对象的监视指标进行采集;
发送提交周期至容器集群内的集群节点;所述提交周期用于触发集群节点根据提交周期发送采集信息;
发送进程守护信息至容器集群内的集群节点;所述进程守护信息用于触发集群节点周期的检查进程守护信息指定的进程的状态,当存在离线进程时,重启离线进程并获取重启结果;并将离线进程信息及重启结果发送;
接收集群节点发送的离线进程信息及重启结果;
发送进程控制信息至容器集群内的集群节点;所述进程控制信息用于触发集群节点切换进程控制信息指定的进程的工作状态;获取切换结果并发送;
接收集群节点发送的切换结果。
本发明第三方面,一种容器集群资源监视方法,包括以下步骤:
服务端发送监视指标至容器集群内的集群节点;
集群节点获取监视指标,根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息,并发送采集信息至服务端;
服务端接收集群节点发送的采集信息,并将采集信息进行可视化显示。
本发明第四方面,一种容器集群资源监视装置,应用于容器集群内的集群节点,所述监视装置包括:
指标获取模块,用于获取监视指标;
信息采集模块,用于根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;以及
发送模块,用于发送采集信息至服务端,采集信息用于容器集群资源的监视。
本发明第五方面,一种容器集群资源监视装置,应用于服务端,所述监视装置包括:
指标配置模块,用于发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送;以及
监视模块,用于接收集群节点发送的采集信息,将采集信息进行可视化显示。
本发明第六方面,一种容器集群资源监视系统,包括服务端以及若干集群节点;若干集群节点均与服务端均连接;
所述集群节点内设置本发明第四方面所述的监视装置;
所述服务端内设置本发明第五方面所述的监视装置。
与现有技术相比,本发明具有以下有益效果:
本发明容器集群资源监视方法,通过预先设置若干与监视指标匹配的采集插件,继而在获取监视指标之后,根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息,然后将采集信息至服务端用于容器集群资源的监视。通过预设采集插件的模式,可以根据业务需求及公共组件的不同自行配置,极大的适配了业务领域与公共组件监视指标的实时监视,可根据需求扩展对监视指标进行定制化的监视,并且,基于采集插件的插件特性,可以随时插拔,进而实现对新增监视指标的采集以及当前无需监视的指标的暂停采集。同时,采集信息的统一上送也使监视指标的监视过程更便于管理。
进一步的,设置心跳交互,通过心跳交互机制,保证采集信心的数据的实时性与准确性,设置了监视任务下发机制,实现了监视任务与指标的实时下发与修改,设置了远程控制方式,实现了进程守护以及进程控制的功能。
附图说明
图1为本发明各实施例的实施环境示意图;
图2为本发明一实施例的容器集群资源监视方法流程框图;
图3为本发明再一实施例的容器集群资源监视方法流程框图;
图4为本发明再一实施例的容器集群资源监视方法流程框图;
图5为本发明一实施例的服务端与集群节点信息交互流程示意图;
图6为本发明实施例的以调控云平台为例的采集插件应用示意图;
图7为本发明一实施例的容器集群资源监视装置结构框图;
图8为本发明再一实施例的容器集群资源监视装置结构框图;
图9为本发明一实施例的容器集群资源监视系统结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,需要说明的是本发明各实施例中涉及的相关术语。
Kubernetes:一个开源的容器编排引擎,支持自动化部署、大规模可伸缩、应用容器化管理等。
容器(Container):Docker镜像的一个实例。容器表示单个应用程序、进程或服务的运行,它由Docker镜像、执行环境和一组标准指令所组成。
命名空间(Namespaces):命名空间(namespace)是Kubernetes提供的一种组织机制,类似于多租户的概念,用于给集群中的任何对象组进行分类、筛选和管理。每一个添加到Kubernetes集群的工作负载必须放在一个命名空间中。
节点(Node):Node是Kubernetes中的一个工作机器,通常是一个虚拟机或者物理机。
部署(Deployments):Deployment是Kubernetes提供了一种更加简单的更新的Pod副本管理机制,保证pod的数量和健康。功能与Replication Controller基本一致,可以看做新一代的Replication Controller。
容器组(Pods):Kubernetes中的最小调度单位,一个逻辑概念,通常指一组共享数据存储和网络等资源的容器。
下面结合附图对本发明做进一步详细描述:
参见图1,示出了本发明各实施例涉及的一种实施环境,包括服务端及容器集群。服务端可以是一台服务器,或者是由若干台服务器组成的服务器集群,容器集群可以是一台服务器,或者是由若干台服务器组成的服务器集群,容器集群内设置若干集群节点,集群节点是容器集群中的一个工作机器,通常是一个虚拟机或者物理机。服务端与容器集群内的集群节点通过有线或无线网络连接,与集群节点进行数据交互。
参见图2,示出了本发明一个实施例中提供的容器集群资源监视方法的方法流程,本实施例以本发明容器集群资源监视方法应用于图1所示实时环境中为例说明,该容器集群资源监视方法应用于容器集群内的集群节点,包括以下步骤。
S101:获取监视指标。
监视指标一般根据业务或监视需求,有时会将部分的监视指标或基础的监视指标提前预设在集群节点内部,以便实时进行监视指标的采集。针对随着业务发展而增加的监视需求,会有一些新添加的监视指标,此时,可以通过服务端下发的方式进行监视指标的补充。
或者,一开始集群节点内部并不预设监视指标,所有的监视指标均由服务端下发,通过服务端全程控制监视指标。
S102:根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息。
具体的,对集群节点进行的统一监视,一般来说监视指标可以分为主机维度、容器维度和应用维度。主机维度包括节点的CPU、内存、存储、网络等资源的使用情况。容器维度主要监视集群中运行容器的情况,包括容器CPU、内存、存储、网络的资源使用情况。应用维度主要监视容器中的应用程序以及节点上公共组件,包括进程服务状态、进程资源占用情况、公共组件状态等,主要对自定义的应用进行监视,监视指标根据应用自定义。
而本发明中根据监视指标的类型,提前预设了各监视指标的采集插件,目标采集插件就是指在若干采集插件中选择出当前监视指标对应的采集插件,进而通过采集插件进行各监视指标的采集。其中,采集插件包括采集组件和模型组件,模型组件用于定义监视指标,而采集组件用于模型组件的定义进行监视指标的采集,例如,以节点资源采集为例,首先通过模型组件建立指标模型,定义节点资源采集的基本信息,包括资源采集指标名(CPU使用率、内存当前使用值)、指标值、指标单位(%,byte)以及采集周期等。采集组件则根据模型建立的需采集数据以及采集频率,定制采集方案,如对节点资源则采用Sigar组件中对节点资源采集的响应接口,对于系统信息则采用读取系统文件(如/etc/issue来获取系统版本信息),定制采集方案后,按照配置的采集周期,定时获取监视数据。
可见,通过采集插件的设置,用户可以根据自己的需求设计对应指标的采集插件,进而完成任意指标的采集,尤其是业务指标等之前的监视方法不方便采集的指标,在本发明中只需设计业务指标对应的采集插件,即可很方便的进行采集。
这里的监视指标是一个泛指概念,其中,可以是多个指标,对此不作数量限制,每个监视指标均预设有对应的采集插件进行采集。
S103:发送采集信息至服务端,采集信息用于容器集群资源的监视。
具体的,集群节点将所有的采集信息进行汇总管理并进行安全有效的统一上送,发送至服务端,服务端根据采集信息进行容器集群资源的监视。
综上所述,本发明容器集群资源监视方法,集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息,插件模式使本发明监视方法具有更好的拓展性,而统一的采集上送方案也使监视指标的监视过程更便于管理,能够适配业务领域与公共组件等监视指标的实时监视,可根据需求扩展监视指标,进而进行定制化的监视。
参见图3,示出了本发明再一个实施例中提供的容器集群资源监视方法的方法流程,本实施例以本发明容器集群资源监视方法应用于图1所示实时环境中为例说明,该容器集群资源监视方法应用于服务端,包括以下步骤。
S201:发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送。
对应于图2所示的容器集群资源监视方法,本实施例中,通过服务端进行监视指标的控制,即通过服务端将监视指标发送至容器集群内的集群节点,该监视指标能够用来触发集群节点进行监视指标的采集,并且触发集群节点将采集到的采集信息发送至服务端。
S202:接收集群节点发送的采集信息,将采集信息进行可视化显示。
具体的,服务端接收到采集信息后,首先进行采集信息的数据清洗、数据处理和数据存储,然后基于存储的采集信息,对采集信息进行统计分析,如系统的CPU负荷、网络负荷、进程资源、内存、硬盘使用情况进行统计分析,继而得到表格、曲线或饼图等多种形式的显示信息,然后将采集信息以表格、曲线、饼图多种等方式表现出来,以实现用户对容器集群资源的实时监视。同时,对外提供统一的查询搜索API,以便用户通过各终端实时访问存储的采集数据。
参见图4,示出了本发明再一个实施例中提供的容器集群资源监视方法的方法流程,本实施例以本发明容器集群资源监视方法应用于图1所示实时环境中为例说明,该容器集群资源监视方法包括以下步骤。
S301:服务端发送监视指标至容器集群内的集群节点。
参见图2和3所示实施例中的描述,服务端与集群节点建立通讯,通过服务端生成并发送监视指标至集群节点,告知集群节点需要进行采集的指标。
S302:集群节点获取监视指标,根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息,并发送采集信息至服务端。
集群节点接收服务端发送的监视指标,在该监视指标的触发下,集群节点首先分析该监视指标的类型,比如该监视指标为主机维度的监视指标,如集群节点的CPU、内存、存储、网络等资源的使用情况指标,那么集群节点遍历预设的若干采集插件,找到监视指标对应的采集插件,通过该采集插件进行监视指标的采集,得到采集信息。得到采集信息之后,集群节点首先将所有监视指标的采集信息进行初步的汇总,保存在上送队列中,并将汇总完成的采集信息发送至服务端。
具体的,发送采集信息至服务端时,获取监视指标的配置信息,根据配置信息配置监视指标的采集信息,发送配置后的采集信息至服务端。其中,配置信息用于采集信息的采集周期、上送周期、预备采集指标详情等指标,根据特定的监视对象,有指定的针对数据库的配置包括数据库连接url、用户名、密码以及数据库类型,针对进程的配置包括进程关键字、进程所属用户以及进程所属节点。
对应的,服务端需要发送监视指标的配置信息至集群节点。
S303:服务端接收集群节点发送的采集信息,并将采集信息进行可视化显示。
参见图3所示实施例的描述,服务端接收到采集信息后,首先进行采集信息的数据清洗、数据处理和数据存储,这里选择分布式存储方式,极大的利用存储空间,然后基于存储的采集信息,对采集信息进行统计分析,然后将采集信息以表格、曲线、饼图多种等方式表现出来,以实现用户对容器集群资源的实时监视。
参见图5,优选的,为了更好的实现容器集群资源的监视,本实施例中,服务端与集群节点之间还设计了心跳交互步骤、指标采集交互步骤、指标提交交互步骤、下发任务交互步骤以及进程管理交互步骤。
其中,心跳交互步骤具体包括:集群节点部署启动成功后,集群节点立即向服务端发送心跳信息,包括集群节点的节点信息、系统详情等指标信息。
对应的,服务端在获取到心跳信息后,判断当前集群节点IP是否属于监视配置的IP网段,如果符合校验规则,则将节点信息存储于关系数据库中,并返回注册成功信息。对应的,集群节点根据注册成功信息将节点信息存储于缓存中。
通过上述的心跳机制,保证服务端与集群节点的稳定连接,进而确保采集信息的实时性与准确性。
指标采集交互步骤具体包括:集群节点通过预设的若干采集插件,根据预设采集周期,对服务进程状态信息及服务详情信息进行采集,并将采集结果汇集为汇集信息。优选的,集群节点还根据预设采集周期,对服务进程状态信息及服务详情信息进行采集,并将采集结果汇集为汇集信息,存储于提交队列中等待提交。其中,服务进程状态信息主要包括服务进程的CPU使用率、内存使用率、打开文件数、运行时间等资源使用信息,以及进程关键字、PID、启动时间、运行状态等运行时间等指标;服务详情信息采集主要包括服务的USI,端口、节点、服务提供者、服务消费者、服务调用历史记录等信息。
值得注意的是,这里的预设采集周期可以是通过服务端下发的。对应的,服务端发送监视对象和采集周期至容器集群内的集群节点。
指标提交交互步骤具体包括:集群节点根据预设提交周期,周期的发送采集信息及汇集信息至服务端,所述采集信息和汇集信息共同用于进行容器集群的监视。具体的,当集群节点检测到提交队列中有数据存在,并且符合预设提交周期时间,则开始提交采集信息及汇集信息。首先,检测上送路径是否畅通,上送路径畅通则将提交队列中的数据压缩后开始上传。对应的,服务端在接收到上送数据后,解压并进行数据处理,包括对数据的过滤、分索引存储等。并且,若数据未能正常上传,集群节点将其临时存放于缓存中,并周期性的尝试提交。
值得注意的是,这里的预设提交周期可以是通过服务端下发的。对应的,服务端发送提交周期至容器集群内的集群节点。
下发任务交互步骤具体包括:服务端会下发两种任务,第一种周期性的下发监视进程列表,对应的,集群节点根据进程列表轮询集群节点的进程状态并采集对应的监视指标。第二种会根据业务逻辑,自定义的不定时下发采集任务,如进程状态查询、进程远程启动、进程远程停止等操作。对应的,集群节点根据采集任务获取对应的监视对象和监视指标并进行采集。
集群节点和服务端在启动初期会建立通信连接,当出现连接失败时,采集端周期性的进行重连,当集群节点接收到服务端下发的任务时,则会立即开始采集响应的监视指标数据,待指标采集完毕后,即刻向服务端提交采集的数据。
进程管理交互步骤包括进程守护交互步骤和进程控制交互步骤,二者之间的区别在于服务端下发的信息不同。
具体的,进程守护主要是对系统关键进程提供的保障机制,集群节点首先向服务端获取进程守护信息,如配置了进程守护逻辑的进程列表,对应的,服务端生成进程列表发送至集群节点。
同时,集群节点接收进程列表,并将配置了进程守护逻辑的进程信息存入内存中,并周期性的检查其状态,如果发现离线进程,则尝试进行进程的重启,同时向服务端上报进程的异常状态以及重启后的结果,对应的,服务端接收集群节点发送的离线进程信息及重启结果。若进程重启失败,可人工使用Web可视化进程管理工具进行恢复。
进程控制主要是为了支撑服务端对进程、服务和应用的进程进行控制,主要包括对进程的启停、重启、开启/关闭监视、开启/关闭进程守护功能等操作,远程控制属于实时响应,对于服务端下发的进程控制信息需实时获取、分析、执行并反馈执行结果。
进程控制交互步骤具体包括:服务端下发进程控制信息至集群节点。对应的,集群节点接收服务端下发的进程控制信息,根据进程控制信息,切换进程控制信息指定的进程的工作状态,并获取切换结果,将切换结果发送至服务端。对应的,服务端接收集群节点发送的切换结果。
优选的,本实施例中,在步骤S303中,服务端接收集群节点发送的采集信息之后,服务端还通过prometheus的预测机制并根据采集信息,得到监视指标的预测信息,比如可以进行预测部分监视指标的走向,如磁盘使用空间指标,进而将预测信息进行可视化显示,并根据预测信息进行监视告警和运维部署。
综上所述,本发明容器集群资源监视方法,在现有的容器集群监视体系上建立了基于服务端-集群节点架构的监视方案,整合了Prometheus与cAdvisor传统的容器监视方案,并且通过增加了插件模式,适配了业务领域与公共组件监视指标的实时监视,可根据需求扩展对任意指标进行定制化的监视。同时,通过心跳机制,保证数据的实时性与准确性;通过配置下发机制,实现了监视任务与指标的实时下发与修改;通过远程控制方式,实现了对进程守护以及进程控制功能。实现容器集群、节点、应用信息采集并统一存储,实现了容器集群资源动态监视、监视指标动态拓展与实时配置的功能。
参见图6,本发明再一实施例中,以调控云平台为例,说明了本发明容器集群资源监视方法的具体应用过程。
具体的,调控云平台实时反应电网运行状态,以支撑电网在线分析应用业务,需要7*24小时不间断的提供服务,对于电网业务的可靠性和稳定性要求较高。对于核心服务以及关键进程需要进行重点关注,在监视进程、服务状态的基础上,需要提供对其远程控制以及掉线守护等功能。“调控云”是面向电网调度业务的云服务平台,分为Iaas、Paas及Saas三层,Iaas平台基于虚拟化、分布式存储等技术构造计算资源池、存储资源池,进而为Paas及Saas层提供高效、灵活、安全的计算和存储服务。PaaS平台以公共服务组件为支撑,构建模型、运行、实时三个数据平台以及大数据平台,为应用提供公共支撑、基础数据、计算分析、交互展示等PaaS服务。Saas平台分为基础应用、统计分析、业务场景,并提供响应的门户首页和云桌面。
针对调控云三层体系架构,监视指标主要通过Collector主动采集以及API被动采集两种方式,其中,Collector主动采集就是指本发明容器集群资源监视方法中的采集插件的采集方法,进而根据指标设定的采集周期以及采集方式,通过采集插件将符合监视数据规范的监视数据统一采集、分析和展现。
具体的,Iaas层监视。主要是对硬件资源的采集,对其资源采集的插件主要采用Collector主动采集,包括对CPU、内存、存储、网络以及DNS设备关键指标的采集插件,如CPU采集插件、内存采集插件、存储采集插件、网络采集插件和DNS设备采集插件等,进而针对集群虚拟机以及物理机进行统一的资源采集。
Paas层监视。Paas层主要分为公共资源管理、模型数据平台、运行数据平台、实时数据平台和大数据平台。对各模块的监视主要涉及应用级指标,以公共资源管理为例,分为对调控云服务总线(服务列表、服务消费者、服务提供者、服务消费记录等信息)、消息总线(消费信息列表、消息堆积列表)、访问日志(应用访问次数、访问频次)、以及文件服务(文件列表、文件上送下载记录)等公共资源组件的核心指标监视,设计权限管理指标插件、服务总线指标插件、元数据管理指标插件、汇集监视指标插件以及数据监视指标插件等采集插件,Paas层的监视更多的为针对业务应用层级指标的监视。
Saas层监视。Saas层结合Iaas资源层指标以及Paas应用层指标采集的数据,提供统计分析、业务场景等上级展示服务,同时Saas层指标也会纳入采集管理范畴,设计智能搜索指标插件、负荷分析指标插件、运行管理指标插件以及故障分析指标插件等采集插件,并且提供于场景分析,如全景监视和运行管理等功能。
基于调控云的集群监视指标除了对资源指标的监视,还将调控云中的应用本身以及应用运行业务逻辑的指标也纳入采集管理范畴,对应用运行状态、运行业务指标进行管理,支持动态时序数据和静态指标。同时,基于采集插件的扩展性实现可插拔,对于新增应用或服务,可以通过对采集插件的重写或者直接调用API接口,按照一定的监视数据规范将其采集上送。同时,采集插件可以通过外部配置启动或者停止,对于下线的服务或应用可以暂时停止其指标采集。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
参见图7,示出了本发明再一实施例提供的一种容器集群资源监视装置,该容器集群资源监视装置可以通过软件、硬件或者两者结合实现为集群节点的一部分或全部,包括指标获取模块、信息采集模块以及发送模块。
其中,指标获取模块用于获取监视指标;信息采集模块用于根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;发送模块用于发送采集信息至服务端,采集信息用于容器集群资源的监视。
指标获取模块内设置指标获取模块、远程管理获取模块以及指标配置获取模块,指标获取模块内预设监视指标和/或采集周期,并且能够用于接收服务端下发的监视指标,以及服务端下发的采集周期;指标配置获取模块用于接收服务端下发的监视指标的配置信息;远程管理获取模块用于接收服务端下发的远程管理信息,远程管理信息包括进程控制信息以及进程守护信息。通过该指标获取模块,集群节点可获取服务端下发的各种监视信息,进而动态更新监视任务。
信息采集模块内设置若干的采集插件,采集插件包括模型组件以及插件组件,模型组件用于定义监视指标,采集组件用于根据模型组件的定义进行监视指标的采集,信息采集模块可以针对多个平台组件提供统一的监视管理接口,采集插件具有良好的拓展性,可根据需求动态增加,比如,设置了容器监视采集插件、资源监视采集插件、数据库监视采集插件、分布式公共组件采集插件、web容器采集插件、应用程序采集插件以及用户自定义采集插件等等,支持Prometheus等容器指标的监视,Sigar等资源指标监视,数据库、分布式公共组件(Zookeeper,Kafka)、Web容器等组件指标监视,应用运行过程中的关键运行指标与业务指标以及用户自定义的指标。插件模式使监视装置具有更好的拓展性,而统一的采集上送方案也使指标的监视过程更便于管理。
发送模块内设置心跳模块、汇集模块以及上送模块。作为发送模块,数据按照固定周期、固定模式采集并将采集的指标数据上送,主要分为心跳周期、汇集周期和上送周期三个周期,分别负责监视装置与服务端的连接、数据采集的汇集以及数据上送三个功能。
优选的,本实施例中,监视装置还包括资源监视模块,监视装置自带数据采集功能,其核心组件为Sigar,Sigar是Hyperic HQ产品的基础包,是Hyperic HQ主要的数据收集组件,它用来从许多平台收集系统和处理信息,可采集系统资源、进程信息、文件系统探测和度量、网络接口探测、网络路由和连接表等信息。资源监视模块将其封装管理,支持监视指标的控制、管理及上送方式等配置。
优选的,本实施例中,监视装置还包括远程管理模块,远程管理模块用于根据进程守护信息,守护进程守护信息指定的进程;还用于根据进程控制信息,进行对进程的启停、重启、开启/关闭监视、开启/关闭进程守护功能等操作。
参见图8,示出了本发明再一实施例提供的一种容器集群资源监视装置,该容器集群资源监视装置可以通过软件、硬件或者两者结合实现为服务端的一部分或全部,包括指标配置模块以及监视模块。
其中,指标配置模块用于发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送;监视模块用于接收集群节点发送的采集信息,将采集信息进行可视化显示。
优选的,本实施例中,该监视装置还包括心跳响应模块、监视任务下发模块、采集周期下发模块、监视指标配置模块、数据清洗模块、数据处理模块、分布式存储模块、API模块、集中运监模块以及监视告警模块。
其中,心跳响应模块用于响应心跳模块发送的心跳信息,并发送注册成功信息至心跳模块;监视任务下发模块用于发送监视任务至集群节点的指标获取模块,指标获取模块分析监视任务并执行;采集周期下发模块用于下发监事指标的采集周期至指标获取模块;监视指标配置模块用于下发监视指标的配置信息至监视指标配置模块;数据清洗模块用于对采集信息进行数据清洗,清除部分无效数据或错误数据;数据处理模块用于对数据实现汇集、聚合、预测等操作,为指标的可视化展示提供数据基础,分布式存储模块用于将采集信息进行分布式存储;API模块对外提供统一的查询搜索API;集中运监模块对指标进行关联管理,实现关键指标的集中展现,实现远程启停进程、监视关键服务等辅助运维功能,监视告警模块用于通过prometheus的预测机制,得到监视指标的预测信息,并根据预测信息进行监视告警和/或运维部署。
参见图9,示出了本发明再一实施例提供的一种容器集群资源监视系统,该容器集群资源监视系统包括服务端以及与服务端均连接的容器集群内的若干集群节点;其中,集群节点包括图7所述的容器集群资源监视装置,服务端包括图8所述的容器集群资源监视装置。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (14)

1.一种容器集群资源监视方法,其特征在于,应用于容器集群内的集群节点,所述方法包括以下步骤:
获取监视指标;
根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;
发送采集信息至服务端,采集信息用于容器集群资源的监视。
2.根据权利要求1所述的容器集群资源监视方法,其特征在于,还包括:
发送心跳信息至服务端;所述心跳信息用于触发服务端检验当前集群节点,并当当前集群节点属于预设监视范围时,生成注册成功信息并发送集群节点;
接收并根据服务端下发的注册成功信息,存储集群节点的节点信息。
3.根据权利要求1所述的容器集群资源监视方法,其特征在于,还包括:
通过预设的采集插件,根据预设采集周期,对服务进程状态信息及服务详情信息进行采集,并将采集结果汇集为汇集信息;
根据预设提交周期,周期的发送汇集信息至服务端,所述汇集信息用于进行容器集群的监视。
4.根据权利要求1所述的容器集群资源监视方法,其特征在于,还包括:
接收服务端下发的进程守护信息;
根据进程守护信息,周期的检查进程守护信息指定的进程的状态,当存在离线进程时,重启离线进程并获取重启结果;
将离线进程信息及重启结果发送至服务端。
5.根据权利要求1所述的容器集群资源监视方法,其特征在于,还包括:
接收服务端下发的进程控制信息;
根据进程控制信息,切换进程控制信息指定的进程的工作状态;
获取切换结果,将切换结果发送至服务端。
6.根据权利要求1所述的容器集群资源监视方法,其特征在于,发送采集信息至服务端的具体方法为:
获取监视指标的配置信息,根据配置信息配置监视指标的采集信息,发送配置后的采集信息至服务端。
7.根据权利要求1所述的容器集群资源监视方法,其特征在于,还包括:
接收服务端下发的监视任务;
根据监视任务获取监视指标以及采集周期;
通过目标采集插件进行监视指标的采集的具体方法为:通过目标采集插件,根据采集周期对监视指标进行采集。
8.一种容器集群资源监视方法,其特征在于,应用于服务端,所述监视方法包括以下步骤:
发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送;
接收集群节点发送的采集信息,将采集信息进行可视化显示。
9.根据权利要求8所述的容器集群资源监视方法,其特征在于,还包括:
通过prometheus的预测机制并根据采集信息,得到监视指标的预测信息,将预测信息进行可视化显示,并根据预测信息进行监视告警和/或运维部署。
10.根据权利要求8所述的容器集群资源监视方法,其特征在于,还包括:
发送监视对象和采集周期至容器集群内的集群节点;所述监视对象和采集周期用于触发集群节点通过目标采集插件,根据采集周期对监视对象的监视指标进行采集;
发送提交周期至容器集群内的集群节点;所述提交周期用于触发集群节点根据提交周期发送采集信息;
发送进程守护信息至容器集群内的集群节点;所述进程守护信息用于触发集群节点周期的检查进程守护信息指定的进程的状态,当存在离线进程时,重启离线进程并获取重启结果;并将离线进程信息及重启结果发送;
接收集群节点发送的离线进程信息及重启结果;
发送进程控制信息至容器集群内的集群节点;所述进程控制信息用于触发集群节点切换进程控制信息指定的进程的工作状态;获取切换结果并发送;
接收集群节点发送的切换结果。
11.一种容器集群资源监视方法,其特征在于,包括以下步骤:
服务端发送监视指标至容器集群内的集群节点;
集群节点获取监视指标,根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息,并发送采集信息至服务端;
服务端接收集群节点发送的采集信息,并将采集信息进行可视化显示。
12.一种容器集群资源监视装置,其特征在于,应用于容器集群内的集群节点,所述监视装置包括:
指标获取模块,用于获取监视指标;
信息采集模块,用于根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息;以及
发送模块,用于发送采集信息至服务端,采集信息用于容器集群资源的监视。
13.一种容器集群资源监视装置,其特征在于,应用于服务端,所述监视装置包括:
指标配置模块,用于发送监视指标至容器集群内的集群节点;所述监视指标用于触发集群节点根据监视指标的类型,在预设的若干采集插件中选取目标采集插件,通过目标采集插件对监视指标进行采集,得到采集信息并发送;以及
监视模块,用于接收集群节点发送的采集信息,将采集信息进行可视化显示。
14.一种容器集群资源监视系统,其特征在于,包括服务端以及若干集群节点;若干集群节点均与服务端均连接;
所述集群节点内设置权利要求12所述的监视装置;
所述服务端内设置权利要求13所述的监视装置。
CN202011024477.5A 2020-09-25 2020-09-25 容器集群资源监视方法、装置及系统 Active CN112162821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011024477.5A CN112162821B (zh) 2020-09-25 2020-09-25 容器集群资源监视方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011024477.5A CN112162821B (zh) 2020-09-25 2020-09-25 容器集群资源监视方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112162821A true CN112162821A (zh) 2021-01-01
CN112162821B CN112162821B (zh) 2022-04-26

Family

ID=73864023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011024477.5A Active CN112162821B (zh) 2020-09-25 2020-09-25 容器集群资源监视方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112162821B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702438A (zh) * 2020-12-31 2021-04-23 广州霍斯通电气股份有限公司 一种基于高压环网柜的远程通讯测温处理方法及系统
CN112764989A (zh) * 2021-01-12 2021-05-07 湖北宸威玺链信息技术有限公司 一种用于监控应用服务启停时间的方法
CN113157795A (zh) * 2021-05-18 2021-07-23 国网宁夏电力有限公司 适用于移动应用的电网调控运行多源数据建模与管理系统
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置
CN114363175A (zh) * 2022-03-01 2022-04-15 北京金山云网络技术有限公司 集群监控方法、装置和电子设备
CN114598624A (zh) * 2022-03-15 2022-06-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108363610A (zh) * 2018-02-09 2018-08-03 华为技术有限公司 一种虚拟机监控插件的控制方法及设备
KR101987664B1 (ko) * 2018-07-19 2019-06-11 나무기술 주식회사 클라우드 플랫폼에서 복수의 클러스터 및 어플리케이션을 모니터링하는 방법
CN110798375A (zh) * 2019-09-29 2020-02-14 烽火通信科技股份有限公司 一种增强容器集群高可用性的监控方法、系统及终端设备
CN111124820A (zh) * 2019-12-13 2020-05-08 郑州威科姆科技股份有限公司 一种实现操作系统及进程资源离线型监视和分析的方法
CN111190790A (zh) * 2019-12-17 2020-05-22 西安交通大学 一种基于峰值预测的云计算集群监控方法及系统
CN111459763A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 跨kubernetes集群监控系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108363610A (zh) * 2018-02-09 2018-08-03 华为技术有限公司 一种虚拟机监控插件的控制方法及设备
KR101987664B1 (ko) * 2018-07-19 2019-06-11 나무기술 주식회사 클라우드 플랫폼에서 복수의 클러스터 및 어플리케이션을 모니터링하는 방법
CN110798375A (zh) * 2019-09-29 2020-02-14 烽火通信科技股份有限公司 一种增强容器集群高可用性的监控方法、系统及终端设备
CN111124820A (zh) * 2019-12-13 2020-05-08 郑州威科姆科技股份有限公司 一种实现操作系统及进程资源离线型监视和分析的方法
CN111190790A (zh) * 2019-12-17 2020-05-22 西安交通大学 一种基于峰值预测的云计算集群监控方法及系统
CN111459763A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 跨kubernetes集群监控系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702438A (zh) * 2020-12-31 2021-04-23 广州霍斯通电气股份有限公司 一种基于高压环网柜的远程通讯测温处理方法及系统
CN112702438B (zh) * 2020-12-31 2021-08-17 广州霍斯通电气股份有限公司 一种基于高压环网柜的远程通讯测温处理方法及系统
CN112764989A (zh) * 2021-01-12 2021-05-07 湖北宸威玺链信息技术有限公司 一种用于监控应用服务启停时间的方法
CN113157795A (zh) * 2021-05-18 2021-07-23 国网宁夏电力有限公司 适用于移动应用的电网调控运行多源数据建模与管理系统
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置
CN114363175A (zh) * 2022-03-01 2022-04-15 北京金山云网络技术有限公司 集群监控方法、装置和电子设备
CN114598624A (zh) * 2022-03-15 2022-06-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质
CN114598624B (zh) * 2022-03-15 2023-11-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112162821B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN112162821B (zh) 容器集群资源监视方法、装置及系统
US11249815B2 (en) Maintaining two-site configuration for workload availability between sites at unlimited distances for products and services
US10084858B2 (en) Managing continuous priority workload availability and general workload availability between sites at unlimited distances for products and services
CA2930101C (en) Partition-based data stream processing framework
CN103024060B (zh) 一种开放式云计算大规模集群监控系统及方法
CN102546256B (zh) 用于对云计算服务进行监控的系统及方法
CN108365985A (zh) 一种集群管理方法、装置、终端设备及存储介质
CN111209011A (zh) 一种跨平台的容器云自动化部署系统
CN112787855B (zh) 一种面向广域分布式服务的主备管理系统及管理方法
CN102882909B (zh) 云计算服务监控系统及方法
CN110046041B (zh) 一种基于celery调度框架的数据采集方法
WO2023142054A1 (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN107682209A (zh) 一种sdp大数据自动化部署监控平台
WO2013185175A1 (en) Predictive analytics for resource provisioning in hybrid cloud
CN111124830B (zh) 一种微服务的监控方法及装置
CN113377626B (zh) 基于服务树的可视化统一报警方法、装置、设备和介质
CN117579651A (zh) 物联网系统
CN117389830A (zh) 集群日志采集方法、装置、计算机设备及存储介质
CN111162938A (zh) 数据处理系统及方法
CN112351098B (zh) 拷机服务集群系统、控制方法、装置及介质
CN112685486B (zh) 数据库集群的数据管理方法、装置、电子设备及存储介质
CN111858260A (zh) 信息显示方法、装置、设备及介质
CN110597681A (zh) 服务器硬件监控系统
CN114676291B (zh) 一种数据库系统及数据库系统的控制方法
CN115150466B (zh) 一种数据分发的实现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant