CN106776212B - 容器集群部署多进程应用的监管系统及方法 - Google Patents

容器集群部署多进程应用的监管系统及方法 Download PDF

Info

Publication number
CN106776212B
CN106776212B CN201611131362.XA CN201611131362A CN106776212B CN 106776212 B CN106776212 B CN 106776212B CN 201611131362 A CN201611131362 A CN 201611131362A CN 106776212 B CN106776212 B CN 106776212B
Authority
CN
China
Prior art keywords
container
monitoring
information
monitoring server
monitoring agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611131362.XA
Other languages
English (en)
Other versions
CN106776212A (zh
Inventor
柏银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd filed Critical CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611131362.XA priority Critical patent/CN106776212B/zh
Publication of CN106776212A publication Critical patent/CN106776212A/zh
Application granted granted Critical
Publication of CN106776212B publication Critical patent/CN106776212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/483Multiproc

Abstract

本发明公开了一种容器集群部署多进程应用的监管系统及方法,该系统包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管系统,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。

Description

容器集群部署多进程应用的监管系统及方法
技术领域
本发明涉及一种监管系统及方法,特别是涉及一种容器集群部署多进程应用的监管系统及方法。
背景技术
容器技术是云计算的热点技术之一,当前容器技术已经在公有云、私有云、混合云场景广泛应用。容器本身是推崇单一容器跑单一进程,但是实际应用中,太多的多进程应用需要被部署到同一容器中运行。在拥有多个云应用的集群中,容器被大量创建到物理集群或者虚拟机集群中,而多数容器内应用又拥有多个进程。在现有的容器监管系统中,绝大多数监管系统只能监管容器本身的状态,而对部署在容器内进程不能做到有效监管。
发明内容
本发明所要解决的技术问题是提供一种容器集群部署多进程应用的监管系统及方法,其对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管系统,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。
本发明是通过下述技术方案来解决上述技术问题的:一种容器集群部署多进程应用的监管系统,其包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。
优选地,所述监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,保存在监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
优选地,所述服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群),刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表删除该记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
优选地,所述监控代理组件作为容器的init(开始命令)进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
优选地,所述管理服务器部署在单独的管理关键中或业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
优选地,所述管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
本发明还提供一种容器集群部署多进程应用的监管方法,其包括下列步骤:
步骤一,基于多主机(物理机或者虚拟机)创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口(比如restful接口)对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口(比如restful接口)向服务发现组件注册,包括访问地址和端口,然后通过通信接口(比如restful接口)周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤五,服务发现组件通过通信接口(比如restful接口)向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口(比如restful接口)发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤八,监控服务器周期性通过通信接口(比如restful接口)连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,存入监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤九,管理环境模块中管理服务器通过通信接口(比如restful接口)连接业务环境模块中监控服务器,查询监控服务器的缓存系统中的容器和进程信息(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤十,监控服务器通过通信接口(比如restful接口)接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令(比如启动、停止、重启等);
步骤十一,监控代理通过通信接口(比如restful接口)获取到对某进程的生命周期管理命令(比如启动、停止、重启等),执行命令并返回结果。
优选地,所述步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口(比如restful接口)向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期(比如3个时间周期),触发代理丢失事件,刷新服务发现组件的缓存系统(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群),并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
优选地,所述步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口(比如restful接口)接收到对某容器的生命管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口(比如restful接口)接收到对某容器内进程的生命周期管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)转发到对应容器的监控代理。
本发明的积极进步效果在于:本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管系统,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。
附图说明
图1为本发明的系统模块图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明容器集群部署多进程应用的监管系统包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。
监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,保存在监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群),刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表删除该记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
监控代理组件作为容器的init(开始命令)进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
管理服务器部署在单独的管理关键中或在业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
本发明容器集群部署多进程应用的监管方法包括下列步骤:
步骤一,基于多主机(物理机或者虚拟机)创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口(比如restful接口)对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口(比如restful接口)向服务发现组件注册,包括访问地址和端口,然后通过通信接口(比如restful接口)周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤五,服务发现组件通过通信接口(比如restful接口)向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口(比如restful接口)发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤八,监控服务器周期性通过通信接口(比如restful接口)连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,存入监控服务器的缓存系统中(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤九,管理环境模块中管理服务器通过通信接口(比如restful接口)连接业务环境模块中监控服务器,查询监控服务器的缓存系统中的容器和进程信息(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群);
步骤十,监控服务器通过通信接口(比如restful接口)接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令(比如启动、停止、重启等);
步骤十一,监控代理通过通信接口(比如restful接口)获取到对某进程的生命周期管理命令(比如启动、停止、重启等),执行命令并返回结果。
步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口(比如restful接口)向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期(比如3个时间周期),触发代理丢失事件,刷新服务发现组件的缓存系统(缓存系统可以是本地缓存系统,也可以是分布式缓存集群系统,比如Redis集群),并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口(比如restful接口)接收到对某容器的生命管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口(比如restful接口)接收到对某容器内进程的生命周期管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)转发到对应容器的监控代理。
综上所述,本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管系统,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理(比如启动、停止、重启等)。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种容器集群部署多进程应用的监管系统,其特征在于,其包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器;
所述监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存系统中;周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,保存在监控服务器的缓存系统中;接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
2.如权利要求1所述的容器集群部署多进程应用的监管系统,其特征在于,所述服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存系统中,刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表中删除所述服务发现组件的记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
3.如权利要求1所述的容器集群部署多进程应用的监管系统,其特征在于,所述监控代理组件作为容器的init进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
4.如权利要求1所述的容器集群部署多进程应用的监管系统,其特征在于,所述管理服务器部署在单独的管理关键中或业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
5.如权利要求1所述的容器集群部署多进程应用的监管系统,其特征在于,所述管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
6.一种容器集群部署多进程应用的监管方法,其特征在于,其包括以下步骤:
步骤一,基于多主机创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口向服务发现组件注册,包括访问地址和端口,然后通过通信接口周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存系统中;
步骤五,服务发现组件通过通信接口向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存系统中;
步骤八,监控服务器周期性通过通信接口连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件系统信息,按容器和时间要素分类整理后,存入监控服务器的缓存系统中;
步骤九,管理环境模块中管理服务器通过通信接口连接业务环境模块中监控服务器,查询监控服务器的缓存系统中的容器和进程信息;
步骤十,监控服务器通过通信接口接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令;
步骤十一,监控代理通过通信接口获取到对某进程的生命周期管理命令,执行命令并返回结果。
7.如权利要求6所述的容器集群部署多进程应用的监管方法,其特征在于,所述步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期,触发代理丢失事件,刷新服务发现组件的缓存系统,并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
8.如权利要求6所述的容器集群部署多进程应用的监管方法,其特征在于,所述步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口接收到对某容器的生命管理命令,通过通信接口连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口接收到对某容器内进程的生命周期管理命令,通过通信接口转发到对应容器的监控代理。
CN201611131362.XA 2016-12-09 2016-12-09 容器集群部署多进程应用的监管系统及方法 Active CN106776212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611131362.XA CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611131362.XA CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管系统及方法

Publications (2)

Publication Number Publication Date
CN106776212A CN106776212A (zh) 2017-05-31
CN106776212B true CN106776212B (zh) 2020-02-25

Family

ID=58879689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611131362.XA Active CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管系统及方法

Country Status (1)

Country Link
CN (1) CN106776212B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240809B (zh) * 2017-07-11 2022-08-23 阿里巴巴集团控股有限公司 进程维护管理方法、容器维护方法、装置和操作系统
CN107194017A (zh) * 2017-07-28 2017-09-22 四川思途智旅软件有限公司 一种用于单服务器上多网站数据采集的系统和方法
CN107508722B (zh) * 2017-08-01 2020-08-04 北京德塔精要信息技术有限公司 一种业务监控方法和装置
CN107689953B (zh) * 2017-08-18 2020-10-27 中国科学院信息工程研究所 一种面向多租户云计算的容器安全监控方法及系统
CN109597626B (zh) * 2017-09-30 2022-02-11 北京国双科技有限公司 一种组件部署方法和装置
CN111279309A (zh) * 2017-09-30 2020-06-12 甲骨文国际公司 基于环境要求的容器部署
CN107528751B (zh) * 2017-09-30 2019-10-29 南京卓盛云信息科技有限公司 一种动态分发Zabbix监控数据的系统及其管理方法
CN107911410B (zh) * 2017-10-17 2021-02-02 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107896191B (zh) * 2017-11-27 2020-11-27 深信服科技股份有限公司 一种基于容器的虚拟安全组件跨云系统及方法
CN108228313B (zh) * 2017-11-30 2021-11-30 中国联合网络通信集团有限公司 下游容器的发现方法及装置
CN108280012A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种监控服务器系统进程的方法及装置
CN108563515B (zh) * 2018-03-14 2021-08-27 中国银联股份有限公司 一种业务进程管理方法和系统
CN108874624B (zh) * 2018-05-31 2023-03-28 康键信息技术(深圳)有限公司 服务器、监控Java进程的方法及存储介质
CN108924217B (zh) * 2018-06-29 2020-12-22 中山大学 一种分布式云系统自动化部署方法
CN110752939B (zh) * 2018-07-24 2022-09-16 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN109408210B (zh) * 2018-09-27 2021-01-05 北京车和家信息技术有限公司 分布式定时任务管理方法及系统
CN109697078B (zh) * 2018-12-10 2022-02-08 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109889480A (zh) * 2018-12-25 2019-06-14 武汉烽火信息集成技术有限公司 基于容器和云平台的全国产化融合云平台管理方法及系统
CN110365762B (zh) * 2019-07-10 2022-03-11 腾讯科技(深圳)有限公司 服务处理方法、装置、设备及存储介质
CN111552541B (zh) * 2020-04-30 2023-11-10 北京思特奇信息技术股份有限公司 通过命令桥工厂实现调度的方法、系统及计算机存储介质
CN111651237A (zh) * 2020-05-22 2020-09-11 国云科技股份有限公司 一种获取Docker容器内虚拟机监控数据的方法及装置
CN111970240B (zh) * 2020-07-10 2023-03-24 北京金山云网络技术有限公司 集群纳管方法、装置及电子设备
CN112068977B (zh) * 2020-08-21 2023-01-06 苏州浪潮智能科技有限公司 一种面向大数据集群的进程守护方法和装置
CN112346817A (zh) * 2020-10-20 2021-02-09 北京健康之家科技有限公司 容器启动方法、装置、存储介质及计算机设备
CN112835766A (zh) * 2021-02-10 2021-05-25 杭州橙鹰数据技术有限公司 应用监控方法及装置
CN113656241B (zh) * 2021-07-20 2023-10-31 国网天津市电力公司 一种容器终端全生命周期管控系统及方法
CN113806181A (zh) * 2021-09-24 2021-12-17 重庆富民银行股份有限公司 一种Redis多集群自动监控方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控系统和方法
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105893205A (zh) * 2015-11-20 2016-08-24 乐视云计算有限公司 监控基于docker创建的container的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082846A1 (en) * 2009-10-07 2011-04-07 International Business Machines Corporation Selective processing of location-sensitive data streams

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控系统和方法
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105893205A (zh) * 2015-11-20 2016-08-24 乐视云计算有限公司 监控基于docker创建的container的方法及系统

Also Published As

Publication number Publication date
CN106776212A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776212B (zh) 容器集群部署多进程应用的监管系统及方法
CN109714192B (zh) 一种监控云平台的监控方法及系统
CN102932210B (zh) 一种PaaS云平台的节点监控方法和系统
CN110377395A (zh) 一种Kubernetes集群中的Pod迁移方法
CN103607297A (zh) 一种计算机集群系统的故障处理方法
CN105915405A (zh) 一种大型集群节点性能监控系统
EP1518385A1 (en) Opc server redirection manager
CN111046011B (zh) 日志收集方法、系统、装置、电子设备及可读存储介质
CN114443435A (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN103458055A (zh) 一种云计算平台
CN111176888B (zh) 云存储的容灾方法、装置及系统
CN106021070A (zh) 服务器集群监测方法及装置
CN111258851A (zh) 一种集群的告警方法、装置、设置及存储介质
CN107623703A (zh) 全局事务标识gtid的同步方法、装置及系统
CN111813497A (zh) 一种容器环境异常检测的方法、装置、介质及计算机设备
CN110727508A (zh) 一种任务调度系统和调度方法
CN111045811A (zh) 一种任务分配方法、装置、电子设备及存储介质
CN113422692A (zh) 一种K8s集群内节点故障检测及处理方法、装置及存储介质
CN108429656A (zh) 一种监控物理机网卡连接状态的方法
CN108600284B (zh) 一种基于Ceph的虚拟机高可用实现方法及系统
CN117130730A (zh) 面向联邦Kubernetes集群的元数据管理方法
CN110196749B (zh) 虚拟机的恢复方法及装置、存储介质及电子装置
CN104734895A (zh) 业务监控系统及业务监控方法
CN112230847B (zh) 一种监控K8s存储卷的方法、系统、终端及存储介质
CN105025179A (zh) 呼叫中心座席的监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant