CN109873738A - 一种可弹性伸缩的云计算监控平台 - Google Patents

一种可弹性伸缩的云计算监控平台 Download PDF

Info

Publication number
CN109873738A
CN109873738A CN201910141991.8A CN201910141991A CN109873738A CN 109873738 A CN109873738 A CN 109873738A CN 201910141991 A CN201910141991 A CN 201910141991A CN 109873738 A CN109873738 A CN 109873738A
Authority
CN
China
Prior art keywords
monitoring
monitoring server
sub
root
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910141991.8A
Other languages
English (en)
Inventor
金辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enlightenment Cloud Computing Co Ltd
Original Assignee
Enlightenment Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enlightenment Cloud Computing Co Ltd filed Critical Enlightenment Cloud Computing Co Ltd
Priority to CN201910141991.8A priority Critical patent/CN109873738A/zh
Publication of CN109873738A publication Critical patent/CN109873738A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种可弹性伸缩的云计算监控平台,包括管理组件、根监控服务器和子监控服务器三大部分,管理组件和根监控服务器部署在平台控制节点上,子监控服务器部署在任何一个网络可达的物理节点上;管理组件负责管理根监控服务器和子监控服务器,并负责监控的路由转发;根监控服务器负责平台服务,控制节点、交换机以及子监控服务器监控;子监控服务器负责计算节点和虚拟机的监控。本发明可以实现监控服务器的动态扩展,从而提高监控负载能力,可以一直水平扩展,没有上限,满足现有云厂商的监控需求。可以根据云平台的规模大小,动态的添加或减少监控服务器,从而解决了现在云平台的监控瓶颈问题。

Description

一种可弹性伸缩的云计算监控平台
技术领域
本发明涉及计算机技术领域,尤其涉及一种可弹性伸缩的云计算监控平台。
背景技术
近年来,云计算发展突飞猛进,涌现了很多云计算服务提供商和运营商,为各行各业不同的用户提供持续稳定的云计算服务。云计算的稳定性是各家厂商优先要考虑的问题。为了保证用户业务的稳定和持续性,监控是云计算平台不可或缺的一部分。通过监控云计算资源的使用情况和性能,可以在资源使用达到阈值时产生报警,从而提前采取措施进行处理,不影响用户的业务。
目前随着云平台规模的日益增长,监控指标也越来越多,导致监控服务器的负载和监控本身产生的数据成了云厂商扩展规模的一个瓶颈。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种可弹性伸缩的云计算监控平台,以解决现有技术的不足。
为实现上述目的,本发明提供了一种可弹性伸缩的云计算监控平台,包括管理组件、根监控服务器和子监控服务器三大部分,管理组件和根监控服务器部署在平台控制节点上,子监控服务器部署在任何一个网络可达的物理节点上;管理组件负责管理根监控服务器和子监控服务器,并负责监控的路由转发;根监控服务器负责平台服务,控制节点、交换机以及子监控服务器监控;子监控服务器负责计算节点和虚拟机的监控;对于根监控服务器,采用HA proxy的方式进行部署;子监控服务器采用单点方式部署,使用根监控服务器对子监控服务器进行监控,每增加一个子监控服务器,在根监控服务器中生成监控项。
上述的一种可弹性伸缩的云计算监控平台,所述平台控制节点大于等于3个。
上述的一种可弹性伸缩的云计算监控平台,所述物理节点选择计算节点或者单独的物理节点,一个物理节点允许部署多个子监控服务器,通过不同的端口做区分。
上述的一种可弹性伸缩的云计算监控平台,所述根监控服务器的集群管理使用pacemaker+haproxy方式。
上述的一种可弹性伸缩的云计算监控平台,所述根监控服务器使用Galeracluster构建多活的mysql集群。
上述的一种可弹性伸缩的云计算监控平台,所述子监控服务器被管理员动态的创建、删除、启用、停用;在创建子监控服务器的过程中,输入部署的物理机ip、用户名和密码;在创建子监控服务器的过程中,默认会在根监控服务器中创建对子监控服务器的监控;停用是在监控服务器发生异常时,让该监控服务器进入维护模式,此时不能在该监控服务器上创建监控,当将监控服务器启用后,监控恢复正常;删除监控服务器时,如果需要保存监控数据,手动线下进行保存,或者做成定期自动备份数据库。
上述的一种可弹性伸缩的云计算监控平台,所述根监控服务器存放所有的监控模版,当管理员在子监控服务器上创建监控时,如果子监控服务器不存在指定模版,子监控服务器首先向根监控服务器获取监控模版并存放,然后再为资源创建监控。
上述的一种可弹性伸缩的云计算监控平台,所述子监控服务器上创建监控模版的监控时,子监控模版向管理组件发起请求获取根监控服务器对应的监控模版,管理组件收到请求并将根监控服务器的模版在子监控服务器上创建,并且管理组件记录该子监控服务器已经存在该模版,当根监控模版的监控项发生变化时,管理组件检查该变化,并将所有已经创建该模版的子监控服务器的对应模版进行更新。
本发明的有益效果是:
本发明可以实现监控服务器的动态扩展,从而提高监控负载能力。当规模扩大,监控出现瓶颈时,平台管理员通过添加新的监控服务器来提高监控的负载能力。该方案可以一直水平扩展,没有上限,满足现有云厂商的监控需求。可以根据云平台的规模大小,动态的添加或减少监控服务器,从而解决了现在云平台的监控瓶颈问题。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的云计算监控平台架构图。
图2是本发明的创建监控的流程图。
具体实施方式
如图1所示,本发明公开了一种可弹性伸缩的云计算监控平台,为了实现分布式的监控服务和动态扩展,将监控服务器分为两级,根监控服务器和子监控服务器。根监控服务器主要负责云平台本身服务以及非经常扩展的物理节点监控,例如控制节点、交换机等节点的监控,并且根监控服务器采用HA方式部署。子监控服务器主要负责计算节点以及部署在计算节点上的虚拟机的监控,子监控服务器采用单点方式部署。当云平台规模变大时,可以通过扩展子监控服务器来提高云平台的监控能力。当然,在前期如果云平台规模比较小时,可以只使用根监控服务器来进行监控,从而减少资源的浪费。
本发明中,根监控服务器和子监控服务器是相互独立的,互相是不感知的,因此需要引入一个管理组件来完成对根监控服务器和子监控服务器的管理,并且负责监控路径的转发。
对于根监控服务器,采用HA的方式进行部署,所以不会出现单点故障。但是对于子监控服务器,由于采用单点方式部署,所以需要对子监控服务器进行进行监控,在本发明中,使用根监控服务器对子监控服务器进行监控。每增加一个子监控服务器,都需要在根监控服务器中生成监控项,当子监控服务发生故障时,可以即使通知管理员进行处理,当然为了保证持续性,可以自动创建新的子监控服务器替代原有子监控服务器。
通过上面的方案,可以实现监控服务器的动态扩展,从而提高监控负载能力。当规模扩大,监控出现瓶颈时,平台管理员通过添加新的监控服务器来提高监控的负载能力。该方案可以一直水平扩展,没有上限,满足现有云厂商的监控需求。可以根据云平台的规模大小,动态的添加或减少监控服务器,从而解决了现在云平台的监控瓶颈问题。
为了便于理解,先对可扩展的监控平台组件进行介绍。
如图1所示,分布式监控服务主要包括管理组件,根监控服务器和子监控服务器三大部分。管理组件负责管理根监控服务器和子监控服务器,并负责监控的路由转发。根监控服务器负责平台服务,控制节点、交换机以及子监控服务器监控。子监控服务器负责计算节点和虚拟机的监控。
分布式监控安装部署:
1.管理组件和根监控服务器部署在平台控制节点上。一般情况云平台的控制节点为了保证高可用性,一般个数都是大于等于3个,刚好满足根监控服务器的HA部署。关于根监控服务器的集群管理,我们使用pacemaker+haproxy方案实现。
2.子监控服务器可以部署在任何一个网络可达的物理节点上,物理节点可以选择计算节点或者单独的物理节点。一个节点允许部署多个子监控服务器,通过不同的端口做区分。另外由于监控产生的数据量很大,在创建监控服务器时,建议其对应数据库所在的数据盘的空间要足够大,不然会影响监控服务器的负载能力。
3.使用mysql存储监控数据。对于根监控服务器,使用Galera cluster构建多活的mysql集群,从而保证数据库的高可用性。
监控服务器管理:
1.在云平台部署过程中,默认为云平台创建一个高可用的根监控服务器集群,该集群需要在管理组件中注册。
2.管理员可以动态的创建/删除/启用/停用子监控服务器。在创建子监控服务器的过程中,需要输入部署的物理机ip、用户名和密码,保证该物理机网络可达。在创建子监控服务器的过程中,默认会在根监控服务器中创建对子监控服务器的监控。停用是为了在监控服务器发生异常时,让该监控服务器进入维护模式,此时不能在该监控服务器上创建监控。当将监控服务器启用后,监控恢复正常。
3.删除监控服务器时,其所进行的所有监控数据都将丢失。如果需要保存监控数据,需要手动线下进行保存,当然也可以做成定期自动备份数据库。
监控模版管理:
监控模版指某种监控资源所有的监控项的集合。不同的资源有不同的监控模版,比如虚拟机有虚拟机的监控模版,包括了虚拟机的cpu使用率监控项,对应磁盘的吞吐量监控项,网卡的流量监控项等等。控制节点有控制节点的监控模版,包括控制节点相关服务的监控项,以及物理机相应的监控项。监控项支持自定义。
监控服务管理包括了对监控模版的增删改查的管理。默认所有的监控模版都存放在根监控服务器,当管理员在子监控服务器上创建监控时,如果子监控服务器不存在指定模版,子监控服务器首先需要向根监控服务器获取监控模版并存放,然后再为资源创建监控。
监控模版管理过程中,存在一个根监控服务器和子监控服务器的同步问题。本发明使用lazy load的方式实现。首先,当第一次在子监控服务器上创建监控模版的监控时,子监控模版向管理组件发起请求获取根监控服务器对应的监控模版,管理组件收到请求并将根监控服务器的模版在子监控服务器上创建,并且管理组件记录该子监控服务器已经存在该模版。当根监控模版的监控项发生变化时,管理组件检查该变化,并将所有已经创建该模版的子监控服务器的对应模版进行更新。
告警组管理:
提供告警组的增删改查管理,告警组指告警发生时,收到该报警的报警人的集合,不同的监控可以指定不同的告警组。
监控管理:
图2为创建监控的一个流程图。用户创建监控时需要首选选择监控模版和监控服务器。当选择根监控服务器时,后端直接为该资源创建监控,当选择子监控服务器时,后端首选判断是否存在监控模版,如果不存在,首先创建监控模版,如果存在直接创建。用户可以停止监控,此时不再收到监控以及对应告警。另外用户也可以迁移监控,即当当前监控所在监控服务器发生异常或者已经达到性能瓶颈时,用户可以将监控迁移到其它监控服务器。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种可弹性伸缩的云计算监控平台,其特征在于:包括管理组件、根监控服务器和子监控服务器三大部分,管理组件和根监控服务器部署在平台控制节点上,子监控服务器部署在任何一个网络可达的物理节点上;管理组件负责管理根监控服务器和子监控服务器,并负责监控的路由转发;根监控服务器负责平台服务,控制节点、交换机以及子监控服务器监控;子监控服务器负责计算节点和虚拟机的监控;对于根监控服务器,采用HA proxy的方式进行部署;子监控服务器采用单点方式部署,使用根监控服务器对子监控服务器进行监控,每增加一个子监控服务器,在根监控服务器中生成监控项。
2.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述平台控制节点大于等于3个。
3.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述物理节点选择计算节点或者单独的物理节点,一个物理节点允许部署多个子监控服务器,通过不同的端口做区分。
4.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述根监控服务器的集群管理使用pacemaker+haproxy方式。
5.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述根监控服务器使用Galera cluster构建多活的mysql集群。
6.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述子监控服务器被管理员动态的创建、删除、启用、停用;在创建子监控服务器的过程中,输入部署的物理机ip、用户名和密码;在创建子监控服务器的过程中,默认会在根监控服务器中创建对子监控服务器的监控;停用是在监控服务器发生异常时,让该监控服务器进入维护模式,此时不能在该监控服务器上创建监控,当将监控服务器启用后,监控恢复正常;删除监控服务器时,如果需要保存监控数据,手动线下进行保存,或者做成定期自动备份数据库。
7.如权利要求1所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述根监控服务器存放所有的监控模版,当管理员在子监控服务器上创建监控时,如果子监控服务器不存在指定模版,子监控服务器首先向根监控服务器获取监控模版并存放,然后再为资源创建监控。
8.如权利要求7所述的一种可弹性伸缩的云计算监控平台,其特征在于:所述子监控服务器上创建监控模版的监控时,子监控模版向管理组件发起请求获取根监控服务器对应的监控模版,管理组件收到请求并将根监控服务器的模版在子监控服务器上创建,并且管理组件记录该子监控服务器已经存在该模版,当根监控模版的监控项发生变化时,管理组件检查该变化,并将所有已经创建该模版的子监控服务器的对应模版进行更新。
CN201910141991.8A 2019-02-26 2019-02-26 一种可弹性伸缩的云计算监控平台 Pending CN109873738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910141991.8A CN109873738A (zh) 2019-02-26 2019-02-26 一种可弹性伸缩的云计算监控平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910141991.8A CN109873738A (zh) 2019-02-26 2019-02-26 一种可弹性伸缩的云计算监控平台

Publications (1)

Publication Number Publication Date
CN109873738A true CN109873738A (zh) 2019-06-11

Family

ID=66919192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910141991.8A Pending CN109873738A (zh) 2019-02-26 2019-02-26 一种可弹性伸缩的云计算监控平台

Country Status (1)

Country Link
CN (1) CN109873738A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769268A (zh) * 2019-11-07 2020-02-07 网易(杭州)网络有限公司 数据流监测方法及装置
CN112615666A (zh) * 2020-12-19 2021-04-06 河南方达空间信息技术有限公司 基于RabbitMQ和HAProxy的微服务高可用性部署方法
CN113949638A (zh) * 2021-08-26 2022-01-18 中铁第四勘察设计院集团有限公司 一种基于云平台的铁路通信系统扩缩容方法和系统
CN114051122A (zh) * 2021-11-11 2022-02-15 晟至技术有限公司 一种基于大数据技术的电力智能视频分析监控方法
CN116566844A (zh) * 2023-07-06 2023-08-08 湖南马栏山视频先进技术研究院有限公司 一种基于多云融合的数据管控方法与多云融合管理平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724313A (zh) * 2012-06-19 2012-10-10 招商局重庆交通科研设计院有限公司 基于云计算的集群式桥梁运营安全监控系统
CN102801585A (zh) * 2012-08-24 2012-11-28 上海和辰信息技术有限公司 基于云计算网络环境的信息监控系统与方法
CN103414748A (zh) * 2013-07-12 2013-11-27 广东电子工业研究院有限公司 一种云平台监控架构及其监控实现方法
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法
US20150032886A1 (en) * 2011-11-23 2015-01-29 Shen Wang Remote Real-Time Monitoring System based on cloud computing
CN204496276U (zh) * 2015-04-14 2015-07-22 中国气象局气象探测中心 一种综合气象观测运行监控系统
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
CN106850332A (zh) * 2016-12-12 2017-06-13 中电科华云信息技术有限公司 基于云的应用动态监控方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032886A1 (en) * 2011-11-23 2015-01-29 Shen Wang Remote Real-Time Monitoring System based on cloud computing
CN102724313A (zh) * 2012-06-19 2012-10-10 招商局重庆交通科研设计院有限公司 基于云计算的集群式桥梁运营安全监控系统
CN102801585A (zh) * 2012-08-24 2012-11-28 上海和辰信息技术有限公司 基于云计算网络环境的信息监控系统与方法
CN103414748A (zh) * 2013-07-12 2013-11-27 广东电子工业研究院有限公司 一种云平台监控架构及其监控实现方法
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法
CN204496276U (zh) * 2015-04-14 2015-07-22 中国气象局气象探测中心 一种综合气象观测运行监控系统
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
CN106850332A (zh) * 2016-12-12 2017-06-13 中电科华云信息技术有限公司 基于云的应用动态监控方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769268A (zh) * 2019-11-07 2020-02-07 网易(杭州)网络有限公司 数据流监测方法及装置
CN112615666A (zh) * 2020-12-19 2021-04-06 河南方达空间信息技术有限公司 基于RabbitMQ和HAProxy的微服务高可用性部署方法
CN112615666B (zh) * 2020-12-19 2022-07-15 河南方达空间信息技术有限公司 基于RabbitMQ和HAProxy的微服务高可用性部署方法
CN113949638A (zh) * 2021-08-26 2022-01-18 中铁第四勘察设计院集团有限公司 一种基于云平台的铁路通信系统扩缩容方法和系统
CN114051122A (zh) * 2021-11-11 2022-02-15 晟至技术有限公司 一种基于大数据技术的电力智能视频分析监控方法
CN116566844A (zh) * 2023-07-06 2023-08-08 湖南马栏山视频先进技术研究院有限公司 一种基于多云融合的数据管控方法与多云融合管理平台
CN116566844B (zh) * 2023-07-06 2023-09-05 湖南马栏山视频先进技术研究院有限公司 一种基于多云融合的数据管控方法与多云融合管理平台

Similar Documents

Publication Publication Date Title
CN109873738A (zh) 一种可弹性伸缩的云计算监控平台
US10972344B2 (en) Automated adjustment of subscriber policies
JP5327220B2 (ja) 管理プログラム、管理装置および管理方法
US7475108B2 (en) Slow-dynamic load balancing method
CN111385114B (zh) Vnf服务实例化方法及装置
US10193977B2 (en) System, device and process for dynamic tenant structure adjustment in a distributed resource management system
US7644161B1 (en) Topology for a hierarchy of control plug-ins used in a control system
US9667491B2 (en) Distributed configuration management system and method
US8103824B2 (en) Method for self optimizing value based data allocation across a multi-tier storage system
EP3400535A1 (en) System and method for distributed resource management
EP2294759A1 (en) Method and apparatus for managing computing resources of management systems
KR101696698B1 (ko) 상호 의존 관계가 있는 컴포넌트 분배 및 관리 방법
US20160142262A1 (en) Monitoring a computing network
US20200042608A1 (en) Distributed file system load balancing based on available node capacity
CN111190794A (zh) 一种运维监控管理系统
KR20160073306A (ko) 관리 시스템 및 관리 시스템을 제어하기 위한 방법
CN108228393A (zh) 一种可扩展的大数据高可用的实现方法
WO2019012627A1 (ja) ネットワーク制御システム、方法およびプログラム
JP2005031987A (ja) コンテンツ配信システムにおけるコンテンツ配置管理システム及びコンテンツ配置管理プログラム
WO2019011262A1 (zh) 分配资源的方法和装置
JP2016162389A (ja) シンクライアントシステム、接続管理装置、仮想マシン稼働装置、方法、および、プログラム
CN106547790B (zh) 一种关系型数据库服务系统
Verma et al. An architecture for lifecycle management in very large file systems
KR20150007698A (ko) 가상 데스크탑 서비스를 위한 부하 분산 시스템
CN114661419A (zh) 一种服务质量控制系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190611

WD01 Invention patent application deemed withdrawn after publication