CN107171888A - 一种基于cAdvisor的集群性能监测方法 - Google Patents

一种基于cAdvisor的集群性能监测方法 Download PDF

Info

Publication number
CN107171888A
CN107171888A CN201710383581.5A CN201710383581A CN107171888A CN 107171888 A CN107171888 A CN 107171888A CN 201710383581 A CN201710383581 A CN 201710383581A CN 107171888 A CN107171888 A CN 107171888A
Authority
CN
China
Prior art keywords
cloud computing
service
data
cadvisor
management platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710383581.5A
Other languages
English (en)
Inventor
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sun Create Electronic Co Ltd
Original Assignee
Anhui Sun Create Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sun Create Electronic Co Ltd filed Critical Anhui Sun Create Electronic Co Ltd
Priority to CN201710383581.5A priority Critical patent/CN107171888A/zh
Publication of CN107171888A publication Critical patent/CN107171888A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于cAdvisor的集群性能监测方法,包括如下步骤:安装cAdvisor服务和安装Fleet工具;验证cAdvisor服务和Fleet工具是否安装成功,直至安装成功为止;安装定时任务服务和数据同步服务;分别启动一个定时任务服务实例和数据同步服务实例,并判断是否正常工作;若不能正常工作,则停止服务实例并查明原因,重新启动新的服务实例直到其正常工作;云计算管理平台获取集群中每台机器的性能数据,解析这些性能数据并存储到数据库中;用户根据所需,通过云计算管理平台提取数据库中所需的相关数据。本发明能够实时监测分布式云计算集群中机器的资源性能并将状态数据按特定需求进行展示,给分布式云计算集群管理者的相关决策提供了直观有效的依据。

Description

一种基于cAdvisor的集群性能监测方法
技术领域
本发明属于云计算集群管理技术领域,具体地讲涉及一种基于cAdvisor的集群性能监测方法。
背景技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似iPhone的app),几乎没有性能开销,可以很容易地在机器和数据中心中运行。最重要的是,Docker不依赖于任何语言、框架包括系统。
Fleet是一个开源的集群级别的集群服务管理工具。用户将要启动的服务提交给Fleet,由Fleet对服务进行分配和管理,其中,服务以Docker容器的形式运行。
cAdvisor是一个运行中的守护进程,用来收集、聚合、处理和导出运行容器相关的信息,每个容器保持独立的参数、历史资源使用情况和完整的资源使用数据。cAdvisor是一个用来分析运行中Docker容器资源占用以及性能特性的工具,而且是一个易于设置并且非常有用的工具。CAdvisor是免费还开源的,它的资源消耗也比较低。
近年来,由于云计算和大数据的快速发展,分布式云计算集群管理显得越来越重要,如何实时监测集群中的机器资源性能,给管理者的相关决策提供依据成为一个亟待解决的问题。
发明内容
根据现有技术中存在的问题,本发明提供了一种基于cAdvisor的集群性能监测方法,能够实时监测分布式云计算集群中机器的资源性能并将状态数据按特定需求进行展示,给分布式云计算集群管理者的相关决策提供了直观有效的依据。
本发明采用以下技术方案:
一种基于cAdvisor的集群性能监测方法,其特征在于,包括如下顺序步骤:
S1,用户在基于Docker容器的分布式云计算的集群中的所有机器上均安装cAdvisor服务,在处于服务节点的至少一台机器上安装Fleet工具;
S2,分别验证cAdvisor服务和Fleet工具是否安装成功,直至安装成功为止;
S3,在由云计算管理平台分配的一台机器上安装定时任务服务,在由云计算管理平台分配的一台机器上安装数据同步服务;
S4,分别启动一个定时任务服务实例和一个数据同步服务实例,并判断上述两个实例是否正常工作;若不能正常工作,则停止相应地服务实例并查明原因,重新启动新的服务实例直到其正常工作;
S5,云计算管理平台通过cAdivsor服务获取集群中每台机器的性能数据,解析这些性能数据并存储到云计算管理平台的数据库中;
S6,用户通过客户端提交查询信息至云计算管理平台,云计算管理平台对照查询信息提取数据库中的相关数据至客户端,从而用户可以通过客户端获取到所需的相关数据。
优选的,验证安装cAdvisor服务是否安装成功的方法是通过在浏览器中访问API接口对应的url地址,若返回机器的相关性能数据则表示cAdvisior服务安装成功,返回异常信息表示安装失败;验证安装Fleet工具是否安装成功的方法是通过启动Fleet命令并输入查看集群机器状态命令,若返回相关信息,则表示Fleet工具安装成功,返回异常信息表示安装失败。
优选的,步骤S2中验证cAdvisor服务是否安装成功的方法是通过在所在机器的浏览器中访问API接口对应的url地址,若返回机器的相关性能数据则表示cAdvisior服务安装成功,返回异常信息表示安装失败;验证Fleet工具是否安装成功的方法是通过启动Fleet工具并输入查看集群机器状态命令,若返回相关信息,则表示Fleet工具安装成功,返回异常信息表示安装失败。
优选的,步骤S3中的由云计算管理平台分配是指由云计算管理平台选择集群中空闲内存多、网络顺畅、配置高的机器用来安装数据同步服务和定时任务服务。
优选的,步骤S4中所述定时任务服务用于根据设定的周期时间,定期执行收集任务,访问集群中所有机器,获取性能数据;所述数据同步服务用于将获取到的集群中所有机器的性能数据同步整理好,并同步存储到云计算管理平台的数据库中;判断同步服务实例和定时任务服务实例是否正常工作的方法是通过云计算管理平台的服务实例管理页面查看这两个实例的运行状态,若运行状态是“运行”,表示正常工作;运行状态还包括“停止”和“正在启动”。
优选的,步骤S5中通过cAdivsor服务获取的性能数据经过解析后,其最小粒度是按秒级储存,通过云计算管理平台可设定保存数据的期限,过期的数据通过定时任务服务定期删除。
进一步优选的,步骤S5中存储在云计算管理平台数据库中的性能数据包括集群整体状态的性能数据和单台机器的性能数据,所述集群整体状态的性能数据和单台机器的性能数据又分为即时数据和历史变化曲线,所述集群整体状态的性能数据和单台机器的性能数据按照需求规则不同,可按秒、分、时、天进行显示。
本发明的优点和有益效果在于:
1)本发明首先在已有的集群上安装cAdvisor服务和Fleet工具,并安装数据同步服务和定时任务服务;通过定时任务服务定期访问集群中所有机器,通过cAdvisor服务获取集群中每台机器的性能数据,再通过数据同步服务将获取到的性能数据同步整理好,并同步存储到云计算管理平台的数据库中,通过云计算管理平台传送至客户端进行展示,给分布式云计算集群管理者在做出相关决策提供了直观有效的依据。
附图说明
图1为本发明的方法流程图。
图2为本发明的实施框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2所示,一种基于cAdvisor的集群性能监测方法,包括如下步骤:
S1,用户在基于Docker容器的分布式云计算的集群中的所有机器上均安装cAdvisor服务,在处于服务节点的至少一台机器上安装Fleet工具;
需要说明的是,在处于服务节点的至少一台机器上安装Fleet工具包括在处于服务节点的一台机器上安装Fleet工具、在处于服务节点的多台机器上安装Fleet工具和在处于服务节点的所有机器上安装Fleet工具这些情况,都能满足本发明的条件。
在基于Docker容器的分布式云计算的集群中所有机器上安装cAdvisor服务的执行命令如下:
S2,分别验证cAdvisor服务和Fleet工具是否安装成功,直至安装成功为止;
验证cAdvisor服务是否安装成功的方法是通过在所在机器的浏览器中访问API接口对应的url地址,若返回机器的相关性能数据则表示cAdvisior服务安装成功,返回异常信息表示安装失败;验证Fleet工具是否安装成功的方法是通过启动Fleet工具并输入查看集群机器状态命令,若返回相关信息,则表示Fleet工具安装成功,返回异常信息表示安装失败。
S3,在由云计算管理平台分配的一台机器上安装定时任务服务,在由云计算管理平台分配的一台机器上安装数据同步服务;
由云计算管理平台分配是指由云计算管理平台选择集群中空闲内存多、网络顺畅、配置高的机器用来安装数据同步服务和定时任务服务;数据同步服务和定时任务服务可能安装在同一台机器上,也可能安装在不同机器上。
数据同步服务和定时任务服务安装的方式通过配置Unitfile文件,从集群的镜像库中下载最新的镜像文件,并按照配置文件的相关参数启动同步服务和平台应用。配置文件如下:
S4,分别启动一个定时任务服务实例和一个数据同步服务实例,并判断上述两个实例是否正常工作;若不能正常工作,则停止相应地服务实例并查明原因,重新启动新的服务实例直到其正常工作;
所述定时任务服务用于根据设定的周期时间,定期执行收集任务,访问集群中所有机器,获取性能数据;所述数据同步服务用于通过Fleet服务同步获取集群中所有机器的性能数据,并同步存储到云计算管理平台的数据库中;判断同步服务实例和定时任务服务实例是否正常工作的方法是通过云计算管理平台的服务实例管理页面查看这两个实例的运行状态,若运行状态是“运行”,表示正常工作;运行状态还包括“停止”和“正在启动”。
S5,云计算管理平台通过cAdivsor服务获取集群中每台机器的性能数据,解析这些性能数据并存储到云计算管理平台的数据库中;
通过cAdivsor服务获取的性能数据经过解析后,其最小粒度是按秒级储存,通过云计算管理平台可设定保存数据的期限,过期的数据通过定时任务服务定期删除。
存储在云计算管理平台数据库中的性能数据包括集群整体状态的性能数据和单台机器的性能数据,所述集群整体状态的性能数据和单台机器的性能数据又分为即时数据和历史变化曲线,所述集群整体状态的性能数据和单台机器的性能数据按照需求规则不同,可按秒、分、时、天进行显示。
S6,用户根据业务所需,通过客户端提交查询信息至云计算管理平台,云计算管理平台对照查询信息提取数据库中的相关数据至客户端,从而用户可以通过客户端获取到所需的相关数据。
综上所述,本发明首先在已有的集群上安装cAdvisor服务和Fleet工具,并安装数据同步服务和定时任务服务;通过定时任务服务定期访问集群中所有机器,通过cAdvisor服务获取集群中每台机器的性能数据,再通过数据同步服务将获取到的性能数据同步整理好,并同步存储到云计算管理平台的数据库中,通过云计算管理平台传送至客户端进行展示,给分布式云计算集群管理者在做出相关决策提供了直观有效的依据。

Claims (6)

1.一种基于cAdvisor的集群性能监测方法,其特征在于,包括如下步骤:
S1,用户在基于Docker容器的分布式云计算的集群中的所有机器上均安装cAdvisor服务,在处于服务节点的至少一台机器上安装Fleet工具;
S2,分别验证cAdvisor服务和Fleet工具是否安装成功,直至安装成功为止;
S3,在由云计算管理平台分配的一台机器上安装定时任务服务,在由云计算管理平台分配的一台机器上安装数据同步服务;
S4,分别启动一个定时任务服务实例和一个数据同步服务实例,并判断上述两个实例是否正常工作;若不能正常工作,则停止相应地服务实例并查明原因,重新启动新的服务实例直到其正常工作;
S5,云计算管理平台通过cAdivsor服务获取集群中每台机器的性能数据,解析这些性能数据并存储到云计算管理平台的数据库中;
S6,用户通过客户端提交查询信息至云计算管理平台,云计算管理平台对照查询信息提取数据库中的相关数据至客户端,从而用户可以通过客户端获取到所需的相关数据。
2.根据权利要求1所述的一种基于cAdvisor的集群性能监测方法,其特征在于:步骤S2中验证cAdvisor服务是否安装成功的方法是通过在所在机器的浏览器中访问API接口对应的url地址,若返回机器的相关性能数据则表示cAdvisior服务安装成功,返回异常信息表示安装失败;验证Fleet工具是否安装成功的方法是通过启动Fleet工具并输入查看集群机器状态命令,若返回相关信息,则表示Fleet工具安装成功,返回异常信息表示安装失败。
3.根据权利要求1所述的一种基于cAdvisor的集群性能监测方法,其特征在于:步骤S3中的由云计算管理平台分配是指由云计算管理平台选择集群中空闲内存多、网络顺畅、配置高的机器用来安装数据同步服务和定时任务服务。
4.根据权利要求1所述的一种基于cAdvisor的集群性能监测方法,其特征在于:步骤S4中所述定时任务服务用于根据设定的周期时间,定期执行收集任务,访问集群中所有机器,获取性能数据;所述数据同步服务用于将获取到的集群中所有机器的性能数据同步整理好,并同步存储到云计算管理平台的数据库中;判断同步服务实例和定时任务服务实例是否正常工作的方法是通过云计算管理平台的服务实例管理页面查看这两个实例的运行状态,若运行状态是“运行”,表示正常工作;运行状态还包括“停止”和“正在启动”。
5.根据权利要求1所述的一种基于cAdvisor的集群性能监测方法,其特征在于:步骤S5中通过cAdivsor服务获取的性能数据经过解析后,其最小粒度是按秒级储存,通过云计算管理平台可设定保存数据的期限,过期的数据通过定时任务服务定期删除。
6.根据权利要求5所述的一种基于cAdvisor的集群性能监测方法,其特征在于:步骤S5中存储在云计算管理平台数据库中的性能数据包括集群整体状态的性能数据和单台机器的性能数据,所述集群整体状态的性能数据和单台机器的性能数据又分为即时数据和历史变化曲线,所述集群整体状态的性能数据和单台机器的性能数据按照需求规则不同,可按秒、分、时、天进行显示。
CN201710383581.5A 2017-05-26 2017-05-26 一种基于cAdvisor的集群性能监测方法 Pending CN107171888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710383581.5A CN107171888A (zh) 2017-05-26 2017-05-26 一种基于cAdvisor的集群性能监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710383581.5A CN107171888A (zh) 2017-05-26 2017-05-26 一种基于cAdvisor的集群性能监测方法

Publications (1)

Publication Number Publication Date
CN107171888A true CN107171888A (zh) 2017-09-15

Family

ID=59822379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710383581.5A Pending CN107171888A (zh) 2017-05-26 2017-05-26 一种基于cAdvisor的集群性能监测方法

Country Status (1)

Country Link
CN (1) CN107171888A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678836A (zh) * 2017-10-12 2018-02-09 新华三大数据技术有限公司 集群的测试数据获取方法及装置
CN108881374A (zh) * 2018-04-28 2018-11-23 安徽四创电子股份有限公司 一种云计算资源架构前端展示的设计方法
CN109144734A (zh) * 2018-09-12 2019-01-04 郑州云海信息技术有限公司 一种容器资源配额分配方法和装置
CN113031870A (zh) * 2021-03-26 2021-06-25 山东英信计算机技术有限公司 一种集群系统动态管理方法、装置、存储介质及设备
US11740886B2 (en) 2018-09-27 2023-08-29 Huawei Technologies Co., Ltd. Algorithm update method and apparatus

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799751A (zh) * 2009-12-02 2010-08-11 山东浪潮齐鲁软件产业股份有限公司 一种构建主机监控代理软件的方法
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
CN105227374A (zh) * 2015-10-23 2016-01-06 浪潮(北京)电子信息产业有限公司 一种集群应用的故障迁移方法和系统
WO2016155816A1 (en) * 2015-04-01 2016-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for monitoring of network performance for container virtualization
CN106453564A (zh) * 2016-10-18 2017-02-22 北京京东尚科信息技术有限公司 弹性云分布式海量请求处理的方法、装置及系统
US20170126432A1 (en) * 2015-10-29 2017-05-04 Cisco Technology, Inc. Container management and application ingestion engine

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799751A (zh) * 2009-12-02 2010-08-11 山东浪潮齐鲁软件产业股份有限公司 一种构建主机监控代理软件的方法
WO2016155816A1 (en) * 2015-04-01 2016-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for monitoring of network performance for container virtualization
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
CN105227374A (zh) * 2015-10-23 2016-01-06 浪潮(北京)电子信息产业有限公司 一种集群应用的故障迁移方法和系统
US20170126432A1 (en) * 2015-10-29 2017-05-04 Cisco Technology, Inc. Container management and application ingestion engine
CN106453564A (zh) * 2016-10-18 2017-02-22 北京京东尚科信息技术有限公司 弹性云分布式海量请求处理的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANTON CHISTYAKOV: "A Software Architecture for Large Multi-simulation Experiments over Ad-hoc Networks Using NS-3 Discrete-event Network Simulator", 《2014 UKSIM-AMSS 8TH EUROPEAN MODELLING SYMPOSIUM》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678836A (zh) * 2017-10-12 2018-02-09 新华三大数据技术有限公司 集群的测试数据获取方法及装置
CN108881374A (zh) * 2018-04-28 2018-11-23 安徽四创电子股份有限公司 一种云计算资源架构前端展示的设计方法
CN108881374B (zh) * 2018-04-28 2021-07-27 安徽四创电子股份有限公司 一种云计算资源架构前端展示的设计方法
CN109144734A (zh) * 2018-09-12 2019-01-04 郑州云海信息技术有限公司 一种容器资源配额分配方法和装置
US11740886B2 (en) 2018-09-27 2023-08-29 Huawei Technologies Co., Ltd. Algorithm update method and apparatus
CN113031870A (zh) * 2021-03-26 2021-06-25 山东英信计算机技术有限公司 一种集群系统动态管理方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN107171888A (zh) 一种基于cAdvisor的集群性能监测方法
CN106020930B (zh) 一种基于应用容器的应用管理方法及系统
US20230400990A1 (en) System and method for performing live partitioning in a data store
US10387402B2 (en) System and method for conditionally updating an item with attribute granularity
CN105357296B (zh) 一种Docker云平台下弹性缓存系统
US9754009B2 (en) System and method for implementing a scalable data storage service
CN101667034B (zh) 一种易扩展的、支持异构集群的监控系统
US11609697B2 (en) System and method for providing a committed throughput level in a data store
CN102169484B (zh) 虚拟化环境中综合的、相关的和动态的数据搜索
CN106302771A (zh) 一种基于Docker容器创建的应用的域名配置方法
CN104951360A (zh) 基于Docker的配置管理方式及装置
CN107404524A (zh) 一种分布式集群节点访问的方法及装置
US20170322826A1 (en) Setting support program, setting support method, and setting support device
CN103473696A (zh) 一种收集、分析和分发网络商业信息的方法和系统
CN107908521A (zh) 一种应用于云环境下的服务器性能以及节点上的容器性能的监控方法
CN102868744A (zh) 一种实现SaaS与IaaS自动化集成管理的方法
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
CN109753244A (zh) 一种Redis集群的应用方法
CN110138577A (zh) 集群创建方法、第一服务器以及可读存储介质
CN113301590A (zh) 一种面向5g接入网的虚拟资源管控系统
CN113127526A (zh) 一种基于Kubernetes的分布式数据存储和检索系统
CN104461736B (zh) 资源分配与搜索方法、资源分配与搜索系统和云服务器
US10101993B2 (en) System and method for updating content without downtime
CN107436790A (zh) 一种组件升级管理方法及装置
US10642594B2 (en) System and method for updating monitoring software using content model with validity attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915