CN102647452B - 基于大规模云计算平台的自适应资源监控系统 - Google Patents

基于大规模云计算平台的自适应资源监控系统 Download PDF

Info

Publication number
CN102647452B
CN102647452B CN201210075394.8A CN201210075394A CN102647452B CN 102647452 B CN102647452 B CN 102647452B CN 201210075394 A CN201210075394 A CN 201210075394A CN 102647452 B CN102647452 B CN 102647452B
Authority
CN
China
Prior art keywords
resource
monitoring
data
queue
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210075394.8A
Other languages
English (en)
Other versions
CN102647452A (zh
Inventor
陈红
岳强
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201210075394.8A priority Critical patent/CN102647452B/zh
Publication of CN102647452A publication Critical patent/CN102647452A/zh
Application granted granted Critical
Publication of CN102647452B publication Critical patent/CN102647452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及到云计算技术领域,尤其是一种基于大规模云计算平台的自适应资源监控系统。本发明通过搭建云环境,构建多集群系统;获取云环境下网络拓扑图,根据拓扑图实现对每个节点或者虚拟机的状态监控;定制监控参数配置模板,对每个节点或者虚拟机的资源使用情况进行监控。本发明使得监控系统能很好的适应云平台上的资源的动态添加和退出,监控收集的信息能很好的反应平台的负载信息。本发明可应用于云计算平台资源监控中。

Description

基于大规模云计算平台的自适应资源监控系统
技术领域
本发明涉及到云计算技术领域,尤其是一种基于大规模云计算平台的自适应资源监控系统。
背景技术
云计算自从2007正式提出,才引起了学术界的注意,而之前它就已经以商业应用模式为用户提供了云服务,学术界对云计算的研究相对滞后。云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)和网格计算(Grid Computing)的继续发展。目前云计算主要有三种商业应用模式:IaaS(Infrastructure as a Service:基础设施即服务)、PaaS和SaaS(Software as aService:软件及服务),它们的出现及云计算本身的按需服务、高可靠性、高可扩展性、通用性及廉价等特点,越来越多的用户和企业开始关注和使用云计算提供的服务,云计算作为下一代互联网模式的趋势得到了用户和商业界的承认。
云计算环境下的集群节点是松散耦合的,要提供高质量的服务就必须要解决资源管理问题,而资源监控是资源管理的重要组成部分。在云计算环境下,各种资源都采用了虚拟化技术,资源的特性大多都被隐藏起来,但云计算应用系统还需要根据用户对资源的需求信息,如处理机的速度、内存空间大小、硬盘可用存储空间大小等,帮助用户找到合适的资源。若集群中的某个节点或者在某个节点上运行的虚拟机出现了问题,这就要求系统提供资源的状态信息,及时发现和解决故障,这些都完全依赖于资源监测技术。同时,资源监测得到的数据可以用于资源发现与分配、任务调度和负载均衡。资源监测信息对用户所使用资源的计费也有重大的指导作用。
发明内容
本发明解决的技术问题在于提供一种基于大规模云平台的自适应资源监控系统,可实时发现云平台动态资源的加入和退出,使云平台能更好的收集被监控节点的监控信息,并实时的反应云平台资源使用负载情况。
本发明解决上述技术问题技术方案是:
所述的系统包括资源监控模块、资源监控分析模块、数据收集模块和数据存储模块;
所述的资源监控模块,用于根据节点定制的监控模板的资源及其参数进行周期性地采样,并将数据发送给数据收集模块;
所述的资源监控分析模块,用于根据资源监控模块的采样信息进行数据传送方式的决策;
所述的数据收集模块,用于收集各种资源的采样数据,再根据一定的机制采用合适的推送方式发给数据存储模块;
所述的数据存储模块,用于将接收到的数据按照预定的格式进行存储;
所述的监控和分析的内容包括各种资源的实时采样值、判断是否超过预先设定的资源使用阈值;
当采样的资源信息超过了设定的阈值,则由agent端在没接收到server端pull消息时自动push资源监控的信息给server端;反之,agent在接受到pull消息后再实施传送数据的动作;
所述的数据收集模块根据资源分析模块的决策信息来决定数据传送的方式,保证资源的实时采样能很好的反应节点的负载信息;
所述的数据存储模块将请求写入数据库的数据排成两列:update对列和flush对列;所有更新了数据的监控参数按FIFO的方式进入update队列,但都不具有写入磁盘的资格;只有当它更新超过了设定的时长时才能按照FIFO的方式出update队列进入flush队列;在flush队列中也是按照FIFO的方式写入磁盘的。
flush队列写入磁盘的优先级高于update队列的优先级,只有从update队列进入flush队列的数据才能写入磁盘。
数据存储模块在update队列中的参数在等待过程中有更新数据时可以更新到队列中;当系统急需某节点的某监控参数,如果它在队列update中时,可以直接提高它的优先级,出update队列进图flush队列中。
本发明使得监控系统能很好的适应云平台上的资源的动态添加和退出,监控收集的信息能很好的反应平台的负载信息
附图说明
下面结合附图对本发明进一步说明:
图1为本发明自适应资源监控系统框图;
图2为本发明云平台自适应资源监控的流程图;
图3为本发明自适应资源发现流程图;
图4为本发明自适应节点资源监控的流程图。
具体实施方式
如图1所示,本发明的资源监控系统包括G101资源监控模块、G102资源监控分析模块、G103数据收集模块和G104数据存储模块;资源监控模块用于根据节点定制的监控模板的资源及其参数进行周期性地采样,并将数据发送给数据收集模块。资源监控分析模块用于根据资源监控模块的采样信息进行数据传送方式的决策。数据收集模块用于收集各种资源的采样数据,再根据一定的机制采用合适的推送方式发给数据存储模块。数据存储模块用于将接收到的数据按照预定的格式进行存储。前述监控和分析的内容包括各种资源的实时采样值、判断是否超过预先设定的资源使用阈值。当采样的资源信息超过了设定的阈值,则由agent端在没接收到server端pull消息时自动push资源监控的信息给server端;反之,agent在接受到pull消息后再实施传送数据的动作。
数据收集模块根据资源分析模块的决策信息来决定数据传送的方式,保证资源的实时采样能很好的反应节点的负载信息。
数据存储模块将请求写入数据库的数据排成两列:update对列和flush对列;所有更新了数据的监控参数按FIFO的方式进入update队列,但都不具有写入磁盘的资格;只有当它更新超过了设定的时长时才能按照FIFO的方式出update队列进入flush队列;在flush队列中也是按照FIFO的方式写入磁盘的。
flush队列写入磁盘的优先级高于update队列的优先级,只有从update队列进入flush队列的数据才能写入磁盘。
数据存储模块在update队列中的参数在等待过程中有更新数据时可以更新到队列中;当系统急需某节点的某监控参数,如果它在队列update中时,可以直接提高它的优先级,出update队列进图flush队列中。
如图2所示,本发明系统的自适应资源监控包括:
搭建云环境,构建多集群系统;
获取云环境下网络拓扑图,根据拓扑图实现对每个节点或者虚拟机的状态监控;
定制监控参数配置模板,对每个节点或者虚拟机的资源使用情况进行监控。
如果节点是动态加入,在云平台控制器注册节点信息并发现节点状态为运行时,向server端发送节点加入请求;server因请求事件主动ping节点的IP,ping通则更新云平台网络拓扑图,并为节点创建监控模板;反之,拒绝云平台控制器的请求;
如果节点是动态退出,云平台控制器监控到节点状态,对节点在云平台的信息进行清理并注销节点,通知server端节点的退出信息,更新云平台网络拓扑图。
在节点动态加入,如server拒绝云平台控制器的节点加入请求时,云平台控制器会继续请求,直至server端更新云平台网络拓扑结构图。
server通过读取ARP表以及路由表的表项被动探测获取节点信息,并将新发现的节点IP添加至网络拓扑图中;或,
server通过读取整个某个网段并将所有IP ping一次的主动探测获取ping通的节点,并添加至网络拓扑图中。
在云平台上建立监控模板库,并向用户提供监控模板定制;对于具有不同用途的虚拟机提供标准的监控模板。
server周期性地从各被监控虚拟机采用pull的方式获取监控数据,虚拟机则根据其资源性能与负载的变化决定将监控信息采用push方式发送给server。
一般情况server周期性地从各节点或虚拟机pull数据,当节点或虚拟机负载超过一定的阈值时,节点或虚拟机主动将其资源和负载信息采用push方式发给server,而且server端pull数据的方式同时存在。
本发明提供的一种基于大规模云平台自适应资源监控的方法,主要包括以下步骤:
步骤G001,在物理服务器上搭建云平台环境,然后构建虚拟的云服务集群。
步骤G002,在云平台上通过资源发现方法获取云平台的网络拓扑图,并监控平台上每个节点的运行状态。
步骤G003,根据节点的不同应用功能定制标准的监控模板,并根据模板对每个节点进行监控。在监控模板库中为不同的应用定制了监控模板,用户只需要稍加修改即可部署节点监控。对于那些有特殊用途的节点可以向用户提供创建监控模板的功能。
如图3所示,为本发明自适应资源发现方法的流程图,主要包括以下步骤:
步骤301,首先server要维护云平台的网络拓扑图,只有出现在拓扑图中的节点,才能被平台进行监控。
步骤302,判断节点是否为新创建。如果是,执行步骤307,反之,则执行步骤303。
步骤303,判断节点是否为新推出。如果是,执行步骤307,反之执行步骤304。
步骤304,判断节点状态是否为未知。如果是,执行步骤305,反之执行步骤306。
如图4所示,为本发明自适应节点资源监控的流程图,具体步骤如下:
步骤401,首先根据云平台的监控要求、负载要求等综合因素设置负载阈值。
步骤402,判断监控的节点的负载是否超过负载阈值。如果超过设置的阈值,执行步骤404;反之,执行403。

Claims (3)

1.一种基于大规模云平台的自适应资源监控系统,其特征在于:所述的系统包括资源监控模块、资源监控分析模块、数据收集模块和数据存储模块; 
所述的资源监控模块,用于根据节点定制的监控模板的资源及其参数进行周期性地采样,并将数据发送给数据收集模块; 
所述的资源监控分析模块,用于根据资源监控模块的采样信息进行数据传送方式的决策; 
所述的数据收集模块,用于收集各种资源的采样数据,再根据一定的机制采用合适的推送方式发给数据存储模块; 
所述的数据存储模块,用于将接收到的数据按照预定的格式进行存储; 
所述的监控和分析的内容包括各种资源的实时采样值、判断是否超过预先设定的资源使用阈值; 
当采样的资源信息超过了设定的阈值,则由agent端在没接收到server端pull消息时自动push资源监控的信息给server端;反之,agent在接受到pull消息后再实施传送数据的动作; 
所述的数据收集模块根据资源分析模块的决策信息来决定数据传送的方式,保证资源的实时采样能很好的反应节点的负载信息; 
所述的数据存储模块将请求写入数据库的数据排成两列:update 队列和flush 队列;所有更新了数据的监控参数按FIFO的方式进入update队列,但都不具有写入磁盘的资格;只有当它更新超过了设定的时长时才能按照FIFO的方式出update队列进入flush队列;在flush队列中也是按照FIFO的方式写入磁盘的。 
2.根据权利要求1所述的大规模云平台的自适应资源监控系统,其特征在于:flush队列写入磁盘的优先级高于update队列的优先级,只有从update队列进入flush队列的数据才能写入磁盘。 
3.根据权利要求1或2所述的大规模云平台的自适应资源监控系统,其特征在于:数据存储模块在update队列中的参数在等待过程中有更新数据时可以更新到队列中;当系统急需某节点的某监控参数,如果它在队列update中时,可以直接提高它的优先级,出update队列进 入flush队列中。 
CN201210075394.8A 2012-03-20 2012-03-20 基于大规模云计算平台的自适应资源监控系统 Active CN102647452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210075394.8A CN102647452B (zh) 2012-03-20 2012-03-20 基于大规模云计算平台的自适应资源监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210075394.8A CN102647452B (zh) 2012-03-20 2012-03-20 基于大规模云计算平台的自适应资源监控系统

Publications (2)

Publication Number Publication Date
CN102647452A CN102647452A (zh) 2012-08-22
CN102647452B true CN102647452B (zh) 2014-07-09

Family

ID=46660025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210075394.8A Active CN102647452B (zh) 2012-03-20 2012-03-20 基于大规模云计算平台的自适应资源监控系统

Country Status (1)

Country Link
CN (1) CN102647452B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102891774A (zh) * 2012-09-03 2013-01-23 浪潮(北京)电子信息产业有限公司 一种云计算系统中监控虚拟机状态并提示告警的方法
CN102946433B (zh) * 2012-11-22 2015-07-29 合肥华云通信技术有限公司 云公共服务平台下的大规模计算机资源的监控和调度方法
CN102968339B (zh) * 2012-12-19 2015-06-17 普元信息技术股份有限公司 基于云计算架构实现复杂事件处理的系统及其方法
CN103024060B (zh) * 2012-12-20 2015-05-13 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN103049317B (zh) * 2013-01-10 2016-03-23 中国南方电网有限责任公司超高压输电公司 云环境下基于队列的高并发数据快速写入系统及方法
CN103490941B (zh) * 2013-03-07 2016-08-03 中标软件有限公司 一种云计算环境中实时监控在线配置方法
CN104102480B (zh) * 2013-04-11 2018-09-04 腾讯科技(深圳)有限公司 生成配置文件的方法和装置
CN103294584B (zh) * 2013-06-24 2016-03-30 北京华胜天成科技股份有限公司 一种计算机资源使用情况的展示方法及装置
CN103346914A (zh) * 2013-07-03 2013-10-09 曙光信息产业(北京)有限公司 分布式文件系统的拓扑结构更新方法和装置
CN103414589B (zh) * 2013-08-13 2016-11-23 华为技术有限公司 一种管理资源信息的方法及装置
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103780696A (zh) * 2014-01-23 2014-05-07 北京荣之联科技股份有限公司 基于分布式推送的云监控方法、装置及系统
CN103942132B (zh) * 2014-03-26 2017-05-24 广州杰赛科技股份有限公司 添加目标节点到数据采集器的方法和装置
CN104486445B (zh) * 2014-12-30 2017-03-22 北京天云融创软件技术有限公司 一种基于云平台的分布式可扩展资源监控系统
CN106454878A (zh) * 2015-08-12 2017-02-22 中兴通讯股份有限公司 一种更新监控任务的方法和装置
CN106487601B (zh) * 2015-08-24 2021-04-30 中兴通讯股份有限公司 资源监控方法、装置及系统
CN105763627A (zh) * 2016-04-11 2016-07-13 浪潮电子信息产业股份有限公司 一种管理数据中心的方法及装置
CN106713003B (zh) * 2016-05-12 2020-06-23 深信服科技股份有限公司 基于网络拓扑图的虚拟节点创建方法及装置
CN106506203B (zh) * 2016-10-25 2019-12-10 杭州云象网络技术有限公司 一种应用于区块链的节点监控系统
CN107104852A (zh) * 2017-03-28 2017-08-29 深圳市神云科技有限公司 监控云平台虚拟网络环境的方法及装置
CN107085539B (zh) * 2017-04-27 2019-12-10 北京邮电大学 一种云数据库系统以及云数据库资源动态调整方法
CN108984249A (zh) * 2018-06-26 2018-12-11 郑州云海信息技术有限公司 一种资源拓扑图设置方法和装置
CN109032890A (zh) * 2018-07-23 2018-12-18 国云科技股份有限公司 一种混合云数据中心大屏监控方法
CN110837453B (zh) * 2019-11-01 2023-09-01 山东中创软件商用中间件股份有限公司 一种公文交换平台的监控方法及相关装置
CN111694857B (zh) * 2020-06-12 2023-11-07 北京百度网讯科技有限公司 存储资源数据的方法、装置、电子设备及计算机可读介质
CN116367157B (zh) * 2023-06-01 2023-08-01 深圳市北测检测技术有限公司 一种基于5g通信网络的安全认证方法及装置
CN117573907B (zh) * 2024-01-16 2024-04-26 北京航空航天大学杭州创新研究院 一种移动机器人数据存储方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808139A (zh) * 2010-03-31 2010-08-18 重庆索伦互联网信息服务有限公司 云环境中的数据存储系统
CN101969401A (zh) * 2010-10-13 2011-02-09 中国科学院深圳先进技术研究院 自适应云计算方法和系统
CN102193525A (zh) * 2010-03-05 2011-09-21 朗德华信(北京)自控技术有限公司 基于云计算的设备监控系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193525A (zh) * 2010-03-05 2011-09-21 朗德华信(北京)自控技术有限公司 基于云计算的设备监控系统及方法
CN101808139A (zh) * 2010-03-31 2010-08-18 重庆索伦互联网信息服务有限公司 云环境中的数据存储系统
CN101969401A (zh) * 2010-10-13 2011-02-09 中国科学院深圳先进技术研究院 自适应云计算方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨刚等.面向云计算平台自适应资源监测方法.《计算机工程与应用》.2009,第45卷(第29期),第14-17页.
面向云计算平台自适应资源监测方法;杨刚等;《计算机工程与应用》;20091127;第45卷(第29期);4.1模型和4.2自适应监测方法部分 *

Also Published As

Publication number Publication date
CN102647452A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102647452B (zh) 基于大规模云计算平台的自适应资源监控系统
CN105025095B (zh) 实现云计算弹性服务的集群架构
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
EP3477894B1 (en) Method and device for controlling virtualized broadband remote access server (vbras), and communication system
Nastic et al. Polaris scheduler: Edge sensitive and slo aware workload scheduling in cloud-edge-iot clusters
US12026536B2 (en) Rightsizing virtual machine deployments in a cloud computing environment
CN103297543A (zh) 一种基于计算机集群作业调度的方法
CN103279351A (zh) 一种任务调度的方法及装置
CN107977254B (zh) 云数据系统中请求的响应方法和计算机可读存储介质
US11765014B2 (en) Intent-based distributed alarm service
US11411799B2 (en) Scalable statistics and analytics mechanisms in cloud networking
CN108845865A (zh) 一种监控服务部署方法、系统和存储介质
CN110688213A (zh) 一种基于边缘计算的资源管理方法、系统及电子设备
US11381461B1 (en) Systems and methods for automated network state and network inventory tracking
WO2024077881A1 (zh) 神经网络训练的调度方法、系统及计算机可读存储介质
CN114490021A (zh) 一种面向物联网边缘计算的云边协同系统及方法
CN113812118A (zh) 网络中的可扩展分层数据自动化
CN114301809A (zh) 一种边缘计算平台架构
CN110099116B (zh) 一种基于大数据的子网安全性评估方法
US20240054318A1 (en) Distributed artificial intelligence runtime at the network edge as a service
Yongdnog et al. A scalable and integrated cloud monitoring framework based on distributed storage
CN114819754A (zh) 一种基于边缘计算的物流企业碳排放量的检测方法及装置
Eisele et al. Towards an architecture for evaluating and analyzing decentralized fog applications
CN114500530A (zh) 一种民用边缘信息系统自动调整方法
CN113900786A (zh) 一种基于图数据的分布式计算方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant