CN106878111A - 一种高可用的云监控系统及监控方法 - Google Patents

一种高可用的云监控系统及监控方法 Download PDF

Info

Publication number
CN106878111A
CN106878111A CN201710153557.2A CN201710153557A CN106878111A CN 106878111 A CN106878111 A CN 106878111A CN 201710153557 A CN201710153557 A CN 201710153557A CN 106878111 A CN106878111 A CN 106878111A
Authority
CN
China
Prior art keywords
data
monitoring
time
monitor
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710153557.2A
Other languages
English (en)
Inventor
张建伟
高传集
孙思清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710153557.2A priority Critical patent/CN106878111A/zh
Publication of CN106878111A publication Critical patent/CN106878111A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • H04L43/024Capturing of monitoring data by sampling by adaptive sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种高可用的云监控系统及监控方法,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;所述的待检测节点包括物理主机和虚拟机;动态调整agent采集数据的周期,减少监控系统冗余数据的传输,保证云监控系统的高效稳定。同时节点定时报告自己的运行状态,并通过选举算法避免了单节点失效问题的发生。

Description

一种高可用的云监控系统及监控方法
技术领域
本发明属于云计算技术领域;具体涉及一种高可用的云监控系统及监控方法。
背景技术
云资源监控系统是保证云平台正常运转的关键,旨在收集资源负载信息,是作业调度、负载均衡、事件预测、故障检测及恢复等的前提。
对云平台上动态、复杂的虚拟资源进行实时、有效的监控和管理是保证云平台可用性的关键。
现有云监控系统中,为实时反映云平台中的资源负载情况,监控组件需要大量收集资源负载信息,监控组件与被监控资源间存在频繁的数据传输,造成较大的通信开销,容易导致网络拥堵,很难做到监控信息的实时同步和监控系统的稳定可靠,并对云平台的运转造成干扰,影响云平台的正常使用,降低服务质量。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种高可用的云监控系统及监控方法;以解决上述技术问题,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种高可用的云监控系统及监控方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至SERVER服务端;
所述的待检测节点包括物理主机和虚拟机。
优选地,各agent模块之间定期相互发送心跳信息。
本发明还给出一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本(BAT或是SHELL形式)通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的Server服务端。
作为优选,所述步骤1)中,监控任务包括监控指标(cpu,内存,存储等)以及监控脚本的存放路径。
作为优选,所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
作为优选,所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i)①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i))②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
本发明的有益效果在于,动态调整agent采集数据的周期,减少监控系统冗余数据的传输,保证云监控系统的高效稳定。同时节点定时报告自己的运行状态,并通过选举算法避免了单节点失效问题的发生。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是本发明提供的一种高可用的云监控系统的原理框图。
其中,1-agent模块,2-agentCluster,3-虚拟机,4-物理主机,5-Server服务端,6-消息队列。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
如图1所示,本发明提供的一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;
所述的待检测节点包括物理主机和虚拟机。
本实施例中,各agent模块之间定期相互发送心跳信息。
本发明还给出一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本(BAT或是SHELL形式)通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的SERVER服务端。
本实施例中,所述步骤1)中,监控任务包括监控指标(cpu,内存,存储等)以及监控脚本的存放路径。
所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i) ①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i)) ②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (6)

1.一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;所述的待检测节点包括物理主机和虚拟机。
2.根据权利要求1所述的一种高可用的云监控系统,其特征在于:各agent模块之间定期相互发送心跳信息。
3.一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
δ = Σ i = 1 n ( X i - X ) 2 n - 1
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的SERVER服务端。
4.根据权利要求3所述的一种高可用的云监控方法,其特征在于:所述步骤1)中,监控任务包括监控指标以及监控脚本的存放路径。
5.根据权利要求3或4所述的一种高可用的云监控方法,其特征在于:所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
6.根据权利要求5所述的一种高可用的云监控方法,其特征在于:所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i)①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i))②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
CN201710153557.2A 2017-03-15 2017-03-15 一种高可用的云监控系统及监控方法 Pending CN106878111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710153557.2A CN106878111A (zh) 2017-03-15 2017-03-15 一种高可用的云监控系统及监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710153557.2A CN106878111A (zh) 2017-03-15 2017-03-15 一种高可用的云监控系统及监控方法

Publications (1)

Publication Number Publication Date
CN106878111A true CN106878111A (zh) 2017-06-20

Family

ID=59170768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710153557.2A Pending CN106878111A (zh) 2017-03-15 2017-03-15 一种高可用的云监控系统及监控方法

Country Status (1)

Country Link
CN (1) CN106878111A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN107707398A (zh) * 2017-09-29 2018-02-16 郑州云海信息技术有限公司 云计算系统中管理物理主机的方法和装置
CN107948330A (zh) * 2018-01-04 2018-04-20 郑州云海信息技术有限公司 一种云环境下基于动态优先级的负载均衡策略
CN109086122A (zh) * 2018-08-16 2018-12-25 郑州云海信息技术有限公司 一种虚拟机的监控方法、装置和存储介质
CN109165138A (zh) * 2018-08-01 2019-01-08 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN110140326A (zh) * 2017-12-08 2019-08-16 华为技术有限公司 对设备的性能数据进行采样的方法和装置
CN110247816A (zh) * 2019-05-13 2019-09-17 中国联合网络通信集团有限公司 指标监控方法及装置
CN110275810A (zh) * 2018-03-16 2019-09-24 厦门靠谱云股份有限公司 一种基于插件形式云服务器性能收集管理系统
CN110933148A (zh) * 2019-11-15 2020-03-27 苏州浪潮智能科技有限公司 一种监控方法、系统、设备及存储介质
CN114401273A (zh) * 2022-01-18 2022-04-26 中国建设银行股份有限公司 一种设备控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414579A (zh) * 2013-07-24 2013-11-27 广东电子工业研究院有限公司 一种适用于云计算的跨平台监控系统及其监控方法
CN104113596A (zh) * 2014-07-15 2014-10-22 华侨大学 一种私有云的云监控系统及方法
CN105262608A (zh) * 2015-09-01 2016-01-20 北京百度网讯科技有限公司 用于网络服务的监控方法和装置
CN105634998A (zh) * 2016-03-30 2016-06-01 中国联合网络通信集团有限公司 针对多租户环境下物理机与虚拟机统一监控的方法及系统
CN106250305A (zh) * 2016-08-17 2016-12-21 浪潮电子信息产业股份有限公司 云计算环境下监控系统数据采集周期的自适应控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414579A (zh) * 2013-07-24 2013-11-27 广东电子工业研究院有限公司 一种适用于云计算的跨平台监控系统及其监控方法
CN104113596A (zh) * 2014-07-15 2014-10-22 华侨大学 一种私有云的云监控系统及方法
CN105262608A (zh) * 2015-09-01 2016-01-20 北京百度网讯科技有限公司 用于网络服务的监控方法和装置
CN105634998A (zh) * 2016-03-30 2016-06-01 中国联合网络通信集团有限公司 针对多租户环境下物理机与虚拟机统一监控的方法及系统
CN106250305A (zh) * 2016-08-17 2016-12-21 浪潮电子信息产业股份有限公司 云计算环境下监控系统数据采集周期的自适应控制方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN107360025B (zh) * 2017-07-07 2020-11-10 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN107707398A (zh) * 2017-09-29 2018-02-16 郑州云海信息技术有限公司 云计算系统中管理物理主机的方法和装置
CN110140326A (zh) * 2017-12-08 2019-08-16 华为技术有限公司 对设备的性能数据进行采样的方法和装置
CN107948330A (zh) * 2018-01-04 2018-04-20 郑州云海信息技术有限公司 一种云环境下基于动态优先级的负载均衡策略
CN110275810A (zh) * 2018-03-16 2019-09-24 厦门靠谱云股份有限公司 一种基于插件形式云服务器性能收集管理系统
CN109165138A (zh) * 2018-08-01 2019-01-08 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN109165138B (zh) * 2018-08-01 2022-06-17 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN109086122A (zh) * 2018-08-16 2018-12-25 郑州云海信息技术有限公司 一种虚拟机的监控方法、装置和存储介质
CN109976974B (zh) * 2019-03-08 2021-08-10 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN110247816A (zh) * 2019-05-13 2019-09-17 中国联合网络通信集团有限公司 指标监控方法及装置
CN110933148A (zh) * 2019-11-15 2020-03-27 苏州浪潮智能科技有限公司 一种监控方法、系统、设备及存储介质
CN114401273A (zh) * 2022-01-18 2022-04-26 中国建设银行股份有限公司 一种设备控制方法及系统

Similar Documents

Publication Publication Date Title
CN106878111A (zh) 一种高可用的云监控系统及监控方法
CN106250305B (zh) 云计算环境下监控系统数据采集周期的自适应控制方法
CN103763155A (zh) 分布式云存储系统多服务心跳监测方法
Reiss et al. Data triage: An adaptive architecture for load shedding in telegraphcq
CN103001809B (zh) 用于云存储系统的服务节点状态监控方法
CN109922315A (zh) 一种基于Spark与OpenCV的实时视频行为分析方法
CN103581332B (zh) HDFS架构及HDFS架构中NameNode节点的压力分解方法
CN112565415B (zh) 一种基于云边协同的跨地域资源纳管系统和纳管方法
CN105868075A (zh) 一种实时监控分析大量日志的系统及方法
CN102413172B (zh) 一种基于集群技术的并行数据共享装置方法和装置
CN102739452A (zh) 资源监控方法和系统
CN109753385A (zh) 一种面向流计算系统异常监控的恢复方法及系统
CN109801399A (zh) 新能源车辆故障实时报警方法及系统
CN103618620A (zh) 多层结构的前置机系统
CN112118174A (zh) 软件定义数据网关
CN106982356A (zh) 一种分布式大规模视频流处理系统
CN104866528B (zh) 多平台数据采集方法及系统
CN106961367A (zh) 基于openstack的云资源监控系统和方法
CN106598700A (zh) 基于pacemaker的虚拟机的秒级高可用实现方法
Dunne et al. A comparison of data streaming frameworks for anomaly detection in embedded systems
CN112202619A (zh) 一种智能云计算网络流量调优系统和方法
CN113873033B (zh) 一种具有容错功能的智能边缘计算网关平台
Zhou et al. A data processing framework for IoT based online monitoring system
Kaicheng et al. Vibration data fusion algorithm of auxiliaries in power plants based on wireless sensor networks
CN111639110A (zh) 风电机组故障预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620