CN106878111A - 一种高可用的云监控系统及监控方法 - Google Patents
一种高可用的云监控系统及监控方法 Download PDFInfo
- Publication number
- CN106878111A CN106878111A CN201710153557.2A CN201710153557A CN106878111A CN 106878111 A CN106878111 A CN 106878111A CN 201710153557 A CN201710153557 A CN 201710153557A CN 106878111 A CN106878111 A CN 106878111A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- time
- monitor
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
- H04L43/024—Capturing of monitoring data by sampling by adaptive sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种高可用的云监控系统及监控方法,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;所述的待检测节点包括物理主机和虚拟机;动态调整agent采集数据的周期,减少监控系统冗余数据的传输,保证云监控系统的高效稳定。同时节点定时报告自己的运行状态,并通过选举算法避免了单节点失效问题的发生。
Description
技术领域
本发明属于云计算技术领域;具体涉及一种高可用的云监控系统及监控方法。
背景技术
云资源监控系统是保证云平台正常运转的关键,旨在收集资源负载信息,是作业调度、负载均衡、事件预测、故障检测及恢复等的前提。
对云平台上动态、复杂的虚拟资源进行实时、有效的监控和管理是保证云平台可用性的关键。
现有云监控系统中,为实时反映云平台中的资源负载情况,监控组件需要大量收集资源负载信息,监控组件与被监控资源间存在频繁的数据传输,造成较大的通信开销,容易导致网络拥堵,很难做到监控信息的实时同步和监控系统的稳定可靠,并对云平台的运转造成干扰,影响云平台的正常使用,降低服务质量。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种高可用的云监控系统及监控方法;以解决上述技术问题,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种高可用的云监控系统及监控方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至SERVER服务端;
所述的待检测节点包括物理主机和虚拟机。
优选地,各agent模块之间定期相互发送心跳信息。
本发明还给出一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本(BAT或是SHELL形式)通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的Server服务端。
作为优选,所述步骤1)中,监控任务包括监控指标(cpu,内存,存储等)以及监控脚本的存放路径。
作为优选,所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
作为优选,所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i)①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i))②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
本发明的有益效果在于,动态调整agent采集数据的周期,减少监控系统冗余数据的传输,保证云监控系统的高效稳定。同时节点定时报告自己的运行状态,并通过选举算法避免了单节点失效问题的发生。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是本发明提供的一种高可用的云监控系统的原理框图。
其中,1-agent模块,2-agentCluster,3-虚拟机,4-物理主机,5-Server服务端,6-消息队列。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
如图1所示,本发明提供的一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;
所述的待检测节点包括物理主机和虚拟机。
本实施例中,各agent模块之间定期相互发送心跳信息。
本发明还给出一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本(BAT或是SHELL形式)通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的SERVER服务端。
本实施例中,所述步骤1)中,监控任务包括监控指标(cpu,内存,存储等)以及监控脚本的存放路径。
所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i) ①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i)) ②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (6)
1.一种高可用的云监控系统,它包括设置于各个待检测节点的agent模块;其特征在于,各agent模块将采集到的待检测节点的状态信息发送到agentCluster节点,agentCluster节点将采集到的数据发送至Server服务端;所述的待检测节点包括物理主机和虚拟机。
2.根据权利要求1所述的一种高可用的云监控系统,其特征在于:各agent模块之间定期相互发送心跳信息。
3.一种高可用的云监控方法,包括以下步骤:
步骤1):在待监控主机中设置智能agent模块,并通过Server服务端以文件的形式将监控任务发送到待监控主机中;待监控主机包括物理主机以及虚拟机;
步骤2):将监控脚本通过Server服务端传送到待监控物理主机以及虚拟机中;脚本传输完结束后向agent模块传送监控命令,agent模块收到命令后运行对应的脚本文件,采集监控数据;
步骤3):以物理主机中的agent模块作为agentCluster节点,虚拟机中的agent作为Cluster群集合的成员;Cluster群集合成员中的各agent模块之间以固定时间Theartbeating发送心跳数据报文,作为各agent模块存活的标志;
步骤4):各agent模块依据任务列表读取任务脚本,发送采集到的数据给agentCluster节点;初始监控周期为default_monitor_time(i),同时设置监控周期变化步长,采样的时间间隔的调整大小为原子时间atomic_time(i)的整数倍;
步骤5):agent分别为不同的监控指标建立对应的存储队列,并计算数据缓冲队列中的数据的偏差情况,其计算使用如下模型:
其中δ表示样本数据的标准差,Xi为采集到的第i个数据的状态信息;
步骤6):在步骤5)的基础上,定义第i个监控指标的数据偏差的上限为threshold(i);如果采集到的数据的变化趋势较为平稳即δ<threshold(i),则增大数据监控采样周期,如果监控采集到的数据的变化趋势较大,即δ>=threshold(i),则缩小数据监控采样周期的大小;
步骤7):agentCluster节点接收到数据之后,将监控数据通过消息队列发送给监控平台的SERVER服务端。
4.根据权利要求3所述的一种高可用的云监控方法,其特征在于:所述步骤1)中,监控任务包括监控指标以及监控脚本的存放路径。
5.根据权利要求3或4所述的一种高可用的云监控方法,其特征在于:所述步骤3)中还包括以下步骤:
当agent超过时间Theartbeating,没有发送心跳数据,则认为该agent已关闭;agentCluster节点负责定时报告成员agent的运行状态;当cluster群集合成员发现agentCluster关闭,则启动分布式选举算法Paxos,重新选择agentCluster节点。
6.根据权利要求5所述的一种高可用的云监控方法,其特征在于:所述步骤6)中,增大数据监控采样周期的计算模型为:
monitor_time(i)=default_monitor_time(i)①
monitor_time(i)=monitor_time(i)+atomic_time(i)*f(δ,threshold(i))②
其中公式①表示监控指标i的采样周期的初始化设置;公式②表示监控指标i的采样周期的动态调整,其中f(δ,threshold(i))表示数据偏差值δ与阈值threshold(i)的对应函数关系;
缩小数据监控采样周期的计算模型为:
monitor_time(i)=max(monitor_time(i)/2,atomic_time(i))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710153557.2A CN106878111A (zh) | 2017-03-15 | 2017-03-15 | 一种高可用的云监控系统及监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710153557.2A CN106878111A (zh) | 2017-03-15 | 2017-03-15 | 一种高可用的云监控系统及监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106878111A true CN106878111A (zh) | 2017-06-20 |
Family
ID=59170768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710153557.2A Pending CN106878111A (zh) | 2017-03-15 | 2017-03-15 | 一种高可用的云监控系统及监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106878111A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107360025A (zh) * | 2017-07-07 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种分布式存储系统集群监控方法及设备 |
CN107707398A (zh) * | 2017-09-29 | 2018-02-16 | 郑州云海信息技术有限公司 | 云计算系统中管理物理主机的方法和装置 |
CN107948330A (zh) * | 2018-01-04 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种云环境下基于动态优先级的负载均衡策略 |
CN109086122A (zh) * | 2018-08-16 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种虚拟机的监控方法、装置和存储介质 |
CN109165138A (zh) * | 2018-08-01 | 2019-01-08 | 网宿科技股份有限公司 | 一种监控设备故障的方法和装置 |
CN109976974A (zh) * | 2019-03-08 | 2019-07-05 | 昆明理工大学 | 一种针对运行状态判断的云计算环境下系统监测方法 |
CN110140326A (zh) * | 2017-12-08 | 2019-08-16 | 华为技术有限公司 | 对设备的性能数据进行采样的方法和装置 |
CN110247816A (zh) * | 2019-05-13 | 2019-09-17 | 中国联合网络通信集团有限公司 | 指标监控方法及装置 |
CN110275810A (zh) * | 2018-03-16 | 2019-09-24 | 厦门靠谱云股份有限公司 | 一种基于插件形式云服务器性能收集管理系统 |
CN110933148A (zh) * | 2019-11-15 | 2020-03-27 | 苏州浪潮智能科技有限公司 | 一种监控方法、系统、设备及存储介质 |
CN114401273A (zh) * | 2022-01-18 | 2022-04-26 | 中国建设银行股份有限公司 | 一种设备控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103414579A (zh) * | 2013-07-24 | 2013-11-27 | 广东电子工业研究院有限公司 | 一种适用于云计算的跨平台监控系统及其监控方法 |
CN104113596A (zh) * | 2014-07-15 | 2014-10-22 | 华侨大学 | 一种私有云的云监控系统及方法 |
CN105262608A (zh) * | 2015-09-01 | 2016-01-20 | 北京百度网讯科技有限公司 | 用于网络服务的监控方法和装置 |
CN105634998A (zh) * | 2016-03-30 | 2016-06-01 | 中国联合网络通信集团有限公司 | 针对多租户环境下物理机与虚拟机统一监控的方法及系统 |
CN106250305A (zh) * | 2016-08-17 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 云计算环境下监控系统数据采集周期的自适应控制方法 |
-
2017
- 2017-03-15 CN CN201710153557.2A patent/CN106878111A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103414579A (zh) * | 2013-07-24 | 2013-11-27 | 广东电子工业研究院有限公司 | 一种适用于云计算的跨平台监控系统及其监控方法 |
CN104113596A (zh) * | 2014-07-15 | 2014-10-22 | 华侨大学 | 一种私有云的云监控系统及方法 |
CN105262608A (zh) * | 2015-09-01 | 2016-01-20 | 北京百度网讯科技有限公司 | 用于网络服务的监控方法和装置 |
CN105634998A (zh) * | 2016-03-30 | 2016-06-01 | 中国联合网络通信集团有限公司 | 针对多租户环境下物理机与虚拟机统一监控的方法及系统 |
CN106250305A (zh) * | 2016-08-17 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 云计算环境下监控系统数据采集周期的自适应控制方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107360025A (zh) * | 2017-07-07 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种分布式存储系统集群监控方法及设备 |
CN107360025B (zh) * | 2017-07-07 | 2020-11-10 | 郑州云海信息技术有限公司 | 一种分布式存储系统集群监控方法及设备 |
CN107707398A (zh) * | 2017-09-29 | 2018-02-16 | 郑州云海信息技术有限公司 | 云计算系统中管理物理主机的方法和装置 |
CN110140326A (zh) * | 2017-12-08 | 2019-08-16 | 华为技术有限公司 | 对设备的性能数据进行采样的方法和装置 |
CN107948330A (zh) * | 2018-01-04 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种云环境下基于动态优先级的负载均衡策略 |
CN110275810A (zh) * | 2018-03-16 | 2019-09-24 | 厦门靠谱云股份有限公司 | 一种基于插件形式云服务器性能收集管理系统 |
CN109165138A (zh) * | 2018-08-01 | 2019-01-08 | 网宿科技股份有限公司 | 一种监控设备故障的方法和装置 |
CN109165138B (zh) * | 2018-08-01 | 2022-06-17 | 网宿科技股份有限公司 | 一种监控设备故障的方法和装置 |
CN109086122A (zh) * | 2018-08-16 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种虚拟机的监控方法、装置和存储介质 |
CN109976974B (zh) * | 2019-03-08 | 2021-08-10 | 昆明理工大学 | 一种针对运行状态判断的云计算环境下系统监测方法 |
CN109976974A (zh) * | 2019-03-08 | 2019-07-05 | 昆明理工大学 | 一种针对运行状态判断的云计算环境下系统监测方法 |
CN110247816A (zh) * | 2019-05-13 | 2019-09-17 | 中国联合网络通信集团有限公司 | 指标监控方法及装置 |
CN110933148A (zh) * | 2019-11-15 | 2020-03-27 | 苏州浪潮智能科技有限公司 | 一种监控方法、系统、设备及存储介质 |
CN114401273A (zh) * | 2022-01-18 | 2022-04-26 | 中国建设银行股份有限公司 | 一种设备控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106878111A (zh) | 一种高可用的云监控系统及监控方法 | |
CN106250305B (zh) | 云计算环境下监控系统数据采集周期的自适应控制方法 | |
CN103763155A (zh) | 分布式云存储系统多服务心跳监测方法 | |
Reiss et al. | Data triage: An adaptive architecture for load shedding in telegraphcq | |
CN103001809B (zh) | 用于云存储系统的服务节点状态监控方法 | |
CN109922315A (zh) | 一种基于Spark与OpenCV的实时视频行为分析方法 | |
CN103581332B (zh) | HDFS架构及HDFS架构中NameNode节点的压力分解方法 | |
CN112565415B (zh) | 一种基于云边协同的跨地域资源纳管系统和纳管方法 | |
CN105868075A (zh) | 一种实时监控分析大量日志的系统及方法 | |
CN102413172B (zh) | 一种基于集群技术的并行数据共享装置方法和装置 | |
CN102739452A (zh) | 资源监控方法和系统 | |
CN109753385A (zh) | 一种面向流计算系统异常监控的恢复方法及系统 | |
CN109801399A (zh) | 新能源车辆故障实时报警方法及系统 | |
CN103618620A (zh) | 多层结构的前置机系统 | |
CN112118174A (zh) | 软件定义数据网关 | |
CN106982356A (zh) | 一种分布式大规模视频流处理系统 | |
CN104866528B (zh) | 多平台数据采集方法及系统 | |
CN106961367A (zh) | 基于openstack的云资源监控系统和方法 | |
CN106598700A (zh) | 基于pacemaker的虚拟机的秒级高可用实现方法 | |
Dunne et al. | A comparison of data streaming frameworks for anomaly detection in embedded systems | |
CN112202619A (zh) | 一种智能云计算网络流量调优系统和方法 | |
CN113873033B (zh) | 一种具有容错功能的智能边缘计算网关平台 | |
Zhou et al. | A data processing framework for IoT based online monitoring system | |
Kaicheng et al. | Vibration data fusion algorithm of auxiliaries in power plants based on wireless sensor networks | |
CN111639110A (zh) | 风电机组故障预警方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |