CN111800297A - 基于Snmp的云物理主机智能监控方法及系统 - Google Patents
基于Snmp的云物理主机智能监控方法及系统 Download PDFInfo
- Publication number
- CN111800297A CN111800297A CN202010644173.2A CN202010644173A CN111800297A CN 111800297 A CN111800297 A CN 111800297A CN 202010644173 A CN202010644173 A CN 202010644173A CN 111800297 A CN111800297 A CN 111800297A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- data
- physical host
- cloud physical
- snmp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 265
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000012423 maintenance Methods 0.000 claims abstract description 21
- 238000011161 development Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000008859 change Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 230000000737 periodic effect Effects 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0213—Standardised network management protocols, e.g. simple network management protocol [SNMP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Environmental & Geological Engineering (AREA)
- Data Mining & Analysis (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于Snmp的云物理主机智能监控方法及系统,属于云计算开发运维技术领域,本发明要解决的技术问题为如何提高监控系统的自适应能力,从而在保证不漏报的情况下,减少误报警的发生,采用的技术方案为:该方法是针对已经搭建好的私有云或公有云,通过Snmp监控各云物理主机实例的性能指标,并对各云物理主机的监控数据进行智能分析,从而对每个云物理主机给出有针对性的动态告警标准;智能分析过程中基础输入参数包括监控数据的平均值、监控数据的最大峰值及实时监控数据方差,智能分析结果的输出参数为每个云物理主机实例的各监控指标的告警阈值,从而实现对云物理主机的智能监控。
Description
技术领域
本发明涉及云计算开发运维技术领域,具体地说是一种基于Snmp的云物理 主机智能监控方法及系统。
背景技术
云计算(Cloud Computing)是分布式计算、并行计算、效用计算、网络存 储、虚拟化、负载均衡、热备冗余等传统计算机和网络技术发展融合的产物。 通过云计算可以在短时间内完成海量的数据处理,实现强大的网络服务。通常 具有大规模分布式、虚拟化、高可用拓展、按需配置以及安全等5大特性。
云物理主机(Cloud Physical Server)提供高性能、资源独享、安全隔离 的专属物理主机,满足核心应用对高性能及可靠性的需求,并提供完整的设备 管理权限及自动运维服务。物理主机同时具备云主机的敏捷性、灵活性与高可 用。云物理主机的大规模应用带来运维安全问题,当前传统的监控服务存在诸 多问题。例如监控遗漏导致宕机,出现故障无法从海量监控指标中迅速定位故 障源,报警风暴干扰运维人员的定位问题速度,故障恢复速度依赖与运维人员 的熟练程度。
在私有云以及公有云中,同时部署多个云物理主机实例。运维人员需要同 时对其性能、网络、状态进行监控,而客户人员也有对其性能、网络以及状态 监控的需求,但是前后二者的专业水平不同,关注的监控指标也不相同。客户 端只需要在云物理主机发生问题时,了解大致的问题然后提交运维端,而运维 人员需要更进一步,从监控数据中剖析问题发生的原因,甚至基于监控数据对 客户行为进行分析并给出合理化建议。有智能数据分析的监控系统,是解决该 类问题的关键。
传统的监控方式主要有:设置监控指标的固定范围,或者设置监控指标的 波动幅度范围。而这两种监控方法都是静态的,当云物理主机的实例发生周期 性状态变化时(如每天早上开始运行计算服务,晚上关闭计算服务),这种突升 突降的状态会触发误报警,大大增加运维人员的工作量。因此,如何提高监控 系统的自适应能力,从而在保证不漏报的情况下,减少误报警的发生成为目前 大规模云物理主机运维服务的亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于Snmp的云物理主机智能监控方法及系 统,来解决如何提高监控系统的自适应能力,从而在保证不漏报的情况下,减 少误报警的发生的问题。
本发明的技术任务是按以下方式实现的,一种基于Snmp的云物理主机智能 监控方法,该方法是针对已经搭建好的私有云或公有云,通过Snmp监控各云物 理主机实例的性能指标,并对各云物理主机的监控数据进行智能分析,从而对 每个云物理主机给出有针对性的动态告警标准;智能分析过程中基础输入参数 包括监控数据的平均值、监控数据的最大峰值及实时监控数据方差,智能分析 结果的输出参数为每个云物理主机实例的各监控指标的告警阈值,从而实现对 云物理主机的智能监控。
作为优选,该方法具体如下:
S1、通过Snmp协议对云物理主机进行监控:应用Snmp协议,将整个私有 云或公有云作为NMS(网络管理系统),并为监控Agent与Server添加指定的 监控指标;
S2、模块化的监控告警系统:将监控告警系统的各个功能进行模块化编程, 方便开发运维人员去维护管理;即将监控告警系统拆分为数据采集模块、数据 展示模块、监控告警模块及智能分析模块;
S3、对监控该数据的智能分析:从数据统计分析出发,对时序化的监控数 据进行周期分析与聚类分析,从而为动态监控阈值与监控告警规则的设置提供 依据。
更优地,所述数据采集模块用于设置监控指标初始阈值与初始告警规则, 对所有云物理主机实例进行监控,监控频率通过预定义的方式进行设置,并将 所有的监控数据存入时间序列数据库InfluxDB中;其中,监控频率包括1min、 10min、1h或1d。
更优地,所述数据展示模块用于基于采集的监控数据,通过Highcharts 进行图表化展示;其中,图表的横坐标选的时间标签为1min、10min、1h或1d, 图表的纵坐标选值为监控指标。
更优地,所述监控告警模块用于设置动态阀值和数据波动告警规则;
其中,设置动态阀值具体为结合历史数据的平均水平及峰值水平,与现有 监控数据进行对比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用 率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率 与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警。
更优地,所述智能分析模块用于基于监控数据、动态告警阈值及告警规则 对云物理主机实例的监控数据进行分析,并研究监控数据的变化周期与特征; 具体为:
数据毛刺的处理:利用小波变换去除数据毛刺,保证存入InfluxDB数据库 的数据具有代表性;其中,数据毛刺是指在一个监控周期内突然变化的值;
数据周期的处理:基于K-means聚类算法,将数据划分为低值区域、中值 区域及高值区域,当低值区域、中值区域及高值区域这3个区域的数据在时间 上具有连续性和周期性,则说明由低值区域、中值区域及高值区域这3个区域 组成的监控数据具有周期性,从而得到监控数据的变化时间周期。
一种基于Snmp的云物理主机智能监控系统,该系统包括,
监控单元,用于通过Snmp协议对云物理主机进行监控,具体是应用Snmp 协议,将整个私有云或公有云作为NMS(网络管理系统),并为监控Agent与 Server添加指定的监控指标;
模块化单元,用于模块化的监控告警系统,将监控告警系统的各个功能进 行模块化编程,方便开发运维人员去维护管理;即将监控告警系统拆分为数据 采集模块、数据展示模块、监控告警模块及智能分析模块;
智能分析单元,用于对监控该数据的智能分析,具体是从数据统计分析出 发,对时序化的监控数据进行周期分析与聚类分析,从而为动态监控阈值与监 控告警规则的设置提供依据。
作为优选,该系统的工作过程具体如下:
(1)、创建多个云物理主机实例{S1,S2,S3......Sn},适配Snmp监控服 务的镜像,并部署到各个实例上;
(2)、创建专门用于监控的云物理主机实例M1,适配包括Snmp监控服务 和时间序列数据库InfluxDB的镜像,并部署到实例M1上;
(3)、实例{S1,S2,S3......Sn}作为监控系统Agent,实例M1作为监控 Server,首先运行监控程序确保能遍历每个实例;
(4)、通过数据采集模块设置监控指标初始阈值与初始告警规则,对所有 云物理主机实例进行监控,监控频率通过预定义的方式进行设置,并将所有的 监控数据存入时间序列数据库InfluxDB中;其中,监控频率包括1min、10min、 1h或1d;
(5)、数据展示模块基于采集的监控数据,通过Highcharts进行图表化展 示;其中,图表的横坐标选的时间标签为1min、10min、1h或1d,图表的纵坐 标选值为监控指标;
(6)、通过监控告警模块设置动态阀值和数据波动告警规则;其中,设置 动态阀值具体为结合历史数据的平均水平及峰值水平,与现有监控数据进行对 比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用 率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率 与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警;
(7)、智能分析模块基于监控数据、动态告警阈值及告警规则对云物理主 机实例的监控数据进行分析,并研究监控数据的变化周期与特征;具体为:
数据毛刺的处理:利用小波变换去除数据毛刺,保证存入InfluxDB数据库 的数据具有代表性;其中,数据毛刺是指在一个监控周期内突然变化的值;
数据周期的处理:基于K-means聚类算法,将数据划分为低值区域、中值 区域及高值区域,当低值区域、中值区域及高值区域这3个区域的数据在时间 上具有连续性和周期性,则说明由低值区域、中值区域及高值区域这3个区域 组成的监控数据具有周期性,从而得到监控数据的变化时间周期。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至 少一个处理器执行如上述的基于Snmp的云物理主机智能监控方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行 指令,当处理器执行所述计算机执行时,实现如上述的基于Snmp的云物理主机 智能监控方法。
本发明的基于Snmp的云物理主机智能监控方法及系统具有以下优点:
(一)本发明针对一个已经搭建好的私有云或公有云,通过Snmp监控各云 物理主机实例的性能指标,再通过数据采集模块、数据展示模块、监控告警模 块及智能分析模块实现对云物理主机的智能监控,提高监控系统的自适应能力, 从而在保证不漏报的情况下,减少误报警的发生;
(二)本发明采用的Snmp简单网络管理协议(SNMP,Simple Network ManagementProtocol)是TCP/IP协议族的一部分,能支持对于网络设备的管 理以及监控,将其作为本发明的监控技术基础;粒度控制是系统设计的过程中, 根据使用对象的需求来控制设计的范围,基于计算机理论中的粒度控制理论, 对监控数据进行粒度分级,对已经告警的云物理主机实例进行细粒度监控,对 正常运行的云物理主机实例进行粗粒度监控,从而节省网络带宽和资源消耗;
(三)本发明采用时间序列数据库InfluxDB,主要用于处理带时间标签的 数据,对于时间序列数据写入速度快,且查询语法简单强大;由于监控数据都 是随时间变化的数据,因此将监控数据存入时序数据库InfluxDB,能够有效支 持监控系统的智能化与自动化;
(四)因为各个云物理主机的资源负载率各不相同,如果以一个统一标准 进行衡量,过于粗糙且实际监控效果不佳,引发监控风暴的情况时有发生。传 统的告警方式是在云物理主机出现CPU占用率超过指定数值(如90%、95%、98% 等)时,在运维端对系统发出告警,而如果这时仍运行监控程序,会加大系统 资源消耗,因此设置动态告警阈值,对云物理机进行动态预警很有必要;本发 明通对各云物理主机的监控数据进行智能分析,从而对每个云物理主机给出特 定的告警标准,分析模型的基础输入参数包括监控数据的平均值、监控数据的 最大峰值、实时监控数据方差,模型的输出参数为每个云物理主机实例的各监控指标的告警阈值,在监控告警时,通过模块化的监控告警系统,提高告警的 精准度与问题的定位速度。
附图说明
下面结合附图对本发明进一步说明。
附图1为智能监控系统的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于Snmp的云物理主机智能监 控方法及系统作以下详细地说明。
实施例1:
本发明的基于Snmp的云物理主机智能监控系统,该方法是针对已经搭建好 的私有云或公有云,通过Snmp监控各云物理主机实例的性能指标,并对各云物 理主机的监控数据进行智能分析,从而对每个云物理主机给出有针对性的动态 告警标准;智能分析过程中基础输入参数包括监控数据的平均值、监控数据的 最大峰值及实时监控数据方差,智能分析结果的输出参数为每个云物理主机实 例的各监控指标的告警阈值,从而实现对云物理主机的智能监控;该方法具体 如下:
S1、通过Snmp协议对云物理主机进行监控:应用Snmp协议,将整个私有 云或公有云作为NMS(网络管理系统),并为监控Agent与Server添加指定的 监控指标;
S2、模块化的监控告警系统:将监控告警系统的各个功能进行模块化编程, 方便开发运维人员去维护管理;即将监控告警系统拆分为数据采集模块、数据 展示模块、监控告警模块及智能分析模块,如附图1所示;其中,数据采集模 块用于设置监控指标初始阈值与初始告警规则,对所有云物理主机实例进行监 控,监控频率通过预定义的方式进行设置,并将所有的监控数据存入时间序列 数据库InfluxDB中;其中,监控频率包括1min、10min、1h或1d。
数据展示模块用于基于采集的监控数据,通过Highcharts进行图表化展示; 其中,图表的横坐标选的时间标签为1min、10min、1h或1d,图表的纵坐标选 值为监控指标。
监控告警模块用于设置动态阀值和数据波动告警规则;
其中,设置动态阀值:传统告警阈值的设置是在监控系统部署之前,进行 人为手工设置,如果云物理主机的状态发生变化(如核心应用刚开始部署时), 则原有的告警阈值不再适用。结合历史数据的平均水平及峰值水平,与现有监 控数据进行对比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用 率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率 与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警。
智能分析模块用于基于监控数据、动态告警阈值及告警规则对云物理主机 实例的监控数据进行分析,并研究监控数据的变化周期与特征;具体为:
数据毛刺的处理:在将监控数据存入InfluxDB数据库时,由于资源占用率 是一个持续变化的值,所以可能会出现一个监控周期内突然变化的值,这个值 一般称为数据毛刺。数据毛刺对于后续的告警规则分析有较大的影响。因此, 利用小波变换去除数据毛刺,保证存入InfluxDB数据库的数据具有代表性。
数据周期的处理:对于云物理主机而言,其监控数据具有一定的时间周期 性,识别数据的周期性变化,能够为动态告警阈值以及告警规则的设置提供依 据。基于K-means聚类算法,将数据划分为低值区域、中值区域及高值区域, 当低值区域、中值区域及高值区域这3个区域的数据在时间上具有连续性和周 期性,则说明由低值区域、中值区域及高值区域这3个区域组成的监控数据具 有周期性,从而得到监控数据的变化时间周期。
S3、对监控该数据的智能分析:从数据统计分析出发,对时序化的监控数 据进行周期分析与聚类分析,从而为动态监控阈值与监控告警规则的设置提供 依据。
实施例2:
本发明的基于Snmp的云物理主机智能监控系统,该系统包括,
监控单元,用于通过Snmp协议对云物理主机进行监控,具体是应用Snmp 协议,将整个私有云或公有云作为NMS(网络管理系统),并为监控Agent与Server添加指定的监控指标;
模块化单元,用于模块化的监控告警系统,将监控告警系统的各个功能进 行模块化编程,方便开发运维人员去维护管理;即将监控告警系统拆分为数据 采集模块、数据展示模块、监控告警模块及智能分析模块;
智能分析单元,用于对监控该数据的智能分析,具体是从数据统计分析出 发,对时序化的监控数据进行周期分析与聚类分析,从而为动态监控阈值与监 控告警规则的设置提供依据。
如附图1所示,该系统的工作过程具体如下:
(1)、创建多个云物理主机实例{S1,S2,S3......Sn},适配Snmp监控服 务的镜像,并部署到各个实例上;
(2)、创建专门用于监控的云物理主机实例M1,适配包括Snmp监控服务 和时间序列数据库InfluxDB的镜像,并部署到实例M1上;
(3)、实例{S1,S2,S3......Sn}作为监控系统Agent,实例M1作为监控 Server,首先运行监控程序确保能遍历每个实例;
(4)、通过数据采集模块设置监控指标初始阈值与初始告警规则,对所有 云物理主机实例进行监控,监控频率通过预定义的方式进行设置,监控指标如 表1所示,并将所有的监控数据存入时间序列数据库InfluxDB中;其中,监控 频率包括1min、10min、1h或1d;
(5)、数据展示模块基于采集的监控数据,通过Highcharts进行图表化展 示;其中,图表的横坐标选的时间标签为1min、10min、1h或1d,图表的纵坐 标选值为监控指标,如表1所示;
表1监控指标详情表
(6)、通过监控告警模块设置动态阀值和数据波动告警规则;
其中,设置动态阀值:传统告警阈值的设置是在监控系统部署之前,进行 人为手工设置,如果云物理主机的状态发生变化(如核心应用刚开始部署时), 则原有的告警阈值不再适用。结合历史数据的平均水平及峰值水平,与现有监 控数据进行对比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用 率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率 与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警;
(7)、智能分析模块基于监控数据、动态告警阈值及告警规则对云物理主 机实例的监控数据进行分析,并研究监控数据的变化周期与特征;具体为:
数据毛刺的处理:在将监控数据存入InfluxDB数据库时,由于资源占用率 是一个持续变化的值,所以可能会出现一个监控周期内突然变化的值,这个值 一般称为数据毛刺。数据毛刺对于后续的告警规则分析有较大的影响。因此, 利用小波变换去除数据毛刺,保证存入InfluxDB数据库的数据具有代表性。
数据周期的处理:对于云物理主机而言,其监控数据具有一定的时间周期 性,识别数据的周期性变化,能够为动态告警阈值以及告警规则的设置提供依 据。基于K-means聚类算法,将数据划分为低值区域、中值区域及高值区域, 当低值区域、中值区域及高值区域这3个区域的数据在时间上具有连续性和周 期性,则说明由低值区域、中值区域及高值区域这3个区域组成的监控数据具 有周期性,从而得到监控数据的变化时间周期。
实施例5:
本发明实施例还提供了一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至 少一个处理器执行如权利要求1至X任一项所述的XX方法。
实施例6:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令, 指令由处理器加载,使处理器执行本发明任一实施例中的XXXX方法。具体地, 可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施 例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU 或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何 一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的 一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于SNMP的云物理主机智能监控方法 及系统M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以 由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且 可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全 部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的 扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储 器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执 行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于Snmp的云物理主机智能监控方法,其特征在于,该方法是针对已经搭建好的私有云或公有云,通过Snmp监控各云物理主机实例的性能指标,并对各云物理主机的监控数据进行智能分析,从而对每个云物理主机给出有针对性的动态告警标准;智能分析过程中基础输入参数包括监控数据的平均值、监控数据的最大峰值及实时监控数据方差,智能分析结果的输出参数为每个云物理主机实例的各监控指标的告警阈值,从而实现对云物理主机的智能监控。
2.根据权利要求1所述的基于Snmp的云物理主机智能监控方法,其特征在于,该方法具体如下:
S1、通过Snmp协议对云物理主机进行监控:应用Snmp协议,将整个私有云或公有云作为NMS,并为监控Agent与Server添加指定的监控指标;
S2、模块化的监控告警系统:将监控告警系统的各个功能进行模块化编程,方便开发运维人员去维护管理;即将监控告警系统拆分为数据采集模块、数据展示模块、监控告警模块及智能分析模块;
S3、对监控该数据的智能分析:从数据统计分析出发,对时序化的监控数据进行周期分析与聚类分析,从而为动态监控阈值与监控告警规则的设置提供依据。
3.根据权利要求2所述的基于Snmp的云物理主机智能监控方法,其特征在于,所述数据采集模块用于设置监控指标初始阈值与初始告警规则,对所有云物理主机实例进行监控,监控频率通过预定义的方式进行设置,并将所有的监控数据存入时间序列数据库InfluxDB中;其中,监控频率包括1min、10min、1h或1d。
4.根据权利要求2所述的基于Snmp的云物理主机智能监控方法,其特征在于,所述数据展示模块用于基于采集的监控数据,通过Highcharts进行图表化展示;其中,图表的横坐标选的时间标签为1min、10min、1h或1d,图表的纵坐标选值为监控指标。
5.根据权利要求2所述的基于Snmp的云物理主机智能监控方法,其特征在于,所述监控告警模块用于设置动态阀值和数据波动告警规则;
其中,设置动态阀值具体为结合历史数据的平均水平及峰值水平,与现有监控数据进行对比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警。
6.根据权利要求2-5中任一所述的基于Snmp的云物理主机智能监控方法,其特征在于,所述智能分析模块用于基于监控数据、动态告警阈值及告警规则对云物理主机实例的监控数据进行分析,并研究监控数据的变化周期与特征;具体为:
数据毛刺的处理:利用小波变换去除数据毛刺,保证存入InfluxDB数据库的数据具有代表性;其中,数据毛刺是指在一个监控周期内突然变化的值;
数据周期的处理:基于K-means聚类算法,将数据划分为低值区域、中值区域及高值区域,当低值区域、中值区域及高值区域这3个区域的数据在时间上具有连续性和周期性,则说明由低值区域、中值区域及高值区域这3个区域组成的监控数据具有周期性,从而得到监控数据的变化时间周期。
7.一种基于Snmp的云物理主机智能监控系统,其特征在于,该系统包括,
监控单元,用于通过Snmp协议对云物理主机进行监控,具体是应用Snmp协议,将整个私有云或公有云作为NMS,并为监控Agent与Server添加指定的监控指标;
模块化单元,用于模块化的监控告警系统,将监控告警系统的各个功能进行模块化编程,方便开发运维人员去维护管理;即将监控告警系统拆分为数据采集模块、数据展示模块、监控告警模块及智能分析模块;
智能分析单元,用于对监控该数据的智能分析,具体是从数据统计分析出发,对时序化的监控数据进行周期分析与聚类分析,从而为动态监控阈值与监控告警规则的设置提供依据。
8.根据权利要求7所述的基于Snmp的云物理主机智能监控系统,其特征在于,该系统的工作过程具体如下:
(1)、创建多个云物理主机实例{S1,S2,S3......Sn},适配Snmp监控服务的镜像,并部署到各个实例上;
(2)、创建专门用于监控的云物理主机实例M1,适配包括Snmp监控服务和时间序列数据库InfluxDB的镜像,并部署到实例M1上;
(3)、实例{S1,S2,S3......Sn}作为监控系统Agent,实例M1作为监控Server,首先运行监控程序确保能遍历每个实例;
(4)、通过数据采集模块设置监控指标初始阈值与初始告警规则,对所有云物理主机实例进行监控,监控频率通过预定义的方式进行设置,并将所有的监控数据存入时间序列数据库InfluxDB中;其中,监控频率包括1min、10min、1h或1d;
(5)、数据展示模块基于采集的监控数据,通过Highcharts进行图表化展示;其中,图表的横坐标选的时间标签为1min、10min、1h或1d,图表的纵坐标选值为监控指标;
(6)、通过监控告警模块设置动态阀值和数据波动告警规则;其中,设置动态阀值具体为结合历史数据的平均水平及峰值水平,与现有监控数据进行对比,动态设置新的告警阀值;
数据波动告警规则具体为:设t1时刻资源占用率P1,设tn时刻资源占用率Pn,若资源占用率发生突升或突降,设定在T个监控周期内,对资源占用率与历史数据进行同比,当波动幅度均超过历史数据波动水平,则触发告警;
(7)、智能分析模块基于监控数据、动态告警阈值及告警规则对云物理主机实例的监控数据进行分析,并研究监控数据的变化周期与特征;具体为:
数据毛刺的处理:利用小波变换去除数据毛刺,保证存入InfluxDB数据库的数据具有代表性;其中,数据毛刺是指在一个监控周期内突然变化的值;
数据周期的处理:基于K-means聚类算法,将数据划分为低值区域、中值区域及高值区域,当低值区域、中值区域及高值区域这3个区域的数据在时间上具有连续性和周期性,则说明由低值区域、中值区域及高值区域这3个区域组成的监控数据具有周期性,从而得到监控数据的变化时间周期。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的基于Snmp的云物理主机智能监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至6中所述的基于Snmp的云物理主机智能监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644173.2A CN111800297A (zh) | 2020-07-07 | 2020-07-07 | 基于Snmp的云物理主机智能监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644173.2A CN111800297A (zh) | 2020-07-07 | 2020-07-07 | 基于Snmp的云物理主机智能监控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111800297A true CN111800297A (zh) | 2020-10-20 |
Family
ID=72811305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010644173.2A Pending CN111800297A (zh) | 2020-07-07 | 2020-07-07 | 基于Snmp的云物理主机智能监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111800297A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564370A (zh) * | 2022-04-29 | 2022-05-31 | 天云软件技术有限公司 | 告警阈值的确定方法、装置、设备及计算机存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103178990A (zh) * | 2011-12-20 | 2013-06-26 | 中国移动通信集团青海有限公司 | 一种网络设备性能监控方法及网络管理系统 |
CN104331354A (zh) * | 2014-11-20 | 2015-02-04 | 普华基础软件股份有限公司 | 一种云计算的实时综合监控方法 |
CN106209432A (zh) * | 2016-06-30 | 2016-12-07 | 中国人民解放军国防科学技术大学 | 基于动态阈值的网络设备亚健康预警方法及装置 |
US20170228257A1 (en) * | 2014-07-31 | 2017-08-10 | Hewlett Packard Enterprise Development Lp | Dynamic adjustment of thresholds |
CN107070692A (zh) * | 2017-01-16 | 2017-08-18 | 中国联合网络通信有限公司广东省分公司 | 一种基于大数据分析的云平台监控服务系统及方法 |
CN108121639A (zh) * | 2017-12-21 | 2018-06-05 | 郑州云海信息技术有限公司 | 一种基于云平台的数据中心综合管理系统设计方法 |
CN108667688A (zh) * | 2018-04-19 | 2018-10-16 | 北京搜狐新媒体信息技术有限公司 | 一种数据监控方法及装置 |
EP3399697A1 (en) * | 2017-05-04 | 2018-11-07 | Servicenow, Inc. | Operational analytics in managed networks |
CN110933172A (zh) * | 2019-11-28 | 2020-03-27 | 广州助蜂网络科技有限公司 | 一种基于云计算的远程监控系统及方法 |
-
2020
- 2020-07-07 CN CN202010644173.2A patent/CN111800297A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103178990A (zh) * | 2011-12-20 | 2013-06-26 | 中国移动通信集团青海有限公司 | 一种网络设备性能监控方法及网络管理系统 |
US20170228257A1 (en) * | 2014-07-31 | 2017-08-10 | Hewlett Packard Enterprise Development Lp | Dynamic adjustment of thresholds |
CN104331354A (zh) * | 2014-11-20 | 2015-02-04 | 普华基础软件股份有限公司 | 一种云计算的实时综合监控方法 |
CN106209432A (zh) * | 2016-06-30 | 2016-12-07 | 中国人民解放军国防科学技术大学 | 基于动态阈值的网络设备亚健康预警方法及装置 |
CN107070692A (zh) * | 2017-01-16 | 2017-08-18 | 中国联合网络通信有限公司广东省分公司 | 一种基于大数据分析的云平台监控服务系统及方法 |
EP3399697A1 (en) * | 2017-05-04 | 2018-11-07 | Servicenow, Inc. | Operational analytics in managed networks |
CN108121639A (zh) * | 2017-12-21 | 2018-06-05 | 郑州云海信息技术有限公司 | 一种基于云平台的数据中心综合管理系统设计方法 |
CN108667688A (zh) * | 2018-04-19 | 2018-10-16 | 北京搜狐新媒体信息技术有限公司 | 一种数据监控方法及装置 |
CN110933172A (zh) * | 2019-11-28 | 2020-03-27 | 广州助蜂网络科技有限公司 | 一种基于云计算的远程监控系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564370A (zh) * | 2022-04-29 | 2022-05-31 | 天云软件技术有限公司 | 告警阈值的确定方法、装置、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106209432B (zh) | 基于动态阈值的网络设备亚健康预警方法及装置 | |
CN104407964B (zh) | 一种基于数据中心的集中监控系统及方法 | |
EP2487860B1 (en) | Method and system for improving security threats detection in communication networks | |
US10778552B2 (en) | Storage system latency evaluation based on I/O patterns | |
US20190334786A1 (en) | Predicting Workload Patterns in a Data Storage Network | |
CN106371986A (zh) | 一种日志处理运维监控系统 | |
CN105656693B (zh) | 一种基于回归的信息安全异常检测的方法及系统 | |
CN105808368B (zh) | 一种基于随机概率分布的信息安全异常检测的方法及系统 | |
CN104156297A (zh) | 告警方法和装置 | |
CN112116123A (zh) | 一种基于动态基线的智能告警方法和系统 | |
CN111488258A (zh) | 一种用于软硬件运行状态分析与预警的系统 | |
CN114356499A (zh) | Kubernetes集群告警根因分析方法及装置 | |
CN111669295A (zh) | 业务管理方法和装置 | |
CN105117315A (zh) | 基于cep的告警处理系统及方法 | |
CN111800297A (zh) | 基于Snmp的云物理主机智能监控方法及系统 | |
CN108288997A (zh) | 一种传输网络光功率自动采集系统 | |
EP4075306A1 (en) | Time-series anomaly prediction and alert | |
CN115033450A (zh) | 一种基于分布式的贝叶斯集群监控预警分析方法 | |
CN111339466A (zh) | 接口管理方法、装置、电子设备及可读存储介质 | |
CN114443441A (zh) | 一种存储系统管理方法、装置、设备及可读存储介质 | |
CN117391675B (zh) | 一种数据中心基础设施运维管理方法 | |
CN110647086B (zh) | 一种基于运行大数据分析的智能运维监控系统 | |
CN115981950A (zh) | 监控告警方法、装置、设备及计算机可读存储介质 | |
CN110196787B (zh) | 一种数据备份恢复系统及其数据备份恢复方法 | |
CN116436821A (zh) | 一种基于人工智能计算平台的运维管理软件系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201020 |