CN115858303A - 一种基于Zabbix的服务器性能监控方法及系统 - Google Patents
一种基于Zabbix的服务器性能监控方法及系统 Download PDFInfo
- Publication number
- CN115858303A CN115858303A CN202211672561.7A CN202211672561A CN115858303A CN 115858303 A CN115858303 A CN 115858303A CN 202211672561 A CN202211672561 A CN 202211672561A CN 115858303 A CN115858303 A CN 115858303A
- Authority
- CN
- China
- Prior art keywords
- server
- index
- time window
- fluctuation
- zabbix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种基于Zabbix的服务器性能监控方法及系统,对数据中心的物理服务器进行性能监控,监控指标包括CPU使用率、内存使用率、磁盘使用率和网络流量信息:1.服务器数据采集;2.异常告警;3.数据存储管理。系统包括服务器数据采集单元、异常告警单元、数据存储管理单元。采用本发明后,采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。
Description
技术领域
本发明涉及数据监控技术领域,具体涉及一种基于Zabbix的服务器性能监控方法及系统。
背景技术
随着信息技术的飞速发展,各个行业都存在较大的计算需求。在此影响下,不同规模、架构的数据中心陆续上线运行。目前,各类数据中心机房的物理服务器动辄成百上千台,较为庞大的规模远远超出运维人员人工维护的能力范围。为了实时了解数据中心内各服务器的运行状态,对各服务器进行自动化的状态监控就变得十分必要。
服务器性能监控系统的使用,可以帮助运维人员实时了解各服务器关键性能指标的运行状态。如果某指标存在异常,可及时通知运维人员排查问题,定位原因,提高运维的效率,保障数据中心的正常运行。现有服务器性能监控系统普遍对异常情况的分类不够具体,当出现异常情况时,对异常状态的判定不够准确。
发明内容
为解决现有技术存在的技术问题,本发明公开一种基于Zabbix的服务器性能监控方法,该方法对数据中心的物理服务器进行性能监控,监控指标包括CPU使用率、内存使用率、磁盘使用率和网络流量信息,该方法包括以下步骤:
1.服务器数据采集:在各受控服务器上安装Zabbix Agent,Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常;
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
为实现上述方法,本发明又提出一种基于Zabbix的服务器性能监控系统,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1.服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
采用本发明后,采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。
附图说明
图1为本发明的方法流程图。
图2为本发明的系统示意图。
图3为实施例的系统示意图。
具体实施方式
本发明公开一种基于Zabbix的服务器性能监控方法及系统,该方法包括以下步骤:
1.服务器数据采集:在主控服务器上安装Zabbix服务器,在各受控服务器上安装Zabbix Agent;Zabbix Agent采集受控服务器的性能监控指标,如受控服务器的CPU使用率、内存使用率、磁盘使用率和网络流量信息等,并按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中。
2.异常告警:在Zabbix Server不断获得各受控服务器的性能监控指标的同时,对各性能监控指标进行异常检测。异常检测过程中,使用了基于时间窗口方法。时间窗口的个数为W,每个时间窗口内对应的各指标对应的时间序列为其中/>表示第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示在该时间窗口内指标的采集次数,且1≤j≤s。
不断滑动时间窗口,检测各指标是否正常。在本发明中,将指标异常划分为四类:未上线异常、波动异常、指标值漂移异常和指标值过高异常。
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
2)波动异常:在一个时间窗口内,正常情况下一台受控服务器的状态数据应波动较小;如果出现了较大的波动,则该受控服务器被定义为出现波动异常。本部分采用标准差度量波动的大小,即:其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值,计算方法为:/>若/>超过定义的阈值δi,则给出波动异常告警。δi表示第i个指标的波动阈值。
3)指标值漂移异常:一台受控服务器的状态数据可能在一个时间窗口内处于一个数值范围内,但在另一个时间窗口内处于不同的数值范围;这样虽然在每个时间窗口的波动可能都不大,但是从跨时间窗口看,指标数据可能发生了漂移异常。定义指标值漂移指标 可用于度量第k个时间窗相对于第k-1个时间窗第i个指标的漂移情况。当/>的值大于定义的阈值ξi,则给出波动异常告警。ξi表示第i个指标的指标值漂移阈值。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,则该受控服务器被定义为出现指标值过高异常。
3.数据存储管理:
采集的受控服务器性能指标保存在服务器上的MySQL数据库中。因采集数据量较大,所以指定数据管理策略,对于采集到的数据,仅保存最近一个月的数据;对于一个月之前的数据,先导出到本地文件进行保存,然后执行删除操作。
基于上述方法,本发明又提出一种基于Zabbix的服务器性能监控系统,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1.服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
基于Zabbix的服务器性能监控系统在某客户现场进行安装部署,纳入监控的服务器数目为120台。系统定期采集各服务器的性能指标值,包括CPU使用率、内存使用率、磁盘使用率和网络流量信息,如果某时刻指标值检测到异常,则发出相应告警。
假定有两个相邻的时间窗口,某一台服务器在这两个时间窗口里,CPU使用率指标对应的时间序列数据分别为30,32,33,32,35和50,52,53,52,55。
对于这两个时间窗口,逐个判断可能出现的异常告警:
1)未上线异常:因为这两个时间窗口里的CPU使用率指标都有实际数据,所以并不存在未上线异常。
2)波动异常:根据这两个时间窗口里的CPU使用率时间序列,可以计算出来两个序列的标准差均为1.82。若CPU使用率对应的波动异常阈值δ1为10,则由1.82<10,可知,两个时间窗口里,CPU使用率指标均为出现波动异常。
3)指标值漂移异常:根据这两个时间窗口里的CPU使用率时间序列,可以计算出来指标值漂移指标值为1.62。若CPU使用率对应的指标值漂移异常阈值ξ1为1.5,则表明前后两个时间窗口里的CPU使用率出现漂移,应给出漂移告警。
4)指标值过高异常:按照通常的标注,CPU使用率过高的阈值可设定为90。而这两个时间窗口里的CPU使用率指标均为超过该阈值,因此该服务器并未出现指标值过高异常。
以上实施例表明:采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。
Claims (2)
1.一种基于Zabbix的服务器性能监控方法,其特征在于,该方法包括以下步骤:
1)服务器数据采集:在各受控服务器上安装Zabbix Agent,Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2)异常告警:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
(1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常;
(4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3)数据存储管理:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
2.一种基于Zabbix的服务器性能监控系统,其特征在于,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1)服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2)异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
(1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
(4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3)数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672561.7A CN115858303B (zh) | 2022-12-24 | 2022-12-24 | 一种基于Zabbix的服务器性能监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672561.7A CN115858303B (zh) | 2022-12-24 | 2022-12-24 | 一种基于Zabbix的服务器性能监控方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115858303A true CN115858303A (zh) | 2023-03-28 |
CN115858303B CN115858303B (zh) | 2023-08-22 |
Family
ID=85654662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211672561.7A Active CN115858303B (zh) | 2022-12-24 | 2022-12-24 | 一种基于Zabbix的服务器性能监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858303B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860563A (zh) * | 2023-09-05 | 2023-10-10 | 山东捷瑞数字科技股份有限公司 | 一种基于云平台的数据库服务器监测方法和系统 |
CN117336080A (zh) * | 2023-10-24 | 2024-01-02 | 国家计算机网络与信息安全管理中心 | 一种基于流量和指标的暴力破解检测系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150341246A1 (en) * | 2013-12-27 | 2015-11-26 | Metafor Software Inc. | System and method for anomaly detection in information technology operations |
CN108880841A (zh) * | 2017-05-11 | 2018-11-23 | 上海宏时数据系统有限公司 | 一种业务监控系统的阀值设置、异常检测系统及方法 |
CN110851320A (zh) * | 2019-09-29 | 2020-02-28 | 苏州浪潮智能科技有限公司 | 一种服务器宕机监管方法、系统、终端及存储介质 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN113505042A (zh) * | 2021-07-28 | 2021-10-15 | 中国工商银行股份有限公司 | 服务器内存动态监控方法、装置、设备及存储介质 |
CN113778790A (zh) * | 2021-08-19 | 2021-12-10 | 北京仿真中心 | 一种基于Zabbix的计算系统状态监控的方法和系统 |
CN114035990A (zh) * | 2021-10-23 | 2022-02-11 | 南京航空航天大学 | 一种面向Linux操作系统时序数据的实时异常检测方法 |
CN115495274A (zh) * | 2022-11-15 | 2022-12-20 | 阿里云计算有限公司 | 基于时序数据的异常处理方法、网络设备和可读存储介质 |
-
2022
- 2022-12-24 CN CN202211672561.7A patent/CN115858303B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150341246A1 (en) * | 2013-12-27 | 2015-11-26 | Metafor Software Inc. | System and method for anomaly detection in information technology operations |
CN108880841A (zh) * | 2017-05-11 | 2018-11-23 | 上海宏时数据系统有限公司 | 一种业务监控系统的阀值设置、异常检测系统及方法 |
CN110851320A (zh) * | 2019-09-29 | 2020-02-28 | 苏州浪潮智能科技有限公司 | 一种服务器宕机监管方法、系统、终端及存储介质 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN113505042A (zh) * | 2021-07-28 | 2021-10-15 | 中国工商银行股份有限公司 | 服务器内存动态监控方法、装置、设备及存储介质 |
CN113778790A (zh) * | 2021-08-19 | 2021-12-10 | 北京仿真中心 | 一种基于Zabbix的计算系统状态监控的方法和系统 |
CN114035990A (zh) * | 2021-10-23 | 2022-02-11 | 南京航空航天大学 | 一种面向Linux操作系统时序数据的实时异常检测方法 |
CN115495274A (zh) * | 2022-11-15 | 2022-12-20 | 阿里云计算有限公司 | 基于时序数据的异常处理方法、网络设备和可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860563A (zh) * | 2023-09-05 | 2023-10-10 | 山东捷瑞数字科技股份有限公司 | 一种基于云平台的数据库服务器监测方法和系统 |
CN116860563B (zh) * | 2023-09-05 | 2023-12-15 | 山东捷瑞数字科技股份有限公司 | 一种基于云平台的数据库服务器监测方法和系统 |
CN117336080A (zh) * | 2023-10-24 | 2024-01-02 | 国家计算机网络与信息安全管理中心 | 一种基于流量和指标的暴力破解检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115858303B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115858303A (zh) | 一种基于Zabbix的服务器性能监控方法及系统 | |
US6859739B2 (en) | Global state change indicator for empirical modeling in condition based monitoring | |
CA2433941C (en) | Adaptive modeling of changed states in predictive condition monitoring | |
CN109933905B (zh) | 一种基于多维预警分析的机械设备健康状态评估方法 | |
CN102062832B (zh) | 基于微扰动信号低频振荡模式辨识的电力系统在线预警方法 | |
EP3270250A1 (en) | Method and system for remote monitoring of power generation units | |
CN111538311B (zh) | 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置 | |
EP3553044A1 (en) | System and method of remote object monitoring | |
CN115693948A (zh) | 一种电力系统故障监测方法及监测系统 | |
CN110647093B (zh) | 一种基于大数据分析的电力系统智能监控系统及监控方法 | |
CN109491339B (zh) | 一种基于大数据的变电站设备运行状态预警系统 | |
CN114781476B (zh) | 一种量测设备故障分析系统和方法 | |
CN116914917A (zh) | 一种基于大数据的配电柜运行状态监测管理系统 | |
CN113239132A (zh) | 一种电压互感器的超差在线辨识方法 | |
CN116520236B (zh) | 一种智能电表的异常检测方法和系统 | |
CN112861350A (zh) | 一种水冷式汽轮发电机定子绕组温度过热缺陷预警方法 | |
CN115372816A (zh) | 基于数据分析的配电开关设备运行故障预测系统及方法 | |
CN115561546A (zh) | 电力系统异常检测报警系统 | |
CN110164102B (zh) | 一种光伏电站组串异常报警方法及报警装置 | |
CN109115271B (zh) | 一种数控机床远程监测系统 | |
CN112734977B (zh) | 一种基于物联网的设备风险预警系统及算法 | |
CN117490760A (zh) | 基于数字孪生技术的压光机监控及故障预警方法及系统 | |
CN110516960A (zh) | 一种变电站继电保护设备的可靠性指标定量计算方法 | |
CN116243675A (zh) | 一种血凝仪清洗液生产异常监控方法 | |
CN219654743U (zh) | 一种盾构环流系统堵塞预警系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |