CN115858303B - 一种基于Zabbix的服务器性能监控方法及系统 - Google Patents

一种基于Zabbix的服务器性能监控方法及系统 Download PDF

Info

Publication number
CN115858303B
CN115858303B CN202211672561.7A CN202211672561A CN115858303B CN 115858303 B CN115858303 B CN 115858303B CN 202211672561 A CN202211672561 A CN 202211672561A CN 115858303 B CN115858303 B CN 115858303B
Authority
CN
China
Prior art keywords
index
server
time window
zabbix
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211672561.7A
Other languages
English (en)
Other versions
CN115858303A (zh
Inventor
陈传凯
杨小华
朱浩
王伟斌
刘宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinshu Technology Co ltd
Original Assignee
Beijing Xinshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinshu Technology Co ltd filed Critical Beijing Xinshu Technology Co ltd
Priority to CN202211672561.7A priority Critical patent/CN115858303B/zh
Publication of CN115858303A publication Critical patent/CN115858303A/zh
Application granted granted Critical
Publication of CN115858303B publication Critical patent/CN115858303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于Zabbix的服务器性能监控方法及系统,对数据中心的物理服务器进行性能监控,监控指标包括CPU使用率、内存使用率、磁盘使用率和网络流量信息:1.服务器数据采集;2.异常告警;3.数据存储管理。系统包括服务器数据采集单元、异常告警单元、数据存储管理单元。采用本发明后,采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。

Description

一种基于Zabbix的服务器性能监控方法及系统
技术领域
本发明涉及数据监控技术领域,具体涉及一种基于Zabbix的服务器性能监控方法及系统。
背景技术
随着信息技术的飞速发展,各个行业都存在较大的计算需求。在此影响下,不同规模、架构的数据中心陆续上线运行。目前,各类数据中心机房的物理服务器动辄成百上千台,较为庞大的规模远远超出运维人员人工维护的能力范围。为了实时了解数据中心内各服务器的运行状态,对各服务器进行自动化的状态监控就变得十分必要。
服务器性能监控系统的使用,可以帮助运维人员实时了解各服务器关键性能指标的运行状态。如果某指标存在异常,可及时通知运维人员排查问题,定位原因,提高运维的效率,保障数据中心的正常运行。现有服务器性能监控系统普遍对异常情况的分类不够具体,当出现异常情况时,对异常状态的判定不够准确。
发明内容
为解决现有技术存在的技术问题,本发明公开一种基于Zabbix的服务器性能监控方法,该方法对数据中心的物理服务器进行性能监控,监控指标包括CPU使用率、内存使用率、磁盘使用率和网络流量信息,该方法包括以下步骤:
1.服务器数据采集:在各受控服务器上安装Zabbix Agent,Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常;
2)波动异常:采用标准差度量波动大小,其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值, 时,给出波动异常告警,δi表示第i个指标的波动阈值;
3)指标值漂移异常:指标值漂移指标用于度量第k个时间窗相对于第k-1个时间窗第i个指标的漂移情况;/>时,给出波动异常告警,ξi表示第i个指标的指标值漂移阈值;
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
为实现上述方法,本发明又提出一种基于Zabbix的服务器性能监控系统,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1.服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
2)波动异常:采用标准差度量波动大小,其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值, 时,给出波动异常告警,δi表示第i个指标的波动阈值;
3)指标值漂移异常:指标值漂移指标用于度量第k个时间窗相对于第k-1个时间窗第i个指标的漂移情况;/>时,给出波动异常告警,ξi表示第i个指标的指标值漂移阈值。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
采用本发明后,采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。
附图说明
图1为本发明的方法流程图。
图2为本发明的系统示意图。
图3为实施例的系统示意图。
具体实施方式
本发明公开一种基于Zabbix的服务器性能监控方法及系统,该方法包括以下步骤:
1.服务器数据采集:在主控服务器上安装Zabbix服务器,在各受控服务器上安装Zabbix Agent;Zabbix Agent采集受控服务器的性能监控指标,如受控服务器的CPU使用率、内存使用率、磁盘使用率和网络流量信息等,并按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中。
2.异常告警:在Zabbix Server不断获得各受控服务器的性能监控指标的同时,对各性能监控指标进行异常检测。异常检测过程中,使用了基于时间窗口方法。时间窗口的个数为W,每个时间窗口内对应的各指标对应的时间序列为其中/>表示第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示在该时间窗口内指标的采集次数,且1≤j≤s。
不断滑动时间窗口,检测各指标是否正常。在本发明中,将指标异常划分为四类:未上线异常、波动异常、指标值漂移异常和指标值过高异常。
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
2)波动异常:在一个时间窗口内,正常情况下一台受控服务器的状态数据应波动较小;如果出现了较大的波动,则该受控服务器被定义为出现波动异常。本部分采用标准差度量波动的大小,即:其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值,计算方法为:/>若/>超过定义的阈值δi,则给出波动异常告警。δi表示第i个指标的波动阈值。
3)指标值漂移异常:一台受控服务器的状态数据可能在一个时间窗口内处于一个数值范围内,但在另一个时间窗口内处于不同的数值范围;这样虽然在每个时间窗口的波动可能都不大,但是从跨时间窗口看,指标数据可能发生了漂移异常。定义指标值漂移指标 可用于度量第k个时间窗相对于第k-1个时间窗第i个指标的漂移情况。当/>的值大于定义的阈值ξi,则给出波动异常告警。ξi表示第i个指标的指标值漂移阈值。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,则该受控服务器被定义为出现指标值过高异常。
3.数据存储管理:
采集的受控服务器性能指标保存在服务器上的MySQL数据库中。因采集数据量较大,所以指定数据管理策略,对于采集到的数据,仅保存最近一个月的数据;对于一个月之前的数据,先导出到本地文件进行保存,然后执行删除操作。
基于上述方法,本发明又提出一种基于Zabbix的服务器性能监控系统,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1.服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2.异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为其中W为时间窗口的个数,/>为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常。
2)波动异常:采用标准差度量波动大小,其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值, 时,给出波动异常告警,δi表示第i个指标的波动阈值;
3)指标值漂移异常:指标值漂移指标用于度量第k个时间窗相对于第k-1个时间窗第i个指标的漂移情况;/>时,给出波动异常告警,ξi表示第i个指标的指标值漂移阈值。
4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常。
3.数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
基于Zabbix的服务器性能监控系统在某客户现场进行安装部署,纳入监控的服务器数目为120台。系统定期采集各服务器的性能指标值,包括CPU使用率、内存使用率、磁盘使用率和网络流量信息,如果某时刻指标值检测到异常,则发出相应告警。
假定有两个相邻的时间窗口,某一台服务器在这两个时间窗口里,CPU使用率指标对应的时间序列数据分别为30,32,33,32,35和50,52,53,52,55。
对于这两个时间窗口,逐个判断可能出现的异常告警:
1)未上线异常:因为这两个时间窗口里的CPU使用率指标都有实际数据,所以并不存在未上线异常。
2)波动异常:根据这两个时间窗口里的CPU使用率时间序列,可以计算出来两个序列的标准差均为1.82。若CPU使用率对应的波动异常阈值δ1为10,则由1.82<10,可知,两个时间窗口里,CPU使用率指标均为出现波动异常。
3)指标值漂移异常:根据这两个时间窗口里的CPU使用率时间序列,可以计算出来指标值漂移指标值为1.62。若CPU使用率对应的指标值漂移异常阈值ξ1为1.5,则表明前后两个时间窗口里的CPU使用率出现漂移,应给出漂移告警。
4)指标值过高异常:按照通常的标注,CPU使用率过高的阈值可设定为90。而这两个时间窗口里的CPU使用率指标均为超过该阈值,因此该服务器并未出现指标值过高异常。
以上实施例表明:采用该发明后,可以实时了解各服务器的性能状态,及时发现其中的异常情况,有效提高运维人员的工作效率。

Claims (2)

1.一种基于Zabbix的服务器性能监控方法,其特征在于,该方法包括以下步骤:
1)服务器数据采集:在各受控服务器上安装Zabbix Agent,Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2)异常告警:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W,其中W为时间窗口的个数;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
(1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常;
(2)波动异常:采用标准差度量波动大小,其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值,时,给出波动异常告警,δi表示第i个指标的波动阈值;
(3)指标值漂移异常:指标值漂移指标用于度量第k个时间窗口相对于第k-1个时间窗口第i个指标的漂移情况;/>时,给出波动异常告警,ξi表示第i个指标的指标值漂移阈值;
(4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常;
3)数据存储管理:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
2.一种基于Zabbix的服务器性能监控系统,其特征在于,该系统包括服务器数据采集单元、异常告警单元、数据存储管理单元,具体地:
1)服务器数据采集单元:在各受控服务器上安装Zabbix Agent,构成服务器数据采集单元;Zabbix Agent采集受控服务器的性能监控指标,按照设定频率推送到主控服务器上的Zabbix Server中,存储在Zabbix Server指定的MySQL数据库中;
2)异常告警单元:使用基于时间窗口的方法进行异常告警,每个时间窗口内对应的各指标对应的时间序列为为第k个时间窗口内第i个指标在第j次采集的指标值,1≤k≤W,其中W为时间窗口的个数;i表示第i个指标,i=1,2,3,4,分别对应CPU使用率、内存使用率、磁盘使用率和网络流量信息;s表示该时间窗口内指标的采集次数,且1≤j≤s;不断滑动时间窗口,检测各指标是否正常;指标异常包括:
(1)未上线异常:在某个时间窗口内,一直未获取到受控服务器的监控状态数据,则该受控服务器被定义为出现未上线异常;
(2)波动异常:采用标准差度量波动大小,其中/>表示第k个时间窗口内第i个指标的波动大小,/>表示第k个时间窗口内第i个指标的均值,时,给出波动异常告警,δi表示第i个指标的波动阈值;
(3)指标值漂移异常:指标值漂移指标用于度量第k个时间窗口相对于第k-1个时间窗口第i个指标的漂移情况;/>时,给出波动异常告警,ξi表示第i个指标的指标值漂移阈值;
(4)指标值过高异常:在一个时间窗口内,受控服务器的状态数据持续高于既定的阈值,该受控服务器被定义为出现指标值过高异常;
3)数据存储管理单元:将采集的受控服务器性能指标保存在服务器上的MySQL数据库中。
CN202211672561.7A 2022-12-24 2022-12-24 一种基于Zabbix的服务器性能监控方法及系统 Active CN115858303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211672561.7A CN115858303B (zh) 2022-12-24 2022-12-24 一种基于Zabbix的服务器性能监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211672561.7A CN115858303B (zh) 2022-12-24 2022-12-24 一种基于Zabbix的服务器性能监控方法及系统

Publications (2)

Publication Number Publication Date
CN115858303A CN115858303A (zh) 2023-03-28
CN115858303B true CN115858303B (zh) 2023-08-22

Family

ID=85654662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211672561.7A Active CN115858303B (zh) 2022-12-24 2022-12-24 一种基于Zabbix的服务器性能监控方法及系统

Country Status (1)

Country Link
CN (1) CN115858303B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860563B (zh) * 2023-09-05 2023-12-15 山东捷瑞数字科技股份有限公司 一种基于云平台的数据库服务器监测方法和系统
CN117336080A (zh) * 2023-10-24 2024-01-02 国家计算机网络与信息安全管理中心 一种基于流量和指标的暴力破解检测系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108880841A (zh) * 2017-05-11 2018-11-23 上海宏时数据系统有限公司 一种业务监控系统的阀值设置、异常检测系统及方法
CN110851320A (zh) * 2019-09-29 2020-02-28 苏州浪潮智能科技有限公司 一种服务器宕机监管方法、系统、终端及存储介质
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN113505042A (zh) * 2021-07-28 2021-10-15 中国工商银行股份有限公司 服务器内存动态监控方法、装置、设备及存储介质
CN113778790A (zh) * 2021-08-19 2021-12-10 北京仿真中心 一种基于Zabbix的计算系统状态监控的方法和系统
CN114035990A (zh) * 2021-10-23 2022-02-11 南京航空航天大学 一种面向Linux操作系统时序数据的实时异常检测方法
CN115495274A (zh) * 2022-11-15 2022-12-20 阿里云计算有限公司 基于时序数据的异常处理方法、网络设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10103960B2 (en) * 2013-12-27 2018-10-16 Splunk Inc. Spatial and temporal anomaly detection in a multiple server environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108880841A (zh) * 2017-05-11 2018-11-23 上海宏时数据系统有限公司 一种业务监控系统的阀值设置、异常检测系统及方法
CN110851320A (zh) * 2019-09-29 2020-02-28 苏州浪潮智能科技有限公司 一种服务器宕机监管方法、系统、终端及存储介质
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN113505042A (zh) * 2021-07-28 2021-10-15 中国工商银行股份有限公司 服务器内存动态监控方法、装置、设备及存储介质
CN113778790A (zh) * 2021-08-19 2021-12-10 北京仿真中心 一种基于Zabbix的计算系统状态监控的方法和系统
CN114035990A (zh) * 2021-10-23 2022-02-11 南京航空航天大学 一种面向Linux操作系统时序数据的实时异常检测方法
CN115495274A (zh) * 2022-11-15 2022-12-20 阿里云计算有限公司 基于时序数据的异常处理方法、网络设备和可读存储介质

Also Published As

Publication number Publication date
CN115858303A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115858303B (zh) 一种基于Zabbix的服务器性能监控方法及系统
CN109766334B (zh) 用于电力设备在线监测异常数据的处理方法及系统
EP3270250B1 (en) Method and system for remote monitoring of power generation units
EP3553044A1 (en) System and method of remote object monitoring
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN117060409B (zh) 电力线路运行状态自动化检测分析方法及系统
CN112861350A (zh) 一种水冷式汽轮发电机定子绕组温度过热缺陷预警方法
CN113239132A (zh) 一种电压互感器的超差在线辨识方法
CN109737045A (zh) 应用于芯片生产的空压机故障预警方法、系统及相关装置
CN110469461B (zh) 一种风机齿带的断裂预估方法、其装置及可读存储介质
CN115561546A (zh) 电力系统异常检测报警系统
CN115410342A (zh) 一种基于裂缝计实时监测的滑坡灾害智能预警方法
CN111176226A (zh) 一种基于运行工况的设备特征参数报警阈值自动分析方法
CN112380073B (zh) 一种故障位置的检测方法、装置及可读存储介质
CN115685045B (zh) 一种电压互感器在线评估方法
CN112288126A (zh) 一种采样数据异常变化在线监测与诊断方法
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
KR101982235B1 (ko) 생존 함수 기반의 특질 추출 방법을 이용한 유사 설비 군집화 방법 및 장치
CN108664696B (zh) 一种冷水机组运行状态的测评方法及装置
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置
CN105809257A (zh) 一种基于电力通信网络的触发式状态检修方法
CN111103487A (zh) 一种非侵入式的基于功耗分析的pst异常监测方法
CN104731056A (zh) 快速判断化工生产装置的运行稳定性的方法及装置
CN117454299B (zh) 异常节点的监测方法及系统
CN117746599A (zh) 一种用于园区管理的实时预警方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant