CN110413485A - 一种基于Zabbix开源平台的一站式网络监控管理系统与方法 - Google Patents
一种基于Zabbix开源平台的一站式网络监控管理系统与方法 Download PDFInfo
- Publication number
- CN110413485A CN110413485A CN201910712946.3A CN201910712946A CN110413485A CN 110413485 A CN110413485 A CN 110413485A CN 201910712946 A CN201910712946 A CN 201910712946A CN 110413485 A CN110413485 A CN 110413485A
- Authority
- CN
- China
- Prior art keywords
- server
- zabbix
- data
- agent
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012544 monitoring process Methods 0.000 claims abstract description 103
- 238000003860 storage Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 11
- 230000006854 communication Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000007792 addition Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 5
- 239000000306 component Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 239000008358 core component Substances 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 25
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000009825 accumulation Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 74
- 238000007726 management method Methods 0.000 description 63
- 238000012790 confirmation Methods 0.000 description 17
- 238000013461 design Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 8
- 238000011084 recovery Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003032 molecular docking Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000013024 troubleshooting Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 101000797623 Homo sapiens Protein AMBP Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 102100032859 Protein AMBP Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1464—Management of the backup or restore process for networked environments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3093—Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/323—Visualisation of programs or trace data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/80—Database-specific techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/875—Monitoring of systems including the internet
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明属于监控管理系统技术领域,尤其为一种基于Zabbix开源平台的一站式网络监控管理系统,包括数据库区域、采集区域和WEB区域,数据库区域中MySQL1作为主库,MySQL2作为从库;本发明一站式监控管理平台基于主流开源平台Zabbix的深度网管功能实现,采用分布式部署,支持二级代理横向扩展架构;通过对网络,主机,中间件,数据库,存储设备,虚拟化管理等监控,实现系统全面整体监控;通过灵活的告警设置,精确的告警检测,多样的告警推送,告警经验积累,让运维人员有效及时得到故障信息;提供快速故障定位、故障分析功能实现统一集中监控、生产系统环境全面监控,实现“第一时间智能预警、第一时间发现故障、第一时间发布通知”。
Description
技术领域
本发明属于系统监控管理技术领域,具体涉及一种基于Zabbix开源平台的一站式网络监控管理系统与方法。
背景技术
网络设备、硬件设备品牌型号较广,中间件、数据库种类较多,较难统一管理,设备管理区域安全性较严格,防火墙限制较多,没有统一的,一站式监控管理平台,技术平台存在多样性和复杂度。
1、传统网络监控缺乏自动化监控工具会造成运维人员工作压力剧增,而且,这些工作是繁复的、无趣的、对于运维工作人员成长没有任何帮助的;
2、传统网络监控缺乏运维监控工具时,依赖人工去发现、处理问题。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种基于Zabbix开源平台的一站式网络监控管理系统与方法,具有统一集中监控、全面监控、全局视图、视图功能、可视化报表、实时告警和专家智库的特点。
为实现上述目的,本发明提供如下技术方案:一种基于Zabbix开源平台的一站式网络监控管理系统,包括数据库区域、采集区域和WEB区域,
数据库区域中MySQL1作为主库,MySQL2作为从库;
采集区域的采集服务器直接对接数据库区域的主库MySQL1;
WEB区域对于增删改都直接对接数据库区域的主库MySQL1,读取对接数据库区域的从库MySQL2。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,采集区域可以对接多台Proxy分担压力或分布式监控。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,一站式网络监控管理系统底层结构为Zabbix架构框架,
Zabbix server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据都由Zabbix server组织进行;
database storage:专用于存储所有配置信息,以及由Zabbix收集的数据;
web interface:Zabbix的GUI接口;
proxy:可选组件,常用于监控节点很多的分布式环境中,代理server收集部分数据转发到server,可以减轻server的压力;
agent:部署在被监控的主机上,负责收集主机本地数据如cpu、内存、数据库等数据发往server端或proxy端;
Zabbix server、proxy、agent都有自己的配置文件以及log文件。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,系统底层架构为分布式部署,采用server-proxy-client架构,proxy是server、client之间沟通的一个桥梁,proxy本身没有前端,而且其本身并不存放数据,只是将agentd发来的数据暂时存放,而后再提交给server。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,Zabbix-server分别对接Zabbix-proxy01和Zabbix-proxy02,Zabbix-proxy01和Zabbix-proxy02,分别与Node01和Node02对接,工作模式分为被动模式和主动模式。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,被动模式下,zabbix-server和zabbix-agent之间的通信是zabbix的专用协议,数据格式为;默认情况下,zabbix-agent工作在被动模式下,工作的模式是由Key和zabbix_agentd.conf参数配置决定的;
被动模式的流程:
Server打开一个TCP连接;
Server发送一个key为agent.ping\n;
Agent接收到这个请求,然后响应数据<HEADER><DATALEN>1;
Server对接收到的数据进行处理;
TCP连接关闭。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统优选技术方案,主动模式下,Agent将采集到的数据主动发送给Server,而不需要Server每次连接Agent等待采集,在大型环境下,将工作模式设置为主动模式,并尽可能采用更多的proxy以降低Server的负担,一般多机房条件下每个机房内均设置proxy。
主动模式的流程:
Agent向Server建立一个TCP的连接;
Agent请求需要检测的数据列表;
Server响应Agent,发送一个Items列表(item key、delay);
Agent响应请求;
TCP连接完成本次会话后关闭;
Agent开始周期性的收集数据。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统的方法优选技术方案,包括数据库区域中MySQL1作为主库,MySQL2作为从库;采集区域中的采集服务器直接对接数据库区域的主库MySQL1;WEB区域中对于增删改都直接对接数据库区域的主库MySQL1,读取对接数据库区域的从库MySQL2;其中监控系统运行流程:
S1、agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到Zabbix server端;
S2、Zabbix server将数据存储到数据库中,Zabbix web根据数据在前端进行展现和绘图,这里agentd收集数据分为主动和被动两种模式:
主动监测:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy;
被动监测:server向agent请求获取监控项的数据,agent返回数据。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统的方法优选技术方案,主动监测通信过程:
Zabbix首先向Server Active配置的IP请求获取active items,获取并提交active times数据值server或者proxy,根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试,分获取ACTIVE ITEMS列表和主动检测提交数据两个部分:
获取ACTIVE ITEMS列表;
Agent打开TCP连接,主动监测变成Agent打开;
Agent请求items检测列表;
Server返回items列表;
Agent处理响应;
关闭TCP连接;
Agent开始收集数据;
主动检测提交数据过程如下:
Agent建立TCP连接;
Agent提交items列表收集的数据;
Server处理数据,并返回响应状态;
关闭TCP连接。
优选的,作为本发明的一种基于Zabbix开源平台的一站式网络监控管理系统的方法优选技术方案,被动监测通信过程:
Server打开一个TCP连接;
Server发送请求agent.ping\n;
Agent接收到请求并且响应<HEADER><DATALEN>1;
Server处理接收到的数据1;
关闭TCP连接。
与现有技术相比,本发明的有益效果是:
1、本发明一站式监控管理平台基于主流开源平台Zabbix的深度网管功能实现,采用分布式部署,支持二级代理横向扩展架构;
2、通过对网络,主机,中间件,数据库,存储设备,虚拟化管理等监控,实现系统全面整体监控;
3、通过灵活的告警设置,精确的告警检测,多样的告警推送,告警经验积累,让运维人员有效及时得到故障信息;
4、提供快速故障定位、故障分析功能;
5、实现统一集中监控、生产系统环境全面监控,实现“第一时间智能预警、第一时间发现故障、第一时间发布通知”;
6、经济效益方面:降低成本,传统没有自动化监控工具会造成运维人员工作压力剧增,而且,这些工作是繁复的、无趣的、对于运维工作人员成长没有任何帮助的,本系统的成功实施可以大大降低人工成本,使用运维人员去做对业务更有价值的工作;
工作效益方面:提供效率,没有运维监控工具时,依赖人工去发现、处理问题,故障的发现、分析和修复花去大部分时间,本系统的成功实施可以大大提高效率;
管理效益方面:全局监控视图帮助企业制定IT管理战略,从IT资源到企业业务经营的直接对接,实现整个业务系统和IT基础架构的统一集中管理。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明软件逻辑架构框架示意图;
图2为本发明中系统架构示意图;
图3为本发明中的server-proxy-client架构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-3,本发明提供一种技术方案:一种基于Zabbix开源平台的一站式网络监控管理系统的方法,包括数据库区域中MySQL1作为主库,MySQL2作为从库;采集区域中的采集服务器直接对接数据库区域的主库MySQL1;WEB区域中对于增删改都直接对接数据库区域的主库MySQL1,读取对接数据库区域的从库MySQL2;其中监控系统运行流程:
S1、agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到Zabbix server端;
S2、Zabbix server将数据存储到数据库中,Zabbix web根据数据在前端进行展现和绘图,这里agentd收集数据分为主动和被动两种模式:
主动监测:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy;
被动监测:server向agent请求获取监控项的数据,agent返回数据。
本实施例中,项目采用基于开源的最新版本Zabbix实现,Zabbix基于WEB界面的提供分布式系统监控的开源解决方案,通过浏览器监视,做到告警分级处理、网络访问安全可控,
Zabbix的优点:
数据采集:可用性和性能检测,自动发现,支持agent、SNMP、JMX、telnet等多种采集方式,支持主动和被动模式数据传输;
高可用:server对设备性能要求低,支持proxy分布式监控,分布式集中管理,开放式接口,扩展性强;
告警管理:支持多条件告警,支持多种告警方式;
模板能力:支持多组模板,模板继承;
告警设置:告警周期,告警级别,告警恢复通知、告警暂停,时段阈值、支持维护周期、支持单机停用;
历史数据:历史数据查询可配置,内置housekeeping数据清理机制;
安全审计:具备安全的用户审计日志,权限认证,用户可以限制允许维护的列表;
足够的开放性;
全球社区支持;
Zabbix的缺点:
性能瓶颈:监控系统没有低估高峰期,具有持续性和周期性,机器量越大,数据的增大会使数据库的写入成为一定的瓶颈,单机上限5000台,届时就需要增加proxy,增加成本;
项目二次开发:需要分析MySQL表结构,表结构非常复杂,对开发能力有较高要求;
内置housekeeping在执行过程中会对数据库增加压力,需要对数据库进行优化;
图形功能较为单一、简陋;
使用有难度,要求操作人员的技术水平很丰富且全面,需要熟悉被监控对象,已经具备相当的开发能力;
API介绍比较粗糙,如果数据库表结构更改可能会影响api调用;
Zabbix监控的模板比较复杂,没有一个比较简洁易懂监控模板创建的向导,使得模板配置比较困难;
Zabbix的用户权限控制粒度不够;
Zabbix的交互界面还不美观,操作不人性化。
针对其缺点,对zabbix进行以下方面的改进:
基于开源:基于Zabbix最新成熟稳定版本3.4开发,不改动Zabbix本身的代码和结构,保证Zabbix向后迭代能力,通过API及部分读数据库完成业务功能的构建;
基于采集能力:Zabbix的采集能力非常强大,号称监控一切,需要训练好相关的监控模板和阈值体系,以达到最大程度使用开源平台的能力,甚至结合局方人员自身的能力去拓展项目平台本身的监控能力和使用范畴;
基于技术架构:在底层部署结构设置上需要做更高可用的技术架构,避免系统缓慢,平台需要加入更多的先进技术达到项目系统的更可用、更易用、更便捷的目的;
基于本地化:通过项目实现与本地化监控需求对接,一站式地实现本地系统与IT基础架构的一站式监控,并实现也本地业务工单流程系统对接,以及一些个性化运维管理需求,最终形成本地运维支撑平台的报表及显性化体系;
基于业务视角:监控或者说运维的最终目的都是保障业务的高效稳定运行,本项目将以业务为视角,逐步开发监控的梳理、建设、优化以后整合工作;
基于应用纵深蔓延:本项目可以向各个实际应用纵深蔓延,比如说,个性化指标、文件的防篡改、网络配置的对比分析、微信、Proxy执行远程命令、文件传送等。
其中搭建的Zabbix开源平台的一站式网络监控管理系统软件逻辑框架结构特点:
底层采用Zabbix最新版本原生架构不变;
底层采用了分布式、高可用、高并发的集成基础架构设计;
对于主机、存储、虚拟化、网络通讯设备、数据库、中件间、链路等监控使用的模板都经过我们严格筛选训练,可以达到非常高的可用性;
尽最大可能的拓宽Zabbix自身的监控能力;
软件平台与Zabbix大部分采用API进行数据交付,小部分采用数据库直连的方案;
基于采集到的数据,根据ITIL的运维管理方法论搭建业务逻辑功能;
对外部对接采用标准API方式操作;
系统采用原生PHP+MySQL实现,保证平台原生的纯洁,维护客户环境的单一性,最终搭建的底层Zabbix结构框架为:
Zabbix server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据都由它组织进行;
database storage:专用于存储所有配置信息,以及由Zabbix收集的数据;
web interface:Zabbix的GUI接口;
proxy:可选组件,常用于监控节点很多的分布式环境中,代理server收集部分数据转发到server,可以减轻server的压力;
agent:部署在被监控的主机上,负责收集主机本地数据如cpu、内存、数据库等数据发往server端或proxy端;
另外,Zabbix server、proxy、agent都有自己的配置文件以及log文件,重要的参数需要在这里配置。
一个监控系统运行的大概的流程是这样的:
agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到Zabbixserver端,Zabbix server将数据存储到数据库中,Zabbix web根据数据在前端进行展现和绘图。这里agentd收集数据分为主动和被动两种模式:
主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy;
被动:server向agent请求获取监控项的数据,agent返回数据。
【主动监测】通信过程如下:
Zabbix首先向Server Active配置的IP请求获取active items,获取并提交active times数据值server或者proxy,Zabbix60秒为周期获取一次active items,Zabbix会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试,分两个部分:
获取ACTIVE ITEMS列表;
Agent打开TCP连接(主动检测变成Agent打开);
Agent请求items检测列表;
Server返回items列表;
Agent处理响应;
关闭TCP连接;
Agent开始收集数据;
主动监测测提交数据过程如下:
Agent建立TCP连接;
Agent提交items列表收集的数据;
Server处理数据,并返回响应状态;
关闭TCP连接;
【被动监测】通信过程如下:
Server打开一个TCP连接;
Server发送请求agent.ping\n;
Agent接收到请求并且响应<HEADER><DATALEN>1;
Server处理接收到的数据1;
关闭TCP连接。
本申请中的server-proxy-client架构:
proxy是server、client之间沟通的一个桥梁,proxy本身没有前端,而且其本身并不存放数据,只是将agentd发来的数据暂时存放,而后再提交至server,该架构经常是和master-node-client架构做比较的架构,一般适用于跨机房、跨网络的中型网络架构的监控。
server-proxy-client架构的工作模式:
(1)被动模式
Passive(被动模式),zabbix-server和zabbix-agent之间的通信是zabbix的专用协议,数据格式为JSON。默认情况下,zabbix-agent工作在被动模式下,工作的模式是由Key和zabbix_agentd.conf参数配置决定的。
(1.1)被动模式的流程
Server打开一个TCP连接;
Server发送一个key为agent.ping\n;
Agent接收到这个请求,然后响应数据<HEADER><DATALEN>1;
Server对接收到的数据进行处理;
TCP连接关闭。
(2)主动模式
Active(主动模式),主动模式由于是Agent将采集到的数据主动发送给Server,而不需要Server每次连接Agent等待采集,所以采用主动模式会使Zabbix-Server具有最好的性能,在大型环境下,将工作模式设置为主动模式,并尽可能采用更多的proxy以降低Server的负担,一般多机房,每个机房内均设置proxy的。
(2.1)主动模式的流程:
Agent向Server建立一个TCP的连接;
Agent请求需要检测的数据列表;
Server响应Agent,发送一个Items列表(item key、delay);
Agent响应请求;
TCP连接完成本次会话后关闭;
Agent开始周期性的收集数据。
其中搭建的系统架构特点说明:
数据库区域中MySQL1作为主库,MySQL2作为从库;
采集区域的采集服务器直接对接数据库区域的主库MySQL1;
WEB区域对于增删改都直接对接数据库区域的主库MySQL1,读对接数据库区域的从库MySQL2;
采集区域可以对接多台Proxy代理服务器分担压力或分布式监控;
需要说明的是:MySQL数据库采用主备服务器配合使用,SSD硬盘会有更好的性能,支持分布式部署,可根据区域和对象的需要增加代理服务器,Web终端为普通PC或移动办公用笔记本电脑,IE9.0以上版本的浏览器,能上网访问Web服务器,其中代理商服务网络需求为局域网内10M/100M网络带宽;广域网或互联网有ADSL带宽。
实施例2
本发明提供中系统性能分为以下方面:
1、易用性方面:
具有丰富而实用的运维流程管理功能,通常能够覆盖运维管理过程中所必须的功能和流程,功能的细节设计能够充分考虑到操作人员的直观和便捷操作,具有流程管控和长事务处理机制,从而支持资源的分布式协作管理,具有可视化、图形化的操作界面,能够以丰富的结构图呈现资源及其关系和状态,能够在图形之上执行相关的管理功能,使用Ajax,JQuery客户端技术,减少页面回发次数,简单统一的导航页面,用户可见功能点一目了然,优化后UI界面清新自然,用户界面美观、内容组织合理,页面导航深度不超过三级,导航链接中必须包含文字说明,所有页面都有一个链接指向首页,所有操作完成后,自动返回响应页面或者提供多个返回路径的链接。
2、可靠性方面:
为了保障平台系统与设备管理员系统的稳定运行和安全运行,保证平台系统的运维过程通畅,系统对安全性能有极高要求:登录系统的口令要求加密;多机负载设计,Web服务器的负载均衡、如单台服务器出现故障,另一台Web服务器也能正常访问;安全可靠的用户权限管理模块,防止不合法用户篡改数据;数据能定期归档和备份,支持手工和自动方式;保证所有数据库操作的事务完整性;系统应能按照甲方要求的安全域划分进行部署;
3、性能方面:
支持的工作站数量:无特殊限定;支持的模拟用户数量:100个用户同时在线;数据库和文件容量:无特殊限定;数据通道数量:无特殊限定;数据吞吐量:无特殊限定;平均无故障时间(MTBF)>=半年,平均故障修复时间<=72小时/年,页面最大响应时间<3秒,系统应能支持100个用户同时访问,整机吞吐率不少于5Gbps,最大并发连接数不少于90万;
4、响应时间:
普通数据在开始查询后1秒内得到查询结果,最慢5秒内得到查询结果,平均响应时间为1~3秒;
5、可维护性方面:
在系统出现问题时提供日志功能,记录了所有的错误信息,方便维护人员对系统进行维护;系统是以组件的方式进行设计与集成,系统中各模块功能耦合度低。如以后有相应的需求变更与调整。只是以拆解组件的形势进行调整即可。
6、扩展性方面:
可接入1000台以上设备监控,再接入更多监控时,只需底层Zabbix扩展,系统作配置即可,无需更新软件,模块化的设计和实现,可通过增加新模块实现功能扩充,无需对原有功能进行较大调整;可以简单地通过服务器扩容方式增加系统处理能力,而不需要修改软件。
实施例3
本发明中系统用户安全设计、软件体系安全设计和系统网络安全设计如下:
1、系统用户:系统使用者,即某个人进入系统时使用的身份。系统对其使用者的控制和记录行为日志都是针对某个用户身份进行的。
操作优先级:用户操作维护系统时的优先级别,由于系统操作端口资源有限,有时会出现多个用户都想使用某个端口的情况,这时允许操作优先级高的用户打断低优先级用户的操作,占用该端口以进行紧急重要操作维护工作。
用户角色:对一类用户(具有一组相同权限)的一种称谓,比如系统管理员、操作维护员等,是为了方便用户和权限的管理而采用的一种分类管理方法。
用户权限:是为了实现系统的安全控制机制,规范用户可以使用的系统功能,而对需要控制的系统功能设计的控制开关,拥有某项权限的用户就可以使用该权限控制的功能,没有这项权限的用户就不能使用该功能。
用户特权:用户可充当角色所拥有权限之外的特殊约定权限,可以是新增权限也可以是受限权限(约束)。
权限编号:是为了方便权限的组织与管理,对权限的一种分类标识方法,该编号用点分隔符分级编码表示,如1.2.1表示第1大类第2小类的第一项权限。
功能模块:就是对权限进行分类管理的一级分类,对应于系统大的功能模块。
特权部门:为用户特别约定可控制的本部门外的部门。
登录日志:用户登录系统的相关信息记录。
行为日志:用户对系统所执行的操作行为日志。
2、软件体系安全
系统的安全管理主要包括两个方面的内容:安全配置和安全验证。
安全配置:主要用来管理用户和权限之间的分配关系;安全验证用来实现对用户的权限控制。安全配置包括角色管理、用户管理、特权配置、控制范围配置和安全日志管理等内容。实现的主要功能是增删改角色和用户、为用户配置特权和控制范围、查询和维护安全日志等。
安全验证:主要实现包括两个层次的内容,一个是用户使用系统时的身份验证,一个是用户使用某些受限功能时的权限验证。其中用户身份验证是在使用者登录系统时进行的,包括系统中是否注册有该用户和用户输入的口令是否正确两个条件。在这两个条件都满足时,要根据用户登录的模块查验其权限适用范围,然后进行权限验证。对于用户的权限控制有两种控制方式,对应两种验证方法:一种是用户进入系统后,系统要根据该用户拥有的权限放开或限制这些权限控制的功能(比如激活或变灰菜单项、工具按钮,显示或隐藏交换局等)。这类权限验证在用户通过身份验证进入系统后,和权限适用范围控制结合在一起完成的;另一种是用户进入系统时并不进行这些权限验证,而是在用户用到某个受限功能时,系统才验证用户权限。若用户拥有该权限,则操作正常进行,若用户无该权限,则提示用户权限不足,并控制其不能完成这种操作。比如执行重要命令权限就是这样控制的。同时,系统还提供完善的系统用户管理、日志管理、系统数据备份与恢复、系统自身管理和系统帮助等功能。
3、系统网络安全:
为了保障系统运行数据的安全性和支撑网络平台的安全性,建议在进行系统实施时,用户能通过安装合理有效的网络安全产品、硬件设备,构建统一的、强壮的、平台化的安全体系来给予系统以有力的安全保障与支撑。
系统自身安全,系统体系应能够满足统一升级、管理的要求,并且选择有良好技术支持的应用系统,不管上层的业务系统如何变动,用户都可以为自己的信息系统加上一道坚固的安全之门,提供网络安全屏障。
系统数据安全,系统内其处理传递的信息必须保证数据的秘密性、完整性,不能被非法或未授权用户获取和篡改,必须保证业务主机免受非法攻击,必须保证整个系统的运行可靠性,必须保证可扩充性,便于调整、易于实施。
实施例4
本发明中系统的一站式监控方案包括全局视图、统一告警管理、监控管理、视图功能、统计报表、系统管理和系统配置,
作为全局视图示例:全局视图的功能要点为监控总览、指标排行、严重告警、快速创建、今日概况、运行状态、维护清单。
监控总览:提供全局视图功能,对监控对象、告警状态、告警模板、监控项进行分类管理,展示监控对象的关键数据,总览监控设备状态。
指标排行:提供重点指标排行功能,对于重要监控指标,可将数据进行Top5排行,重点指标和Top数量可由后台管理界面配置;提供即时查看排行中单个数据曲线图;提供跳转监控对象详情界面,以便运维工程师掌握监控对象的整体性能;提供跳转告警项目详情界面,以便运维工程师掌握告警项目的含义、产生原因;提供图形化展示重点指标Top5排行,重点指标和Top数量可由后台管理界面配置。
严重告警:提供最新严重告警首页展示功能,新告警自动刷新,可以及时发现对象的异常状态并处理,提供近30天严重告警统计的同比和环比功能(统计近一个月严重告警的数量,并且与之前一个月进行告警环比),展现形式曲线图,天数可由后台管理界面配置。
快速创建:提供创建监控对象的快捷方式,支持WEB、主机、网络设备、数据库、中间件、应用、硬件、虚拟化、链路等。方法包括但不限于excel批量导入,excel表格仅需填写监控对象的所属系统、主机名称、IP地址、监控模板名称等基本信息。
今日概况:提供概况信息统计功能,包括今日新增、关闭的告警数量及不同方式发出通知数量;支持按照通知方式分类统计通知条数,用户可根据每个渠道发送条数初步判断通知渠道是否异常。
运行状态:提供监控运行状态实时展示,方便查看当前服务器的采集状态、用户数、总监控项及总触发器。
维护清单:提供设备快速加入维护清单功能。加入维护清单的数据采集和告警推送等配置在后台管理的“维护模式”中定义,CMDB读取维护信息;展示已在维护期内的设备信息。
本系统还提供针对对象的全局管理视图,首页内容是对监控系统的总体概览,针对监控对象、告警信息等核心内容进行全局管理。
首页总览信息视图能够直观的体现系统总览信息,展示监控对象的关键数据,方便监控设备状态,及时发现设备的异常状态,保证设备的正常运行。对于重要性监控指标,将性能数据进行排名,以便运维掌控监控对象整体性能信息,鼠标放置相应指标可弹出趋势小界面,即时的查看趋势曲线,随时进行运维和管理;
对其中的监测内容进行分类监控管理;对监控对象进行分类,体现总量和对象告警基本的数量;对重要指标进行性能排名,包括主机CPU使用率、主机内存使用率、主机磁盘使用率、网络接口速率的Top5排行榜;可以查看今日新增告警、关闭告警的数量及不同方式方法发送告警的数量;可以查看监控状态的运行情况,包括用户总数、线上用户、总监控项及总触发器的数量。
作为统一告警管理示例:
1、告警展示
告警列表支持当前告警、历史告警、三方告警三种分类展现方式(三方告警集成了市面上大部分监控软件的标准接口,可以快速和其他监控平台进行对接,方便用户集中管理所有告警);
提供告警信息统一功能、集中展示,支持告警信息按照严重级别、开始及结束时间、设备类型(类型分类包括但不限于业务系统、设备归属地等客户自定义的设备分组)、确认情况、维修情况等筛选功能,支持告警关键字搜索功能;
提供告警历史分析功能,包括告警产生时间、恢复时间排行、告警确认信息,将处理过的历史告警收集成列表供分析使用;
提供告警的确认历史功能,包括确认时间、确认人、确认信息、确认操作等信息;
提供告警发送通知的查看功能,包括告警类型、发送时间、发送方式、接收人及发送结果等信息;
告警信息包括但不限于:系统名称、设备分类、设备名称、IP地址、维护人员、产生和恢复时间、持续时长、告警级别、告警类型、监控点、状态值、故障原因和解决方案、以及客户自定义的其他重要信息。告警展示的项目可在后台根据设备类型等自定义配置;
告警状态可排序,排序依据包括但不限于级别、标题、对象名、IP地址、时间、时长、确认信息。
提供告警的确认和通知的次数查看;
提供预警告警的设置,即根据一定时间内的规律预测未来多久达到峰值的指标;
提供告警声音配置面板,支持利用声源(如电视机、电话、电脑等)进行声音告警,支持按照告警级别不同发出不同的声音,声音内容可添加客户自定义的重要信息;
支持告警压缩。根据时间、关键字等信息对重复告警进行压缩,比如某段时间内的同一监控对象的相同告警只推送一次告警通知;
2、告警管理:
提供告警管理功能,可配置告警触发阀值设置功能;
提供告警触发原因和解决方案配置收集功能;
提供告警信息确认和提交关闭等维护功能,支持批量维护功能;
提供告警导出功能(导出支持当前页、选中的、全部三种模式);
支持批量确认告警;
3、告警推送:
提供告警提醒推送功能,将告警信息及时下发给运维人员;
支持短信、邮箱、微信、QQ、U聊等告警推送方式,支持对接银联国际系统,包括但不限于集中告警模块;
可以设置不同角色、不同告警对象、不同告警级别以不同的告警方式发送告警信息,并且用户可以在系统中配置告警内容模板;
所发送的告警通知提供收集管理功能,能够针对推送出去的告警跟踪管理;
通知方式支持告警产生的时候发送通知和告警恢复的时候再次通知;
告警推送的接收方,支持全局配置和个性化配置。全局配置的接收方可接收所有告警通知,个性化配置的接收方仅接收指定监控对象、指定告警级别等的告警通知;
支持查看和关闭未发送或发送失败的通知的功能。如果发生故障导致大量告警通知未发送或发送失败时,为避免故障恢复后产生大量告警通知,可查看当前阻塞的发送通知,手动删除或关闭发送通知。
4、标准化多维告警展现:
系统对监控对象中产生的所有告警信息进行收集处理,告警列表支持当前告警、历史告警、三方告警三种分类展现方式(三方告警集成了市面上大部分监控软件的标准接口,可以快速和其他监控平台进行对接,方便用户集中管理所有告警);
提供告警信息统一功能、集中展示,支持告警信息按照严重级别、开始及结束时间、设备类型、确认情况、维修情况等筛选功能,支持告警关键字搜索功能;
提供告警历史分析功能,包括告警产生时间、恢复时间排行、告警确认信息,将处理过的历史告警收集成列表供分析使用;
提供告警的确认历史功能,包括确认时间、确认人、确认信息、确认操作等信息;
提供告警发送通知的查看功能,包括告警类型、发送时间、发送方式、接收人及发送结果等信息;
告警信息包括:名称、设备、IP地址、产生和恢复时间、故障原因和解决方案、监控点、状态值等信息;
告警状态可针对级别、标题、对象名、IP地址、时间、时长、确认信息进行排行;
提供告警的确认和通知的次数查看;
提供预警告警的设置,即根据一定时间内的规律预测未来多久达到峰值的指标;
提供告警声音配置面板,支持利用电视机声源进行声音告警,支持按照告警级别不同发出不同的声音。
5、告警模板设置:
监控系统通过模板预置告警模板,用户可根据模板对告警条件进行修改设置;
提供告警管理功能,可配置告警触发阀值功能;
提供告警触发原因和解决方案的收集功能;
提供告警信息确认和提交关闭等维护功能,支持批量维护功能;
提供告警导出功能(导出支持当前页、选中的、全部三种模式);
支持批量确认告警;
6、关联专家智库,记忆报障:
提供告警关联专家智库功能,运维人员将故障处理方式记录到专家智库,这些信息将通过算法自动匹配到告警列表,为运维人员下次处理类似告警提供参考依据;提供告警处理关联专家智库,将其故障处理方式提供给运维人员提供参考;专家智库信息来源包含:原始的主流处理方案建议和使用过程中记录的故障处理的的触发原因和解决方案;支持对专家智库信息进行点赞和点踩,专家智库的匹配算法会根据用户点赞和点踩的行为进行智能匹配告警;支持查看最高赞和最新回答的专家智库信息。
实施例5
本发明提供实施例4中提出的监控管理技术方案,
1、列表监控,监控系统提供对象列表管理功能,针对所有的监控对象进行管理,可进行资产配置,选择是否监控等操作,支持对象名称、业务别名、IP、启动监控、状态、类型、备注和标签等信息设置、操作功能。
2、WEB监控,监控系统提供web监控功能,保障web或者web类业务的的正常运行,及时解决访问过慢或者不能访问的web业务。
3、主机监控,监控系统实现对主机进行监控,通过主动和被动多种方式,针对CPU、内存、硬盘等各个指标多维度的监控,保障主机的正常运行。
4、网络设备监控,监控系统实现对网络设备的监控,监控对象细化至每个端口,监控内容单端口指标详细,全面细致的保障网络设备的正常运行。
5、存储监控,系统提供硬件监控功能,针对硬件的温度、指示灯、风扇等信息进行监控,支持各类主流硬件产品,保障硬件的正常状态。
6、数据库监控,监控系统实现对数据库的监控,针对数据库的运行状态进行监控,支持多种数据库,全面保障数据库的正常运行。
7、中间件监控,监控系统提供中间件监控,包含但不限于IIS、Tomcat、Apache、WebLogic等中间件,监控内容针对性包含各类数据,全面的监控中间件的运行状态。
8、应用监控,监控系统提供应用监控功能,针对AD、DNS、LDAP、Exchange等商业应用,实现响应时间、加载速度等相关信息监控。
9、PC硬件监控,监控系统提供硬件监控功能,针对硬件的温度、指示灯、风扇等信息进行监控,支持各类主流硬件产品,保障硬件的正常状态。
10、虚拟化监控,监控系统提供虚拟化监控功能,支持vmware等多种类产品,监控CPU、内存等使用情况,保障虚拟化主机的正常运行。
11、云平台监控,提供如云服务器的运行状态、CPU使用率、内存使用率、磁盘使用率、磁盘总量和使用量、IO速率等监控指标。
12、链路监控,监控系统提供链路监控功能,针对链路的各个指标进行监控。
对上述监控种类进行集中管理,提供监控对象分类管理功能,提供标签设置功能,提供监控对象核心指标排行功能,其中包含主机的严重告警、CPU、内存、磁盘;网络的严重告警、接收速率、发送速率、接受丢包率、发送丢包率等;数据库的严重告警、表空间、用户连接数、每秒查询数等;中间件的严重告警、连接数、会话数和总访问量等,并且可即时查看排行中每个对象的状态曲线图,提供监控对象最新严重告警首页展示功能,新告警自动刷新,可以及时发现对象的异常状态并处理;提供严重告警统计和同比功能,统计近一个月严重告警的数量,并且与之前一个月进行告警同比,根据小部件自定义主机监控的概况面板,提供单台监控对象监控概况全局显示,提供核心信息自定义显示,包含主机最新告警、运行服务、CPU、内存、硬盘和网卡等,网络设备端口、读写速率等,支持列表、曲线图、饼状图、柱状图等多种显示方式,相关指标的时间区域可通过滑块灵活调整,提供监控对象资产信息管理功能,资产信息可录入、修改、导出等功能,支持监控对象检索功能,支持部分核心数据导出功能,管理面板支持在迁移模板的时候选择默认面板和不使用面板(支持根据客户需求定制面板),支持自动和手动删除监控数据功能。监控系统应根据配置定期自动删除过期的历史的监控数据。也支持手动提前删除未过期的历史数据。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:包括数据库区域、采集区域和WEB区域,
数据库区域中MySQL1作为主库,MySQL2作为从库;
采集区域的采集服务器直接对接数据库区域的主库MySQL1;
WEB区域对于增删改都直接对接数据库区域的主库MySQL1,读取对接数据库区域的从库MySQL2。
2.根据权利要求1所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:采集区域可以对接多台Proxy分担压力或分布式监控。
3.根据权利要求2所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:一站式网络监控管理系统底层结构为Zabbix架构框架,
Zabbix server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据都由Zabbix server组织进行;
database storage:专用于存储所有配置信息,以及由Zabbix收集的数据;
web interface:Zabbix的GUI接口;
proxy:可选组件,常用于监控节点很多的分布式环境中,代理server收集部分数据转发到server,可以减轻server的压力;
agent:部署在被监控的主机上,负责收集主机本地数据如cpu、内存、数据库等数据发往server端或proxy端;
Zabbix server、proxy、agent都有自己的配置文件以及log文件。
4.根据权利要求3所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:系统底层架构为分布式部署,采用server-proxy-client架构,proxy是server、client之间沟通的一个桥梁,proxy本身没有前端,而且其本身并不存放数据,只是将agentd发来的数据暂时存放,而后再提交给server。
5.根据权利要求4所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:Zabbix-server分别对接Zabbix-proxy01和Zabbix-proxy02,Zabbix-proxy01和Zabbix-proxy02,分别与Node01和Node02对接,工作模式分为被动模式和主动模式。
6.根据权利要求5所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:被动模式下,zabbix-server和zabbix-agent之间的通信是zabbix的专用协议,数据格式为;默认情况下,zabbix-agent工作在被动模式下,工作的模式是由Key和zabbix_agentd.conf参数配置决定的;
被动模式的流程:
Server打开一个TCP连接;
Server发送一个key为agent.ping\n;
Agent接收到这个请求,然后响应数据<HEADER><DATALEN>1;
Server对接收到的数据进行处理;
TCP连接关闭。
7.根据权利要求5所述的一种基于Zabbix开源平台的一站式网络监控管理系统,其特征在于:主动模式下,Agent将采集到的数据主动发送给Server,而不需要Server每次连接Agent等待采集,在大型环境下,将工作模式设置为主动模式,并尽可能采用更多的proxy以降低Server的负担,一般多机房条件下每个机房内均设置proxy。
主动模式的流程:
Agent向Server建立一个TCP的连接;
Agent请求需要检测的数据列表;
Server响应Agent,发送一个Items列表(item key、delay);
Agent响应请求;
TCP连接完成本次会话后关闭;
Agent开始周期性的收集数据。
8.根据权利要求1-7任一项所述的一种基于Zabbix开源平台的一站式网络监控管理系统的方法,其特征在于:包括数据库区域中MySQL1作为主库,MySQL2作为从库;采集区域中的采集服务器直接对接数据库区域的主库MySQL1;WEB区域中对于增删改都直接对接数据库区域的主库MySQL1,读取对接数据库区域的从库MySQL2;其中监控系统运行流程:
S1、agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到Zabbixserver端;
S2、Zabbix server将数据存储到数据库中,Zabbix web根据数据在前端进行展现和绘图,这里agentd收集数据分为主动和被动两种模式:
主动监测:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy;
被动监测:server向agent请求获取监控项的数据,agent返回数据。
9.根据权利要求8所述的方法,其特征在于:主动监测通信过程:
Zabbix首先向Server Active配置的IP请求获取active items,获取并提交activetimes数据值server或者proxy,根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试,分获取ACTIVE ITEMS列表和主动检测提交数据两个部分:
获取ACTIVE ITEMS列表;
Agent打开TCP连接,主动监测变成Agent打开;
Agent请求items检测列表;
Server返回items列表;
Agent处理响应;
关闭TCP连接;
Agent开始收集数据;
主动检测提交数据过程如下:
Agent建立TCP连接;
Agent提交items列表收集的数据;
Server处理数据,并返回响应状态;
关闭TCP连接。
10.根据权利要求8所述的方法,其特征在于:被动监测通信过程:
Server打开一个TCP连接;
Server发送请求agent.ping\n;
Agent接收到请求并且响应<HEADER><DATALEN>1;
Server处理接收到的数据1;
关闭TCP连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910712946.3A CN110413485A (zh) | 2019-08-02 | 2019-08-02 | 一种基于Zabbix开源平台的一站式网络监控管理系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910712946.3A CN110413485A (zh) | 2019-08-02 | 2019-08-02 | 一种基于Zabbix开源平台的一站式网络监控管理系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413485A true CN110413485A (zh) | 2019-11-05 |
Family
ID=68365548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910712946.3A Pending CN110413485A (zh) | 2019-08-02 | 2019-08-02 | 一种基于Zabbix开源平台的一站式网络监控管理系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413485A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045375A (zh) * | 2019-12-31 | 2020-04-21 | 北京北信源软件股份有限公司 | 一种机房安全运维监测系统和方法 |
CN111181775A (zh) * | 2019-12-17 | 2020-05-19 | 杭州安恒信息技术股份有限公司 | 基于自动发现主机资产的一体化运维管理告警方法 |
CN112350862A (zh) * | 2020-10-30 | 2021-02-09 | 广州市汇聚支付电子科技有限公司 | 一种监控报警及故障自愈系统 |
CN112702233A (zh) * | 2020-12-21 | 2021-04-23 | 北京首汽智行科技有限公司 | 一种Java虚拟机JVM集群监控方法 |
CN112732514A (zh) * | 2020-12-22 | 2021-04-30 | 航天信息股份有限公司 | 基于分布式关系型数据库的Zabbix监控系统 |
CN112804291A (zh) * | 2020-12-21 | 2021-05-14 | 武汉虹旭信息技术有限责任公司 | 远程设备审计方法、装置及系统 |
CN113055389A (zh) * | 2021-03-17 | 2021-06-29 | 海看网络科技(山东)股份有限公司 | 一种基于zabbix的组播码流监控系统及方法 |
CN113438120A (zh) * | 2021-08-26 | 2021-09-24 | 广州粤芯半导体技术有限公司 | Zabbix告警管理方法及系统、计算机可读存储介质 |
CN114968732A (zh) * | 2022-04-06 | 2022-08-30 | 亿玛创新网络(天津)有限公司 | 一种监控图形自动生成方法、装置、电子设备及存储介质 |
CN115221009A (zh) * | 2022-09-19 | 2022-10-21 | 中国人寿保险股份有限公司上海数据中心 | 一种信创数据库的监控告警集成系统及其实现方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487574A (zh) * | 2016-04-01 | 2017-03-08 | 国家计算机网络与信息安全管理中心 | 自动化运行维护监测系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN108809701A (zh) * | 2018-05-23 | 2018-11-13 | 郑州云海信息技术有限公司 | 一种数据中心智慧数据平台及其实现方法 |
CN109800129A (zh) * | 2019-01-17 | 2019-05-24 | 青岛特锐德电气股份有限公司 | 一种处理监控大数据的实时流计算监控系统及方法 |
-
2019
- 2019-08-02 CN CN201910712946.3A patent/CN110413485A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487574A (zh) * | 2016-04-01 | 2017-03-08 | 国家计算机网络与信息安全管理中心 | 自动化运行维护监测系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN108809701A (zh) * | 2018-05-23 | 2018-11-13 | 郑州云海信息技术有限公司 | 一种数据中心智慧数据平台及其实现方法 |
CN109800129A (zh) * | 2019-01-17 | 2019-05-24 | 青岛特锐德电气股份有限公司 | 一种处理监控大数据的实时流计算监控系统及方法 |
Non-Patent Citations (3)
Title |
---|
ZBLHD99: "zabbix高性能高可用架构设计方案", 《豆丁网》 * |
徐南等: "医疗云监控平台实践", 《医学信息学杂志》 * |
运维砖家: "Zabbix主动模式和被动模式", 《51CTO博客》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111181775A (zh) * | 2019-12-17 | 2020-05-19 | 杭州安恒信息技术股份有限公司 | 基于自动发现主机资产的一体化运维管理告警方法 |
CN111181775B (zh) * | 2019-12-17 | 2023-01-31 | 杭州安恒信息技术股份有限公司 | 基于自动发现主机资产的一体化运维管理告警方法 |
CN111045375A (zh) * | 2019-12-31 | 2020-04-21 | 北京北信源软件股份有限公司 | 一种机房安全运维监测系统和方法 |
CN111045375B (zh) * | 2019-12-31 | 2023-03-10 | 北京北信源软件股份有限公司 | 一种机房安全运维监测系统和方法 |
CN112350862A (zh) * | 2020-10-30 | 2021-02-09 | 广州市汇聚支付电子科技有限公司 | 一种监控报警及故障自愈系统 |
CN112702233A (zh) * | 2020-12-21 | 2021-04-23 | 北京首汽智行科技有限公司 | 一种Java虚拟机JVM集群监控方法 |
CN112804291A (zh) * | 2020-12-21 | 2021-05-14 | 武汉虹旭信息技术有限责任公司 | 远程设备审计方法、装置及系统 |
CN112732514A (zh) * | 2020-12-22 | 2021-04-30 | 航天信息股份有限公司 | 基于分布式关系型数据库的Zabbix监控系统 |
CN113055389A (zh) * | 2021-03-17 | 2021-06-29 | 海看网络科技(山东)股份有限公司 | 一种基于zabbix的组播码流监控系统及方法 |
CN113438120A (zh) * | 2021-08-26 | 2021-09-24 | 广州粤芯半导体技术有限公司 | Zabbix告警管理方法及系统、计算机可读存储介质 |
CN114968732A (zh) * | 2022-04-06 | 2022-08-30 | 亿玛创新网络(天津)有限公司 | 一种监控图形自动生成方法、装置、电子设备及存储介质 |
CN115221009A (zh) * | 2022-09-19 | 2022-10-21 | 中国人寿保险股份有限公司上海数据中心 | 一种信创数据库的监控告警集成系统及其实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413485A (zh) | 一种基于Zabbix开源平台的一站式网络监控管理系统与方法 | |
CN105119750B (zh) | 一种基于大数据的分布式信息安全运维管理平台系统 | |
US8544098B2 (en) | Security vulnerability information aggregation | |
US8688464B2 (en) | Screening electronic service requests | |
CN110278097B (zh) | 一种基于Android系统的服务器运维系统及方法 | |
US9026620B2 (en) | Centrally managing and monitoring of cloud computing services | |
US7185366B2 (en) | Security administration server and its host server | |
WO2023142054A1 (zh) | 一种面向容器微服务的性能监控告警方法及告警系统 | |
US20030135611A1 (en) | Self-monitoring service system with improved user administration and user access control | |
CN107733863B (zh) | 一种分布式hadoop环境下的日志调试方法和装置 | |
CN105282772A (zh) | 无线网数通设备监控系统及设备监控方法 | |
US20100223629A1 (en) | Data Event Processing and Application Integration in a Network | |
CN104811506B (zh) | 基于无线传感器网络的油脂储藏远程监管系统及方法 | |
CN101174973A (zh) | 一种网络安全管理构架 | |
US8478788B1 (en) | Centralized information technology resources analysis system | |
CN106779485B (zh) | 基于soa架构的综合管理系统及数据处理方法 | |
CN112040429B (zh) | 一种基于分布式存储的短信管理系统及方法 | |
CN102148712B (zh) | 基于云计算的服务管理系统 | |
CN110336863B (zh) | 一种数据上报方法和系统 | |
CN202424769U (zh) | 内网安全管理系统 | |
CN105978716B (zh) | It设备及动环设备的监控信息同构化处理及三维呈现方法 | |
US20070208698A1 (en) | Avoiding duplicate service requests | |
CN110061876A (zh) | 运维审计系统的优化方法及系统 | |
CN103414717A (zh) | 一种关于c/s结构业务系统的仿真监控方法和系统 | |
CN108809680A (zh) | 一种设备管理的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |