CN114584589A - 一种快速扫描发现资源并快速监控的实现方法 - Google Patents
一种快速扫描发现资源并快速监控的实现方法 Download PDFInfo
- Publication number
- CN114584589A CN114584589A CN202210208238.8A CN202210208238A CN114584589A CN 114584589 A CN114584589 A CN 114584589A CN 202210208238 A CN202210208238 A CN 202210208238A CN 114584589 A CN114584589 A CN 114584589A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- plug
- layer
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 51
- 230000002688 persistence Effects 0.000 claims abstract description 31
- 238000013461 design Methods 0.000 claims abstract description 6
- 238000007726 management method Methods 0.000 claims description 67
- 238000003860 storage Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000013515 script Methods 0.000 claims description 10
- 238000013523 data management Methods 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 15
- 230000010354 integration Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000000737 periodic effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 2
- 230000003245 working effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种快速扫描发现资源并快速监控的实现方法,采用了分层的系统设计及多模块的结构,系统整体框架分为5大模块包括:管理系统、数据采集层、数据处理层、数据持久化层、展示层,一种一体化监控系统,包括:监控插件、监控客户端、监控代理客户端、数据汇聚端、数据存储端、数据展示端、监控系统服务端,本方案以松散耦合的多系统为基础,采取模块化的多层设计架构,实现了资源扫描发现、监控、管理和控制的闭环,适用于不同规模的企业。以业务监控为核心,以自动化为手段,实现自动化、智能化、一体化的IT运维监控系统,提升企业IT运维能力。
Description
技术领域
本发明涉及IT系统技术领域,特别涉及一种快速扫描发现资源并快速监控的实现方法。
背景技术
IT 运维监控是一系列IT管理软件的统称,特点是功能强大、容易使用、解决方案齐全,可以满足用户的IT管理和监控的需求。系统可极大降低运维人员的专业要求,提升用户对IT设备和系统的管理能力,保障IT系统和硬件的稳定运行。另一方面,借助IT运维监控系统,用户可以更好的了解当前IT环境运行指标,发现系统瓶颈,帮助技术人员优化系统,为系统的升级和扩容提供数据支撑。 方便有效的监控工具和自动化工具,能辅助技术人员分析故障原因。主要适用于有一定IT规模的单位和部门,比如电力、银行、证券、电信、政府、医疗、教育、广电、民航、烟草等中大型企业用户等。
目前国内医疗信息化、智能化发展很快,医院的各种HIS、Pacs、Lis等医疗系统不断上线,微信、支付宝小程序等便民措施不断上线,智慧医疗、智能诊断、医疗大数据的不断上线,使得医院信息系统从之前的辅助系统走向了核心功能,医院对医疗信息系统的可靠性要求越来越高,医院的IT运维管理人员逐渐面临如下难题:
1.设备和业务系统繁多,导致一线运维人员无法准确的定位故障,也无法深入的了解设备的运行情况,管理人员也无法了解到设备和系统的总体运行概况;
2.IT一线运维人员技术能力相对较弱,故障定位耗时长,不利于业务系统的恢复。同时IT架构优化能力;
3.以往的多套运维系统同时并行,不利于整体观察,而且数据的割裂也使得整体排查故障困难,缺乏整体视角。
现有 IT 运维监控系统大部分基于网络管理系统发展而来,通过部署在需要监控的局域网内运行主机上的监控客户端,连续监视主机、数据库、网络设备等IT监控对象,根据预先设定的重要的指标和阀值,自动检测问题,应用程序出现问题可以发送事件到管理员控制台。管理员借助数据展现端,最终发现问题。
传统网管系统一般由如下三个部分组成:
1.数据采集层,主要用于IT监控对象的周期性数据采集,比如SNMP,SNMP-TRAP,Syslog等方式对网络管理对象进行周期性的监控数据采集并往上层传输;
2.数据配置和存储层,用于配置轮询规则、采集规则和存储。简单的资源资产管理功能,设备的图形化配置等;
3.监控数据展示层,用于监控的报警发送和展示、性能数据展示、监控事件的展示、处理和存储。
传统网管系统有如下弊端:
1.数据采集层对被监控设备有一定侵入性,严重时会影响被监控设备的性能和稳定性,还容易造成安全上的隐患;
2.数据采集层的缓存策略出问题会影响到被监控设备的性能;
3.传统网管系统的监控和事件数据只在平台内存在,无法做多维度数据分析,无法与其他IT系统融合,发挥更大价值。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种快速扫描发现资源并快速监控的实现方法。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种快速扫描发现资源并快速监控的实现方法,其特征在于,采用了分层的系统设计及多模块的结构,系统整体框架分为5大模块包括:管理系统、数据采集层、数据处理层、数据持久化层、展示层,具体有:
管理系统,用于对监控平台进行管理,主要包括系统管理和数据管理,管理系统启动前预先配置好数据库地址,管理系统启动后再启动其他子系统,并时刻接受子系统的注册,进行网络区域的划分,并为不同的网络区域分配1个及以上的数据处理层应用,为监控客户端获得本网络区域的数据处理层应用地址做准备。
数据采集层,通过监控客户端和代理客户端执行监控插件实现采集监控数据,并通过管理系统下发采集层的监控功能插件配置实现对应功能。
数据处理层,主要用于数据的转发和处理,分为三个方面:数据的接收,接收所有监控客户端和代理客户端发送的数据;数据处理,对插件采集到的原始数据进行二次处理;数据传输,将收集到的监控客户端数据往数据持久化层传输。
数据持久化层,用于对监控插件采集到的数据做时序的持久化存储,对产生的事件做时序的持久化存储,对过于久远的监控数据根据配置做自动化清理。
展示层,主要用于数据和监控事件的展示,具有视图展示、报表和数据查询三大功能。
所述管理系统中,系统管理包含:用户和用户组、角色管理、角色权限管理、系统基础连接配置、通知配置;数据管理包括:监控插件配置、监控事件配置、监控模板配置、IT设备管理。
所述数据采集层中,位于被监控服务器上的监控客户端以daemon方式运行,并与管理系统通讯,获取自身待执行和调度的监控插件及其插件配置、事件配置,并调度插件周期性执行,获取文本的监控数据,并根据事件触发条件判断是否触发事件。
所述数据处理层一个重要功能是在此做监控事件的判断,数据采集层的客户端本地会缓存30分钟内的一小段历史数据,监控事件的产生规则由服务端配置完成后下发给客户端,当采集器采集到数据后,客户端根据事件规则和实际采集值、历史值进行事件是否触发判断,一旦满足事件产生条件,则在上报实时监控数据的同时带上当前的事件状态信息。
所述数据处理层连接管理系统,获取当前客户端区域内可用的数据处理应用地址和全部的插件配置,客户端和代理客户端使用一致性哈希算法,得到自己实际连接的数据处理应用,根据插件配置,进行数据采集和事件计算,并将采集到的数据和事件数据传输给数据处理层,数据处理层在接收到客户端传递的数据后,根据数据字段类型,决定是否需要对数据做二次处理。
所述数据持久化层启动前,需要管理系统地址、时序数据库地址和消息队列服务地址,配置存储数据的生命周期。
启动后主动消费消息队列中的监控采集数据,将数据格式化后,写入时序数据库,完成监控采集数据的存储。
时序数据库会根据配置好的数据生命周期,动态的管理已经存储的监控数据,定期淘汰过期的历史数据,实现动态数据管理。
数据持久化层还提供丰富的数据查询接口,主要用于数据展示层和数据分析时的数据查询,可根据丰富的metric和tag进行数据的查询。
一种一体化监控系统,包括:监控插件、监控客户端、监控代理客户端、数据汇聚端、数据存储端、数据展示端、监控系统服务端,其中监控系统服务端承担“管理系统”职责,监控插件承担“数据采集层”职责,监控客户端和监控代理客户端承担上述“数据处理层”的职责,数据汇聚端承担数据中转任务,数据存储端承担“数据持久化层”职责,数据展示端承担“展示层”职责。
所述监控插件由脚本和应用程序组成,所述监控插件包括:主机插件、网络设备插件、存储设备插件、数据库插件、中间件插件、IDC动环插件。
综上所述,本发明对比于现有技术的有益效果为:本方案以松散耦合的多系统为基础,采取模块化的多层设计架构,实现了资源扫描发现、监控、管理和控制的闭环,适用于不同规模的企业。以业务监控为核心,以自动化为手段,实现自动化、智能化、一体化的IT运维监控系统,提升企业IT运维能力。
本方案中的监控系统服务端能实现如下监控功能:
1.监控插件管理。针对不同监控对象和对接平台的自身特点,结合实际的监控和管理的需要,将提供:资源扫描配置、监控事件配置、监控报警配置。
2.容量管理。针对不同资源对象的特点,灵活配置不同设备、不同集群下的容量指标、容量上限定义,方便运维和管理人员掌控IT资源的容量信息,及时扩容。
报表管理。针对所有监控对象的当前状态和历史数据进行分析并生成监控对象的运行报表,包括:服务器数量和运行状态统计、报警统计、性能差的服务器列表;网络设备数量和运行状态统计、报警统计、流量大的设备列表;数据库的数量和运行状态、报警统计、数据库相应时长、数据库慢SQL;中间件数量和状态统计、报警统计、请求数量、响应时长等,准确掌握系统运行状态和趋势,及早发现系统瓶颈,为IT系统运营提供数据支撑。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为实施例的数据处理层框架图;
图2为实施例的监控数据处理流程示意图;
图3为实施例的监控插件示意图;
图4为实施例的主机插件工作示意图;
图5为实施例的网络插件工作示意图;
图6为实施例的存储设备插件工作示意图;
图7为实施例的数据库插件工作示意图;
图8为实施例的中间件插件工作示意图;
图9为实施例的IDC动环插件工作示意图;
图10为实施例的监控插件的监控对象发现工作示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式,也可表示一些实施例或一些实施方式的情况。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种快速扫描发现资源并快速监控的实现方法。
需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面对本发明中所涉及的技术术语进行简单描述,以便相关人员更好的理解本方案。
SNMP(Simple Network Management Protocol,简单网络管理协议 ) 由一组网络管理的标准组成,包含一个应用层协议(application layer protoco1)、数据库 模型(database schema)和一组资料物件。该协议能够支持网络管理系统,用以监测连接 到网络上的设备是否有任何引起管理上关注的情况。
API(Application Programming Interface,应用程序接口)是一些预先定义的接口(如函数、HTTP接口),或指软件系统不同组成部分衔接的约定。 用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
IDC(Internet Data Center,互联网数据中心)是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用服务平台。在这个平台基础上,IDC服务商为客户提供互联网基础平台服务(服务器托管、虚拟主机、邮件缓存、虚拟邮件等)以及各种增值服务(场地的租用服务、域名系统服务、负载均衡系统、数据库系统、数据备份服务等)。
API(Application Programming Interface,应用程序接口)是一些预先定义的接口(如函数、HTTP接口),或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
一种快速扫描发现资源并快速监控的实现方法,采用了分层的系统设计及多模块的结构,如图1所示系统整体框架分为5大模块包括:管理系统、数据采集层、数据处理层、数据持久化层、展示层,具体有:
管理系统,用于对所述平台进行管理,主要包括系统管理和数据管理。其中,系统管理包含:用户和用户组、角色管理、角色权限管理、系统基础连接配置、通知配置。数据管理包括:监控插件配置、监控事件配置、监控模板配置、IT设备管理。
数据采集层,用于被监控的设备上数据的采集,和代理监控设备上对远端设备的代理采集。通过服务端下发采集层的监控功能插件配置,数据采集层实现:设备的扫描发现、设备对应的数据收集以及上报功能。通过编写不同的系统扫描、采集插件,实现不同IT资源对象的数据对接。
数据处理层,用于对插件采集到的原始数据进行二次处理。比如原始数据为计数器类型数值的,需要在此处理为实际增长量。另外一个重要功能是在此做监控事件的判断。数据采集层的客户端本地会缓存30分钟内的一小段历史数据,监控事件的产生规则由服务端配置完成后下发给客户端,当采集器采集到数据后,客户端根据事件规则和实际采集值、历史值进行事件是否触发判断。一旦满足事件产生条件,则在上报实时监控数据的同时,带上当前的事件状态信息。
数据持久化层,用于对监控插件采集到的数据做时序的持久化存储,对产生的事件做时序的持久化存储,对过于久远的监控数据根据配置做自动化清理。
展示层,展示层主要用于数据和监控事件的展示,主要有:视图展示、报表和数据查询三大功能,展示层可实时展示系统当前的事件告警情况、告警对象的性能图,系统性能图,并可以对事件告警进行进一步的深入挖掘和分析,辅助用户找到问题根源,还可以展示丰富的拓扑信息,提供给用户丰富、直观的操作界面。
各模块的工作原理如下:
一、管理系统
1.管理系统启动前,需要预先配置好数据库地址,用于存储持久化的配置信息。
2.管理系统启动后,再启动其他子系统,并时刻接受子系统的注册。
3.管理系统启动后,进行网络区域的划分,并为不同的网络区域分配1个及以上的数据处理层应用,为监控客户端获得本网络区域的数据处理层应用地址做准备。
4.由系统管理员在管理系统上配置用户信息、用户组、角色权限、报警的发送方式。
5.由系统管理员在管理系统上配置插件,并为插件配置资源发现规则、监控范围、监控参数、监控指标、监控报警事件条件、报警发送对象和报警发送方式。
6.普通用户和管理员可以在管理系统中查看所有自动发现和人为配置的监控对象信息,并为其分配合理的负责人员。
二、数据采集层
1.由管理系统配置好每一种插件的执行周期、执行参数、执行对象、监控事件产生规则等。
2.位于被监控服务器上的监控客户端以daemon方式运行,并与管理系统通讯,获取自身待执行和调度的监控插件及其插件配置、事件配置,并调度插件周期性执行,获取文本的监控数据,并根据事件触发条件判断是否触发事件。
3.监控插件由脚本和程序组成,监控插件可以执行:服务器主机监控、数据库监控、网络设备监控、IDC动环设备监控、中间件监控、存储设备监控。监控插件由Shell/Perl/Python等语言编写,也可以由java/go/C等高级语言编写。
三、数据处理层
1.数据处理层应用运行于Linux系统上,本地打开监听端口,启动成功后,数据处理层系统向管理系统注册,用于后续监控客户端连接时使用。
2.监控客户端启动时,连接管理系统,获取当前客户端区域内可用的数据处理应用地址和全部的插件配置,客户端和代理客户端使用一致性哈希算法,得到自己实际连接的数据处理应用,根据插件配置,进行数据采集和事件计算。并将采集到的数据和事件数据传输给数据处理层。
3.数据处理层在接收到客户端传递的数据后,根据数据字段类型,决定是否需要对数据做二次处理。比如:计数器类型的数据,在数据处理层会计算出当前数据与上一次数据的差值,再往持久化层传输。
4.数据处理层会连接管理系统,获取数据持久化服务的地址并建立连接,一旦接收到客户端的数据并进行必要的处理之后,将数据发送给数据持久化层。
四、数据持久化层
1.数据持久化层启动前,需要管理系统地址和时序数据库地址和消息队列服务地址,配置存储数据的生命周期,启动后主动连接管理端注册,并主动连接消息队列服务和时序数据库存储服务。
2.启动后主动消费消息队列中的监控采集数据,并将数据格式化后,写入时序数据库,这样就完成了监控采集数据的存储。
3.时序数据库会根据配置好的数据生命周期,动态的管理已经存储的监控数据,定期淘汰过期的历史数据,实现动态数据管理。
4.数据持久化层还提供丰富的数据查询接口,主要用于数据展示层和数据分析时的数据查询,可根据丰富的metric和tag进行数据的查询。
五、展示层
1.展示层启动前需要先配置好管理系统地址、数据持久层地址。
2.启动后,接受用户的查询请求,展示对应监控资源对象的性能视图、事件告警信息、报表信息。
3.主动暴露数据查询API,接受其他系统或者三方系统的API数据查询。
基于该方案具体地有,一种一体化监控系统,包括:监控插件、监控客户端、监控代理客户端、数据汇聚端、数据存储端、数据展示端、监控系统服务端。其中监控插件承担“数据采集层”职责,监控客户端和监控代理客户端承担上述“数据处理层”的职责,数据汇聚端承担数据中转任务,数据存储端承担“数据持久化层”职责,数据展示端承担“展示层”职责,监控系统服务端承担“管理系统”职责。
所述监控插件由脚本和应用程序组成,所述监控插件包括:主机插件、网络设备插件(交换机、路由器、防火墙、负载均衡、AC、AP)、存储设备插件、数据库插件、中间件插件、IDC动环插件。
所述主机插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图4所示,在Windows/Linux/Unix/BSD操作系统上执行,获取服务器的CPU、内存、磁盘的利用率情况,磁盘的IO读写情况,网卡流量和网卡上的错误包、丢弃包数据,系统日志情况,物理服务器硬件情况。
所述网络设备插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图5所示,在代理客户端的Linux操作系统上执行,通过SNMP协议、telnet登录目标设备、ssh登录目标设备执行相关指令的方式,获取网络设备(交换机、路由器、防火墙、负载均衡设备)的系统软件信息、端口状态、端口流量、端口错误包、广播包、丢弃包、端口UP/DOWN状态数据、网络设备系统的CPU利用率、设备内存利用率信息,或者服务端提供的SYSLOG(系统日志)、SNMP-TRAP监听程序,获取网络设备主动发送的SYSLOG及SNMP-TRAP信息进行故障告警。
所述存储设备插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图6所示,在代理客户端的Linux操作系统上执行,通过SNMP协议、telnet登录目标设备、ssh登录目标设备执行相关指令的方式,获取存储硬件和存储交换机的系统软件信息、交换机端口流量、错误包、丢弃包、广播包、端口UP/DOWN状态信息,存储硬件的硬盘物理状态、工作状态等、LUN状态、Raid状态、UPS状态、硬件状态。
所述数据库插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图7所示,在代理客户端的Linux操作系统上执行,通过私有协议登录到目标数据库上并执行SQL语句,以获取对应数据库的系统信息和监控数据。
所述中间件扫描监控插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图8所示,在代理客户端的Linux操作系统上执行,通过HTTP/HTTPS/私有协议方式远程获取中间件的运行信息。
所述IDC动环插件是指:由Shell/perl/python脚本语言组成的脚本程序,或者由JAVA/C/go语言组成的应用程序,如图9所示,在代理客户端的Linux操作系统上执行,通过HTTP/HTTPS、私有协议方式远程获取的IDC的动力及环境系统的运行信息,如列头柜、供电柜、UPS(不间断电源)、精密空调、温湿度传感器、烟雾传感器、漏水传感器的运行状态和告警信息。
以上插件返回内容包括:监控对象的发现情况、插件采集到的性能数据、插件事件规则返回的告警事件状态、事件等级和事件消息内容。监控对象、性能数据和事件数据均为普通字符串形式。
插件的监控对象发现功能如图10所示,是指插件内部提供的一种监控对象扫描方法。插件内可选支持或者不支持扫描,所有支持监控对象扫描的插件,在其内部会定义扫描配置,扫描配置包括:扫描对象、扫描方法、扫描参数配置、扫描频率、对应凭证配置。在监控插件被执行后,将首先进行监控对象扫描方法,并将扫描到的结果上报。一旦监控对象被扫描发现后,将会对已自动发现的监控对象进行监控数据的采集和监控事件的判断。通过上述方法,实现对IT监控对象的自动发现和自动监控,极大降低使用复杂度。
监控客户端/监控代理客户端以daemon的方式运行,客户端一旦收到监控系统服务端的插件配置信息,即立刻执行并重新载入插件信息,并开始按计划进行插件的调度执行并返回结果。
监控客户端/监控代理客户端与监控系统服务端的通讯可以支持明文/密文的方式进行传输。
一种快速扫描发现资源并快速监控的实现方法所述的监控平台的实现方法,具体步骤包括:
步骤一:用户在监控系统服务端,配置监控插件相关监控参数,监控参数包括:监控资源发现规则、测量范围、监控频率、事件阈值等,配置完毕后,由监控系统服务端,将用户配置好的插件配置参数,传递给服务器上的客户端和监控系统的代理客户端。
步骤二:位于服务器和代理监控服务器上的客户端接收到监控系统服务端下发的监控插件配置后,载入并重新配置监控插件,生成插件的调度队列,并驱动监控插件进行插件的执行,插件执行后,会根据事先定义好的事件规则进行是否触发监控事件的判断。
步骤三:监控插件将执行后生成的采集结果和事件信息以文本形式返回给客户端或监控代理客户端,即资源发现数据、监控的性能数据和告警事件数据。
步骤四:监控客户端/监控代理客户端将插件采集的资源发现数据、性能数据和告警事件数据传递给数据汇聚端。
步骤五:数据汇聚端将监控客户端/监控代理客户端上送的数据传递给数据存储端和监控系统服务端。
步骤六:监控系统服务端根据事件数据,结合事件告警策略,判断是否需要发送告警以及如何发送告警和告警对象,并最终发送。
步骤七:数据展示端从数据存储端获取插件采集到的历史数据进行展示,并根据事件数据展示插件产生的事件信息。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。
Claims (7)
1.一种快速扫描发现资源并快速监控的实现方法,其特征在于,采用了分层的系统设计及多模块的结构,系统整体框架分为5大模块包括:管理系统、数据采集层、数据处理层、数据持久化层、展示层,具体有:
管理系统,用于对监控平台进行管理,主要包括系统管理和数据管理,管理系统启动前预先配置好数据库地址,管理系统启动后再启动其他子系统,并时刻接受子系统的注册,进行网络区域的划分,并为不同的网络区域分配1个及以上的数据处理层应用,为监控客户端获得本网络区域的数据处理层应用地址做准备;
数据采集层,通过监控客户端和代理客户端执行监控插件实现采集监控数据,并通过管理系统下发采集层的监控功能插件配置实现对应功能;
数据处理层,主要用于数据的转发和处理,分为三个方面:数据的接收,接收所有监控客户端和代理客户端发送的数据;数据处理,对插件采集到的原始数据进行二次处理;数据传输,将收集到的监控客户端数据往数据持久化层传输;
数据持久化层,用于对监控插件采集到的数据做时序的持久化存储,对产生的事件做时序的持久化存储,对过于久远的监控数据根据配置做自动化清理;
展示层,主要用于数据和监控事件的展示,具有视图展示、报表和数据查询三大功能。
2.根据权利要求1所述的一种快速扫描发现资源并快速监控的实现方法,其特征在于,所述管理系统中,系统管理包含:用户和用户组、角色管理、角色权限管理、系统基础连接配置、通知配置;数据管理包括:监控插件配置、监控事件配置、监控模板配置、IT设备管理。
3.根据权利要求1所述的一种快速扫描发现资源并快速监控的实现方法,其特征在于,所述数据采集层中,位于被监控服务器上的监控客户端以daemon方式运行,并与管理系统通讯,获取自身待执行和调度的监控插件及其插件配置、事件配置,并调度插件周期性执行,获取文本的监控数据,并根据事件触发条件判断是否触发事件。
4.根据权利要求1所述的一种快速扫描发现资源并快速监控的实现方法,其特征在于,所述数据处理层一个重要功能是在此做监控事件的判断,数据采集层的客户端本地会缓存30分钟内的一小段历史数据,监控事件的产生规则由服务端配置完成后下发给客户端,当采集器采集到数据后,客户端根据事件规则和实际采集值、历史值进行事件是否触发判断,一旦满足事件产生条件,则在上报实时监控数据的同时带上当前的事件状态信息。
5.根据权利要求1所述的一种快速扫描发现资源并快速监控的实现方法,其特征在于,所述数据处理层连接管理系统,获取当前客户端区域内可用的数据处理应用地址和全部的插件配置,客户端和代理客户端使用一致性哈希算法,得到自己实际连接的数据处理应用,根据插件配置,进行数据采集和事件计算,并将采集到的数据和事件数据传输给数据处理层,数据处理层在接收到客户端传递的数据后,根据数据字段类型,决定是否需要对数据做二次处理。
6.根据权利要求1所述的一种快速扫描发现资源并快速监控的实现方法,其特征在于,所述数据持久化层启动前,需要管理系统地址、时序数据库地址和消息队列服务地址,配置存储数据的生命周期;
启动后主动消费消息队列中的监控采集数据,并将数据格式化后,写入时序数据库,完成监控采集数据的存储;
时序数据库会根据配置好的数据生命周期,动态的管理已经存储的监控数据,定期淘汰过期的历史数据,实现动态数据管理;
数据持久化层还提供丰富的数据查询接口,主要用于数据展示层和数据分析时的数据查询,可根据丰富的metric和tag进行数据的查询。
7.一种一体化监控系统,其特征在于,包括:监控插件、监控客户端、监控代理客户端、数据汇聚端、数据存储端、数据展示端、监控系统服务端,其中监控系统服务端承担“管理系统”职责,监控插件承担“数据采集层”职责,监控客户端和监控代理客户端承担上述“数据处理层”的职责,数据汇聚端承担数据中转任务,数据存储端承担“数据持久化层”职责,数据展示端承担“展示层”职责;
所述监控插件由脚本和应用程序组成,所述监控插件包括:主机插件、网络设备插件、存储设备插件、数据库插件、中间件插件、IDC动环插件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208238.8A CN114584589A (zh) | 2022-03-04 | 2022-03-04 | 一种快速扫描发现资源并快速监控的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208238.8A CN114584589A (zh) | 2022-03-04 | 2022-03-04 | 一种快速扫描发现资源并快速监控的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114584589A true CN114584589A (zh) | 2022-06-03 |
Family
ID=81777007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210208238.8A Pending CN114584589A (zh) | 2022-03-04 | 2022-03-04 | 一种快速扫描发现资源并快速监控的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114584589A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
CN104184819A (zh) * | 2014-08-29 | 2014-12-03 | 城云科技(杭州)有限公司 | 多层级负载均衡云资源监控方法 |
CN104320446A (zh) * | 2014-10-14 | 2015-01-28 | 上海交通大学 | 分布式多Agent的网站监控方法和系统 |
US20180278686A1 (en) * | 2017-03-23 | 2018-09-27 | Netapp, Inc. | Methods and systems for managing networked storage system resources |
CN113542068A (zh) * | 2021-07-15 | 2021-10-22 | 中国银行股份有限公司 | 一种Redis多实例的监控系统及方法 |
CN113783304A (zh) * | 2021-09-16 | 2021-12-10 | 甘肃同兴智能科技发展有限责任公司 | 一种变电站监控云边协同系统 |
-
2022
- 2022-03-04 CN CN202210208238.8A patent/CN114584589A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
CN104184819A (zh) * | 2014-08-29 | 2014-12-03 | 城云科技(杭州)有限公司 | 多层级负载均衡云资源监控方法 |
CN104320446A (zh) * | 2014-10-14 | 2015-01-28 | 上海交通大学 | 分布式多Agent的网站监控方法和系统 |
US20180278686A1 (en) * | 2017-03-23 | 2018-09-27 | Netapp, Inc. | Methods and systems for managing networked storage system resources |
CN113542068A (zh) * | 2021-07-15 | 2021-10-22 | 中国银行股份有限公司 | 一种Redis多实例的监控系统及方法 |
CN113783304A (zh) * | 2021-09-16 | 2021-12-10 | 甘肃同兴智能科技发展有限责任公司 | 一种变电站监控云边协同系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857613B (zh) | 一种基于采集集群的自动化运维系统 | |
CN102739802B (zh) | 面向业务应用的it集中运维分析系统 | |
US9225554B2 (en) | Device-health-based dynamic configuration of network management systems suited for network operations | |
CN102158360B (zh) | 一种基于时间因子因果关系定位的网络故障自诊断方法 | |
CN105282772A (zh) | 无线网数通设备监控系统及设备监控方法 | |
CN103716173B (zh) | 一种存储监控系统及监控告警发布的方法 | |
CN110659109B (zh) | 一种openstack集群虚拟机监控系统及方法 | |
CN103812699A (zh) | 基于云计算的监控管理系统 | |
KR101327477B1 (ko) | 통합 관제 및 제어 관리 시스템 | |
CN106655502B (zh) | 获取配电网设备运行状态数据的方法和装置 | |
CN106201754A (zh) | 任务信息分析方法及装置 | |
CN102497427A (zh) | 实现可再生能源监测系统数据采集服务的方法和装置 | |
CN103281208B (zh) | 一种数据灾备服务及综合监控系统 | |
CN104125085A (zh) | 一种基于esb的数据管控方法及装置 | |
CN111488258A (zh) | 一种用于软硬件运行状态分析与预警的系统 | |
CN114244676A (zh) | 一种智能it综合网关系统 | |
WO2015192664A1 (zh) | 设备监控方法及装置 | |
CN110912751A (zh) | 一种网络设备拓扑图生成方法及相关装置 | |
CN104967667B (zh) | 一种基于云服务的软件稳定性测试远程监控系统 | |
CN108599978A (zh) | 一种云监控方法和装置 | |
CN117370053A (zh) | 一种面向信息系统业务运行全景监测方法及系统 | |
CN114584589A (zh) | 一种快速扫描发现资源并快速监控的实现方法 | |
CN111953525A (zh) | 专有设备运维监控系统 | |
CN111817865A (zh) | 一种监控网管设备的方法及监控系统 | |
CN111274083A (zh) | 一种分布式监控及采集服务器硬件指标的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |