CN113342596A - 一种设备指标的分布式监控方法、系统及装置 - Google Patents

一种设备指标的分布式监控方法、系统及装置 Download PDF

Info

Publication number
CN113342596A
CN113342596A CN202110596807.6A CN202110596807A CN113342596A CN 113342596 A CN113342596 A CN 113342596A CN 202110596807 A CN202110596807 A CN 202110596807A CN 113342596 A CN113342596 A CN 113342596A
Authority
CN
China
Prior art keywords
monitoring
index
management center
equipment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110596807.6A
Other languages
English (en)
Inventor
李福宜
王平
何建锋
陈宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Jiaotong University Jump Network Technology Co ltd
Original Assignee
Xi'an Jiaotong University Jump Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Jiaotong University Jump Network Technology Co ltd filed Critical Xi'an Jiaotong University Jump Network Technology Co ltd
Priority to CN202110596807.6A priority Critical patent/CN113342596A/zh
Publication of CN113342596A publication Critical patent/CN113342596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种设备指标的分布式监控方法、系统及装置,对网络设备、服务器、中间件、数据库库等网络信息化基础设施进行及时而行之有效的分布式指标采集和阈值触发告警,从而实现对整个网络环境下设备监控指标的集中展示、告警统一管理,进而为态势感知系统、SOC提供强有力的基础网络评估数据。

Description

一种设备指标的分布式监控方法、系统及装置
技术领域
本发明属于计算机网络设备管理技术领域,尤其是涉及一种设备指标的分布式监控方法、系统及装置。
背景技术
随着信息化建设的深入,政府组织或企事业单位的正常运转都越来越依赖于IT设施。通过监控系统实现IT设备的实时监控、性能告警和故障定位,能够保障IT设备和网络的稳定、可靠运行。设备监控系统是通过设备(如主机、网络设备、安全设备、数据库、Web服务器、中间件、虚拟机等)监控指标的运行数据来反映设备的运行状态。
然而,伴随着业务和技术的发展,IT环境日趋复杂,IT设施规模不断扩大,业务变化日益频繁,现有的单设备网络监控部署模式,逐渐显得捉襟见肘、不合时宜。为此有必要研究一种能够适用于大型隔离化网络环境并且行之有效的监控方式。
发明内容
基于上述背景,本发明至在提供一种设备指标的分布式监控方法、系统及装置。
第一方面,提供一种设备指标的分布式监控方法,包括:
监控管理中心启动分级调度程序,缓存当前需要监控的设备资源列表、监控模板信息;所述监控模板信息包括轮询周期;
在模板设定的轮询周期到来后,遍历所述资源列表中的每个设备信息,以判断各个设备所处的监控平台,并向对应的监控平台发送Socket请求;
监控平台受到请求后,调起指标采集进程执行采集任务,指标采集完成后将采集到的监控数据发回到监控管理中心,监控管理中心对接收的监控数据与监控模板进行匹配,将匹配成功的告警信息进行入库处理。
所述监控管理中心收到采集的监控数据时,进行转义加工后加入入库队列,指标告警入库线程从入库队列中取出数据,与监控模板设定的条件进行匹配。
所述监控模板设定的条件包括阈值、告警过滤条件与异常过滤条件。
还包括将所述入库队列中的监控数据存储到监控实时表和监控历史表,用于数据分析处理。
所述监控平台收到监控管理中心的请求后检测该监控管理中心是否合法,验证通过后再启动所述指标采集进程。
所述分级调度程序启动时,同时启动轮询调度、监控指标接收线程与指标告警入库线程;所述指标接收线程对接受到的监控数据进行指标转义加工。
所有的指标采集进程均监控监控管理中心的监控命令端口,进程启动时附带监控管理中心IP,用于发送指标监控数据。
第二方面,提供一种设备指标监控系统,包括:
监控管理中心模块,启动分级调度程序,缓存当前需要监控的设备资源列表、监控模板信息;在模板设定的轮询周期到来后,遍历所述资源列表中的每个设备信息,以判断各个设备所处的监控平台,并向对应的监控平台发送Socket请求;并对监控平台模块发送的监控数据与监控模板进行匹配,将匹配成功的告警信息进行入库处理;
监控平台模块,根据监控管理中心模块的请求,调起指标采集进程执行采集任务,指标采集完成后将采集到的监控数据发回到监控管理中心;
数据存储模块,用于存储配置信息、采集的监控数据、告警信息。
本发明的实施例,还提供一种设备指标监控装置,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-7任一项所述的设备指标监控方法。
如上所述的本发明的技术方案,在网络隔离以及大型网管环境下,对网络设备、服务器、中间件、数据库库等网络信息化基础设施进行及时而行之有效的分布式指标采集和阈值触发告警,从而实现对整个网络环境下设备监控指标的集中展示、告警统一管理,进而为态势感知系统、SOC提供强有力的基础网络评估数据。
附图说明
图1为本发明实施例的设备指标的分布式监控方法,工作流程示意图;
图2为本发明实施例的设备指标监控系统,模块组成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
复杂网络环境下,某个系统是否出现了系统错误(例如响应了HTTP 500状态码),大多数情况下,是无法快速定位到出现问题的系统的,因为实际上存在多种原因,例如以下的情况:
1、该系统响应失败是因为调用其他系统失败,报出错误的系统本身并没有问题;
2、调用其他系统失败是由于网络问题,请求并没有到达目标系统,所以在目标系统的日志中看不到任何异常;
3、被调用的系统响应超时,导致调用方主动断开连接,在被调用方的日志中只能看到连接意外中止的异常信息;
4、调用其他系统存在一条很长的调用链,无法快速追踪到源头。
正是由于后台大量的微服务系统以及系统之间复杂的调用依赖关系,加上较复杂的网络环境,导致出现问题后通过人工去排查十分困难的;例如经常出现几个系统同时开始报警,需要从多个系统中开始排查问题,最后发现有可能是由于某台数据库机器的网络出现了问题,并且还要去确认是否所有的系统都是由于这个问题而引发的报警,这无疑需要浪费大量的资源和时间,而通过监控系统自动对设备和系统的运行指标进行监控,当发生告警时能够的通过日志数据快速准确的定位问题所在。
为了能够发现远程过程调用(RPC即Remote Procedure Call)失败的各种情况(包括业务问题、系统问题、网络问题),目前主要存在两种监控方案,一种是从服务提供方进行监控,另一种是从服务消费方进行监控。
从服务提供方监控,即对服务提供方应用容器的访问日志(如Tomcat的access.log)进行监控,将所有应用的日志文件通过日志收集-分析系统进行统一收集分析。这种监控方式的问题也很明显,无法监控到网络问题,因为请求会由于网络原因没有到达服务提供方(Connect Timeout)请求响应超时(Read Timeout),这样的请求经常不会展现在访问日志中(一些版本的Tomcat存在该问题),因此无法监控到异常的响应请求,即虽然返回了HTTP 200状态码,但是实际上是请求失败(如返回JSON字符串{“status”:“failed”})。而且,从服务提供方进行监控属于“主观”监控,而服务是给服务消费方使用的,服务提供方所认为的“正确”是不够“客观”的,只有服务消费方认为请求成功,才是“客观”的请求成功。
从服务消费方监控,可以实现上述的“客观”的监控,能够实时感知错误响应、网络错误、超时响应、不正确的返回值等。
第一方面,如图1所示,提供一种设备指标的分布式监控方法,具体工作过程为,
监控管理中心的分级调度程序起来时,先缓存当前要进行监控的资源列表和监控模板详情信息以及轮询周期信息,并启动轮询调度模块,监控指标接受线程,以及指标告警入库线程;
在监控模板设定的轮询周期到来后,遍历资源列表中每个要进行监控的资源,查询缓存数据判断该资源所属的监控平台,然后向对应的平台发送Socket监控指令,监控平台收到监控指令后,会进行该监控管理中心是否合法的检测,验证通过后再通过系统命令调起python指标采集进程获取监控模板设定的监控指标的值;
监控指标值采集完成后,根据接收到的监控管理中心IP地址,把采集到的监控数据发回到监控管理中心,监控管理中心的指标接收线程会对接收到的监控数据进行指标转义加工,然后放到入库队列中,指标告警入库线程从入库队列中取出加工后的监控数据,与监控模板设定的阈值、告警过滤、异常过滤条件进行匹配,如果满足匹配条件则进行相关的告警信息入库,所述入库为多线程批量入库。
较佳的,所述入库队列中的监控数据存储到监控实时表和监控历史表,用于数据分析处理。
进一步的,所有的指标采集进程均监控监控管理中心的监控命令端口,进程启动时附带监控管理中心IP,用于发送指标监控数据。
作为较佳的,需要实现信息的收集以及聚合,采用Kafka进行数据的收集,Storm进行数据的聚合,最后将数据交给Overwatch服务进程进行存储和展现,可以实现一个延迟在秒级的实时监控系统。
第二方面,如图2所示,提供一种设备指标监控系统,包括:
监控管理中心模块,启动分级调度程序,缓存当前需要监控的设备资源列表、监控模板信息;在模板设定的轮询周期到来后,遍历所述资源列表中的每个设备信息,以判断各个设备所处的监控平台,并向对应的监控平台发送Socket请求;并对监控平台模块发送的监控数据与监控模板进行匹配,将匹配成功的告警信息进行入库处理;
至少一个监控平台模块,根据监控管理中心模块的请求,调起指标采集进程执行采集任务,指标采集完成后将采集到的监控数据发回到监控管理中心;
数据存储模块,用于存储配置信息、采集的监控数据、告警信息。
另外,本发明的实施例还提供一种设备指标监控装置,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-7任一项所述的设备指标监控方法。
本发明的实施例,在网络隔离以及大型网管环境下,对网络设备、服务器、中间件、数据库库等网络信息化基础设施进行及时而行之有效的分布式指标采集和阈值触发告警,从而实现对整个网络环境下设备监控指标的集中展示、告警统一管理,进而为态势感知系统、SOC提供强有力的基础网络评估数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
对上述公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和相一致的最宽的范围。

Claims (9)

1.一种设备指标的分布式监控方法,其特征在于,包括:
监控管理中心启动分级调度程序,缓存当前需要监控的设备资源列表、监控模板信息;所述监控模板信息包括轮询周期;
在模板设定的轮询周期到来后,遍历所述资源列表中的每个设备信息,以判断各个设备所处的监控平台,并向对应的监控平台发送Socket请求;
监控平台受到请求后,调起指标采集进程执行采集任务,指标采集完成后将采集到的监控数据发回到监控管理中心,监控管理中心对接收的监控数据与监控模板进行匹配,将匹配成功的告警信息进行入库处理。
2.根据权利要求1所述的设备指标监控方法,其特征在于,所述监控管理中心收到采集的监控数据时,进行转义加工后加入入库队列,指标告警入库线程从入库队列中取出数据,与监控模板设定的条件进行匹配。
3.根据权利要求2所述的设备指标监控方法,其特征在于,所述监控模板设定的条件包括阈值、告警过滤条件与异常过滤条件。
4.根据权利要求2所述的设备指标监控方法,其特征在于,还包括将所述入库队列中的监控数据存储到监控实时表和监控历史表,用于数据分析处理。
5.根据权利要求1所述的设备指标监控方法,其特征在于,所述监控平台收到监控管理中心的请求后检测该监控管理中心是否合法,验证通过后再启动所述指标采集进程。
6.根据权利要求1所述的设备指标监控方法,其特征在于,所述分级调度程序启动时,同时启动轮询调度、监控指标接收线程与指标告警入库线程;所述指标接收线程对接受到的监控数据进行指标转义加工。
7.根据权利要求1所述的设备指标监控方法,其特征在于,所有的指标采集进程均监控监控管理中心的监控命令端口,进程启动时附带监控管理中心IP,用于发送指标监控数据。
8.一种设备指标监控系统,其特征在于,包括:
监控管理中心模块,启动分级调度程序,缓存当前需要监控的设备资源列表、监控模板信息;在模板设定的轮询周期到来后,遍历所述资源列表中的每个设备信息,以判断各个设备所处的监控平台,并向对应的监控平台发送Socket请求;并对监控平台模块发送的监控数据与监控模板进行匹配,将匹配成功的告警信息进行入库处理;
监控平台模块,根据监控管理中心模块的请求,调起指标采集进程执行采集任务,指标采集完成后将采集到的监控数据发回到监控管理中心;
数据存储模块,用于存储配置信息、采集的监控数据、告警信息。
9.一种设备指标监控装置,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-7任一项所述的设备指标监控方法。
CN202110596807.6A 2021-05-31 2021-05-31 一种设备指标的分布式监控方法、系统及装置 Pending CN113342596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110596807.6A CN113342596A (zh) 2021-05-31 2021-05-31 一种设备指标的分布式监控方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110596807.6A CN113342596A (zh) 2021-05-31 2021-05-31 一种设备指标的分布式监控方法、系统及装置

Publications (1)

Publication Number Publication Date
CN113342596A true CN113342596A (zh) 2021-09-03

Family

ID=77472593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110596807.6A Pending CN113342596A (zh) 2021-05-31 2021-05-31 一种设备指标的分布式监控方法、系统及装置

Country Status (1)

Country Link
CN (1) CN113342596A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490249A (zh) * 2021-12-30 2022-05-13 广州市玄武无线科技股份有限公司 监控报警方法和装置、计算机设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490249A (zh) * 2021-12-30 2022-05-13 广州市玄武无线科技股份有限公司 监控报警方法和装置、计算机设备、存储介质
CN114490249B (zh) * 2021-12-30 2023-04-07 广州市玄武无线科技股份有限公司 监控报警方法和装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US5491791A (en) System and method for remote workstation monitoring within a distributed computing environment
US10545807B2 (en) Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
EP3591485B1 (en) Method and device for monitoring for equipment failure
CN110231998B (zh) 分布式定时任务的检测方法、装置及存储介质
CN111382023A (zh) 代码故障定位方法、装置、设备及存储介质
CN109901969B (zh) 一种集中监控管理平台的设计方法及装置
CN113342596A (zh) 一种设备指标的分布式监控方法、系统及装置
CN116737818B (zh) Druid数据库连接池的连接泄漏检测方法及系统
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
KR101973728B1 (ko) 통합 보안 이상징후 모니터링 시스템
CN114167181B (zh) 监测本地和异地线路故障溯源的方法及系统
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN114629786A (zh) 日志实时分析方法、装置、存储介质及系统
CN113868094A (zh) 一种大数据异常信息监控系统
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
CN112433915B (zh) 一种基于分布式性能监控工具的数据监控方法及相关装置
CN113688005B (zh) 运维监控方法及系统
CN116737514B (zh) 一种基于日志与探针解析自动化运维方法
JP2012118800A (ja) 運用管理障害対応システム及び運用管理障害対応方法
CN117743087A (zh) 监控设备亚健康的方法及装置
CN118175013A (zh) 一种监控事件集成itsm的自动化处理方法及系统
CN114138522A (zh) 一种微服务的故障恢复方法、装置、电子设备及介质
CN112925714A (zh) 应用程序的监测方法及系统、电子设备及存储介质
CN116149943A (zh) 一体化运维监控告警平台构建方法及运维监控告警系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication