CN107819630A - 一种节点监控方法和装置 - Google Patents

一种节点监控方法和装置 Download PDF

Info

Publication number
CN107819630A
CN107819630A CN201711171972.7A CN201711171972A CN107819630A CN 107819630 A CN107819630 A CN 107819630A CN 201711171972 A CN201711171972 A CN 201711171972A CN 107819630 A CN107819630 A CN 107819630A
Authority
CN
China
Prior art keywords
data
monitoring
node
monitored
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711171972.7A
Other languages
English (en)
Inventor
于文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711171972.7A priority Critical patent/CN107819630A/zh
Publication of CN107819630A publication Critical patent/CN107819630A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种节点监控方法和装置。涉及计算机互联网技术;解决了监控节点数据处理量大、运行压力过高的问题。该方法包括:系统中的节点收集监控数据;在收集到的监控数据表明存在异常时,所述节点发送告警信息。本发明提供的技术方案适用于大规模集群监控,实现了与网络环境相适应的监控。

Description

一种节点监控方法和装置
技术领域
本发明涉及计算机互联网技术,尤指一种节点监控方法和装置。
背景技术
在云计算时代,海量数据存储传输处理需要占用巨大的服务器资源,比较大型的单位都会有成百上千个服务器节点,每个节点会有多达几百个监测项,高并发以及海量数据处理,是智能监测要面对的重大问题及挑战,提高监测性能成为智能监测的首要目标。
比较大型的单位会有成百上千个服务器节点,每个节点会有多达几百个监测项,假设添加大量的服务器(如10000台),每台机器按照100个监控项,则需要在监控机上对这1000000个监控项进行轮询检查,当发现其中监控项出现异常,则产生告警,通过短信、邮件或第三方告警平台转发,这种情况下,一方面大量数据处理影响监控机上云海性能,严重影响系统的稳定性;另一方面,因为告警的出现是偶发性的,因此监控机器上很大一部分数据处理是“没有必要”的,对告警的产生是没有效果的,因此高并发以及海量数据处理,是智能监测要面对的重大问题及挑战,提高监测性能成为智能监测的首要目标。
发明内容
为了解决上述技术问题,本发明提供了一种节点监控方法和装置,系统工作于主动监控和被动监控两种模式之下,将部分数据收集分析任务下放到被监控节点,缓解了监控节点工作压力,提高了监控执行效率,解决了监控节点数据处理量大、运行压力过高的问题。
为了达到本发明目的,本发明提供了一种节点监控方法,包括:
系统中的节点收集监控数据;
在收集到的监控数据表明存在异常时,所述节点发送告警信息。
优选的,所述系统中的节点具体为监控节点,系统中的节点收集监控数据的步骤包括:
所述监控节点向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
优选的,在收集到的监控数据表明存在异常时,所述节点发送告警信息的步骤包括:
所述监控节点分析收集得到的所述监控数据;
在发现数据异常时,所述监控节点发送告警信息。
优选的,所述系统中的节点具体为被监控节点,系统中的节点收集监控数据的步骤具体为:
所述被监控节点收集自身的监控数据。
优选的,在收集到的监控数据表明存在异常时,所述节点发送告警信息的步骤包括:
所述被监控节点分析自身的所述监控数据;
所述被监控节点在发现数据异常时,向监控节点发送告警信息。
本发明还提供了一种节点监控装置,包括:
数据采集模块,用于收集监控数据;
数据处理模块,用于在收集到的监控数据表明存在异常时,发送告警信息。
优选的,所述数据采集模块包括:
被监控数据收集单元,用于向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
优选的,所述数据处理模块包括:
被监控数据分析单元,用于分析收集得到的所述监控数据;
告警单元,用于在发现数据异常时,发送告警信息。
优选的,所述数据采集模块还包括:
自分析告警接收单元,用于接收被监控节点收集自身的监控数据,并分析自身的所述监控数据发现数据异常时,发送的告警信息。
本发明提供了一种节点监控方法和装置,系统中的节点收集监控数据,在收集到的监控数据表明存在异常时,所述节点发送告警信息。可由监控节点收集监控数据后分析发现异常,也可由被监控节点对自身的监控数据进行分析,在发现异常时通报给监控节点。通过两种工作模式,更好的适应了网络环境,缓解监控节点工作压力,提高了监控执行效率,解决了监控节点数据处理量大、运行压力过高的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明的实施例一提供的一种节点监控系统在主动监控模式下的工作原理示意图;
图2为本发明的实施例一提供的一种节点监控系统在被动监控模式下的工作原理示意图;
图3为本发明的实施例二提供的一种节点监控方法的流程示意图;
图4为本发明的实施例三提供的一种节点监控装置的结构示意图;
图5为图4中数据采集模块401的结构示意图;
图6为图4中数据处理模块402的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
比较大型的单位会有成百上千个服务器节点,每个节点会有多达几百个监测项,假设添加大量的服务器(如10000台),每台机器按照100个监控项,则需要在监控机上对这1000000个监控项进行轮询检查,当发现其中监控项出现异常,则产生告警,通过短信、邮件或第三方告警平台转发,这种情况下,一方面大量数据处理影响监控机上云海性能,严重影响系统的稳定性;另一方面,因为告警的出现是偶发性的,因此监控机器上很大一部分数据处理是“没有必要”的,对告警的产生是没有效果的,因此高并发以及海量数据处理,是智能监测要面对的重大问题及挑战,提高监测性能成为智能监测的首要目标。
为了解决上述问题,本发明的实施例提供了一种节点监控方法和装置。系统工作于主动监控和被动监控两种模式之下,将部分数据收集分析任务下放到被监控节点,缓解了监控节点工作压力,提高了监控执行效率,解决了监控节点数据处理量大、运行压力过高的问题。
下面结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种节点监控系统,包括监控节点与被监控节点,监控节点与被监控节点分别安装对应装置,监控节点包括数据采集模块以及数据处理模块,被监控节点包括数据采集模块以及数据处理模块。
一般情况下,监控节点的数据采集模块定时轮流向被监控节点发动监控请求,被监控节点接收请求后进行数据处理,将监控节点需要的数据返回给监控节点,监控节点获取监控数据后由数据处理模块进行处理,对监控项进行保存,告警等操作。主动监控的流程具体如图1所示:
1、监控节数据采集模块点定时向被监控端发送请求。
2、被监控节点返回需要的监控数据。
3、监控节点将监控数据传输给数据处理模块处理
4、最终产生告警。
当被监控节点数量较多,监控节点处理数据大量增加,系统采用被动接收方式进行监控:监控节点不再定时向被监控节点发动请求,而是由被监控节点自监控,即被监控节点定时对自身节点对应数据进行分析,当产生告警后,由被监控节点则向监控节点发送告警,监控节点获取告警信息后,则对告警数据进行处理。被动监控的流程具体如图2所示:
(1)被监控节数据采集模块定时收集数据,并交由本机数据处理模块处理。
(2)若数据正常,则本轮监控终止;若出现告警,数据处理模块会吧告警数据返回给数据采集模块。
(3)被监控节点将监控告警数据传输给监控节点数据采集模块
(4)最终产生告警发送给数据处理模块。
(5)数据处理模块将告警数据发送。
通过这种方式,被监控节点本身过滤掉大量正常的无危害数据,监控节点仅仅处理少量告警数据即可,一方面提高了系统对告警的反应速度,即从最多要等一个轮询周期才能发现故障,到几乎立即就可以发现故障病告警;另一方面,通过此种操作为监控节点过滤了大量无效数据,减轻了监控节点压力,变相提高了系统性能。
下面结合附图对本发明的实施例二进行说明。
本发明实施例提供了一种节点监控方法,使用该方法完成节点监控的流程如图3所示,包括:
步骤301、系统中的节点收集监控数据;
本发明实施例中,一般情况下,监控节点向被监控节点发动监控请求,获取监控数据,并对监控数据进行分析。当被监控节点数量较多,监控节点处理数据大量增加时,被监控节点进行自监控。
在监控节点进行主动监控的情况下,本步骤中,监控节点向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
在监控节点进行被动监控,即被监控节点自行处理监控数据,分析是否存在异常的情况下,本步骤中,被监控节点收集自身的监控数据。
步骤302、在收集到的监控数据表明存在异常时,所述节点发送告警信息;
本步骤中,在主动监控模式下,监控节点分析收集得到的所述监控数据,在发现数据异常时,所述监控节点发送告警信息。
在被动监控模式下,所述被监控节点分析自身的所述监控数据,在发现数据异常时,向监控节点发送告警信息,向监控节点通报异常,以便于监控节点进行告警。
下面结合附图,对本发明的实施例三进行说明。
本发明实施例提供了一种节点监控装置,其结构如图4所示,包括:
数据采集模块401,用于收集监控数据;
数据处理模块402,用于在收集到的监控数据表明存在异常时,发送告警信息。
优选的,所述数据采集模块401的结构如图5所示,包括:
被监控数据收集单元4011,用于向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
优选的,所述数据处理模块402的结构如图6所示,包括:
被监控数据分析单元4021,用于分析收集得到的所述监控数据;
告警单元4022,用于在发现数据异常时,发送告警信息。
优选的,所述数据采集模块401还包括:
自分析告警接收单元4012,用于接收被监控节点收集自身的监控数据,并分析自身的所述监控数据发现数据异常时,发送的告警信息。
本发明的实施例提供了一种节点监控方法和装置,系统中的节点收集监控数据,在收集到的监控数据表明存在异常时,所述节点发送告警信息。可由监控节点收集监控数据后分析发现异常,也可由被监控节点对自身的监控数据进行分析,在发现异常时通报给监控节点。通过两种工作模式,更好的适应了网络环境,缓解监控节点工作压力,提高了监控执行效率,解决了监控节点数据处理量大、运行压力过高的问题。采用主被动相结合的方式,在监控节点以及监控项数量巨大的情况下,将监控节点的压力分散在各个被监控节点,减轻了监控节点压力,增加了监控系统的稳定性。
针对上述问题,主要解决方案为是提高监控节点性能,增加处理能力;或者减少监控节点数据处理量,减少监控节点压力。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种其特征在于,包括:
系统中的节点收集监控数据;
在收集到的监控数据表明存在异常时,所述节点发送告警信息。
2.根据权利要求1所述的节点监控方法,其特征在于,所述系统中的节点具体为监控节点,系统中的节点收集监控数据的步骤包括:
所述监控节点向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
3.根据权利要求2所述的节点监控方法,其特征在于,在收集到的监控数据表明存在异常时,所述节点发送告警信息的步骤包括:
所述监控节点分析收集得到的所述监控数据;
在发现数据异常时,所述监控节点发送告警信息。
4.根据权利要求1所述的节点监控方法,其特征在于,所述系统中的节点具体为被监控节点,系统中的节点收集监控数据的步骤具体为:
所述被监控节点收集自身的监控数据。
5.根据权利要求4所述的节点监控方法,其特征在于,在收集到的监控数据表明存在异常时,所述节点发送告警信息的步骤包括:
所述被监控节点分析自身的所述监控数据;
所述被监控节点在发现数据异常时,向监控节点发送告警信息。
6.一种节点监控装置,其特征在于,包括:
数据采集模块,用于收集监控数据;
数据处理模块,用于在收集到的监控数据表明存在异常时,发送告警信息。
7.根据权利要求6所述的节点监控装置,其特征在于,所述数据采集模块包括:
被监控数据收集单元,用于向至少一个被监控节点发送监控数据请求,接收所述至少一个被监控节点返回的监控数据。
8.根据权利要求7所述的节点监控装置,其特征在于,所述数据处理模块包括:
被监控数据分析单元,用于分析收集得到的所述监控数据;
告警单元,用于在发现数据异常时,发送告警信息。
9.根据权利要求8所述的节点监控装置,其特征在于,所述数据采集模块还包括:
自分析告警接收单元,用于接收被监控节点收集自身的监控数据,并分析自身的所述监控数据发现数据异常时,发送的告警信息。
CN201711171972.7A 2017-11-22 2017-11-22 一种节点监控方法和装置 Pending CN107819630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711171972.7A CN107819630A (zh) 2017-11-22 2017-11-22 一种节点监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711171972.7A CN107819630A (zh) 2017-11-22 2017-11-22 一种节点监控方法和装置

Publications (1)

Publication Number Publication Date
CN107819630A true CN107819630A (zh) 2018-03-20

Family

ID=61610324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711171972.7A Pending CN107819630A (zh) 2017-11-22 2017-11-22 一种节点监控方法和装置

Country Status (1)

Country Link
CN (1) CN107819630A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030046031A1 (en) * 2001-08-29 2003-03-06 Conrad Jeffrey Richard Baselining of data collector data
CN104935482A (zh) * 2015-06-26 2015-09-23 曙光信息产业(北京)有限公司 分布式监控系统及方法
CN106656537A (zh) * 2015-11-03 2017-05-10 中国移动通信集团公司 一种it集群系统监控方法、装置、终端及系统
CN106657387A (zh) * 2017-01-13 2017-05-10 郑州云海信息技术有限公司 一种空管自动化智能集中监控系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030046031A1 (en) * 2001-08-29 2003-03-06 Conrad Jeffrey Richard Baselining of data collector data
CN104935482A (zh) * 2015-06-26 2015-09-23 曙光信息产业(北京)有限公司 分布式监控系统及方法
CN106656537A (zh) * 2015-11-03 2017-05-10 中国移动通信集团公司 一种it集群系统监控方法、装置、终端及系统
CN106657387A (zh) * 2017-01-13 2017-05-10 郑州云海信息技术有限公司 一种空管自动化智能集中监控系统

Similar Documents

Publication Publication Date Title
US11310313B2 (en) Multi-threaded processing of search responses returned by search peers
US20200068051A1 (en) Multi-thread processing of messages
US8954971B2 (en) Data collecting method, data collecting apparatus and network management device
DE112011101321B4 (de) Abfragen von Leistungsdaten auf einem parallelenComputersystem, das Rechenknoten aufweist
CN107070692A (zh) 一种基于大数据分析的云平台监控服务系统及方法
CN114500250B (zh) 一种云模式下体系联动的综合运维系统及方法
CN106656537B (zh) 一种it集群系统监控方法、装置、终端及系统
CN107992394A (zh) 实时数据处理的监控方法、装置、系统、设备及存储介质
CN104699529B (zh) 一种信息获取方法及装置
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
Dunne et al. A comparison of data streaming frameworks for anomaly detection in embedded systems
CN112187938B (zh) 一种变电站全景监控数据层次化组态处理方法及系统
CN107819630A (zh) 一种节点监控方法和装置
CN111506672B (zh) 实时分析环保监测数据的方法、装置、设备及存储介质
CN108551444A (zh) 一种日志处理方法、装置及设备
CN112148566A (zh) 计算引擎的监控方法、装置、电子设备及存储介质
CN107612755A (zh) 一种云资源的管理方法及其装置
CN116627771A (zh) 日志采集方法、装置、电子设备和可读存储介质
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
KR101997951B1 (ko) 시맨틱 정보 분석을 지원할 수 있는 IoT 서비스 시스템 및 방법
CN105072161A (zh) 一种基于云计算的应用程序管理系统
CN106649034A (zh) 一种可视化智能运维方法及平台
CN116205624A (zh) 基于数字孪生的设备运行管理方法及相关产品
CN104135406B (zh) 一种监控数据传送方法及装置
CN112883253A (zh) 数据处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320