CN103944777B - 分布式监控系统信息处理方法和系统 - Google Patents

分布式监控系统信息处理方法和系统 Download PDF

Info

Publication number
CN103944777B
CN103944777B CN201410117685.8A CN201410117685A CN103944777B CN 103944777 B CN103944777 B CN 103944777B CN 201410117685 A CN201410117685 A CN 201410117685A CN 103944777 B CN103944777 B CN 103944777B
Authority
CN
China
Prior art keywords
node
collection terminal
data
module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410117685.8A
Other languages
English (en)
Other versions
CN103944777A (zh
Inventor
王晓博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201410117685.8A priority Critical patent/CN103944777B/zh
Publication of CN103944777A publication Critical patent/CN103944777A/zh
Application granted granted Critical
Publication of CN103944777B publication Critical patent/CN103944777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种分布式监控系统信息处理方法和系统,其方法包括在采集端执行的步骤以及在管理端执行的步骤;所述在采集端执行的步骤包括:获取所述采集端对应的各被监控节点的节点数据,对所述节点数据进行处理生成局部状态片,将所述局部状态片发送给管理端;所述在管理端执行的步骤包括:接收所述局部状态片,将所述局部状态片组装成系统全局状态信息;既可以提高系统的数据处理速度,又可以在不浪费资源的同时便于增加被监控节点的数量的分布式监控系统信息处理方法和系统。

Description

分布式监控系统信息处理方法和系统
技术领域
本发明涉及网络监控技术领域,特别是涉及一种分布式监控系统信息处理方法和系统。
背景技术
分布式监控系统是用于获取较大节点规模的计算机网络系统中各被监控节点系统状态数据、绘制系统整体状态、对系统故障进行报警的分布式系统。主要用于较大型的计算机网络,如数据中心、私有云等。其中,被监控节点是一个抽象的概念,是各种系统节点的统称,如服务器、PC机、网络设备、虚拟机,等等,被监控节点通过局域网或者互联网连接成一个网络。
分布式监控系统往往包括一个管理端和多个采集端。传统的分布式监控系统信息处理方式是,采集端负责采集各节点数据,并发送给管理端;通过管理端对接收到的数据做进一步的处理(包括格式化、存储、报警判断并报警、全局状态绘制等)生成系统全局状态信息。其中,全局状态信息反应了被监控系统的整体健康状态和报警信息,如处于不同健康状态的节点数量、不同报警等级的报警数等等。
然而,随着数据中心规模的扩大以及云计算的发展,一个分布式系统中被监控节点数迅速增加,从百节点规模扩展到数千节点规模,以后还将进一步扩大。被监控节点数的快速增长导致管理端采集周期(如5分钟)内处理能力和网络数据吞吐能力需要随之线性增长,这对管理端造成了极大的压力。如果采用传统的分布式监控系统监控信息处理方式,必然会降低系统的数据处理速度,若通过升级管理端硬件的方式来提高管理端处理能力,不但会造成资源浪费,而且限制被监控节点数量的进一步扩大。
发明内容
基于此,提供一种既可以提高系统的数据处理速度,又可以在不浪费资源的同时便于增加被监控节点的数量的分布式监控系统信息处理方法和系统。
本发明的目的通过如下技术方案实现:
一种分布式监控系统信息处理方法,包括在采集端执行的步骤以及在管理端执行的步骤;
所述在采集端执行的步骤包括:获取所述采集端对应的各被监控节点的节点数据,对所述节点数据进行处理生成局部状态片,将所述局部状态片发送给管理端;
所述在管理端执行的步骤包括:接收所述局部状态片,将所述局部状态片组装成系统全局状态信息。
一种分布式监控系统信息处理系统,包括采集端和管理端,所述采集端包括获取模块、处理模块、发送模块,所述管理端包括接收模块和组装模块;
获取模块,用于获取所述采集端对应的各被监控节点的节点数据;
处理模块,用于对所述节点数据进行处理生成局部状态片;
发送模块,用于将所述局部状态片发送给管理端;
接收模块,用于接收所述局部状态片,将所述局部状态片更新到系统全局状态数据库;
组装模块,用于将所述局部状态片组装成系统全局状态信息。
依据本发明的方案,其是采集端负责节点数据的获取与处理得到数据状态片,管理端负责将局部状态片组装成全局状态信息,也就是说,由多个数据处理中心并行处理节点数据,提高了系统的数据处理能力和数据处理速度,由于管理端只需要通过局部状态片构建全局状态数据,且由于采集端只发送局部状态片而不是所有被监控节点的数据给管理端,可以减少管理端的处理压力和数据吞吐量,当节点数据增加时,也只需要增加采集端数量,因而,提高了系统被监控节点的最大容量。
附图说明
图1为本发明的分布式监控系统信息处理方法实施例的流程示意图;
图2为其中一个实施例中图1中步骤S102的细化流程示意图;
图3为本发明的分布式监控系统信息处理系统在其中一个实施例中的结构示意图;
图4为本发明的分布式监控系统信息处理系统在另一个实施例中的结构示意图;
图5为本发明的分布式监控系统信息处理系统在第三个实施例中的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步阐述,但本发明的实现方式不限于此。
参见图1所示,为本发明的分布式监控系统信息处理方法的流程示意图。如图1所示,本实施例中的分布式监控系统信息处理方法包括在采集端执行的步骤以及在管理端执行的步骤,其中,在采集端执行的步骤包括如下的步骤S101~步骤S103,在管理端执行的步骤包括如下的步骤S104~步骤S105,具体如下:
步骤S101:获取所述采集端对应的各被监控节点的节点数据;
本实施例中的分布式监控系统包括一个管理端和多个采集端,每个采集端分别对应多个被监控节点,通过各采集端分别获取其对应的各被监控节点的节点数据,每个采集端具体负责哪些被监控节点可以通过管理端统一管理;
在其中一个实施例中,所述管理端设置管理范围信息,所述采集端根据所述管理范围信息确定所述采集端对应的各被监控节点;
采集端可以通过SNMP(Simple Network Management Protocol,简单网络管理协议)及代理程序获取节点数据,节点数据可以包括CPU利用率、内存数据、硬盘数据、I/0吞吐率等,节点数据的种类可以通过管理端进行统一管理;
在其中一个实施例中,在管理端执行的步骤还可以包括:设置数据采集种类信息,在采集端执行的步骤还可以包括:根据所述数据采集种类信息获取节点数据,也就是说,通过采集端获取的节点数据的种类由管理端统一管理;
步骤S102:对所述节点数据进行处理生成局部状态片;
其中,局部状态片包括节点报警信息和节点状态信息等,其是局部状态信息经过处理的结果,是系统全局状态的一个子集;
分布式监控系统中的各采集端并行处理节点数据,分别生成对应的局部状态片;
在其中一个实施例中,如图2所示,对所述节点数据进行处理生成局部状态片可以具体包括如下步骤:
步骤S1021:将所述节点数据结构化为用于节点报警判断和存储的数据格式;
步骤S1022:将结构化后的节点数据进行存储;
步骤S1023:对存储的节点数据进行报警判断获得节点报警信息;
通过采集端可以从存储节点数据的数据库中调取其对应的被监控节点的节点数据,该数据已经过步骤S1021的结构化处理,因而能用于节点报警判断,则可以判断调取到的节点数据是否触发报警,若是,则相应的记录一条报警信息,综合各条报警信息获得节点报警信息;
在其中一个实施例中,在管理端执行的步骤还可以包括:设置报警条件信息,所在采集端端执行的步骤还可以包括:可以根据所述报警条件判断是否触发报警;所述采集端可以在启动时从管理端获取所述报警条件信息,也可以是通过所述管理端主动向所述采集端下发所述报警条件信息,例如,通过广播的形式下发给所述采集端;
步骤S1024:根据存储的节点数据计算出各所述被监控节点的健康状态,对各所述被监控节点的健康状态进行统计确定节点状态信息;
采集端可以在一个预设的采集周期结束后,综合其负责的每个节点的各项数据,计算出各被监控节点的整体健康状态,并对其负责的所有被监控节点进行统计得到节点状态信息;
步骤S1025:根据所述节点报警信息和所述节点状态信息生成局部状态片;
需要说明的,对所述节点数据进行处理生成局部状态片的方式不限于上述方式,例如,可以不对数据进行存储而直接进行报警判断、计算等,也可以是包括对数据进行其他需要的操作等;
步骤S103:将所述局部状态片发送给管理端;
步骤S104:接收所述局部状态片;
一般需要在一个预设的周期内,对分布式监控系统内所有节点数据完成一次更新;
步骤S105:将所述局部状态片组装成系统全局状态信息;
管理端负责将各个采集端发送来局部状态片进行组装得到全局状态信息,并可以响应用户全局状态查询指令,当用户通过客户端或浏览器请求系统全局状态时,管理端将全局状态信息呈现给用户,为了方便用户的查看以及图形化展示,还可以根据该全局状态信息绘制全局状态图,并发送给用户。
据此,依据上述本实施例中的方案,依据本发明的方案,其是采集端负责节点数据的获取与处理得到数据状态片,管理端负责将局部状态片组装成全局状态信息,也就是说,由多个数据处理中心并行处理数据,提高了系统的数据处理能力和数据处理速度,由于管理端只需要通过局部状态片构建全局状态数据,且由于采集端只发送局部状态片而不是所有被监控节点的数据,可以减少管理端的处理压力和数据吞吐量,当节点数据增加时,也只需要增加采集端数量即可以满足要求,因而,提高了系统被监控节点的最大容量。
此外,考虑到,可能出现采集端异常情况,由于这种情况下,会影响到系统的全局状态信息,因而,在其中一个实施例中,在管理端执行的步骤还可以包括:在预设周期内未接收到所述采集端发送的局部状态片时,探测所述采集端的状态,根据所述采集端的状态判断所述采集端是否正常运行,若没有正常运行,则在所述系统状态数据库中进行标注。这样,可以便于用户对异常采集端进行排查等。
根据上述本发明的分布式监控系统信息处理方法,本发明还提供一种分布式监控系统信息处理系统,以下就本发明的分布式监控系统信息处理系统的实施例进行详细说明。图3中示出了本发明的分布式监控系统信息处理系统的实施例的结构示意图。为了便于说明,在图3中只示出了与本发明相关的部分。
如图3所示,本发明实施例中的一种分布式监控系统信息处理系统包括采集端和管理端,其中,采集端包括获取模块201、处理模块202、发送模块203,管理端包括接收模块204、组装模块205,其中:
获取模块201,用于获取所述采集端对应的各被监控节点的节点数据;
处理模块202,用于对所述节点数据进行处理生成局部状态片;
发送模块203,用于将所述局部状态片发送给管理端;
接收模块204,用于接收所述局部状态片;
组装模块205,用于将所述局部状态片组装成系统全局状态信息。
一般情况下,上述的管理端为一个,采集端为多个。
在其中一个实施例中,本发明的分布式监控系统信息处理系统,如图4所示,管理端还可以包括第一设置模块206;
设置模块206用于设置管理范围信息、数据采集种类信息、报警条件信息;
相应地,获取模块201可以根据所述管理范围信息确定所述采集端对应的各被监控节点,根据所述数据采集种类信息获取节点数据;
在其中一个实施例中,本发明的分布式监控系统信息处理系统,如图4所示,管理端还可以包括第二设置模块207;
相应地,处理模块202可以根据所述报警条件判断是否触发报警。
在其中一个实施例中,处理模块202可以将所述节点数据结构化为用于节点报警判断和存储的数据格式,将结构化后的节点数据进行存储,对存储的节点数据进行报警判断获得节点报警信息,根据存储的节点数据计算出各所述被监控节点的健康状态,对各所述被监控节点的健康状态进行统计确定节点状态信息,根据所述节点报警信息和所述节点状态信息生成局部状态片。
在其中一个实施例中,本发明的分布式监控系统信息处理系统,如图5所示,管理端还可以包括采集端状态标注模块208,采集端状态标注模块208用于在预设周期内未接收到所述采集端发送的局部状态片,探测所述采集端的状态,根据所述采集端的状态判断所述采集端是否正常运行,若没有正常运行,在所述系统状态数据库中进行标注。
本发明的分布式监控系统信息处理系统与本发明的分布式监控系统信息处理方法一一对应,在上述分布式监控系统信息处理方法的实施例阐述的技术特征及其有益效果均适用于分布式监控系统信息处理系统的实施例中,特此声明。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种分布式监控系统信息处理方法,其特征在于,包括在采集端执行的步骤以及在管理端执行的步骤;
所述在采集端执行的步骤包括:获取所述采集端对应的各被监控节点的节点数据,对所述节点数据进行处理生成局部状态片,将所述局部状态片发送给管理端;
所述在管理端执行的步骤包括:接收所述局部状态片,将所述局部状态片组装成系统全局状态信息;
所述对所述节点数据进行处理生成局部状态片包括如下步骤:
将所述节点数据结构化为用于节点报警判断和存储的数据格式;
将结构化后的节点数据进行存储;
对存储的节点数据进行报警判断获得节点报警信息;
根据存储的节点数据计算出各所述被监控节点的健康状态,对各所述被监控节点的健康状态进行统计确定节点状态信息;
根据所述节点报警信息和所述节点状态信息生成局部状态片。
2.根据权利要求1所述的分布式监控系统信息处理方法,其特征在于:
所述在管理端执行的步骤还包括:设置管理范围信息,或者/和设置数据采集种类信息;
所述在采集端执行的步骤还包括:根据所述管理范围信息确定所述采集端对应的各被监控节点,或者/和根据所述数据采集种类信息获取节点数据。
3.根据权利要求1所述的分布式监控系统信息处理方法,其特征在于:
所述在管理端执行的步骤还包括:设置报警条件信息;
所述在采集端执行的步骤还包括:根据所述报警条件判断是否触发报警。
4.根据权利要求1所述的分布式监控系统信息处理方法,其特征在于,所述在管理端执行的步骤还包括:
在预设周期内未接收到所述采集端发送的局部状态片时,探测所述采集端的状态,根据所述采集端的状态判断所述采集端是否正常运行,若没有正常运行,则在系统状态数据库中进行标注。
5.一种分布式监控系统信息处理方法,其特征在于,包括在采集端执行的步骤以及在管理端执行的步骤;
所述在采集端执行的步骤包括:获取所述采集端对应的各被监控节点的节点数据,对所述节点数据进行处理生成局部状态片,将所述局部状态片发送给管理端;
所述在管理端执行的步骤包括:接收所述局部状态片,将所述局部状态片组装成系统全局状态信息;
所述在管理端执行的步骤还包括:
在预设周期内未接收到所述采集端发送的局部状态片时,探测所述采集端的状态,根据所述采集端的状态判断所述采集端是否正常运行,若没有正常运行,则在系统状态数据库中进行标注。
6.根据权利要求5所述的分布式监控系统信息处理方法,其特征在于:
所述在管理端执行的步骤还包括:设置管理范围信息,或者/和设置数据采集种类信息;
所述在采集端执行的步骤还包括:根据所述管理范围信息确定所述采集端对应的各被监控节点,或者/和根据所述数据采集种类信息获取节点数据。
7.根据权利要求5所述的分布式监控系统信息处理方法,其特征在于:
所述在管理端执行的步骤还包括:设置报警条件信息;
所述在采集端执行的步骤还包括:根据所述报警条件判断是否触发报警。
8.一种分布式监控系统信息处理系统,其特征在于,包括采集端和管理端,所述采集端包括获取模块、处理模块、发送模块,所述管理端包括接收模块和组装模块;
获取模块,用于获取所述采集端对应的各被监控节点的节点数据;
处理模块,用于将所述节点数据结构化为用于节点报警判断和存储的数据格式,将结构化后的节点数据进行存储,对存储的节点数据进行报警判断获得节点报警信息,根据存储的节点数据计算出各所述被监控节点的健康状态,对各所述被监控节点的健康状态进行统计确定节点状态信息,根据所述节点报警信息和所述节点状态信息生成局部状态片;
发送模块,用于将所述局部状态片发送给管理端;
接收模块,用于接收所述局部状态片;
组装模块,用于将所述局部状态片组装成系统全局状态信息。
9.根据权利要求8所述的分布式监控系统信息处理系统,其特征在于,所述管理端还包括第一设置模块;
所述第一设置模块用于设置管理范围信息、数据采集种类信息;
所述获取模块根据所述管理范围信息确定所述采集端对应的各被监控节点,根据所述数据采集种类信息获取节点数据。
10.根据权利要求8所述的分布式监控系统信息处理系统,其特征在于,所述管理端还包括第二设置模块;
所述第二设置模块用于设置报警条件信息;
所述处理模块根据所述报警条件判断是否触发报警。
11.一种分布式监控系统信息处理系统,其特征在于,包括采集端和管理端,所述采集端包括获取模块、处理模块、发送模块,所述管理端包括接收模块、组装模块和采集端状态标注模块;
获取模块,用于获取所述采集端对应的各被监控节点的节点数据;
处理模块,用于将所述节点数据结构化为用于节点报警判断和存储的数据格式,将结构化后的节点数据进行存储,对存储的节点数据进行报警判断获得节点报警信息,根据存储的节点数据计算出各所述被监控节点的健康状态,对各所述被监控节点的健康状态进行统计确定节点状态信息,根据所述节点报警信息和所述节点状态信息生成局部状态片;
发送模块,用于将所述局部状态片发送给管理端;
接收模块,用于接收所述局部状态片;
组装模块,用于将所述局部状态片组装成系统全局状态信息;
所述采集端状态标注模块用于在预设周期内未接收到所述采集端发送的局部状态片时,探测所述采集端的状态,根据所述采集端的状态判断所述采集端是否正常运行,若没有正常运行,则在系统状态数据库中进行标注。
12.根据权利要求11所述的分布式监控系统信息处理系统,其特征在于,所述管理端还包括第一设置模块;
所述第一设置模块用于设置管理范围信息、数据采集种类信息;
所述获取模块根据所述管理范围信息确定所述采集端对应的各被监控节点,根据所述数据采集种类信息获取节点数据。
13.根据权利要求11所述的分布式监控系统信息处理系统,其特征在于,所述管理端还包括第二设置模块;
所述第二设置模块用于设置报警条件信息;
所述处理模块根据所述报警条件判断是否触发报警。
CN201410117685.8A 2014-03-26 2014-03-26 分布式监控系统信息处理方法和系统 Active CN103944777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410117685.8A CN103944777B (zh) 2014-03-26 2014-03-26 分布式监控系统信息处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410117685.8A CN103944777B (zh) 2014-03-26 2014-03-26 分布式监控系统信息处理方法和系统

Publications (2)

Publication Number Publication Date
CN103944777A CN103944777A (zh) 2014-07-23
CN103944777B true CN103944777B (zh) 2017-08-25

Family

ID=51192270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410117685.8A Active CN103944777B (zh) 2014-03-26 2014-03-26 分布式监控系统信息处理方法和系统

Country Status (1)

Country Link
CN (1) CN103944777B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320496A (zh) * 2014-11-18 2015-01-28 电信科学技术第十研究所 一种事件处理方法及装置
CN106708815B (zh) * 2015-07-15 2021-09-17 中兴通讯股份有限公司 数据处理方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004848A (zh) * 2006-12-29 2007-07-25 广东志成冠军集团有限公司 多级联网监控报警系统
CN101719841A (zh) * 2009-11-13 2010-06-02 曙光信息产业(北京)有限公司 分布式集群监控系统及方法
CN102750350A (zh) * 2012-06-08 2012-10-24 北京天地云箱科技有限公司 监控系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642849B2 (en) * 2010-10-25 2020-05-05 Schneider Electric It Corporation Methods and systems for providing improved access to data and measurements in a management system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004848A (zh) * 2006-12-29 2007-07-25 广东志成冠军集团有限公司 多级联网监控报警系统
CN101719841A (zh) * 2009-11-13 2010-06-02 曙光信息产业(北京)有限公司 分布式集群监控系统及方法
CN102750350A (zh) * 2012-06-08 2012-10-24 北京天地云箱科技有限公司 监控系统及方法

Also Published As

Publication number Publication date
CN103944777A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
US11921791B2 (en) Cardinality of time series
CN110650038B (zh) 面向多类监管对象的安全事件日志采集处理方法和系统
CN103716173B (zh) 一种存储监控系统及监控告警发布的方法
US8656009B2 (en) Indicating an impact of a change in state of a node
CN103794033B (zh) 监控报警方法和装置
US8443078B2 (en) Method of determining equivalent subsets of agents to gather information for a fabric
Stiawan et al. Anomaly detection and monitoring in Internet of Things communication
CN104539689B (zh) 一种云平台下的资源监控方法
US20210182307A1 (en) System and methods for autonomous monitoring and recovery in hybrid energy management
CN106357442A (zh) 一种服务器集群监控方法及系统
US20230283530A1 (en) Service assurance monitoring based on telemetry
CN112162829B (zh) 一种边缘计算场景下的资源监控数据预处理系统
CN103973484B (zh) 一种基于网络拓扑结构的运维管理系统
CN110995785A (zh) 基于物联网的低压配电网云平台
CN114039892B (zh) 一种网络抖动分析及可视化方法及系统
CN103944777B (zh) 分布式监控系统信息处理方法和系统
CN110061854A (zh) 一种无边界网络智能运维管理方法与系统
CN106446008A (zh) 数据库安全事件的管理方法及分析系统
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN115883330B (zh) 告警事件处理方法、系统、设备及存储介质
CN116708217A (zh) 一种数据中心设备监控方法、系统、电子设备及存储介质
CN104022917B (zh) 云桥监控方法
Zhou et al. A data processing framework for IoT based online monitoring system
CN105892387B (zh) 基于跨平台多点数据采集mpca模型的机房隐患自动上报装置及方法
US9229898B2 (en) Causation isolation using a configuration item metric identified based on event classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant