CN104301159B - 一种服务器集群的监控方法和系统 - Google Patents
一种服务器集群的监控方法和系统 Download PDFInfo
- Publication number
- CN104301159B CN104301159B CN201410640524.7A CN201410640524A CN104301159B CN 104301159 B CN104301159 B CN 104301159B CN 201410640524 A CN201410640524 A CN 201410640524A CN 104301159 B CN104301159 B CN 104301159B
- Authority
- CN
- China
- Prior art keywords
- unit
- agent
- server
- level
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本申请提供一种服务器集群的监控方法和系统,服务器集群位于分布式网络中,且该服务器集群中的所有服务器按照属性分为多类,该服务器集群的监控系统包括:一级代理单元,以及与该一级代理单元通信连接的多个二级代理单元,其中:二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给一级代理单元;一级代理单元包括逻辑分析代理单元,该逻辑分析代理单元用于接收各二级代理单元提供的基础数据,以判断各服务器的参数指标是否正常,进而实现对分布式网络中异构服务器集群的监控。
Description
技术领域
本发明涉及网络技术领域,更具体地说,涉及一种分布式网络中异构服务器集群的监控方法和系统。
背景技术
为了保障银行电商平台7*24小时稳定、安全和高效地运行,需要对服务器进行统一实时的监控,具体是对服务器的各性能指标,例如CPU、内存、硬盘容量、进程数、数据库连接数等,进行监控。确保各性能指标都在合理安全的范围内,并在某个或者某些性能指标超出设定阈值时,能及时向相关管理人员报警。
传统的监控方式采用主从式的监控模式,即在每一个待监控机器上安装一个监控模块,用于基础信息(主要是预设参数的数值)的采集,利用一个控制主机来收集各监控模块采集的所有基础信息,将各预设参数的数值进行逻辑分析判断,在某参数的值超过阈值时进行报警。
发明人发现,上述现有技术如果针对大型数据中心的服务器,会存在一些不确定因素,大型数据中心包括很多服务器,各服务器之间的架构可能不一致,因为用途不一样导致访问权限、所在网段都不一致,因此采用同一种监控模块是不合适的,当然,逻辑分析判断方式也是各异的。
因此,如何针对分布式网络中异构服务器集群的监控,成为目前亟需解决的问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种服务器集群的监控方法和系统,以对分布式网络中异构服务器集群进行监控。
为实现上述目的,本发明实施例提供如下技术方案:
一种服务器集群的监控系统,所述服务器集群位于分布式网络中,且所述集群中所有服务器按照属性分为多类,所述系统包括:一级代理单元,以及与所述一级代理单元通信连接的多个二级代理单元,其中:
所述二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给所述一级代理单元;
一级代理单元包括逻辑分析代理单元,所述逻辑分析代理单元用于接收各二级代理单元提供的基础数据,判断各服务器的参数指标是否正常。
优选的,所述一级代理单元还包括任务配置代理单元,用于进行任务配置和结果呈现,其中:
所述任务配置包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
优选的,所述一级代理单元还包括数据通信代理单元,用于对网络通信链路的状态进行测量,所述网络通信链路包括所述一级代理单元到二级代理单元之间的线路。
优选的,所述一级代理单元还包括时间同步代理单元,用于同步所有所述一级代理单元及二级代理单元之间的时间。
优选的,所述一级代理单元还包括生命周期管理代理单元,用于管理各个所述任务的生命周期。
优选的,所述属性包括服务器在网络中的位置。
一种基于所述监控系统的监控方法,包括:
接收来自二级代理单元采集的与该二级代理单元对应的服务器的基础数据,所述基础数据携带预设参数值;
对所述基础数据进行逻辑分析,以判断与所述二级代理单元对应的服务器的参数指标是否正常。
优选的,还包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
优选的,还包括:测量网络通信链路的状态,其中,所述网络通信链路包括所述一级代理单元到二级代理单元之间的线路。
优选的,还包括:管理各个所述任务的生命周期。
本申请提供一种服务器集群的监控方法和系统,服务器集群位于分布式网络中,且该服务器集群中的所有服务器按照属性分为多类,该服务器集群的监控系统包括:一级代理单元,以及与该一级代理单元通信连接的多个二级代理单元,其中:二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给一级代理单元;一级代理单元包括逻辑分析代理单元,该逻辑分析代理单元用于接收各二级代理单元提供的基础数据,以判断各服务器的参数指标是否正常,进而实现对分布式网络中异构服务器集群的监控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种服务器集群的监控系统结构示意图;
图2为本申请实施例一提供的另一种服务器集群的监控系统结构示意图;
图3为本申请实施例二提供的一种服务器集群的监控方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本申请实施例一提供一种服务器集群的监控系统,其中,该服务器集群位于分布式网络中,且该服务器集群中所有服务器按照属性分为多类。
具体的,本申请实施例一提供的一种服务器集群的监控系统结构示意图请参见图1。
如图1所示,该服务器集群的监控系统包括:一级代理单元1,及与一级代理单元1通信连接的多个二级代理单元2,其中:
二级代理单元2按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给一级代理单元1;
具体的,基础数据中携带预设参数值,该预设参数值为服务器中携带的预设参数的数值,其中,预设参数为CPU使用率、内存使用率、硬盘使用率、文件打开数、数据库连接数等。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置预设参数的具体含义,在此不做限定。
一级代理单元1包括逻辑分析代理单元,该逻辑分析代理单元用于接收各二级代理单元2提供的基础数据,判断各服务器的参数指标是否正常。
具体的,一级代理单元包括逻辑分析代理单元,该逻辑分析代理单元可接收各二级代理单元提供的基础数据,并通过判断该基础数据中携带的各预设参数值是否在预设范围内,来判断各服务器的参数指标是否正常。
具体的,如:当CPU使用率的预设参数值不在与该CPU使用率对应的预设参数值范围内时,则确定该CPU使用率指标不正常;当CPU使用率的预设参数值在与该CPU使用率对应的预设参数值范围内时,则确定该CPU使用率正常。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置如何根据基础数据判断服务器的参数指标是否正常的具体方式,在此不做限定。
具体的,图1中为了使得本领域技术人员便于对提供的服务器集群的监控系统的理解,因此仅展现出了3个二级代理单元,本领域技术人员应该知道的是,本申请实施例提供的服务器集群的监控系统中并不限定二级代理单元的个数。
本申请提供一种服务器集群的监控系统,服务器集群位于分布式网络中,且该服务器集群中的所有服务器按照属性分为多类,该服务器集群的监控系统包括:一级代理单元,以及与该一级代理单元通信连接的多个二级代理单元,其中:二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给一级代理单元;一级代理单元包括逻辑分析代理单元,该逻辑分析代理单元用于接收各二级代理单元提供的基础数据,以判断各服务器的参数指标是否正常,进而实现对分布式网络中异构服务器集群的监控。
本申请实施例提供的一种服务器集群的监控系统中,其一级代理单元还包括任务配置代理单元,用于进行任务配置和结果呈现,其中,任务配置包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
具体的,服务器集群中所有服务器按照属性分为多类,针对每类服务器可预先设置一个与其对应的任务配置模板,以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设定任务配置模板的数量,如:针对每个服务器均设置一个与其对应的任务配置模板,在此不做限定。
在本申请实施例中,优选的,任务配置包括:响应操作人员的操作,该操作中携带服务器信息;设定监控参数并调用与服务器信息指示的服务器对应的任务配置模板,以生成任务后发送给指定的二级代理单元,该二级代理单元为服务器信息指示的服务器所对应的二级代理单元。
具体的,结果呈现用于显示任务配置结果、各服务器参数指标是否正常等,以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置呈现的结果,在此不做限定。
本申请实施例提供的一种服务器集群的监控系统中,通过在一级代理单元中设置任务配置代理单元,不仅可实现为二级代理单元配置任务的目的,还可实现结果呈现的目的,方便操作人员操作及对操作结果的掌握。
在本申请实施例提供的一种服务器集群的监控系统中,一级代理单元还包括数据通信代理单元,用于网络通信链路的状态进行测量,其中,该网络通信链路包括一级代理单元到二级代理单元之间的线路。
本申请实施例提供的一种服务器集群的监控系统,通过在一级代理单元中设置数据通信代理单元,可实现对一级代理单元到二级代理单元之间的线路的状态的测量,进而保证一级代理单元及二级代理单元之间的有效通信。
在本申请实施例提供的一种服务器集群的监控系统中,一级代理单元还包括时间同步代理单元,用于同步所有一级代理单元及二级代理单元之间的时间。
具体的,时间同步代理单元主要是通过修正各个任务之间的频率偏差,通过往返法测量网络通信链路的时延,实时计算交换时延补偿交换时延的不确定性,从而实现所有一级代理单元和二级代理单元之间的时间同步。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置时间同步代理单元同步所有一级代理单元及二级代理单元之间的时间的方式,在此不做限定。
本申请实施例提供的一种服务器集群的监控系统,通过在一级代理单元中设置时间同步代理单元可保证所有一级代理单元及二级代理单元之间的时间同步,进而保证本申请实施例提供的一种服务器集群的监控系统在监控过程中的准确性。
在本申请实施例提供的一种服务器集群的监控系统中,一级代理单元还生命周期管理代理单元,用于管理各个任务的生命周期。
具体的,一级代理单元中还设置有生命周期管理单元,通过该生命周期管理单元可管理各个任务的生命周期,负责实现任务的创建、执行、存储和运行环境的分配等。
具体的,在任务间对消息的处理是通过线程来实现的,当线程正常结束时,释放线程句柄,如有异常出现,线程被异常退出时,可以通过线程管理有效释放该线程所申请的资源。
具体的,在本申请实施例提供的一种服务器集群的监控系统中,对其所设置的一级代理单元的个数不做限定,为了便于本领域技术人员对本申请实施例提供的服务器集群的监控系统的理解,在此以该服务器集群的监控系统包括两个一级代理单元为例进行说明:
请参见图2,图2为本申请实施例一提供的另一种服务器集群的监控系统结构示意图。
如图2所示,该服务器集群的监控系统包括:两个一级代理单元1、及若干个二级代理单元2,其中,
两个一级代理单元1之间通信连接,且其中一个一级代理单元1与所有的二级代理单元2通信连接。
具体的,本申请实施例通过设置与所有二级代理单元相连的一级代理单元中采用心跳机制与备用一级代理单元(将未与的二级代理单元相连的一级代理单元作为备用一级代理单元)相连,从而达到双机热备的效果。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置一级代理单元的数量,在此不做限定。且本领域技术人员应知道的是,当设置多个一级代理单元时,数据通信代理单元所测量的网络通信链路的状态还应包括一级代理单元之间的线路。
本申请实施例通过设置多个一级代理单元,可有效保证本申请实施例提供的服务器集群的监控系统的稳定性。
具体的,本申请实施例提供的一种服务器集群的监控系统所应用的分布式网络中的服务器按照属性分为多类,其中,属性包括服务器在网络中的位置。
具体的,服务器在网络中的位置大致可分为三层,从上到下分别为:高层是Web层,其主要负责对外开放的Web访问界面系统;中间层是APP应用层,主要是负责具体的功能实现;底层是DB层,主要是存放所有大量的数据。
以上仅仅是本申请实施例的优选方式,在此并不限定属性中仅仅包括服务器在网络中的位置,发明人可根据自己的需求任意设置属性中包含的信息,如服务器的生产厂家等。
本申请实施例通过提供属性所包含的信息,使得本申请实施例提供的一种服务器集群的监控系统更加清晰,更加便于本领域技术人员的理解。
实施例二:
图3为本申请实施例二提供的一种服务器集群的监控方法流程图。
如图3所示,该方法包括:
S101、接收来自二级代理单元采集的与该二级代理单元对应的服务器的基础数据,基础数据携带预设参数值;
本申请实施例提供的一种服务器集群的监控方法应用于上述实施例提供的服务器集群的监控系统。该服务器集群的监控系统中的一级代理单元可接收自二级代理单元采集的与该二级代理单元对应的服务器的基础数据,其中,基础数据携带预设参数值。
S102、对基础数据进行逻辑分析,以判断与二级代理单元对应的服务器的参数指标是否正常。
本申请实施例提供的一种服务器集群的监控方法中,还包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
本申请实施例提供的一种服务器集群的监控方法中,还包括:测量网络通信链路的状态,其中,网络通信链路包括一级代理单元到二级代理单元之间的线路。
本申请实施例提供的一种服务器集群的监控方法中,还包括:管理各个任务的生命周期。
本申请提供一种服务器集群的监控方法,服务器集群位于分布式网络中,且该服务器集群中的所有服务器按照属性分为多类,该服务器集群的监控系统包括:一级代理单元,以及与该一级代理单元通信连接的多个二级代理单元,其中:二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给一级代理单元;一级代理单元包括逻辑分析代理单元,该逻辑分析代理单元用于接收各二级代理单元提供的基础数据,以判断各服务器的参数指标是否正常,进而实现对分布式网络中异构服务器集群的监控。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上仅是本申请的优选实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种服务器集群的监控系统,其特征在于,所述服务器集群位于分布式网络中,且所述集群中所有服务器按照属性分为多类,所述系统包括:一级代理单元,以及与所述一级代理单元通信连接的多个二级代理单元,其中:
所述二级代理单元按照与其对应的服务器的属性生成,用于采集其对应的服务器的携带预设参数值的基础数据,并提供给所述一级代理单元;
一级代理单元包括逻辑分析代理单元,所述逻辑分析代理单元用于接收各二级代理单元提供的基础数据,判断各服务器的参数指标是否正常;
其中,所述属性包括服务器在网络中的位置和/或服务器的生产厂家,所述服务器在网络中的位置包括所述服务器位于web层、所述服务器位于APP应用层或所述服务器位于DB层,所述web层的服务器用于负责对外开放的web访问界面系统,所述APP应用层的服务器用于负责功能实现,所述DB层的服务器用于存放数据。
2.根据权利要求1所述的系统,其特征在于,所述一级代理单元还包括任务配置代理单元,用于进行任务配置和结果呈现,其中:
所述任务配置包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
3.根据权利要求2所述的系统,其特征在于,所述一级代理单元还包括数据通信代理单元,用于对网络通信链路的状态进行测量,所述网络通信链路包括所述一级代理单元到二级代理单元之间的线路。
4.根据权利要求2或3所述的系统,其特征在于,所述一级代理单元还包括时间同步代理单元,用于同步所有所述一级代理单元及二级代理单元之间的时间。
5.根据权利要求2或3所述的系统,其特征在于,所述一级代理单元还包括生命周期管理代理单元,用于管理各个所述任务的生命周期。
6.根据权利要求1所述的系统,其特征在于,所述属性包括服务器在网络中的位置。
7.一种基于权利要求1所述监控系统的监控方法,其特征在于,包括:
接收来自二级代理单元采集的与该二级代理单元对应的服务器的基础数据,所述基础数据携带预设参数值;
对所述基础数据进行逻辑分析,以判断与所述二级代理单元对应的服务器的参数指标是否正常。
8.根据权利要求7所述的方法,其特征在于,还包括:响应操作人员的操作,设定监控参数并调用预设任务配置模板,生成任务后发送给指定二级代理单元。
9.根据权利要求8所述的方法,其特征在于,还包括:测量网络通信链路的状态,其中,所述网络通信链路包括所述一级代理单元到二级代理单元之间的线路。
10.根据权利要求8或9所述的方法,其特征在于,还包括:管理各个所述任务的生命周期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410640524.7A CN104301159B (zh) | 2014-11-13 | 2014-11-13 | 一种服务器集群的监控方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410640524.7A CN104301159B (zh) | 2014-11-13 | 2014-11-13 | 一种服务器集群的监控方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104301159A CN104301159A (zh) | 2015-01-21 |
CN104301159B true CN104301159B (zh) | 2019-01-25 |
Family
ID=52320738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410640524.7A Active CN104301159B (zh) | 2014-11-13 | 2014-11-13 | 一种服务器集群的监控方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104301159B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106357478B (zh) * | 2016-09-30 | 2019-08-02 | 郑州云海信息技术有限公司 | 一种服务器集群监控方法及系统 |
CN109726072B (zh) * | 2018-07-18 | 2022-01-14 | 平安科技(深圳)有限公司 | WebLogic服务器的监控告警方法、装置、系统及计算机存储介质 |
CN114070858A (zh) * | 2020-07-31 | 2022-02-18 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及装置、设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102147960A (zh) * | 2011-03-22 | 2011-08-10 | 曙光信息产业股份有限公司 | 一种超大规模业务集群监控系统和方法 |
CN102868736A (zh) * | 2012-08-30 | 2013-01-09 | 浪潮(北京)电子信息产业有限公司 | 一种云计算监控框架设计及实现方法及云计算处理设备 |
CN103095533A (zh) * | 2013-02-22 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种云计算系统平台中的定时监控方法 |
CN103685486A (zh) * | 2013-12-02 | 2014-03-26 | 中国科学院计算技术研究所 | 跨数据中心集群的分布式系统监控方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8914493B2 (en) * | 2008-03-10 | 2014-12-16 | Oracle International Corporation | Presence-based event driven architecture |
-
2014
- 2014-11-13 CN CN201410640524.7A patent/CN104301159B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102147960A (zh) * | 2011-03-22 | 2011-08-10 | 曙光信息产业股份有限公司 | 一种超大规模业务集群监控系统和方法 |
CN102868736A (zh) * | 2012-08-30 | 2013-01-09 | 浪潮(北京)电子信息产业有限公司 | 一种云计算监控框架设计及实现方法及云计算处理设备 |
CN103095533A (zh) * | 2013-02-22 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种云计算系统平台中的定时监控方法 |
CN103685486A (zh) * | 2013-12-02 | 2014-03-26 | 中国科学院计算技术研究所 | 跨数据中心集群的分布式系统监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104301159A (zh) | 2015-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446032A (zh) | Kubernetes副本扩缩容的方法及系统 | |
WO2015176451A1 (zh) | 拓扑展示方法及装置 | |
CN105610647A (zh) | 一种探测业务异常的方法和服务器 | |
CN107786616A (zh) | 基于云端的主机智能监控系统 | |
US10340981B2 (en) | Data center management using device identification over power-line | |
CN109709389B (zh) | 针对电力仪表分布式大容量实时数据采样告警方法和系统 | |
CN103973815A (zh) | 一种跨数据中心存储环境统一监控方法 | |
CN104052631A (zh) | 一种设备信息的采集方法、装置以及系统 | |
CN104301159B (zh) | 一种服务器集群的监控方法和系统 | |
CN103188101A (zh) | 一种分布式采集调度方法及装置 | |
CN110658415A (zh) | 一种低压配电线路故障检测方法及系统 | |
CN107360045A (zh) | 一种存储集群系统的监控方法及装置 | |
CN106161090A (zh) | 一种分区集群系统的监测方法及装置 | |
CN106383770A (zh) | 一种服务器监控管理的方法及服务器 | |
CN106383771A (zh) | 一种主机集群监控方法及装置 | |
CN110417586A (zh) | 服务监控方法、服务节点、服务器及计算机可读存储介质 | |
CN201947289U (zh) | 服务器管理监控系统 | |
CN108540341A (zh) | 资源监控方法及装置 | |
CN101511095A (zh) | 基站告警智能监控系统 | |
CN204389937U (zh) | 交通设备全过程运营监控装置 | |
CN109165228A (zh) | 智能电网调度控制系统实时数据库监视系统和方法 | |
Sagkriotis et al. | Energy usage profiling for virtualized single board computer clusters | |
CN104484753A (zh) | 一种服务器资产信息追溯方法 | |
CN209168182U (zh) | 一种基于国产操作系统的电能计量系统 | |
CN107819613A (zh) | 一种绿色建筑的能耗监测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |