CN104301167B

CN104301167B - 一种监测装置及方法

Info

Publication number: CN104301167B
Application number: CN201310304405.XA
Authority: CN
Inventors: 朱庆昌; 李晓阳; 聂志; 吴雨果
Original assignee: FOUNDER BROADBAND NETWORK SERVICE Co Ltd
Current assignee: FOUNDER BROADBAND NETWORK SERVICE CO LTD
Priority date: 2013-07-19
Filing date: 2013-07-19
Publication date: 2018-09-04
Anticipated expiration: 2033-07-19
Also published as: CN104301167A

Abstract

本发明涉及一种监测装置及方法，该装置包括主管理模块、若干子管理模块和管理员终端。当其中一个被监测系统发生异常时，发生异常的被监测系统对应的子管理模块会控制其做出相应处理，无需进行人工辅助操作。主管理模块对与其有依赖关系的被监测系统进行判断并给出相应的动作方式，再通过相应的子管理模块通知给相应的有依赖关系的被监测系统进行相应的动作。待到异常系统恢复正常后通过以上途径逐步实现整个系统功能的恢复。用户可以随时通过管理界面与主管理模块进行通信，并可以对被监测系统发送特定指令。本发明的上述方案可以有效避免因为一个系统异常而带来的整个依赖系统的异常乃至崩溃。

Description

一种监测装置及方法

技术领域

本发明涉及一种服务器集群技术领域，具体是一种监测装置及方法。

背景技术

在网络环境下，网络服务器大多都是由服务器集群组成的，每个服务器上运行着不同的系统，而且系统之间也有可能是彼此依赖的。由于网络环境的复杂性，系统出现异常可能性大大增加，如果服务器集群中有一个系统出现异常，有可能对整个服务器集群造成重大影响，使整个服务器集群正常功能丧失，从而直接对用户的使用造成重大影响。为解决这类问题就需要对服务器集群中的各个重要系统进行实时监测，一旦发现有系统出现异常就需要通知依赖其运行的正常系统，并重启异常系统，从而将恶劣后果减少到最小。

现有技术的系统监测方法主要是通过第三方系统对需要监测的系统定时进行心跳通信实现的，方案如图1所示。监测系统通过对被监测系统进行定时通信的方法来获得信息，如果被监测系统能正常对监测系统进行回应，说明被监测系统不存在异常，否则说明被监测系统存在异常，进而通知管理员。

现有技术中的上述监测方法，适用于图1所示的被监测系统之间相互独立的情况。而被监测系统之间存在彼此依赖的情况下，当被监测系统中的某个系统异常，上述方案中的监测系统无法通知其他依赖此异常系统工作的正常系统，因此与此异常系统存在依赖关系的正常系统都无法做出相应的动作，在网络服务器这样的特殊情况下可能有会带来灾难性后果，致使整个网络服务瘫痪。

另外，现有技术中的上述方案中的监测方法可以监测到某一系统出现异常，但是出现异常后监测系统只能将异常信息通过短信或者邮件发送给管理人员，而无法实现对异常系统本身的操作如自动重启，也就无法控制异常系统恢复正常运行，只能通过人工重启等人为操作帮助异常系统恢复正常运行。而人为操作的速度和效率较低，无法在第一时间使异常系统恢复正常运行，严重时会直接导致依赖系统崩溃，并带来连锁反应，可能会造成整个网络系统崩溃。

再者，现有技术的上述方案只能通过监测系统实现对被监测系统进行监测而没有考虑到对监测系统本身是否出现异常进行监测，当监测系统本身有异常时无法及时被管理人员发现，无法及时对异常进行处理，给用户的使用带来极大的不变，严重时可能会给用户带来巨大的经济损失。

发明内容

本发明所要解决的技术问题是现有技术中的以上不足，从而提供一种监测装置及方法。

为解决上述技术问题，本发明是通过以下技术方案实现的：

一种监测装置，包括：主管理模块和若干子管理模块；

每一所述子管理模块，用于对一组被监测系统进行监测；当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块；

所述主管理模块，管理被监测系统之间的依赖关系；

所述主管理模块接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

进一步地，所述被监测系统的运行状态发生变化包括从正常运行到出现异常；

当所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块；

所述主管理模块接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

进一步地，所述被监测系统的运行状态发生变化包括从出现异常到恢复正常；

当所述子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块；

所述主管理模块接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

进一步地，所述主管理模块控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态的变化而变化。

进一步地，所述主管理模块的功能还包括对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块发送异常通知给管理员终端；并且所述主管理模块根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

进一步地，每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。

进一步地，每一所述子管理模块对被监测系统进行监测的方法为：被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。

进一步地，所述主管理模块对每一所述子管理模块进行异常监测的方法为：所述主管理模块与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。

进一步地，所述主管理模块对每一所述子管理模块进行异常监测的方法为：每一所述子管理模块出现异常后主动向所述主管理模块发送异常信息。

进一步地，所述管理员终端还包括管理界面，所述管理界面显示每一被监测系统的状态；所述管理员终端还可输入动作方式，并将输入的动作方式经所述主管理模块发送至各子管理模块，进而控制相应的被监测系统做出相应动作。

本发明还提供一种监测方法，包括如下步骤：

S1：将多个被监测系统划分为多组，被监测系统之间的依赖关系由主管理模块进行管理；

S2：每一组被监测系统均配置一子管理模块进行监测，当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块；

S3：所述主管理模块接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

进一步地，所述步骤S2中，所述被监测系统的运行状态发生变化包括从正常运行到出现异常；所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块；

所述步骤S3中，所述主管理模块接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

进一步地，所述步骤S2中，被监测系统的运行状态发生变化包括从出现异常到恢复正常；当子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块；

所述步骤S3中，所述主管理模块接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

进一步地，所述步骤S1中，所述主管理模块控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态发生变化而变化。

进一步地，所述步骤S2还包括如下步骤：所述主管理模块对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块发送异常通知给管理员终端；

所述步骤S3还包括如下步骤：所述主管理模块根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

进一步地，所述步骤S2中，每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。

进一步地，所述步骤S2中，每一所述子管理模块对被监测系统进行监测的方法为：被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。

进一步地，所述步骤S2中，所述主管理模块对每一所述子管理模块进行异常监测的方法为：所述主管理模块与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。

进一步地，所述步骤S2中，所述主管理模块对每一所述子管理模块进行异常监测的方法为：每一子管理模块出现异常后主动向所述主管理模块发送异常信息。

所述步骤S3还包括如下步骤：通过所述管理员终端的管理界面实时查看每一被监测系统的状态，并输入动作方式至所述管理员终端，所述管理员终端将输入的动作方式经所述主管理模块发送至各子管理模块，进而控制相应的被监测系统做出相应动作。

本发明还提供一种上述的监测方法在IP网络环境的应用。

本发明的上述技术方案相比现有技术具有以下优点：

(1)本发明所述的监测装置及方法，只要某一被监测系统的运行状态发生了变化，如从正常运行状态到出现异常状态，或者从异常状态恢复到正常运行状态；都会被子管理模块立即获取该运行状态改变的信息发送给主管理模块，主管理模块会根据依赖关系判断其他依赖该运行状态改变的被监测系统运行的其他依赖系统应该做出的动作，主管理模块将该动作方式通过依赖系统所对应的子管理模块发送至依赖系统，从而使依赖系统做出相应的动作来处理此种异常。通过本发明可以避免由于某一被监测系统出现异常，其他依赖此系统运行的被监测系统无法处理的问题，有效地解决了现有技术中由于某一被监测系统异常造成连锁反应，导致整个依赖链系统全部异常，最终致使整个网络服务瘫痪的问题。

(2)本发明所述的监测装置及方法，当子管理模块发现某一被监测系统出现异常时，子管理模块便可以直接对出现异常的被监测系统本身做出相应的处理或动作，包括自动重启等，无需通过人为帮助便可使整个异常系统恢复正常运行，且能在异常系统恢复正常后控制与其有依赖关系的其他被监控系统做出相应的动作恢复正常运行，因此无需人为干预便可以使依赖链上的所有被监测系统再度恢复正常运行。

(3)本发明所述的监测装置及方法，还包括对子管理模块进行检测，当发现子管理模块异常时，可以迅速做出相应的反应，避免因为管理系统本身的异常而给整个服务器集群带来灾难性的后果。

附图说明

为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，

图1是现有技术中对多个系统进行监测的系统的结构示意图；

图2是本发明一个实施例所述监测装置的系统架构图；

图3是本发明一个实施例所述监测装置的系统连接框图；

图4是本发明一个实施例所述监测方法流程图；

图5是本发明一个实施例所述监测方法监测过程的流程图。

其中的附图标记为：1-主管理模块，4-管理终端。

具体实施方式

实施例1

本实施例所述的监测装置，如图2所示，包括：主管理模块1和若干子管理模块。每一所述子管理模块，用于对一组被监测系统进行监测；当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块1；所述主管理模块1，管理被监测系统之间的依赖关系；所述主管理模块1接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

其中所述依赖关系是指：对于两个相对独立的系统，当一个系统负责构造另一个系统的实例，或者依赖另一个系统的服务时，这两个系统之间主要体现为依赖关系。本实施例中所述的依赖关系可以有多种，如递归依赖、循环依赖等。依赖关系并不是固定不变的，它其实就是存储于所述主管理模块1内部的一个动态的表格，表格中记录了不同系统之间的依赖关系。所述主管理模块1控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态的变化而变化。相应的所述主管理模块1控制其内部的动态表格也会做出调整。其中被监测系统的运行状态发生变化时，与该监测系统存在依赖关系的其他被监测系统也应该做出相应的动作来处理这一变化。具体是何种动作方式需要根据运行状态发生了何种变化、何种依赖关系以及应用在何种场合来设定。一般情况下，可以包括自重启、关机等。

本实施例的上述技术方案，对于具有依赖关系的被监测系统进行监测时，只要其中一个被监测系统的运行状态发生了改变，所述主管理模块能够根据依赖关系得到与该被监测系统具有依赖关系的其他被监测系统的动作方式，主管理模块1可以通过控制相应的子管理模块进而控制这些依赖系统做出相应的动作来应对这一变化。因此，无论被监测系统出现了何种异常情况，与之具有依赖关系的其他被监测系统都能立即对这一变化做出动作，有效避免由于处理不及时带来的不良后果。

实施例2

本实施例在实施例1的基础上做出如下改进，本实施例中，所述被监测系统的运行状态发生变化包括从正常运行到出现异常。当所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块1；所述主管理模块1接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

本实施例中的监测装置，在被监测系统彼此依赖的情况下，当某个被监测系统出现异常，所述主管理模块1会根据依赖关系判断其他依赖此系统工作的依赖系统所应该执行的相应动作，这些动作与应用环境有关，例如：在IP网络环境下，可以根据异常情况对某个被监测系统进行如下动作，如：路由策略进行重新配置、重启系统、重启网卡、改变上下行流量等。在其它生产环境下，如自动化工业控制领域，当某个被监测设备发生异常，依赖该异常的被监测设备工作的其他设备可以做出更改原料配置、温度调节、电压变化等动作。将本实施例的上述装置应用于不同的环境时，如果某一被监测系统出现异常，则出现异常的被监测系统以及与其具有依赖关系的被监测系统所应执行的动作应该是该领域技术人员公知的，由于这并不是本申请的发明要点，因此不再详述。

相应地，所述被监测系统的运行状态发生变化还包括从出现异常到恢复正常。当所述子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块1；所述主管理模块1接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

如前所述，当某一被监测系统从出现异常到恢复正常时，所述主管理模块1会根据依赖关系判断其他依赖此系统工作的依赖系统所应该执行的相应动作，这些动作也与应用环境有关，例如：在IP网络环境下，可以是重新配置路由策略，改变上下行流量，修复与该恢复正常的被监测系统之间的依赖关系等。将本实施例的上述装置应用于不同的环境时，如果某一出现异常的被监测系统恢复正常，则恢复正常的被监测系统以及与其具有依赖关系的被监测系统所应执行的动作应该是该领域技术人员公知的，在此不再详述。

以图2为例对本实施例的上述装置进行说明。如图2所示，被监测系统E、被监测系统F为一组，子管理模块B负责对这两个系统进行监控。被监测系统G和被监测系统H为一组，子管理模块C负责对这两个系统进行监控。在实际应用中，每一组被监测系统的数量不限于两个，也可以是更多个或者是一个。子管理模块的个数也不限于两个。被监测系统的分组可以根据具体的网络拓扑结构进行部署，被分在一组中的被监测系统之间可以不存在任何依赖关系的，也有可能分在一组中的被监测系统之间存在某些依赖关系。

本实施例中设定出现异常的被监测系统为被监测系统E，与其有依赖关系的是被监测系统F与被监测系统G。其中子管理模块B监测到被监测系统E出现异常时将异常信息发送给主管理模块1。主管理模块1会得到与被监测系统E有依赖关系的依赖系统为被监测系统F和被监测系统G，并得到这两个依赖系统应该做出的动作方式，主管理模块1将该动作方式分别通过子管理模块B和子管理模块C发送给被监测系统F和被监测系统G控制它们进行相应的动作。

采用本实施例的上述技术方案可知，当一个被监测系统出现异常时，依赖系统能够及时做出相应的动作来处理此种异常，可以有效避免由于其他依赖系统无法处理此异常导致的依赖系统崩溃，造成连锁反应，进而使整个依赖链系统全部异常，最终致使整个网络服务瘫痪的局面发生。相应地，当某一被监测系统恢复正常时，依赖系统也能够及时做出调整重新修复与该系统的依赖关系，确保整个服务器集群快速恢复到正常的运行状态。

实施例3

本实施例在实施例1或实施例2的基础上做出如下改进，所述主管理模块1的功能还包括对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块1发送异常通知给管理员终端4；并且所述主管理模块1根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

以图3所示的框图为例，所述主管理模块1还可以对所述子管理模块B和子管理模块C进行监测，假如所述子管理模块B发生异常，所述主管理模块1便会发送异常通知给管理员终端4；并且所述主管理模块1根据发生异常的子管理模块B监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。假设被监测系统F和被监测系统G均依赖被监测系统E。则主管理模块1在收到子管理模块B发生异常的异常信息后，会得到子管理模块B监控的系统为被监测系统E和被监测系统F，而被监测系统E和被监测系统F之间存在依赖关系，都被子管理模块B监控，此时子管理模块B发生异常，无需再向子管理模块B发送指令。而除此之外，被监测系统G与被监测系统E也存在依赖关系，需要执行相应的操作指令，如切断与被监测系统E之间的联系等，而被监测系统G由子管理模块C负责监控，因此主管理模块1将动作方式的指令发送给子管理模块C，然后由子管理模块C发送给被监测系统G，控制被监测系统G执行相应的动作。

本实施例所述的技术方案包括对子管理模块进行监测的功能，当发现子管理模块异常时，可以迅速做出相应的反应，避免因为管理系统本身的异常而给整个服务器集群带来灾难性的后果。

优选地，所述管理员终端4还包括管理界面，所述管理界面显示每一被监测系统的状态；所述管理员终端4还可输入动作方式，并将输入的动作方式经所述主管理模块1发送至各子管理模块，进而控制相应的被监测系统做出相应动作。所述输入的动作方式包括重启系统、结束进程、中断联系等。所述管理员终端4可以是联网的PC机或者手机、PAD等移动终端，因此所述主管理模块1可以直接发送异常通知至所述管理员终端4，通知方式可以为邮件或者短信等，但是并不限于这两种。当系统出现异常时，管理员不必查看管理界面，只需通过邮件或者短信即可知道哪个系统出现了异常，并通过异常通知里包含的信息代码而在第一时间获得系统出现了什么样的异常，进而可以帮助管理员进行判断针对这种异常需要进行怎样的处理。对于一些需要人工操作才可以恢复正常的异常系统来说，无疑为系统维护节省了宝贵的时间。而且，所述管理员终端的管理界面也不仅仅限于WEB界面，也可以是C\S架构方式(客户机和服务器结构)等。

作为可以实施的方式，每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。或者被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。这两种监测方法都能够准确快速地监测到系统的运行状态是否发生变化。

同样的，所述主管理模块1对每一所述子管理模块进行异常监测的方法为：所述主管理模块1与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。或者每一所述子管理模块出现异常后主动向所述主管理模块1发送异常信息。这两种监测方法在现有技术中的有较为成熟的应用，都能够准确快速地监测到子管理模块是否发生异常。

本实施例中所述心跳通信是指：建立起通信关系的双方中的一方，每隔固定的时间向另一方发送一个很小的数据包，另一方根据需要确定在收到数据包之后是否回复一个很小的数据包。

本实施例所述的监测装置是在IP网络环境下应用的。实际上，对于很多集群式的服务器，且服务器中运行的系统之间存在依赖关系的情况，均可以采用本实施例中提供的监测装置。

实施例4

本实施例提供一种监测方法，如图4所示，包括如下步骤：

S1：将多个被监测系统划分为多组，被监测系统之间的依赖关系由主管理模块1进行管理；

S2：每一组被监测系统均配置一子管理模块进行监测，当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块1；

S3：所述主管理模块1接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

本实施例的监测方法，适用于对具有依赖关系的被监测系统进行监测，只要其中一个被监测系统的运行状态发生了改变，能够立即获得与该被监测系统具有依赖关系的其他被监测系统的动作方式，所述主管理模块1可以通过控制相应的子管理模块来控制这些依赖系统做出相应的动作来应对这一变化。因此，无论被监测系统出现了何种异常情况，与之具有依赖关系的其他被监测系统都能立即对这一变化做出动作，有效避免由于处理不及时带来的不良后果。

实施例5

本实施例在实施例1的基础上，做出进一步优化。所述步骤S2中，所述被监测系统的运行状态发生变化包括从正常运行到出现异常；所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块1。所述步骤S3中，所述主管理模块1接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

进一步地，所述步骤S2中，被监测系统的运行状态发生变化包括从出现异常到恢复正常；当子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块1；所述步骤S3中，所述主管理模块1接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

本实施例所述步骤S2中，每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。或者被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。

本实施例中所述步骤S1所述的依赖关系可以有多种，如递归依赖、循环依赖等。依赖关系并不是固定不变的，它其实就是存储于所述主管理模块1内部的一个动态的表格，表格中记录了不同系统之间的依赖关系。所述主管理模块1控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态发生变化而变化。相应地，所述主管理模块1内的动态表格也会发生变化。

结合图3和图5对本实施例的上述方法进行说明。如图3所示，被监测系统E、被监测系统F为一组，子管理模块B负责对这两个系统进行监控。被监测系统G和被监测系统H为一组，子管理模块C负责对这两个系统进行监控。在实际应用中，每一组被监测系统的数量不限于两个，并且子管理模块的个数也不限于两个。被监测系统的分组可以根据具体的网络拓扑结构进行部署，被分在一组中的被监测系统之间可以不存在任何依赖关系的，也有可能分在一组中的被监测系统之间存在某些依赖关系。

本实施例中设定出现异常的被监测系统为被监测系统E，与其有依赖关系的是被监测系统F与被监测系统G。结合图5，可以得出被监测系统E出现异常到恢复正常的整个过程中，与其有依赖关系的被监测系统F和被监测系统G是如何被控制做出相应动作的。

如图5所示，当被监测系统E从正常运行到出现异常时，其监测方法的流程如下：

S2A：被监测系统E出现异常，主动通知子管理模块B；

S21：子管理模块B控制被监测系统E做出相应动作；

S22：子管理模块B将监测到的异常信息发送给主管理模块1；

S30：主管理模块1根据依赖关系及异常情况，判断与被监测系统E具有依赖关系的依赖系统F和G的依赖性处理方式；

S31：主管理模块1将依赖系统F的处理方式发送给子管理模块B，同时将依赖系统G的处理方式发送给子管理模块C；

S32：子管理模块B将依赖系统F的处理方式发送给依赖系统F，控制依赖系统F做出相应动作；同时，子管理模块C将依赖系统G的处理方式发送给依赖系统G，控制依赖系统G做出相应动作。

需要说明的是，步骤S2A利用的是被监测系统E主动将出现异常的信息发送给子管理模块B。在实际应用中也可以是子管理模块B与被监测系统E之间建立心跳通信来实现对被监测系统E的监测，这一过程如下：

S201：子管理模块B主动发送监测信息给被监测系统E；

S202：被监测系统E回复子管理模块B的监测信息；子管理模块B根据被监测系统E的回复判断被监测系统E是否出现异常。

图3还给出了当被监测系统E从出现异常到恢复正常时，其监测方法的流程如下：

S2B：被监测系统E恢复正常，发送恢复正常的信息给子管理模块B；

S21：子管理模块B控制被监测系统E做出相应动作；

S22’：子管理模块B将被监测系统E恢复正常的信息发送给所述主管理模块1；

S30’：所述主管理模块1判断与被监测系统E具有依赖关系的依赖系统的依赖性处理方式；

S31’：主管理模块1将依赖系统F的处理方式发送给子管理模块B，同时将依赖系统G的处理方式发送给子管理模块C；

S32’：子管理模块B将依赖系统F的处理方式发送给依赖系统F，控制依赖系统F做出相应动作；同时，子管理模块C将依赖系统G的处理方式发送给依赖系统G，控制依赖系统G做出相应动作。

同样的，所述步骤S2B也可以采用子管理模块B与被监测系统E建立心跳通信的方法来实现。

利用本实施例的上述监测方法，当一个被监测系统出现异常时，依赖系统能够及时做出相应的动作来处理此种异常，相应地，当某一被监测系统恢复正常时，依赖系统也能够及时做出调整重新修复与该系统的依赖关系。

实施例6

本实施例在实施例4或实施5的基础上，进一步做出如下改进：所述步骤S2还包括如下步骤：所述主管理模块1对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块1发送异常通知给管理员终端4。

所述步骤S3还包括如下步骤：所述主管理模块1根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

作为可选的实施方式，所述步骤S2中，所述主管理模块1对每一所述子管理模块进行异常监测的方法为：所述主管理模块1与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。或每一子管理模块出现异常后主动向所述主管理模块1发送异常信息。

如此便可以及时对子管理模块出现的异常进行修复，避免带来更大的损失。

作为本实施例的优选实施方式，所述步骤S3还包括如下步骤：通过所述管理员终端4的管理界面实时查看每一被监测系统的状态，并输入动作方式至所述管理员终端4，所述管理员终端4将输入的动作方式经所述主管理模块1发送至各子管理模块，进而控制相应的被监测系统做出相应动作。所述输入的动作方式包括重启系统、结束进程、中断联系等。所述管理员终端4可以是联网的PC机或者手机、PAD等移动终端，因此所述主管理模块1可以直接发送异常通知至管理员终端4，通知方式可以为邮件或者短信等。而且，所述管理员终端的管理界面也不仅仅限于WEB界面，也可以是C\S架构方式(客户机和服务器结构)等。

本实施例上述的监测方法是在IP网络环境下的应用的。实际上，对于很多集群式的服务器，且服务器中运行的系统之间存在依赖关系的情况，均可以采用本实施例中提供的监测方法。在IP网络环境下，可以将此系统部署在一台服务器或PC机上也可以将此系统部署在多台服务器或PC机上。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种监测装置，其特征在于，包括：主管理模块(1)和若干子管理模块；

每一所述子管理模块用于对多个被监测系统进行监测；当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块(1)；

所述主管理模块(1)，管理被监测系统之间的依赖关系，与每一所述子管理模块建立心跳通信；

所述主管理模块(1)接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

2.根据权利要求1所述的监测装置，其特征在于：

所述被监测系统的运行状态发生变化包括从正常运行到出现异常；

当所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块(1)；

所述主管理模块(1)接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

3.根据权利要求1所述的监测装置，其特征在于：

所述被监测系统的运行状态发生变化包括从出现异常到恢复正常；

当所述子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块(1)；

所述主管理模块(1)接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

4.根据权利要求1所述的监测装置,其特征在于：

所述主管理模块(1)控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态的变化而变化。

5.根据权利要求1所述的监测装置,其特征在于：

所述主管理模块(1)的功能还包括对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块(1)发送异常通知给管理员终端(4)；并且所述主管理模块(1)根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

6.根据权利要求1所述的监测装置,其特征在于：

每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。

7.根据权利要求1的监测装置,其特征在于：

每一所述子管理模块对被监测系统进行监测的方法为：被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。

8.根据权利要求5-7任一所述的监测装置,其特征在于：

所述主管理模块(1)对每一所述子管理模块进行异常监测的方法为：所述主管理模块(1)与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。

9.根据权利要求5-7任一所述的监测装置,其特征在于：

所述主管理模块(1)对每一所述子管理模块进行异常监测的方法为：每一所述子管理模块出现异常后主动向所述主管理模块(1)发送异常信息。

10.根据权利要求5所述的监测装置,其特征在于：

所述管理员终端(4)还包括管理界面，所述管理界面显示每一被监测系统的状态；所述管理员终端(4)还可输入动作方式，并将输入的动作方式经所述主管理模块(1)发送至各子管理模块，进而控制相应的被监测系统做出相应动作。

11.一种监测方法，其特征在于，包括如下步骤：

S1:将多个被监测系统划分为多组，每组中包括多个被监测系统，被监测系统之间的依赖关系由主管理模块(1)进行管理；

S2:每一组被监测系统均配置一子管理模块进行监测，当有被监测系统的运行状态发生变化时，将该被监测系统的运行状态变化信息发送给所述主管理模块(1)；

S3：所述主管理模块(1)与每一子管理模块建立心跳通信，接收子管理模块发送的某一被监测系统的运行状态变化信息后，根据依赖关系判断依赖运行状态变化的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

12.根据权利要求11所述的监测方法，其特征在于：

所述步骤S2中，所述被监测系统的运行状态发生变化包括从正常运行到出现异常；所述子管理模块监测到有被监测系统从正常运行到出现异常时，控制出现异常的被监测系统做出相应动作，并将该被监测系统出现异常的异常信息发送给所述主管理模块(1)；

所述步骤S3中，所述主管理模块(1)接收子管理模块发送的某一被监测系统的异常信息后，根据依赖关系判断依赖出现异常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作后返回步骤S2。

13.根据权利要求11所述的监测方法，其特征在于：

所述步骤S2中，被监测系统的运行状态发生变化包括从出现异常到恢复正常；当子管理模块监测到有出现异常的被监测系统恢复正常后，将该被监测系统恢复正常的信息发送给所述主管理模块(1)；

所述步骤S3中，所述主管理模块(1)接收子管理模块发送的某一被监测系统恢复正常的信息后，根据依赖关系判断依赖恢复正常的被监测系统的依赖系统的动作方式，并将该动作方式发送至用于对所述依赖系统进行监测的子管理模块，由子管理模块控制依赖系统做出相应动作。

14.根据权利要求11所述的监测方法,其特征在于：

所述步骤S1中，所述主管理模块(1)控制所述被监测系统之间的依赖关系随着某一被监测系统或某一子管理模块的运行状态发生变化而变化。

15.根据权利要求11所述的监测方法,其特征在于：

所述步骤S2还包括如下步骤：所述主管理模块(1)对每一所述子管理模块进行异常监测，当某一所述子管理模块发生异常时所述主管理模块(1)发送异常通知给管理员终端(4)；

所述步骤S3还包括如下步骤：所述主管理模块(1)根据发生异常的子管理模块监控的所有被监控系统的依赖关系，获取对所有依赖系统进行监测的所有子管理模块的动作方式，并将该动作方式发送至相应的子管理模块。

16.根据权利要求11所述的监测方法,其特征在于：

所述步骤S2中，每一所述子管理模块对被监测系统进行监测的方法为：所述子管理模块与每一被监测系统建立心跳通信，主动对被监测系统的运行状态是否发生变化进行监测。

17.根据权利要求11所述的监测方法,其特征在于：

所述步骤S2中，每一所述子管理模块对被监测系统进行监测的方法为：被监测系统的运行状态发生变化后主动向监控其的子管理模块发送运行状态变化信息。

18.根据权利要求15-17任一所述的监测方法,其特征在于：

所述步骤S2中，所述主管理模块(1)对每一所述子管理模块进行异常监测的方法为：所述主管理模块(1)与每一所述子管理模块建立心跳通信，主动对所述子管理模块是否出现异常进行监测。

19.根据权利要求15-17任一所述的监测方法,其特征在于：

所述步骤S2中，所述主管理模块(1)对每一所述子管理模块进行异常监测的方法为：每一子管理模块出现异常后主动向所述主管理模块(1)发送异常信息。

20.根据权利要求15所述的监测方法,其特征在于：

所述步骤S3还包括如下步骤：通过所述管理员终端(4)的管理界面实时查看每一被监测系统的状态，并输入动作方式至所述管理员终端(4)，所述管理员终端(4)将输入的动作方式经所述主管理模块(1)发送至各子管理模块，进而控制相应的被监测系统做出相应动作。

21.一种应用权利要求1-10任一所述的监测装置对在IP网络环境中的被监测设备进行监测的方法。