CN101098260A

CN101098260A - 一种分布式设备监视管理方法、设备和系统

Info

Publication number: CN101098260A
Application number: CNA2006100997932A
Authority: CN
Inventors: 马琳; 黎星星
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-06-29
Filing date: 2006-06-29
Publication date: 2008-01-02
Also published as: US20080005321A1

Abstract

提供一种分布式设备监视管理方法、设备和系统，该方法、设备和系统中，一个后端负责监视的服务器用于对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，还包括：接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；以及响应于接收到来自所述组员的状态信息，从被监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

Description

一种分布式设备监视管理方法、设备和系统

技术领域

本发明涉及分布式设备监视领域，特别地涉及一种分布式设备监视管理方法、设备和系统。

背景技术

在分布式资产监视管理系统中，所监控或管理的资产需要后端监视服务器知道该资产的状态，并且跟踪其状态。例如，在资产管理应用中，大规模的被监视的设备需要向监视服务器汇报其状态信息，以便监视服务器进行数据分析和资产管理维护等应用；在RFID和基于射频卡的解决方案中，服务器用于收集读卡器传递的射频卡和标签的信息；在软件升级的应用中，客户端需要将所安装的软件的版本信息，甚至包括详细的子模块的状态信息和补丁的信息，发送给服务器等等。在这些分布式监控管理系统中，客户端需要提供给服务器其状态信息，包括客户端的CPU使用状况，内存使用状况、使用何种操作系统以及版本，硬盘的使用状况、正在活动的进程、电池状况、功耗等，传统的资产需要客户端以主动提供的方式进行汇报，如果后端监视服务器监视的客户端数量很多的时候，有时后端监视服务器在很短的时间内会收到数以千计的客户端汇报来的状态信息，造成后端服务器负载过重；相反，在某些情况下，在一个很长的时间阶段，可能只收到非常有限数量的客户端汇报来的状态信息，使得后端的服务器空闲，造成资源利用效率很低。

现有技术中对该问题的第一个解决方案是：资产客户端不需要主动向后端监视服务器汇报其状态，服务器会主动查询各个资产客户端的状态。由于服务器可以安排访问每个被监视的设备的时间，服务器端的负载是平衡的。但是该技术方案有这样两个缺点：(1)由于访问每一个被监视的设备的时间是由服务器决定的，当客户端被监视的设备发生紧急事件，该被监视的设备不能够及时通知服务器该被监视的设备的状态，例如，当UPS掉电时，需要立即通知监视服务器，而该技术方案无法达到该要求。(2)服务器必须维护每个要监视的设备的地址，在某些情况下，被监视的设备地址改变时，服务器就不能访问该被监视的设备，另外加入新的被监视的设备时，还需要在服务器端作相应的改变。

现有技术中对该问题的第二个解决方案是：混合操作，即后端监视服务器可以以下面两种方式获得被监视的设备的状态：(1)被监视的设备只在特定的情况下向后端监视服务器汇报其状态，例如，当出现紧急事件；(2)服务器主动查询各被监视的设备的状态。在这种技术方案下，服务器可以自行安排访问每个被监视的设备的时间，可以认为监视服务器端在某种程度上是负载平衡的。该第二个技术方案可以克服第一个技术方案中的第一个缺点，但是不能克服第一个技术方案中的第二个缺点，所以应用起来仍然具有局限性。

现有技术中对该问题的第三个解决方案是：远程监控(RemoteMonitoring，简称RMON)，远程监控是一种使各种网络监视和控制台交换网络监控数据的标准监视规范。该技术方案将被监视的设备分成组，每一个组的组员将其状态信息汇总到组长，由组长负责将该组的所有组员的状态信息发送给服务器。在该技术方案中，通常在路由器或集线器处增加一个RMON监控设备作为组长，由于分组是固定的，也就是说，每个组的成员是固定的，由组长直接汇报全组的状态信息到服务器，虽然到后端监视服务器的消息流量减少，即克服了第一个技术方案中的第一个缺点，可以达到某种程度的负载平衡，但是，该技术方案又带来了下述缺点：如果一个组中组长出现故障，后端监视服务器将不能得到全组的被监视的设备状态信息，该缺点使得该解决方案非常不可靠。

发明内容

因此，对于分布式设备监视，需要一种新的技术方案，该技术方案能够：

(1)及时获得被监视的设备的状态信息，并且，监视服务器可以达到负载平衡；

(2)各被监视的设备出现紧急情况，可以直接向监视服务器汇报；

(3)后端监视服务器可以可靠地获得各被监视的设备的状态信息。

为了解决上述技术问题，本发明的发明目的在于提供一种分布式设备监视管理方法、设备和系统，该方法、设备和系统通过将被监视的设备动态分组，从而实现可靠的分布式设备监视。本发明的方法、设备和系统在达到负载平衡的条件下，可以及时、可靠地获得各被监视的设备的状态信息，各被监视设备如果出现紧急情况，也可以直接向监视服务器汇报；并且，监视服务器不需要维护分组信息，所有的分组信息都由组长维护。

根据本发明的一个方面，提供了一种分布式设备监视管理方法，其中一个后端负责监视的服务器用于对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该方法还包括：接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；以及响应于接收到来自所述组员的状态信息，从被监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

根据本发明的另一方面，提供了一种分布式设备监视管理设备，其中该设备用于对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该分布式设备监视管理设备还包括：接收装置，用于接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；以及分组装置，响应于接收到来自所述组员的状态信息，从被监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

根据本发明的又一方面，提供了一种分布式系统设备监视管理系统，其中该系统中监视服务器对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该分布式设备监视管理系统还包括：监视服务器端包括：接收装置，用于接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；分组装置，用于如果所述接收装置接收到来自一组员的状态信息，从其监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长；在所述组长端还包括收集全组状态并发送装置，用于在汇报时间达到前，由该组长收集全组的部分或全部状态信息并发送给所述接收装置；以及每个被监视的设备还包括收集自己状态并发送装置，用于到达汇报时间仍然没有与一组员相关的组长来收集该组员状态信息，由该组员自行收集状态信息并发送给所述接收装置。

根据本发明的再一方面，提供了一种程序产品，包含程序代码，用于实现说明书中所述的方法以及承载该程序代码的承载介质。

附图说明

通过对附图中本发明示例实施例方式的更详细描述，本发明的上述、以及其它目的、特征和优势将变得更加明显，其中，相同的参考标号通常代表本发明示例实施例方式中的相同部件。

图1示意性示出了根据本发明的一个实施例的在汇报时间到来时的分布式监视系统的一个汇报周期内的概括工作流程；

图2示意性示出了根据本发明的一个实施例的一个汇报周期中组长的工作流程；

图3示意性示出了根据本发明的一个实施例的一个被监视的设备的工作流程；

图4示意性示出了根据本发明的一个实施例的被监视的设备的初始化过程；

图5示意性示出了根据本发明的一个实施例的一种优选的初始化方法的部分流程；

图6示意性地示出了在某个特定的场景下的优选初始化方法结果示意图；

图7示意性地示出了根据本发明的一个实施例的监视服务器在一个汇报周期中的工作流程；

图8示意性地示出了根据本发明的一个实施例的一种分布式设备监视管理系统；

图9示意性地示出了根据本发明的一个实施例的组长802的收集全组状态并发送装置的优选组成；以及

图10示意性地示出根据本发明的一个实施例的一个被监视设备的组成。

具体实施方式

将参照附图更加详细地描述本发明的优选实施方式，在附图中显示了本发明的优选实施例。然而，本发明可以以各种形式实现而不应该理解为被这里阐述的实施例所限制。相反，提供这些实施例是为了使本发明更加透彻和完整，并且，完全将本发明的范围传达给本领域的技术人员。

在一个后端负责监视的服务器对多个被监视的设备进行监视的系统中，可以由被监视的设备向监视服务器汇报状态信息，一般来说，每个被监视的设备都有一个预先设定的汇报周期，比如2个小时。不同的被监视的可能会有不同的汇报周期。被监视的设备启动后，它就开始计时，当计时达到汇报周期的时候，它会将自己的当前的状态信息向服务器进行汇报，例如，一个被监视的设备的汇报周期被定义为2个小时，它在10:05时刻开机，则它会在12:05时刻就向服务器发送自己当时的状态信息。

本发明中，所有被监视的设备可以分类两种类型：组长和组员，对被监视的设备的动态分组的特性决定了组长不是固定的，每一次分出一个组，都指定该新分的组的组长，并通知组长该组的组员有哪些，由该组组长暂时维护该组的信息，组长向服务器汇报该组的状态信息后，该组的生命周期就结束了。监视服务器只是负责分组和接收各被监视的设备汇报来的状态信息，监视服务器将分组信息发送给新分的组长后，就不再维护该分组信息，等待接收到一个或一组的状态信息后，再进行新的分组，因此，分组和状态信息的收集是在一次交互中完成的。一个组员可能隶属多个组，组员本身并不一定知道其隶属于哪一个组，其只需要维护自己的汇报周期，下一次需要向服务器汇报状态信息的时间，以及服务器的地址即可。

参考图1，图1示意性示出了根据本发明的一个实施例的在汇报时间到来时的系统的概括工作流程。这里假设了三个角色：监视服务器、组长和组员。虽然图1中只是示意性地画了一个组长和一个组员，但是本领域技术人员应该知道，本图只是示意性的，实际上系统可以包括多个组长，每个组可以包括多个组员，组员也可以同时属于不同的组。

在图1中，如果系统一切正常，那么当前的分组有效，则当下一次汇报时间到之前，(这里组长和组员的下一次汇报时间可能并不相同，但是一般来说，组长的下一次汇报时间应该比组员的下一次汇报时间早，或者相同。组长通常应该提前一定时间获得组员的状态，至于提前多长时间，可以事先设定阈值)，在步骤S101由组长收集全组的状态信息并发送给服务器；监视服务器接收到组长的汇报来的状态信息后，可以有多种方式进行后续处理，一种实施方式是：不进行任何处理，继续维持原来的分组。因为既然组长已经正常汇报状态，说明该组的状态是正常的，就继续维持该正常状态，后面的步骤将表明，那些没有正常汇报状态的被监视的设备已经自己分组。另外一种优选的实施方式是根据监视服务器最近监视的状态，即最近是否存在被监视的设备自己来汇报状态信息，如果存在，就说明该被监视的设备所在的组出现了问题，后面会描述该情况的一种优选实施方式，这里进一步将该被监视的设备指定到该组长所在的组。将该被监视的设备指定到该组长所在的组后，需要对该被监视的设备的下一次汇报状态时间进行协调，否则该被监视的设备的下一次汇报状态时间和该组的下次汇报状态时间差异过大，该被监视的设备又会自己汇报状态信息。此外还有一种实施方式：监视服务器收到组长的汇报状态信息后，从其监视的设备群中分出一部分下次汇报状态时间和组长相近的设备，组成一个新的组，服务器将新的组的信息发送给该新的组的组长。优选地，新的组的组长为汇报的组长，监视服务器这种动态分组可以将汇报时间相近的被监视的设备分为一组，但是本领域技术人员应该知道，也可以采用其它方式进行分组。

如果在到达汇报时间仍然没有组长来收集状态信息，这时系统可能局部出现故障，或者是组长出现了故障，或者是相关网络出现局部故障等等，组员的汇报时间已经到达，不能依赖组长将状态信息收集并汇报给监视服务器了。在步骤S102，由组员自行收集自己的状态信息并发送给服务器，组员自己汇报状态信息后，在步骤S103，服务器接收到该组员汇报来的状态信息后，从其监视的设备群中选定一部分被监视设备，组成一个新的组，这里的“选定一部分被监视设备分组”，可以有多种含义：一个实施例是根据服务器纪录的历史信息，将汇报时间与其相近的被监视设备分为一组，服务器规定其中的一个被监视设备为组长，并将分组信息发送给新的组长。在该实施例中，优选地可以规定该自己汇报状态信息的组员为新的组的组长，这样监视服务器可以在一次连接中完成状态信息收集以及分组信息发布。另外一个“选定一部分被监视设备分组”的实施例为：将自己汇报状态信息的被监视的设备分到另外一个已有的组中。当前面描述的组长来汇报该组全部或部分成员的状态信息时，就告知了服务器一个现有的分组，则服务器可以将该自己汇报状态信息的被监视的设备分入到这个已有的组，并将更新的组的内容传送给新的组的组长，该新的组的组长优选地为原来的组长。这里服务器获得现有分组的方式还有很多种，本领域技术人员可以知道，只要监视服务器将该自己汇报状态信息的被监视的设备指定到一个现有的分组，就表达了选定一部分被监视的设备分组的含义。

注意，这里是以全部的被监视的设备采用统一的监视方法来叙述的。本领域技术人员应该知道，也可以将该分布式设备监视方法和现有的分布式监视方法相结合，或者至少一部分设备采用本发明的监视方法，另一部分设备采用其它方法，等等，都在本发明的保护范围之内。

优选地，如果组员临时出现故障，组员可以立即通知监视服务器故障信息。

具体更详细的实施方式将结合附图，更进一步地说明。

参考图2，图2给出了根据本发明的一个实施例的一个汇报周期中组长的工作流程。在步骤S201，当确认该被监视的设备是组长时，开始一个汇报周期中组长的工作流程。组长本身具有一个汇报周期，组长也维护了一个自己下一次向监视服务器汇报的时间，组长自己的下一次汇报时间将作为整个组的下一次汇报时间。因此，在步骤S202，当该组长本身的下一次汇报将要达到时，向本组的组员发送请求去收集其状态信息。组长向组员发送请求的时间会有一个提前时间量，以确保在汇报时间到达时，组长已经完成收集整理信息工作，具体的时间提前量可以通过设定时间阈值、根据组员数量设定时间阈值等方式来完成。有些被监视的设备由于被分到多个组，可能是多个组的成员，可能存在刚刚一个组长收集完该组员的信息，这时，另一个组的组长又来搜集信息，这时，该组员判断自己距离下一次向监视服务器汇报状态信息的时间还很多，组员就不必响应该组长的收集信息的请求，以防止多个组长都将同一组员的状态信息反复向监视服务器汇报，造成服务器增加负载。还有一些其他的情况，例如组员发生了故障，已经无法收到组长的收集信息的请求，或者网络连接出现了故障，等等。这时组长面临的情况就是组长可能长时间收不到组员的响应。因此，在步骤S303，组长发出请求后，要判断是否在有效时间内获得组员的状态信息。当在有效时间内收集不到一个组员的状态信息后，就会去收集下一个组员的状态信息。组长可能收到全部组员或者部分组员的状态信息，也可能一个组员的状态信息也没有收集到。如果收集到全部组员或者部分组员的状态信息，在步骤S204，将在有效时间内获得的组员的状态信息参加汇总，进入步骤S205，将组长的汇报状态信息加入到汇总信息。该汇总信息包括：被监视的设备的标识号以及下列一个或多个状态信息：被监视的设备的使用状况、内存使用状况、使用何种操作系统以及版本、硬盘的使用状况、正在活动的进程、电池状态、功耗信息等。其中，被监视的设备的标识号包括但不限于该被监视的设备的IP地址，MAC地址或者应用层中对该被监视的设备赋予的标识号。另外，如果监视服务器是将汇报状态信息时间相近的被监视的设备重新分为一组，则该汇总信息优选要包括每个被监视的设备的下一次汇报时间，这样，可以便于服务器进行分组。这将在后面服务器工作流程中进一步描述。然后，在步骤S206，组长将汇总的状态信息发送给监视服务器，下一步，在步骤S207，组长更新自己下一次向服务器汇报状态的时间。由于组长作为一个被监视的设备，本身维护了自己的汇报周期，在当前的汇报时间基础上，加上汇报周期，就是该被监视的设备下一次向监视服务器汇报的时间。在步骤S208，组长会收到从服务器来的通知信息，除了告知成功接收到该组各被监视的设备的状态信息外，优选地，组长还可能会收到一个新的分组信息，该信息将该组长指定为一个该新的组的组长，并且包含新的组的组员的设备标识号。这样，在下一次汇报结束前，这个新的组的信息由新组长进行维护。监视服务器生成该新的组后就可以不再维护该组的组成等信息，以节省监视服务器的负载。该新的分组信息可能是原来的分组，也可能是原来分组的更新，加入了新的成员，也可能是完全新的分组。优选指定原来的组长为新的组长，以节省监视服务器资源。否则，监视服务器还要通知新的组长该组的组成。这样，在步骤S208，一个组长的一个汇报周期的工作过程就结束了。某些情况下，一个被监视的设备作为组长具有一定的限制条件，例如该被监视的设备只能收集有限数量的被监视的设备的状态，这时，服务器进一步分组会有一定的限制条件。

参考图3，图3示出了根据本发明的一个实施例的一个被监视设备的工作流程。由于被监视的设备在一个汇报周期中可能是组员，另一个汇报周期中可能是组长，因此，图3是一个既包括了图2的组长的工作过程的、又包括组员的工作过程的一个完整的被监视的设备的工作流程的一个实施例。这里为了叙述方便，将图2的一个汇报周期中组长的工作流程简称为组长流程。一个被监视的设备在步骤S301开始启动，在步骤S302，对该被监视的设备进行初始化过程，初始化中，该被监视的设备需要获得汇报周期、监视服务器的地址等等，具体的初始化过程将结合图4进行详细说明。初始化后的被监视的设备就进入正常的工作，该被监视的设备应该有自己负责的工作。具体负责何种工作不在本发明范围之内，本发明具体关心该被监视的设备的状态，由监视服务器获取该被监视的设备的状态。因此，在本发明的范围之内，该被监视的设备主动或者利用其它被监视的设备向监视服务器汇报其状态，因此，在步骤S303，该被监视的设备就进入被监视的周期过程，在监视周期过程中，该被监视的设备会收到三种类型的触发性事件：一种是该被监视的设备会接收到组长的收集状态信息的请求事件；另外一种是自己的下一次汇报时间到达事件事件；第三种是该组员本身发生故障。在步骤S304，判断是否将状态信息发送给组长。正如图2所示的组长工作流程所述，有些是被监视的设备由于被分到多个组，可能是多个组的成员，可能存在刚刚一个组长收集完该组员的信息，这时，另一个组的组长又来搜集信息，这时，该组员判断自己距离下一次向监视服务器汇报状态信息的时间还很多，组员就不必响应该组长的收集信息的请求，以防止多个组长都将同一组员的状态信息反复向监视服务器汇报，造成服务器增加负载。这里组员判断自己距离下一次向监视服务器汇报状态信息的时间还很多可以利用该次收集状态的时间和组员自己下一次向监视服务器汇报状态信息的时间差是否小于某一设定阈值，如果小于，就进入步骤S307，忽略该组长的请求，不向该组长汇报，如果大于，就进入步骤S305，发送状态信息给组长，然后在步骤S306，更新汇报设备自己下一次向服务器汇报状态的时间。如果在步骤S303收到的是下一次汇报时间到达事件，首先在步骤S308判断该设备是否是某一个组的组长，如果是组长，进入步骤S312，该步骤代表图2的组长流程，也就是说，进入整个图2的工作流程。如果该设备不是组长，则说明已经无法由原组长收集信息，则该设备在步骤S309，就自己发送自己的状态信息给监视服务器，然后在步骤S310，该设备更新自己下一次向服务器汇报状态的时间。这里，该设备就像一个组长一样汇报了自己的状态信息，然后在步骤S311，服务器就将其设定为一个新的组的组长，并返回其新的分组信息。如果在步骤S303收到的是组员本身故障信息事件，就进入步骤S313，向服务器汇报故障信息。这样，一个被监视的设备的一个汇报周期就结束了。然后该被监视的设备返回步骤S303，继续等待接收触发性事件。

图4示出了根据本发明的一个实施例的一个被监视的设备的初始化过程。在步骤4301，开始初始化过程，在步骤S402，获取向服务器进行汇报的周期和监视服务器的地址。该步骤可以通过对被监视的设备设置配置文件，所需的配置信息可能存在于外存中的配置文件中，也可能是程序内部固化好的配置信息(编译在二进制的程序内部)也可以被监视的设备启动后再设定，还可采用本领域技术人员知道的其它方法进行设定。其中汇报的周期以秒(分钟、小时或天等)为单位，服务器的地址采用当前网络所能识别的地址，如在IP网络中，为服务器的IP地址；在HTTP网络中，为服务器的URL地址；在802.15.4的传感器网络中，为服务器的MAC地址等。

优选地，在初始化过程的步骤S403，获得初始化分组信息。被监视的设备初始化的流程的主要目的是将被监视的设备进行一个初始的分组，以便基于这个初始化的分组进行后续的过程，初始化分组可以使得这个系统迅速进入一种相对负载平衡的状态。但是，不进行初始化分组，系统运行起来，也会逐渐建立分组，但是过程会比较慢。初始化分组通常可以采用一个默认的分组方式，比如将ID比较相近的被监视的设备分为一组，用户指定的分组，或者将物理上临近的被监视的设备分为一组等等。可以由配置文件指定，由用户输入，或者由监视服务器指定等等多种方法。尽管初始化分组的方法不影响本发明后面的主要方法和系统，本发明还提供了一种优选的初始化方法，该方法可以在不访问服务器的情况下，将向服务器报告时间相近的被监视的设备分为一组，以便最大可能地减少后续的重新分组的代价。

图5示出了这一种优选的初始化方法的部分流程的一个实施例，该方法是通过向本网段的被监视的设备发送广播来寻找向服务器汇报时间相似的被监视的设备来进行分组的，在这一过程中被监视的设备不需要访问服务器。该初始化方案首先在图4的步骤403对于一个刚开机或者刚刚被监视的设备，向本网段其它被监视的设备发送的广播信息，寻求要加入的组，如果可以加入某个组，会收到另外被监视的设备的响应，该被监视的设备可以根据这些响应，选择加入一个组，例如，如果获得多个响应，选择身份已经是组长的被监视的设备所在的组加入，如果没有组长响应，随机加入一个被监视的设备，与其组成一组，等等。这些过程没有在图中示出。图5示出其它设备的初始分组响应流程。首先，在步骤S501，开始本方法，在步骤S502，收到本网段其它被监视的设备发送的广播信息，然后在步骤S503，读取广播信息中的其它被监视的设备向服务器汇报的时间，接着，在步骤S504，判断该时间与自己下一次向服务器汇报的时间差是否小于设定阈值，如果小于等于设定阈值，在步骤S505，发送响应广播，在步骤S507，经过交互，确认二者是否分为一个组，以及确认组长；否则，在步骤S506忽略该广播信息。这样，在步骤S508就可以将该被监视的设备加入一个分组，完成一个初始化分组的过程。该过程还可以在一个服务器正监视很多服务器的过程中，再加入一个或多个被监视的设备时使用。

图6提供了在某个特定的场景下的优选初始化示意图。例如，当一个网段中第一台设备在8:00时启动的情况。假设该设备1的下次汇报时间为9:00，这时其广播没有响应，设备1没有加入任何组，其身份是组员。当一个网段中第二台个设备在8:01时启动的情况。假设设备2的下次汇报时间为12:00，其会发送广播，设备1接收到广播，但因为二者下次汇报时间超过了阀值，广播会被设备1忽略。设备2没有作为该组组员加入该组。当一个网段中第三台设备在8:02时启动的情况。假设设备3的下次汇报时间为9:00，其会发送广播给设备1和2，但因为设备3和2的下次汇报时间差超过了阀值，广播被设备2忽略；而设备3和1的下次汇报时间是接近的，广播被设备1接收，经过交互，这两个设备会被分为一组，设备3成为分组“G1”中的组员。此时的分组“G1”中就有两台设备了，设备1由组员变为组长，设备3为组员。当一个网段中第四台个设备在8:03时启动的情况。假设设备4的下次汇报时间为12:00，其会发送广播给设备1，2和3，但因为设备4与设备1，3的下次汇报时间之差超过了阀值，广播回被设备1和3忽略；而设备4和2的下次汇报时间是接近的，广播被设备2接收，经过交互，这两个设备会被分为一组，设备4是分组“G2”的组员。此时的分组“G2”中就有两台设备了，设备2为组长。

图7示出了根据本发明的一个实施例的监视服务器在一个汇报周期中的工作流程。首先在步骤S701，服务器开始一个周期的监视过程；在步骤S702，监视服务器收到汇报请求。在步骤S703，判断将要汇报的是状态信息还是故障信息，如果是状态信息，在步骤S704，判断该客户端是否是组长，如果是组长，在步骤S705，接收并记录该组的组长和组员的状态信息，如果不是组长，在步骤S706接收并记录该被监视的设备的状态信息。然后进入步骤S707，从其监视的设备群中选定一部分被监视的设备，组成一个新的组，一种优选的实施方式是获取下一次汇报时间和该被监视的设备的下一次汇报时间相近的被监视的设备分成一组。一个被监视的设备的下一次汇报时间已经包含在汇总信息中，因此，监视服务器记录并维护了每个被监视的设备的状态信息。这里，监视服务器可以采用数据库或者其它方式来存储并维护这些信息。一种优选的实施方式是在监视服务器端维护一个数据库，该数据库用于记录所有的汇总信息，包括：被监视设备的设备号、汇报时间、状态信息、下一次的汇报时间等，当在步骤S707需要获取下一次汇报时间和该被监视的设备的下一次汇报时间相近的被监视的设备时，可以首先计算出下一次汇报时间相近的被监视的设备的下一次汇报时间范围，然后利用数据库的查询功能，获得这些被监视的设备的设备标识号，也可以采用另外一个数据库根据下一次汇报时间进行分段，根据时间分段选择新的组的被监视的设备；当然，本领域技术人员应该知道，还有很多其它的实施方式，都能达到这一目的，本发明并不限于某一具体方法。另外一种实施方式为服务器接收到组长的汇报状态后，判断最近是否有组员来进行汇报，如果有，将该组员加入到该组(图中未示出)。优选地，对于服务器接收到组长的汇报状态后，也可以从其监视的设备群中选定一部分和该组长下次汇报状态时间接近的被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。这和步骤S708以及S708是一致的，因此没有单独画出来。

在步骤S708，监视服务器将把新的组的分组信息发送给组长。这里，如果某一个被监视的设备被定义具有特别的要求，例如，该被监视的设备作为组长，只能汇报5个以内的被监视的设备的状态等要求，这些约束信息可以在监视服务器端维护，也可以由各组组长或者组员自行维护，每次向监视服务器汇报状态信息时，再汇报该信息。然后在步骤S707获得的初始分组需要在步骤S708和这些约束信息一起，获得可以使用的新的分组信息，这样做的好处是既可以充分利用该被监视的设备的计算资源，又不会给其带来很大的负担。如果在步骤S703收到的是故障信息，在步骤S709监视服务器接收并记录该故障信息。这样，在步骤S708，监视服务器的一个汇报周期就结束了。另外，汇报时间相近采用的时间阈值信息也需要在监视服务器端存储。

这里需要注意，如果客户端的汇报周期相同，可能会造成短期服务器的流量过大的问题，但是发生这种情况的可能性比较小，这是因为即使被监视的设备的汇报周期相同，由于它们都将在初始化之后立即向服务器进行汇报，但是它们初始化的时间可能不同，比如在通常情况下，被监视的设备会将向服务器汇报的进程或者线程设置为开机时默认启动的进程或线程，由于被监视的设备的开机时间是有区别的，因此它们向服务器汇报，访问服务器的时间是有区别的。

即使出现大量被监视的设备几乎在同一时间开机的这一概率很小的情况，给服务器造成的负载也是短暂的，这是因为当某被监视的设备访问服务器后，一方面它会在下一次作为组长，去收集组内被监视的设备的信息，而避免了让组内的被监视的设备下一次直接访问服务器；另一方面，服务器会记录这个被监视的设备的标识号，在其它的被监视的设备访问服务器的时候，服务器会将这个被监视的设备重新分到新的组，这样该被监视的设备就会作为组员通过其它被监视的设备向服务器进行汇报。这样，服务器的负载很快就可以达到均衡。

图8示意性地示出了根据本发明的一个实施例的一种分布式设备监视管理系统，该系统中，包括后端负责对多个被监视的设备进行监视的监视服务器801，监视服务器包括用于接收被监视设备发送来的状态信息和故障信息的接收装置807以及用于存储发送来的各被监视的设备的状态信息以及故障信息的存储装置810；多个被监视的设备被分成若干个组，每个组中有一个被监视的设备为组长，其余被监视的设备为组员，图8示意性地画出了一个组长802和一个组员803，本领域技术人员应该知道，可以包括多个组长和多个组员。多个被监视的设备周期地向所述监视服务器801汇报其状态信息，因此，组长802和组员803作为被监视的设备，都包含汇报周期监视装置808和809，其中，在组长802端还包括收集全组状态并发送装置804，用于在汇报时间到达前，由组长收集全组的状态信息并发送给服务器，在组员803端还包括收集自己状态并发送装置805，用于在到达汇报时间仍然没有与一组员相关的组长来收集该组员的状态信息，由该组员自行收集状态信息并发送给服务器，以及在监视服务器801端的分组装置806，用于服务器接收到组员的汇报状态后，从其监视的设备群中选定一部分下次汇报状态时间接近的被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

根据图8的实施例，还提供了一种分布式设备监视管理设备，该设备中在一个后端负责监视的服务器801中，包括用于接收来自被监视设备的状态信息的接收装置807以及用于存储发送来的各被监视的设备的状态信息的存储装置810，其中，所述多个被监视的设备已经被分成若干个组，每个组中有一个被监视的设备为组长，其余被监视的设备为组员，该分布式设备监视管理设备还包括分组装置806，用于如果接收装置接收到来自组员的状态信息，从其监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

根据分组装置806的一个实施例，该分组装置806包括用于服务器接收到组长的汇报状态后，判断最近是否有组员来进行汇报，如果有，将该组员加入到该组长所在的组，并把新的组的信息发给该新的组的组长的装置；优选地，新的组的组长为原来的组长。根据分组装置806的另一个实施例，该分组装置806包括用于服务器接收到组员的汇报状态后，从其监视的设备群中选定一部分和该组员下次汇报状态时间接近的被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长的装置。优选地，新的组的组长为发送状态信息的组员。根据分组装置806的有一个实施例，该分组装置806包括用于服务器接收到组长的汇报状态后，从其监视的设备群中选定一部分和该组长下次汇报状态时间接近的被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长的装置。优选地，新的组的组长为原来的组长。

优选地，该分布式设备监视管理系统还包括故障信息发送装置810，用于组员自己发生故障时，向服务器发送故障信息。

图9示意性地示出了根据本发明的一个实施例的组长802的收集全组状态并发送装置804的优选组成，其中包括：发送给组员的请求装置901，用于在每个组员的下一汇报时间未到来前，发送收集组员状态信息的请求；接收组员状态信息装置902，用于接收组员的状态信息；状态信息汇总装置903，用于将收到的组员和组长自己的状态信息汇总；以及状态信息发送装置904，用于组长将汇总后的状态信息发送给所述监视服务器；接收装置902优选地还包括判断获得组员状态信息装置905，用于判断在有效时间内是否获得一组员的状态信息。

动态分组特性决定了每一个被监视的设备都具有双重身份：组长或者组员，因此，每一个被监视的设备实际上都具有组长特有的装置以及组员的装置。图10示意性地示出根据本发明的一个实施例的一个被监视设备的组成。该被监视设备包含了组员和组长的全部组成部件。其中，除了包含汇报周期监视装置809、收集自己状态并发送装置805、收集全组状态并发送装置804、以及故障信息发送装置810外，还包含判断是否发状态信息给组长的装置1004、发送给组长状态信息装置1007、接收触发事件装置1001、判断触发类型装置1002、判断是否为组长装置1003、更新下次汇报时间装置1008以及初始化装置1009。判断是否发状态信息给组长的装置1004用于组员判断是否将状态信息发送给该组长，其中，判断是否发状态信息给组长的装置1004优选地包含获取下次汇报时间的装置1005，以及判断时间阈值装置1006。

获取下次汇报时间的装置1005用于获取该组员下一次向服务器汇报状态的时间。判断时间阈值装置1006用于判断该组员下一次向服务器汇报状态的时间和该组长前获取状态的时间的差值是否在一定的阈值范围内，其中如果上述差值在上述阈值范围内，则需要发送状态信息给组长，如果上述差值在上述阈值范围内，则不需要发送状态信息给组长。发送给组长状态信息装置1007用于响应判断是否将状态信息发送给该组长，将该组员的状态信息发送给组长。

初始化装置1009用于配置初始监视用信息；在一个实施例中，采用配置文件，初始化装置1009优选地包括用于被监视的设备读取配置文件以获取向所述监视服务器进行汇报的周期和服务器的地址。本领域技术人员应该知道，还可以采用其它方式配置初始监视用信息。初始化装置1009优选地还可以包括初始化分组装置(图中未示出)，用于对整个被监视的设备进行初始分组，初始化分组信息可以通过多种方式实现，一种优选的实施方式是利用配置文件，根据设备标识号、设备的物理位置分组，或者人为任意分组，并将初始分组信息存储在被监视的设备的配置文件中。另一个优选的实施方式是通过向本网段的其它被监视的设备发送广播来寻找向所述监视汇报时间相近的被监视的设备来进行初始分组。

接收触发事件装置1001用于被监视的设备接收触发性事件；判断触发类型装置1002响应于接收到触发性事件，判断触发事件的类型，其中触发性事件包括组长的收集状态信息的请求事件、下一次汇报时间到达事件以及故障事件。判断是否为组长装置1003用于判断该被监视的设备是否是组长，如果是组长，就转入组长的工作流中；更新下次汇报时间装置1008用于被监视的设备更新下一次向服务器汇报其状态信息的时间。

本发明还提供一种程序产品，包含实现以上所有方法的程序代码以及承载该程序代码的承载介质。

虽然这里参照附图描述了本发明的示例性实施例，但是应该理解本发明不限于这些精确的实施例，并且再不背离本发明的范围和宗旨的情况下，本领域普通技术人员能对实施例进行各种变化的修改。所有这些变化和修改意欲包含在所附权利要求中限定的本发明的范围中。

Claims

1.一种分布式设备监视管理方法，其中一个后端负责监视的服务器用于对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该方法还包括：

接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；以及

响应于接收到来自所述组员的状态信息，从被监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

2.根据权利要求1所述的分布式设备监视管理方法，其中来自一组员的状态信息为由该组员在到达汇报时间时仍然没有一组长来收集其状态信息的情况下，自行收集并发送给服务器的状态信息。

3.根据权利要求1所述的分布式设备监视管理方法，其中接收并记录来自所述组长的全组的部分或全部状态信息为在每个汇报周期由该组长收集并发送的该组长所在组的至少一部分组员的状态信息。

4.根据权利要求1-3之一所述的分布式设备监视管理方法，其中从其监视的设备群中选定一部分设备，组成一个新的组的步骤还包括：接收到组长的汇报状态后，判断最近是否有组员来进行汇报，如果有，将该组员加入到该组长所在的组。

5.根据权利要求1-3之一所述的分布式设备监视管理方法，其中从其监视的设备群中选定一部分设备，组成一个新的组的步骤还包括：接收到该组员的汇报状态后，从其监视的设备群中选定一部分和该组员下次汇报状态时间接近的被监视设备，组成一个新的组。

6.根据权利要求5所述的分布式设备监视管理方法，新的组的组长为向所述服务器汇报状态信息的组员。

7.根据权利要求1-6之一所述的分布式设备监视管理方法，还包括步骤：接收到组长的汇报状态后，从其监视的设备群中选定一部分和该组长下次汇报状态时间接近的被监视设备，组成一个新的组，并把新的组的信息发给新的组的组长。

8.根据权利要求1-7之一所述的分布式设备监视管理方法，还包括步骤：接收组员的故障信息。

9.根据权利要求1所述的分布式设备监视管理方法，其中在每个汇报周期由组长收集并发送的该组长所在组的至少一部分组员的状态信息的步骤包括：

在每个组员的下一汇报时间未到来前，所述该组的组长发送收集组员状态信息的请求；

该组长接收各组员的状态信息；

该组长将收到的各组员和自己的状态信息汇总。

10.根据权利要求9所述的分布式设备监视管理方法，其中所述该组长接收各组员的状态信息步骤包括：

判断在有效时间内是否获得该组员的状态信息；

如果在有效时间内没有获得该组员的状态信息，则判断在有效时间内是否获得下一组员的状态信息。

11.根据权利要求9所述的分布式设备监视管理方法，其中还包括步骤：

所述组长和所述各组员更新自己的下一次向服务器汇报状态的时间。

12.根据权利要求9所述的分布式设备监视管理方法，其中所述组长发送收集各组员状态信息的请求步骤后还包括：

由一组员判断是否将状态信息发送给该组长的步骤。

13.根据权利要求12所述的分布式系统设备监视管理方法，其中由一组员判断是否将状态信息发送给该组长的步骤包括：

该组员获取自己下一次向服务器汇报状态的时间；以及

该组员判断自己下一次向服务器汇报状态的时间和该组长当前获取其状态的时间的差值是否在一定的阈值范围内，其中如果上述差值在上述阈值范围内，则需要发送状态信息给组长，如果上述差值不在上述阈值范围内，则不需要发送状态信息给组长。

14.根据权利要求1-8之一所述的分布式设备监视管理方法，所述汇总信息还包括每个被监视的设备的下一次汇报状态时间。

15.一种分布式设备监视管理设备，其中该设备用于对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该分布式设备监视管理设备还包括：

接收装置，用于接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；以及

分组装置，响应于接收到来自所述组员的状态信息，从被监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长。

16.根据权利要求15所述的分布式设备监视管理设备，其中其中来自一组员的状态信息为由该组员在到达汇报时间时仍然没有一组长来收集其状态信息的情况下，自行收集并发送给服务器的状态信息。

17.根据权利要求15所述的分布式设备监视管理方法，其中接收并记录来自所述组长的全组的部分或全部状态信息为在每个汇报周期由该组长收集并发送的该组长所在组的至少一部分组员的状态信息。

18.根据权利要求15-17之一所述的分布式设备监视管理设备，其中接收装置接收的来自所述组长的全组的部分或全部状态信息为在每个汇报周期由该组长收集并发送的该组长所在组的至少一部分组员的状态信息。

19.根据权利要求15-17之一所述的分布式设备监视管理设备，其中分组装置包括：用于所述接收装置接收到组长的汇报状态后，判断最近是否有组员来进行汇报，如果有，将该组员加入到该组长所在的组的装置。

20.根据权利要求15-17之一所述的分布式设备监视管理设备，其中分组装置包括：用于所述接收装置接收到所述组员的汇报状态信息后，从服务器监视的设备群中选定一部分和该组员下次汇报状态时间接近的被监视的设备，组成一个新的组的装置。

21.根据权利要求15所述的分布式设备监视管理设备，新的组的组长为向所述服务器汇报状态信息的组员。

22.根据权利要求15-21之一所述的分布式设备监视管理设备，其中分组设备还包括：用于接收装置接收到组长的汇报状态后，从其监视的设备群中选定一部分和该组长下次汇报状态时间接近的设备，组成一个新的组，并把新的组的信息发给新的组的组长的装置。

23.根据权利要求15-22之一所述的分布式设备监视管理设备，其中每个被监视的设备还包括故障信息发送装置，用于当组员自己发生故障时，向服务器发送故障信息。

24.一种分布式系统设备监视管理系统，其中该系统中监视服务器对多个被监视的设备进行监视，所述多个被监视的设备包括已经被分成多个组的多个被监视设备，每个组中有一个被监视的设备为该组的组长，每个组其余被监视的设备为该组的组员，该分布式设备监视管理系统还包括：

监视服务器端包括：

接收装置，用于接收来自所述组长的全组的部分或全部状态信息或者接收来自一组员的状态信息；

分组装置，用于如果所述接收装置接收到来自一组员的状态信息，从其监视的设备群中选定一部分被监视的设备，组成一个新的组，并把新的组的信息发给新的组的组长；

在所述组长端还包括收集全组状态并发送装置，用于在汇报时间达到前，由该组长收集全组的部分或全部状态信息并发送给所述接收装置；以及

每个被监视的设备还包括收集自己状态并发送装置，用于到达汇报时间仍然没有与一组员相关的组长来收集该组员状态信息，由该组员自行收集状态信息并发送给所述接收装置。