EP1697846A2 - Device and method for controlling and commanding monitoring detectors in a node of a cluster system - Google Patents

Device and method for controlling and commanding monitoring detectors in a node of a cluster system

Info

Publication number
EP1697846A2
EP1697846A2 EP04802700A EP04802700A EP1697846A2 EP 1697846 A2 EP1697846 A2 EP 1697846A2 EP 04802700 A EP04802700 A EP 04802700A EP 04802700 A EP04802700 A EP 04802700A EP 1697846 A2 EP1697846 A2 EP 1697846A2
Authority
EP
European Patent Office
Prior art keywords
monitoring
monitored
resource
detector
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP04802700A
Other languages
German (de)
French (fr)
Inventor
Klaus Hartung
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Technology Solutions Intellectual Property GmbH
Original Assignee
Fujitsu Technology Solutions GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Technology Solutions GmbH filed Critical Fujitsu Technology Solutions GmbH
Publication of EP1697846A2 publication Critical patent/EP1697846A2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Definitions

  • the invention relates to a device in a node of a cluster system for checking and controlling monitoring detectors.
  • the invention further relates to a method for the control and monitoring of monitoring detectors for at least two resources to be monitored in a cluster system.
  • Cluster systems with multiple nodes within the cluster are often used for software that is said to be highly available.
  • the cluster system has control and control software, which is also called Reliant Management Service RMS and which aHif monitors the highly available software that is running for the cluster. »The highly available software itself runs on one node of a cluster or is distributed among different nodes.
  • the control software RMS can also be distributed across various nodes, ie in a decentralized manner.
  • the control software RMS ends the application or the corresponding part of it and restarts it on another node.
  • the RM service controlled so-called monitoring detectors monitor the highly available application or a part of the highly available application. These each monitor a specific part of the application, which is referred to as a resource, and report the status of the resource back to the RMS control software.
  • FIG. 6 This shows a node N1, which is part of a cluster system.
  • the knot Nl contains the Reliant Management Service RMS as control software.
  • the highly available application APL is executed on the node N1, which in turn exchanges data with a memory management system FS via the connection C1.
  • the RMS control software starts the individual monitoring detectors D1, D2 and D3.
  • Each of these detectors is specially designed to monitor a specific resource of the highly available software APL.
  • the detector D3 monitors the communication link C1 between the application APL and the file management system FS.
  • Another detector D2 checks the highly available application APL on the basis of continuous queries as to whether it is still being executed and whether it is providing feedback.
  • the third detector Dl checks, for example, the available temporary memory that is required for the highly available application APL.
  • the RMS control takes suitable measures in the event of a failure of individual resources monitored by the monitoring detectors or other problems that occur. For example, it can terminate the highly available software and restart it on a second node (not shown).
  • the individual monitoring detectors are started independently of each other by the RMS control software. However, this leads to a high system load on the node, since the individual detectors correspondingly consume memory space or computing capacity. In the worst case, due to an unfavorable configuration or a large number of monitored resources within a node, the monitoring detectors can consume most of the available computing capacity. There is then too little available for the actual application.
  • the control software receives status messages from monitoring detectors whose actual execution and monitoring of the resource is not currently necessary. dig is. The processing of all returned status messages also increases the computing time and places an unnecessary burden on the control software.
  • the object of the invention is therefore to provide a device in a node of a cluster system, with which the system load for the monitoring for mission-dependent requirements is adapted, but adequate monitoring of the resources is nevertheless ensured. It is also an object to provide a method for the control and monitoring of monitoring detectors which works efficiently with a low system load.
  • a monitoring device is provided in a node of a cluster system for monitoring at least two resources to be monitored on the node of the cluster system.
  • a priority can be assigned to the resources to be monitored, which represents a measure of the importance of the resource to be monitored.
  • the device comprises a means for selecting a resource from the at least two resources to be monitored on the basis of the priorities assigned to the resources to be monitored.
  • the device comprises at least one monitoring detector which is designed for the type of monitoring of the resource to be monitored.
  • the device contains a means for assigning the monitoring detector to the resource to be monitored, and a means for executing the monitoring detector. This is designed in such a way that after a one-time monitoring of the resource by the monitoring detector carried out, the execution is ended or stopped by the means.
  • the device forms a higher-level instance to which the individual resources to be monitored and in particular the monitoring detectors required for the resources to be monitored are subordinate.
  • the execution of the individual monitoring detectors required for the resources to be monitored is no longer independent of one another, but is controlled in a combined manner by the device. This makes it possible to use the device to monitor only those resources whose monitoring is necessary at the current time.
  • the device on the node also saves additional computing time, since the monitoring detector required for the resource to be monitored is only executed after a selection.
  • the monitoring is carried out in such a way that the execution of the monitoring detector is stopped again after the monitoring has taken place. Monitoring is therefore only once.
  • the device is, of course, designed in such a way that, if necessary, it also frequently selects the resource to be monitored and executes the monitoring detector required for this several times.
  • the monitoring detector is not operated continuously, but is only executed until it has returned a status message regarding the resource to be monitored.
  • the monitoring detector itself can be designed for repeated monitoring. This is particularly advantageous in the case of scattering measured values from the monitoring detector.
  • the monitoring detector carries out several monitoring operations and then returns an entire status message which represents the individual measured values. The execution of the detector is ended after the status message has been transmitted.
  • the method for monitoring at least two resources on a node of a cluster system comprises the steps: a) selection of one of the at least two resources to be monitored on the basis of the priority assigned to the resources to be monitored; b) selection of a monitoring detector required for the monitoring for the resource to be monitored; c) assigning resource parameters to the monitoring detector; d) starting or executing the monitoring detector and performing a monitoring of the resource once by the monitoring detector; e) reporting the result of the monitoring performed by the monitoring detector.
  • monitoring of a resource to be monitored is not carried out continuously, but rather only by executing the monitoring detector assigned to the resource to be monitored once.
  • the monitoring detector itself can of course monitor the resource to be monitored in a variety of ways and in particular also several times at short time intervals before it returns a result.
  • only one result or status message is returned once per execution of the monitoring detector.
  • the resource to be monitored at a time is selected based on the assigned priority. This saves computing time on the node of a cluster system, since the monitoring detector is only executed when this is necessary based on the assigned priority. In particular, the resources and the monitoring detectors are combined and viewed as a whole. Individual detectors are therefore no longer independent.
  • a resource to be monitored is identified by an integration point within a file system of the Cluster system node.
  • the monitoring detector is thus designed to check whether the integration point to be monitored is still valid.
  • the integration point is provided by a second file system on a mass storage device, which is integrated in the file system of the node of the cluster system.
  • the correct monitoring detector required for monitoring the resource is always selected based on the selected resource.
  • the monitoring detector is designed to monitor an available hard disk or other mass storage.
  • the resource to be monitored is an executed program and the monitoring detector required for this is a detector that checks whether the executed program is still active.
  • Another resource to be monitored is a network connection with another node of the cluster system.
  • the monitoring detector required for this is a detector that checks the status of the network connection.
  • Another resource is a database to be monitored, the system load of the node, the processor load of a program being executed, or the free space available within the node of the cluster system.
  • a monitoring detector is provided for each type of different resource, which performs a specific monitoring. There can be several different types of monitoring for a resource and therefore different monitoring detectors.
  • the means for selection comprises a list in which the at least two resources to be monitored are stored in an order determined by their priority. This enables a particularly simple selection of the resource to be monitored by the device using the list of the resources to be monitored determined and executes the monitoring detectors.
  • the list can be changed particularly easily by adding additional resources or removing resources from the list.
  • the device is designed in such a way that, based on a resource selected from the list, it automatically provides the associated monitoring detector required for monitoring the resource.
  • a fixed period of time is provided per time interval.
  • the device is designed in such a way that the average time for executing a monitoring detector is less than the defined time period.
  • the device is expediently designed for a selection of a resource and for a single execution of the assigned monitoring detector, until the total execution time of all the monitoring detectors executed once reaches the defined time period.
  • This fixed time period therefore specifies a time window in each time interval in which the device can monitor resources. In other words, the maximum computing capacity or computing time required by the device can thus be determined within a time interval. This is possible because the monitoring detectors are started and controlled by the device and are consequently no longer independent of one another.
  • a further development of the invention is characterized in that a second time period, which is required for monitoring the resource, is assigned to the resource to be monitored. This enables the facility to provide an accurate Make an estimate of the time required for monitoring. It is expedient if the device is designed to determine the period of time required for monitoring. This is expediently carried out by measuring the time on the monitoring detector.
  • the device has a first interface, which is designed to emit status messages from the monitoring detector after the monitoring detector has been executed once. This allows important status messages to be reported to a higher-level control and control device in particular.
  • the device comprises a second interface, which is designed to receive user commands. As a result, it is also possible for the user to monitor a resource at any time using a monitoring detector. This is particularly useful if a current status message is required by the resource to be monitored.
  • the first or the second interface can be designed to receive resources to be monitored. In this way, new resources to be monitored can be communicated to the device or resources monitored by the device can be removed from the monitoring again.
  • the device it is expedient to design the device as an independent process within the node of the cluster system.
  • the facility thus forms an independent program.
  • the monitoring detectors form sub-processes of the device during their execution.
  • the monitoring detector is designed as an independently executable program. This is carried out once by the facility after selection of the resource to be monitored.
  • the device has at least one idle subprocess which is executed on the node of the cluster system but is independent of the resource to be monitored.
  • the means for executing the monitoring detector is designed to link the monitoring detector of the selected resource to be monitored with the independent sub-process. This development is particularly advantageous if the monitoring detector is designed as a function of a dynamic library or as a dynamic library.
  • the device links the function of the dynamic library or the dynamic library at the time of execution to the idle subprocess, starts it and thus monitors the resource to be monitored. After the execution, the link is released.
  • Such training is particularly speed and computing efficient.
  • the monitoring detectors as functions in dynamic libraries or as dynamic libraries, improvements, extensions or error corrections are possible in a particularly simple and flexible manner. It also simplifies porting to other cluster operating systems.
  • a first time period is defined in a time interval for the monitoring of the resources to be monitored. Monitoring detectors and the associated sub-processes are only executed as long as the specified time period is not exceeded. The process can be repeated until the specified time is reached.
  • the first time period in the time interval thus defines a maximum computing capacity that is required for monitoring. It is expedient to select at least one of the two resources to be monitored from a list in which the resources to be monitored are stored in the order of their priorities. In a further training, the list is worked through until the specified period of time is reached.
  • a resource to be monitored a second period of time, which specifies the duration for monitoring by the monitoring detector.
  • the second time period can also be assigned to the monitoring detector.
  • the second time period for monitoring is determined by the execution of the selected monitoring detector. This is particularly useful if the required period of time is not known from the outset or if parameters change during operation that affect the period of time for monitoring.
  • an idle sub-process is started that does not consume any computing time and is also referred to as a sleeping process.
  • the monitoring detector is linked to the idling sub-process and then executed. It is expedient to design the monitoring detector as a function of a dynamic library or as a dynamic library. Linking the monitoring detector to the idling sub-process is particularly quick as a result and efficient. After the result has been reported by the monitoring detector, the link is broken again and the idle process is put back to sleep. The idle process does not require any computing time on the node.
  • the idling sub-process can be linked in succession with various monitoring detectors. Training on an idle sub-process is particularly flexible.
  • FIG. 1 shows an exemplary embodiment of the device according to the invention
  • FIG. 2 shows a diagram of the means for execution in the device
  • FIG. 3 shows a schematic sequence
  • FIG. 4 examples of resources within the cluster system
  • FIG. 5 shows a chronological sequence of the resources to be monitored
  • Figure ⁇ a known device with surveillance detectors.
  • FIG. 4 shows two nodes C and C2 in a cluster system. These are interconnected via a network connection Nl.
  • a highly available application APL is executed on the node C, which contains several resources to be monitored.
  • the Reliant Management Service RMS is also executed on node C. This is a control and control software that is intended to monitor the high availability of the APL application. If necessary, it takes additional measures to ensure high availability. To do this, it is necessary to monitor the individual resources of the highly available APL application.
  • the resources are two integration nodes within the file system of node C. These point to two external mass storage devices M1 and M2, which are designed as simple hard disk memories in this exemplary embodiment.
  • the hard disk space Ml is mounted in the file system of the node C in the integration point "/ usr / opt", the hard disk space M2 in the integration point "/ usr / share”. It is necessary to check whether the mass storage devices M1 and M2 attached to these points in the file system are functional and whether data can be read from them or written to them.
  • the highly available application APL accesses the database DB, which is executed on node C2. To do this, it is necessary to check the connection between the APL application on node C and the database DB on node C2. Finally, window manager X on node C is also monitored for the graphical user interface of the highly available application APL.
  • a superordinate monitoring device DFW is provided for the monitoring of all these resources, which is connected to the Reliant Management Service RMS.
  • the monitoring device DFW is also referred to as an instance or detector framework and is designed as an independent process on node C. Part of this facility are the detectors D1, D2, D3 and D4. These are responsible for the monitoring of resources and are controlled by the monitoring facility DFW.
  • the resources to be monitored were transferred to the DFW instance by the Reliant Management Service RMS or communicated as parameters.
  • FIG. 2 shows a more detailed block diagram of the monitoring device DFW according to the invention.
  • the individual resources are monitored as in FIG. 4 by the individual detectors D1, D2, D3 and D4, which, however, are controlled by a control device KE. Like the detectors, this is part of the monitoring device and has further logic blocks which will be explained in detail later.
  • the higher-level facility DFW is responsible for communication with the Reliant Management Service RMS via the interface Sl.
  • it contains a control device KE, which receives information about the resources to be monitored from the system RMS. User data or user commands are also transferred to the control device KE via the interface S2.
  • the control device KE controls and controls the individual monitoring detectors D1, D2, D3 and D4.
  • the individual detectors are implemented by dynamic libraries Y.so, Z.so and X.so, which are started at runtime.
  • the dynamic library Y.so contains all functions that are necessary for monitoring an integration point within the file system, ie to recognize that the two monitoring detectors D1 and D2 are implemented by the same library Y.so.
  • the monitoring detectors even represent the same function in the Y.so library.
  • the control device KE performs the function for monitoring in the dynamic library Y.so together with a set of parameters when the integration point of the mass storage devices M1 or M2 is monitored.
  • the two monitoring detectors D1 and D2 thus contain the same function at runtime, but different parameters transferred to the function.
  • the parameters for the detector Dl contain the information for monitoring the memory Ml, the parameters that were used for the detector D2 contain the necessary information for checking the mass memory M2.
  • the set of parameters passed is the integration point in the file system for the memories M1 and M2 and, for example, the type of access right to be checked.
  • the dynamic library Z.so contains all the necessary functions for monitoring the database connection DB between the node C and the node C2 in FIG. If a check is required, the control device KE starts the function from the dynamic library Z.so.
  • the last dynamic library X contains the functions for the monitoring detector D4, which checks the status of the window manager for the graphical user interface.
  • the instance DFW also provides a set of functions that can be used in common for all individual detectors. For example, this is the interface to the Reliant Management System RMS for the status messages, which are the same for all detectors.
  • the execution of the individual monitoring detectors D1 to D4 is controlled and monitored by the control device KE.
  • the monitoring detectors are thus completely embedded in the detector framework DFW and are no longer independent of this.
  • Figure 1 explains in detail the structure of the control device KE, which in turn contains various devices or means.
  • the figure shows a first list with the resources M1, DB and X to be monitored, the type of monitoring of the control device KE is known.
  • the resources were communicated to the Detector Framework DFW by the Relian Management Service with the order for monitoring.
  • the list contains all the information necessary for monitoring.
  • a selection device KE1 is now provided, which selects one from the list of the resource to be monitored, in the exemplary embodiment the resource DB.
  • the selection is based on a priority.
  • other parameters for example the computing time previously used or the time required for monitoring, can also be taken into account.
  • the selection means KE transfers the resource to be monitored to an assignment unit which, on the basis of the resource, selects the detector suitable for the type of monitoring and transfers the necessary parameters to it. After an assignment there is a resource RS1, RS2 or RS3 which is now ready for monitoring and is stored in a list as shown.
  • the instance DFW also contains a number of subprocesses TH1 to TH ⁇ , the so-called threads, which are idle. Accordingly, they are dormant subprocesses that do not require any computing time, but can easily be linked to functions from dynamic libraries in order to monitor a resource.
  • the threads have the advantage that no additional computing time has to be used for their start, but that once they are started they are waiting for their execution.
  • the device KE3 links the free partial process TH2 with the functions of a dynamic library required for the monitoring the parameters dependent on the resource R3 and assigned by KE2 and executes the sub-process TH2.
  • Starting, executing, stopping and synchronization are carried out in the embodiment by the POSIX (Portable Operating System Interface for UNIX) standard for UNIX operating systems.
  • the device KE3 breaks the link again and puts the thread TH2 to sleep again. The thread can then be linked to another resource.
  • a result message supplied by the monitoring detector is returned to the Reliant Management Service RMS by the instance DFW after execution as a status message.
  • Access to shared data between the device KE and the sub-processes TH is sequenced via Semphore.
  • the detectors can be designed using dynamic libraries that can be loaded and executed as required, a high degree of flexibility can be achieved.
  • the dynamic libraries can be replaced by extended libraries at any time without having to stop or restart the Reliant Management Service RMS or the detector framework DFW. If the library expands or changes, the KE facility loads the new variant. Extensions, troubleshooting and dynamic reconfiguration are possible at any time.
  • FIG 3 shows an embodiment of the instance DFW, which meets these two requirements.
  • a time period is determined in a time interval in which the instance DFW may monitor resources.
  • the time interval and the duration can be specified by a user. This can be a percentage value, for example 15% of the total computing time, or an absolute value, for example 100 ms in 1 second. Additional requirements, for example regarding hardware or software applications, can also be taken into account via the configuration file.
  • a numerical priority value for each resource to be monitored is defined and assigned in a second configuration file P2. These are communicated to the control device of the instance DFW via the interfaces S1 and S2.
  • the priority values are defined in the configuration file P2 by the Reliant Management Service RMS. For example, it is necessary to give resource X of the highly available application APL a higher priority assign as, for example, the resource for the integration point of the mass storage Ml. These priorities are used by the DFW instance to determine an order of monitoring. A resource with a higher priority should be monitored more often than a resource with a lower priority. For this purpose, the individual resources to be monitored are stored in a list L1 according to their priority.
  • the following table shows the resources for the highly available application APL according to FIG. 4, their assigned priorities, the parameters to be transferred and the time after which a check must be carried out. This therefore determines a maximum value that must not be exceeded.
  • the last column in the table shows the length of time that the monitoring detector started by the control device KE needs to check the associated resource.
  • Table 1 List of resources with further information
  • the control device KE now checks the remaining time according to the specification in the configuration file P1, the priorities of the resources, the time elapsed since the last check for each resource and the time period and selects a resource to be checked from this.
  • the detector assigned to the selected resource is linked to a still free subprocess or thread, the parameters are transferred and the subprocess is executed. After the monitoring has ended, the link is released again and the subprocess is available for a new connection.
  • the resource becomes the list again Ll supplied, however, the time elapsed since the last check and possibly the priority changes. In addition, it is useful to determine the time that the monitoring detector required for the execution, since conditions could have changed and monitoring now takes longer or shorter.
  • control device KE or the monitoring device DFW increases the priority. This prevents waiting resources from never being checked due to insufficient priority.
  • FIG. 5 shows such a time sequence for monitoring.
  • Table 2 contains the resources Rl to R7, their respective original priority transferred from the Reliant Management System RMS to the detector framework DFW and the time taken for execution from a configuration file.
  • the list L3 shown in FIG. 5 results.
  • the resource R1 with its priority NP and its duration of 10 ms was only executed once and continues to run in the background. It is a resource for which a "non-polling" detector is provided. This is started and waits for a message from the linked resource. In contrast to "polling" detectors, polling is not active. This means that hardly any computing time is used. As soon as the detector R1 receives a message from the resource, it can be ended again by the detector framework DFW.
  • the resource R2 has the highest priority 5 with a duration of 30 ms and is linked and executed with the associated monitoring detector.
  • the control device KE of the detector framework DFW links resources R3 and R4, which also have priority 5, to an existing sub-process from its list, transfers the parameter sets of the resources to the dynamic library provided for monitoring, and manages the threads out.
  • the resource R5 with its priority 3 can also be monitored within the time interval.
  • the resource R6 with the same priority has an execution time of 100 ms and would therefore exceed the prescribed time interval of 450 ms.
  • the execution time for the monitoring detector of the resource R7 is only 50 ms.
  • monitoring of resource R7 is not carried out due to the requirement that only resources with priorities greater than 3 be checked.
  • the resources R1 to R5 are actively monitored during the time interval of 3 seconds.
  • the total time required for monitoring is the sum of the individual execution times, a total of 400 ms. However, it is when the monitoring is carried out within the time interval not fixed. The operating system scheduler takes on this task.
  • the detector framework only has the requirement not to exceed the 450 ms duration in a time interval of 3s on average, or to use no more than 15% of the available computing time for monitoring.
  • the new time interval begins after 3 seconds and the DFW instance starts the monitoring detectors again for the resources now provided.
  • the resource R1 continues to run.
  • a sub-process with the monitoring detector for resource R2 is also started due to high priority 5. Because resource R3 has been checked in the previous time interval, the priority of resource R3 in table L4 is reduced again to the original value 3. Because of the sufficient time available, the control device KE of the detector framework DFW links the resource again to a free thread and carries out surveillance.
  • resource R4 After monitoring of resource R4 in the previous time interval, resource R4 now receives the original priority value 1 again. The same applies to resource R5. Since a check of resource R6 was not possible due to the lack of time in the previous time interval, the detector framework DFW increases the priority of resource R6 by one point to the value 4. Monitoring is now also carried out here. The total time for monitoring is now 170 ms.
  • a resource to be monitored is started only once per time interval. However, it is possible, for example, to check resource R2 several times within the time interval of 450 ms. Furthermore, in this embodiment, the priority value is linked to the time of the last execution. The priority is in increased every time the resource was not monitored.
  • the resources are often represented by data structures within the cluster's memory. These can be read by monitoring detectors which are formed by the dynamic libraries. This is particularly useful if the resources have different types of monitoring.
  • the second interface S2 to a user interface makes it possible to issue commands for the immediate checking of a resource of the node. Furthermore, the configuration file of the instance DFW can also be read in again in order to implement dynamic changes.
  • the device and the method according to the invention create a possibility of no longer using a number of monitoring detectors independently, but instead of carrying them out as a function of one another.
  • a monitoring detector is executed once, the monitoring detector itself being able to check the resource to be monitored several times during its execution. It is possible to check several different aspects of the resource and to return a final overall status message.
  • the shared "Detector Framework DFW” enables a particularly effective and time-saving programming through shared functions.
  • the existing computing time of a node is optimally used and it also reacts dynamically to changes in the available computing time.
  • DFW Detector Framework, monitoring device

Abstract

The invention relates to a monitoring device (DFW) and a method for monitoring at least two resources (M1,M2) on a node (C) of a cluster system. A priority (P) is respectively allocated to the at least two resources. In the monitoring device and method, one of the at least two resources which are to be monitored is selected according to the allocated priority (P), in addition to a monitoring detector (D1,D2) for said resource. The monitoring detector is configured and the resource is monitored once with said monitoring detector. The result of the monitoring carried out by the monitoring detector is indicated. It is possible to reduce computing time on the node (C) as a result of selection by means of allocated priority (P) and the single monitoring operation.

Description

Beschreibungdescription
Einrichtung und Verfahren zur Steuerung und Kontrolle von Ü- berwachungsdetektoren in einem Knoten eines Clustersyste sDevice and method for the control and monitoring of monitoring detectors in a node of a cluster system
Die Erfindung betrifft eine Einrichtung in einem Knoten eines Clustersystems zur Kontrolle und zur Steuerung von Überwachungsdetektoren. Die Erfindung betrifft weiterhin ein Verfahren zur Steuerung und zur Kontrolle von Überwachungsdetek- toren für zumindest zwei zu überwachende Ressourcen in einem Clustersystem.The invention relates to a device in a node of a cluster system for checking and controlling monitoring detectors. The invention further relates to a method for the control and monitoring of monitoring detectors for at least two resources to be monitored in a cluster system.
Clustersysteme mit mehreren Knoten innerhalb des Clusters, die aus einzelnen Rechnern gebildet werden, werden oftmals für Software verwendet, die hoch verfügbar sein soll. Dazu besitzt das Clustersystem eine Kontroll- und Steuerungssoftware, die auch Reliant Managment Service RMS genannt wird und die aHif dem Cluster laufende hoch verfügbare Software überwacht.» Die hoch verfügbare Software selbst läuft dabei auf einem Knoten eines Clusters oder ist auf verschiedene Knoten verteilt. Im übrigen kann auch die Kontrollsoftware RMS auf verschiedene Knoten, also dezentralisiert verteilt sein.Cluster systems with multiple nodes within the cluster, which are formed from individual computers, are often used for software that is said to be highly available. For this purpose, the cluster system has control and control software, which is also called Reliant Management Service RMS and which aHif monitors the highly available software that is running for the cluster. »The highly available software itself runs on one node of a cluster or is distributed among different nodes. In addition, the control software RMS can also be distributed across various nodes, ie in a decentralized manner.
Ist die fehlerfreie Ausführung der hoch verfügbaren Software oder eines Teils davon auf einem Knoten des Clusters nicht mehr gewährleistet, so beendet die KontrollSoftware RMS die Applikation oder den entsprechenden Teil davon und startet diese auf einem anderen Knoten neu. Die Überwachung der hoch verfügbaren Applikation bzw. eines Teils der hoch verfügbaren Applikation erfolgt durch den RM-Service gesteuerte sogenannte Überwachungsdetektoren. Diese überwachen jeweils einen spezifischen Teil der Applikation, der als Ressource bezeichnet wird und melden den Status der Ressource zurück an die KontrollSoftware RMS.If the error-free execution of the highly available software or part of it on a node of the cluster is no longer guaranteed, the control software RMS ends the application or the corresponding part of it and restarts it on another node. The RM service controlled so-called monitoring detectors monitor the highly available application or a part of the highly available application. These each monitor a specific part of the application, which is referred to as a resource, and report the status of the resource back to the RMS control software.
Ein Beispiel dafür ist in Figur 6 zu sehen. Dieses zeigt einen Knoten Nl, der Teil eines Clustersystems ist. Der Knoten Nl enthält als Kontrollsoftware den Reliant Managment Service RMS. Weiterhin wird auf dem Knoten Nl die hoch verfügbare Applikation APL ausgeführt, die ihrerseits über die Verbindung Cl mit einem Speichermanagementsystem FS Daten austauscht. Zur Überwachung der Applikation APL startet die Kontrollsoftware RMS die einzelnen Überwachungsdetektoren Dl, D2 bzw. D3. Jeder dieser Detektoren ist eigens für die Überwachung einer bestimmten Ressource der hoch verfügbaren Software APL ausgebildet. Beispielsweise überwacht der Detektor D3 die Kommunikationsverbindung Cl zwischen der Applikation APL und dem Dateimanagementsystem FS. Ein anderer Detektor D2 überprüft die hoch verfügbare Applikation APL anhand kontinuierlicher Abfragen, ob diese weiterhin ausgeführt wird und Rückmeldungen absetzt. Der dritte Detektor Dl überpüft beispielsweise verfügbaren temporären Speicher, der für die hochverfügbare Applikation APL benötigt wird.An example of this can be seen in FIG. 6. This shows a node N1, which is part of a cluster system. The knot Nl contains the Reliant Management Service RMS as control software. Furthermore, the highly available application APL is executed on the node N1, which in turn exchanges data with a memory management system FS via the connection C1. To monitor the APL application, the RMS control software starts the individual monitoring detectors D1, D2 and D3. Each of these detectors is specially designed to monitor a specific resource of the highly available software APL. For example, the detector D3 monitors the communication link C1 between the application APL and the file management system FS. Another detector D2 checks the highly available application APL on the basis of continuous queries as to whether it is still being executed and whether it is providing feedback. The third detector Dl checks, for example, the available temporary memory that is required for the highly available application APL.
Anhand der durchgegebenen Statusmeldungen der einzelnen Überwachungsdetektoren trifft die Kontrolle RMS geeignete Maßnahmen bei einem Ausfall einzelner durch die Überwachungsdetektoren überwachter Ressourcen oder sonstigen auftretenden Problemen. So kann sie beispielsweise die hochverfügbare Software beenden und auf einem zweiten nicht dargestellten Knoten neu starten.Based on the status reports of the individual monitoring detectors, the RMS control takes suitable measures in the event of a failure of individual resources monitored by the monitoring detectors or other problems that occur. For example, it can terminate the highly available software and restart it on a second node (not shown).
Die einzelnen Überwachungsdetektoren werden von der Kontroll- Software RMS unabhängig voneinander gestartet. Dies führt jedoch zu einer hohen Systembelastung des Knotens, da die einzelnen Detektoren entsprechend Speicherplatz bzw. Rechenkapazität verbrauchen. Im schlimmsten Fall können durch eine ungünstige Konfiguration oder sehr viele überwachte Ressourcen innerhalb eines Knotens die Überwachungsdetektoren den größten Teil der verfügbaren Rechenkapazität verbrauchen. Für die eigentliche Anwendung steht dann zu wenig zur Verfügung. Zudem empfängt die KontrollSoftware Statusmeldungen von Überwachungsdetektoren, deren eigentliche Ausführung und Überwachung der Ressource zum gegenwärtigen Zeitpunkt nicht notwen- dig ist. Die Verarbeitung aller zurückgelieferten Statusmeldungen erhöht ebenfalls die Rechenzeit und belastet die Kontrollsoftware unnötig.The individual monitoring detectors are started independently of each other by the RMS control software. However, this leads to a high system load on the node, since the individual detectors correspondingly consume memory space or computing capacity. In the worst case, due to an unfavorable configuration or a large number of monitored resources within a node, the monitoring detectors can consume most of the available computing capacity. There is then too little available for the actual application. In addition, the control software receives status messages from monitoring detectors whose actual execution and monitoring of the resource is not currently necessary. dig is. The processing of all returned status messages also increases the computing time and places an unnecessary burden on the control software.
Aufgabe der Erfindung ist es daher, eine Einrichtung in einem Knoten eines Clustersystems vorzusehen, mit der die Systemlast für die Überwachung auf einsatabhängige Anforderungen angepasst wird, dennoch aber eine ausreichende Überwachung der Ressourcen sichergestellt ist. Weiterhin ist es Aufgabe, ein Verfahren zur Steuerung und Kontrolle von Überwachungsde- tektoren vorzusehen, welches effizient bei gleichzeitig geringer Systemlast arbeitet .The object of the invention is therefore to provide a device in a node of a cluster system, with which the system load for the monitoring for mission-dependent requirements is adapted, but adequate monitoring of the resources is nevertheless ensured. It is also an object to provide a method for the control and monitoring of monitoring detectors which works efficiently with a low system load.
Diese Aufgaben werden mit den Gegenständen der unabhängigen Patentansprüche gelöst .These objects are solved with the subject matter of the independent claims.
Es ist eine Überwachungseinrichtung in einem Knoten eines Clustersystems zur Überwachung von zumindest zwei zu überwachenden Ressourcen auf dem Knoten des Clustersystems vorgesehen. Den zu überwachenden Ressourcen ist dabei jeweils eine Priorität zuordenbar, die ein Maß für die Wichtigkeit der zu überwachenden Ressource darstellt. Die Einrichtung umfaßt ein Mittel zur Auswahl einer Ressource aus den zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugewiesenen Prioritäten. Weiterhin umfaßt die Einrichtung zumindest einen Überwachungsdetektor, welches für die Überwachungsart der zu überwachenden Ressource ausgebildet ist. Letztlich enthält die Einrichtung ein Mittel zur Zuordnung des Überwachungsdetektors zu der zu überwachenden Ressource, sowie ein Mittel zur Ausführung des Überwachungs- detektors. Dieses ist so ausgebildet, daß nach einer einmlai- gen Überwachung der Ressource durch den ausgeführten Uberwachungsdetektor die Ausführung von dem Mittel beendet bzw. gestoppt wird.A monitoring device is provided in a node of a cluster system for monitoring at least two resources to be monitored on the node of the cluster system. A priority can be assigned to the resources to be monitored, which represents a measure of the importance of the resource to be monitored. The device comprises a means for selecting a resource from the at least two resources to be monitored on the basis of the priorities assigned to the resources to be monitored. Furthermore, the device comprises at least one monitoring detector which is designed for the type of monitoring of the resource to be monitored. Ultimately, the device contains a means for assigning the monitoring detector to the resource to be monitored, and a means for executing the monitoring detector. This is designed in such a way that after a one-time monitoring of the resource by the monitoring detector carried out, the execution is ended or stopped by the means.
In dieser Ausführung bildet die Einrichtung eine übergeordnete Instanz, denen die einzelnen zu überwachenden Ressourcen und insbesondere die für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren untergeordnet sind. Insbesondere ist die Ausführung der einzelnen für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren nicht mehr unabhängig voneinander, sondern wird durch die Einrichtung zusammengefaßt gesteuert. Dadurch ist es möglich, mittels der Einrichtung immer nur die Ressourcen zu überwachen, deren Ü- berwachung zum aktuellen Zeitpunkt notwendig ist. Weiterhin wird durch die Einrichtung auf dem Knoten zusätzlich Rechenzeit eingespart, da der für die zu überwachende Ressource benötigte Überwachungsdetektor erst nach einer Auswahl ausgeführt wird.In this version, the device forms a higher-level instance to which the individual resources to be monitored and in particular the monitoring detectors required for the resources to be monitored are subordinate. In particular, the execution of the individual monitoring detectors required for the resources to be monitored is no longer independent of one another, but is controlled in a combined manner by the device. This makes it possible to use the device to monitor only those resources whose monitoring is necessary at the current time. The device on the node also saves additional computing time, since the monitoring detector required for the resource to be monitored is only executed after a selection.
Die Überwachung erfolgt dabei dergestalt, daß die Ausführung des Überwachungsdetektors nach der erfolgten Überwachung wieder gestoppt wird. Die Überwachung ist somit nur einmalig. Die Einrichtung ist natürlich so ausgebildet, daß sie bei Bedarf die zu überwachende Ressource auch öfters auswählen und den dazu benötigten Überwachungsdetektor mehrmals ausführt. Dabei wird der Überwachungsdetektor jedoch nicht kontinuierlich betrieben, sondern jeweils nur solange ausgeführt, bis er eine Statusmeldung hinsichtlich der zu überwachenden Ressource zurückgegeben hat. Dabei kann allerdings der Überwachungsdetektor selbst für eine mehrmalige Überwachung ausgebildet sein. Dies ist gerade bei streuenden Messwerten des Überwachungsdetektors vorteilhaft. Erfindungsgemäß führt der Überwachungsdetektor mehrere Überwachungen durch und liefert dann eine gesamte Statusmeldung zurück, die die einzelnen Messwerte repräsentiert. Die Ausführung des Detektor wird nach der Übermittlung der Statusmeldung beendet.The monitoring is carried out in such a way that the execution of the monitoring detector is stopped again after the monitoring has taken place. Monitoring is therefore only once. The device is, of course, designed in such a way that, if necessary, it also frequently selects the resource to be monitored and executes the monitoring detector required for this several times. However, the monitoring detector is not operated continuously, but is only executed until it has returned a status message regarding the resource to be monitored. However, the monitoring detector itself can be designed for repeated monitoring. This is particularly advantageous in the case of scattering measured values from the monitoring detector. According to the invention, the monitoring detector carries out several monitoring operations and then returns an entire status message which represents the individual measured values. The execution of the detector is ended after the status message has been transmitted.
Das Verfahren zur Überwachung von zumindest zwei Ressourcen auf einem Knoten eines Clustersystems, wobei den zumindest zwei Ressourcen jeweils eine Priorität zugeordnet ist, umfaßt die Schritte: a) Auswahl einer der zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugeordneten Priorität; b) Auswahl eines für die Überwachung benötigten Überwachungs- detektors für die zu überwachende Ressource; c) Zuweisen von Ressourcenparameter an den Uberwachungsdetektor; d) Starten bzw. Ausführen des Überwachungsdetektors und einmalige Ausführung einer Überwachung der Ressource durch den Überwachungsdetektor; e) Melden des Ergebnisses der durch den Überwachungsdetektor ausgeführten Überwachung .The method for monitoring at least two resources on a node of a cluster system, the at least two resources being assigned a priority, comprises the steps: a) selection of one of the at least two resources to be monitored on the basis of the priority assigned to the resources to be monitored; b) selection of a monitoring detector required for the monitoring for the resource to be monitored; c) assigning resource parameters to the monitoring detector; d) starting or executing the monitoring detector and performing a monitoring of the resource once by the monitoring detector; e) reporting the result of the monitoring performed by the monitoring detector.
Auch bei dem erfindungsgemäßen Verfahren wird eine Überwachung einer zu überwachenden Ressource nicht kontinuierlich durchgeführt, sondern lediglich durch eine einmalige Ausführung des der zu überwachenden Ressource zugeordneten Überwa- chungsdetektors . Der Uberwachungsdetektor selbst kann natürlich die zu überwachende Ressource in vielfältiger Weise und insbesondere auch mehrmals in kurzen Zeitabständen überwachen, bevor er ein Ergebnis zurückliefert. Jedoch wird erfindungsgemäß pro Ausführung des Überwachungsdetektors nur einmal ein Ergebnis oder eine Statusmeldung zurürckgeliefert .In the method according to the invention, too, monitoring of a resource to be monitored is not carried out continuously, but rather only by executing the monitoring detector assigned to the resource to be monitored once. The monitoring detector itself can of course monitor the resource to be monitored in a variety of ways and in particular also several times at short time intervals before it returns a result. However, according to the invention, only one result or status message is returned once per execution of the monitoring detector.
Die zu einem Zeitpunkt zu überwachende Ressource wird anhand der zugeordneten Priorität ausgewählt . Dadurch läßt sich auf dem Knoten eines Clustersystems Rechenzeit einsparen, da der Uberwachungsdetektor nur dann ausgeführt wird, wenn dies anhand der zugeordneten Priorität erforderlich ist. Insbesondere werden die Ressourcen und die Überwachungsdetektoren zusammengefaßt und als ganzes betrachtet. Eine Unabhängigkeit einzelner Detektoren ist somit nicht mehr gegeben.The resource to be monitored at a time is selected based on the assigned priority. This saves computing time on the node of a cluster system, since the monitoring detector is only executed when this is necessary based on the assigned priority. In particular, the resources and the monitoring detectors are combined and viewed as a whole. Individual detectors are therefore no longer independent.
Die zu überwachenden Ressourcen und die dafür benötigten Ü- berwachungsdetektoren sind vielfältiger Natur. In einer Ausgestaltung der Erfindung wird eine zu überwachende Ressource durch einen Einbindungspunkt innerhalb eines DateiSystems des Knotens des Clustersystems gebildet. Der Überwachungsdetektor ist somit für eine Überprüfung ausgebildet, ob der zu überwachende Einbindungspunkt weiterhin gültig ist. In einer vorteilhaften Ausgestaltung ist der Einbindungspunkt durch ein zweites Dateisystem auf einem Massenspeicher gegeben, welcher in das Dateisystem des Knotens des Clustersystems eingebunden wird. Es wird allerdings immer anhand der ausgewählten Ressource der korrekte, für die Überwachung der Ressource benötigte Überwachungsdetektor ausgewählt.The resources to be monitored and the monitoring detectors required for this are diverse in nature. In one embodiment of the invention, a resource to be monitored is identified by an integration point within a file system of the Cluster system node. The monitoring detector is thus designed to check whether the integration point to be monitored is still valid. In an advantageous embodiment, the integration point is provided by a second file system on a mass storage device, which is integrated in the file system of the node of the cluster system. However, the correct monitoring detector required for monitoring the resource is always selected based on the selected resource.
In einer anderen Ausgestaltung ist der Überwachungsdetektor zur Überwachung eines verfügbaren Festplatten- oder sonstigen Massenspeichers ausgebildet.In another embodiment, the monitoring detector is designed to monitor an available hard disk or other mass storage.
Wieder in einer anderen Ausgestaltung der Erfindung ist die zu überwachende Ressource ein ausgeführtes Programm und der dazu benötigte Uberwachungsdetektor ein Detektor, der überprüft, ob das ausgeführte Programm weiterhin aktiv ist. Eine weitere zu überwachende Ressource ist eine Netzwerkverbindung mit einem weiteren Knoten des Clustersystems. Der dafür benötigte Überwachungsdetektor ist ein Detektor, der den Status der Netzwerkverbindung überprüft. Wieder eine andere Ressource sind eine zu überwachende Datenbank, die Systemlast des Knotens, die Prozessorlast eines ausgeführten Programms oder der vorhandene freie Speicher innerhalb des Knotens des Clustersystems. Für jede Art der verschiedenen Ressourcen ist ein Uberwachungsdetektor vorgesehen, der eine bestimmte Überwachung vornimmt. Für eine Ressource kann es mehrere verschiedene Überwachungsarten und damit auch verschiedene Überwachungsdetektoren geben.In yet another embodiment of the invention, the resource to be monitored is an executed program and the monitoring detector required for this is a detector that checks whether the executed program is still active. Another resource to be monitored is a network connection with another node of the cluster system. The monitoring detector required for this is a detector that checks the status of the network connection. Another resource is a database to be monitored, the system load of the node, the processor load of a program being executed, or the free space available within the node of the cluster system. A monitoring detector is provided for each type of different resource, which performs a specific monitoring. There can be several different types of monitoring for a resource and therefore different monitoring detectors.
In einer Weiterbildung der Einrichtung umfaßt das Mittel zur Auswahl eine Liste, in der die zumindest zwei zu überwachenden Ressourcen in einer durch ihre Priorität festgelegten Reihenfolge abgelegt sind. Dadurch ist eine besonders einfache Auswahl der zu überwachenden Ressource möglich, indem die Einrichtung anhand der Liste die zu überwachenden Ressourcen bestimmt und die Überwachungsdetektoren ausführt. Die Liste kann besonders einfach durch Hinzufügen weitere Ressourcen oder Entfernen von Ressourcen aus der Liste geändert werden. Die Einrichtung ist dabei so ausgebildet, daß sie anhand einer aus der Liste ausgewählten Ressource automatisch den dazugehörigen für die Überwachung der Ressource benötigten Ü- berwachungsdetektor vorsieht .In a development of the device, the means for selection comprises a list in which the at least two resources to be monitored are stored in an order determined by their priority. This enables a particularly simple selection of the resource to be monitored by the device using the list of the resources to be monitored determined and executes the monitoring detectors. The list can be changed particularly easily by adding additional resources or removing resources from the list. The device is designed in such a way that, based on a resource selected from the list, it automatically provides the associated monitoring detector required for monitoring the resource.
Dabei ist es besonders sinnvoll, wenn die Prioritäten der zu überwachenden Ressourcen durch einen numerischen Wert gebildet werden. Dadurch wird insgesamt eine hohe Flexibilität erreicht und es ist möglich, dynamisch auf Veränderungen zu reagieren, indem einfach die Priorität der zu überwachenden Ressource geändert wird.It is particularly useful if the priorities of the resources to be monitored are formed by a numerical value. As a result, a high degree of flexibility is achieved overall and it is possible to react dynamically to changes simply by changing the priority of the resource to be monitored.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung ist eine festgelegte Zeitdauer pro Zeitintervall vorgesehen. Die Einrichtung ist so ausgebildet, daß die mittlere Zeit für eine Ausführung eines Überwachungsdetektors geringer ist als die festgelegte Zeitdauer. Zweckmäßigerweise ist die Einrichtung für eine Auswahl einer Ressource und für eine einmalige Ausführung des zugeordneten Überwachungsdetektors ausgebildet, bis die gesamte Ausführungsdauer aller einmalig ausgeführten Überwachungsdetektoren die festgelegte Zeitdauer erreicht . Durch diese festgelegte Zeitdauer wird daher pro Zeitintervall ein Zeitfenster vorgegeben, in dem die Einrichtung Ressourcen überwachen kann. Mit anderen Worten läßt sich somit die maximal von der Einrichtung benötigte Rechenkapazität, bzw. Rechenzeit innerhalb eine Zeitintervalls festlegen. Dies ist möglich, da die Überwachungsdetektoren durch die Einrichtung gestartet und kontrolliert werden und folglich nicht mehr unabhängig voneinander sind.In a further advantageous embodiment of the invention, a fixed period of time is provided per time interval. The device is designed in such a way that the average time for executing a monitoring detector is less than the defined time period. The device is expediently designed for a selection of a resource and for a single execution of the assigned monitoring detector, until the total execution time of all the monitoring detectors executed once reaches the defined time period. This fixed time period therefore specifies a time window in each time interval in which the device can monitor resources. In other words, the maximum computing capacity or computing time required by the device can thus be determined within a time interval. This is possible because the monitoring detectors are started and controlled by the device and are consequently no longer independent of one another.
Eine Weiterbildung der Erfindung ist dadurch gekennzeichnet, daß eine zweite Zeitdauer, die für eine Überwachung der Ressource benötigt wird, der zu überwachenden Ressource zugeordnet ist. Dadurch ist es der Einrichtung möglich, eine genaue Abschätzung für die für die Überwachung benötigte Zeitdauer vorzunehmen. Es ist zweckmäßig, wenn die Einrichtung zur Ermittlung der für die Überwachung benötigten Zeitdauer ausgebildet ist. Zweckmäßigerweise erfolgt dies durch eine Zeitmessung an dem Überwachungsdetektor.A further development of the invention is characterized in that a second time period, which is required for monitoring the resource, is assigned to the resource to be monitored. This enables the facility to provide an accurate Make an estimate of the time required for monitoring. It is expedient if the device is designed to determine the period of time required for monitoring. This is expediently carried out by measuring the time on the monitoring detector.
In einer anderen Weiterbildung der Erfindung weist die Einrichtung eine erste Schnittstelle auf, die zur Abgabe von Statusmitteilungen des Überwachungsdetektors nach einmaliger Ausführung des Überwachungsdetektors ausgebildet ist. Dadurch läßt sich insbesondere einer übergeordneten Kontroll- und Steuereinrichtung wichtige Statusmitteilungen melden. In einer anderen Weiterbildung der Erfindung umfaßt die Einrichtung eine zweite Schnittstelle, die für einen Empfang von Benutzerkommandos ausgebildet ist. Dadurch ist es auch benut- zerseitig möglich, jederzeit eine Ressource durch einen Uberwachungsdetektor zu überwachen. Dies ist insbesondere dann sinnvoll, wenn eine aktuelle Statusmeldung von der zu überwachenden Ressource benötigt wird. In einer Weiterbildung dieser Einrichtung läßt sich die erste bzw. die zweite Schnittstelle für einen Empfang zu überwachender Ressourcen ausbilden. Somit lassen sich der Einrichtung neue zu überwachende Ressourcen mitteilen oder von der Einrichtung überwachte Ressourcen wieder aus der Überwachung entfernen.In another development of the invention, the device has a first interface, which is designed to emit status messages from the monitoring detector after the monitoring detector has been executed once. This allows important status messages to be reported to a higher-level control and control device in particular. In another development of the invention, the device comprises a second interface, which is designed to receive user commands. As a result, it is also possible for the user to monitor a resource at any time using a monitoring detector. This is particularly useful if a current status message is required by the resource to be monitored. In a further development of this device, the first or the second interface can be designed to receive resources to be monitored. In this way, new resources to be monitored can be communicated to the device or resources monitored by the device can be removed from the monitoring again.
Es ist zweckmäßig, die Einrichtung als selbständigen Prozeß innerhalb des Knotens des Clustersystems auszubilden. Die Einrichtung bildet somit ein selbständiges Programm. Die Ü- berwachungsdetektoren bilden während ihrer Ausführung Teil- prozesse der Einrichtung.It is expedient to design the device as an independent process within the node of the cluster system. The facility thus forms an independent program. The monitoring detectors form sub-processes of the device during their execution.
In einer anderen Weiterbildung der Erfindung ist der Uberwachungsdetektor als selbständig ausführbares Programm ausgebildet. Dieses wird von der Einrichtung nach Auswahl der zu überwachenden Ressource einmalig ausgeführt. In einer besonders vorteilhaften Weiterbildung der Erfindung weist die Einrichtung zumindest einen auf dem Knoten des Clustersystems ausgeführten, jedoch von der zu überwachenden Ressource unabhängigen, leerlaufenden Teilprozeß auf. Das Mittel zur Ausführung des Überwachungsdetektors ist dabei für eine Verknüpfung des Uberwachungsdetektors der zu überwachenden ausgewählten Ressource mit dem unabhängigen Teilprozeß ausgebildet. Diese Weiterbildung ist besonders vorteilhaft, wenn der Überwachungsdetektor als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet ist.In another development of the invention, the monitoring detector is designed as an independently executable program. This is carried out once by the facility after selection of the resource to be monitored. In a particularly advantageous development of the invention, the device has at least one idle subprocess which is executed on the node of the cluster system but is independent of the resource to be monitored. The means for executing the monitoring detector is designed to link the monitoring detector of the selected resource to be monitored with the independent sub-process. This development is particularly advantageous if the monitoring detector is designed as a function of a dynamic library or as a dynamic library.
Dadurch verknüpft die Einrichtung die Funktion der dynamischen Bibliothek oder die dynamische Bibliothek zum Ausführungszeitpunkt mit dem leerlaufenden Teilprozeß, startet diesen und führt so eine Überwachung der zu überwachenden Ressource durch. Nach der Ausführung wird die Verknüpfung wieder gelöst . Eine solche Ausbildung ist besonders geschwindig- keits- und recheneffizient. Durch die Ausbildung der Überwachungsdetektoren als Funktionen in dynamischen Bibliotheken oder als dynamische Bibliotheken sind in besonders einfacher und flexibler Weise Verbesserungen, Erweiterungen, oder Fehlerkorrekturen möglich. Auch eine Portierung auf andere Clusterbetriebssysteme wird damit vereinfacht.As a result, the device links the function of the dynamic library or the dynamic library at the time of execution to the idle subprocess, starts it and thus monitors the resource to be monitored. After the execution, the link is released. Such training is particularly speed and computing efficient. By designing the monitoring detectors as functions in dynamic libraries or as dynamic libraries, improvements, extensions or error corrections are possible in a particularly simple and flexible manner. It also simplifies porting to other cluster operating systems.
In einer Weiterbildung des Verfahrens wird eine erste Zeitdauer in einem Zeitintervall für die Überwachung der zu überwachenden Ressourcen festgelegt. Überwachungsdetektoren bzw. die damit verknüpften Teilprozesse werden nur so lange ausgeführt, solange die festgelegte Zeitdauer nicht überschritten wird. Dabei kann das Verfahren so lange wiederholt werden, bis die festgelegte Zeitdauer erreicht wird. Durch die erste Zeitdauer in dem Zeitintervall ist somit eine maximale Rechenkapazität, die für die Überwachung benötigt wird, definiert . Es ist zweckmäßig, zumindest eine der zwei zu überwachenden Ressourcen aus einer Liste auszuwählen, in der die zu überwachenden Ressourcen in der Reihenfolge ihrer Prioritäten abgelegt sind. In einer Weiterbildung wird die Liste so lange abgearbeitet, bis die festgelegte Zeitdauer erreicht wird.In a further development of the method, a first time period is defined in a time interval for the monitoring of the resources to be monitored. Monitoring detectors and the associated sub-processes are only executed as long as the specified time period is not exceeded. The process can be repeated until the specified time is reached. The first time period in the time interval thus defines a maximum computing capacity that is required for monitoring. It is expedient to select at least one of the two resources to be monitored from a list in which the resources to be monitored are stored in the order of their priorities. In a further training, the list is worked through until the specified period of time is reached.
Besonders zweckmäßig ist es, die Priorität einer zu überwachenden Ressource zu erhöhen, wenn keine Überwachung der Ressource durch den Uberwachungsdetektor in der ersten Zeitdauer in dem Zeitintervall erfolgt ist. Dadurch wird verhindert, daß Ressourcen aufgrund mangelnder Überwachungszeit bzw. geringer Priorität nie durch einen zugeordneten Überwachungsdetektor überwacht werden.It is particularly expedient to increase the priority of a resource to be monitored if the monitoring detector has not monitored the resource in the first time period in the time interval. This prevents resources from never being monitored by an assigned monitoring detector due to a lack of monitoring time or low priority.
Es ist zweckmäßig, einer zu überwachenden Ressource eine zweite Zeitdauer zuzuordnen, welche die Dauer für eine Überwachung durch den Überwachungsdetektor angibt. Alternativ läßt sich die zweite Zeitdauer auch dem Überwachungsdetektor zuordnen.It is expedient to assign a resource to be monitored a second period of time, which specifies the duration for monitoring by the monitoring detector. Alternatively, the second time period can also be assigned to the monitoring detector.
In einer Weiterbildung des Verfahrens wird die zweite Zeitdauer für eine Überwachung durch die Ausführung des ausgewählten Überwachungsdetektors ermittelt. Dies ist insbesondere dann sinnvoll, wenn die benötigte Zeitdauer nicht von vornherein bekannt ist oder sich während des laufenden Betriebs Parameter ändern, die sich auf die Zeitdauer für die Überwachung auswirken.In a development of the method, the second time period for monitoring is determined by the execution of the selected monitoring detector. This is particularly useful if the required period of time is not known from the outset or if parameters change during operation that affect the period of time for monitoring.
In einer Ausgestaltung des Verfahrens wird ein leerlaufender Teilprozeß gestartet, der keine Rechenzeit verbraucht und auch als schlafender Prozeß bezeichnet wird. Nach der Auswahl eines Uberwachungsdetektors wird der Überwachungsdetektor mit dem leerlaufenden Teilprozeß verknüpft und dann ausgeführt . Es ist zweckmäßig, den Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek auszubilden. Eine Verknüpfung des Uberwachungsdetektors mit dem leerlaufenden Teilprozeß ist dadurch besonders schnell und effizient. Nach der Meldung des Ergebnisses durch den Ü- berwachungsdetektor wird die Verknüpfung wieder gelöst und der Leerlaufprozeß wieder schlafen gelegt . Der Leerlaufprozeß benötigt dabei keine Rechenzeit auf dem Knoten. Alternativ kann der leerlaufende Teilprozeß hintereinander mit verschiedenen Uberwachungsdetektoren verknüpft werden. Die Ausbildung über einen leerlaufenden Teilprozeß ist besonders flexibel.In one embodiment of the method, an idle sub-process is started that does not consume any computing time and is also referred to as a sleeping process. After the selection of a monitoring detector, the monitoring detector is linked to the idling sub-process and then executed. It is expedient to design the monitoring detector as a function of a dynamic library or as a dynamic library. Linking the monitoring detector to the idling sub-process is particularly quick as a result and efficient. After the result has been reported by the monitoring detector, the link is broken again and the idle process is put back to sleep. The idle process does not require any computing time on the node. Alternatively, the idling sub-process can be linked in succession with various monitoring detectors. Training on an idle sub-process is particularly flexible.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.Further advantageous embodiments of the invention are the subject of the dependent claims.
Im Folgenden wird die Erfindung, deren einzelnen Ausgestaltungen und Erweiterungen sich beliebig kombinieren lassen, unter Bezugnahme auf die Zeichnungen im Detail erläutert.In the following, the invention, the individual configurations and extensions of which can be combined as desired, is explained in detail with reference to the drawings.
Es zeigen:Show it:
Figur 1 ein Ausführungsbeispiel der erfindungsgemäßen Einrichtung,FIG. 1 shows an exemplary embodiment of the device according to the invention,
Figur 2 ein Schema des Mittels zur Ausführung in der Einrichtung,FIG. 2 shows a diagram of the means for execution in the device,
Figur 3 einen schematischen Ablauf,FIG. 3 shows a schematic sequence,
Figur 4 Beispiele für Ressourcen innerhalb des Clustersystems,FIG. 4 examples of resources within the cluster system,
Figur 5 einen zeitlichen Ablauf über die zu überwachenden Ressourcen,FIG. 5 shows a chronological sequence of the resources to be monitored,
Figur β eine bekannte Einrichtung mit Uberwachungsdetektoren.Figure β a known device with surveillance detectors.
Zunächst wird anhand der Figur 4 die Umgebung erläutert, in der die erfindungsgemäße Überwachungseinrichtung eingesetzt wird. Figur 4 zeigt zwei Knoten C und C2 in einem Cluster- system. Diese sind über eine Netzwerkverbindung Nl miteinander verbunden. Auf dem Knoten C wird eine hoch verfügbare Applikation APL ausgeführt, welche mehrere zu überwachende Ressourcen enthält. Weiterhin wird auf dem Knoten C der Reliant Management Service RMS ausgeführt. Die ist eine Kontroll- und SteuerSoftware, die die Hochverfügbarkeit der Applikation APL überwachen soll. Bei Bedarf trifft sie weitere Maßnahmen, um die Hochverfügbarkeit sicher zu stellen. Dazu ist es notwendig, die einzelnen Ressourcen der hoch verfügbaren Applikation APL zu überwachen.The environment in which the monitoring device according to the invention is used is first explained with reference to FIG. FIG. 4 shows two nodes C and C2 in a cluster system. These are interconnected via a network connection Nl. A highly available application APL is executed on the node C, which contains several resources to be monitored. The Reliant Management Service RMS is also executed on node C. This is a control and control software that is intended to monitor the high availability of the APL application. If necessary, it takes additional measures to ensure high availability. To do this, it is necessary to monitor the individual resources of the highly available APL application.
Im Einzelnen sind die Ressourcen zwei Einbindungsknoten innerhalb des Dateisystems des Knotens C. Diese weisen auf zwei externe Massenspeicher Ml und M2, die in diesem Ausführungsbeispiel als einfache Festplattenspeicher ausgebildet sind. Der Festplattenspeicher Ml ist im Dateisystem des Knotens C in den Einbindungspunkt "/usr/opt" eingehängt, der Festplattenspeicher M2 in den Einbindungspunkt "/usr/share" . Dabei ist es notwendig zu überprüfen, ob die in diesen Punkten im Dateisystem eingehängten Massenspeicher Ml und M2 funktionstüchtig sind und Daten von ihnen gelesen bzw. auf sie geschrieben werden können.Specifically, the resources are two integration nodes within the file system of node C. These point to two external mass storage devices M1 and M2, which are designed as simple hard disk memories in this exemplary embodiment. The hard disk space Ml is mounted in the file system of the node C in the integration point "/ usr / opt", the hard disk space M2 in the integration point "/ usr / share". It is necessary to check whether the mass storage devices M1 and M2 attached to these points in the file system are functional and whether data can be read from them or written to them.
Weiterhin greift die hoch verfügbare Applikation APL auf die Datenbank DB zu, die auf dem Knoten C2 ausgeführt wird. Dazu ist es notwendig, die Verbindung zwischen der Applikation APL auf dem Knoten C und der Datenbank DB auf dem Knoten C2 zu überprüfen. Letztlich wird auch der Fenstermanager X auf dem Knoten C für die graphische Benutzeroberfläche der hoch verfügbaren Applikation APL überwacht.Furthermore, the highly available application APL accesses the database DB, which is executed on node C2. To do this, it is necessary to check the connection between the APL application on node C and the database DB on node C2. Finally, window manager X on node C is also monitored for the graphical user interface of the highly available application APL.
Erfindungsgemäß wird für die Überwachung all dieser Ressourcen eine übergeordnete Überwachungseinrichtung DFW vorgesehen, die mit dem Reliant Management Service RMS verbunden ist. Die Überwachungseinrichtung DFW wird auch als Instanz oder Detector Framework bezeichnet und ist als eigenständiger Prozeß auf dem Knoten C ausgebildet. Teil dieser Einrichtung sind die Detektoren Dl, D2, D3 und D4. Diese sind für die Ü- berwachung der Ressourcen zuständig und werden von der Über- wachungseinrichtung DFW gesteuert. Die Ressourcen, die dabei überwacht werden sollen, wurden der Instanz DFW von der Reliant Management Service RMS übergeben, bzw. als Parameter mitgeteilt.According to the invention, a superordinate monitoring device DFW is provided for the monitoring of all these resources, which is connected to the Reliant Management Service RMS. The monitoring device DFW is also referred to as an instance or detector framework and is designed as an independent process on node C. Part of this facility are the detectors D1, D2, D3 and D4. These are responsible for the monitoring of resources and are controlled by the monitoring facility DFW. The resources to be monitored were transferred to the DFW instance by the Reliant Management Service RMS or communicated as parameters.
Figur 2 zeigt ein detaillierteres Blockbild der erfindungsgemäßen Überwachungseinrichtung DFW. Die Überwachung der einzelnen Ressourcen geschieht wie in Figur 4 durch die individuellen Detektoren Dl, D2, D3 und D4, die allerdings von einer Kontrolleinrichtung KE gesteuert werden. Diese ist ebenso wie die Detektoren Teil der Überwachungseinrichtung und besitzt weitere logische Blöcke die im Detail später erläutert werden.FIG. 2 shows a more detailed block diagram of the monitoring device DFW according to the invention. The individual resources are monitored as in FIG. 4 by the individual detectors D1, D2, D3 and D4, which, however, are controlled by a control device KE. Like the detectors, this is part of the monitoring device and has further logic blocks which will be explained in detail later.
Die übergeordnete Einrichtung DFW ist verantwortlich für die Kommunikation mit dem Reliant Management Service RMS über die Schnittstelle Sl . Dazu enthält sie eine Kontrolleinrichtung KE, die von dem System RMS Informationen über die zu überwachenden Ressourcen empfängt. Über die Schnittstelle S2 werden zudem Benutzerdaten bzw. Benutzerkommandos an die Kontrolleinrichtung KE übergeben. Die Kontrolleinrichtung KE steuert und kontrolliert die einzelnen individuellen Uberwachungsdetektoren Dl, D2, D3 bzw. D4.The higher-level facility DFW is responsible for communication with the Reliant Management Service RMS via the interface Sl. For this purpose, it contains a control device KE, which receives information about the resources to be monitored from the system RMS. User data or user commands are also transferred to the control device KE via the interface S2. The control device KE controls and controls the individual monitoring detectors D1, D2, D3 and D4.
Die individuellen Detektoren sind durch dynamische Bibliotheken Y.so, Z.so und X.so implementiert, die zur Laufzeit gestartet werden. Die dynamische Bibliothek Y.so enthält dabei alle Funktionen, die für eine Überwachung eines Einbindungs- punktes innerhalb des Dateisystems notwendig sind, ie zu erkennen, sind die beiden Überwachungsdetektoren Dl und D2 durch die gleiche Bibliothek Y.so implementiert. Dabei stellen die Überwachungsdetektoren sogar die gleiche Funktion in der Bibliothek Y.so dar. Von der Kontrolleinrichtung KE wird bei einer Überwachung des Einbindungspunktes der Massenspeicher Ml bzw. M2 die Funktion zur Überwachung in der dynamischen Bibliothek Y.so zusammen mit einem Satz von Parametern ausgeführt. Die beiden Uberwachungsdetektoren Dl und D2 enthalten zur Laufzeit somit zwar die gleiche Funktion, jedoch unterschiedliche, der Funktion übergebene Parameter. Die Parameter für den Detektor Dl enthalten die Information für die Überwachung des Speichers Ml, die Parameter, die für den Detektor D2 verwendet wurden, enthalten die notwendigen Informationen für die Überprüfung des Massenspeichers M2.The individual detectors are implemented by dynamic libraries Y.so, Z.so and X.so, which are started at runtime. The dynamic library Y.so contains all functions that are necessary for monitoring an integration point within the file system, ie to recognize that the two monitoring detectors D1 and D2 are implemented by the same library Y.so. The monitoring detectors even represent the same function in the Y.so library. The control device KE performs the function for monitoring in the dynamic library Y.so together with a set of parameters when the integration point of the mass storage devices M1 or M2 is monitored. The two monitoring detectors D1 and D2 thus contain the same function at runtime, but different parameters transferred to the function. The parameters for the detector Dl contain the information for monitoring the memory Ml, the parameters that were used for the detector D2 contain the necessary information for checking the mass memory M2.
Im Ausführungsbeispiel ist der übergebene Satz von Parametern der Einbindungspunkt im Dateisystem für die Speicher Ml und M2 und beispielsweise die Art des zu überprüfenden Zugriff- rechts .In the exemplary embodiment, the set of parameters passed is the integration point in the file system for the memories M1 and M2 and, for example, the type of access right to be checked.
Für eine Überwachung der Datenbankverbindung DB zwischen dem Knoten C und dem Knoten C2 in der Figur 4 enthält die dynamische Bibliothek Z.so alle notwendigen Funktionen. Wird eine Überprüfung erforderlich, so startet die Kontrolleinrichtung KE die Funktion aus der dynamischen Bibliothek Z.so. Die letzte dynamische Bibliothek X enthält die Funktionen für den Überwachungsdetektor D4, der den Status des Fenstermanagers für die graphische Benutzeroberfläche überprüft.The dynamic library Z.so contains all the necessary functions for monitoring the database connection DB between the node C and the node C2 in FIG. If a check is required, the control device KE starts the function from the dynamic library Z.so. The last dynamic library X contains the functions for the monitoring detector D4, which checks the status of the window manager for the graphical user interface.
Die Instanz DFW stellt ferner einen Satz von Funktionen bereit, die gemeinsam für alle individuellen Detektoren verwendbar sind. Beispielsweise ist dies die Schnittstelle zu dem Reliant Management System RMS für die Statusmeldungen, die für alle Detektoren gleich sind. Gleichzeitig wird die Ausführung der individuellen Überwachungsdetektoren Dl bis D4 durch die Kontrolleinrichtung KE gesteuert und kontrolliert . Somit sind die Überwachungsdetektoren in das Detektor Framework DFW vollständig eingebettet und nicht mehr unabhängig von dieser. Figur 1 erläutert im Detail den aufbau der Kontrolleinrichtung KE, die ihrerseits verschiedene Einrichtungen oder Mittel enthält. Die Figur zeigt eine erste Liste mit den zu ü- berwachenden Ressourcen Ml, DB und X, deren Art der Überwachung der Kontrolleinrichtung KE bekannt ist. Die Ressourcen wurden dem Detektor Framework DFW von dem Relian Managment Service mit dem Auftrag zur Überwachung mitgeteilt. Die Liste enthält alle notwendigen für die Überwachung notwendigen Informationen.The instance DFW also provides a set of functions that can be used in common for all individual detectors. For example, this is the interface to the Reliant Management System RMS for the status messages, which are the same for all detectors. At the same time, the execution of the individual monitoring detectors D1 to D4 is controlled and monitored by the control device KE. The monitoring detectors are thus completely embedded in the detector framework DFW and are no longer independent of this. Figure 1 explains in detail the structure of the control device KE, which in turn contains various devices or means. The figure shows a first list with the resources M1, DB and X to be monitored, the type of monitoring of the control device KE is known. The resources were communicated to the Detector Framework DFW by the Relian Management Service with the order for monitoring. The list contains all the information necessary for monitoring.
Es ist nun ein Auswahleinrichtung KE1 vorgesehen, die aus der Liste der zu überwachenden Ressource eine, im Ausführungsbei- spiel die Ressource DB auswählt. Die Auswahl erfolgt anhand einer Priorität. Zusätzlich können aber auch weitere Parameter beispielsweise die bislang verbrauchte Rechenzeit oder die für die Überwachung benötigte Zeit berücksichtigt werden. Das Auswahlmittel KE übergibt die zu überwachende Resource an eine Zuordnungseinheit, die auf der Basis der Resource den für die Überwachungsart geeigneten Detektor auswählt und diesem die notwendigen Parameter übergibt. Nach einer Zuordnung ergibt sich eine nun überwachungsbereite Ressource RS1, RS2 oder RS3, welche wie dargestellt in einer Liste abgelegt sind.A selection device KE1 is now provided, which selects one from the list of the resource to be monitored, in the exemplary embodiment the resource DB. The selection is based on a priority. In addition, other parameters, for example the computing time previously used or the time required for monitoring, can also be taken into account. The selection means KE transfers the resource to be monitored to an assignment unit which, on the basis of the resource, selects the detector suitable for the type of monitoring and transfers the necessary parameters to it. After an assignment there is a resource RS1, RS2 or RS3 which is now ready for monitoring and is stored in a list as shown.
Weiterhin enthält die Instanz DFW eine Anzahl von Teilprozessen TH1 bis THβ, die sogenannten Threads, welche leerlaufend sind. Es sind demnach schlafende Teilprozesse, die keinerlei Rechenzeit benötigen, jedoch ohne weiteres mit Funktionen aus dynamischen Bibliotheken verknüpft werden können, um somit eine Überwachung einer Ressource durchzuführen. Die Threads haben den Vorteil, daß keine zusätzliche Rechenzeit für ihren Start aufgewandt werden muß, sondern daß sie einmal gestartet auf ihre Ausführung warten.The instance DFW also contains a number of subprocesses TH1 to THβ, the so-called threads, which are idle. Accordingly, they are dormant subprocesses that do not require any computing time, but can easily be linked to functions from dynamic libraries in order to monitor a resource. The threads have the advantage that no additional computing time has to be used for their start, but that once they are started they are waiting for their execution.
Um die Ressource R3 zu überprüfen, verknüpft die Einrichtung KE3 den freien Teilprozeß TH2 mit den für die Überwachung benötigten Funktionen einer dynamischen Bibliothek, übergibt die für die Ressource R3 abhängigen und durch KE2 zugeordneten Parameter und führt den Teilprozeß TH2 aus. Dadurch erfolgt die Überwachung der Ressource durch den zugeordneten Detektor. Das Starten, Ausführen, Stoppen und die Synchronisation erfolgt in der Ausführungsform durch den POSIX (Por- table Operating System Interface for UNIX) Standard für UNIX- Betriebssysteme. Nach der Ausführung der Überwachungsfunktion löst die Einrichtung KE3 die Verknüpfung wieder, und legt den Thread TH2 erneut schlafen. Der Thread kann dann wieder mit einer weiteren Ressource verknüpft werden. Eine von dem Überwachungsdetektor gelieferte Ergebnismeldung wird von der Instanz DFW nach der Ausführung als Statusmeldung an den Reliant Management Service RMS zurückgegeben. Der Zugriff auf gemeinsam benutzte Daten zwischen der Einrichtung KE und den Teilprozessen TH wird über Semphore sequentialisiert .In order to check the resource R3, the device KE3 links the free partial process TH2 with the functions of a dynamic library required for the monitoring the parameters dependent on the resource R3 and assigned by KE2 and executes the sub-process TH2. This means that the assigned detector monitors the resource. Starting, executing, stopping and synchronization are carried out in the embodiment by the POSIX (Portable Operating System Interface for UNIX) standard for UNIX operating systems. After the execution of the monitoring function, the device KE3 breaks the link again and puts the thread TH2 to sleep again. The thread can then be linked to another resource. A result message supplied by the monitoring detector is returned to the Reliant Management Service RMS by the instance DFW after execution as a status message. Access to shared data between the device KE and the sub-processes TH is sequenced via Semphore.
Durch die Ausführung mit einzelnen Teilprozessen oder Threads ist es möglich, mehrere Überwachungen gleichzeitig ausführen zu können. Die Auswahl der Ressource, die Verknüpfung der Threads mit den Uberwachungsdetektoren, das Starten und Stoppen jedes einzelnen Threads wird dabei durch die Kontrolleinrichtung KE gesteuert. Die Anzahl der parallel ausgeführten Überwachungen verändert sich über die Zeit. Auch die Anzahl der Teilprozesse TH1 bis TH6 ändert sich über die Zeit, da die Instanz DFW bei Bedarf zusätzliche Teilprozesse starten oder diese wieder beenden kann.By executing with individual sub-processes or threads, it is possible to carry out several monitoring processes at the same time. The selection of the resource, the linking of the threads with the monitoring detectors, the starting and stopping of each individual thread is controlled by the control device KE. The number of monitoring operations carried out in parallel changes over time. The number of sub-processes TH1 to TH6 also changes over time, since the DFW instance can start or end additional sub-processes if necessary.
Zusätzlich ist es möglich, jederzeit weitere zu überwachende Ressourcen der Instanz DFW hinzuzufügen oder diese wegzunehmen. Die wird möglich, da die Ressourcen nicht kontinuierlich überwacht werden, sondern nur während bestimmten Zeitabschnitten. Die Ressourcen sind nur in einer Liste abgelegt, die veränderbar ist.In addition, it is possible to add or remove resources to be monitored from the instance DFW at any time. This is possible because the resources are not continuously monitored, but only during certain periods. The resources are only stored in a list that can be changed.
Weiterhin ist durch die Ausbildung der Detektoren mittels dynamischer Bibliotheken, die je nach Bedarf geladen und ausgeführt werden, ein hohes Maß an Flexibilität erreichbar. Die dynamischen Bibliotheken können jederzeit durch erweiterte Bibliotheken ersetzt werden, ohne den Reliant Management Service RMS oder das Detektor Framework DFW stoppen oder neu starten zu müssen. Falls sich die Bibliothek erweitert oder verändert lädt die Einrichtung KE die neue Variante. Erweiterungen, Fehlerbehebung und eine dynamische Rekonfiguration sind so jederzeit möglich.Furthermore, by designing the detectors using dynamic libraries that can be loaded and executed as required, a high degree of flexibility can be achieved. The dynamic libraries can be replaced by extended libraries at any time without having to stop or restart the Reliant Management Service RMS or the detector framework DFW. If the library expands or changes, the KE facility loads the new variant. Extensions, troubleshooting and dynamic reconfiguration are possible at any time.
Um ausreichend Rechenkapazität für die hoch verfügbare Applikation APL im Knoten C des Clustersystems vorzusehen, ist es notwendig, die Rechenzeit für die Überwachung der einzelnen Ressourcen auf dem Knoten C zu beschränken. Dennoch müssen die Ressourcen ausreichend oft überwacht werden, um einen fehlerfreien Betrieb der hoch verfügbaren Applikation sicher zu stellen. Figur 3 zeigt ein Ausführungsbeispiel der Instanz DFW, die diese beiden Voraussetzungen erfüllt.In order to provide sufficient computing capacity for the highly available application APL in node C of the cluster system, it is necessary to limit the computing time for monitoring the individual resources on node C. However, the resources must be monitored sufficiently often to ensure that the highly available application operates correctly. Figure 3 shows an embodiment of the instance DFW, which meets these two requirements.
In einer ersten Konfigurationsdatei Pl wird eine Zeitdauer in einem Zeitintervall bestimmt, in der die Instanz DFW Ressourcen überwachen darf. Das Zeitintervall und die Zeitdauer können von einem Benutzer vorgeben sein. Es kann sich dabei um einen prozentualen Wert, beispielsweise 15% der gesamten Rechenzeit oder um einen absoluten Wert, beispielsweise 100 ms in 1 Sekunde handeln. Weitere Voraussetzungen, beispielsweise die Hardware oder Softwareapplikationen betreffend können ü- ber die Konfigurationsdatei ebenfalls berücksichtigt werden.In a first configuration file P1, a time period is determined in a time interval in which the instance DFW may monitor resources. The time interval and the duration can be specified by a user. This can be a percentage value, for example 15% of the total computing time, or an absolute value, for example 100 ms in 1 second. Additional requirements, for example regarding hardware or software applications, can also be taken into account via the configuration file.
Gleichzeitig wird in einer zweiten Konfigurationsdatei P2 ein numerischer Prioritätswert für jede zu überwachende Ressource festgelegt und zugeordnet. Diese werden über die Schnittstelle Sl bzw. S2 der Kontrolleinrichtung der Instanz DFW mitgeteilt.At the same time, a numerical priority value for each resource to be monitored is defined and assigned in a second configuration file P2. These are communicated to the control device of the instance DFW via the interfaces S1 and S2.
Im Ausführungsbeispiel sind die Prioritätswerte in der Konfigurationsdatei P2 durch den Reliant Management Service RMS festgelegt. Beispielsweise ist es notwendig, der Ressource X der hoch verfügbaren Applikation APL eine höhere Priorität zuzuweisen als beispielsweise der Ressource für den Einbindungspunkt des Massenspeichers Ml. Diese Prioritäten werden von der Instanz DFW dazu benutzt, eine Reihenfolge der Überwachung festzulegen. Eine Ressource mit einer höheren Priorität soll öfters überwacht werden, als eine Ressource mit einer geringeren Priorität. Dazu werden die einzelnen zu überwachenden Ressourcen in einer Liste Ll gemäß ihrer Priorität abgelegt .In the exemplary embodiment, the priority values are defined in the configuration file P2 by the Reliant Management Service RMS. For example, it is necessary to give resource X of the highly available application APL a higher priority assign as, for example, the resource for the integration point of the mass storage Ml. These priorities are used by the DFW instance to determine an order of monitoring. A resource with a higher priority should be monitored more often than a resource with a lower priority. For this purpose, the individual resources to be monitored are stored in a list L1 according to their priority.
In der nachfolgenden Tabelle sind die Ressourcen für die hoch verfügbare Applikation APL gemäß Figur 4, ihre zugeordneten Prioritäten, die zu übergebenden Parameter und die Zeit, nach der eine Überprüfung erfolgen muß, gezeigt. Diese bestimmt daher einen Maximalwert, der nicht überschritten werden darf. Die letzte Spalte in der Tabelle zeigt die Zeitdauer, die der von der Kontrolleinrichtung KE gestartete Überwachungsdetektor für die Überprüfung der dazugehörigen Ressource benötigt.The following table shows the resources for the highly available application APL according to FIG. 4, their assigned priorities, the parameters to be transferred and the time after which a check must be carried out. This therefore determines a maximum value that must not be exceeded. The last column in the table shows the length of time that the monitoring detector started by the control device KE needs to check the associated resource.
Tabelle 1: Ressourcenliste mit weiteren Informationen Table 1: List of resources with further information
Die Kontrolleinrichtung KE überprüft nun die noch vorhandene Zeitdauer gemäß der Vorgabe in der Konfigurationsdatei Pl, die Prioritäten der Ressourcen, die seit der letzten Überprüfung vergangene Zeit für jede Ressource sowie die Zeitdauer und wählt daraus eine zu überprüfende Ressource aus.The control device KE now checks the remaining time according to the specification in the configuration file P1, the priorities of the resources, the time elapsed since the last check for each resource and the time period and selects a resource to be checked from this.
Der ausgewählten Ressource zugeordnete Detektor wird gemäß der Figur 1 mit einem noch freien Teilprozess bzw. Thread verknüpft, die Parameter übergeben und der Teilprozeß ausgeführt . Nach der Beendigung der Überwachung wird die Verknüpfung wieder gelöst, und der Teilprozeß steht für eine erneute Verbindung zu Verfügung. Die Ressource wird erneut der Liste Ll zugeführt, jedoch ändert sich die seit der letzten Überprüfung vergangene Zeit und eventuell die Priorität. Zudem ist es zweckmäßig, die Zeit, die der Überwachungsdetektor für die Ausführung benötigt hat, zu bestimmen, da sich Voraussetzungen geändert haben könnten und eine Überwachung nun länger oder kürzer dauert.According to FIG. 1, the detector assigned to the selected resource is linked to a still free subprocess or thread, the parameters are transferred and the subprocess is executed. After the monitoring has ended, the link is released again and the subprocess is available for a new connection. The resource becomes the list again Ll supplied, however, the time elapsed since the last check and possibly the priority changes. In addition, it is useful to determine the time that the monitoring detector required for the execution, since conditions could have changed and monitoring now takes longer or shorter.
Bei Ressourcen, die innerhalb des durch die Konfigurationsdatei Pl festgelegten Zeitfensters nicht überwacht bzw. überprüft werden konnten, erhöht die Kontrolleinrichtung KE oder die Überwachungseinrichtung DFW die Priorität. Dadurch wird verhindert, daß eine Überprüfung wartender Ressourcen aufgrund einer zu geringen Priorität niemals stattfindet.In the case of resources that could not be monitored or checked within the time window defined by the configuration file P1, the control device KE or the monitoring device DFW increases the priority. This prevents waiting resources from never being checked due to insufficient priority.
Figur 5 zeigt einen solchen zeitlichen Ablauf einer Überwachung. Die nachfolgende Tabelle 2 enthält die Ressourcen Rl bis R7, ihre jeweilige von dem Reliant Management System RMS an das Detektor Framework DFW übertragene ursprüngliche Priorität sowie die aus einer Konfigurationsdatei entnommenen Zeitdauern für die Ausführung. Tabelle 2 :FIG. 5 shows such a time sequence for monitoring. The following table 2 contains the resources Rl to R7, their respective original priority transferred from the Reliant Management System RMS to the detector framework DFW and the time taken for execution from a configuration file. Table 2:
Als Vorgabe für die Instanz DFW wurde dabei entschieden, eine Überprüfung der Ressourcen nur innerhalb von 450 ms in einem Zeitintervall von 3 s durchzuführen. Weiterhin ist vorgesehen, Ressourcen mit einer Priorität geringer als dem Wert 3 in dem Zeitintervall nicht zu überprüfen. Damit erhalten weitere Prozesse, die auf den Knoten ausgeführt werden, mehr Rechenkapazität . Nach einiger Zeit ergibt sich die in Figur 5 dargestellte Liste L3. Die Ressource Rl mit ihrer Priorität NP und ihrer Zeitdauer 10 ms wurde dabei jeweils nur einmal ausgeführt und läuft weiterhin im Hintergrund. Es handelt sich dabei um eine Ressource für die ein "non-polling" -Detektor vorgesehen ist. Dieser wird gestartet und wartet auf eine Mitteilung der mit ihm verknüpften Ressource. Eine Abfrage erfolgt im Gegensatz zu "polling" Detektoren nicht aktiv. Dadurch wird kaum Rechenzeit verbraucht. Sobald der Detektor Rl eine Mitteilung von der Ressource erhält, kann er durch das Detektor Framework DFW wieder beendet werden.As a requirement for the instance DFW, it was decided to check the resources only within 450 ms in a time interval of 3 s. Provision is also made not to check resources with a priority lower than the value 3 in the time interval. This means that additional processes that are executed on the nodes receive more computing capacity. After a while, the list L3 shown in FIG. 5 results. The resource R1 with its priority NP and its duration of 10 ms was only executed once and continues to run in the background. It is a resource for which a "non-polling" detector is provided. This is started and waits for a message from the linked resource. In contrast to "polling" detectors, polling is not active. This means that hardly any computing time is used. As soon as the detector R1 receives a message from the resource, it can be ended again by the detector framework DFW.
Die Ressource R2 besitzt die höchste Priorität 5 mit einer Dauer von 30 ms und wird mit dem dazugehörigen Überwachungs- detektor verknüpft und ausgeführt . Parallel dazu verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressourcen R3 und R4, die gleichfalls die Priorität 5 aufweisen, mit jeweils einem vorhandenen Teilprozeß aus seiner Liste, übergibt die Parametersätze der Ressourcen an die für die Überwachung vorgesehene dynamische Bibliothek übergeben und führt die Threads aus. Auch die Ressource R5 mit ihrer Priorität 3 kann innerhalb des Zeitintervalls überwacht werden. Die Ressource R6 mit der gleichen Priorität besitzt eine Ausführungsdauer von 100 ms und würde damit das vorgeschriebene Zeitintervall von 450 ms überschreiten.The resource R2 has the highest priority 5 with a duration of 30 ms and is linked and executed with the associated monitoring detector. At the same time, the control device KE of the detector framework DFW links resources R3 and R4, which also have priority 5, to an existing sub-process from its list, transfers the parameter sets of the resources to the dynamic library provided for monitoring, and manages the threads out. The resource R5 with its priority 3 can also be monitored within the time interval. The resource R6 with the same priority has an execution time of 100 ms and would therefore exceed the prescribed time interval of 450 ms.
Im Gegensatz dazu beträgt die Ausführungsdauer für den Überwachungsdetektor der Ressource R7 nur 50 ms. Eine Überwachung der Ressource R7 wird jedoch aufgrund der Vorgabe, nur Ressourcen mit Prioritäten größer 3 zu überprüfen, nicht durchgeführt. Somit werden während des Zeitintervalls von 3 Sekunden die Ressourcen Rl bis R5 aktiv überwacht. Die gesamte für die Überwachung benötigte Zeit ist die Summe aus den einzelnen Ausführungsdauern, insgesamt 400 ms. Wann innerhalb des Zeitintervalls die Überwachung durchgeführt wird, ist jedoch nicht festgelegt. Der Scheduler des Betriebssystems übernimmt diese Aufgabe.In contrast, the execution time for the monitoring detector of the resource R7 is only 50 ms. However, monitoring of resource R7 is not carried out due to the requirement that only resources with priorities greater than 3 be checked. Thus, the resources R1 to R5 are actively monitored during the time interval of 3 seconds. The total time required for monitoring is the sum of the individual execution times, a total of 400 ms. However, it is when the monitoring is carried out within the time interval not fixed. The operating system scheduler takes on this task.
Das Detektor Framework besitzt nur die Vorgabe, die 450 ms Zeitdauer in einem Zeitintervall von 3s durchschnittlich nicht zu überschreiten, oder nicht mehr als 15% der zur Verfügung stehenden Rechenzeit für Überwachungen zu benutzen.The detector framework only has the requirement not to exceed the 450 ms duration in a time interval of 3s on average, or to use no more than 15% of the available computing time for monitoring.
Nach 3 Sekunden beginnt das neue Zeitintervall, und die Instanz DFW startet erneut die Überwachungsdetektoren für die nun vorgesehenen Ressourcen. Die Ressource Rl wird weiterhin ausgeführt. Ein Teilprozeß mit dem Überwachungsdetektor für die Ressource R2 wird ebenfalls aufgrund der hohen Priorität 5 gestartet. Wegen der erfolgten Überprüfung der Ressource R3 im vorangegangenen Zeitintervall reduziert sich die Priorität der Ressource R3 in der Tabelle L4 wieder auf den ursprünglichen Wert 3. Wegen der ausreichend zur Verfügung stehenden Zeit verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressource erneut mit einem freien Thread und führt eine Überwachung durch.The new time interval begins after 3 seconds and the DFW instance starts the monitoring detectors again for the resources now provided. The resource R1 continues to run. A sub-process with the monitoring detector for resource R2 is also started due to high priority 5. Because resource R3 has been checked in the previous time interval, the priority of resource R3 in table L4 is reduced again to the original value 3. Because of the sufficient time available, the control device KE of the detector framework DFW links the resource again to a free thread and carries out surveillance.
Nach erfolgter Überwachung der Ressource R4 im vorangegangenen Zeitintervall erhält die Ressource R4 nun wieder den ursprünglichen Prioritätswert 1. Gleiches gilt für die Ressource R5. Da aufgrund der mangelnden Zeit im vorangegangenen Zeitintervall eine Überprüfung der Ressource R6 nicht möglich war, erhöht das Detektor Framework DFW die Priorität der Ressource R6 um einen Punkt auf den Wert 4. Auch hier wird jetzt eine Überwachung durchgeführt. Die gesamte Zeitdauer für die Überwachung beträgt nunmehr 170 ms.After monitoring of resource R4 in the previous time interval, resource R4 now receives the original priority value 1 again. The same applies to resource R5. Since a check of resource R6 was not possible due to the lack of time in the previous time interval, the detector framework DFW increases the priority of resource R6 by one point to the value 4. Monitoring is now also carried out here. The total time for monitoring is now 170 ms.
In diesem Ausführungsbeispiel wird pro Zeitintervall eine zu überwachende Ressource nur einmal gestartet. Es ist jedoch möglich, beispielsweise die Ressource R2 innerhalb des Zeitintervalls von 450 ms mehrmals zu überprüfen. Ferner ist in diesem Ausführungsbeispiel der Prioritätswert mit dem Zeitpunkt der letzten Ausführung verbunden. Die Priorität wird in jedem Zeitintervall erhöht, in dem die Ressource nicht überwacht wurde.In this exemplary embodiment, a resource to be monitored is started only once per time interval. However, it is possible, for example, to check resource R2 several times within the time interval of 450 ms. Furthermore, in this embodiment, the priority value is linked to the time of the last execution. The priority is in increased every time the resource was not monitored.
Die Ressourcen werden häufig durch Datenstrukturen innerhalb des Speichers des Clusters repräsentiert . Diese können von Überwachungsdetektoren, die durch die dynamischen Bibliotheken gebildet werden, gelesen werden. Dies ist besonders dann sinnvoll, wenn die Ressourcen verschiedene Arten der Überwachungen besitzen.The resources are often represented by data structures within the cluster's memory. These can be read by monitoring detectors which are formed by the dynamic libraries. This is particularly useful if the resources have different types of monitoring.
Durch die zweite Schnittstelle S2 zu einem Benutzerinterface ist es möglich, Kommandos zur sofortigen Überprüfung einer Ressource des Knotens abzusetzen. Weiterhin läßt sich dadurch auch die Konfigurationsdatei der Instanz DFW erneut einlesen, um so dynamische Änderungen zu implementieren.The second interface S2 to a user interface makes it possible to issue commands for the immediate checking of a resource of the node. Furthermore, the configuration file of the instance DFW can also be read in again in order to implement dynamic changes.
Mit der Einrichtung und dem erfindungsgemäßen Verfahren ist eine Möglichkeit geschaffen, eine Anzahl von Uberwachungsdetektoren nicht mehr unabhängig zu verwenden, sondern diese abhängig voneinander auszuführen. Dabei wird ein Uberwachungsdetektor einmal ausgeführt, wobei der Überwachungsdetektor selbst die zu überwachende Ressource mehrmals während seiner Ausführung überprüfen kann. So ist es möglich mehrere verschiedene Aspekte der Ressource zu überprüfen und eine abschließende Gesamtstatusmeldung zurückzugeben.The device and the method according to the invention create a possibility of no longer using a number of monitoring detectors independently, but instead of carrying them out as a function of one another. In this case, a monitoring detector is executed once, the monitoring detector itself being able to check the resource to be monitored several times during its execution. It is possible to check several different aspects of the resource and to return a final overall status message.
Weiterhin lassen sich Änderungen dynamisch einbringen, ohne die Hochverfugbarkeits-Software oder ein Uberwachungstool wie den RMS abschalten zu müssen. Das gemeinsam genutzte "Detektor Framework DFW" ermöglicht durch gemeinsam genutzte Funktionen eine besonders effektive und zeitsparende Programmierung. Die vorhandene Rechenzeit eines Knotens wird optimal ausgenutzt und auch dynamisch auf Veränderungen der verfügbaren Rechenzeit reagiert . BezugszeichenlisteFurthermore, changes can be introduced dynamically without having to switch off the high-availability software or a monitoring tool such as the RMS. The shared "Detector Framework DFW" enables a particularly effective and time-saving programming through shared functions. The existing computing time of a node is optimally used and it also reacts dynamically to changes in the available computing time. LIST OF REFERENCE NUMBERS
RMS : Reliant Management ServiceRMS: Reliant Management Service
Dl, D2, D3, D4: ÜberwachungsdetektorenDl, D2, D3, D4: monitoring detectors
APL: hoch verfügbare AnwendungAPL: highly available application
C, C2: KnotenC, C2: nodes
Nl : NetzwerkNl: network
Ml, M2 : MassenspeicherMl, M2: mass storage
Sl, S2 : SchnittstelleSl, S2: interface
CLI : BenutzerinterfaceCLI: user interface
DFW: Detektor Framework, Übewachungseinrich- tungDFW: Detector Framework, monitoring device
KE: KontrolleinrichtungKE: control device
KE1 : AuswahlmittelKE1: Selection means
KE2 : Mittel zur ZuordnungKE2: Means of assignment
KE3 : Mittel zur AusführungKE3: means of execution
Y.so, Z.so, X.so: dynamische BibliothekenY.so, Z.so, X.so: dynamic libraries
Rl, ..., Rll: zu Ressourcen zugeordnete DetektorenRl, ..., Rll: detectors assigned to resources
Ml, M2, X, DB: RessourcenMl, M2, X, DB: resources
TH1, ..., TH6: Teilprozesse, ThreadsTH1, ..., TH6: subprocesses, threads
T: Zeitdauer für ÜberwachungT: time for monitoring
Ll: Liste Pl, P2 : Konfigurationsdateien P: Priorität Ll, L3, L4: Liste ZI : Zeitdauer I: Zeit Ll: list P1, P2: configuration files P: priority Ll, L3, L4: list ZI: duration I: time

Claims

Patentansprüche : Claims:
1. Überwachungseinrichtung (DFW) in einem Knoten (C) eines Clustersystems zur Überwachung von zumindest zwei zu überwachenden Ressourcen (Ml, M2, DB, X) auf dem Knoten (C) des Clustersystems, wobei den zu überwachenden Ressourcen (Ml, M2, X, DB) eine dynamisch Priorität (P) zugeordenbar ist, umfassend:1. Monitoring device (DFW) in a node (C) of a cluster system for monitoring at least two resources (Ml, M2, DB, X) to be monitored on the node (C) of the cluster system, the resources (Ml, M2, X, DB) a dynamic priority (P) can be assigned, comprising:
- ein Auswahlmittel (KE1) zur Auswahl einer Ressource aus den zumindest zwei zu überwachenden Ressourcen (Ml, M2, X, DB) anhand der den zu überwachenden Ressourcen zugewiesenen Prioritäten (P) ;- A selection means (KE1) for selecting a resource from the at least two resources to be monitored (MI, M2, X, DB) on the basis of the priorities (P) assigned to the resources to be monitored;
- zumindest einen Überwachungsdetektor (Dl, D2, D3, D4) , der für die Überwachungsart der zu überwachenden Ressource (Ml, M2, X, DB) ausgebildet ist;- At least one monitoring detector (Dl, D2, D3, D4) which is designed for the type of monitoring of the resource to be monitored (M1, M2, X, DB);
- ein Mittel (KE2) für eine Zuordnung des Uberwachungsdetektors (Dl, D2, D3, D4) zu der zu überwachenden Ressource (Ml, M2, X, DB) ;- A means (KE2) for assigning the monitoring detector (Dl, D2, D3, D4) to the resource to be monitored (Ml, M2, X, DB);
- ein Mittel (KE3) zur Ausführung des Überwachungsdetektors (Dl, D2, D3, D4) , das derart ausgebildet ist, das nach einmaliger Überwachung der zu überwachenden Ressource durch den Überwachungsdetektor (Dl, D2, D3, D4) die Ausführung der Ü- berwachungsdetektor (Dl, D2, D3, D4) beendet wird.- A means (KE3) for executing the monitoring detector (Dl, D2, D3, D4), which is designed such that after the monitoring of the resource to be monitored once by the monitoring detector (Dl, D2, D3, D4) the execution of the monitoring Monitoring detector (Dl, D2, D3, D4) is ended.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Auswahlmittel (KE1) eine Liste (Ll) umfasst, in der die zumindest zwei zu überwachenden Ressourcen (Ml, M2, X, DB) in einer durch ihre zugeordnete Priorität festgelegten Reihenfolge abgelegt sind.2. Device according to claim 1, characterized in that the selection means (KE1) comprises a list (Ll) in which the at least two resources to be monitored (M1, M2, X, DB) are stored in an order determined by their assigned priority ,
3. Einrichtung nach einem der Ansprüche 1 bis 2, dadurch gekennzeichnet, daß der von dem Überwachungsdetektor (Dl, D2, D3, D4) zu überwachenden Ressource (Ml, M2, X, DB) eine mittlere Ausführungsdauer (T) zugeordnet ist, welche für eine Überwachung der Ressource (Ml, M2, X, DB) durch den Uberwachungsdetektor (Dl, D2, D3, D4) benötigt wird.3. Device according to one of claims 1 to 2, characterized in that the resource to be monitored by the monitoring detector (Dl, D2, D3, D4) (Ml, M2, X, DB) is assigned an average execution time (T), which for monitoring the Resource (M1, M2, X, DB) is required by the monitoring detector (D1, D2, D3, D4).
4. Einrichtung nach Anspruch 3 , dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zur Ermittlung der für die Überwachung benötigten mittlere Ausführungsdauer (T) ausgebildet ist.4. Device according to claim 3, characterized in that the monitoring device (DFW) is designed to determine the average execution time required for the monitoring (T).
5. Einrichtung nach einem der Ansprüche 3 bis 4, dadurch gekennzeichnet, daß eine festgelegte Zeitdauer (ZI) pro Zeitintervall (I) vorgesehen ist, wobei die mittlere Ausführungsdauer (T) des zumindest einen Uberwachungsdetektors (Dl, D2, D3, D4) geringer ist als die festgelegte Zeitdauer (ZI) .5. Device according to one of claims 3 to 4, characterized in that a fixed time period (ZI) per time interval (I) is provided, the mean execution time (T) of the at least one monitoring detector (Dl, D2, D3, D4) less is as the specified time period (ZI).
6. Einrichtung nach einem der Ansprüche 1 bis 5 , dadurch gekennzeichnet, daß der zumindest eine Überwachungsdetektor (Dl, D2, D3, D4) als selbständig ausführbares Programm ausgebildet ist.6. Device according to one of claims 1 to 5, characterized in that the at least one monitoring detector (Dl, D2, D3, D4) is designed as an independently executable program.
7. Einrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der zumindest eine Uberwachungsdetektor (Dl, D2, D3, D4) als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek (X.so, Z.so) ausgebildet ist.7. Device according to one of claims 1 to 5, characterized in that the at least one monitoring detector (Dl, D2, D3, D4) is designed as a function of a dynamic library or as a dynamic library (X.so, Z.so).
8. Einrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zumindest einen auf dem Knoten (C) ausgeführten, von der zu überwachenden Ressource unabhängigen Teilprozess (TH1) aufweist, wobei das Mittel (KE3) zur Ausführung für eine Verknüpfung des der zu überwachenden Ressource benötigten Überwachungsdetektors (Dl) mit dem Teilprozess (TH1) ausgebildet ist.8. Device according to one of claims 1 to 7, characterized in that the monitoring device (DFW) has at least one on the node (C) executed from the resource to be monitored sub-process (TH1), the means (KE3) for execution is designed to link the monitoring detector (DI) required for the resource to be monitored with the sub-process (TH1).
9. Einrichtung nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine erste Schnittstelle9. Device according to one of claims 1 to 8, characterized in that the monitoring device (DFW) has a first interface
(51) aufweist, welche mit dem zumindest einen Überwachungsdetektor (Dl, D2, D3, D4) gekoppelt ist und die zur Abgabe von Statusmitteilungen des Überwachungsdetektors (Dl, D2, D3, D4) ausgebildet ist.(51), which is coupled to the at least one monitoring detector (Dl, D2, D3, D4) and which is designed to emit status messages from the monitoring detector (Dl, D2, D3, D4).
10. Einrichtung nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine zweite Schnittstelle (52) aufweist, die für einen Empfang von Benutzerkommandos ausgebildet ist.10. Device according to one of claims 1 to 9, characterized in that the monitoring device (DFW) has a second interface (52) which is designed for receiving user commands.
11. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die zu überwachende Ressource (Ml, M2) ein Einbindungsknoten innerhalb eines Dateisystems des Knotens (C) des Cluster- system ist.11. Device according to one of claims 1 to 10, characterized in that the resource to be monitored (M1, M2) is an integration node within a file system of the node (C) of the cluster system.
12. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die zu überwachende Ressource (X) ein Programm oder eine Datenbank (DB) oder eine Netzwerkverbindung (Nl) ist.12. Device according to one of claims 1 to 10, characterized in that the resource to be monitored (X) is a program or a database (DB) or a network connection (Nl).
13. Einrichtung nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zum Empfang von zu überwachenden Ressourcen über eine schnittsteile (Sl, S2) ausgebildet ist.13. Device according to one of claims 1 to 12, characterized in that the monitoring device (DFW) is designed to receive resources to be monitored via an interface (Sl, S2).
14. Einrichtung nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) ein selbständiger Prozess ist.14. Device according to one of claims 1 to 13, characterized in that the monitoring device (DFW) is an independent process.
15. Verfahren zur Überwachung von zumindest zwei Ressourcen (Ml, M2) auf einem Knoten (C) eines Clustersystems, wobei den zumindest zwei Ressourcen eine dynamische Priorität (P) zugeordenbar ist, indem a) eine der zumindest zwei zu überwachenden Ressourcen (Ml, M2) anhand der zugeordneten Priorität (P) ausgewählt wird; b) ein für die Überwachung benötigter Überwachungsdetektor (Dl, D2) für die zu überwachende Ressource (Ml, M2) ausgewählt wird; c) der ausgewählte Überwachungsdetektor (Dl, D2) der zu überwachenden Ressource zugeordnet wird; d) der Überwachungsdetektor ausgeführt und nach einer einmaligen Überwachung der zu überwachenden Ressource beendet wird; e) das Ergebnis der durch den Uberwachungsdetektor ausgeführten Überwachung gemeldet wird.15. A method for monitoring at least two resources (M1, M2) on a node (C) of a cluster system, the A dynamic priority (P) can be assigned to at least two resources by a) selecting one of the at least two resources (M1, M2) to be monitored on the basis of the assigned priority (P); b) a monitoring detector (Dl, D2) required for the monitoring is selected for the resource (Ml, M2) to be monitored; c) the selected monitoring detector (D1, D2) is assigned to the resource to be monitored; d) the monitoring detector is executed and terminated after a single monitoring of the resource to be monitored; e) the result of the monitoring carried out by the monitoring detector is reported.
16. Verfahren nach Ansprch 15; dadurch gekennzeichnet, daß in Schritt c) die Zuordnung durch eine Parameterübergabe der zu überwachenden Ressource an den Überwachungsdetektor erfolgt .16. The method according to claim 15; characterized in that in step c) the assignment is made by a parameter transfer of the resource to be monitored to the monitoring detector.
17. Verfahren nach einem der Ansprüche 15 bis 16, dadurch gekennzeichnet, daß die Priorität (P) durch einen numerischen Wert gebildet wird.17. The method according to any one of claims 15 to 16, characterized in that the priority (P) is formed by a numerical value.
18. Verfahren nach einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, daß eine erste Zeitdauer (ZI) in einem ZeitIntervall (I) für die Überwachung der zu überwachenden Ressourcen festgelegt wird, wobei zumindest die Schritte c) bis e) nur durchgeführt wer-" den, wenn die festgelegte Zeitdauer (ZI) im Mittel nicht ü- berschritten wird.18. The method according to any one of claims 15 to 17, characterized in that a first time period (ZI) is defined in a time interval (I) for the monitoring of the resources to be monitored, at least steps c) to e) only being carried out " if the specified time period (ZI) is not exceeded on average.
19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die erste Zeitdauer (ZI) durch einen prozentualen Wert einer zur Verfügung stehenden Rechenkapazität bestimmt wird. 19. The method according to claim 18, characterized in that the first time period (ZI) is determined by a percentage value of an available computing capacity.
20. Verfahren nach einem der Ansprüche 15 bis 19, dadurch gekennzeichnet, daß für die Auswahl eine Liste (Ll) erzeugt wird, in der die zu überwachenden Ressourcen (Ml, M2) in der Reihenfolge ihrer Prioritäten (P) abgelegt sind.20. The method according to any one of claims 15 to 19, characterized in that for the selection a list (Ll) is generated in which the resources to be monitored (M1, M2) are stored in the order of their priorities (P).
21. Verfahren nach einem der Ansprüche 18 bis 20, dadurch gekennzeichnet, daß die Priorität (P) einer zu überwachenden Ressource erhöht wird, wenn keine Überwachung der zu überwachende Ressource in der ersten Zeitdauer (ZI) erfolgt.21. The method according to any one of claims 18 to 20, characterized in that the priority (P) of a resource to be monitored is increased if there is no monitoring of the resource to be monitored in the first period (ZI).
22. Verfahren nach einem der Ansprüche 15 bis 21, dadurch gekennzeichnet, daß eine Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch den Überwachungsdetektor der zu ü- berwachenden Ressource zugeordnet wird.22. The method according to any one of claims 15 to 21, characterized in that an execution time (T) for monitoring a resource to be monitored is assigned by the monitoring detector to the resource to be monitored.
23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, daß die Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch die Ausführung des für die Überwachung benötigten Uberwachungsdetektors ermittelt wird.23. The method according to claim 22, characterized in that the execution time (T) for monitoring a resource to be monitored is determined by the execution of the monitoring detector required for the monitoring.
24. Verfahren nach einem der Ansprüche 15 bis 23, dadurch gekennzeichnet, daß zumindest ein leerlaufender Teilprozess (TH1) gestartet wird, der in Schritt c) mit dem Überwachungsdetektor verknüpft wird und nach Beendigung von Schritt d) wieder von dem Uberwachungsdetektor gelöst wird.24. The method according to any one of claims 15 to 23, characterized in that at least one idle sub-process (TH1) is started, which is linked to the monitoring detector in step c) and is released again by the monitoring detector after step d) has ended.
25. Verfahren nach einem der Ansprüche 15 bis 24, dadurch gekennzeichnet, daß daß eine Schnittstelle (Sl) vorgesehen ist, durch das ein Benutzer eine Überwachung einer Ressource durch einen Überwachungsdetektor durchführt . 25. The method according to any one of claims 15 to 24, characterized in that an interface (Sl) is provided through which a user carries out a monitoring of a resource by a monitoring detector.
26. Verfahren nach einem der Ansprüche 15 bis 25, dadurch gekennzeichnet, daß der Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet wird. 26. The method according to any one of claims 15 to 25, characterized in that the monitoring detector is designed as a function of a dynamic library or as a dynamic library.
EP04802700A 2003-12-22 2004-11-10 Device and method for controlling and commanding monitoring detectors in a node of a cluster system Withdrawn EP1697846A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10360535A DE10360535B4 (en) 2003-12-22 2003-12-22 Device and method for control and monitoring of monitoring detectors in a node of a cluster system
PCT/DE2004/002483 WO2005062172A2 (en) 2003-12-22 2004-11-10 Device and method for controlling and commanding monitoring detectors in a node of a cluster system

Publications (1)

Publication Number Publication Date
EP1697846A2 true EP1697846A2 (en) 2006-09-06

Family

ID=34683765

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04802700A Withdrawn EP1697846A2 (en) 2003-12-22 2004-11-10 Device and method for controlling and commanding monitoring detectors in a node of a cluster system

Country Status (5)

Country Link
US (1) US8051173B2 (en)
EP (1) EP1697846A2 (en)
JP (1) JP4584268B2 (en)
DE (1) DE10360535B4 (en)
WO (1) WO2005062172A2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0516554D0 (en) * 2005-08-11 2005-09-21 Ibm Method, apparatus and computer program for enabling monitoring of a resource
US20110002231A1 (en) * 2009-04-21 2011-01-06 David Philip Hole System and method for adjusting monitoring of timeslots during data transmission
US8812631B2 (en) * 2011-05-11 2014-08-19 International Business Machines Corporation Method and arrangement for operating a computer cluster
US10873501B2 (en) * 2016-12-09 2020-12-22 Vmware, Inc. Methods, systems and apparatus to propagate node configuration changes to services in a distributed environment

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3932735A (en) * 1970-08-24 1976-01-13 Westinghouse Electric Corporation Method of controlling supply of power
US5542047A (en) * 1991-04-23 1996-07-30 Texas Instruments Incorporated Distributed network monitoring system for monitoring node and link status
EP0596591B1 (en) * 1992-10-09 1998-04-15 Sun Microsystems, Inc. Method and apparatus for a real-time data collection and display system
US5537542A (en) * 1994-04-04 1996-07-16 International Business Machines Corporation Apparatus and method for managing a server workload according to client performance goals in a client/server data processing system
US5717858A (en) * 1994-10-17 1998-02-10 Motorola, Inc. Method and structure for prioritizing performance monitoring cells in an asynchronous transfer mode (ATM) system
JPH08263325A (en) * 1995-03-20 1996-10-11 Fujitsu Ltd Server processor and intra-server fault detection device and method
WO1997010548A1 (en) * 1995-09-11 1997-03-20 Mcsb Technology Corporation Performance assistant file system (pafs) method and apparatus
FI955200A (en) * 1995-10-31 1997-05-01 Nokia Mobile Phones Ltd Transmission protocol for half-duplex traffic
WO1999061986A1 (en) * 1998-05-27 1999-12-02 Mitsubishi Denki Kabushiki Kaisha Peripheral equipment for programmable controller and method for monitoring the same
EP1131730B1 (en) * 1998-10-20 2003-08-27 Ajay Deo Method and apparatus for providing real-time call processing services in an intelligent network
US6434613B1 (en) 1999-02-23 2002-08-13 International Business Machines Corporation System and method for identifying latent computer system bottlenecks and for making recommendations for improving computer system performance
WO2000060872A1 (en) * 1999-03-31 2000-10-12 Matsushita Electric Industrial Co., Ltd. Method and device for seamless-decoding video stream including streams having different frame rates
US6484088B1 (en) * 1999-05-04 2002-11-19 Ssi Technologies, Inc. Fuel optimization system with improved fuel level sensor
JP3309834B2 (en) * 1999-07-16 2002-07-29 日本電気株式会社 ATM switching device and cell buffer usage rate monitoring method
JP2001331333A (en) * 2000-05-18 2001-11-30 Hitachi Ltd Computer system and method for controlling computer system
US6666676B2 (en) * 2000-08-17 2003-12-23 Comercial Acros Whirlpool S.A. De C.V. Programmable burner for gas stoves
US6662929B1 (en) * 2000-11-17 2003-12-16 Lockhead Martin Corporation Parcel singulation software control logic
US6854074B2 (en) * 2000-12-01 2005-02-08 Internetseer.Com Corp. Method of remotely monitoring an internet web site
US6763359B2 (en) * 2001-06-06 2004-07-13 International Business Machines Corporation Learning from empirical results in query optimization
CA2474879C (en) * 2001-07-03 2013-04-09 Imagine Broadband Limited Method and system for monitoring service performance over a virtual private network connection by simulating end user activity
JP2003177945A (en) * 2001-12-12 2003-06-27 Hitachi Ltd Computer management method, and its implementation system and its processing program
JP3766332B2 (en) * 2002-02-12 2006-04-12 アライドテレシスホールディングス株式会社 Management device and program
US7194000B2 (en) * 2002-06-21 2007-03-20 Telefonaktiebolaget L.M. Ericsson Methods and systems for provision of streaming data services in an internet protocol network
CN1333314C (en) * 2002-12-11 2007-08-22 雄图资讯股份有限公司 Software execution control system and software execution control program
US7451201B2 (en) * 2003-09-30 2008-11-11 International Business Machines Corporation Policy driven autonomic computing-specifying relationships
US7461376B2 (en) * 2003-11-18 2008-12-02 Unisys Corporation Dynamic resource management system and method for multiprocessor systems
US20060085530A1 (en) * 2004-10-15 2006-04-20 Emc Corporation Method and apparatus for configuring, monitoring and/or managing resource groups using web services
GB0426125D0 (en) * 2004-11-27 2004-12-29 Ibm The connection of an application to a resource manager selected from a plurality of resource managers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005062172A2 *

Also Published As

Publication number Publication date
US20070011315A1 (en) 2007-01-11
JP4584268B2 (en) 2010-11-17
WO2005062172A3 (en) 2006-03-30
JP2007515727A (en) 2007-06-14
WO2005062172A2 (en) 2005-07-07
DE10360535A1 (en) 2005-07-21
DE10360535B4 (en) 2006-01-12
US8051173B2 (en) 2011-11-01

Similar Documents

Publication Publication Date Title
EP1901191B1 (en) Method and system for administration of licences
DE60004886T2 (en) SYSTEM AND METHOD FOR PROVIDING A COLLECTION OF REUSABLE THREADS FOR TREATING BUFFERED TASKS
DE60220287T2 (en) SYSTEM AND METHOD FOR MONITORING SOFTWARE SERVICE SOFTWARE APPLICATIONS
EP0992903B1 (en) Method for implementing cooperative multitasking in a message transmission network and network element therefor
EP0807883B1 (en) Communications system with means for exchanging software processes
DE69727633T2 (en) User level support method and device for synchronizing multiple events
WO2006050967A1 (en) Method for distributing computing time in a computer system
DE10059796A1 (en) Activities processor for processing business data in component based environment, determines life time behavior of activity instance based on parameters of descriptor
EP0952520A2 (en) Device for fault tolerant execution of programs
DE2911677B2 (en) Method and circuit arrangement for monitoring and preventing blockages in data processing systems with multiple processors
DE102009042128A1 (en) Method and system for using temporary exclusive locks for parallel resource access
WO2005073852A1 (en) Method for operating an arrangement of several computers in case of a computer failure
DE102009004726A1 (en) Systems and methods for tracking instruction pointers and data access
DE102007041345B4 (en) X-Core Image Reconstruction System (IRS) with x-parallel Recon Pipelines
EP1634176B1 (en) Cluster arrangement
DE10360535B4 (en) Device and method for control and monitoring of monitoring detectors in a node of a cluster system
EP1514180A2 (en) Limitation of the response time of a software process
EP2615511A1 (en) Method for synchronous execution of programmes in a redundant automation system
EP1536328B1 (en) Data processing system with automatable management and method for automated management of a data processing system
DE60110318T2 (en) Method and device for monitoring and controlling electronic devices
EP2229627A1 (en) Method for the management of tasks in a decentralized data network
DE102013108306A1 (en) Method and system for the synchronization of data
DE10123822A1 (en) Management of the service connection between a client process having a single thread archive and a server
EP2178267B1 (en) Method for providing services in a decentralised data network
DE2048119C3 (en) Arrangement and method for controlling data transmission between external devices and a data processing system

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

PUAK Availability of information related to the publication of the international search report

Free format text: ORIGINAL CODE: 0009015

17P Request for examination filed

Effective date: 20060531

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LU MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL HR LT LV MK YU

DAX Request for extension of the european patent (deleted)
RBV Designated contracting states (corrected)

Designated state(s): DE FR GB NL

17Q First examination report despatched

Effective date: 20090827

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FUJITSU TECHNOLOGY SOLUTIONS INTELLECTUAL PROPERTY

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAJ Information related to disapproval of communication of intention to grant by the applicant or resumption of examination proceedings by the epo deleted

Free format text: ORIGINAL CODE: EPIDOSDIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

INTG Intention to grant announced

Effective date: 20131125

18W Application withdrawn

Effective date: 20131119

INTC Intention to grant announced (deleted)