EP1697846A2

EP1697846A2 - Einrichtung und verfahren zur steuerung und kontrolle von überwachungsdetektoren in einem knoten eines clustersystems

Info

Publication number: EP1697846A2
Application number: EP04802700A
Authority: EP
Inventors: Klaus Hartung
Original assignee: Fujitsu Technology Solutions GmbH
Current assignee: Fujitsu Technology Solutions Intellectual Property GmbH
Priority date: 2003-12-22
Filing date: 2004-11-10
Publication date: 2006-09-06
Also published as: US20070011315A1; JP2007515727A; JP4584268B2; US8051173B2; DE10360535B4; DE10360535A1; WO2005062172A3; WO2005062172A2

Abstract

Es ist eine Überwachungseinrichtung (DFW) und ein Verfahren zur Überwachung von zumindest zwei Ressourcen (M1, M2) auf einem Knoten (C) eines Clustersystems vorgesehen. Den zumindest zwei Ressourcen ist jeweils eine Priorität (P) zugeordnet. In der Überwachungseinrichtung (DFW) und dem Verfahren wird eine der zumindest zwei zu überwachenden Ressourcen (M1, M2) anhand der zugeordneten Priorität (P) und ein für die Überwachung benötigter Überwachungsdetektor (D1, D2) für die Ressource ausgewählt. Weiterhin wird der Überwachungsdetektor ausgeführt und die Überwachung der Ressource mit dem Überwachungsdetektor einmal durchgeführt. Das Ergebnis der durch den Überwachungsdetektor ausgeführten Überwachung wird gemeldet. Anhand der Auswahl durch die zugeordnete Priorität (P) und die einmalige Überwachung wird Rechenzeit auf dem Knoten (C) eingespart. Sinnvollerweise ist der Überwachungsdetektor eine dynamische Bibliothek.

Description

Beschreibung

Einrichtung und Verfahren zur Steuerung und Kontrolle von Ü- berwachungsdetektoren in einem Knoten eines Clustersyste s

Die Erfindung betrifft eine Einrichtung in einem Knoten eines Clustersystems zur Kontrolle und zur Steuerung von Überwachungsdetektoren. Die Erfindung betrifft weiterhin ein Verfahren zur Steuerung und zur Kontrolle von Überwachungsdetek- toren für zumindest zwei zu überwachende Ressourcen in einem Clustersystem.

Clustersysteme mit mehreren Knoten innerhalb des Clusters, die aus einzelnen Rechnern gebildet werden, werden oftmals für Software verwendet, die hoch verfügbar sein soll. Dazu besitzt das Clustersystem eine Kontroll- und Steuerungssoftware, die auch Reliant Managment Service RMS genannt wird und die aHif dem Cluster laufende hoch verfügbare Software überwacht.» Die hoch verfügbare Software selbst läuft dabei auf einem Knoten eines Clusters oder ist auf verschiedene Knoten verteilt. Im übrigen kann auch die Kontrollsoftware RMS auf verschiedene Knoten, also dezentralisiert verteilt sein.

Ist die fehlerfreie Ausführung der hoch verfügbaren Software oder eines Teils davon auf einem Knoten des Clusters nicht mehr gewährleistet, so beendet die KontrollSoftware RMS die Applikation oder den entsprechenden Teil davon und startet diese auf einem anderen Knoten neu. Die Überwachung der hoch verfügbaren Applikation bzw. eines Teils der hoch verfügbaren Applikation erfolgt durch den RM-Service gesteuerte sogenannte Überwachungsdetektoren. Diese überwachen jeweils einen spezifischen Teil der Applikation, der als Ressource bezeichnet wird und melden den Status der Ressource zurück an die KontrollSoftware RMS.

Ein Beispiel dafür ist in Figur 6 zu sehen. Dieses zeigt einen Knoten Nl, der Teil eines Clustersystems ist. Der Knoten Nl enthält als Kontrollsoftware den Reliant Managment Service RMS. Weiterhin wird auf dem Knoten Nl die hoch verfügbare Applikation APL ausgeführt, die ihrerseits über die Verbindung Cl mit einem Speichermanagementsystem FS Daten austauscht. Zur Überwachung der Applikation APL startet die Kontrollsoftware RMS die einzelnen Überwachungsdetektoren Dl, D2 bzw. D3. Jeder dieser Detektoren ist eigens für die Überwachung einer bestimmten Ressource der hoch verfügbaren Software APL ausgebildet. Beispielsweise überwacht der Detektor D3 die Kommunikationsverbindung Cl zwischen der Applikation APL und dem Dateimanagementsystem FS. Ein anderer Detektor D2 überprüft die hoch verfügbare Applikation APL anhand kontinuierlicher Abfragen, ob diese weiterhin ausgeführt wird und Rückmeldungen absetzt. Der dritte Detektor Dl überpüft beispielsweise verfügbaren temporären Speicher, der für die hochverfügbare Applikation APL benötigt wird.

Anhand der durchgegebenen Statusmeldungen der einzelnen Überwachungsdetektoren trifft die Kontrolle RMS geeignete Maßnahmen bei einem Ausfall einzelner durch die Überwachungsdetektoren überwachter Ressourcen oder sonstigen auftretenden Problemen. So kann sie beispielsweise die hochverfügbare Software beenden und auf einem zweiten nicht dargestellten Knoten neu starten.

Die einzelnen Überwachungsdetektoren werden von der Kontroll- Software RMS unabhängig voneinander gestartet. Dies führt jedoch zu einer hohen Systembelastung des Knotens, da die einzelnen Detektoren entsprechend Speicherplatz bzw. Rechenkapazität verbrauchen. Im schlimmsten Fall können durch eine ungünstige Konfiguration oder sehr viele überwachte Ressourcen innerhalb eines Knotens die Überwachungsdetektoren den größten Teil der verfügbaren Rechenkapazität verbrauchen. Für die eigentliche Anwendung steht dann zu wenig zur Verfügung. Zudem empfängt die KontrollSoftware Statusmeldungen von Überwachungsdetektoren, deren eigentliche Ausführung und Überwachung der Ressource zum gegenwärtigen Zeitpunkt nicht notwen- dig ist. Die Verarbeitung aller zurückgelieferten Statusmeldungen erhöht ebenfalls die Rechenzeit und belastet die Kontrollsoftware unnötig.

Aufgabe der Erfindung ist es daher, eine Einrichtung in einem Knoten eines Clustersystems vorzusehen, mit der die Systemlast für die Überwachung auf einsatabhängige Anforderungen angepasst wird, dennoch aber eine ausreichende Überwachung der Ressourcen sichergestellt ist. Weiterhin ist es Aufgabe, ein Verfahren zur Steuerung und Kontrolle von Überwachungsde- tektoren vorzusehen, welches effizient bei gleichzeitig geringer Systemlast arbeitet .

Diese Aufgaben werden mit den Gegenständen der unabhängigen Patentansprüche gelöst .

Es ist eine Überwachungseinrichtung in einem Knoten eines Clustersystems zur Überwachung von zumindest zwei zu überwachenden Ressourcen auf dem Knoten des Clustersystems vorgesehen. Den zu überwachenden Ressourcen ist dabei jeweils eine Priorität zuordenbar, die ein Maß für die Wichtigkeit der zu überwachenden Ressource darstellt. Die Einrichtung umfaßt ein Mittel zur Auswahl einer Ressource aus den zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugewiesenen Prioritäten. Weiterhin umfaßt die Einrichtung zumindest einen Überwachungsdetektor, welches für die Überwachungsart der zu überwachenden Ressource ausgebildet ist. Letztlich enthält die Einrichtung ein Mittel zur Zuordnung des Überwachungsdetektors zu der zu überwachenden Ressource, sowie ein Mittel zur Ausführung des Überwachungs- detektors. Dieses ist so ausgebildet, daß nach einer einmlai- gen Überwachung der Ressource durch den ausgeführten Uberwachungsdetektor die Ausführung von dem Mittel beendet bzw. gestoppt wird.

In dieser Ausführung bildet die Einrichtung eine übergeordnete Instanz, denen die einzelnen zu überwachenden Ressourcen und insbesondere die für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren untergeordnet sind. Insbesondere ist die Ausführung der einzelnen für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren nicht mehr unabhängig voneinander, sondern wird durch die Einrichtung zusammengefaßt gesteuert. Dadurch ist es möglich, mittels der Einrichtung immer nur die Ressourcen zu überwachen, deren Ü- berwachung zum aktuellen Zeitpunkt notwendig ist. Weiterhin wird durch die Einrichtung auf dem Knoten zusätzlich Rechenzeit eingespart, da der für die zu überwachende Ressource benötigte Überwachungsdetektor erst nach einer Auswahl ausgeführt wird.

Die Überwachung erfolgt dabei dergestalt, daß die Ausführung des Überwachungsdetektors nach der erfolgten Überwachung wieder gestoppt wird. Die Überwachung ist somit nur einmalig. Die Einrichtung ist natürlich so ausgebildet, daß sie bei Bedarf die zu überwachende Ressource auch öfters auswählen und den dazu benötigten Überwachungsdetektor mehrmals ausführt. Dabei wird der Überwachungsdetektor jedoch nicht kontinuierlich betrieben, sondern jeweils nur solange ausgeführt, bis er eine Statusmeldung hinsichtlich der zu überwachenden Ressource zurückgegeben hat. Dabei kann allerdings der Überwachungsdetektor selbst für eine mehrmalige Überwachung ausgebildet sein. Dies ist gerade bei streuenden Messwerten des Überwachungsdetektors vorteilhaft. Erfindungsgemäß führt der Überwachungsdetektor mehrere Überwachungen durch und liefert dann eine gesamte Statusmeldung zurück, die die einzelnen Messwerte repräsentiert. Die Ausführung des Detektor wird nach der Übermittlung der Statusmeldung beendet.

Das Verfahren zur Überwachung von zumindest zwei Ressourcen auf einem Knoten eines Clustersystems, wobei den zumindest zwei Ressourcen jeweils eine Priorität zugeordnet ist, umfaßt die Schritte: a) Auswahl einer der zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugeordneten Priorität; b) Auswahl eines für die Überwachung benötigten Überwachungs- detektors für die zu überwachende Ressource; c) Zuweisen von Ressourcenparameter an den Uberwachungsdetektor; d) Starten bzw. Ausführen des Überwachungsdetektors und einmalige Ausführung einer Überwachung der Ressource durch den Überwachungsdetektor; e) Melden des Ergebnisses der durch den Überwachungsdetektor ausgeführten Überwachung .

Auch bei dem erfindungsgemäßen Verfahren wird eine Überwachung einer zu überwachenden Ressource nicht kontinuierlich durchgeführt, sondern lediglich durch eine einmalige Ausführung des der zu überwachenden Ressource zugeordneten Überwa- chungsdetektors . Der Uberwachungsdetektor selbst kann natürlich die zu überwachende Ressource in vielfältiger Weise und insbesondere auch mehrmals in kurzen Zeitabständen überwachen, bevor er ein Ergebnis zurückliefert. Jedoch wird erfindungsgemäß pro Ausführung des Überwachungsdetektors nur einmal ein Ergebnis oder eine Statusmeldung zurürckgeliefert .

Die zu einem Zeitpunkt zu überwachende Ressource wird anhand der zugeordneten Priorität ausgewählt . Dadurch läßt sich auf dem Knoten eines Clustersystems Rechenzeit einsparen, da der Uberwachungsdetektor nur dann ausgeführt wird, wenn dies anhand der zugeordneten Priorität erforderlich ist. Insbesondere werden die Ressourcen und die Überwachungsdetektoren zusammengefaßt und als ganzes betrachtet. Eine Unabhängigkeit einzelner Detektoren ist somit nicht mehr gegeben.

Die zu überwachenden Ressourcen und die dafür benötigten Ü- berwachungsdetektoren sind vielfältiger Natur. In einer Ausgestaltung der Erfindung wird eine zu überwachende Ressource durch einen Einbindungspunkt innerhalb eines DateiSystems des Knotens des Clustersystems gebildet. Der Überwachungsdetektor ist somit für eine Überprüfung ausgebildet, ob der zu überwachende Einbindungspunkt weiterhin gültig ist. In einer vorteilhaften Ausgestaltung ist der Einbindungspunkt durch ein zweites Dateisystem auf einem Massenspeicher gegeben, welcher in das Dateisystem des Knotens des Clustersystems eingebunden wird. Es wird allerdings immer anhand der ausgewählten Ressource der korrekte, für die Überwachung der Ressource benötigte Überwachungsdetektor ausgewählt.

In einer anderen Ausgestaltung ist der Überwachungsdetektor zur Überwachung eines verfügbaren Festplatten- oder sonstigen Massenspeichers ausgebildet.

Wieder in einer anderen Ausgestaltung der Erfindung ist die zu überwachende Ressource ein ausgeführtes Programm und der dazu benötigte Uberwachungsdetektor ein Detektor, der überprüft, ob das ausgeführte Programm weiterhin aktiv ist. Eine weitere zu überwachende Ressource ist eine Netzwerkverbindung mit einem weiteren Knoten des Clustersystems. Der dafür benötigte Überwachungsdetektor ist ein Detektor, der den Status der Netzwerkverbindung überprüft. Wieder eine andere Ressource sind eine zu überwachende Datenbank, die Systemlast des Knotens, die Prozessorlast eines ausgeführten Programms oder der vorhandene freie Speicher innerhalb des Knotens des Clustersystems. Für jede Art der verschiedenen Ressourcen ist ein Uberwachungsdetektor vorgesehen, der eine bestimmte Überwachung vornimmt. Für eine Ressource kann es mehrere verschiedene Überwachungsarten und damit auch verschiedene Überwachungsdetektoren geben.

In einer Weiterbildung der Einrichtung umfaßt das Mittel zur Auswahl eine Liste, in der die zumindest zwei zu überwachenden Ressourcen in einer durch ihre Priorität festgelegten Reihenfolge abgelegt sind. Dadurch ist eine besonders einfache Auswahl der zu überwachenden Ressource möglich, indem die Einrichtung anhand der Liste die zu überwachenden Ressourcen bestimmt und die Überwachungsdetektoren ausführt. Die Liste kann besonders einfach durch Hinzufügen weitere Ressourcen oder Entfernen von Ressourcen aus der Liste geändert werden. Die Einrichtung ist dabei so ausgebildet, daß sie anhand einer aus der Liste ausgewählten Ressource automatisch den dazugehörigen für die Überwachung der Ressource benötigten Ü- berwachungsdetektor vorsieht .

Dabei ist es besonders sinnvoll, wenn die Prioritäten der zu überwachenden Ressourcen durch einen numerischen Wert gebildet werden. Dadurch wird insgesamt eine hohe Flexibilität erreicht und es ist möglich, dynamisch auf Veränderungen zu reagieren, indem einfach die Priorität der zu überwachenden Ressource geändert wird.

In einer weiteren vorteilhaften Ausgestaltung der Erfindung ist eine festgelegte Zeitdauer pro Zeitintervall vorgesehen. Die Einrichtung ist so ausgebildet, daß die mittlere Zeit für eine Ausführung eines Überwachungsdetektors geringer ist als die festgelegte Zeitdauer. Zweckmäßigerweise ist die Einrichtung für eine Auswahl einer Ressource und für eine einmalige Ausführung des zugeordneten Überwachungsdetektors ausgebildet, bis die gesamte Ausführungsdauer aller einmalig ausgeführten Überwachungsdetektoren die festgelegte Zeitdauer erreicht . Durch diese festgelegte Zeitdauer wird daher pro Zeitintervall ein Zeitfenster vorgegeben, in dem die Einrichtung Ressourcen überwachen kann. Mit anderen Worten läßt sich somit die maximal von der Einrichtung benötigte Rechenkapazität, bzw. Rechenzeit innerhalb eine Zeitintervalls festlegen. Dies ist möglich, da die Überwachungsdetektoren durch die Einrichtung gestartet und kontrolliert werden und folglich nicht mehr unabhängig voneinander sind.

Eine Weiterbildung der Erfindung ist dadurch gekennzeichnet, daß eine zweite Zeitdauer, die für eine Überwachung der Ressource benötigt wird, der zu überwachenden Ressource zugeordnet ist. Dadurch ist es der Einrichtung möglich, eine genaue Abschätzung für die für die Überwachung benötigte Zeitdauer vorzunehmen. Es ist zweckmäßig, wenn die Einrichtung zur Ermittlung der für die Überwachung benötigten Zeitdauer ausgebildet ist. Zweckmäßigerweise erfolgt dies durch eine Zeitmessung an dem Überwachungsdetektor.

In einer anderen Weiterbildung der Erfindung weist die Einrichtung eine erste Schnittstelle auf, die zur Abgabe von Statusmitteilungen des Überwachungsdetektors nach einmaliger Ausführung des Überwachungsdetektors ausgebildet ist. Dadurch läßt sich insbesondere einer übergeordneten Kontroll- und Steuereinrichtung wichtige Statusmitteilungen melden. In einer anderen Weiterbildung der Erfindung umfaßt die Einrichtung eine zweite Schnittstelle, die für einen Empfang von Benutzerkommandos ausgebildet ist. Dadurch ist es auch benut- zerseitig möglich, jederzeit eine Ressource durch einen Uberwachungsdetektor zu überwachen. Dies ist insbesondere dann sinnvoll, wenn eine aktuelle Statusmeldung von der zu überwachenden Ressource benötigt wird. In einer Weiterbildung dieser Einrichtung läßt sich die erste bzw. die zweite Schnittstelle für einen Empfang zu überwachender Ressourcen ausbilden. Somit lassen sich der Einrichtung neue zu überwachende Ressourcen mitteilen oder von der Einrichtung überwachte Ressourcen wieder aus der Überwachung entfernen.

Es ist zweckmäßig, die Einrichtung als selbständigen Prozeß innerhalb des Knotens des Clustersystems auszubilden. Die Einrichtung bildet somit ein selbständiges Programm. Die Ü- berwachungsdetektoren bilden während ihrer Ausführung Teil- prozesse der Einrichtung.

In einer anderen Weiterbildung der Erfindung ist der Uberwachungsdetektor als selbständig ausführbares Programm ausgebildet. Dieses wird von der Einrichtung nach Auswahl der zu überwachenden Ressource einmalig ausgeführt. In einer besonders vorteilhaften Weiterbildung der Erfindung weist die Einrichtung zumindest einen auf dem Knoten des Clustersystems ausgeführten, jedoch von der zu überwachenden Ressource unabhängigen, leerlaufenden Teilprozeß auf. Das Mittel zur Ausführung des Überwachungsdetektors ist dabei für eine Verknüpfung des Uberwachungsdetektors der zu überwachenden ausgewählten Ressource mit dem unabhängigen Teilprozeß ausgebildet. Diese Weiterbildung ist besonders vorteilhaft, wenn der Überwachungsdetektor als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet ist.

Dadurch verknüpft die Einrichtung die Funktion der dynamischen Bibliothek oder die dynamische Bibliothek zum Ausführungszeitpunkt mit dem leerlaufenden Teilprozeß, startet diesen und führt so eine Überwachung der zu überwachenden Ressource durch. Nach der Ausführung wird die Verknüpfung wieder gelöst . Eine solche Ausbildung ist besonders geschwindig- keits- und recheneffizient. Durch die Ausbildung der Überwachungsdetektoren als Funktionen in dynamischen Bibliotheken oder als dynamische Bibliotheken sind in besonders einfacher und flexibler Weise Verbesserungen, Erweiterungen, oder Fehlerkorrekturen möglich. Auch eine Portierung auf andere Clusterbetriebssysteme wird damit vereinfacht.

In einer Weiterbildung des Verfahrens wird eine erste Zeitdauer in einem Zeitintervall für die Überwachung der zu überwachenden Ressourcen festgelegt. Überwachungsdetektoren bzw. die damit verknüpften Teilprozesse werden nur so lange ausgeführt, solange die festgelegte Zeitdauer nicht überschritten wird. Dabei kann das Verfahren so lange wiederholt werden, bis die festgelegte Zeitdauer erreicht wird. Durch die erste Zeitdauer in dem Zeitintervall ist somit eine maximale Rechenkapazität, die für die Überwachung benötigt wird, definiert . Es ist zweckmäßig, zumindest eine der zwei zu überwachenden Ressourcen aus einer Liste auszuwählen, in der die zu überwachenden Ressourcen in der Reihenfolge ihrer Prioritäten abgelegt sind. In einer Weiterbildung wird die Liste so lange abgearbeitet, bis die festgelegte Zeitdauer erreicht wird.

Besonders zweckmäßig ist es, die Priorität einer zu überwachenden Ressource zu erhöhen, wenn keine Überwachung der Ressource durch den Uberwachungsdetektor in der ersten Zeitdauer in dem Zeitintervall erfolgt ist. Dadurch wird verhindert, daß Ressourcen aufgrund mangelnder Überwachungszeit bzw. geringer Priorität nie durch einen zugeordneten Überwachungsdetektor überwacht werden.

Es ist zweckmäßig, einer zu überwachenden Ressource eine zweite Zeitdauer zuzuordnen, welche die Dauer für eine Überwachung durch den Überwachungsdetektor angibt. Alternativ läßt sich die zweite Zeitdauer auch dem Überwachungsdetektor zuordnen.

In einer Weiterbildung des Verfahrens wird die zweite Zeitdauer für eine Überwachung durch die Ausführung des ausgewählten Überwachungsdetektors ermittelt. Dies ist insbesondere dann sinnvoll, wenn die benötigte Zeitdauer nicht von vornherein bekannt ist oder sich während des laufenden Betriebs Parameter ändern, die sich auf die Zeitdauer für die Überwachung auswirken.

In einer Ausgestaltung des Verfahrens wird ein leerlaufender Teilprozeß gestartet, der keine Rechenzeit verbraucht und auch als schlafender Prozeß bezeichnet wird. Nach der Auswahl eines Uberwachungsdetektors wird der Überwachungsdetektor mit dem leerlaufenden Teilprozeß verknüpft und dann ausgeführt . Es ist zweckmäßig, den Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek auszubilden. Eine Verknüpfung des Uberwachungsdetektors mit dem leerlaufenden Teilprozeß ist dadurch besonders schnell und effizient. Nach der Meldung des Ergebnisses durch den Ü- berwachungsdetektor wird die Verknüpfung wieder gelöst und der Leerlaufprozeß wieder schlafen gelegt . Der Leerlaufprozeß benötigt dabei keine Rechenzeit auf dem Knoten. Alternativ kann der leerlaufende Teilprozeß hintereinander mit verschiedenen Uberwachungsdetektoren verknüpft werden. Die Ausbildung über einen leerlaufenden Teilprozeß ist besonders flexibel.

Weitere vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.

Im Folgenden wird die Erfindung, deren einzelnen Ausgestaltungen und Erweiterungen sich beliebig kombinieren lassen, unter Bezugnahme auf die Zeichnungen im Detail erläutert.

Es zeigen:

Figur 1 ein Ausführungsbeispiel der erfindungsgemäßen Einrichtung,

Figur 2 ein Schema des Mittels zur Ausführung in der Einrichtung,

Figur 3 einen schematischen Ablauf,

Figur 4 Beispiele für Ressourcen innerhalb des Clustersystems,

Figur 5 einen zeitlichen Ablauf über die zu überwachenden Ressourcen,

Figur β eine bekannte Einrichtung mit Uberwachungsdetektoren.

Zunächst wird anhand der Figur 4 die Umgebung erläutert, in der die erfindungsgemäße Überwachungseinrichtung eingesetzt wird. Figur 4 zeigt zwei Knoten C und C2 in einem Cluster- system. Diese sind über eine Netzwerkverbindung Nl miteinander verbunden. Auf dem Knoten C wird eine hoch verfügbare Applikation APL ausgeführt, welche mehrere zu überwachende Ressourcen enthält. Weiterhin wird auf dem Knoten C der Reliant Management Service RMS ausgeführt. Die ist eine Kontroll- und SteuerSoftware, die die Hochverfügbarkeit der Applikation APL überwachen soll. Bei Bedarf trifft sie weitere Maßnahmen, um die Hochverfügbarkeit sicher zu stellen. Dazu ist es notwendig, die einzelnen Ressourcen der hoch verfügbaren Applikation APL zu überwachen.

Im Einzelnen sind die Ressourcen zwei Einbindungsknoten innerhalb des Dateisystems des Knotens C. Diese weisen auf zwei externe Massenspeicher Ml und M2, die in diesem Ausführungsbeispiel als einfache Festplattenspeicher ausgebildet sind. Der Festplattenspeicher Ml ist im Dateisystem des Knotens C in den Einbindungspunkt "/usr/opt" eingehängt, der Festplattenspeicher M2 in den Einbindungspunkt "/usr/share" . Dabei ist es notwendig zu überprüfen, ob die in diesen Punkten im Dateisystem eingehängten Massenspeicher Ml und M2 funktionstüchtig sind und Daten von ihnen gelesen bzw. auf sie geschrieben werden können.

Weiterhin greift die hoch verfügbare Applikation APL auf die Datenbank DB zu, die auf dem Knoten C2 ausgeführt wird. Dazu ist es notwendig, die Verbindung zwischen der Applikation APL auf dem Knoten C und der Datenbank DB auf dem Knoten C2 zu überprüfen. Letztlich wird auch der Fenstermanager X auf dem Knoten C für die graphische Benutzeroberfläche der hoch verfügbaren Applikation APL überwacht.

Erfindungsgemäß wird für die Überwachung all dieser Ressourcen eine übergeordnete Überwachungseinrichtung DFW vorgesehen, die mit dem Reliant Management Service RMS verbunden ist. Die Überwachungseinrichtung DFW wird auch als Instanz oder Detector Framework bezeichnet und ist als eigenständiger Prozeß auf dem Knoten C ausgebildet. Teil dieser Einrichtung sind die Detektoren Dl, D2, D3 und D4. Diese sind für die Ü- berwachung der Ressourcen zuständig und werden von der Über- wachungseinrichtung DFW gesteuert. Die Ressourcen, die dabei überwacht werden sollen, wurden der Instanz DFW von der Reliant Management Service RMS übergeben, bzw. als Parameter mitgeteilt.

Figur 2 zeigt ein detaillierteres Blockbild der erfindungsgemäßen Überwachungseinrichtung DFW. Die Überwachung der einzelnen Ressourcen geschieht wie in Figur 4 durch die individuellen Detektoren Dl, D2, D3 und D4, die allerdings von einer Kontrolleinrichtung KE gesteuert werden. Diese ist ebenso wie die Detektoren Teil der Überwachungseinrichtung und besitzt weitere logische Blöcke die im Detail später erläutert werden.

Die übergeordnete Einrichtung DFW ist verantwortlich für die Kommunikation mit dem Reliant Management Service RMS über die Schnittstelle Sl . Dazu enthält sie eine Kontrolleinrichtung KE, die von dem System RMS Informationen über die zu überwachenden Ressourcen empfängt. Über die Schnittstelle S2 werden zudem Benutzerdaten bzw. Benutzerkommandos an die Kontrolleinrichtung KE übergeben. Die Kontrolleinrichtung KE steuert und kontrolliert die einzelnen individuellen Uberwachungsdetektoren Dl, D2, D3 bzw. D4.

Die individuellen Detektoren sind durch dynamische Bibliotheken Y.so, Z.so und X.so implementiert, die zur Laufzeit gestartet werden. Die dynamische Bibliothek Y.so enthält dabei alle Funktionen, die für eine Überwachung eines Einbindungs- punktes innerhalb des Dateisystems notwendig sind, ie zu erkennen, sind die beiden Überwachungsdetektoren Dl und D2 durch die gleiche Bibliothek Y.so implementiert. Dabei stellen die Überwachungsdetektoren sogar die gleiche Funktion in der Bibliothek Y.so dar. Von der Kontrolleinrichtung KE wird bei einer Überwachung des Einbindungspunktes der Massenspeicher Ml bzw. M2 die Funktion zur Überwachung in der dynamischen Bibliothek Y.so zusammen mit einem Satz von Parametern ausgeführt. Die beiden Uberwachungsdetektoren Dl und D2 enthalten zur Laufzeit somit zwar die gleiche Funktion, jedoch unterschiedliche, der Funktion übergebene Parameter. Die Parameter für den Detektor Dl enthalten die Information für die Überwachung des Speichers Ml, die Parameter, die für den Detektor D2 verwendet wurden, enthalten die notwendigen Informationen für die Überprüfung des Massenspeichers M2.

Im Ausführungsbeispiel ist der übergebene Satz von Parametern der Einbindungspunkt im Dateisystem für die Speicher Ml und M2 und beispielsweise die Art des zu überprüfenden Zugriff- rechts .

Für eine Überwachung der Datenbankverbindung DB zwischen dem Knoten C und dem Knoten C2 in der Figur 4 enthält die dynamische Bibliothek Z.so alle notwendigen Funktionen. Wird eine Überprüfung erforderlich, so startet die Kontrolleinrichtung KE die Funktion aus der dynamischen Bibliothek Z.so. Die letzte dynamische Bibliothek X enthält die Funktionen für den Überwachungsdetektor D4, der den Status des Fenstermanagers für die graphische Benutzeroberfläche überprüft.

Die Instanz DFW stellt ferner einen Satz von Funktionen bereit, die gemeinsam für alle individuellen Detektoren verwendbar sind. Beispielsweise ist dies die Schnittstelle zu dem Reliant Management System RMS für die Statusmeldungen, die für alle Detektoren gleich sind. Gleichzeitig wird die Ausführung der individuellen Überwachungsdetektoren Dl bis D4 durch die Kontrolleinrichtung KE gesteuert und kontrolliert . Somit sind die Überwachungsdetektoren in das Detektor Framework DFW vollständig eingebettet und nicht mehr unabhängig von dieser. Figur 1 erläutert im Detail den aufbau der Kontrolleinrichtung KE, die ihrerseits verschiedene Einrichtungen oder Mittel enthält. Die Figur zeigt eine erste Liste mit den zu ü- berwachenden Ressourcen Ml, DB und X, deren Art der Überwachung der Kontrolleinrichtung KE bekannt ist. Die Ressourcen wurden dem Detektor Framework DFW von dem Relian Managment Service mit dem Auftrag zur Überwachung mitgeteilt. Die Liste enthält alle notwendigen für die Überwachung notwendigen Informationen.

Es ist nun ein Auswahleinrichtung KE1 vorgesehen, die aus der Liste der zu überwachenden Ressource eine, im Ausführungsbei- spiel die Ressource DB auswählt. Die Auswahl erfolgt anhand einer Priorität. Zusätzlich können aber auch weitere Parameter beispielsweise die bislang verbrauchte Rechenzeit oder die für die Überwachung benötigte Zeit berücksichtigt werden. Das Auswahlmittel KE übergibt die zu überwachende Resource an eine Zuordnungseinheit, die auf der Basis der Resource den für die Überwachungsart geeigneten Detektor auswählt und diesem die notwendigen Parameter übergibt. Nach einer Zuordnung ergibt sich eine nun überwachungsbereite Ressource RS1, RS2 oder RS3, welche wie dargestellt in einer Liste abgelegt sind.

Weiterhin enthält die Instanz DFW eine Anzahl von Teilprozessen TH1 bis THβ, die sogenannten Threads, welche leerlaufend sind. Es sind demnach schlafende Teilprozesse, die keinerlei Rechenzeit benötigen, jedoch ohne weiteres mit Funktionen aus dynamischen Bibliotheken verknüpft werden können, um somit eine Überwachung einer Ressource durchzuführen. Die Threads haben den Vorteil, daß keine zusätzliche Rechenzeit für ihren Start aufgewandt werden muß, sondern daß sie einmal gestartet auf ihre Ausführung warten.

Um die Ressource R3 zu überprüfen, verknüpft die Einrichtung KE3 den freien Teilprozeß TH2 mit den für die Überwachung benötigten Funktionen einer dynamischen Bibliothek, übergibt die für die Ressource R3 abhängigen und durch KE2 zugeordneten Parameter und führt den Teilprozeß TH2 aus. Dadurch erfolgt die Überwachung der Ressource durch den zugeordneten Detektor. Das Starten, Ausführen, Stoppen und die Synchronisation erfolgt in der Ausführungsform durch den POSIX (Por- table Operating System Interface for UNIX) Standard für UNIX- Betriebssysteme. Nach der Ausführung der Überwachungsfunktion löst die Einrichtung KE3 die Verknüpfung wieder, und legt den Thread TH2 erneut schlafen. Der Thread kann dann wieder mit einer weiteren Ressource verknüpft werden. Eine von dem Überwachungsdetektor gelieferte Ergebnismeldung wird von der Instanz DFW nach der Ausführung als Statusmeldung an den Reliant Management Service RMS zurückgegeben. Der Zugriff auf gemeinsam benutzte Daten zwischen der Einrichtung KE und den Teilprozessen TH wird über Semphore sequentialisiert .

Durch die Ausführung mit einzelnen Teilprozessen oder Threads ist es möglich, mehrere Überwachungen gleichzeitig ausführen zu können. Die Auswahl der Ressource, die Verknüpfung der Threads mit den Uberwachungsdetektoren, das Starten und Stoppen jedes einzelnen Threads wird dabei durch die Kontrolleinrichtung KE gesteuert. Die Anzahl der parallel ausgeführten Überwachungen verändert sich über die Zeit. Auch die Anzahl der Teilprozesse TH1 bis TH6 ändert sich über die Zeit, da die Instanz DFW bei Bedarf zusätzliche Teilprozesse starten oder diese wieder beenden kann.

Zusätzlich ist es möglich, jederzeit weitere zu überwachende Ressourcen der Instanz DFW hinzuzufügen oder diese wegzunehmen. Die wird möglich, da die Ressourcen nicht kontinuierlich überwacht werden, sondern nur während bestimmten Zeitabschnitten. Die Ressourcen sind nur in einer Liste abgelegt, die veränderbar ist.

Weiterhin ist durch die Ausbildung der Detektoren mittels dynamischer Bibliotheken, die je nach Bedarf geladen und ausgeführt werden, ein hohes Maß an Flexibilität erreichbar. Die dynamischen Bibliotheken können jederzeit durch erweiterte Bibliotheken ersetzt werden, ohne den Reliant Management Service RMS oder das Detektor Framework DFW stoppen oder neu starten zu müssen. Falls sich die Bibliothek erweitert oder verändert lädt die Einrichtung KE die neue Variante. Erweiterungen, Fehlerbehebung und eine dynamische Rekonfiguration sind so jederzeit möglich.

Um ausreichend Rechenkapazität für die hoch verfügbare Applikation APL im Knoten C des Clustersystems vorzusehen, ist es notwendig, die Rechenzeit für die Überwachung der einzelnen Ressourcen auf dem Knoten C zu beschränken. Dennoch müssen die Ressourcen ausreichend oft überwacht werden, um einen fehlerfreien Betrieb der hoch verfügbaren Applikation sicher zu stellen. Figur 3 zeigt ein Ausführungsbeispiel der Instanz DFW, die diese beiden Voraussetzungen erfüllt.

In einer ersten Konfigurationsdatei Pl wird eine Zeitdauer in einem Zeitintervall bestimmt, in der die Instanz DFW Ressourcen überwachen darf. Das Zeitintervall und die Zeitdauer können von einem Benutzer vorgeben sein. Es kann sich dabei um einen prozentualen Wert, beispielsweise 15% der gesamten Rechenzeit oder um einen absoluten Wert, beispielsweise 100 ms in 1 Sekunde handeln. Weitere Voraussetzungen, beispielsweise die Hardware oder Softwareapplikationen betreffend können ü- ber die Konfigurationsdatei ebenfalls berücksichtigt werden.

Gleichzeitig wird in einer zweiten Konfigurationsdatei P2 ein numerischer Prioritätswert für jede zu überwachende Ressource festgelegt und zugeordnet. Diese werden über die Schnittstelle Sl bzw. S2 der Kontrolleinrichtung der Instanz DFW mitgeteilt.

Im Ausführungsbeispiel sind die Prioritätswerte in der Konfigurationsdatei P2 durch den Reliant Management Service RMS festgelegt. Beispielsweise ist es notwendig, der Ressource X der hoch verfügbaren Applikation APL eine höhere Priorität zuzuweisen als beispielsweise der Ressource für den Einbindungspunkt des Massenspeichers Ml. Diese Prioritäten werden von der Instanz DFW dazu benutzt, eine Reihenfolge der Überwachung festzulegen. Eine Ressource mit einer höheren Priorität soll öfters überwacht werden, als eine Ressource mit einer geringeren Priorität. Dazu werden die einzelnen zu überwachenden Ressourcen in einer Liste Ll gemäß ihrer Priorität abgelegt .

In der nachfolgenden Tabelle sind die Ressourcen für die hoch verfügbare Applikation APL gemäß Figur 4, ihre zugeordneten Prioritäten, die zu übergebenden Parameter und die Zeit, nach der eine Überprüfung erfolgen muß, gezeigt. Diese bestimmt daher einen Maximalwert, der nicht überschritten werden darf. Die letzte Spalte in der Tabelle zeigt die Zeitdauer, die der von der Kontrolleinrichtung KE gestartete Überwachungsdetektor für die Überprüfung der dazugehörigen Ressource benötigt.

Tabelle 1: Ressourcenliste mit weiteren Informationen

Die Kontrolleinrichtung KE überprüft nun die noch vorhandene Zeitdauer gemäß der Vorgabe in der Konfigurationsdatei Pl, die Prioritäten der Ressourcen, die seit der letzten Überprüfung vergangene Zeit für jede Ressource sowie die Zeitdauer und wählt daraus eine zu überprüfende Ressource aus.

Der ausgewählten Ressource zugeordnete Detektor wird gemäß der Figur 1 mit einem noch freien Teilprozess bzw. Thread verknüpft, die Parameter übergeben und der Teilprozeß ausgeführt . Nach der Beendigung der Überwachung wird die Verknüpfung wieder gelöst, und der Teilprozeß steht für eine erneute Verbindung zu Verfügung. Die Ressource wird erneut der Liste Ll zugeführt, jedoch ändert sich die seit der letzten Überprüfung vergangene Zeit und eventuell die Priorität. Zudem ist es zweckmäßig, die Zeit, die der Überwachungsdetektor für die Ausführung benötigt hat, zu bestimmen, da sich Voraussetzungen geändert haben könnten und eine Überwachung nun länger oder kürzer dauert.

Bei Ressourcen, die innerhalb des durch die Konfigurationsdatei Pl festgelegten Zeitfensters nicht überwacht bzw. überprüft werden konnten, erhöht die Kontrolleinrichtung KE oder die Überwachungseinrichtung DFW die Priorität. Dadurch wird verhindert, daß eine Überprüfung wartender Ressourcen aufgrund einer zu geringen Priorität niemals stattfindet.

Figur 5 zeigt einen solchen zeitlichen Ablauf einer Überwachung. Die nachfolgende Tabelle 2 enthält die Ressourcen Rl bis R7, ihre jeweilige von dem Reliant Management System RMS an das Detektor Framework DFW übertragene ursprüngliche Priorität sowie die aus einer Konfigurationsdatei entnommenen Zeitdauern für die Ausführung. Tabelle 2 :

Als Vorgabe für die Instanz DFW wurde dabei entschieden, eine Überprüfung der Ressourcen nur innerhalb von 450 ms in einem Zeitintervall von 3 s durchzuführen. Weiterhin ist vorgesehen, Ressourcen mit einer Priorität geringer als dem Wert 3 in dem Zeitintervall nicht zu überprüfen. Damit erhalten weitere Prozesse, die auf den Knoten ausgeführt werden, mehr Rechenkapazität . Nach einiger Zeit ergibt sich die in Figur 5 dargestellte Liste L3. Die Ressource Rl mit ihrer Priorität NP und ihrer Zeitdauer 10 ms wurde dabei jeweils nur einmal ausgeführt und läuft weiterhin im Hintergrund. Es handelt sich dabei um eine Ressource für die ein "non-polling" -Detektor vorgesehen ist. Dieser wird gestartet und wartet auf eine Mitteilung der mit ihm verknüpften Ressource. Eine Abfrage erfolgt im Gegensatz zu "polling" Detektoren nicht aktiv. Dadurch wird kaum Rechenzeit verbraucht. Sobald der Detektor Rl eine Mitteilung von der Ressource erhält, kann er durch das Detektor Framework DFW wieder beendet werden.

Die Ressource R2 besitzt die höchste Priorität 5 mit einer Dauer von 30 ms und wird mit dem dazugehörigen Überwachungs- detektor verknüpft und ausgeführt . Parallel dazu verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressourcen R3 und R4, die gleichfalls die Priorität 5 aufweisen, mit jeweils einem vorhandenen Teilprozeß aus seiner Liste, übergibt die Parametersätze der Ressourcen an die für die Überwachung vorgesehene dynamische Bibliothek übergeben und führt die Threads aus. Auch die Ressource R5 mit ihrer Priorität 3 kann innerhalb des Zeitintervalls überwacht werden. Die Ressource R6 mit der gleichen Priorität besitzt eine Ausführungsdauer von 100 ms und würde damit das vorgeschriebene Zeitintervall von 450 ms überschreiten.

Im Gegensatz dazu beträgt die Ausführungsdauer für den Überwachungsdetektor der Ressource R7 nur 50 ms. Eine Überwachung der Ressource R7 wird jedoch aufgrund der Vorgabe, nur Ressourcen mit Prioritäten größer 3 zu überprüfen, nicht durchgeführt. Somit werden während des Zeitintervalls von 3 Sekunden die Ressourcen Rl bis R5 aktiv überwacht. Die gesamte für die Überwachung benötigte Zeit ist die Summe aus den einzelnen Ausführungsdauern, insgesamt 400 ms. Wann innerhalb des Zeitintervalls die Überwachung durchgeführt wird, ist jedoch nicht festgelegt. Der Scheduler des Betriebssystems übernimmt diese Aufgabe.

Das Detektor Framework besitzt nur die Vorgabe, die 450 ms Zeitdauer in einem Zeitintervall von 3s durchschnittlich nicht zu überschreiten, oder nicht mehr als 15% der zur Verfügung stehenden Rechenzeit für Überwachungen zu benutzen.

Nach 3 Sekunden beginnt das neue Zeitintervall, und die Instanz DFW startet erneut die Überwachungsdetektoren für die nun vorgesehenen Ressourcen. Die Ressource Rl wird weiterhin ausgeführt. Ein Teilprozeß mit dem Überwachungsdetektor für die Ressource R2 wird ebenfalls aufgrund der hohen Priorität 5 gestartet. Wegen der erfolgten Überprüfung der Ressource R3 im vorangegangenen Zeitintervall reduziert sich die Priorität der Ressource R3 in der Tabelle L4 wieder auf den ursprünglichen Wert 3. Wegen der ausreichend zur Verfügung stehenden Zeit verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressource erneut mit einem freien Thread und führt eine Überwachung durch.

Nach erfolgter Überwachung der Ressource R4 im vorangegangenen Zeitintervall erhält die Ressource R4 nun wieder den ursprünglichen Prioritätswert 1. Gleiches gilt für die Ressource R5. Da aufgrund der mangelnden Zeit im vorangegangenen Zeitintervall eine Überprüfung der Ressource R6 nicht möglich war, erhöht das Detektor Framework DFW die Priorität der Ressource R6 um einen Punkt auf den Wert 4. Auch hier wird jetzt eine Überwachung durchgeführt. Die gesamte Zeitdauer für die Überwachung beträgt nunmehr 170 ms.

In diesem Ausführungsbeispiel wird pro Zeitintervall eine zu überwachende Ressource nur einmal gestartet. Es ist jedoch möglich, beispielsweise die Ressource R2 innerhalb des Zeitintervalls von 450 ms mehrmals zu überprüfen. Ferner ist in diesem Ausführungsbeispiel der Prioritätswert mit dem Zeitpunkt der letzten Ausführung verbunden. Die Priorität wird in jedem Zeitintervall erhöht, in dem die Ressource nicht überwacht wurde.

Die Ressourcen werden häufig durch Datenstrukturen innerhalb des Speichers des Clusters repräsentiert . Diese können von Überwachungsdetektoren, die durch die dynamischen Bibliotheken gebildet werden, gelesen werden. Dies ist besonders dann sinnvoll, wenn die Ressourcen verschiedene Arten der Überwachungen besitzen.

Durch die zweite Schnittstelle S2 zu einem Benutzerinterface ist es möglich, Kommandos zur sofortigen Überprüfung einer Ressource des Knotens abzusetzen. Weiterhin läßt sich dadurch auch die Konfigurationsdatei der Instanz DFW erneut einlesen, um so dynamische Änderungen zu implementieren.

Mit der Einrichtung und dem erfindungsgemäßen Verfahren ist eine Möglichkeit geschaffen, eine Anzahl von Uberwachungsdetektoren nicht mehr unabhängig zu verwenden, sondern diese abhängig voneinander auszuführen. Dabei wird ein Uberwachungsdetektor einmal ausgeführt, wobei der Überwachungsdetektor selbst die zu überwachende Ressource mehrmals während seiner Ausführung überprüfen kann. So ist es möglich mehrere verschiedene Aspekte der Ressource zu überprüfen und eine abschließende Gesamtstatusmeldung zurückzugeben.

Weiterhin lassen sich Änderungen dynamisch einbringen, ohne die Hochverfugbarkeits-Software oder ein Uberwachungstool wie den RMS abschalten zu müssen. Das gemeinsam genutzte "Detektor Framework DFW" ermöglicht durch gemeinsam genutzte Funktionen eine besonders effektive und zeitsparende Programmierung. Die vorhandene Rechenzeit eines Knotens wird optimal ausgenutzt und auch dynamisch auf Veränderungen der verfügbaren Rechenzeit reagiert . Bezugszeichenliste

RMS : Reliant Management Service

Dl, D2, D3, D4: Überwachungsdetektoren

APL: hoch verfügbare Anwendung

C, C2: Knoten

Nl : Netzwerk

Ml, M2 : Massenspeicher

Sl, S2 : Schnittstelle

CLI : Benutzerinterface

DFW: Detektor Framework, Übewachungseinrich- tung

KE: Kontrolleinrichtung

KE1 : Auswahlmittel

KE2 : Mittel zur Zuordnung

KE3 : Mittel zur Ausführung

Y.so, Z.so, X.so: dynamische Bibliotheken

Rl, ..., Rll: zu Ressourcen zugeordnete Detektoren

Ml, M2, X, DB: Ressourcen

TH1, ..., TH6: Teilprozesse, Threads

T: Zeitdauer für Überwachung

Ll: Liste Pl, P2 : Konfigurationsdateien P: Priorität Ll, L3, L4: Liste ZI : Zeitdauer I: Zeit

Claims

Patentansprüche :

1. Überwachungseinrichtung (DFW) in einem Knoten (C) eines Clustersystems zur Überwachung von zumindest zwei zu überwachenden Ressourcen (Ml, M2, DB, X) auf dem Knoten (C) des Clustersystems, wobei den zu überwachenden Ressourcen (Ml, M2, X, DB) eine dynamisch Priorität (P) zugeordenbar ist, umfassend:

- ein Auswahlmittel (KE1) zur Auswahl einer Ressource aus den zumindest zwei zu überwachenden Ressourcen (Ml, M2, X, DB) anhand der den zu überwachenden Ressourcen zugewiesenen Prioritäten (P) ;

- zumindest einen Überwachungsdetektor (Dl, D2, D3, D4) , der für die Überwachungsart der zu überwachenden Ressource (Ml, M2, X, DB) ausgebildet ist;

- ein Mittel (KE2) für eine Zuordnung des Uberwachungsdetektors (Dl, D2, D3, D4) zu der zu überwachenden Ressource (Ml, M2, X, DB) ;

- ein Mittel (KE3) zur Ausführung des Überwachungsdetektors (Dl, D2, D3, D4) , das derart ausgebildet ist, das nach einmaliger Überwachung der zu überwachenden Ressource durch den Überwachungsdetektor (Dl, D2, D3, D4) die Ausführung der Ü- berwachungsdetektor (Dl, D2, D3, D4) beendet wird.

2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Auswahlmittel (KE1) eine Liste (Ll) umfasst, in der die zumindest zwei zu überwachenden Ressourcen (Ml, M2, X, DB) in einer durch ihre zugeordnete Priorität festgelegten Reihenfolge abgelegt sind.

3. Einrichtung nach einem der Ansprüche 1 bis 2, dadurch gekennzeichnet, daß der von dem Überwachungsdetektor (Dl, D2, D3, D4) zu überwachenden Ressource (Ml, M2, X, DB) eine mittlere Ausführungsdauer (T) zugeordnet ist, welche für eine Überwachung der Ressource (Ml, M2, X, DB) durch den Uberwachungsdetektor (Dl, D2, D3, D4) benötigt wird.

4. Einrichtung nach Anspruch 3 , dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zur Ermittlung der für die Überwachung benötigten mittlere Ausführungsdauer (T) ausgebildet ist.

5. Einrichtung nach einem der Ansprüche 3 bis 4, dadurch gekennzeichnet, daß eine festgelegte Zeitdauer (ZI) pro Zeitintervall (I) vorgesehen ist, wobei die mittlere Ausführungsdauer (T) des zumindest einen Uberwachungsdetektors (Dl, D2, D3, D4) geringer ist als die festgelegte Zeitdauer (ZI) .

6. Einrichtung nach einem der Ansprüche 1 bis 5 , dadurch gekennzeichnet, daß der zumindest eine Überwachungsdetektor (Dl, D2, D3, D4) als selbständig ausführbares Programm ausgebildet ist.

7. Einrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der zumindest eine Uberwachungsdetektor (Dl, D2, D3, D4) als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek (X.so, Z.so) ausgebildet ist.

8. Einrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zumindest einen auf dem Knoten (C) ausgeführten, von der zu überwachenden Ressource unabhängigen Teilprozess (TH1) aufweist, wobei das Mittel (KE3) zur Ausführung für eine Verknüpfung des der zu überwachenden Ressource benötigten Überwachungsdetektors (Dl) mit dem Teilprozess (TH1) ausgebildet ist.

9. Einrichtung nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine erste Schnittstelle

(51) aufweist, welche mit dem zumindest einen Überwachungsdetektor (Dl, D2, D3, D4) gekoppelt ist und die zur Abgabe von Statusmitteilungen des Überwachungsdetektors (Dl, D2, D3, D4) ausgebildet ist.

10. Einrichtung nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine zweite Schnittstelle (52) aufweist, die für einen Empfang von Benutzerkommandos ausgebildet ist.

11. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die zu überwachende Ressource (Ml, M2) ein Einbindungsknoten innerhalb eines Dateisystems des Knotens (C) des Cluster- system ist.

12. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die zu überwachende Ressource (X) ein Programm oder eine Datenbank (DB) oder eine Netzwerkverbindung (Nl) ist.

13. Einrichtung nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zum Empfang von zu überwachenden Ressourcen über eine schnittsteile (Sl, S2) ausgebildet ist.

14. Einrichtung nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) ein selbständiger Prozess ist.

15. Verfahren zur Überwachung von zumindest zwei Ressourcen (Ml, M2) auf einem Knoten (C) eines Clustersystems, wobei den zumindest zwei Ressourcen eine dynamische Priorität (P) zugeordenbar ist, indem a) eine der zumindest zwei zu überwachenden Ressourcen (Ml, M2) anhand der zugeordneten Priorität (P) ausgewählt wird; b) ein für die Überwachung benötigter Überwachungsdetektor (Dl, D2) für die zu überwachende Ressource (Ml, M2) ausgewählt wird; c) der ausgewählte Überwachungsdetektor (Dl, D2) der zu überwachenden Ressource zugeordnet wird; d) der Überwachungsdetektor ausgeführt und nach einer einmaligen Überwachung der zu überwachenden Ressource beendet wird; e) das Ergebnis der durch den Uberwachungsdetektor ausgeführten Überwachung gemeldet wird.

16. Verfahren nach Ansprch 15; dadurch gekennzeichnet, daß in Schritt c) die Zuordnung durch eine Parameterübergabe der zu überwachenden Ressource an den Überwachungsdetektor erfolgt .

17. Verfahren nach einem der Ansprüche 15 bis 16, dadurch gekennzeichnet, daß die Priorität (P) durch einen numerischen Wert gebildet wird.

18. Verfahren nach einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, daß eine erste Zeitdauer (ZI) in einem ZeitIntervall (I) für die Überwachung der zu überwachenden Ressourcen festgelegt wird, wobei zumindest die Schritte c) bis e) nur durchgeführt wer-^" den, wenn die festgelegte Zeitdauer (ZI) im Mittel nicht ü- berschritten wird.

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die erste Zeitdauer (ZI) durch einen prozentualen Wert einer zur Verfügung stehenden Rechenkapazität bestimmt wird.

20. Verfahren nach einem der Ansprüche 15 bis 19, dadurch gekennzeichnet, daß für die Auswahl eine Liste (Ll) erzeugt wird, in der die zu überwachenden Ressourcen (Ml, M2) in der Reihenfolge ihrer Prioritäten (P) abgelegt sind.

21. Verfahren nach einem der Ansprüche 18 bis 20, dadurch gekennzeichnet, daß die Priorität (P) einer zu überwachenden Ressource erhöht wird, wenn keine Überwachung der zu überwachende Ressource in der ersten Zeitdauer (ZI) erfolgt.

22. Verfahren nach einem der Ansprüche 15 bis 21, dadurch gekennzeichnet, daß eine Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch den Überwachungsdetektor der zu ü- berwachenden Ressource zugeordnet wird.

23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, daß die Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch die Ausführung des für die Überwachung benötigten Uberwachungsdetektors ermittelt wird.

24. Verfahren nach einem der Ansprüche 15 bis 23, dadurch gekennzeichnet, daß zumindest ein leerlaufender Teilprozess (TH1) gestartet wird, der in Schritt c) mit dem Überwachungsdetektor verknüpft wird und nach Beendigung von Schritt d) wieder von dem Uberwachungsdetektor gelöst wird.

25. Verfahren nach einem der Ansprüche 15 bis 24, dadurch gekennzeichnet, daß daß eine Schnittstelle (Sl) vorgesehen ist, durch das ein Benutzer eine Überwachung einer Ressource durch einen Überwachungsdetektor durchführt .

26. Verfahren nach einem der Ansprüche 15 bis 25, dadurch gekennzeichnet, daß der Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet wird.