DE10360535B4 - Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems - Google Patents

Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems Download PDF

Info

Publication number
DE10360535B4
DE10360535B4 DE10360535A DE10360535A DE10360535B4 DE 10360535 B4 DE10360535 B4 DE 10360535B4 DE 10360535 A DE10360535 A DE 10360535A DE 10360535 A DE10360535 A DE 10360535A DE 10360535 B4 DE10360535 B4 DE 10360535B4
Authority
DE
Germany
Prior art keywords
monitoring
monitored
detector
resource
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10360535A
Other languages
English (en)
Other versions
DE10360535A1 (de
Inventor
Klaus Hartung
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Technology Solutions Intellectual Property GmbH
Original Assignee
Fujitsu Technology Solutions GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Technology Solutions GmbH filed Critical Fujitsu Technology Solutions GmbH
Priority to DE10360535A priority Critical patent/DE10360535B4/de
Priority to EP04802700A priority patent/EP1697846A2/de
Priority to JP2006545900A priority patent/JP4584268B2/ja
Priority to PCT/DE2004/002483 priority patent/WO2005062172A2/de
Publication of DE10360535A1 publication Critical patent/DE10360535A1/de
Application granted granted Critical
Publication of DE10360535B4 publication Critical patent/DE10360535B4/de
Priority to US11/472,546 priority patent/US8051173B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Überwachungseinrichtung (DFW) in einem Knoten (C) eines Clustersystems,
– der Knoten (C) umfassend wenigstens zwei zu überwachende Ressourcen (M1, M2, DB, X), wobei jeder der wenigstens zwei zu überwachenden Ressourcen eine veränderbare Priorität (P) und jeder der wenigstens zwei zu überwachenden Ressourcen (M1, M2, DB, X) zumindest eine Überwachungsart zuordenbar ist;
– die Überwachungseinrichtung (DFW) umfassend:
– ein Auswahlmittel (KE1) ausgeführt zur Auswahl einer Ressource aus den wenigstens zwei zu überwachenden Ressourcen (M1, M2, X, DB) anhand der den zu überwachenden Ressourcen zuordenbaren Prioritäten (P);
– zumindest einen Überwachungsdetektor (D1, D2, D3, D4), der für die zumindest eine Überwachungsart der zu überwachenden Ressource (M1, M2, X, DB) ausgebildet ist;
– ein Mittel (KE2) für eine Zuordnung des Überwachungsdetektors (D1, D2, D3, D4) zu der zu überwachenden Ressource (M1, M2, X, DB);
– ein Mittel (KE3) zur Ausführung des Überwachungsdetektors (D1, D2, D3, D4), das...

Description

  • Die Erfindung betrifft eine Einrichtung in einem Knoten eines Clustersystems zur Kontrolle und zur Steuerung von Überwachungsdetektoren. Die Erfindung betrifft weiterhin ein Verfahren zur Steuerung und zur Kontrolle von Überwachungsdetektoren für zumindest zwei zu überwachende Ressourcen in einem Clustersystem.
  • Die Druckschrift EP 1 131 730 B1 zeigt ein Verfahren und ein Gerät, um Echtzeitrufbearbeitungsdienste in einem intelligenten Netzwerk zur Verfügung zu stellen. Das dargestellte System bezieht sich auf ein Dienststeuerungssystem für eine Bereitstellung von Echtzeitdienstverarbeitung aller Ereignisse und Dienstanforderungen, die in einem Ressourcenkomplex eintreffen, beispielsweise einem Switch oder Router.
  • Bei Clustersystemen mit mehreren Knoten innerhalb des Clusters, die aus einzelnen Rechnern gebildet werden, wird jedoch oftmals Software eingesetzt, die hoch verfügbar sein soll. Dazu besitzt das Clustersystem eine Kontroll- und Steuerungssoftware, die auch Reliant Managment Service RMS genannt wird und die auf dem Cluster laufende hoch verfügbare Software überwacht. Die hoch verfügbare Software selbst läuft dabei auf einem Knoten eines Clusters oder ist auf verschiedene Knoten verteilt. Im übrigen kann auch die Kontrollsoftware RMS auf verschiedene Knoten, also dezentralisiert verteilt sein.
  • Ist die fehlerfreie Ausführung der hoch verfügbaren Software oder eines Teils davon auf einem Knoten des Clusters nicht mehr gewährleistet, so beendet die Kontrollsoftware RMS die Applikation oder den entsprechenden Teil davon und startet diese auf einem anderen Knoten neu. Die Überwachung der hoch verfügbaren Applikation bzw. eines Teils der hoch verfügbaren Applikation erfolgt durch den RM-Service gesteuerte sogenannte Überwachungsdetektoren. Diese überwachen jeweils einen spezifischen Teil der Applikation, der als Ressource bezeichnet wird und melden den Status der Ressource zurück an die Kontrollsoftware RMS.
  • Ein Beispiel dafür ist in 6 zu sehen. Dieses zeigt einen Knoten C, der Teil eines Clustersystems ist. Der Knoten C enthält als Kontrollsoftware den Reliant Managment Service RMS. Weiterhin wird auf dem Knoten C die hoch verfügbare Applikation APL ausgeführt, die ihrerseits über die Verbindung N1 mit einem Speichermanagementsystem M1 Daten austauscht. Zur Überwachung der Applikation APL startet die Kontrollsoftware RMS die einzelnen Überwachungsdetektoren D1, D2 bzw. D3. Jeder dieser Detektoren ist eigens für die Überwachung einer bestimmten Ressource der hoch verfügbaren Software APL ausgebildet. Beispielsweise überwacht der Detektor D3 die Kommunikationsverbindung N1 zwischen der Applikation APL und dem Dateimanagementsystem M1. Ein anderer Detektor D2 überprüft die hoch verfügbare Applikation APL anhand kontinuierlicher Abfragen, ob diese weiterhin ausgeführt wird und Rückmeldungen absetzt. Der dritte Detektor D1 überpüft beispielsweise verfügbaren temporären Speicher, der für die hochverfügbare Applikation APL benötigt wird.
  • Anhand der durchgegebenen Statusmeldungen der einzelnen Überwachungsdetektoren trifft die Kontrollsoftware RMS geeignete Maßnahmen bei einem Ausfall einzelner durch die Überwachungsdetektoren überwachter Ressourcen oder sonstigen auftretenden Problemen. So kann sie beispielsweise die hochverfügbare Software beenden und auf einem zweiten nicht dargestellten Knoten neu starten.
  • Die einzelnen Überwachungsdetektoren werden von der Kontrollsoftware RMS unabhängig voneinander gestartet. Dies führt jedoch zu einer hohen Systembelastung des Knotens, da die einzelnen Detektoren entsprechend Speicherplatz bzw. Rechenkapa zität verbrauchen. Im schlimmsten Fall können durch eine ungünstige Konfiguration oder sehr viele überwachte Ressourcen innerhalb eines Knotens die Überwachungsdetektoren den größten Teil der verfügbaren Rechenkapazität verbrauchen. Für die eigentliche Anwendung steht dann zu wenig zur Verfügung. Zudem empfängt die Kontrollsoftware Statusmeldungen von Überwachungsdetektoren, deren eigentliche Ausführung und Überwachung der Ressource zum gegenwärtigen Zeitpunkt nicht notwendig ist. Die Verarbeitung aller zurückgelieferten Statusmeldungen erhöht ebenfalls die Rechenzeit und belastet die Kontrollsoftware unnötig.
  • Aufgabe der Erfindung ist es daher, eine Einrichtung in einem Knoten eines Clustersystems vorzusehen, mit der die Systemlast für die Überwachung auf einsatzabhängige Anforderungen angepasst wird, dennoch aber eine ausreichende Überwachung der Ressourcen sichergestellt ist. Weiterhin ist es Aufgabe, ein Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren vorzusehen, welches effizient bei gleichzeitig geringer Systemlast arbeitet.
  • Diese Aufgaben werden mit den Gegenständen der unabhängigen Patentansprüche gelöst.
  • Es ist eine Überwachungseinrichtung in einem Knoten eines Clustersystems zur Überwachung von zumindest zwei zu überwachenden Ressourcen auf dem Knoten des Clustersystems vorgesehen. Den zu überwachenden Ressourcen ist dabei jeweils eine Priorität zuordenbar, die ein Maß für die Wichtigkeit der zu überwachenden Ressource darstellt. Die Einrichtung umfaßt ein Mittel zur Auswahl einer Ressource aus den zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugewiesenen Prioritäten. Weiterhin umfaßt die Einrichtung zumindest einen Überwachungsdetektor, welcher für die Überwachungsart der zu überwachenden Ressource ausgebildet ist. Letztlich enthält die Einrichtung ein Mittel zur Zuordnung des Überwachungsdetektors zu der zu überwachenden Ressource, sowie ein Mittel zur Ausführung des Überwachungsdetektors. Dieses ist so ausgebildet, daß nach einer einmaligen Überwachung der Ressource durch den ausgeführten Überwachungsdetektor die Ausführung von dem Mittel beendet bzw. gestoppt wird.
  • In dieser Ausführung bildet die Einrichtung eine übergeordnete Instanz, denen die einzelnen zu überwachenden Ressourcen und insbesondere die für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren untergeordnet sind. Insbesondere ist die Ausführung der einzelnen für die zu überwachenden Ressourcen benötigten Überwachungsdetektoren nicht mehr unabhängig voneinander, sondern wird durch die Einrichtung zusammengefaßt gesteuert. Dadurch ist es möglich, mittels der Einrichtung immer nur die Ressourcen zu überwachen, deren Überwachung zum aktuellen Zeitpunkt notwendig ist. Weiterhin wird durch die Einrichtung auf dem Knoten zusätzlich Rechenzeit eingespart, da der für die zu überwachende Ressource benötigte Überwachungsdetektor erst nach einer Auswahl ausgeführt wird.
  • Die Überwachung erfolgt dabei dergestalt, daß die Ausführung des Überwachungsdetektors nach der erfolgten Überwachung wieder gestoppt wird. Die Überwachung ist somit nur einmalig. Die Einrichtung ist natürlich so ausgebildet, daß sie bei Bedarf die zu überwachende Ressource auch öfters auswählen und den dazu benötigten Überwachungsdetektor mehrmals ausführt. Dabei wird der Überwachungsdetektor jedoch nicht kontinuierlich betrieben, sondern jeweils nur solange ausgeführt, bis er eine Statusmeldung hinsichtlich der zu überwachenden Ressource zurückgegeben hat. Dabei kann allerdings der Überwachungsdetektor selbst für eine mehrmalige Überwachung ausgebildet sein. Dies ist gerade bei streuenden Messwerten des Überwachungsdetektors vorteilhaft. Erfindungsgemäß führt der Überwachungsdetektor mehrere Überwachungen durch und liefert dann eine gesamte Statusmeldung zurück, die die einzelnen Messwerte repräsentiert. Die Ausführung des Detektor wird nach der Übermittlung der Statusmeldung beendet.
  • Das Verfahren zur Überwachung von zumindest zwei Ressourcen auf einem Knoten eines Clustersystems, wobei den zumindest zwei Ressourcen jeweils eine Priorität zugeordnet ist, umfaßt die Schritte:
    • a) Auswahl einer der zumindest zwei zu überwachenden Ressourcen anhand der den zu überwachenden Ressourcen zugeordneten Priorität;
    • b) Auswahl eines für die Überwachung benötigten Überwachungsdetektors für die zu überwachende Ressource;
    • c) Zuweisen von Ressourcenparameter an den Überwachungsdetektor;
    • d) Starten bzw. Ausführen des Überwachungsdetektors und einmalige Ausführung einer Überwachung der Ressource durch den Überwachungsdetektor;
    • e) Melden des Ergebnisses der durch den Überwachungsdetektor ausgeführten Überwachung.
  • Auch bei dem erfindungsgemäßen Verfahren wird eine Überwachung einer zu überwachenden Ressource nicht kontinuierlich durchgeführt, sondern lediglich durch eine einmalige Ausführung des der zu überwachenden Ressource zugeordneten Überwachungsdetektors. Der Überwachungsdetektor selbst kann natürlich die zu überwachende Ressource in vielfältiger Weise und insbesondere auch mehrmals in kurzen Zeitabständen überwachen, bevor er ein Ergebnis zurückliefert. Jedoch wird erfindungsgemäß pro Ausführung des Überwachungsdetektors nur einmal ein Ergebnis oder eine Statusmeldung zurürckgeliefert.
  • Die zu einem Zeitpunkt zu überwachende Ressource wird anhand der zugeordneten Priorität ausgewählt. Dadurch läßt sich auf dem Knoten eines Clustersystems Rechenzeit einsparen, da der Überwachungsdetektor nur dann ausgeführt wird, wenn dies anhand der zugeordneten Priorität erforderlich ist. Insbesondere werden die Ressourcen und die Überwachungsdetektoren zusammengefaßt und als ganzes betrachtet. Eine Unabhängigkeit einzelner Detektoren ist somit nicht mehr gegeben.
  • Die zu überwachenden Ressourcen und die dafür benötigten Überwachungsdetektoren sind vielfältiger Natur. In einer Ausgestaltung der Erfindung wird eine zu überwachende Ressource durch einen Einbindungspunkt innerhalb eines Dateisystems des Knotens des Clustersystems gebildet. Der Überwachungsdetektor ist somit für eine Überprüfung ausgebildet, ob der zu überwachende Einbindungspunkt weiterhin gültig ist. In einer vorteilhaften Ausgestaltung ist der Einbindungspunkt durch ein zweites Dateisystem auf einem Massenspeicher gegeben, welcher in das Dateisystem des Knotens des Clustersystems eingebunden wird. Es wird allerdings immer anhand der ausgewählten Ressource der korrekte, für die Überwachung der Ressource benötigte Überwachungsdetektor ausgewählt.
  • In einer anderen Ausgestaltung ist der Überwachungsdetektor zur Überwachung eines verfügbaren Festplatten- oder sonstigen Massenspeichers ausgebildet.
  • Wieder in einer anderen Ausgestaltung der Erfindung ist die zu überwachende Ressource ein ausgeführtes Programm und der dazu benötigte Überwachungsdetektor ein Detektor, der überprüft, ob das ausgeführte Programm weiterhin aktiv ist. Eine weitere zu überwachende Ressource ist eine Netzwerkverbindung mit einem weiteren Knoten des Clustersystems. Der dafür benötigte Überwachungsdetektor ist ein Detektor, der den Status der Netzwerkverbindung überprüft. Wieder eine andere Ressource sind eine zu überwachende Datenbank, die Systemlast des Knotens, die Prozessorlast eines ausgeführten Programms oder der vorhandene freie Speicher innerhalb des Knotens des Clustersystems. Für jede Art der verschiedenen Ressourcen ist ein Überwachungsdetektor vorgesehen, der eine bestimmte Überwachung vornimmt. Für eine Ressource kann es mehrere verschiedene Überwachungsarten und damit auch verschiedene Überwachungsdetektoren geben.
  • In einer Weiterbildung der Einrichtung umfaßt das Mittel zur Auswahl eine Liste, in der die zumindest zwei zu überwachenden Ressourcen in einer durch ihre Priorität festgelegten Reihenfolge abgelegt sind. Dadurch ist eine besonders einfache Auswahl der zu überwachenden Ressource möglich, indem die Einrichtung anhand der Liste die zu überwachenden Ressourcen bestimmt und die Überwachungsdetektoren ausführt. Die Liste kann besonders einfach durch Hinzufügen weitere Ressourcen oder Entfernen von Ressourcen aus der Liste geändert werden. Die Einrichtung ist dabei so ausgebildet, daß sie anhand einer aus der Liste ausgewählten Ressource automatisch den dazugehörigen für die Überwachung der Ressource benötigten Überwachungsdetektor vorsieht.
  • Dabei ist es besonders sinnvoll, wenn die Prioritäten der zu überwachenden Ressourcen durch einen numerischen Wert gebildet werden. Dadurch wird insgesamt eine hohe Flexibilität erreicht und es ist möglich, dynamisch auf Veränderungen zu reagieren, indem einfach die Priorität der zu überwachenden Ressource geändert wird.
  • In einer weiteren vorteilhaften Ausgestaltung der Erfindung ist eine festgelegte Zeitdauer pro Zeitintervall vorgesehen. Die Einrichtung ist so ausgebildet, daß die mittlere Zeit für eine Ausführung eines Überwachungsdetektors geringer ist als die festgelegte Zeitdauer. Zweckmäßigerweise ist die Einrichtung für eine Auswahl einer Ressource und für eine einmalige Ausführung des zugeordneten Überwachungsdetektors ausgebildet, bis die gesamte Ausführungsdauer aller einmalig ausgeführten Überwachungsdetektoren die festgelegte Zeitdauer erreicht. Durch diese festgelegte Zeitdauer wird daher pro Zeitintervall ein Zeitfenster vorgegeben, in dem die Einrichtung Ressourcen überwachen kann. Mit anderen Worten läßt sich somit die maximal von der Einrichtung benötigte Rechenkapazität, bzw. Rechenzeit innerhalb eine Zeitintervalls festlegen. Dies ist möglich, da die Überwachungsdetektoren durch die Einrichtung gestartet und kontrolliert werden und folglich nicht mehr unabhängig voneinander sind.
  • Eine Weiterbildung der Erfindung ist dadurch gekennzeichnet, daß eine zweite Zeitdauer, die für eine Überwachung der Ressource benötigt wird, der zu überwachenden Ressource zugeordnet ist. Dadurch ist es der Einrichtung möglich, eine genaue Abschätzung für die für die Überwachung benötigte Zeitdauer vorzunehmen. Es ist zweckmäßig, wenn die Einrichtung zur Ermittlung der für die Überwachung benötigten Zeitdauer ausgebildet ist. Zweckmäßigerweise erfolgt dies durch eine Zeitmessung an dem Überwachungsdetektor.
  • In einer anderen Weiterbildung der Erfindung weist die Einrichtung eine erste Schnittstelle auf, die zur Abgabe von Statusmitteilungen des Überwachungsdetektors nach einmaliger Ausführung des Überwachungsdetektors ausgebildet ist. Dadurch läßt sich insbesondere einer übergeordneten Kontroll- und Steuereinrichtung wichtige Statusmitteilungen melden. In einer anderen Weiterbildung der Erfindung umfaßt die Einrichtung eine zweite Schnittstelle, die für einen Empfang von Benutzerkommandos ausgebildet ist. Dadurch ist es auch benutzerseitig möglich, jederzeit eine Ressource durch einen Überwachungsdetektor zu überwachen. Dies ist insbesondere dann sinnvoll, wenn eine aktuelle Statusmeldung von der zu überwachenden Ressource benötigt wird. In einer Weiterbildung dieser Einrichtung läßt sich die erste bzw. die zweite Schnittstelle für einen Empfang zu überwachender Ressourcen ausbilden. Somit lassen sich der Einrichtung neue zu überwachende Ressourcen mitteilen oder von der Einrichtung überwachte Ressourcen wieder aus der Überwachung entfernen.
  • Es ist zweckmäßig, die Einrichtung als selbständigen Prozeß innerhalb des Knotens des Clustersystems auszubilden. Die Einrichtung bildet somit ein selbständiges Programm. Die Überwachungsdetektoren bilden während ihrer Ausführung Teilprozesse der Einrichtung.
  • In einer anderen Weiterbildung der Erfindung ist der Überwachungsdetektor als selbständig ausführbares Programm ausgebildet. Dieses wird von der Einrichtung nach Auswahl der zu überwachenden Ressource einmalig ausgeführt.
  • In einer besonders vorteilhaften Weiterbildung der Erfindung weist die Einrichtung zumindest einen auf dem Knoten des Clustersystems ausgeführten, jedoch von der zu überwachenden Ressource unabhängigen, leerlaufenden Teilprozeß auf. Das Mittel zur Ausführung des Überwachungsdetektors ist dabei für eine Verknüpfung des Überwachungsdetektors der zu überwachenden ausgewählten Ressource mit dem unabhängigen Teilprozeß ausgebildet. Diese Weiterbildung ist besonders vorteilhaft, wenn der Überwachungsdetektor als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet ist.
  • Dadurch verknüpft die Einrichtung die Funktion der dynamischen Bibliothek oder die dynamische Bibliothek zum Ausführungszeitpunkt mit dem leerlaufenden Teilprozeß, startet diesen und führt so eine Überwachung der zu überwachenden Ressource durch. Nach der Ausführung wird die Verknüpfung wieder gelöst. Eine solche Ausbildung ist besonders geschwindigkeits- und recheneffizient. Durch die Ausbildung der Überwachungsdetektoren als Funktionen in dynamischen Bibliotheken oder als dynamische Bibliotheken sind in besonders einfacher und flexibler Weise Verbesserungen, Erweiterungen, oder Fehlerkorrekturen möglich. Auch eine Portierung auf andere Clusterbetriebssysteme wird damit vereinfacht.
  • In einer Weiterbildung des Verfahrens wird eine erste Zeitdauer in einem Zeitintervall für die Überwachung der zu überwachenden Ressourcen festgelegt. Überwachungsdetektoren bzw. die damit verknüpften Teilprozesse werden nur so lange ausgeführt, solange die festgelegte Zeitdauer nicht überschritten wird. Dabei kann das Verfahren so lange wiederholt werden, bis die festgelegte Zeitdauer erreicht wird. Durch die erste Zeitdauer in dem Zeitintervall ist somit eine maximale Rechenkapazität, die für die Überwachung benötigt wird, definiert.
  • Es ist zweckmäßig, zumindest eine der zwei zu überwachenden Ressourcen aus einer Liste auszuwählen, in der die zu überwachenden Ressourcen in der Reihenfolge ihrer Prioritäten abgelegt sind. In einer Weiterbildung wird die Liste so lange abgearbeitet, bis die festgelegte Zeitdauer erreicht wird.
  • Besonders zweckmäßig ist es, die Priorität einer zu überwachenden Ressource zu erhöhen, wenn keine Überwachung der Ressource durch den Überwachungsdetektor in der ersten Zeitdauer in dem Zeitintervall erfolgt ist. Dadurch wird verhindert, daß Ressourcen aufgrund mangelnder Überwachungszeit bzw. geringer Priorität nie durch einen zugeordneten Überwachungsdetektor überwacht werden.
  • Es ist zweckmäßig, einer zu überwachenden Ressource eine zweite Zeitdauer zuzuordnen, welche die Dauer für eine Überwachung durch den Überwachungsdetektor angibt. Alternativ läßt sich die zweite Zeitdauer auch dem Überwachungsdetektor zuordnen.
  • In einer Weiterbildung des Verfahrens wird die zweite Zeitdauer für eine Überwachung durch die Ausführung des ausgewählten Überwachungsdetektors ermittelt. Dies ist insbesondere dann sinnvoll, wenn die benötigte Zeitdauer nicht von vornherein bekannt ist oder sich während des laufenden Betriebs Parameter ändern, die sich auf die Zeitdauer für die Überwachung auswirken.
  • In einer Ausgestaltung des Verfahrens wird ein leerlaufender Teilprozeß gestartet, der keine Rechenzeit verbraucht und auch als schlafender Prozeß bezeichnet wird. Nach der Auswahl eines Überwachungsdetektors wird der Überwachungsdetektor mit dem leerlaufenden Teilprozeß verknüpft und dann ausgeführt. Es ist zweckmäßig, den Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek auszubilden. Eine Verknüpfung des Überwachungsdetektors mit dem leerlaufenden Teilprozeß ist dadurch besonders schnell und effizient. Nach der Meldung des Ergebnisses durch den Überwachungsdetektor wird die Verknüpfung wieder gelöst und der Leerlaufprozeß wieder schlafen gelegt. Der Leerlaufprozeß benötigt dabei keine Rechenzeit auf dem Knoten. Alternativ kann der leerlaufende Teilprozeß hintereinander mit verschiedenen Überwachungsdetektoren verknüpft werden. Die Ausbildung über einen leerlaufenden Teilprozeß ist besonders flexibel.
  • Weitere vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • Im Folgenden wird die Erfindung, deren einzelnen Ausgestaltungen und Erweiterungen sich beliebig kombinieren lassen, unter Bezugnahme auf die Zeichnungen im Detail erläutert.
  • Es zeigen:
  • 1 ein Ausführungsbeispiel der erfindungsgemäßen Einrichtung,
  • 2 ein Schema des Mittels zur Ausführung in der Einrichtung,
  • 3 einen schematischen Ablauf,
  • 4 Beispiele für Ressourcen innerhalb des Clustersystems,
  • 5 einen zeitlichen Ablauf über die zu überwachenden Ressourcen,
  • 6 eine bekannte Einrichtung mit Überwachungsdetektoren.
  • Zunächst wird anhand der 4 die Umgebung erläutert, in der die erfindungsgemäße Überwachungseinrichtung eingesetzt wird. 4 zeigt zwei Knoten C und C2 in einem Cluster system. Diese sind über eine Netzwerkverbindung N1 miteinander verbunden. Auf dem Knoten C wird eine hoch verfügbare Applikation APL ausgeführt, welche mehrere zu überwachende Ressourcen enthält. Weiterhin wird auf dem Knoten C der Reliant Management Service RMS ausgeführt. Die ist eine Kontroll- und Steuersoftware, die die Hochverfügbarkeit der Applikation APL überwachen soll. Bei Bedarf trifft sie weitere Maßnahmen, um die Hochverfügbarkeit sicher zu stellen. Dazu ist es notwendig, die einzelnen Ressourcen der hoch verfügbaren Applikation APL zu überwachen.
  • Im Einzelnen sind die Ressourcen zwei Einbindungsknoten innerhalb des Dateisystems des Knotens C. Diese weisen auf zwei externe Massenspeicher M1 und M2, die in diesem Ausführungsbeispiel als einfache Festplattenspeicher ausgebildet sind. Der Festplattenspeicher M1 ist im Dateisystem des Knotens C in den Einbindungspunkt "/usr/opt" eingehängt, der Festplattenspeicher M2 in den Einbindungspunkt "/usr/share". Dabei ist es notwendig zu überprüfen, ob die in diesen Punkten im Dateisystem eingehängten Massenspeicher M1 und M2 funktionstüchtig sind und Daten von ihnen gelesen bzw. auf sie geschrieben werden können.
  • Weiterhin greift die hoch verfügbare Applikation APL auf die Datenbank DB zu, die auf dem Knoten C2 ausgeführt wird. Dazu ist es notwendig, die Verbindung zwischen der Applikation APL auf dem Knoten C und der Datenbank DB auf dem Knoten C2 zu überprüfen. Letztlich wird auch der Fenstermanager X auf dem Knoten C für die graphische Benutzeroberfläche der hoch verfügbaren Applikation APL überwacht.
  • Erfindungsgemäß wird für die Überwachung all dieser Ressourcen eine übergeordnete Überwachungseinrichtung DFW vorgesehen, die mit dem Reliant Management Service RMS verbunden ist. Die Überwachungseinrichtung DFW wird auch als Instanz oder Detector Framework bezeichnet und ist als eigenständiger Prozeß auf dem Knoten C ausgebildet. Teil dieser Einrichtung sind die Detektoren D1, D2, D3 und D4. Diese sind für die Überwachung der Ressourcen zuständig und werden von der Überwachungseinrichtung DFW gesteuert. Die Ressourcen, die dabei überwacht werden sollen, wurden der Instanz DFW von der Reliant Management Service RMS übergeben, bzw. als Parameter mitgeteilt.
  • 2 zeigt ein detaillierteres Blockbild der erfindungsgemäßen Überwachungseinrichtung DFW. Die Überwachung der einzelnen Ressourcen geschieht wie in 4 durch die individuellen Detektoren D1, D2, D3 und D4, die allerdings von einer Kontrolleinrichtung KE gesteuert werden. Diese ist ebenso wie die Detektoren Teil der Überwachungseinrichtung und besitzt weitere logische Blöcke die im Detail später erläutert werden.
  • Die übergeordnete Einrichtung DFW ist verantwortlich für die Kommunikation mit dem Reliant Management Service RMS über die Schnittstelle S1. Dazu enthält sie eine Kontrolleinrichtung KE, die von dem System RMS Informationen über die zu überwachenden Ressourcen empfängt. Über die Schnittstelle S2 werden zudem Benutzerdaten bzw. Benutzerkommandos an die Kontrolleinrichtung KE übergeben. Die Kontrolleinrichtung KE steuert und kontrolliert die einzelnen individuellen Überwachungsdetektoren D1, D2, D3 bzw. D4.
  • Die individuellen Detektoren sind durch dynamische Bibliotheken Y.so, Z.so und X.so implementiert, die zur Laufzeit gestartet werden. Die dynamische Bibliothek Y.so enthält dabei alle Funktionen, die für eine Überwachung eines Einbindungspunktes innerhalb des Dateisystems notwendig sind. Wie zu erkennen, sind die beiden Überwachungsdetektoren D1 und D2 durch die gleiche Bibliothek Y.so implementiert. Dabei stellen die Überwachungsdetektoren sogar die gleiche Funktion in der Bibliothek Y.so dar.
  • Von der Kontrolleinrichtung KE wird bei einer Überwachung des Einbindungspunktes der Massenspeicher M1 bzw. M2 die Funktion zur Überwachung in der dynamischen Bibliothek Y.so zusammen mit einem Satz von Parametern ausgeführt. Die beiden Überwachungsdetektoren D1 und D2 enthalten zur Laufzeit somit zwar die gleiche Funktion, jedoch unterschiedliche, der Funktion übergebene Parameter. Die Parameter für den Detektor D1 enthalten die Information für die Überwachung des Speichers M1, die Parameter, die für den Detektor D2 verwendet wurden, enthalten die notwendigen Informationen für die Überprüfung des Massenspeichers M2.
  • Im Ausführungsbeispiel ist der übergebene Satz von Parametern der Einbindungspunkt im Dateisystem für die Speicher M1 und M2 und beispielsweise die Art des zu überprüfenden Zugriffrechts.
  • Für eine Überwachung der Datenbankverbindung DB zwischen dem Knoten C und dem Knoten C2 in der 4 enthält die dynamische Bibliothek Z.so alle notwendigen Funktionen. Wird eine Überprüfung erforderlich, so startet die Kontrolleinrichtung KE die Funktion aus der dynamischen Bibliothek Z.so. Die letzte dynamische Bibliothek X. So enthält die Funktionen für den Überwachungsdetektor D4, der den Status des Fenstermanagers für die graphische Benutzeroberfläche überprüft.
  • Die Instanz DFW stellt ferner einen Satz von Funktionen bereit, die gemeinsam für alle individuellen Detektoren verwendbar sind. Beispielsweise ist dies die Schnittstelle zu dem Reliant Management System RMS für die Statusmeldungen, die für alle Detektoren gleich sind. Gleichzeitig wird die Ausführung der individuellen Überwachungsdetektoren D1 bis D4 durch die Kontrolleinrichtung KE gesteuert und kontrolliert. Somit sind die Überwachungsdetektoren in das Detektor Framework DFW vollständig eingebettet und nicht mehr unabhängig von dieser.
  • 1 erläutert im Detail den aufbau der Kontrolleinrichtung KE, die ihrerseits verschiedene Einrichtungen oder Mittel enthält. Die Figur zeigt eine erste Liste mit den zu überwachenden Ressourcen M1, DB und X, deren Art der Überwachung der Kontrolleinrichtung KE bekannt ist. Die Ressourcen wurden dem Detektor Framework DFW von dem Relian Managment Service mit dem Auftrag zur Überwachung mitgeteilt. Die Liste enthält alle notwendigen für die Überwachung notwendigen Informationen.
  • Es ist nun ein Auswahleinrichtung KE1 vorgesehen, die aus der Liste der zu überwachenden Ressource eine, im Ausführungsbeispiel die Ressource DB auswählt. Die Auswahl erfolgt anhand einer Priorität. Zusätzlich können aber auch weitere Parameter beispielsweise die bislang verbrauchte Rechenzeit oder die für die Überwachung benötigte Zeit berücksichtigt werden. Das Auswahlmittel KE übergibt die zu überwachende Resource an eine Zuordnungseinheit, die auf der Basis der Resource den für die Überwachungsart geeigneten Detektor auswählt und diesem die notwendigen Parameter übergibt. Nach einer zuordnung ergibt sich eine nun überwachungsbereite Ressource RS1, RS2 oder RS3, welche wie dargestellt in einer Liste abgelegt sind.
  • Weiterhin enthält die Instanz DFW eine Anzahl von Teilprozessen TH1 bis TH6, die sogenannten Threads, welche leerlaufend sind. Es sind demnach schlafende Teilprozesse, die keinerlei Rechenzeit benötigen, jedoch ohne weiteres mit Funktionen aus dynamischen Bibliotheken verknüpft werden können, um somit eine Überwachung einer Ressource durchzuführen. Die Threads haben den Vorteil, daß keine zusätzliche Rechenzeit für ihren Start aufgewandt werden muß, sondern daß sie einmal gestartet auf ihre Ausführung warten.
  • Um die Ressource R3 zu überprüfen, verknüpft die Einrichtung KE3 den freien Teilprozeß TH2 mit den für die Überwachung benötigten Funktionen einer dynamischen Bibliothek, übergibt die für die Ressource R3 abhängigen und durch KE2 zugeordneten Parameter und führt den Teilprozeß TH2 aus. Dadurch erfolgt die Überwachung der Ressource durch den zugeordneten Detektor. Das Starten, Ausführen, Stoppen und die Synchronisation erfolgt in der Ausführungsform durch den POSIX (Portable Operating System Interface for UNIX) Standard für UNIX-Betriebssysteme. Nach der Ausführung der Überwachungsfunktion löst die Einrichtung KE3 die Verknüpfung wieder, und legt den Thread TH2 erneut schlafen. Der Thread kann dann wieder mit einer weiteren Ressource verknüpft werden. Eine von dem Überwachungsdetektor gelieferte Ergebnismeldung wird von der Instanz DFW nach der Ausführung als Statusmeldung an den Reliant Management Service RMS zurückgegeben. Der Zugriff auf gemeinsam benutzte Daten zwischen der Einrichtung KE und den Teilprozessen TH wird über Semphore sequentialisiert. Durch die Ausführung mit einzelnen Teilprozessen oder Threads ist es möglich, mehrere Überwachungen gleichzeitig ausführen zu können. Die Auswahl der Ressource, die Verknüpfung der Threads mit den Überwachungsdetektoren, das Starten und Stoppen jedes einzelnen Threads wird dabei durch die Kontrolleinrichtung KE gesteuert. Die Anzahl der parallel ausgeführten Überwachungen verändert sich über die Zeit. Auch die Anzahl der Teilprozesse TH1 bis TH6 ändert sich über die Zeit, da die Instanz DFW bei Bedarf zusätzliche Teilprozesse starten oder diese wieder beenden kann.
  • Zusätzlich ist es möglich, jederzeit weitere zu überwachende Ressourcen der Instanz DFW hinzuzufügen oder diese wegzunehmen. Die wird möglich, da die Ressourcen nicht kontinuierlich überwacht werden, sondern nur während bestimmten Zeitabschnitten. Die Ressourcen sind nur in einer Liste abgelegt, die veränderbar ist.
  • Weiterhin ist durch die Ausbildung der Detektoren mittels dynamischer Bibliotheken, die je nach Bedarf geladen und ausgeführt werden, ein hohes Maß an Flexibilität erreichbar. Die dynamischen Bibliotheken können jederzeit durch erweiterte Bibliotheken ersetzt werden, ohne den Reliant Management Service RMS oder das Detektor Framework DFW stoppen oder neu starten zu müssen. Falls sich die Bibliothek erweitert oder verändert lädt die Einrichtung KE die neue Variante. Erweiterungen, Fehlerbehebung und eine dynamische Rekonfiguration sind so jederzeit möglich.
  • Um ausreichend Rechenkapazität für die hoch verfügbare Applikation APL im Knoten C des Clustersystems vorzusehen, ist es notwendig, die Rechenzeit für die Überwachung der einzelnen Ressourcen auf dem Knoten C zu beschränken. Dennoch müssen die Ressourcen ausreichend oft überwacht werden, um einen fehlerfreien Betrieb der hoch verfügbaren Applikation sicher zu stellen. 3 zeigt ein Ausführungsbeispiel der Instanz DFW, die diese beiden Voraussetzungen erfüllt.
  • In einer ersten Konfigurationsdatei P1 wird eine Zeitdauer in einem Zeitintervall bestimmt, in der die Instanz DFW Ressourcen überwachen darf. Das Zeitintervall und die Zeitdauer können von einem Benutzer vorgeben sein. Es kann sich dabei um einen prozentualen Wert, beispielsweise 15% der gesamten Rechenzeit oder um einen absoluten Wert, beispielsweise 100 ms in 1 Sekunde handeln. Weitere Voraussetzungen, beispielsweise die Hardware oder Softwareapplikationen betreffend können über die Konfigurationsdatei ebenfalls berücksichtigt werden.
  • Gleichzeitig wird in einer zweiten Konfigurationsdatei P2 ein numerischer Prioritätswert für jede zu überwachende Ressource festgelegt und zugeordnet. Diese werden über die Schnittstelle S1 bzw. S2 der Kontrolleinrichtung der Instanz DFW mitgeteilt.
  • Im Ausführungsbeispiel sind die Prioritätswerte in der Konfigurationsdatei P2 durch den Reliant Management Service RMS festgelegt. Beispielsweise ist es notwendig, der Ressource X der hoch verfügbaren Applikation APL eine höhere Priorität zuzuweisen als beispielsweise der Ressource für den Einbindungspunkt des Massenspeichers M1. Diese Prioritäten werden von der Instanz DFW dazu benutzt, eine Reihenfolge der Überwachung festzulegen. Eine Ressource mit einer höheren Priorität soll öfters überwacht werden, als eine Ressource mit einer geringeren Priorität. Dazu werden die einzelnen zu überwachenden Ressourcen in einer Liste L1 gemäß ihrer Priorität abgelegt.
  • In der nachfolgenden Tabelle sind die Ressourcen für die hoch verfügbare Applikation APL gemäß 4, ihre zugeordneten Prioritäten, die zu übergebenden Parameter und die Zeit, nach der eine Überprüfung erfolgen muß, gezeigt. Diese bestimmt daher einen Maximalwert, der nicht überschritten werden darf. Die letzte Spalte in der Tabelle zeigt die Zeitdauer, die der von der Kontrolleinrichtung KE gestartete Überwachungsdetektor für die Überprüfung der dazugehörigen Ressource benötigt.
  • Figure 00190001
    Tabelle 1: Ressourcenliste mit weiteren Informationen
  • Die Kontrolleinrichtung KE überprüft nun die noch vorhandene Zeitdauer gemäß der Vorgabe in der Konfigurationsdatei P1, die Prioritäten der Ressourcen, die seit der letzten Überprüfung vergangene Zeit für jede Ressource sowie die Zeitdauer und wählt daraus eine zu überprüfende Ressource aus.
  • Der ausgewählten Ressource zugeordnete Detektor wird gemäß der 1 mit einem noch freien Teilprozess bzw. Thread verknüpft, die Parameter übergeben und der Teilprozeß ausgeführt. Nach der Beendigung der Überwachung wird die Verknüpfung wieder gelöst, und der Teilprozeß steht für eine erneute Verbindung zu Verfügung. Die Ressource wird erneut der Liste L1 zugeführt, jedoch ändert sich die seit der letzten Überprüfung vergangene Zeit und eventuell die Priorität. Zudem ist es zweckmäßig, die Zeit, die der Überwachungsdetektor für die Ausführung benötigt hat, zu bestimmen, da sich Voraussetzungen geändert haben könnten und eine Überwachung nun länger oder kürzer dauert.
  • Bei Ressourcen, die innerhalb des durch die Konfigurationsdatei P1 festgelegten Zeitfensters nicht überwacht bzw. überprüft werden konnten, erhöht die Kontrolleinrichtung KE oder die Überwachungseinrichtung DFW die Priorität. Dadurch wird verhindert, daß eine Überprüfung wartender Ressourcen aufgrund einer zu geringen Priorität niemals stattfindet.
  • 5 zeigt einen solchen zeitlichen Ablauf einer Überwachung. Die nachfolgende Tabelle 2 enthält die Ressourcen R1 bis R7, ihre jeweilige von dem Reliant Management System RMS an das Detektor Framework DFW übertragene ursprüngliche Priorität sowie die aus einer Konfigurationsdatei entnommenen Zeitdauern für die Ausführung:
  • Tabelle 2:
    Figure 00200001
  • Als Vorgabe für die Instanz DFW wurde dabei entschieden, eine Überprüfung der Ressourcen nur innerhalb von 450 ms in einem Zeitintervall von 3 s durchzuführen. Weiterhin ist vorgesehen, Ressourcen mit einer Priorität geringer als dem Wert 3 in dem Zeitintervall nicht zu überprüfen. Damit erhalten weitere Prozesse, die auf den Knoten ausgeführt werden, mehr Rechenkapazität.
  • Nach einiger Zeit ergibt sich die in 5 dargestellte Liste L3. Die Ressource R1 mit ihrer Priorität NP und ihrer Zeitdauer 10 ms wurde dabei jeweils nur einmal ausgeführt und läuft weiterhin im Hintergrund. Es handelt sich dabei um eine Ressource für die ein "non-polling"-Detektor vorgesehen ist. Dieser wird gestartet und wartet auf eine Mitteilung der mit ihm verknüpften Ressource. Eine Abfrage erfolgt im Gegensatz zu "polling" Detektoren nicht aktiv. Dadurch wird kaum Rechenzeit verbraucht. Sobald der Detektor R1 eine Mitteilung von der Ressource erhält, kann er durch das Detektor Framework DFW wieder beendet werden.
  • Die Ressource R2 besitzt die höchste Priorität 5 mit einer Dauer von 30 ms und wird mit dem dazugehörigen Überwachungsdetektor verknüpft und ausgeführt. Parallel dazu verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressourcen R3 und R4, die gleichfalls die Priorität 5 aufweisen, mit jeweils einem vorhandenen Teilprozeß aus seiner Liste, übergibt die Parametersätze der Ressourcen an die für die Überwachung vorgesehene dynamische Bibliothek und führt die Threads aus. Auch die Ressource R5 mit ihrer Priorität 3 kann innerhalb des Zeitintervalls überwacht werden. Die Ressource R6 mit der gleichen Priorität besitzt eine Ausführungsdauer von 100 ms und würde damit das vorgeschriebene Zeitintervall von 450 ms überschreiten.
  • Im Gegensatz dazu beträgt die Ausführungsdauer für den Überwachungsdetektor der Ressource R7 nur 50 ms. Eine Überwachung der Ressource R7 wird jedoch aufgrund der Vorgabe, nur Ressourcen mit Prioritäten größer 3 zu überprüfen, nicht durchgeführt. Somit werden während des Zeitintervalls von 3 Sekunden die Ressourcen R1 bis R5 aktiv überwacht. Die gesamte für die Überwachung benötigte Zeit ist die Summe aus den einzelnen Ausführungsdauern, insgesamt 400 ms. Wann innerhalb des Zeitintervalls die Überwachung durchgeführt wird, ist jedoch nicht festgelegt. Der Scheduler des Betriebssystems übernimmt diese Aufgabe.
  • Das Detektor Framework besitzt nur die Vorgabe, die 450 ms Zeitdauer in einem Zeitintervall von 3s durchschnittlich nicht zu überschreiten, oder nicht mehr als 15% der zur Verfügung stehenden Rechenzeit für Überwachungen zu benutzen.
  • Nach 3 Sekunden beginnt das neue Zeitintervall, und die Instanz DFW startet erneut die Überwachungsdetektoren für die nun vorgesehenen Ressourcen. Die Ressource R1 wird weiterhin ausgeführt. Ein Teilprozeß mit dem Überwachungsdetektor für die Ressource R2 wird ebenfalls aufgrund der hohen Priorität 5 gestartet. Wegen der erfolgten Überprüfung der Ressource R3 im vorangegangenen Zeitintervall reduziert sich die Priorität der Ressource R3 in der Tabelle L4 wieder auf den ursprünglichen Wert 3. Wegen der ausreichend zur verfügung stehenden Zeit verknüpft die Kontrolleinrichtung KE des Detektor Frameworks DFW die Ressource erneut mit einem freien Thread und führt eine Überwachung durch.
  • Nach erfolgter Überwachung der Ressource R4 im vorangegangenen Zeitintervall erhält die Ressource R4 nun wieder den ursprünglichen Prioritätswert 1. Gleiches gilt für die Ressource R5. Da aufgrund der mangelnden Zeit im vorangegangenen Zeitintervall eine Überprüfung der Ressource R6 nicht möglich war, erhöht das Detektor Framework DFW die Priorität der Ressource R6 um einen Punkt auf den Wert 4. Auch hier wird jetzt eine Überwachung durchgeführt. Die gesamte Zeitdauer für die Überwachung beträgt nunmehr 170 ms.
  • In diesem Ausführungsbeispiel wird pro Zeitintervall eine zu überwachende Ressource nur einmal gestartet. Es ist jedoch möglich, beispielsweise die Ressource R2 innerhalb des Zeitintervalls von 450 ms mehrmals zu überprüfen. Ferner ist in diesem Ausführungsbeispiel der Prioritätswert mit dem Zeitpunkt der letzten Ausführung verbunden. Die Priorität wird in jedem Zeitintervall erhöht, in dem die Ressource nicht überwacht wurde.
  • Die Ressourcen werden häufig durch Datenstrukturen innerhalb des Speichers des Clusters repräsentiert. Diese können von Überwachungsdetektoren, die durch die dynamischen Bibliotheken gebildet werden, gelesen werden. Dies ist besonders dann sinnvoll, wenn die Ressourcen verschiedene Arten der Überwachungen besitzen.
  • Durch die zweite Schnittstelle S2 zu einem Benutzerinterface ist es möglich, Kommandos zur sofortigen Überprüfung einer Ressource des Knotens abzusetzen. Weiterhin läßt sich dadurch auch die Konfigurationsdatei der Instanz DFW erneut einlesen, um so dynamische Änderungen zu implementieren.
  • Mit der Einrichtung und dem erfindungsgemäßen Verfahren ist eine Möglichkeit geschaffen, eine Anzahl von Überwachungsdetektoren nicht mehr unabhängig zu verwenden, sondern diese abhängig voneinander auszuführen. Dabei wird ein Überwachungsdetektor einmal ausgeführt, wobei der Überwachungsdetektor selbst die zu überwachende Ressource mehrmals während seiner Ausführung überprüfen kann. So ist es möglich mehrere verschiedene Aspekte der Ressource zu überprüfen und eine abschließende Gesamtstatusmeldung zurückzugeben.
  • Weiterhin lassen sich Änderungen dynamisch einbringen, ohne die Hochverfügbarkeits-Software oder ein Überwachungstool wie den RMS abschalten zu müssen. Das gemeinsam genutzte "Detektor Framework DFW" ermöglicht durch gemeinsam genutzte Funktionen eine besonders effektive und zeitsparende Programmierung. Die vorhandene Rechenzeit eines Knotens wird optimal ausgenutzt und auch dynamisch auf Veränderungen der verfügbaren Rechenzeit reagiert.
  • RMS:
    Reliant Management Service
    D1, D2, D3, D4:
    Überwachungsdetektoren
    APL:
    hoch verfügbare Anwendung
    C, C2:
    Knoten
    N1:
    Netzwerk
    M1, M2:
    Massenspeicher
    S1, S2:
    Schnittstelle
    CLI:
    Benutzerinterface
    DFW:
    Detektor Framework, Übewachungseinrichtung
    KE:
    Kontrolleinrichtung
    KE1:
    Auswahlmittel
    KE2:
    Mittel zur Zuordnung
    KE3:
    Mittel zur Ausführung
    Y.so, Z.so, X.so:
    dynamische Bibliotheken
    R1, ...,R11:
    zu Ressourcen zugeordnete Detektoren
    M1, M2,X, DB:
    Ressourcen
    TH1, ..., TH6:
    Teilprozesse, Threads
    T:
    Zeitdauer für Überwachung
    L1:
    Liste
    P1, P2:
    Konfigurationsdateien
    P:
    Priorität
    L1, L3,L4:
    Liste
    ZI:
    Zeitdauer
    I:
    Zeit

Claims (26)

  1. Überwachungseinrichtung (DFW) in einem Knoten (C) eines Clustersystems, – der Knoten (C) umfassend wenigstens zwei zu überwachende Ressourcen (M1, M2, DB, X), wobei jeder der wenigstens zwei zu überwachenden Ressourcen eine veränderbare Priorität (P) und jeder der wenigstens zwei zu überwachenden Ressourcen (M1, M2, DB, X) zumindest eine Überwachungsart zuordenbar ist; – die Überwachungseinrichtung (DFW) umfassend: – ein Auswahlmittel (KE1) ausgeführt zur Auswahl einer Ressource aus den wenigstens zwei zu überwachenden Ressourcen (M1, M2, X, DB) anhand der den zu überwachenden Ressourcen zuordenbaren Prioritäten (P); – zumindest einen Überwachungsdetektor (D1, D2, D3, D4), der für die zumindest eine Überwachungsart der zu überwachenden Ressource (M1, M2, X, DB) ausgebildet ist; – ein Mittel (KE2) für eine Zuordnung des Überwachungsdetektors (D1, D2, D3, D4) zu der zu überwachenden Ressource (M1, M2, X, DB); – ein Mittel (KE3) zur Ausführung des Überwachungsdetektors (D1, D2, D3, D4), das derart ausgebildet ist, dass nach einmaliger Überwachung der zu überwachenden Ressource durch den Überwachungsdetektor (D1, D2, D3, D4) die Ausführung des Überwachungsdetektors (D1, D2, D3, D4) beendet wird.
  2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Auswahlmittel (KE1) eine Liste (L1) umfasst, in der die zumindest zwei zu überwachenden Ressourcen (M1, M2, X, DB) in einer durch ihre zuordenbare Priorität festgelegten Reihenfolge abgelegt sind.
  3. Einrichtung nach einem der Ansprüche 1 bis 2, dadurch gekennzeichnet, daß der von dem Überwachungsdetektor (D1, D2, D3, D4) zu überwachenden Ressource (M1, M2, X, DB) eine mittlere Ausführungsdauer (T) zugeordnet ist, welche für die Überwachungsart der Ressource (M1, M2, X, DB) durch den Überwachungsdetektor (D1, D2, D3, D4) benötigt wird.
  4. Einrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zur Ermittlung der für die Überwachung benötigten mittlere Ausführungsdauer (T) ausgebildet ist.
  5. Einrichtung nach einem der Ansprüche 3 bis 4, dadurch gekennzeichnet, daß eine festgelegte Zeitdauer (ZI) pro Zeitintervall (I) vorgesehen ist, wobei die mittlere Ausführungsdauer (T) des zumindest einen Überwachungsdetektors (D1, D2, D3, D4) geringer ist als die festgelegte Zeitdauer (ZI).
  6. Einrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der zumindest eine Überwachungsdetektor (D1, D2, D3, D4) als selbständig ausführbares Programm ausgebildet ist.
  7. Einrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der zumindest eine Überwachungsdetektor (D1, D2, D3, D4) als eine Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek (X.so, Z.so) ausgebildet ist.
  8. Einrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zumindest einen auf dem Knoten (C) ausgeführten, von der zu überwachenden Ressource unabhängigen Teilprozess (TH1) aufweist, wobei das Mittel (KE3) zur Ausführung für eine Verknüpfung des der zu überwachenden Ressource benötigten Überwachungsdetektors (D1) mit dem Teilprozess (TH1) ausgebildet ist.
  9. Einrichtung nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine erste Schnittstelle (S1) aufweist, welche mit dem zumindest einen Überwachungsdetektor (D1, D2, D3, D4) gekoppelt ist und die zur Abgabe von Statusmitteilungen des Überwachungsdetektors (D1, D2, D3, D4) ausgebildet ist.
  10. Einrichtung nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) eine zweite Schnittstelle (S2) aufweist, die für einen Empfang von Benutzerkommandos ausgebildet ist.
  11. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die wenigstens eine zu überwachende Ressource (M1, M2) ein Einbindungsknoten innerhalb eines Dateisystems des Knotens (C) des Clustersystem ist.
  12. Einrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die wenigstens eine zu überwachende Ressource (X) ein Programm oder eine Datenbank (DB) oder eine Netzwerkverbindung (N1) ist.
  13. Einrichtung nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) zum Empfang einer Liste von zu überwachenden Ressourcen über eine Schnittstelle (S1, S2) ausgebildet ist.
  14. Einrichtung nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Überwachungseinrichtung (DFW) ein selbständiger Prozess ist.
  15. Verfahren zur Überwachung von wenigstens zwei Ressourcen (M1, M2) auf einem Knoten (C) eines Clustersystems, wobei jeder der wenigstens zwei Ressourcen (M1, M2) eine veränderbare Priorität (P) und zumindest eine Überwachungsart zuordenbar ist, indem a) eine der wenigstens zwei zu überwachenden Ressourcen (M1, M2) anhand der zuordenbaren Priorität (P) ausgewählt wird; b) ein für die Überwachungart benötigter Überwachungsdetektor (D1, D2) ausgewählt wird; c) der ausgewählte Überwachungsdetektor (D1, D2) der zu überwachenden Ressource (M1, M2) zugeordnet wird; d) der Überwachungsdetektor ausgeführt und nach einer einmaligen Überwachung der zu überwachenden Ressource beendet wird; e) das Ergebnis der durch den Überwachungsdetektor ausgeführten Überwachung gemeldet wird.
  16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß in Schritt c) die Zuordnung durch eine Parameterübergabe der zu überwachenden Ressource an den Überwachungsdetektor erfolgt.
  17. Verfahren nach einem der Ansprüche 15 bis 16, dadurch gekennzeichnet, daß die Priorität (P) durch einen numerischen Wert gebildet wird.
  18. Verfahren nach einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, daß eine erste Zeitdauer (ZI) in einem Zeitintervall (I) für die Überwachung der zu überwachenden Ressourcen festgelegt wird, wobei zumindest die Schritte c) bis e) nur durchgeführt wer den, wenn die festgelegte Zeitdauer (ZI) im Mittel nicht überschritten wird.
  19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die erste Zeitdauer (ZI) durch einen prozentualen Wert einer zur Verfügung stehenden Rechenkapazität bestimmt wird.
  20. Verfahren nach einem der Ansprüche 15 bis 19, dadurch gekennzeichnet, daß für die Auswahl eine Liste (L1) erzeugt wird, in der die zu überwachenden Ressourcen (M1, M2) in der Reihenfolge ihrer Prioritäten (P) abgelegt sind.
  21. Verfahren nach einem der Ansprüche 18 bis 20, dadurch gekennzeichnet, daß die Priorität (P) einer zu überwachenden Ressource erhöht wird, wenn keine Überwachung der zu überwachende Ressource in der ersten Zeitdauer (ZI) erfolgt.
  22. Verfahren nach einem der Ansprüche 15 bis 21, dadurch gekennzeichnet, daß eine Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch den Überwachungsdetektor der zu überwachenden Ressource zugeordnet wird.
  23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, daß die Ausführungsdauer (T) für eine Überwachung einer zu überwachenden Ressource durch die Ausführung des für die Überwachung benötigten Überwachungsdetektors ermittelt wird.
  24. Verfahren nach einem der Ansprüche 15 bis 23, dadurch gekennzeichnet, daß zumindest ein leerlaufender Teilprozess (TH1) gestartet wird, der in Schritt c) mit dem Überwachungsdetektor verknüpft wird und nach Beendigung von Schritt d) wieder von dem Überwachungsdetektor gelöst wird.
  25. Verfahren nach einem der Ansprüche 15 bis 24, dadurch gekennzeichnet, daß daß eine Schnittstelle (S1) vorgesehen wird, durch die ein Benutzer eine Überwachung einer Ressource durch einen Überwachungsdetektor durchführt.
  26. Verfahren nach einem der Ansprüche 15 bis 25, dadurch gekennzeichnet, daß der Überwachungsdetektor als Funktion einer dynamischen Bibliothek oder als dynamische Bibliothek ausgebildet wird.
DE10360535A 2003-12-22 2003-12-22 Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems Expired - Fee Related DE10360535B4 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE10360535A DE10360535B4 (de) 2003-12-22 2003-12-22 Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems
EP04802700A EP1697846A2 (de) 2003-12-22 2004-11-10 Einrichtung und verfahren zur steuerung und kontrolle von überwachungsdetektoren in einem knoten eines clustersystems
JP2006545900A JP4584268B2 (ja) 2003-12-22 2004-11-10 クラスタシステムのノードのリソースを監視する監視装置、及び監視方法
PCT/DE2004/002483 WO2005062172A2 (de) 2003-12-22 2004-11-10 Einrichtung und verfahren zur steuerung und kontrolle von überwachungsdetektoren in einem knoten eines clustersystems
US11/472,546 US8051173B2 (en) 2003-12-22 2006-06-22 Device and method for controlling and monitoring of monitoring detectors in a node in a cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10360535A DE10360535B4 (de) 2003-12-22 2003-12-22 Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems

Publications (2)

Publication Number Publication Date
DE10360535A1 DE10360535A1 (de) 2005-07-21
DE10360535B4 true DE10360535B4 (de) 2006-01-12

Family

ID=34683765

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10360535A Expired - Fee Related DE10360535B4 (de) 2003-12-22 2003-12-22 Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems

Country Status (5)

Country Link
US (1) US8051173B2 (de)
EP (1) EP1697846A2 (de)
JP (1) JP4584268B2 (de)
DE (1) DE10360535B4 (de)
WO (1) WO2005062172A2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0516554D0 (en) * 2005-08-11 2005-09-21 Ibm Method, apparatus and computer program for enabling monitoring of a resource
US20110002231A1 (en) * 2009-04-21 2011-01-06 David Philip Hole System and method for adjusting monitoring of timeslots during data transmission
US8812631B2 (en) * 2011-05-11 2014-08-19 International Business Machines Corporation Method and arrangement for operating a computer cluster
US10873501B2 (en) * 2016-12-09 2020-12-22 Vmware, Inc. Methods, systems and apparatus to propagate node configuration changes to services in a distributed environment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1131730B1 (de) * 1998-10-20 2003-08-27 Ajay Deo Verfahren und gerät um echtzeit rufbearbeitungsdienste in einem intelligenten netzwerk zur verfügung zu stellen

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3932735A (en) * 1970-08-24 1976-01-13 Westinghouse Electric Corporation Method of controlling supply of power
US5542047A (en) * 1991-04-23 1996-07-30 Texas Instruments Incorporated Distributed network monitoring system for monitoring node and link status
DE69317982T2 (de) * 1992-10-09 1998-11-19 Sun Microsystems Inc Verfahren und Anlage zur Realzeitdatensammlung und Anzeigevorrichtung
US5537542A (en) * 1994-04-04 1996-07-16 International Business Machines Corporation Apparatus and method for managing a server workload according to client performance goals in a client/server data processing system
US5717858A (en) * 1994-10-17 1998-02-10 Motorola, Inc. Method and structure for prioritizing performance monitoring cells in an asynchronous transfer mode (ATM) system
JPH08263325A (ja) * 1995-03-20 1996-10-11 Fujitsu Ltd サーバ処理装置、サーバ内障害検出装置及びサーバ内障害検出方法
AU7360296A (en) * 1995-09-11 1997-04-01 Mcsb Technology Corporation Performance assistant file system (pafs) method and apparatus
FI955200A (fi) * 1995-10-31 1997-05-01 Nokia Mobile Phones Ltd Yhteiskäytäntö half-duplex -liikennöintiä varten
WO1999061986A1 (fr) * 1998-05-27 1999-12-02 Mitsubishi Denki Kabushiki Kaisha Equipements peripheriques pour controleur programmable et leur procede de surveillance
US6434613B1 (en) * 1999-02-23 2002-08-13 International Business Machines Corporation System and method for identifying latent computer system bottlenecks and for making recommendations for improving computer system performance
WO2000060872A1 (fr) * 1999-03-31 2000-10-12 Matsushita Electric Industrial Co., Ltd. Procede et dispositif de decodage continu de flux video comprenant des sequences de donnees ayant des frequences de trame differentes
US6484088B1 (en) * 1999-05-04 2002-11-19 Ssi Technologies, Inc. Fuel optimization system with improved fuel level sensor
JP3309834B2 (ja) * 1999-07-16 2002-07-29 日本電気株式会社 Atm交換装置及びセルバッファ使用率監視方法
JP2001331333A (ja) * 2000-05-18 2001-11-30 Hitachi Ltd 計算機システム及び計算機システムの制御方法
US6666676B2 (en) * 2000-08-17 2003-12-23 Comercial Acros Whirlpool S.A. De C.V. Programmable burner for gas stoves
US6662929B1 (en) * 2000-11-17 2003-12-16 Lockhead Martin Corporation Parcel singulation software control logic
US6854074B2 (en) * 2000-12-01 2005-02-08 Internetseer.Com Corp. Method of remotely monitoring an internet web site
US6763359B2 (en) * 2001-06-06 2004-07-13 International Business Machines Corporation Learning from empirical results in query optimization
CA2474879C (en) * 2001-07-03 2013-04-09 Imagine Broadband Limited Method and system for monitoring service performance over a virtual private network connection by simulating end user activity
JP2003177945A (ja) * 2001-12-12 2003-06-27 Hitachi Ltd 計算機管理方法及びその実施システム並びにその処理プログラム
JP3766332B2 (ja) * 2002-02-12 2006-04-12 アライドテレシスホールディングス株式会社 管理装置及びプログラム
US7194000B2 (en) * 2002-06-21 2007-03-20 Telefonaktiebolaget L.M. Ericsson Methods and systems for provision of streaming data services in an internet protocol network
WO2004053666A1 (ja) * 2002-12-11 2004-06-24 Interlex Inc. ソフトウェア実行制御システム及びソフトウェアの実行制御プログラム
US7451201B2 (en) * 2003-09-30 2008-11-11 International Business Machines Corporation Policy driven autonomic computing-specifying relationships
US7461376B2 (en) * 2003-11-18 2008-12-02 Unisys Corporation Dynamic resource management system and method for multiprocessor systems
US20060085530A1 (en) * 2004-10-15 2006-04-20 Emc Corporation Method and apparatus for configuring, monitoring and/or managing resource groups using web services
GB0426125D0 (en) * 2004-11-27 2004-12-29 Ibm The connection of an application to a resource manager selected from a plurality of resource managers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1131730B1 (de) * 1998-10-20 2003-08-27 Ajay Deo Verfahren und gerät um echtzeit rufbearbeitungsdienste in einem intelligenten netzwerk zur verfügung zu stellen

Also Published As

Publication number Publication date
JP2007515727A (ja) 2007-06-14
DE10360535A1 (de) 2005-07-21
WO2005062172A2 (de) 2005-07-07
US20070011315A1 (en) 2007-01-11
EP1697846A2 (de) 2006-09-06
WO2005062172A3 (de) 2006-03-30
JP4584268B2 (ja) 2010-11-17
US8051173B2 (en) 2011-11-01

Similar Documents

Publication Publication Date Title
DE60220287T2 (de) System und verfahren zur überwachung von software-warteschlangenanwendungen
DE102006021830B4 (de) System und Verfahren zur zeitgesteuerten Programmausführung
DE102004012056B4 (de) System und Verfahren zum Überwachen von Ressourcenausnutzung und Anwendungsleistungsfähigkeit
DE60214862T2 (de) Methode für die verbesserte verwaltung von einer ereignisdatenbasis und system für ereignismeldung in einem netzwerk
DE60226176T2 (de) Verfahren und programme zur einstellung von prioritätsstufen in einem datenverarbeitungssystem mit multiprogrammierung und priorisierte warteschlangenbildung
EP0992903B1 (de) Verfahren zur Durchführung von Kooperativem Multitasking in einem Nachrichtenübertragungsnetz und Netzelement dafür
EP1831786B1 (de) Verfahren zur verteilung von rechenzeit in einem rechnersystem
EP0807883B1 (de) Kommunikationssystem mit Mitteln zum Austausch von Softwareprozessen
DE69727633T2 (de) Verfahren und Gerät zur Benutzerstufeunterstützung für das Synchronisieren mehrerer Ereignisse
DE10059796A1 (de) Steuerung der Lebensdauer von Aktivitäten für die Datenverarbeitung
DE19822543A1 (de) Verfahren zum Zuteilen von Aufträgen, Datenverarbeitssystem, Client-Datenbearbeitungsknoten und computerlesbares Speichermedium
DE2911677B2 (de) Verfahren und Schaltungsanordnung zum Überwachen und Verhindern von Blockierungen in Datenverarbeitungssystemen mit mehreren Prozessoren
DE112005001995B4 (de) Computeranordnung und Verfahren zum Anbieten von Diensten für Benutzer über ein Netzwerk
DE102009004726A1 (de) Systeme und Verfahren zum Verfolgen von Befehlszeigern und Datenzugriffen
DE102007041345A1 (de) X-Core Bildrekonstruktionssystem (IRS) mit x-parallelen Recon-Pipelines
DE10360535B4 (de) Einrichtung und Verfahren zur Steuerung und Kontrolle von Überwachungsdetektoren in einem Knoten eines Clustersystems
DE102013211266B4 (de) Aufrechterhalten der Bandbreiten-Servicequalität einer Hardware-Ressource über einen Hardware-Zähler
EP1514180A2 (de) Reaktionszeit-beschränkung eines software-prozesses
EP2615511A1 (de) Verfahren zur synchronen Ausführung von Programmen in einem redundanten Automatisierungssystem
EP1536328A2 (de) Datenverarbeitungssystem mit automatisierbarer Verwaltung und Verfahren zur automatisierten Verwaltung eines Datenverarbeitungssystems
DE60110318T2 (de) Verfahren und Vorrichtung zur Überwachung und Steuerung von elektronischen Geräten
DE10123822A1 (de) Einrichtung zur Verwaltung einer Dienstverbindung zwischen einem Clientprozess mit einer Single-Thread-Bibliothek und einem Serverprozess
LU101163B1 (de) Verfahren und Vorrichtungen für eine Lastzuweisung und Überwachung für eine zuzuweisende versorgungssicherheitskritische Ressource in einem Netzwerk
DE60211703T2 (de) Verfahren und system zur zeitverwaltung in einem echtzeitsystem
EP2178267B1 (de) Verfahren zur Ausführung von Diensten in einem dezentralen Datennetz

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R084 Declaration of willingness to licence
R081 Change of applicant/patentee

Owner name: FUJITSU TECHNOLOGY SOLUTIONS INTELLECTUAL PROP, DE

Free format text: FORMER OWNER: FUJITSU SIEMENS COMPUTERS GMBH, 80807 MUENCHEN, DE

Effective date: 20111229

R082 Change of representative

Representative=s name: EPPING HERMANN FISCHER, PATENTANWALTSGESELLSCH, DE

Effective date: 20111229

Representative=s name: EPPING HERMANN FISCHER PATENTANWALTSGESELLSCHA, DE

Effective date: 20111229

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee