DE10134492B4 - Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster - Google Patents

Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster Download PDF

Info

Publication number
DE10134492B4
DE10134492B4 DE10134492A DE10134492A DE10134492B4 DE 10134492 B4 DE10134492 B4 DE 10134492B4 DE 10134492 A DE10134492 A DE 10134492A DE 10134492 A DE10134492 A DE 10134492A DE 10134492 B4 DE10134492 B4 DE 10134492B4
Authority
DE
Germany
Prior art keywords
node
computer cluster
nodes
takeover
dmapi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10134492A
Other languages
English (en)
Other versions
DE10134492A1 (de
Inventor
Christian Bolik
Peter Gemsjaeger
Klaus Schroiff
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10134492A1 publication Critical patent/DE10134492A1/de
Application granted granted Critical
Publication of DE10134492B4 publication Critical patent/DE10134492B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

Verfahren zur Übernahme der Funktion eines hierarchischen Dateimanagementsystems (DMApi) in einem Rechnercluster von einem ausgefallenen Knoten (Ausfallknoten) des Rechnerclusters, mit den Schritten:
Laden des DMApi in ausgewählte Knoten des Rechnerclusters, die für eine Übernahme vorgesehen sind;
Speichern von Konfigurationsinformationen für das Dateimanagementsystem und den Rechnercluster in einer zentralen Speichereinheit innerhalb des Rechnerclusters;
Empfangen von Zustandsnachrichten der Knoten des Rechnerclusters in einer zentralen Übertragungsschnittstelle des Rechnerclusters zur Verteilung dieser Nachrichten an die ausgewählten Knoten des Rechnerclusters;
Analysieren der verteilten Zustandsnachrichten in den ausgewählten Knoten, um in jedem ausgewählten Knoten zu ermitteln, ob der ausgewählte Knoten die Übernahme für einen als ausgefallen signalisierten Knoten durchführen kann;
Aktualisieren der Konfigurationsinformationen für den Fall, dass mindestens ein ausgewählter Knoten die Übernahme durchführt.

Description

  • GRUNDLAGEN DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Übernahme der Funktion eines hierarchischen Dateimanagementsystems (DMApi) in einem Rechnercluster von einem ausgefallenen Knoten (Ausfallknoten) des Rechnerclusters.
  • Moderne leistungsfähige Datenverarbeitungssysteme mit mehreren Rechnern stellen auch Verfahren zur Verfügung, mit denen bei Ausfall eines Rechners oder bei seiner Überlastung andere Rechner herangezogen werden können. Ein Beispiel eines derartigen Systems beschreibt WO 98/26553, dessen Rechner in Dienstgruppen eingeteilt sind, so dass die Aufgaben innerhalb einer Dienstgruppe bei Bedarf neu verteilt werden können. Die spezifischen Probleme beim Ausfall eines Dateiverwaltungssystems in einem lose gekoppelten Rechnercluster sind dort nicht angesprochen.
  • Unternehmen mit großen oder vernetzten Rechnerumgebungen benutzen oftmals verteilte Dateisysteme. In den letzten Jahren hat die Notwendigkeit, hochauflösende Bilder, wissenschaftliche Daten usw. zu speichern, ein ernstes Ungleichgewicht zwischen dem Leistungsvermögen und der Funktionsweise von Systemen zur Dateneingabe/-ausgabe (E/A) und zum Speichern geschaffen. Daher muss sich die Leistungsfähigkeit und das Fassungsvermögen von derzeitigen Massenspeichersystemen um Größenordnungen verbessern.
  • Um kostengünstigen Zugriff auf Daten in derartigen speicherintensiven Rechnerumgebungen bereitzustellen, müssen Massenspeichersysteme mit den zugrunde liegenden verteilten Dateisystemen eingebaut werden. Dabei stellt das Verbinden von Massenspeichersystemen mit diesen Speichersystemen eine nahtlose Sicht des Speichersystems bereit.
  • Der ständig wachsende Bedarf an Datenspeicherkapazität schließt Kosten ein, die mit der Verwaltung des verteilten Speichersystems verbunden sind, wobei diese wesentlich höher sind als die Kosten des Speicherns an sich. Damit gibt es einen steigenden Bedarf an intelligenter und leistungsfähiger Speicherverwaltung mit Hilfe einer Datenverwaltungsanwendung (DM).
  • Die DM-Anwendung verschiebt die Daten zwischen einem schnellen Direktspeicher mit begrenzter Speicherkapazität und einem tertiären Speicherarchiv. Zusätzlich stellt es für alle Daten, die in dem tertiären Archiv gespeichert sind, direkte Semantik bereit, d.h., der Benutzer muss keinerlei verwaltungstechnische Vorgänge ausführen, um auf die Daten zuzugreifen. Darüber hinaus erkennt die DM-Anwendung jeden beliebigen Zugriff auf die archivierten Daten und überträgt die Daten automatisch an den Benutzer. Aus diesem Grund müssen einige Überwachungseinrichtungen bereitgestellt werden, so dass die DM-Anwendung benachrichtigt werden müsste, wenn ein Benutzer versucht, einen Datenblock aus einem Datei mit Daten zu lesen.
  • Das vorstehend beschriebene Konzept, nämlich örtlichen Speicherplatz freizumachen, indem Daten in eine entfernte Speichervorrichtung verschoben werden, ist allgemein als Hierarchische Speicherverwaltung (HSM) bekannt. Die Speicherverwaltung ist für den Benutzer transparent, d.h., er hat noch die gleiche Ansicht, als ob die Daten lokal angeordnet sind.
  • In einer auf Dateien beruhenden HSM erzeugt die DM-Anwendung so genannte "Abrissdateien" (stub files) als Platzhalter, die einfach die Dateiattribute festhalten. Wenn auf die Abrissdateien oder auf entsprechend gelochte(n) Plattenbereich e) zugegriffen wird, werden die Daten der Datei (oder eines Plattenbereiches) wieder von der entfernten Speichervorrichtung zurückgerufen. Üblicherweise wird HSM an einem Dateiserver installiert, der eine große Anzahl von Daten speichert, auf die selten zugegriffen wird (z.B. archivierte Wetterkarten, Videodarstellungen).
  • Es ist weiterhin bekannt, dass die Verfügbarkeit eines vorstehend beschriebenen verteilten Massenspeichersystems, d.h. die Verfügbarkeit der Kombination der zugrunde liegenden Datenspeichereinrichtungen und DM-Anwendung(en) verbessert werden kann, wenn ein Teil des Speichersystems Dienste eines ausgefallenen Speichersystems übernehmen kann, was üblicherweise als "Übernahme" bezeichnet wird.
  • Dabei sind Dateisysteme bekannt, die das gemeinsame Benutzen von Platten innerhalb mehrerer Hauptrechner verwalten, wie etwa das Allgemeine Parallele Dateisystem (GPFS), das auf AIX SP (einem auf UNIX beruhenden Parallelrechner mit skalierbarer Leistung) läuft, das vom gegenwärtigen Anmelder entwickelt wurde und von ihm vertrieben wird. Um es zu gestatten, dass DM-Anwendungen eher mehr in Form üblicher Softwareanwendungen entwickelt werden, ist eine Schnittstelle zur Datenverwaltungsanwendung (DMApi) (vorgegeben vom Konsortium der Data Management Interfaces Group (DMIG)) vorgeschlagen worden, die durch das Dateisystem eingerichtet wird und von einer Datenverwaltungs- (DM)Anwendung benutzt wird, um die folgenden Funktionen auszuführen
    • – Hierarchische Speicherverwaltung (HSM)
    • – Datensicherung und -wiederherstellung.
  • Die DMApi hat zum Ziel, eine Umgebung bereitzustellen, die für das Einrichten robuster DM-Anwendungen in handelsüblicher Qualität geeignet ist. In einer gemeinsam genutzten Plattenumgebung kann die DMApi insbesondere Einrichtungen für die Wiederherstellung nach einem Absturz der DM-Anwendung und statusbezogene Steuerung der Dateisystemobjekte enthalten.
  • In einer Gruppierung von lose verbundenen Rechnerknoten (Rechnercluster), auf welche die vorliegende Erfindung insbesondere gerichtet ist, umfasst jeder Knoten eine DM-Anwendung, die Unterstützung bei der Speicherverwaltung bereitstellt, was sogenannte "DMApi-Ereignisse" erforderlich macht, die synchron oder asynchron sein können. DMApi-Ereignisse sind Mechanismen, die es einer DM-Anwendung gestatten, immer dann benachrichtigt zu werden, wenn in einem zugrunde liegenden Betriebssystem bestimmte Vorgänge eintreten, das an einem bestimmten Knoten der Gruppierung eingerichtet worden ist. Durch diese Mechanismen können DMApi-Sitzungen von einem anderen Knoten übernommen werden, der einen einzigen Ausfallpunkt erzeugt. Die DMApi-Sitzungen sind die primären Übertragungskanäle zwischen einer DM-Anwendung und einer Kern-Komponente der DMApi, die in dem zugrunde liegenden Betriebssystem eingerichtet worden ist.
  • In einer klassischen Umgebung mit einem Knoten/Rechner enden im Falle eines Systemausfalles die Dateisystemdienste. In einer Gruppierungs-Umgebung (Rechnercluster) ist es am wahrscheinlichsten, dass ein Ausfall eines einzelnen Knotens andere (unabhängige) Knoten innerhalb des Systems nicht beeinflusst. Wenn sich die DM-Anwendung an dem Ausfallknoten befindet, ist der Zugriff auf Abrissdateien nicht mehr verfügbar, was möglicherweise laufende Vorgänge an aktiven Knoten der Gruppierung unterbricht. Daher ist es wünschenswert, die DM-Anwendung an einen aktiven Gruppierungsknoten zu verschieben, um die HSM-Funktion wiederherzustellen, damit andere Knoten vom Ausfall des anfänglichen Knotens nicht betroffen werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren und eine Vorrichtung der eingangs genannten Art bereitzustellen, um die Übernahme einer Datenverwaltungsanwendung für ein gemeinsam genutztes Plattenspeichersystem in einer verteilten Rechnerumgebung abzuwickeln.
  • Diese Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. vorteilhafte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.
  • Bei diesem Verfahren wird ein bestimmter Knoten der Gruppierung (Rechnerclusters) als Übernahmekandidatenknoten definiert, Konfigurationsinformationen für alle Übernahmekandidatenknoten gespeichert, Nachrichteninformationen verteilt, die Ausfallinformationen mindestens eines Übernahmekandidatenknotens unter den Übernahmekandidatenknoten enthalten, aber nicht darauf beschränkt sind, die verteilten Nachrichteninformationen und die gespeicherten Konfigurationsinformationen analysiert um zu ermitteln, ob der Dienst eines Ausfallknotens durch einen Übernahmekandidatenknoten übernommen wird, und die Konfigurationsinformationen für den Fall aktualisiert, dass mindestens ein Übernahmekandidatenknoten den Dienst eines Ausfallknotens übernimmt.
  • Im Allgemeinen gibt es in einer Gruppierungsumgebung zwei Arten von Ausfällen. Die erste Art ist diejenige, dass ein Knoten erkennt, dass er nicht länger in der Lage ist, Datenzugriffsdienste bereitzustellen und daher eine Übernahmeanforderung auslösen muss, um den Datenzugriffsdienst an einem unterschiedlichen Knoten wiederherzustellen. Im Falle eines vollständigen Ausfalles eines Knotens verteilt der Gruppierungsdienst an die Übernahmekandidatenknoten Ausfallereignisse. Die Erfindung richtet sich an beide Arten von Ausfällen und stellt nur einen Mechanismus bereit.
  • Das besondere Konzept, das die Grundlage der vorliegenden Erfindung bildet, besteht darin, in Verbindung mit einem Dateisystem einen Mechanismus bereitzustellen, der es beim Ausfall erlaubt, eine DMApi-Sitzung zu verschieben, womit eine stufenweise Übernahme einer DMA-Anwendung aktiviert wird. Dieser Mechanismus stellt auf eindeutige Weise dem/den Benutzer(n) des verteilten Massenspeichersystems ein größeres Maß an Verfügbarkeit bereit.
  • Lose verbundene Systeme sind durch eine ausgeprägte Unabhängigkeit der Gruppierungs-Knoten gekennzeichnet, die durch das Fehlen eines gemeinsam genutzten Hauptspeichers (RAM) verursacht wird. Die Funktionsfähigkeit der Gruppierung beruht auf einer Art von hardwareseitigen Hochgeschwindigkeitsverbindungen und einer Gruppierungs-Software (Clustersoftware), die Funktionen bereitstellt, wie etwa Übertragung von Knoten zu Knoten und gemeinsam genutzte Datenspeicher.
  • Im Vergleich zu einem monolithischen (mit mehreren Prozessoren ausgestatteten) System gibt es im Hinblick auf die Synchronisation zwischen lose verbundenen Gruppierungsknoten zwei Probleme:
    • – das Fehlen eines synchronisierten Verriegelungsmechanismus ähnlich den Systemmutexen
    • – der Verlust der lokalen Konfigurationsinformation an einem Ausfallknoten.
  • Die vorliegende Erfindung überwindet diese Probleme durch das Simulieren dieser Funktion unter Verwendung sekundärer Speicher und eines alternativen Verriegelungsmechanismus von Objekten.
  • Zusätzlich stellt die Erfindung vorteilhafterweise eine Zugriffsgarantie für Abrissdateien bereit.
  • In einer bevorzugten Ausführungsform der Erfindung wird eine Übernahmeanforderung an mindestens einen zweiten Übernahmekandidaten ausgeführt, wenn nur eine Untermenge des Dateisystems vom Ausfallknoten durch einen ersten Übernahmekandidaten übernommen wird. Dieser stufenweise Mechanismus verbessert die Robustheit der Fehlerbeseitigung in einer lose verbundenen Rechnerumgebung beträchtlich.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird besser aus der folgenden ausführlichen Beschreibung verstanden, wenn sie in Verbindung mit den zugehörigen Zeichnungen angenommen wird, aus denen weitere Merkmale und Vorzüge der Erfindung offenkundig werden. In den Zeichnungen ist
  • 1 ein schematisches Datenflussdiagramm, das den Datenfluss des DMApi-Modells für das Lesen einer nichtresidenten Datei nach dem Stand der Technik veranschaulicht;
  • 2 ein schematisches Blockdiagramm, das einen anfänglichen Zustand einer Knotengruppierung nach der Erfindung zeigt;
  • 3 ein Zeitplan, der eine erste Ausführungsform der Erfindung darstellt, die synchrone Synchronisierung zwischen mehreren Übernahmekandidatenknoten bereitstellt, um die Dienste eines Ausfallknotens zu übernehmen;
  • 4 ein Zeitplan ähnlich 3, der eine Ausführungsform darstellt, die asynchrone Synchronisierung bereitstellt;
  • 5 ein Blockdiagramm, das die Übernahme einer Rückrufanforderung nach entfernten Daten gemäß der Erfindung veranschaulicht; und
  • 6 ein weiteres Blockdiagramm, das eine beispielhafte Realisierung der Erfindung darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt einen Datenfluss eines DMApi-Modells zum Lesen einer nicht residenten Datei über der Zeit ("Zeitachse") nach Stand der Technik. Ein dargestellter Knoten 100 in einer verteilten und aus Gruppierungen bestehenden Rechnerumgebung (Rechnercluster) umfasst einen Hauptrechner, auf dem eine DM-Anwendung 110 läuft, die mehrere Wege bietet, um den Benutzerzugriff zu Dateidaten zu steuern, die örtlich (hier nicht gezeigt) gespeichert sind, z.B. auf einer lokalen Platte oder einem Sekundärspeicher, der eine Magnetplatte sein kann, die mit dem gezeigten Knoten verbunden ist. Am Knoten 100 läuft ein Kernbetriebssystem 120 mit einer DMApi-Realisierung 130.
  • An einem entfernten Knoten 140 wird ein tertiärer Speicher 150 bereitgestellt, der eine Speichereinrichtung mit einer hohen Speicherkapazität, aber einer niedrigen Zugriffs- oder Speicherleistung umfasst, die für Daten benutzt wird, auf die nicht häufig zugegriffen wird. Der tertiäre Speicher 150 ist oft eine robotergesteuerte Bandbibliothek oder ein selbsttätiger CD-Wechsler und ist oftmals mit einem beliebigen anderen Hauptrechner auf dem Netzwerk verbunden. Der Vorgang 160 des Verschiebens der Daten zwischen sekundärem und tertiärem Speicher 150 wird oft als Datenumlagerung bezeichnet.
  • Daten des Dateisystems (residente Daten) sind auf der lokalen Platte vorhanden und sind möglicherweise auf dem tertiären Speicher 150 dupliziert. Jegliche lokalen Veränderungen an den residenten Daten müssen, falls vorhanden, die tertiäre Kopie ungültig machen. Nichtresidente Daten sind nur auf dem tertiären Speicher 150 vorhanden und müssen auf die lokale Platte kopiert werden, ehe die Benutzer darauf zugreifen können. Es sollte angemerkt werden, dass das DMApi-Modell für den Datenfluss keinen Zugriff auf die Daten gestattet, wenn sie nicht zuerst auf die lokale Platte kopiert worden sind.
  • Um die Daten vom tertiären Speicher 150 in die Datei auf dem lokalen Speicher zu übertragen, ist die DM-Anwendung 110 in der Lage, Daten in die Datei zu schreiben, während verwaltete Bereiche festgelegt werden. Die DMApi bietet spezielle Schnittstellen (hier nicht gezeigt), um auf die "abgedeckten" Daten zuzugreifen, indem der Code für die Ereigniserzeugung umgangen wird. Diese Schnittstellen werden oftmals als unsichtbare E/A bezeichnet. Ihre Semantik gleicht den regelgerechten Systemaufrufen zum Lesen(2) und Aufzeichnen(2), ausgenommen, dass sie keine Datenereignisse erzeugen und Zeitmarkierungen von Dateien nicht verändern.
  • Um Dateidaten an den tertiären Speicher 150 zu schicken, muss die DM-Anwendung 110 Zugriffsrechte zur Zieldatei erwerben. Unter Verwendung der speziellen DMApi-Aufrufe können sowohl die Dateiattribute als auch die Dateidaten gelesen werden und an einen entfernten Datenserver geschickt werden. Danach können Datensegmente freigemacht werden (indem ein Datenloch gestanzt wird), um lokalen Speicher zu gewinnen. Das "Datenloch" ist ein sogenannter verwalteter Bereich. Die DM-Zugriffsrechte werden nach diesem Vorgang aufgehoben.
  • Um Nachrichten vom Dateisystem zu erhalten, muss die DM-Anwendung 110 eine Gruppe von DM-Ereignissen definieren, die sie für ein gegebenes Dateisystem empfangen möchte. Unter Anderem können derartige Ereignisse Lese-/Schreib-/Abschneide-Zugriff auf eine Datei oder Statusereigenisse eines Dateisystem im Hinblick auf Einbau- oder Speicherplatz sein (Benachrichtigung über fehlenden Speicherplatz).
  • Wenn eine Benutzeranwendung 170 eine ausgestanzte Datei liest (→ ihren verwalteten Bereich), unterbricht die DMApi die Anwendung und schickt ein Ereignis in eine Nachrichtenwarteschlange. Eine DM-Anwendung mit dem geeigneten Verarbeitungsmerkmal für das DM-Ereignis kann das Ereignis herauslesen und die Dateidaten aus dem entfernten Speicher wiederherstellen. Danach wird das Ereignis beantwortet, wodurch die ursprüngliche Anwendung erneut aktiviert (nicht mehr blockiert) wird, die das Leseereignis veranlasst hat.
  • HSM-Realisierungen, wie etwa der Tivoli-Platzverwalter, verwalten üblicherweise den lokalen Speicherplatz automatisch. So beginnt, wenn ein Dateisystem eine definierte Ausnutzungsrate überschreitet, sagen wir 70 %, oder ein Ereignis für das Ende des verfügbaren Speicherplatzes erzeugt, ein DM-Dämon auf der Grundlage von erzeugten Kandidatenlisten mit dem Umlagern auswählbarer Dateien an entfernte Server, bis eine definierte niedrigere Schwelle erreicht worden ist.
  • 2 zeigt den anfänglichen Status einer Gruppierung von 4 Knoten 200 nach der Erfindung. Knoten 2 stellt für ein vorgegebenes Allgemeines Paralleles Dateisystem (GPFS), das mit "/gpfs1" bezeichnet wird, DM-Dienste bereit. Die Knoten 1 und 3 sind mögliche Kandidaten (Übernahmekandidatenknoten), um die Dienste von Knoten 2 zu übernehmen. An Knoten 4 ist das gemeinsam genutzte Dateisystem nicht eingerichtet und daher nicht auswählbar. Die Konfigurationsdaten sind in einem AIX SP-weiten "Systemdatenbehälter" (SDR) 210 von IBM gespeichert. Die Übertragung zwischen den Knoten wird über SP-Gruppendienste (GS) 220 bewerkstelligt, die Knotenausfälle verfolgen und ein Übertragungsprotokoll bieten, um innerhalb einer definierten Gruppe von Knoten (hier den Knoten, die an der Gruppierung beteiligt sind) Nachrichten zu verteilen.
  • Eine gleichförmige Konfiguration innerhalb der Gruppierung 200 wird durch das Speichern der Konfigurationsdaten für alle Übernahmeknoten 230 bis 250 in der SDR 210 garantiert, die sich innerhalb der Gruppierung 200 befindet.
  • Die gemeinsam genutzte Umgebung muss Folgendes wissen:
    • – Liste der Dateisysteme, die innerhalb der Gruppierung 200 verwaltet werden, die bestimmte Einstellungen der Dateisysteme enthält
    • – Knoten, der derzeit ein oder mehrere Dateisysteme verwaltet
    • – Zusätzliche Konfigurationsinformationen, wie z.B. die Zugriffsinformationen auf Server mit entfernter Speicherung
  • Zusätzlich wird eine Übertragungsschnittstelle bereitgestellt, um Nachrichten (z.B. einen Ausfallbericht eines Knotens) an die teilnehmenden Knoten der Übernahmeumgebung zu verteilen (siehe 3 für ein angemessenes Übertragungsprotokoll zur Ausfallwiederherstellung).
  • Die Übertragungsinstanz (wie etwa die AIX SP Gruppendienste) stellt eine API bereit, die es teilnehmenden Gruppierungsknoten gestattet, eine Verwaltungsgruppe zu bilden. In der Übertragungsarchitektur ist jeder Knoten ein Client (ein sogenannter Dienst-"Versorger" in der Welt von SP GS) der Gruppendienstinstanz (Server). Nachrichten von Clients, die an die Schnittstelle geschickt werden, werden automatisch an die teilnehmenden Gruppenmitglieder verteilt. Die Nachrichtenverbreitung von AIX SP GS ist ereignisgesteuert (Rückruf-Funktion).
  • Wenn die DM-Anwendung an einem Knoten nicht mehr in der Lage ist, ihren Dienst bereitzustellen, müssen die anderen Mitglieder der Übernahmegruppe von dem Ausfall benachrichtigt werden. Dies kann entweder aktiv vom Ausfallknoten her oder im Falle eines vollständigen Knotenausfalles (Absturz) durch einen Übertragungsdienst in der Gruppierung (z.B. SP GS) berichtet werden.
  • Auf der Grundlage der Ausfallbenachrichtigung müssen die möglichen Übernahmeknoten in der Ausfallumgebung ihre Anstrengungen synchronisieren, um die DM-Dienste für das Dateisystem wiederherzustellen, das früher durch den Ausfallknoten verwaltet worden ist. Jeder Knoten muss die gemeinsam genutzten Konfigurationsdaten analysieren, die in dem zentralen Datenbehälter 210 enthalten sind, um zu entscheiden, ob die Wahl besteht, den Dienst des Ausfallknotens zu übernehmen. Das Ergebnis dieser Verfahrensweise kann wie folgt sein:
    1. Kein Kandidat: nichts zu machen – der Dienst kann nicht wiederhergestellt werden
    2. Ein Kandidat: Dienst kann ohne zusätzlichen Aufwand zum Synchronisieren wiederhergestellt werden
    3. mehr als ein Kandidat: Dienst kann wiederhergestellt werden, aber Synchronisieren ist erforderlich
  • Im Hinblick auf das aus Option 3 bestehende Ergebnis ist, wenn die Gruppierung 200 von Knoten nicht über einen gemeinsam genutzten Speicher kommuniziert (z.B. eine Gruppierung unabhängiger Rechner, wie etwa ein SP von IBM), zusätzlicher Aufwand erforderlich, die unterschiedlichen Knoten zu synchronisieren. Die Synchronisation zwischen mehreren Kandidaten zur Übernahme des Dateisystems eines Ausfallknotens kann entweder
    • a) synchron oder
    • b) asynchron erfolgen.
  • 3 zeigt eine erste Ausführungsform des Verfahrens nach der Erfindung in einer Gruppierung mit 4 Knoten, wie sie in 2 dargestellt ist. Es bietet synchrone, d.h. auf Übertragung beruhende Synchronisation zwischen mehreren Übernahmekandidatenknoten zum Übernehmen der Dienste eines Ausfallknotens 300.
  • Um zwischen unterschiedlichen Knoten einer Gruppierung Übernahmefunktionen bereitzustellen, muss die DM-Anwendung auf allen Knoten installiert worden sein, die an dem Wiederherstellungsvorgang nach dem Ausfall beteiligt sein sollten. In der anfänglichen Konfiguration stellt mindestens einer dieser Knoten Datenverwaltungdienste (DM) für ein bestimmtes Dateisystem bereit. Mögliche Übernahmekandidaten 310, 320 bleiben schlafend im Hintergrund oder stellen Dienste für unterschiedliche Dateisysteme bereit.
  • Die auswählbaren Knoten 310, 320 senden über einen Übertragungsmechanismus in der Gruppierung eine Nachricht aus, die von einem zugewiesenen Gruppierungsübertragungsdienst 330, wie etwa die vorstehend beschriebenen Gruppendienste, verarbeitet wird, um sie an die anderen Mitglieder 310, 320, 350 der Gruppe zu verteilen. Diese Nachricht enthält einen Prioritätsschüssel 340 (z.B. auf der Grundlage der Auslastung 360 des Knotens).
  • Das Verfahren stellt vorzugsweise einen Blockiermechanismus bereit, der auf einer Befehlsschnittstelle beruht, die vom Systemdatenbehälter (SDR) bereitgestellt wird, wie er in AIX SP benutzt wird. Der SDR gestattet es, dauerhafte Datenobjekte für eine gegebene Art von Datensatz zu erzeugen und zu verändern. Es ist möglich, ein Datenobjekt in einem Bausteinvorgang zu prüfen und zu verändern, so dass an einem gemeinsam genutzten HSM-Betriebsmittel eine Verriegelung eingestellt wird (ähnlich einer Systemmutex), die in der vorliegenden Ausführungsform als der folgende WENN-DANN-Schritt realisiert wird
    Wenn (Verriegelung == 0) dann {Verriegelung = 1}
  • Wenn diese Prüfung fehlschlägt, nicht erfüllt wird, wartet der Aufrufer eine Zeit lang, ehe er es wieder versucht. Zusätzlich zu der Verriegelung muss ein nachfolgender Knoten auch eine die Verriegelung kennzeichnende Zeitmarke aktualisieren (auf der Grundlage des über die Gruppierung wirkenden synchronisierten Taktes). Wenn ein Knoten, der die Verriegelung festhält, einen Absturz hat, würde der wartende Knoten versuchen, unablässig auf die Verriegelung zuzugreifen, was offenkundig nicht erwünscht ist.
  • Eine Dienstübernahme kann etwa 60 Sekunden dauern. Wenn nun eine Zeitmarke für eine Verriegelung älter als diese 60 Sekunden ist, kann ein Kandidatenknoten annehmen, dass der Knoten, der die Verriegelung festhält, keine Wiederherstellung erfährt und ist damit frei, die Übernahme der Verriegelung zu erzwingen (indem er die Zeitmarke wieder aktualisiert). Nachdem der Zugriff des gemeinsam genutzten HSM-Betriebsmittels beendet ist, wird die Verriegelung auf null zurückgesetzt.
  • Der Prioritätsschlüssel, wie er vorstehend beschrieben wird, beruht auf dem UNIX-Befehl "uptime". Neben anderen Daten zeichnet "uptime" die Systemauslastung über die letzten 15 Minuten auf. Je höher die aufgezeichnete Auslastung ist, desto niedriger ist der Wert des Prioritätsschlüssels.
  • Die Knoten, die eine Nachricht erhalten, können den ankommenden Schlüssel mit dem eigenen vergleichen. Der beste Schlüssel 380 erwirbt das Recht, den Dienst zu übernehmen. Die Anzahl der möglichen Sicherungsknoten, die einen Schlüssel aussenden, ist im System unbekannt, so dass die Abstimmungsphase nach Ablauf einer bestimmten Zeit 370 beendet werden muss.
  • Der Knoten, der gewonnen hat, fügt entweder ein oder mehrere Dateisysteme zu seiner derzeit aktiven HSM-Konfiguration hinzu oder beginnt mit dem HSM-Dienst 380. Üblicherweise muss er für auf DMApi beruhenden Anwendungen die Ereignismaske einstellen, um alle ankommenden Ereignisse zu übernehmen, die für das/die Ziel-Dateisystem(e) erzeugt worden sind. Der Knoten, der einen Dienst übernimmt, muss die Konfigurationsdateien innerhalb des zentralen Datenbehälters aktualisieren, damit die Konsistenz sichergestellt wird. Der Aktualisierungsmechanismus muss durch den Verriegelungsmechanismus vorhanden sein (siehe vorstehend), damit Konkurrenzbedingungen vermieden werden. Der Rest verbleibt entweder als schlafende Sicherung oder setzt den Dienst an ihren eigenen HSM-Dateisystemen fort. Wenn sich ein Knoten in der Abstimmungsphase verspätet, kann er einen Vergleich mit dem aktiven Knoten vornehmen, der in der Eigentümerdatei mit dem ausgefallenen Knoten definiert ist. Wenn es keine Übereinstimmung gibt, lässt er den Versuch fallen, die Steuerung zu übernehmen, weil die Übernahme schon erfolgt ist.
  • Das Verwalten der Situation durch einen synchronen mehrphasigen Quittungsaustausch, wie er vorstehend beschrieben worden ist, erfordert es, Statusinformationen eine gewisse Zeit lang aufrechtzuerhalten, und es kommt ein gehöriger Übertragungsaufwand hinzu. Es ist ebenfalls notwendig, per Dateisystem abzustimmen, weil der anfängliche Übernahmeknoten nicht in der Lage sein könnte, alle Dateisysteme des Ausfallknotens zu verwalten (z.B. Dateisystem nicht angehängt).
  • 4 zeigt eine unterschiedliche Ausführungsform, bei der die Synchronisation zwischen Übernahmekandidatenknoten über ein asynchrones (auf Datenverriegelung beruhendes) Protokoll erfolgt. Diese Ausführungsform wird in einer Situation mit 3 Knoten veranschaulicht. Jeder Knoten kann sich darum bewerben, ein Dateisystem einfach durch Verriegeln, Aktualisieren und Entriegeln der Konfigurationsdateien zu übernehmen. Der Knoten, der in der Lage war, die Konfigurationsdateien in dem Datenbehälter der Gruppierung zu verriegeln und zu verändern, erwirbt das Recht, von dem Ausfallknoten Dateisysteme zu übernehmen. Die Übernahmeanforderung wird in Stufen zu verspäteten Knoten weitergehen, die noch in der Lage sein können, restliche Dateisysteme zu übernehmen, die durch vorherige Übernahmeknoten nicht bedient werden können. Im Gegensatz zu der synchronen Verfahrensweise, die in 3 dargestellt ist, erfordert der beschriebene asynchrone Übernahmemechanismus keine expliziten Nachrichten zwischen den Knoten der Übernahmegruppe.
  • Zum Zeitpunkt des Ausfalls kann der ausfallende Knoten dabei sein, Datenverwaltungsereignisse (DM) aus dem Dateisystem zu verarbeiten. Vorgänge, die derartige Ereignisse erzeugen, werden durch die DMApi-Umgebung blockiert, bis die DM-Anwendung das Ereignis freigibt, nachdem die Daten einer Datei aus einem entfernten Speicherserver zurückgerufen worden sind. Der Knoten, der den Dienst übernimmt, benutzt eine vorhandene DMApi-Sitzung oder – wenn keine vorhanden ist – erzeugt er eine neue. Zusätzlich nimmt er die Sitzung des ausgefallenen Knotens auf. Wartende Ereignisse vom ausgefallenen Knoten werden in eine zeitweilige DMApi-Sitzung verschoben und auf unterschiedliche Weisen verwaltet, was von der Art des Ereignisses abhängt. Dies stellt sicher, dass blockierte Vorgänge wieder frei gemacht werden.
  • Die in 5 dargestellte Veranschaulichung zeigt die Übernahme von Anforderungen nach entfernten Wiederaufrufen von Daten. Bei GPFS HSM unterstützt die DMApi diese Art von Übernahme von Ereignissen, wenn der GPFS-Dämon zugrunde gegangen ist, aufgrund eines Knotenabsturzes durch eine Benutzeranforderung auf ungewöhnliche Art und Weise).
  • In Abhängigkeit von der Verarbeitungsart des Übertragungsereignisses kann die DM-Anwendung auch eine Art von Warteschlangenbildung benötigen, um Probleme mit konkurrierenden Pfaden zu vermeiden. Grundsätzlich werden durch ein verriegeltes Datenobjekt in dem zentralen Datenbehälter alle Vorgänge/Pfade blockiert, aber dies ruft Warten wegen Belegung hervor, was nicht wünschenswert ist. In einer Umgebung mit einem einzigen Pfad könnten ankommende Anforderungen in einer einfachen FIFO-Liste gespeichert werden. In einer Umgebung mit vielen Pfaden könnte die Synchronisation durch Systemmutexen oder Bedingungsvariable erreicht werden.
  • Abschließend stellt 6 eine Realisierung von Gruppendiensten der Erfindung in einer GPFS HSM für AIX auf SP von IBM dar.
  • Die gezeigten Merkmale der SP-Umgebung sind
    • – Gruppendienste (GS) 600, die ein über die Gruppierung wirkendes Übertragungsprotokoll plus einen Verfolgungsmechanismus für Knotenabstürze bereitstellen
    • – Systemdatenbehälter (SDR) 610, um über die Gruppierung Konfigurationsdateien zu speichern.
  • Die SP-Gruppendienste stellen einen Mechanismus bereit, um eine Übertragungsgruppe zu bilden, die aus Vorgängen besteht, die verteilt an einem beliebigen SP-Knoten laufen. Die teilnehmenden Vorgänge können an alle Mitglieder der Gruppe Nachrichten verteilen. Zusätzlich können Gruppendienste angewiesen werden, den Ablaufstatus der Mitgliedsvorgänge zu überwachen – ein Merkmal, das dafür benutzt werden kann, den Mitgliedern der Gruppe Vorgangsausfälle (⎕ gesamter Knoten) zu berichten, die den Übernahmemechanismus auslösen.
  • Die Aufgaben von GPFS HSM auf AIX SP sind in 3 Dämonen aufgeteilt:
    • – dsmwatchd 620, 630, 640, was der Sammelpunkt für alle Aktivitäten zur Übernahme/Wiederherstellung ist
    • – dsmrecalld 680, 690, 700, die dafür verantwortlich sind, umgelagerte Daten aus dem entfernten Speicherserver wieder aufzurufen
    • – dsmmonitord 650, 660, 670 achtet auf den Zustand des aufgebrauchten Speicherplatzes bei einem Dateisystem und sorgt für die automatische Datenumlagerung an den entfernten Speicherserver
  • Der dsmwatchd erfüllt grundlegend zwei Tasks (Aufgaben):
    • – Wiederherstellung eines abgestürzten dsmmonitord und dsmrecalld, das durch den Hauptvorgang (DM-Pfad) 720 erfolgt
    • – Verwalten der Übernahmeumgebung, ausgelöst durch Rückrufpfade der GS 730, die Folgendes enthalten
    • – aktive Übernahme im Falle einer beschädigten lokalen Umgebung (Absturz % Abschaltung von GPFS-Dämon, Knotenabsturz, HSM-Dämon beschädigt)
    • – aktive Übernahme von Dateisystemen eines entfernten Ausfallknotens.
  • Nach der ersten Aufgabe stößt der dsmwatchd über einen DM-Aufruf den dsmrecalld an um zu prüfen, ob DM-Dienste in Betrieb sind und um sicherzustellen, dass der dsmrecalld tatsächlich läuft. Wenn der dsmwatchd den dsmrecalld nicht mehr anstoßen kann, wird er versuchen, den dsmrecalld einmal neu zu starten, und wenn er keinen Erfolg hat, wird er die Übernahme an einen unterschiedlichen Knoten unter der Annahme auslösen, dass die DM-Umgebung beschädigt worden ist. Zusätzlich verfolgt er die Vorgangs-ID, um den Zieldämon neu zu starten, wenn die PID nicht mehr vorhanden ist.
  • Nach der zweiten Aufgabe werden die Vorgänge der SP-Gruppendienste (GS) wie vorstehend beschrieben eingerichtet. Der Übernahmemechanismus arbeitet vorzugsweise asynchron, da ein synchroner Betrieb auf Grund bestimmten GS-Einschränkungen oftmals nicht stattfinden kann. Mehrere Anforderungen auf Übernahmen werden über Pfad-Mutexen in einer Warteschlange angeordnet.

Claims (9)

  1. Verfahren zur Übernahme der Funktion eines hierarchischen Dateimanagementsystems (DMApi) in einem Rechnercluster von einem ausgefallenen Knoten (Ausfallknoten) des Rechnerclusters, mit den Schritten: Laden des DMApi in ausgewählte Knoten des Rechnerclusters, die für eine Übernahme vorgesehen sind; Speichern von Konfigurationsinformationen für das Dateimanagementsystem und den Rechnercluster in einer zentralen Speichereinheit innerhalb des Rechnerclusters; Empfangen von Zustandsnachrichten der Knoten des Rechnerclusters in einer zentralen Übertragungsschnittstelle des Rechnerclusters zur Verteilung dieser Nachrichten an die ausgewählten Knoten des Rechnerclusters; Analysieren der verteilten Zustandsnachrichten in den ausgewählten Knoten, um in jedem ausgewählten Knoten zu ermitteln, ob der ausgewählte Knoten die Übernahme für einen als ausgefallen signalisierten Knoten durchführen kann; Aktualisieren der Konfigurationsinformationen für den Fall, dass mindestens ein ausgewählter Knoten die Übernahme durchführt.
  2. Verfahren nach Anspruch 1, wobei mindestens ein zweiter ausgewählter Knoten die Übernahme für eine Untermenge des Dateisystems vom Ausfallknoten durchführt.
  3. Verfahren nach Anspruch 1 oder 2, wobei die ausgewählten Knoten die verteilten Nachrichten in einem Synchronisationsprozess innerhalb einer festgelegen Zeitspanne verarbeiten.
  4. Verfahren nach Anspruch 1 oder 2, wobei die ausgewählten Knoten die verteilten Nachrichten in einem asynchronen Prozess mit Hilfe eines Verriegelungsmechanismus verarbeiten.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die ausgewählten Knoten einen Prioritätsschlüssel berechnen, der sich auf die Auslastung jedes der ausgewählten Knoten bezieht und der Teil der verteilten Nachrichten ist.
  6. Verfahren nach Anspruch 4, wobei jeder ausgewählte Knoten durch Vergleich des empfangenen Prioritätsschlüssels mit dem eigenen Prioritätsschlüssel über die Übernahme entscheidet.
  7. Rechnercluster mit einem hierarchischen Dateimanagementsystem (DMApi), das auf einem Knoten des Rechnerclusters ausgeführt wird und mit Vorrichtungen zur Übernahme ausgefallener Funktionen eines Knotens, gekennzeichnet durch die Merkmale: in ausgewählte Knoten des Rechnerclusters ist des DMApi geladen und steht für eine Übernahme der Funktion des hierarchischen Dateimanagementsystems zur Verfügung; ein zentraler Datenspeicher (220) im Rechnercluster zum Speichern von Konfigurationsinformationen des Dateimanagementsystems und der ausgewählten Knoten; eine zentrale Übertragungsschnittstelle im Rechnercluster zum Empfang und zum Verteilen von Nachrichten zwischen den ausgewählten Knoten; Mittel in den ausgewählten Knoten zum Analysieren der empfangenen Nachrichten, um zu entscheiden, ob die Übernahme des ausgefallenen DMApi durch den Knoten erfolgen soll; Mittel zum Aktualisieren der Konfigurationsinformationen für den Fall, das mindestens ein ausgewählter Knoten die Funktion des ausgefallenen Knotens übernimmt.
  8. Rechnercluster nach Anspruch 7, mit Mitteln zum stufenweisen Abwickeln der Übernahmen, wobei mindestens ein zweiter ausgewählter Knoten eine Übernahme für eine Untermenge des Dateisystems durchführt.
  9. Rechnercluster nach Anspruch 7 oder 8, wobei die Mittel zum Aktualisieren der Konfigurationsinformationen in dem ausgewählten Knoten enthalten sind, der eine Funktion eines ausgefallenen Knotens übernimmt.
DE10134492A 2000-07-28 2001-07-10 Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster Expired - Fee Related DE10134492B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP1164532 2000-07-28
EP00116453 2000-07-28

Publications (2)

Publication Number Publication Date
DE10134492A1 DE10134492A1 (de) 2002-02-21
DE10134492B4 true DE10134492B4 (de) 2006-02-09

Family

ID=8169395

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10134492A Expired - Fee Related DE10134492B4 (de) 2000-07-28 2001-07-10 Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster

Country Status (6)

Country Link
US (2) US6990606B2 (de)
JP (1) JP4204769B2 (de)
KR (1) KR100423687B1 (de)
CN (1) CN1190733C (de)
DE (1) DE10134492B4 (de)
SG (1) SG99917A1 (de)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990606B2 (en) * 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US6890968B2 (en) * 2001-05-16 2005-05-10 Kerr Corporation Prepolymerized filler in dental restorative composite
US7702791B2 (en) 2001-07-16 2010-04-20 Bea Systems, Inc. Hardware load-balancing apparatus for session replication
US7571215B2 (en) * 2001-07-16 2009-08-04 Bea Systems, Inc. Data replication protocol
US7409420B2 (en) * 2001-07-16 2008-08-05 Bea Systems, Inc. Method and apparatus for session replication and failover
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7113980B2 (en) * 2001-09-06 2006-09-26 Bea Systems, Inc. Exactly once JMS communication
US6826601B2 (en) * 2001-09-06 2004-11-30 Bea Systems, Inc. Exactly one cache framework
US7392302B2 (en) 2002-02-21 2008-06-24 Bea Systems, Inc. Systems and methods for automated service migration
US7178050B2 (en) * 2002-02-22 2007-02-13 Bea Systems, Inc. System for highly available transaction recovery for transaction processing systems
US20030177224A1 (en) * 2002-03-15 2003-09-18 Nguyen Minh Q. Clustered/fail-over remote hardware management system
EP1540510B1 (de) * 2002-09-10 2009-08-12 Exagrid Systems, Inc. Verfahren und vorrichtung zur verwaltung der datenintegrität von sicherungs- und katastrophen-wiederherstellungsdaten
US7814050B2 (en) * 2002-10-22 2010-10-12 Brocade Communications Systems, Inc. Disaster recovery
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN1302411C (zh) * 2002-12-31 2007-02-28 联想(北京)有限公司 大型机群系统的集中控制方法
US7137040B2 (en) * 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
CN1326045C (zh) * 2003-06-09 2007-07-11 浪潮电子信息产业股份有限公司 构建高可用分布式存储系统的方法
US20060064400A1 (en) * 2004-09-21 2006-03-23 Oracle International Corporation, A California Corporation Methods, systems and software for identifying and managing database work
US7747717B2 (en) * 2003-08-14 2010-06-29 Oracle International Corporation Fast application notification in a clustered computing system
US7664847B2 (en) * 2003-08-14 2010-02-16 Oracle International Corporation Managing workload by service
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
JP4023441B2 (ja) 2003-12-09 2007-12-19 日本電気株式会社 コンピュータシステム及びプログラム
DE102004005128B3 (de) * 2004-02-02 2005-01-05 Fujitsu Siemens Computers Gmbh Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall
US7584382B2 (en) * 2004-02-19 2009-09-01 Microsoft Corporation Method and system for troubleshooting a misconfiguration of a computer system based on configurations of other computer systems
US7900206B1 (en) * 2004-03-31 2011-03-01 Symantec Operating Corporation Information technology process workflow for data centers
JP4382602B2 (ja) * 2004-04-23 2009-12-16 株式会社日立製作所 リモートコピーシステム
US7451347B2 (en) * 2004-10-08 2008-11-11 Microsoft Corporation Failover scopes for nodes of a computer cluster
US8195976B2 (en) * 2005-06-29 2012-06-05 International Business Machines Corporation Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
US8326990B1 (en) 2005-07-15 2012-12-04 Symantec Operating Corporation Automated optimal workload balancing during failover in share-nothing database systems
US7814065B2 (en) * 2005-08-16 2010-10-12 Oracle International Corporation Affinity-based recovery/failover in a cluster environment
WO2007035747A2 (en) * 2005-09-19 2007-03-29 Millennium It (Usa) Inc. Scalable fault tolerant system
JP4730263B2 (ja) * 2005-09-21 2011-07-20 富士ゼロックス株式会社 画像処理装置の保守システム
US7493512B2 (en) * 2005-10-04 2009-02-17 First Data Corporation System and method for providing data services via a network
US7761431B2 (en) * 2006-02-16 2010-07-20 International Business Machines Corporation Consolidating session information for a cluster of sessions in a coupled session environment
WO2007110931A1 (ja) * 2006-03-28 2007-10-04 Fujitsu Limited 名前空間複製プログラム、名前空間複製装置、名前空間複製方法
US7770063B2 (en) 2006-08-26 2010-08-03 International Business Machines Corporation Simulation of failure recovery within clustered systems
US20080077635A1 (en) * 2006-09-22 2008-03-27 Digital Bazaar, Inc. Highly Available Clustered Storage Network
US7992036B2 (en) * 2007-01-22 2011-08-02 International Business Machines Corporation Apparatus, system, and method for volume-level restoration of cluster server data
JP5341317B2 (ja) * 2007-01-30 2013-11-13 セイコーエプソン株式会社 アプリケーション実行システム、コンピュータ、アプリケーション実行システムのアプリケーション実行方法およびプログラム
US8713186B2 (en) * 2007-03-13 2014-04-29 Oracle International Corporation Server-side connection resource pooling
US7734947B1 (en) * 2007-04-17 2010-06-08 Netapp, Inc. System and method for virtual interface failover within a cluster
JP2008269462A (ja) * 2007-04-24 2008-11-06 Hitachi Ltd ノードの管理装置及び方法
US7958385B1 (en) 2007-04-30 2011-06-07 Netapp, Inc. System and method for verification and enforcement of virtual interface failover within a cluster
US8984108B2 (en) * 2007-05-03 2015-03-17 Telefonaktiebolaget L M Ericsson (Publ) Dynamic CLI mapping for clustered software entities
CA2630014C (en) * 2007-05-18 2014-05-27 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
US7631214B2 (en) * 2007-05-31 2009-12-08 International Business Machines Corporation Failover processing in multi-tier distributed data-handling systems
US7861111B2 (en) * 2007-06-15 2010-12-28 Savvis, Inc. Shared data center disaster recovery systems and methods
US7921324B2 (en) * 2007-07-12 2011-04-05 International Business Machines Corporation Providing file system availability during local path failure of a non-server node
US8527622B2 (en) * 2007-10-12 2013-09-03 Sap Ag Fault tolerance framework for networks of nodes
US8630415B2 (en) * 2008-01-25 2014-01-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for authentication service application processes during service reallocation in high availability clusters
CN101552690B (zh) * 2008-03-31 2011-04-06 华为技术有限公司 一种节点维护功能的配置方法、系统及节点设备
US8135981B1 (en) * 2008-06-30 2012-03-13 Symantec Corporation Method, apparatus and system to automate detection of anomalies for storage and replication within a high availability disaster recovery environment
US8399206B2 (en) * 2008-07-10 2013-03-19 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
US7827321B2 (en) * 2008-10-02 2010-11-02 International Business Machines Corporation Central processing unit measurement facility
JP4648447B2 (ja) 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
US8037364B2 (en) * 2009-01-09 2011-10-11 International Business Machines Corporation Forced management module failover by BMC impeachment consensus
CN101847148B (zh) * 2009-03-23 2013-03-20 国际商业机器公司 实现应用高可用性的方法和装置
CN101854373B (zh) * 2009-04-01 2013-10-09 华为技术有限公司 任务切换方法、服务器节点及集群系统
US8873377B2 (en) * 2009-11-18 2014-10-28 Juniper Networks, Inc. Method and apparatus for hitless failover in networking systems using single database
US8671265B2 (en) 2010-03-05 2014-03-11 Solidfire, Inc. Distributed data storage system providing de-duplication of data using block identifiers
US9838269B2 (en) 2011-12-27 2017-12-05 Netapp, Inc. Proportional quality of service based on client usage and system metrics
US9154367B1 (en) * 2011-12-27 2015-10-06 Google Inc. Load balancing and content preservation
US9054992B2 (en) 2011-12-27 2015-06-09 Solidfire, Inc. Quality of service policy sets
US9098439B2 (en) 2012-01-05 2015-08-04 International Business Machines Corporation Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
CN102609531B (zh) * 2012-02-14 2015-05-06 北京鼎普科技股份有限公司 一种根据关键字反查文件的方法
US8738701B2 (en) * 2012-02-28 2014-05-27 Microsoft Corporation Arbitration of disk ownership in a storage pool
TWI610166B (zh) 2012-06-04 2018-01-01 飛康國際網路科技股份有限公司 自動災難復原和資料遷移系統及方法
US9753954B2 (en) * 2012-09-14 2017-09-05 Cloudera, Inc. Data node fencing in a distributed file system
US9116860B2 (en) * 2012-12-14 2015-08-25 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center
US9122652B2 (en) * 2012-12-17 2015-09-01 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center
US9755889B2 (en) * 2013-02-13 2017-09-05 International Business Machines Corporation Service failover and failback using enterprise service bus
US9596192B2 (en) 2013-03-15 2017-03-14 International Business Machines Corporation Reliable link layer for control links between network controllers and switches
US9104643B2 (en) * 2013-03-15 2015-08-11 International Business Machines Corporation OpenFlow controller master-slave initialization protocol
US9609086B2 (en) 2013-03-15 2017-03-28 International Business Machines Corporation Virtual machine mobility using OpenFlow
US9769074B2 (en) 2013-03-15 2017-09-19 International Business Machines Corporation Network per-flow rate limiting
US9444748B2 (en) 2013-03-15 2016-09-13 International Business Machines Corporation Scalable flow and congestion control with OpenFlow
US9407560B2 (en) 2013-03-15 2016-08-02 International Business Machines Corporation Software defined network-based load balancing for physical and virtual networks
US9118984B2 (en) 2013-03-15 2015-08-25 International Business Machines Corporation Control plane for integrated switch wavelength division multiplexing
US10404520B2 (en) 2013-05-29 2019-09-03 Microsoft Technology Licensing, Llc Efficient programmatic memory access over network file access protocols
US9641614B2 (en) 2013-05-29 2017-05-02 Microsoft Technology Licensing, Llc Distributed storage defense in a cluster
CN103366106A (zh) * 2013-06-21 2013-10-23 国家电网公司 远程数据恢复系统客户端安全监控方法
US9170746B2 (en) 2014-01-07 2015-10-27 Netapp, Inc. Clustered raid assimilation management
US20150244795A1 (en) 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US9798728B2 (en) 2014-07-24 2017-10-24 Netapp, Inc. System performing data deduplication using a dense tree data structure
US9665432B2 (en) * 2014-08-07 2017-05-30 Microsoft Technology Licensing, Llc Safe data access following storage failure
US9847918B2 (en) 2014-08-12 2017-12-19 Microsoft Technology Licensing, Llc Distributed workload reassignment following communication failure
GB2529436B (en) 2014-08-20 2016-05-18 Ibm Grouping file system events to perform continuous file system monitoring and backup
US9671960B2 (en) 2014-09-12 2017-06-06 Netapp, Inc. Rate matching technique for balancing segment cleaning and I/O workload
US10133511B2 (en) 2014-09-12 2018-11-20 Netapp, Inc Optimized segment cleaning technique
US9811428B2 (en) * 2014-09-22 2017-11-07 Netapp Inc. System and method for handling multi-node failures in a disaster recovery cluster
US20160092287A1 (en) * 2014-09-26 2016-03-31 Intel Corporation Evidence-based replacement of storage nodes
CN108023939B (zh) * 2014-11-12 2021-02-05 华为技术有限公司 分布式系统中锁服务器故障的处理方法及其系统
US9836229B2 (en) 2014-11-18 2017-12-05 Netapp, Inc. N-way merge technique for updating volume metadata in a storage I/O stack
CN104410698B (zh) * 2014-12-03 2019-03-08 天津南大通用数据技术股份有限公司 一种share nothing集群下的发起节点异常处理方法及装置
WO2016098142A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 産業コントローラおよび産業コントローラシステム
US9720601B2 (en) 2015-02-11 2017-08-01 Netapp, Inc. Load balancing technique for a storage array
US9762460B2 (en) 2015-03-24 2017-09-12 Netapp, Inc. Providing continuous context for operational information of a storage system
US9710317B2 (en) 2015-03-30 2017-07-18 Netapp, Inc. Methods to identify, handle and recover from suspect SSDS in a clustered flash array
US9813492B2 (en) * 2015-05-18 2017-11-07 Oracle International Corporation System and method for automatic migration of poller proxy services in a service bus environment
US9740566B2 (en) 2015-07-31 2017-08-22 Netapp, Inc. Snapshot creation workflow
US10235059B2 (en) 2015-12-01 2019-03-19 Netapp, Inc. Technique for maintaining consistent I/O processing throughput in a storage system
US10929022B2 (en) 2016-04-25 2021-02-23 Netapp. Inc. Space savings reporting for storage system supporting snapshot and clones
US10642763B2 (en) 2016-09-20 2020-05-05 Netapp, Inc. Quality of service policy sets
US10474653B2 (en) 2016-09-30 2019-11-12 Oracle International Corporation Flexible in-memory column store placement
US10331523B2 (en) 2017-04-04 2019-06-25 International Business Machines Corporation Recovering a failed clustered system using configuration data fragments
CN107122271B (zh) * 2017-04-13 2020-07-07 华为技术有限公司 一种恢复节点事件的方法、装置及系统
CN111095233B (zh) * 2017-09-28 2023-09-26 深圳清华大学研究院 混合文件系统架构、文件存储、动态迁移及其应用
EP3704578A1 (de) * 2017-10-31 2020-09-09 AB Initio Technology LLC Verwaltung eines computerclusters unter verwendung von dauerhaftigkeitsindikatoren
CN110113395B (zh) * 2019-04-19 2021-11-09 新华三云计算技术有限公司 共享文件系统维护方法及装置
CN110286732B (zh) * 2019-06-27 2021-01-12 华云数据控股集团有限公司 高可用集群掉电自动恢复方法、装置、设备及存储介质
US11347601B1 (en) 2021-01-28 2022-05-31 Wells Fargo Bank, N.A. Managing data center failure events
US11438224B1 (en) 2022-01-14 2022-09-06 Bank Of America Corporation Systems and methods for synchronizing configurations across multiple computing clusters

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998026553A1 (en) * 1996-12-09 1998-06-18 Sun Microsystems, Inc. Load balancing and failover of network services

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5136498A (en) 1990-09-26 1992-08-04 Honeywell Inc. Method for enacting failover of a 1:1 redundant pair of slave processors
JP2814880B2 (ja) * 1993-06-04 1998-10-27 日本電気株式会社 異なる命令特性を持つ複数のcpuによって構成される計算機システムの制御装置
JP3296378B2 (ja) 1993-08-27 2002-06-24 株式会社東芝 コンピュータバックアップシステム
US5561759A (en) * 1993-12-27 1996-10-01 Sybase, Inc. Fault tolerant computer parallel data processing ring architecture and work rebalancing method under node failure conditions
JP3300776B2 (ja) 1994-03-15 2002-07-08 株式会社日立製作所 並列プロセッサの切替え制御方式
JPH07334468A (ja) 1994-06-07 1995-12-22 Toshiba Corp 負荷分散方式
US5805786A (en) * 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US6012150A (en) * 1997-03-27 2000-01-04 International Business Machines Corporation Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
US5875290A (en) * 1997-03-27 1999-02-23 International Business Machines Corporation Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
JPH11184825A (ja) 1997-12-19 1999-07-09 Mitsubishi Electric Corp クラスタシステム
US6360331B2 (en) * 1998-04-17 2002-03-19 Microsoft Corporation Method and system for transparently failing over application configuration information in a server cluster
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6859834B1 (en) * 1999-08-13 2005-02-22 Sun Microsystems, Inc. System and method for enabling application server request failover
US6865591B1 (en) * 2000-06-30 2005-03-08 Intel Corporation Apparatus and method for building distributed fault-tolerant/high-availability computed applications
US6990606B2 (en) 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998026553A1 (en) * 1996-12-09 1998-06-18 Sun Microsystems, Inc. Load balancing and failover of network services

Also Published As

Publication number Publication date
KR20020010490A (ko) 2002-02-04
JP2002091938A (ja) 2002-03-29
DE10134492A1 (de) 2002-02-21
US6990606B2 (en) 2006-01-24
CN1190733C (zh) 2005-02-23
CN1336589A (zh) 2002-02-20
US20020073354A1 (en) 2002-06-13
KR100423687B1 (ko) 2004-03-18
JP4204769B2 (ja) 2009-01-07
SG99917A1 (en) 2003-11-27
US20060010338A1 (en) 2006-01-12
US7523345B2 (en) 2009-04-21

Similar Documents

Publication Publication Date Title
DE10134492B4 (de) Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster
DE60215002T2 (de) Verfahren und system für effiziente verteilung von netzwerk-ereignisdaten
DE69128271T2 (de) Verfahren und System zur Erhöhung der Betriebsverfügbarkeit eines Systems von Rechnerprogrammen, wirkend in einem verteilten Rechnerssystem
DE69803476T2 (de) Hochverfügbare gruppenkonfigurationsdatenbank
DE60220263T2 (de) Server-duplexverfahren und geduplextes serversystem
DE69923621T2 (de) Verfahren und Vorrichtung zu korrekten und vollständigen Übertragungen in einem fehlertoleranten verteilten Datenbanksystem
DE69729399T2 (de) Datenverwaltungssystem und Verfahren für replizierte Daten
DE69413104T2 (de) Anordnung und Verfahren zur Überwachung von Tafeln von einfachen Netzverwaltungsprotokollen
DE69907818T2 (de) Verfahren und Vorrichtung zur Fehlererkennung und Wiederherstellung mit vorbestimmter Replikationsart für verteilte Anwendungen in einem Netzwerk
DE69021122T2 (de) Verfahren und Gerät zur ununterbrochenen Versorgung von Anwendungen in einem Rechnernetzwerk.
DE69410671T2 (de) Datensicherung in einer Datenverarbeitungsanlage
DE69918467T2 (de) Servervorrichtung und Verfahren deren Verwendung
DE69403192T2 (de) Vorrichtung und verfahren zur datensicherung von speichereinheiten in einem rechnernetzwerk
DE602004005344T2 (de) Verfahren, system und programm zur handhabung eines failover zu einem fernspeicherort
DE60013658T2 (de) Fehlertolerante virtuelle Javamaschine
DE69807116T2 (de) Computersystem für eine sichere und skalierbare übertragung von mehrfachdatenströme mit höherer bandbreite zwischen mehrfachdateneinheiten und mehrfachapplikationen
DE60002707T2 (de) Datenverteilung in einem server-cluster
DE69907824T2 (de) Verfahren und Vorrichtung zur Fehlererkennung und Wiederherstellung mit vorbestimmtem Replikationsgrad für verteilte Anwendungen in einem Netzwerk
DE602004002858T2 (de) Vorrichtung und Verfahren zur Datenarchivierung in einem Clustersystem
DE69428392T2 (de) Verfahren und Anordnung zur Klassifizierung und Erfassung von den Protokolldaten
DE69811148T2 (de) Mitgliedschaft in einem unzuverlässigen verteilten Rechnersystem
DE69407185T2 (de) Eine integrierte Produktionsumgebung mit PROGRAMM-ZU-PROGRAMM- KOMMUNIKATIONS-SERVER und zugehöriges Verfahren
DE602005002532T2 (de) Cluster-datenbank mit ferndatenspiegelung
EP0807883B1 (de) Kommunikationssystem mit Mitteln zum Austausch von Softwareprozessen
DE19836347A1 (de) Fehlertolerantes Computersystem

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee