DE69927223T2 - Ausfallsicherheit eines Mehrrechnersystems - Google Patents

Ausfallsicherheit eines Mehrrechnersystems Download PDF

Info

Publication number
DE69927223T2
DE69927223T2 DE69927223T DE69927223T DE69927223T2 DE 69927223 T2 DE69927223 T2 DE 69927223T2 DE 69927223 T DE69927223 T DE 69927223T DE 69927223 T DE69927223 T DE 69927223T DE 69927223 T2 DE69927223 T2 DE 69927223T2
Authority
DE
Germany
Prior art keywords
computer
node
standby
magnetic memory
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69927223T
Other languages
English (en)
Other versions
DE69927223D1 (de
Inventor
Derek William Altrincham Ashcroft
Geoffrey Robert Chester-le-Street Atkinson
Philip East Bierley McKirgan
Stephen Paul Alford Tickhill
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Services Ltd
Original Assignee
Fujitsu Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9819523.3A external-priority patent/GB9819523D0/en
Priority claimed from GBGB9819524.1A external-priority patent/GB9819524D0/en
Priority claimed from GB9900473A external-priority patent/GB2345769A/en
Application filed by Fujitsu Services Ltd filed Critical Fujitsu Services Ltd
Application granted granted Critical
Publication of DE69927223D1 publication Critical patent/DE69927223D1/de
Publication of DE69927223T2 publication Critical patent/DE69927223T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Description

  • Die Erfindung bezieht sich auf Techniken zur Erzielung einer Ausfallsicherheit eines Mehrrechnersystems.
  • Solche Systeme werden häufig verwendet, um eine große Anzahl von Benutzern zu bedienen und sehr große Datenmengen zu speichern. Beispielsweise besteht ein typisches Rechnersystem dieser Art aus acht Server-Rechnern, die bis zu 50 000 Benutzer bedienen, und die eine oder mehrere 300 GigaByte Datenbanken speichern können.
  • Es wäre erwünscht, die Möglichkeit zu haben, ein solches System auf der Basis von Standard-Server-Software, z.B. Microsoft Exchange, das unter Microsoft Window NT läuft, zu erzielen. Ein hierbei auftretendes Problem ist jedoch, Elastizität gegenüber Fehlern eines der Rechner zu erzielen. Die Anwendung einer Cluster-Technologie für ein System dieses Ausmaßes wäre zu aufwendig. Auch ist Microsoft Exchange nicht eine clusterfähige Anwendung und es ist nicht zulässig, zwei Fälle von Exchange auf dem gleichen Server zu haben (selbst ein Zweifachknoten-Cluster).
  • DE 31 36 287 A beschreibt ein Mehrprozessor-System mit einer Anzahl von funktionalen Einheiten ZIE, ZTE, ... und einer Reserveeinheit ZRE. Jede der funktionalen Einheiten ZIE, ZTE, ... besitzt eine Anzahl von Datendisketten DP, die der funktionalen Einheit zugeordnet sind. Jede dieser Disketten hat einen Doppel-Zugriff, so dass sie entweder von der zugeordneten funktionalen Einheit (über einen Bus RB) oder von der Reserveeinheit ZRE (über einen Bus BI) zugreifbar ist. Wenn somit eine (oder mehrere) der funktionalen Einheiten fehlerhaft wird, kann die Reserveeinheit die Daten zugreifen und kann damit die Arbeit der fehlerhaften Einheiten) übernehmen.
  • Nach einem Aspekt der Erfindung wird deshalb ein Verfahren zum Betreiben eines Rechnersystems nach Patentanspruch 1 vorgeschlagen. Nach einem weiteren Aspekt der Erfindung wird ein Rechnersystem mit den Merkmalen des Anspruches 4 vorgeschlagen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockschaltbild eines Mehrfachknoten-Computersystems gemäß der Erfindung.
  • 2 ist ein Flussschaltbild, das einen Rückgewinnungs-Prozess zur Handhabung eines Fehlers eines der Knotensysteme zeigt.
  • 3 ist ein Blockschaltbild, das ein Beispiel für das System nach der Rekonfiguration durch den Rückgewinnungs-Prozess zeigt.
  • Beschreibung eines Ausführungsbeispiels der Erfindung
  • Nachstehend wird ein Computersystem nach der Erfindung anhand eines Ausführungsbeispiels in Verbindung mit den Zeichnungen beschrieben.
  • In vorliegender Beschreibung werden die folgenden Ausdrücke in spezieller Bedeutung benutzt:
    • • Knoten: Dies bedeutet eine individuelle Computer-Hardware-Konfiguration. Bei dem hier zugrunde liegenden Ausführungsbeispiel nach der Erfindung besitzt jeder Knoten einen ICL Xtraserver-Rechner. Jeder Knoten hat eine eindeutige Identitätsnummer.
    • • Server: Dies bedeutet eine spezielle Server-Software-Installation. Bei der vorliegenden Ausführungsform der Erfindung weist jeder Server eine spezielle Microsoft NT-Installation auf. Jeder Server hat einen eindeutig festgelegten Servernamen und ist in der Lage, auf jeden der Knoten als Host-Betreiber zu arbeiten. Ein Server kann erforderlichenfalls abgeschaltet und an einem anderen Knoten wieder eingeschaltet werden.
    • • System: Dies bedeutet eine Anzahl von Servern, die auf eine gemeinsame Speichereinheit zugreifen.
  • In 1 ist ein System gezeigt, das N + 1 Knoten 10 umfasst. Im normalen Betrieb sind N dieser Knoten aktiv, während der verbleibende in Bereitschaft steht. Bei diesem Beispiel ist N gleich vier (d.h. dass insgesamt fünf Knoten vorhanden sind). Jeder der Knoten 10 arbeitet im Host-Betrieb mit einem Server 11.
  • Das System weist ferner eine System-Administrations-Workstation 12 auf, die es einem (menschlichen) Operator oder einem System-Administrator erlaubt, das System zu überwachen und zu steuern. Jeder Server zeigt seinen Namen und den jeweiligen Operations-Zustand an der Workstation 12 an. Ein oder mehrere anderer Systeme (nicht dargestellt) können ebenfalls von der gleichen Workstation aus gesteuert und überwacht werden.
  • Alle Knoten 10 sind mit einer zeitanteiligen Diskettenanordnung 13 verbunden. In vorliegendem Beispiel ist die Disketten-Anordnung 13 eine EMC-Symmetrix-Diskettenanordnung. Diese besteht aus einer großen Anzahl von Magnet-Disketteneinheiten, die alle aus Gründen der Elastizität spiegelbildlich (duplexiert) ausgebildet sind. Zusätzlich weist die Diskettenanordnung eine Anzahl weiterer Disketten auf, die ein Business-Continuance-Volume (BCV) darstellen. Ein BCV ist effektiv ein dritter Plex, der mit den primären Plexen unter Steuerung einer EMC-Timefinder-Software, die auf der Arbeitsstation 12 läuft, verbunden oder getrennt werden kann. Die BCV-Daten können mit den primären Plexen so synchronisiert sein, dass sie eine Reserve bilden, oder können von den primären Plexen getrennt werden, so dass ein Schnappschuss der Hauptdaten zu einem gegebenen Zeitpunkt erzielt werden kann. Wenn das BCV auf diese Weise geteilt worden ist, kann es zu jedem beliebigen Zeitpunkt wieder verbunden werden und die Daten können dann von den primären Plexen auf das BCV oder umgekehrt kopiert werden, damit sie neu synchronisiert werden.
  • Das System weist ferner einen Archiv-Server 14 auf, der mit der Diskettenanordnung 13 und mit einer Anzahl von Roboter-Magnetbandantrieben 15 verbunden ist. Im Betrieb führt der Archiv-Server periodisch ein Offline-Archiv der Daten in jeder Datenbank durch, indem die Kopie der Datenbank, die in dem BCV gehalten wird, auf ein Band archiviert wird. Wenn das Archiv sicher ist, wird das BCV in den synchronen Betrieb mit der Haupt-Datenbank zurückgeführt, bevor es erneut unterbrochen wird, um die Wiedergewinnung von BCV unter Verwendung der EMC-Timefinder-Software zu erreichen.
  • Wie in 1 dargestellt, weist die Diskettenanordnung 13 eine Anzahl von Systemdisketten 16 auf, und zwar eine für jeden der Server 11. Jede Systemdiskette speichert die NT-Betriebssystem-Dateien und Konfigurations-Dateien für den zugeordneten Server. Mit anderen Worten heißt dies, dass die Systemdiskette alle Informationen speichert, die die „Personalität" der Server-Installation festlegt. Jede der Systemdisketten umfasst eine BCV-Diskette 17, die ihr zugeordnet ist und die eine Reservekopie der zugeordneten Systemdiskette speichert. Normalerweise ist jede BCV-Diskette 17 von der entsprechenden Systemdiskette getrennt; sie ist nur verbunden, wenn die Systemdiskette sich ändert, damit die beiden Kopien synchronisiert werden.
  • Im Falle eines Fehlers einer der N aktiven Knoten 10 wird ein Rückgewinnungs-Prozess auf der System-Administrations-Workstation 12 eingeleitet. Bei diesem Beispiel umfasst der Rückgewinnungs-Prozess ein Skript, das in der Skriptsprache geschrieben ist, die der Timefinder-Software zugeordnet ist. Der Prozess führt den System-Administrator durch einen Rückgewinnungs-Prozess, der das System umformt, damit der Bereitschafts-Knoten die Systemdiskette BCV des fehlerhaften Knotens aufnehmen kann, wodurch der Server an dem fehlerhaften Knoten auf den Bereitschaftsknoten verschoben werden kann, und umgekehrt.
  • Der Rückgewinnungs-Prozess macht Gebrauch von einem vorbestimmten Satz von Geräte-Dateien, und zwar eine für jede mögliche Kombination von Knoten und Server. Da in diesem Fall fünf Server und fünf Knoten (einschließlich des Bereitschafts-Knotens) vorhanden sind, gibt es 25 mögliche Kombinationen, und damit sind 25 solcher Geräte-Dateien vorgesehen. Jeder diese Dateien ist durch einen Namen identifiziert, der die Form hat n(N)_is_(S), wobei N eine Knoten-Identitätszahl und S die letzten drei Ziffern des Servernamens bezeichnen (zur Bezeichnung der Dateien können natürlich auch andere Vereinbarungen verwendet werden). Jede Geräte-Datei enthält alle Informationen, die erforderlich sind, um den speziellen Server an dem spezifizierten Knoten zu installieren.
  • Wie in 2 gezeigt, umfasst der Rückgewinnungs-Prozess die folgenden Schritte:
    (Schritt 201) Der Rückgewinnungs-Prozess bestätigt zuerst die Identität des fehlerhaften Systems bei dem Administrator. Dieser Schritt ist nur erforderlich, wenn mehr als ein System aus der gleichen System-Administrations-Workstation gemanagt wird.
    (Schritt 202) Der Rückgewinnungs-Prozess fragt dann den Administrator ab, um die Identitätszahlen des ersten Knotens und des Bereitschaftsknotens zu erhalten. Der Administrator kann diese Knotenzahlen unter Verwendung einer Information, die auf der System-Administrations-Workstation 12 dargestellt ist, bestimmen.
    (Schritt 203) Der Rückgewinnungs-Prozess fragt dann als nächstes den System-Administrator ab, um den Namen des fehlerhaften Servers zu erhalten (d.h. des Servers, der gerade auf dem fehlerhaften Knoten läuft). Der Rückgewinnungs-Prozess legt auch automatisch den Namen des Bereitschafts-Servers fest; dies ist ein vorbestimmter Wert für jedes System.
    (Schritt 204) Der Rückgewinnungs-Prozess bestimmt ferner automatisch die Geräte-Identifizierer für die BCVs, die dem fehlerhaften Server und dem Bereitschafts-Server zugeordnet sind, wobei eine Nachschlagetabelle benutzt wird, die jeden Servernamen einem bestimmten Geräte-Identifizierer zuordnet.
    (Schritt 205) Der Rückgewinnungs-Prozess ruft dann den BCV QUERY Befehl in der Timefinder-Software, um die laufenden Zustände dieser beiden BCVs zu bestimmen. Diese sollen den getrennten Zustand einnehmen.
    Wenn einer oder beide BCVs nicht in dem getrennten Zustand sind, bricht der Rückgewinnungs-Prozess ab und verursacht, dass der System-Administrator den entsprechenden technischen Unterstützungs-Service ruft.
    (Schritt 206) Wenn beide BCVs in getrenntem Zustand sind, wird der Rückgewinnungs-Prozess fortgesetzt, indem der Administrator veranlasst wird, sicher zu stellen, dass der fehlerhafte Server und der Bereitschafts-Server abgeschaltet werden. Der Rückgewinnungs-Prozess wartet auf eine Bestätigung, dass dies geschehen ist.
    (Schritt 207) Wenn sowohl der fehlerhafte Server als auch der Bereitschafts-Server abgeschaltet sind, konstruiert der Rückgewinnungs-Prozess zwei Geräte-Dateinamen wie folgt:
    • • Der erste Dateiname ist n (W)_is_(X), wobei W die Knotenzahl des Bereitschaftsknotens und X die letzten drei Ziffern des fehlerhaften Servernamens sind.
    • • Der zweite Dateiname ist n (Y)_is_(Z), wobei Y die Knotenzahl der fehlerhaften Knotens und Z die letzten drei Ziffern des Bereitschafts-Servernamens sind.
    (Schritt 208) Der Rückgewinnungs-Prozess ruft dann den Timefinder BCV RESTORE-Befehl auf und gibt ihm den ersten Geräte-Dateinamen als Parameter. Dies bewirkt, dass der BCV des fehlerhaften Knotens mit dem Systemspeicher des Bereitschafts-Servers verkettet wird und dass das Kopieren der Daten von diesem BCV zum Systemspeicher eingeleitet wird. Dies führt dazu, dass der Server, der auf dem fehlerhaften Knoten gelaufen ist, auf den Bereitschaftsknoten eingestellt wird.
  • Der Wiedergewinnungsprozess ruft ferner den BCV RESTORE-Befehl auf, und gibt ihm den zweiten Geräte-Dateinamen als Parameter. Dies bewirkt, dass der BCV des Bereitschaftsknotens mit dem Systemspeicher des fehlerhaften Servers verkettet wird und dass ein Kopieren der Daten aus diesem BCV in den Systemspeicher eingeleitet wird. Der sich dadurch ergebende Effekt ist, dass der Server, der auf dem Bereitschaftsknoten läuft, auf den fehlerhaften Knoten eingestellt wird.
  • Beispielsweise zeigt 3 den Fall, bei dem der Knoten 1 fehlerhaft geworden ist, und der Knoten 4 der Bereitschaftsknoten ist. Wie gezeigt, ist der BCV-Speicher des Bereitschaftsknotens mit dem Systemspeicher des fehlerhaften Knotens verkettet und der BCV des fehlerhaften Knotens ist mit dem Systemspeicher des Bereitschaftsknotens verkettet.
  • Während die Wiederherstell-Befehle laufen, prüft der Rückgewinnungsprozess das Fehleransprechen, und berichtet jedes solche Ansprechen an den Administrator. Er schreibt auch alle Aktionen in eine Log-Datei unmittelbar vor dieser Aktion ein.
  • (Schritt 209) Nach der Ausgabe der Wiederherstell-Befehle veranlasst der Rückgewinnungs-Prozess, dass der Administrator den rückgewonnenen Server neu startet (d.h. den Server, der von dem fehlerhaften Knoten zum Bereitschaftsknoten gewandert ist), wobei der neue Knotenname, auf dem er läuft, festgestellt wird. Der Bereitschaftsknoten wird nunmehr ein aktiver Knoten.
  • Es wird darauf hingewiesen, dass die Wiederherstell-Befehle im Hintergrund ablaufen und typischerweise etwa eine Stunde bis zur Vervollständigung benötigen. Der rückgewonnene Server kann jedoch sofort neu gestartet werden und seine Daten können zugegriffen werden, ohne dass es erforderlich ist, darauf zu warten, dass die Wiederherstell-Befehle abgeschlossen sind.
  • (Schritt 210) Der Rückgewinnungs-Prozess überwacht die Beendigung der BCV-Wiederherstell-Operationen unter Verwendung des Timefinder-BCV Query-Befehls.
  • (Schritt 211) Wenn die Wiederherstell-Operationen abgeschlossen sind, gibt der Rückgewinnungs-Prozess einen Timefinder-BCV Split-Befehl, der die BCVs von den Systemspeichern trennt. Die Rückgewinnung ist nunmehr abgeschlossen und der Rückgewinnungs-Prozess ist beendet.
  • Wenn der fehlerhafte Knoten einmal festgelegt worden ist, kann er in der erforderlichen Weise neu geladen werden und wird dann der Bereitschafts-Server. Der Rückgewinnungs-Prozess kann dann wiederholt werden, wenn einer der aktiven Knoten fehlerhaft wird.
  • Einige mögliche Modifikationen
  • Es können viele Modifikationen an dem vorbeschriebenen System durchgeführt werden, ohne dass von Wesen der Erfindung abgewichen wird. Beispielsweise kann eine unterschiedlich große Anzahl von Disketten und Computern verwendet werden. Auch kann die Erfindung bei anderen Betriebssystemen implementiert werden, und es können andere Hardware-Konfigurationen verwendet werden. Darüber hinaus können anstelle der Implementierung des Rückgewinnungs-Prozesses mit Hilfe eines Skripts z.B. Integrierungen in das Betriebssystem erfolgen.
  • Zusammenfassung
  • Es wird ein Mehrknoten-Rechnersystem beschrieben, das eine Anzahl von aktiven Knoten und einen Bereitschafts-Knoten umfasst. Jeder Knoten nimmt eine Server-Installation auf. Jeder Server besitzt eine System-Diskette und eine Rückgewinnungs-Diskette, die eine synchronisierte Rückgewinnungs-Kopie von Daten, die auf der Systemdiskette gespeichert sind, enthält. Im Falle eines fehlerhaften Betriebes eines Knotens wird ein Rückgewinnungs-Prozess in Lauf gesetzt, um das System neu zu konfigurieren, wobei die Rückgewinnungs-Diskette entsprechend dem fehlerhaften Rechner mit der System-Diskette des Bereitschafts-Rechners verbunden wird, und der Inhalt der Rückgewinnungs-Diskette auf die System-Diskette kopiert wird. Dies bewirkt, dass der Server in dem fehlerhaften Knoten an den Bereitschafts-Knoten wandert, der dadurch zu einem aktiven Knoten wird.

Claims (6)

  1. Verfahren zum Betreiben eines Rechnersystems mit einer Mehrzahl von Rechnern (Knoten 0–Knoten 4), einer Mehrzahl von System-Magnetspeichern (16), von denen jeweils ein Magnetspeicher pro Rechner vorgesehen ist, und mit einer Mehrzahl von weiteren Magnetspeichern (17), von denen ebenfalls jeweils ein Magnetspeicher pro Rechner vorgesehen ist, wobei eine Mehrzahl von Rechnern (Knoten 0–Knoten 3) als aktive Rechner und ein weiterer Rechner (Knoten 4) als Bereit-schafts-Rechner ausgelegt sind, dadurch gekennzeichnet, dass a) die weiteren Magnetspeicher (17) so betrieben werden, dass sie eine synchronisierte Rückgewinnungs-Kopie von Daten ergeben, die auf den Systern-Magnetspeichern (16) gehalten werden, und b) im Falle eines Fehlers eines der aktiven Rechner (Knoten 0–Knoten 3) das System dadurch neu konfiguriert wird, dass der weitere Magnetspeicher (17), der dem fehlerhaften Rechner zugeordnet ist, mit dem System-Magnetspeicher (16) des Bereitschafts-Rechners (Knoten 4) verbunden wird, und das Kopieren von Daten aus diesem weiteren Magnetspeicher auf den System-Magnetspeicher des Bereitschafts-Rechners eingeleitet wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Bereitschafts-Rechner neu gestartet wird, während das Kopieren von Daten im Hintergrund durchgeführt wird.
  3. Verfahren nach Anspruch 1 oder 2, bei dem ein Satz von Geräte-Dateien aufrecht erhalten wird, und zwar einer für jede mögliche Kombination einer bestimmten Betriebssystem-Anlage mit einer bestimmten Rechner-Hardware-Konfiguration, wobei der Schritt des Neukonfigurierens des Systems das Auswählen zweier der Vorrichtungs-Dateien umfasst, die den neuen Konfigurationen des fehlerhaften Rechners und des Bereitschafts-Rechners entsprechen, und diese beiden Neu-Konfigurationen des Systems zur Steuerung verwendet werden.
  4. Rechnersystem mit einer Mehrzahl von aktiven Rechnern (Knoten 0–Knoten 3), mindestens einem Bereitschafts-Rechner (Knoten 4), einer Mehrzahl von Systern-Magnetspeichern (16), von denen jeweils ein Magnetspeicher pro Rechner vorgesehen ist, und eine Mehrzahl von weiteren Magnetspeichern (17), von denen jeweils ein Magnetspeicher pro Rechner vorgesehen ist, gekennzeichnet durch a) eine Vorrichtung zum Betreiben der weiteren Magnetspeicher (17), um eine synchronisierte Rückgewinnungs-Kopie von Daten zu erzielen, die auf den System-Magnetspeichern (16) gehalten werden, und b) eine Rückgewinnungs-Vorrichtung (12) zum Neu-Konfigurieren des Systems bei einem Fehler eines der aktiven Rechner (Knoten 0–Knoten 3), indem der weitere Magnetspeicher (17), der dem fehlerhaften Rechner zugeordnet ist, mit dem System-Magnetspeicher (16) des Bereitschafts-Rechners (Knoten 4) verbunden wird, und indem Daten aus diesem weiteren Magnetspeicher in die System-Einheit des Bereitschafts-Rechners kopiert werden.
  5. Rechnersystem nach Anspruch 4, gekennzeichnet durch eine Vorrichtung zum Neustarten des Bereitschafts-Rechners, während das Kopieren der Daten im Hintergrund durchgeführt wird.
  6. Rechnersystem nach Anspruch 4 oder 5, gekennzeichnet durch einen Satz von Geräte-Dateien, und zwar eine für jede mögliche Kombination einer speziellen Betriebssystem-Installation mit einer speziellen Rechner-Hardware-Konfiguration, wobei die Rückgewinnungs-Vorrichtung eine Vorrichtung zum Auswählen von zwei der Vorrichtungs-Dateien, die den neuen Konfigurationen des fehlerhaften Rechners und des Bereitschafts-Rechners entsprechen, und eine Vorrichtung zur Benutzung dieser beiden Vorrichtungs-Dateien für die Steuerung der Rekonfiguration des Systems, umfasst.
DE69927223T 1998-09-08 1999-08-13 Ausfallsicherheit eines Mehrrechnersystems Expired - Lifetime DE69927223T2 (de)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GBGB9819523.3A GB9819523D0 (en) 1998-09-08 1998-09-08 Archiving and resilience in a multi-computer system
GB9819523 1998-09-08
GBGB9819524.1A GB9819524D0 (en) 1998-09-09 1998-09-09 Archiving and resilience in a multi-computer system
GB9819524 1998-09-09
GB9900473A GB2345769A (en) 1999-01-12 1999-01-12 Failure recovery in a multi-computer system
GB9900473 1999-01-12

Publications (2)

Publication Number Publication Date
DE69927223D1 DE69927223D1 (de) 2005-10-20
DE69927223T2 true DE69927223T2 (de) 2006-07-13

Family

ID=27269473

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69927223T Expired - Lifetime DE69927223T2 (de) 1998-09-08 1999-08-13 Ausfallsicherheit eines Mehrrechnersystems

Country Status (5)

Country Link
US (1) US6460144B1 (de)
EP (1) EP0987630B1 (de)
JP (1) JP3967499B2 (de)
AU (1) AU753898B2 (de)
DE (1) DE69927223T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829687B2 (en) * 2000-12-28 2004-12-07 International Business Machines Corporation Volume data net backup
US6868067B2 (en) 2002-06-28 2005-03-15 Harris Corporation Hybrid agent-oriented object model to provide software fault tolerance between distributed processor nodes
CA2444835A1 (en) * 2003-10-10 2005-04-10 Ibm Canada Limited - Ibm Canada Limitee System and method for grid computing
EP3079061A1 (de) 2004-10-18 2016-10-12 Fujitsu Limited Betriebsverwaltungsprogramm, betriebsverwaltungsverfahren und betriebsverwaltungsvorrichtung
WO2006043309A1 (ja) 2004-10-18 2006-04-27 Fujitsu Limited 運用管理プログラム、運用管理方法および運用管理装置
DE602004027424D1 (de) 2004-10-18 2010-07-08 Fujitsu Ltd Operationsverwaltungsprogramm, operationsverwaltun
GB2419696B (en) * 2004-10-29 2008-07-16 Hewlett Packard Development Co Communication link fault tolerance in a supercomputer
GB2419699A (en) 2004-10-29 2006-05-03 Hewlett Packard Development Co Configuring supercomputer for reliable operation
US8572431B2 (en) * 2005-02-23 2013-10-29 Barclays Capital Inc. Disaster recovery framework
JP4839841B2 (ja) * 2006-01-04 2011-12-21 株式会社日立製作所 スナップショット再起動方法
US9268659B2 (en) * 2006-01-05 2016-02-23 Emc Corporation Detecting failover in a database mirroring environment
JP4939271B2 (ja) * 2007-03-29 2012-05-23 株式会社日立製作所 ストレージ保守・管理装置の冗長化方法、及びその方法を使用する装置
JP5280587B2 (ja) * 2010-11-30 2013-09-04 独立行政法人科学技術振興機構 ディペンダビリティ維持システム、変化対応サイクル実行装置、障害対応サイクル実行装置、ディペンダビリティ維持システムの制御方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4371754A (en) * 1980-11-19 1983-02-01 Rockwell International Corporation Automatic fault recovery system for a multiple processor telecommunications switching control
DE3136287A1 (de) * 1981-09-12 1983-04-14 Standard Elektrik Lorenz Ag, 7000 Stuttgart Mehrrechnersystem, insbesondere fuer eine bildschirmtext-zentrale
US4466098A (en) * 1982-06-11 1984-08-14 Siemens Corporation Cross channel circuit for an electronic system having two or more redundant computers
JP2755437B2 (ja) * 1989-07-20 1998-05-20 富士通株式会社 通信制御プログラムの連続運転保証処理方法
US5155729A (en) * 1990-05-02 1992-10-13 Rolm Systems Fault recovery in systems utilizing redundant processor arrangements
US5278969A (en) * 1991-08-02 1994-01-11 At&T Bell Laboratories Queue-length monitoring arrangement for detecting consistency between duplicate memories
US5408649A (en) * 1993-04-30 1995-04-18 Quotron Systems, Inc. Distributed data access system including a plurality of database access processors with one-for-N redundancy
US5870537A (en) * 1996-03-13 1999-02-09 International Business Machines Corporation Concurrent switch to shadowed device for storage controller and device errors
US5974114A (en) * 1997-09-25 1999-10-26 At&T Corp Method and apparatus for fault tolerant call processing
US6205557B1 (en) * 1998-06-09 2001-03-20 At&T Corp. Redundant call processing
US6167531A (en) * 1998-06-18 2000-12-26 Unisys Corporation Methods and apparatus for transferring mirrored disk sets during system fail-over

Also Published As

Publication number Publication date
EP0987630A3 (de) 2004-09-29
EP0987630A2 (de) 2000-03-22
EP0987630B1 (de) 2005-09-14
JP3967499B2 (ja) 2007-08-29
AU753898B2 (en) 2002-10-31
AU4738899A (en) 2000-03-16
JP2000099359A (ja) 2000-04-07
US6460144B1 (en) 2002-10-01
DE69927223D1 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
DE112011100112B4 (de) Pufferspeicher-platte in blitzkopie-kaskade
DE69907818T2 (de) Verfahren und Vorrichtung zur Fehlererkennung und Wiederherstellung mit vorbestimmter Replikationsart für verteilte Anwendungen in einem Netzwerk
DE602004005344T2 (de) Verfahren, system und programm zur handhabung eines failover zu einem fernspeicherort
DE102004027672A1 (de) Speicherplattenarraysystem
DE69911930T2 (de) Hochverfügbare dateiprozessoren
DE19580589C2 (de) Verfahren zum Aktualisieren und Wiederherstellen von Systemdateien
DE69724846T2 (de) Mehrweg-Ein/Ausgabespeichersysteme mit Mehrweg-Ein/Ausgabeanforderungsmechanismus
DE602004008028T2 (de) Verfahren zum dynamischen Transferieren zwischen Servern für virtuelle Dateiserver
DE69724834T2 (de) System für hochverfügbare datenspeicherung mit allgemein-adressiertem speicher
DE602005003490T2 (de) Verteiltes System mit Quorumredundanz und Verfahren dafür
DE69629444T2 (de) Datenverarbeitungsgerät und Verfahren zur Ersetzung von ausgefallenen Speichereinheiten
DE69730449T2 (de) Erzeugung einer spiegeldatenkopie (bild) unter verwendung von referenzetiketten
DE102013215535B4 (de) Sicherung oder wiederherstellung von daten mit hilfe eines hauptspeichers und nichtflüchtiger speichermedien
DE69937768T2 (de) Externe Speichervorrichtung und Verfahren zur Datensicherung
DE112011103666B4 (de) Speicherverwaltung in Cluster-Datenverarbeitungssystemen
DE10134492B4 (de) Ausfallübernahme des Dateimanagementsystems in einem Rechnercluster
DE60220263T2 (de) Server-duplexverfahren und geduplextes serversystem
DE60212125T2 (de) Kopierprozeduren mit verifikation in datennetzwerken
DE69927223T2 (de) Ausfallsicherheit eines Mehrrechnersystems
DE19723909A1 (de) Verfahren zum Erzielen einer geteilten Paritätsersatzplatte in einem RAID-Untersystem
DE60313468T2 (de) Speicherdienste und -systeme
DE10393771T5 (de) Schnelle Datensicherungsspeicherung und schnelle Datenwiederherstellung (FBSRD)
DE102004056216A1 (de) Fernkopiersystem und Speichersystem
DE102013210642A1 (de) Vorrichtung zum Wiederherstellen von Redundanz
DE10112941A1 (de) System und Verfahren für das parallele Lesen von primären und sekundären Sicherungen zur Wiederherstellung mehrerer gemeinsam benutzter Datenbankdateien

Legal Events

Date Code Title Description
8364 No opposition during term of opposition