DE19837008C2 - Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz - Google Patents

Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz

Info

Publication number
DE19837008C2
DE19837008C2 DE1998137008 DE19837008A DE19837008C2 DE 19837008 C2 DE19837008 C2 DE 19837008C2 DE 1998137008 DE1998137008 DE 1998137008 DE 19837008 A DE19837008 A DE 19837008A DE 19837008 C2 DE19837008 C2 DE 19837008C2
Authority
DE
Germany
Prior art keywords
data processing
smp1
processing systems
messages
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1998137008
Other languages
English (en)
Other versions
DE19837008A1 (de
Inventor
Horst Kern
Dale Reed
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Technology Solutions GmbH
Original Assignee
Wincor Nixdorf International GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wincor Nixdorf International GmbH filed Critical Wincor Nixdorf International GmbH
Priority to DE1998137008 priority Critical patent/DE19837008C2/de
Publication of DE19837008A1 publication Critical patent/DE19837008A1/de
Application granted granted Critical
Publication of DE19837008C2 publication Critical patent/DE19837008C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz. Da­ tennetze verbinden eine Mehrzahl von Datenverarbeitungsanla­ gen. Die Datennetze müssen häufig in höchstem Maße verfügbar sein. An das Datennetz gekoppelte Datenverarbeitungsanlagen bilden die Knoten von sogenannten Hochverfügbarkeitsclustern. Die Datenverarbeitungsanlagen sind mit einer weiteren Daten­ verarbeitungsanlage gekoppelt, die als Clusterkonsole be­ zeichnet wird. Die Clusterkonsole erhält Meldungen über die Verfügbarkeit der Datenverarbeitungsanlagen von den Knoten, die Sie analysiert und daraus Aktionen ableitet, die eine ho­ he Verfügbarkeit des Datennetzes gewährleisten.
Derzeit werden Hochverfügbarkeitscluster aus Einzelprozessor- Datenverarbeitungsanlagen und/oder Mehrprozessor- Datenverarbeitungsanlagen (SMP) bis in die Größenordnung von 16 Anlagen im Cluster von großen Herstellern angeboten. Bei gleichzeitigen Mehrfachausfällen von Datenverarbeitungsanla­ gen ergibt sich damit das Problem, daß in kurzer Zeit analy­ siert werden muß, ob es sich um
  • - echte Ausfälle von Datenverarbeitungsanlagen handelt, z. B. durch Stromschwankungen oder -ausfälle,
  • - Störungen der clusterbezogenen Kommunikationsfähigkeit ei­ ner Datenverarbeitungsanlage, z. B. Hardwaredefekt im Cluster- Kommunikationsinterface, womit sie ebenfalls wie eine ausge­ fallener Datenverarbeitungsanlage zu behandeln ist,
  • - Störungen der Kommunikation zwischen einigen Datenverarbei­ tungsanlagen, z. B. Ausfall einiger Leitungen, wobei die Kom­ munikation zu anderen Datenverarbeitungsanlagen im Cluster noch intakt ist.
Die Clusterkonsole ist als unabhängige Instanz prädestiniert, die Schiedsrichterfunktion bei allen Ausfallszenarien zu übernehmen. Sie ist mit allen Datenverarbeitungsanlagen im Cluster verbunden und hat häufig darüber hinaus den Zugriff auf die sogenannten Konsoleleitungen aller Datenverarbei­ tungsanlagen. Konsoleleitungen bilden eine Serviceschnitt­ stelle zu den Datenverarbeitungsanlagen. Diese Schnittstelle ist oft als serielle Schnittstelle ausgeführt. Mittels der Konsoleleitungen kann also softwaregesteuert bei Bedarf jede Datenverarbeitungsanlage angehalten oder neu gestartet werden (reboot). Die Datenverarbeitungsanlagen im Cluster senden ei­ ne Meldung an die Clusterkonsole, wenn die Lebenszeichen ei­ ner anderen Datenverarbeitungsanlage ausbleiben. Da dieses Ausbleiben zur Vermutung einer größeren Störung Anlaß gibt, und gestörte Maschinen durch unkoordinierte Zugriffe auf die Datenträger die Konsistenz der Daten gefährden könnten, folgt dieser Meldung i. a. das Abschalten der Maschine durch die Clusterkonsole. Deshalb hat sich für diese Meldung die Be­ zeichnung "Shutdown request" oder auch "Killrequest" eta­ bliert.
Falls das Cluster aus N Knoten besteht, werden bei Ausfall eines Knotens von den N-1 Knoten auch N-1 Killrequests ein­ treffen. Deren Auswertung erfolgt auf der Clusterkonsole und hat das Abschalten der Datenverarbeitungsanlage im gemeldeten Knoten zur Folge.
Es bestünde auch die Möglichkeit, vordefinierte Tabellen zu verwenden, aus denen die erforderlichen Aktionen der Cluster­ konsole abgeleitet werden könnten. Die eintreffenden Killre­ quests würden in eine Tabelle eingetragen. Diese Tabelle könnte mit gespeicherten Mustern verglichen werden, woraufhin die beim aufgefundenen Muster als Abschaltkandidat eingetra­ gene Datenverarbeitungsanlage anschließend aus dem Datennetz entfernt werden könnte.
Die Tabellen wären bei Datennetzen mit mehr als vier Knoten jedoch sehr komplex und kaum mehr überschaubar.
Der vorliegenden Erfindung liegt deshalb die Aufgabe zugrun­ de, ein Verfahren und eine Vorrichtung zur Analyse und Be­ handlung von Störungen in einem großen Datennetz an das eine Mehrzahl von Datenverarbeitungsanlagen gekoppelt ist, aufzu­ zeigen, das gestörte Datenverarbeitungsanlagen gezielt ab­ schaltbar macht und dennoch überschaubar ist.
Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Merkmale gelöst. Alle Datenverarbeitungsanlagen sind mit einer Clusterkonsole so verbunden, daß sie Nachrich­ ten insbesondere über den Verbindungszustand zu anderen Da­ tenverarbeitungsanlagen mit dieser austauschen können. Im mehreren Verfahrensschritten füllt die Clusterkonsole eine Verbindungsmatrix. Wenn keine weiteren Meldungen mehr vorlie­ gen, wird die Verbindungsmatrix überprüft, ob die eingetrage­ nen Nachrichten über den Verbindungszustand eine symmetrische Verbindungsmatrix ergeben:
Wenn keine symmetrische Verbindungsmatrix vorliegt, werden anhand der eingegangenen Nachrichten über den Verbindungszu­ stand, beginnend mit der am häufigsten genannten, betroffene Datenverarbeitungsanlagen abgeschaltet. Wenn eine symmetri­ sche Verbindungsmatrix vorliegt, werden anhand eines gra­ phentheoretischen Algorithmus wie er beschrieben ist in "Fin­ ding All Cliques of an Undirected Graph [H]" von Coen Bron und Joep Kerbosch aus CACM 1973, Volume 16, Number 9, pp 575- 577, alle Cluster von Datenverarbeitungsanlagen ermittelt, innerhalb derer jede Datenverarbeitungsanlage mit jeder ande­ ren Datenverarbeitungsanlage uneingeschränkt kommunizieren kann und anschließend wird das Cluster, das die meisten Da­ tenverarbeitungsanlagen enthält ausgewählt weiterzuarbeiten, während alle anderen Datenverarbeitungsanlagen abgeschaltet werden.
Die Unterscheidung, ob die Verbindungsmatrix symmetrisch ist oder nicht liefert somit optimale Ergebnisse. Die unsymmetri­ sche Verbindungsmatrix kann durch einen einfachen Algorith­ mus, der die Nennungshäufigkeit ermitteln kann behandelt wer­ den. Die Adaption des graphentheoretischen Algorithmus lie­ fert ebenfalls kurze Antwort- und Entscheidungszeiten, die mit denen bisheriger tabellenbasierter Anwendungen konkurrie­ ren können. Dabei ist immer klar erkennbar, nach welcher Re­ gel die Abschaltungen vorgenommen werden. Abschaltmuster müs­ sen nicht vordefiniert werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens werden unterschiedliche Prioritäten für Datenverarbeitungsan­ lagen im Datennetz vergeben, wobei die Clusterkonsole bei un­ symmetrischer Verbindungsmatrix und gleicher Häufigkeit der Nachrichten über den Verbindungszustand für mindestens zwei Datenverarbeitungsanlagen diejenige mit der niedrigsten Priorität zuerst abschaltet. Dadurch können wichtige Daten­ verarbeitungsanlagen länger in Betrieb gehalten werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens werden unterschiedliche Prioritäten für Datenverarbeitungsan­ lagen im Datennetz vergeben, wobei die Clusterkonsole bei symmetrischer Verbindungsmatrix und gleicher Größe von funk­ tionsfähigen Cluster die Datenverarbeitungsanlagen desjenigen Clusters zuerst abschaltet, deren Datenverarbeitungsanlagen in Summe die niedrigste Priorität aufweisen. Dadurch können wichtige Datenverarbeitungsanlagen in größern Clustern länger in Betrieb gehalten werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens wartet die Clusterkonsole nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit, be­ vor sie weitere Nachrichten liest. Damit wird auch anderen Datenverarbeitungsanlagen ermöglicht eine Meldung an die Clu­ sterkonsole abzusetzen. Die Gesamtheit der Nachrichten über den Verbindungszustand, die sogenannten Killrequests, kann somit in einer Gesamtschau bearbeitet werden, wodurch optima­ le Ergebnisse erzielt werden. Die Wartezeit kann 10 Sekunden betragen.
Gemäß einer Ausgestaltung und Weiterbildung der Vorrichtung ist die Clusterkonsole über serielle Konsoleleitungen mit den Datenverarbeitungsanlagen gekoppelt. Damit kann sie ihre Überwachungsaufgaben unabhängig vom eigentlichen Datennetz wahrnehmen.
Die Erfindung wird im folgenden anhand der Zeichnung näher erläutert. Dabei zeigen,
Fig. 1 ein Blockschaltbild eines Datennetzes;
Fig. 2 eine einfache Tabelle, in die Killrequests von 4 Kno­ ten eingetragen werden können;
Fig. 3 ein Ablaufdiagramm zur Analyse und Behandlung von Mehrfachausfällen;
Fig. 4 eine Detaillierung des Ablaufdiagramms gemäß Fig. 3;
Fig. 5 eine Detaillierung des Ablaufdiagramms gemäß Fig. 4;
Fig. 6 eine Tabelle von Killrequests für ein Cluster mit 10 Knoten;
Fig. 7 eine Verbindungsmatrix für ein Cluster mit 10 Knoten;
Fig. 8 einen Verbindungsgraphen für die Knoten 1 bis 6;
Fig. 9 einen Verbindungsgraphen für die Knoten 7 bis 10.
Fig. 1 zeigt ein Datennetz 30, an das Datenverarbeitungsan­ lagen SMP1, SMP2, SMP3, SMP4, . . . SMPn gekoppelt sind. Diese Da­ tenverarbeitungsanlagen SMP1 . . . n sind zusätzlich über serielle Konsoleleitungen KS1 . . . n an eine Clusterkonsole CKS gekoppelt. Die Clusterkonsole CKS ist eine Datenverarbeitungsanlage, die die Datenverarbeitungsanlagen SMP1 . . . n überwacht und steuert.
Der Clusterkonsole CKS obliegt die Schiedsrichterfunktion bei allen Ausfallszenarien der Datenverarbeitungsanlagen SMP1 .. n. Sie kann über die Konsoleleitungen KS1 . . . n softwaregesteuert bei Bedarf jede Datenverarbeitungsanlage SMP1 . . . n anhalten oder neu starten (rebooten). Dazu senden alle Datenverarbei­ tungsanlagen SMP1 . . . n im auch als Cluster bezeichneten Daten­ netz (30) eine Meldung an die Clusterkonsole CKS, wenn die Lebenszeichen einer anderen Datenverarbeitungsanlage SMP1 . . . n ausbleiben. Da dieses Ausbleiben zur Vermutung einer größeren Störung Anlaß gibt, und gestörte Datenverarbeitungsanlagen SMP1 . . . n durch unkoordinierte Zugriffe auf die Datenträger der anderen Datenverarbeitungsanlagen SMP1 . . . n die Konsistenz der Daten gefährden könnten, folgt dieser Meldung i. a. das Ab­ schalten der gestörten Datenverarbeitungsanlage SMP1 . . . n durch die Clusterkonsole. Diese Meldung wird auch als "Shutdown re­ quest" oder "Killrequest" bezeichnet.
Falls das Cluster (30) aus N Knoten besteht, werden also bei Ausfall eines Knotens von den N-1 Knoten auch N-1 Killre­ quests eintreffen. Zum Sammeln der Killrequests ist ein Zei­ tintervall von 10 Sekunden eingestellt. Dann beginnt die Aus­ wertung auf der Clusterkonsole CKS und anschließend das Ab­ schalten der Datenverarbeitungsanlagen SMP1 . . . n.
In einer einfachen bekannten Lösung werden die eintreffenden Killrequests in eine Tabelle (siehe Fig. 2) eingetragen. Diese Tabelle wird mit gespeicherten Mustern verglichen und die beim aufgefundenen Muster als Abschaltkandidaten einge­ tragenen Datenverarbeitungsanlagen SMP1 . . . n anschließend eli­ miniert.
Beim Beispiel gemäß Fig. 2 sind maximal 4 Knoten A, B, C, D freigegeben. Dadurch ergeben sich die in der Figur gezeigten Muster. Dabei bedeutet eine 1 in Zeile A und Spalte B: Kill­ request (A, B) also A fordert, daß B abgeschaltet wird.
Für die mit "x" belegten Felder kann es keinen Killrequest geben, da eine Maschine nicht verlangt, daß sie selbst abge­ schaltet wird. Es bleiben somit 2 ** (16 - 4) = 2 ** 12 = 4048 Muster für 4 Knoten plus 64 Muster für drei Knoten, von denen nur die 35 wahrscheinlichsten mit einer Liste von abzuschal­ tenden Datenverarbeitungsanlagen versehen werden.
Diese Methode ist für Datennetze (30) mit einer potentiell unbegrenzten Anzahl von Knoten nicht vorteilhaft einsetzbar.
Das erfindungsgemäße Verfahren erlaubt es, für eine beliebige Anzahl von Knoten algorithmisch, also ohne vorgefertigte Ta­ bellen, zu einer Bestimmung der abzuschaltenden Knoten zu finden.
Dabei sind zwei Situationen grundsätzlich unterschiedlich zu behandeln:
  • a) Die unsymmetrische Situation: es gibt mindestens einen Killrequest (A, B) ohne den entsprechenden reversen Killre­ quest (B, A)
  • b) Die symmetrische Situation: zu jedem Killrequest (A, B) gibt es den entsprechenden reversen Killrequest (B, A)
Im Fall a) gibt es also B als Ziel eines Killrequests von A, aber nicht umgekehrt. Also ist die Datenverarbeitungsanlage B aus dem Verkehr zu ziehen, da sie selbst nicht mehr in der Lage ist, die Unterbrechung der Kommunikation zu melden. Bei komplexeren Situationen aus a) ist mit einer Zählung der Zielhäufigkeiten Z(x) und einer relativ einfachen Regel im allgemeinen ein Restcluster aus intakten Maschinen wiederher­ zustellen. Die Regel lautet:
  • - Datenverarbeitungsanlage x mit dem höchsten Z(x) abschal­ ten, alle Requests löschen, die von x ausgegangen sind und die x als Ziel hatten
  • - Zielhäufigkeiten neu bestimmen
  • - diese Regel wieder anwenden
Im Fall b) ist offensichtlich nur die Verbindung zwischen A und B unterbrochen, während die Datenverarbeitungsanlage selbst völlig in Ordnung sind und die Software richtig rea­ giert ("Split Brain Syndrom")
Daher ist es von größtem Interesse, möglichst viele Datenver­ arbeitungsanlagen DVA1 . . . n (Knoten), die untereinander unein­ geschränkt kommunizieren können, überleben zu lassen. Die Vorgehensweise wie im vorhergehenden Fall a) würde diese An­ forderung nicht erfüllen, da nicht die Anzahl der intakten Verbindungen das Wesentliche ist, sondern die sich daraus er­ gebende Struktur. Nur wenn in der Reststruktur jeder Knoten mit jedem verbunden ist, kann das verbleibende Cluster sinn­ voll weiterarbeiten.
Dieser Sachverhalt läßt sich mit Hilfe eines Graphen gut dar­ stellen. Die intakten Kommunikationswege werden als Kanten zwischen den Knoten - die den Rechnerknoten entsprechen - ge­ zeichnet. Dann ergibt sich die Lösung der Aufgabenstellung als Antwort auf die Frage, wie der größte vollkommene Unter­ graph eines ungerichteten Graphen zu finden ist. Diese mathe­ matische Frage ist in der englischsprachigen Literatur einge­ hend behandelt, das englische Stichwort für einen komplett verbundenen Untergraphen ist "clique". Da das Auffinden aller "cliques" in einem Graphen i. a. ein zeitaufwendiges Problem ist, gibt es in der Literatur auch ein Bemühen, den schnell­ sten Algorithmus dafür zu finden. Ein sehr effizienter Algo­ rithmus wurde dem Artikel "Finding All Cliques of an Undi­ rected Graph [H]" von Coen Bron und Joep Kerbosch aus CACM 1973, Volume 16, Number 9, pp 575-577 entnommen. Mittels die­ ses Algorithmus sind sehr kurze Reaktionszeiten realisierbar, die im Bereich der erzielbaren Reaktionszeiten mit Hilfe der oben genannten Tabellen erreichbar sind.
Die Fig. 3, 4 und 5 zeigen ein Ablaufdiagramm zur Analyse und Behandlung von quasisimultanen Mehrfachausfällen in Hochverfügbarkeitsclustern. Dieser Ablauf wird anhand eines Clusters aus zehn Knoten beschrieben. Es gehen die in der Ta­ belle gemäß Fig. 6 aufgezeigten Killrequests ein, die in ei­ ne Verbindungsmatrix gemäß Fig. 7 eingetragen werden.
Gemäß Fig. 3 werden mit einem Schritt 101 eine Konfigurati­ onsdatei gelesen und die Verbindungsmatrix durch Setzen mit einer 1 initialisiert. In einem zweiten Schritt 102 werden Nachrichten von den Datenverarbeitungsanlagen SMP1 . . . 10 gele­ sen, und sofern keine vorliegen, wird gewartet. Wird eine Nachricht empfangen, wird in einem dritten Schritt 103 ge­ prüft, ob es sich um einen Killrequest handelt. Ist dies der Fall, dann wird in einem vierten Schritt 104 der Killrequest in die Verbindungsmatrix eingetragen. Stammt der Killrequest demnach von der Datenverarbeitungsanlage SMP1 und fordert dieser Killrequest die Datenverarbeitungsanlage SMP4 abzu­ schalten, dann wird in die Matrix in Zeile 1, Spalte 4, eine 0 eingetragen.
In einem fünften Schritt 105 werden zunächst zehn Sekunden abgewartet, bis mit einem sechsten Schritt 106 die nächste Nachricht gelesen wird. In einem siebten Schritt 107 wird ge­ prüft, ob eine nächste Nachricht vorhanden ist. Ist dies der Fall, dann wird in einem achten Schritt 108 geprüft, ob es sich dabei wiederum um einen Killrequest handelt. Liegt ein weiterer Killrequest vor, wird in einem neunten Schritt 109 ein weiterer Eintrag in die Verbindungsmatrix vorgenommen. Dieser Vorgang wird im vorliegenden Beispiel so lange wieder­ holt, bis alle eintreffenden Nachrichten der Datenverarbei­ tungsanlagen SMP1 bis SMP10 in die Verbindungsmatrix einge­ tragen sind.
Liegt keine weitere Nachricht mehr vor, wird dies in dem Schritt 107 festgestellt. In einem weiteren zwölften Schritt 112 werden die abzuschaltenden Knoten bestimmt. Das dazu er­ forderliche Vorgehen zeigt das Ablaufdiagramm gemäß Fig. 4.
Zunächst soll jedoch das Ablaufdiagramm gemäß Fig. 3 be­ schrieben werden. Wird in einem der Schritt 103 oder 108 festgestellt, daß es sich um keinen Killrequest handelt, dann wird in einem elften Schritt 111 bzw. einem zehnten Schritt 110 diese Nachricht an die adressierte Stelle weitergereicht. Handelt es sich bei der Nachricht allerdings um einen Lösch­ befehl, dann führt dies zu einer Initialisierung der Verbin­ dungsmatrix gemäß Fig. 7, wodurch in dieser wieder an allen Stellen eine 1 eingetragen ist.
Die Bestimmung der abzuschaltenden Knoten erfolgt gemäß Fig. 4. In einem Schritt 113 wird überprüft, ob es sich bei den in die Verbindungsmatrix eingetragenen Killrequests um eine sym­ metrische Matrix handelt. Ist dies der Fall, dann wird in ei­ nem Schritt 114 mit Hilfe eines ACM Algorithmus nach komplett verbundenen Untergrafen, sogenannten "Cliques" gesucht.
Betrachtet man die Verbindungsmatrix gemäß Fig. 7, dann er­ kennt man, daß das Datennetz 30 in zwei Teile zerfallen ist, wobei ein Teil als Sechsknoten SMP1 bis SMP6 und aus vier Knoten SMP7 bis 10 zerfallen ist. In dem Teilcluster mit sechs Knoten sind zusätzlich die Diagonalen unterbrochen, so daß kein funktionsfähiges Teilcluster mehr vorliegt. Die Dia­ gonalen findet man beispielsweise in Zeile 4, Spalte 1, Zeile 5, Spalte 2, Zeile 6, Spalte 3 und Zeile 1, Spalte 4, Zeile 2, Spalte 5, Zeile 3, Spalte 6.
Bei der Verbindungsmatrix gemäß Fig. 7 handelt es sich um eine Matrix mit symmetrischen Eintragungen, was im Schritt 113 zu einer entsprechenden Entscheidung führt. Mit Hilfe des CACM Algorithmus (siehe obige Literaturstelle) können im Schritt 114 nun alle "cliques" gefunden werden. Beim vorliegenden Beispiel erhält man die in den Fig. 8 und 9 gezeigten "Cliques" also komplett verbunden im Untergrafen. Diese sind: Die Knoten 1, 2, 3 und 2, 3, 4 und 3, 4, 5 und 4, 5, 6 und 1, 3, 5 und 2, 4, 6 sowie 7, 8, 9, 10.
Die so bekannten Untergrafen werden in einem Schritt 115 nach Größe und Priorität geordnet. Da ein sinnvolles Weiterarbei­ ten von Datenverarbeitungsanlagen SMP1 bis 10 nur möglich ist, wenn jeder Knoten mit jedem verbunden ist, ergibt sich beim vorliegenden Beispiel, daß das Cluster mit den Knoten 7, 8, 9 und 10 diese Bedingung erfüllt. Nach Anwendung dieser Regel bleiben vier Datenverarbeitungsanlagen SMP7 bis 10 voll funktionsfähig erhalten, und es ist offensichtlich der größte mögliche Rechnerverbund fähig, weiterzuarbeiten. Die übrigen Rechnerknoten werden in einem Schritt 116 eliminiert. In ei­ nem folgenden Schritt 117 werden globale Daten reinitiali­ siert und somit versucht, andere Datenverarbeitungsanlagen im ursprünglichen Datennetz 30 wieder funktionsfähig zu machen oder gegebenenfalls Meldungen an einen Systemadministrator abzusetzen.
Wäre der Schritt 113 beim vorliegenden Beispiel mit nein be­ antwortet worden, das heißt, die Matrix wäre nicht symme­ trisch gewesen, dann wäre mit einem Schritt 118 ein Eliminie­ ren von Knoten anhand der Zielhäufigkeit eingetreten. Das diesbezügliche Verfahren ist in Fig. 5 erläutert. In einem Schritt 119 würde bestimmt, ob noch Killrequests in der Liste vorhanden sind. Wenn nein, käme der Rücksprung zum Schritt 117 aus Fig. 4, der zur Reinitialisierung globaler Daten führt. Ist jedoch der Schritt 119 mit ja zu beantworten, dann wird in einem Schritt 120 der Knoten K mit der größten Ziel­ häufigkeit und niedrigster Priorität bestimmt. In einem Schritt 121 wird dieser Knoten K abgeschaltet. Der entspre­ chende Befehl lautet: Lösche alle Requests mit K als Quelle und als Ziel. Ist der Löschvorgang für den Knoten K abgear­ beitet, dann wird im Schritt 119 wiederum gefragt, ob noch Killrequests in der Liste sind. Die Schritte 120 und 121 wer­ den solange wiederholt, bis im Schritt 119 die Frage mit nein beantwortet werden kann. Beim vorliegenden Beispiel würden durch das Verfahren gemäß Fig. 5 die Knoten 7, 8, 9 und 10 zuerst abgeschaltet werden, da sie sechsmal als Ziel vorkom­ men, während 1, 2, 3, 4, 5 und 6 nur je fünfmal das Ziel sind. Das Ziel, den größtmöglichen Verbund von Datenverarbei­ tungsanlagen SMP1 . . . 10 in Betrieb zu halten, wäre mit dieser Methode nicht erreichbar gewesen.

Claims (10)

1. Verfahren zur Analyse und Behandlung von Störungen in einem Datennetz an das eine Mehrzahl von Datenverarbeitungs­ anlagen (SMP1 . . . n) gekoppelt ist, die mit einer Clusterkonsole (CKS) so verbunden sind, daß sie Nachrichten insbesondere über den Verbindungszustand zu anderen Datenverarbeitungsan­ lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu­ sterkonsole (CKS)
  • - bei eintreffenden Meldungen überprüft, ob es sich um Nach­ richten über den Verbindungszustand handelt,
  • - Nachrichten über den Verbindungszustand in eine Verbin­ dungsmatrix einträgt und weitere Meldungen erwartet, die für den Fall, daß es sich um Nachrichten über den Verbin­ dungszustand handelt auch in die Verbindungsmatrix einge­ tragen werden,
  • - wenn keine weiteren Meldungen mehr vorliegen, die Verbin­ dungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungs­ matrix ergeben,
  • - wenn keine symmetrische Verbindungsmatrix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten genannten, die gemeldeten Datenverarbeitungsanlagen (SMP1 . . . n) abschaltet,
  • - wenn eine symmetrische Verbindungsmatrix vorliegt, anhand eines graphentheoretischen Algorithmus alle Cluster von Da­ tenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb de­ rer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder ande­ ren Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kom­ munizieren kann und anschließend das Cluster, das die mei­ sten Datenverarbeitungsanlagen (SMP1 . . . n) enthält, auswählt weiterzuarbeiten, während sie alle anderen Datenverarbei­ tungsanlagen (SMP1 . . . n) abschaltet.
2. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo­ bei die Clusterkonsole (CKS) bei unsymmetrischer Verbindungs­ matrix und gleicher Häufigkeit der Nachrichten über den Ver­ bindungszustand für mindestens zwei Datenverarbeitungsanlagen (SMP1 . . . n) diejenige mit der niedrigsten Priorität zuerst ab­ schaltet.
3. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo­ bei die Clusterkonsole (CKS) bei symmetrischer Verbindungsma­ trix und gleicher Größe von funktionsfähigen Clustern die Da­ tenverarbeitungsanlagen (SMP1 . . . n) desjenigen Clusters zuerst abschaltet, deren Datenverarbeitungsanlagen (SMP1 .. n) in Sum­ me die niedrigste Priorität aufweisen.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Clusterkonsole (CKS) nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit einhält, bevor sie weitere Nachrichten liest.
5. Verfahren nach Anspruch 4, wobei die Wartezeit 10 Sekun­ den beträgt.
6. Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz an das eine Mehrzahl von Datenverarbeitungs­ anlagen (SMP1 . . . n) gekoppelt sind, die mit einer Clusterkonso­ le (CKS) so verbunden sind, daß sie Nachrichten insbesondere über den Verbindungszustand zu anderen Datenverarbeitungsan­ lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu­ sterkonsole (CKS) enthält:
  • - eine Prüfeinrichtung, die bei eintreffenden Meldungen über­ prüft, ob es sich um Nachrichten über den Verbindungszu­ stand handelt,
  • - Mittel zum Eintragen von Nachrichten über den Verbindungs­ zustand in eine Verbindungsmatrix, wobei es nach dem Ein­ trag einer Nachricht weitere Meldungen erwartet, und diese für den Fall, daß es sich um Nachrichten über den Verbin­ dungszustand handelt auch in die Verbindungsmatrix einge­ trägt,
  • - eine weitere Prüfeinrichtung, die, wenn keine weiteren Mel­ dungen mehr vorliegen, die Verbindungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungsmatrix ergeben,
  • - Abschaltmittel, die, wenn keine symmetrische Verbindungsma­ trix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten ge­ nannten, gemeldete Datenverarbeitungsanlagen (SMP1 . . . n) ab­ schalten,
  • - Analysemittel, die, wenn eine symmetrische Verbindungsma­ trix vorliegt, anhand eines graphentheoretischen Algorith­ mus alle Cluster von Datenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb derer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder anderen Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kommunizieren kann und anschlie­ ßend das Cluster, das die meisten Datenverarbeitungsanlagen (SMP1 . . . n) enthält auswählt weiterzuarbeiten, während es das Abschaltmittel anweist, alle anderen Datenverarbeitungsan­ lagen (SMP1 .. n) abzuschalten.
7. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla­ gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wobei die Abschaltmittel der Clusterkonsole (CKS) bei unsym­ metrischer Verbindungsmatrix und gleicher Häufigkeit der Nachrichten über den Verbindungszustand für mindestens zwei Datenverarbeitungsanlagen (SMP1 . . . n) diejenige mit der nied­ rigsten Priorität zuerst abschalten.
8. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla­ gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wobei die Abschaltmittel der Clusterkonsole (CKS) bei symme­ trischer Verbindungsmatrix und gleicher Größe von funktions­ fähigen Clustern die Datenverarbeitungsanlagen (SMP1 . . . n) des­ jenigen Clusters zuerst abschalten, deren Datenverarbeitungs­ anlagen (SMP1 . . . n) in Summe die niedrigste Priorität aufwei­ sen.
9. Vorrichtung nach einem der Ansprüche 6 bis 8, wobei die Clusterkonsole (CKS) eine Zeitsteuereinrichtung enthält, die nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit einhält, bevor sie weitere Nach­ richten zum lesen freigibt.
10. Vorrichtung nach einem der Ansprüche 6 bis 9, wobei die Clusterkonsole (CKS) über serielle Konsoleleitungen (KS) mit den Datenverarbeitungsanlagen (SMP1 . . . n) gekoppelt ist.
DE1998137008 1998-08-14 1998-08-14 Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz Expired - Fee Related DE19837008C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998137008 DE19837008C2 (de) 1998-08-14 1998-08-14 Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998137008 DE19837008C2 (de) 1998-08-14 1998-08-14 Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz

Publications (2)

Publication Number Publication Date
DE19837008A1 DE19837008A1 (de) 2000-03-16
DE19837008C2 true DE19837008C2 (de) 2000-06-21

Family

ID=7877613

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998137008 Expired - Fee Related DE19837008C2 (de) 1998-08-14 1998-08-14 Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz

Country Status (1)

Country Link
DE (1) DE19837008C2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1372075B1 (de) * 2002-06-13 2004-08-25 Fujitsu Siemens Computers, LLC Verfahren um einen Computer aus einem Cluster zu entfernen

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4332881A1 (de) * 1993-09-21 1995-03-23 Ksp Ingenieurtechnische Dienst Fehlertolerantes Multicomputersystem

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4332881A1 (de) * 1993-09-21 1995-03-23 Ksp Ingenieurtechnische Dienst Fehlertolerantes Multicomputersystem

Also Published As

Publication number Publication date
DE19837008A1 (de) 2000-03-16

Similar Documents

Publication Publication Date Title
EP1223709B1 (de) Verfahren und Vorrichtung zum rechnergestützten Überwachen eines Telekommunikationsnetzes
DE60302876T2 (de) Master-knotenauswahl in geclusterten knotenkonfigurationen
EP0635784B1 (de) Multiprozessorsystem
DE19607515B4 (de) Computer mit Prozessverwalter
DE10039538B4 (de) Vorrichtung und Verfahren zum Analysieren der Leistung eines Computerprogramms
DE69629630T2 (de) Struktur zur Gruppenzugehörigkeitsverwaltung in einem Mehrfachrechnersystem
DE69829759T2 (de) Verteilung von nachrichten zu dienststeuereinrichtungen
DE60314025T2 (de) System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement
DE112010003099B4 (de) Erkennung gering ausgelasteter netzeinheiten
DE19822543A1 (de) Verfahren zum Zuteilen von Aufträgen, Datenverarbeitssystem, Client-Datenbearbeitungsknoten und computerlesbares Speichermedium
EP0632617A2 (de) Verfahren und Einrichtung zur Unterstützung des Netzwerkmanagements
DE60220375T2 (de) Spezifischer Datenregistrierungsserver in einem Bedien- und Verwaltungszentrum für ein Telekommunikationssystem
DE10309246B4 (de) Verfahren für das Event Management
DE102004005128B3 (de) Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall
EP1307006A2 (de) Akzeptanz-Filter
DE10260351A1 (de) Lastverteilungssystem für die Steuervorrichtung einer Basisstation
EP1634176A2 (de) Clusteranordnung für dezentrale lastverteilung
DE19837008C2 (de) Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz
EP1820307B1 (de) Verfahren zum nachweis der verf]gbarkeit von systemkomponenten eines redundanten kommunikationssystems
DE112016005840B4 (de) Drahtloses kommunikationsgerät, drahtloses kommunikationsverfahren und programm für drahtlose kommunikation
DE4422637A1 (de) Rechnersystem und Verfahren zum Problemlösen
DE19640346C2 (de) Verfahren zum Überprüfen eines gemäß einem Kommunikationsprotokoll durchgeführten Datenaustausches
DE19900636A1 (de) Datenzugriffs- und -verwaltungssystem sowie Verfahren zum Datenzugriff und zur Datenverwaltung für ein Rechnersystem
EP3705993B1 (de) System und verfahren zum auffinden und identifizieren von rechenknoten in einem netzwerk
EP1248430B1 (de) Verfahren und Generierungsmodul zur Ermittlung von Filtermasken zur Relevanzprüfung von Kennzeichnern

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: FUJITSU SIEMENS COMPUTERS GMBH, 81739 MUENCHEN, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110301