DE19837008C2

DE19837008C2 - Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz

Info

Publication number: DE19837008C2
Application number: DE1998137008
Authority: DE
Inventors: Horst Kern; Dale Reed
Original assignee: Wincor Nixdorf International GmbH
Current assignee: Fujitsu Technology Solutions GmbH
Priority date: 1998-08-14
Filing date: 1998-08-14
Publication date: 2000-06-21
Anticipated expiration: 2018-08-15
Also published as: DE19837008A1

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz. Da tennetze verbinden eine Mehrzahl von Datenverarbeitungsanla gen. Die Datennetze müssen häufig in höchstem Maße verfügbar sein. An das Datennetz gekoppelte Datenverarbeitungsanlagen bilden die Knoten von sogenannten Hochverfügbarkeitsclustern. Die Datenverarbeitungsanlagen sind mit einer weiteren Daten verarbeitungsanlage gekoppelt, die als Clusterkonsole be zeichnet wird. Die Clusterkonsole erhält Meldungen über die Verfügbarkeit der Datenverarbeitungsanlagen von den Knoten, die Sie analysiert und daraus Aktionen ableitet, die eine ho he Verfügbarkeit des Datennetzes gewährleisten.

Derzeit werden Hochverfügbarkeitscluster aus Einzelprozessor- Datenverarbeitungsanlagen und/oder Mehrprozessor- Datenverarbeitungsanlagen (SMP) bis in die Größenordnung von 16 Anlagen im Cluster von großen Herstellern angeboten. Bei gleichzeitigen Mehrfachausfällen von Datenverarbeitungsanla gen ergibt sich damit das Problem, daß in kurzer Zeit analy siert werden muß, ob es sich um

- echte Ausfälle von Datenverarbeitungsanlagen handelt, z. B. durch Stromschwankungen oder -ausfälle,
- Störungen der clusterbezogenen Kommunikationsfähigkeit ei ner Datenverarbeitungsanlage, z. B. Hardwaredefekt im Cluster- Kommunikationsinterface, womit sie ebenfalls wie eine ausge fallener Datenverarbeitungsanlage zu behandeln ist,
- Störungen der Kommunikation zwischen einigen Datenverarbei tungsanlagen, z. B. Ausfall einiger Leitungen, wobei die Kom munikation zu anderen Datenverarbeitungsanlagen im Cluster noch intakt ist.

Die Clusterkonsole ist als unabhängige Instanz prädestiniert, die Schiedsrichterfunktion bei allen Ausfallszenarien zu übernehmen. Sie ist mit allen Datenverarbeitungsanlagen im Cluster verbunden und hat häufig darüber hinaus den Zugriff auf die sogenannten Konsoleleitungen aller Datenverarbei tungsanlagen. Konsoleleitungen bilden eine Serviceschnitt stelle zu den Datenverarbeitungsanlagen. Diese Schnittstelle ist oft als serielle Schnittstelle ausgeführt. Mittels der Konsoleleitungen kann also softwaregesteuert bei Bedarf jede Datenverarbeitungsanlage angehalten oder neu gestartet werden (reboot). Die Datenverarbeitungsanlagen im Cluster senden ei ne Meldung an die Clusterkonsole, wenn die Lebenszeichen ei ner anderen Datenverarbeitungsanlage ausbleiben. Da dieses Ausbleiben zur Vermutung einer größeren Störung Anlaß gibt, und gestörte Maschinen durch unkoordinierte Zugriffe auf die Datenträger die Konsistenz der Daten gefährden könnten, folgt dieser Meldung i. a. das Abschalten der Maschine durch die Clusterkonsole. Deshalb hat sich für diese Meldung die Be zeichnung "Shutdown request" oder auch "Killrequest" eta bliert.

Falls das Cluster aus N Knoten besteht, werden bei Ausfall eines Knotens von den N-1 Knoten auch N-1 Killrequests ein treffen. Deren Auswertung erfolgt auf der Clusterkonsole und hat das Abschalten der Datenverarbeitungsanlage im gemeldeten Knoten zur Folge.

Es bestünde auch die Möglichkeit, vordefinierte Tabellen zu verwenden, aus denen die erforderlichen Aktionen der Cluster konsole abgeleitet werden könnten. Die eintreffenden Killre quests würden in eine Tabelle eingetragen. Diese Tabelle könnte mit gespeicherten Mustern verglichen werden, woraufhin die beim aufgefundenen Muster als Abschaltkandidat eingetra gene Datenverarbeitungsanlage anschließend aus dem Datennetz entfernt werden könnte.

Die Tabellen wären bei Datennetzen mit mehr als vier Knoten jedoch sehr komplex und kaum mehr überschaubar.

Der vorliegenden Erfindung liegt deshalb die Aufgabe zugrun de, ein Verfahren und eine Vorrichtung zur Analyse und Be handlung von Störungen in einem großen Datennetz an das eine Mehrzahl von Datenverarbeitungsanlagen gekoppelt ist, aufzu zeigen, das gestörte Datenverarbeitungsanlagen gezielt ab schaltbar macht und dennoch überschaubar ist.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Merkmale gelöst. Alle Datenverarbeitungsanlagen sind mit einer Clusterkonsole so verbunden, daß sie Nachrich ten insbesondere über den Verbindungszustand zu anderen Da tenverarbeitungsanlagen mit dieser austauschen können. Im mehreren Verfahrensschritten füllt die Clusterkonsole eine Verbindungsmatrix. Wenn keine weiteren Meldungen mehr vorlie gen, wird die Verbindungsmatrix überprüft, ob die eingetrage nen Nachrichten über den Verbindungszustand eine symmetrische Verbindungsmatrix ergeben:

Wenn keine symmetrische Verbindungsmatrix vorliegt, werden anhand der eingegangenen Nachrichten über den Verbindungszu stand, beginnend mit der am häufigsten genannten, betroffene Datenverarbeitungsanlagen abgeschaltet. Wenn eine symmetri sche Verbindungsmatrix vorliegt, werden anhand eines gra phentheoretischen Algorithmus wie er beschrieben ist in "Fin ding All Cliques of an Undirected Graph [H]" von Coen Bron und Joep Kerbosch aus CACM 1973, Volume 16, Number 9, pp 575- 577, alle Cluster von Datenverarbeitungsanlagen ermittelt, innerhalb derer jede Datenverarbeitungsanlage mit jeder ande ren Datenverarbeitungsanlage uneingeschränkt kommunizieren kann und anschließend wird das Cluster, das die meisten Da tenverarbeitungsanlagen enthält ausgewählt weiterzuarbeiten, während alle anderen Datenverarbeitungsanlagen abgeschaltet werden.

Die Unterscheidung, ob die Verbindungsmatrix symmetrisch ist oder nicht liefert somit optimale Ergebnisse. Die unsymmetri sche Verbindungsmatrix kann durch einen einfachen Algorith mus, der die Nennungshäufigkeit ermitteln kann behandelt wer den. Die Adaption des graphentheoretischen Algorithmus lie fert ebenfalls kurze Antwort- und Entscheidungszeiten, die mit denen bisheriger tabellenbasierter Anwendungen konkurrie ren können. Dabei ist immer klar erkennbar, nach welcher Re gel die Abschaltungen vorgenommen werden. Abschaltmuster müs sen nicht vordefiniert werden.

Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens werden unterschiedliche Prioritäten für Datenverarbeitungsan lagen im Datennetz vergeben, wobei die Clusterkonsole bei un symmetrischer Verbindungsmatrix und gleicher Häufigkeit der Nachrichten über den Verbindungszustand für mindestens zwei Datenverarbeitungsanlagen diejenige mit der niedrigsten Priorität zuerst abschaltet. Dadurch können wichtige Daten verarbeitungsanlagen länger in Betrieb gehalten werden.

Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens werden unterschiedliche Prioritäten für Datenverarbeitungsan lagen im Datennetz vergeben, wobei die Clusterkonsole bei symmetrischer Verbindungsmatrix und gleicher Größe von funk tionsfähigen Cluster die Datenverarbeitungsanlagen desjenigen Clusters zuerst abschaltet, deren Datenverarbeitungsanlagen in Summe die niedrigste Priorität aufweisen. Dadurch können wichtige Datenverarbeitungsanlagen in größern Clustern länger in Betrieb gehalten werden.

Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens wartet die Clusterkonsole nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit, be vor sie weitere Nachrichten liest. Damit wird auch anderen Datenverarbeitungsanlagen ermöglicht eine Meldung an die Clu sterkonsole abzusetzen. Die Gesamtheit der Nachrichten über den Verbindungszustand, die sogenannten Killrequests, kann somit in einer Gesamtschau bearbeitet werden, wodurch optima le Ergebnisse erzielt werden. Die Wartezeit kann 10 Sekunden betragen.

Gemäß einer Ausgestaltung und Weiterbildung der Vorrichtung ist die Clusterkonsole über serielle Konsoleleitungen mit den Datenverarbeitungsanlagen gekoppelt. Damit kann sie ihre Überwachungsaufgaben unabhängig vom eigentlichen Datennetz wahrnehmen.

Die Erfindung wird im folgenden anhand der Zeichnung näher erläutert. Dabei zeigen,

Fig. 1 ein Blockschaltbild eines Datennetzes;

Fig. 2 eine einfache Tabelle, in die Killrequests von 4 Kno ten eingetragen werden können;

Fig. 3 ein Ablaufdiagramm zur Analyse und Behandlung von Mehrfachausfällen;

Fig. 4 eine Detaillierung des Ablaufdiagramms gemäß Fig. 3;

Fig. 5 eine Detaillierung des Ablaufdiagramms gemäß Fig. 4;

Fig. 6 eine Tabelle von Killrequests für ein Cluster mit 10 Knoten;

Fig. 7 eine Verbindungsmatrix für ein Cluster mit 10 Knoten;

Fig. 8 einen Verbindungsgraphen für die Knoten 1 bis 6;

Fig. 9 einen Verbindungsgraphen für die Knoten 7 bis 10.

Fig. 1 zeigt ein Datennetz 30, an das Datenverarbeitungsan lagen SMP1, SMP2, SMP3, SMP4, . . . SMPn gekoppelt sind. Diese Da tenverarbeitungsanlagen SMP1 . . . n sind zusätzlich über serielle Konsoleleitungen KS1 . . . n an eine Clusterkonsole CKS gekoppelt. Die Clusterkonsole CKS ist eine Datenverarbeitungsanlage, die die Datenverarbeitungsanlagen SMP1 . . . n überwacht und steuert.

Der Clusterkonsole CKS obliegt die Schiedsrichterfunktion bei allen Ausfallszenarien der Datenverarbeitungsanlagen SMP1 .. n. Sie kann über die Konsoleleitungen KS1 . . . n softwaregesteuert bei Bedarf jede Datenverarbeitungsanlage SMP1 . . . n anhalten oder neu starten (rebooten). Dazu senden alle Datenverarbei tungsanlagen SMP1 . . . n im auch als Cluster bezeichneten Daten netz (30) eine Meldung an die Clusterkonsole CKS, wenn die Lebenszeichen einer anderen Datenverarbeitungsanlage SMP1 . . . n ausbleiben. Da dieses Ausbleiben zur Vermutung einer größeren Störung Anlaß gibt, und gestörte Datenverarbeitungsanlagen SMP1 . . . n durch unkoordinierte Zugriffe auf die Datenträger der anderen Datenverarbeitungsanlagen SMP1 . . . n die Konsistenz der Daten gefährden könnten, folgt dieser Meldung i. a. das Ab schalten der gestörten Datenverarbeitungsanlage SMP1 . . . n durch die Clusterkonsole. Diese Meldung wird auch als "Shutdown re quest" oder "Killrequest" bezeichnet.

Falls das Cluster (30) aus N Knoten besteht, werden also bei Ausfall eines Knotens von den N-1 Knoten auch N-1 Killre quests eintreffen. Zum Sammeln der Killrequests ist ein Zei tintervall von 10 Sekunden eingestellt. Dann beginnt die Aus wertung auf der Clusterkonsole CKS und anschließend das Ab schalten der Datenverarbeitungsanlagen SMP1 . . . n.

In einer einfachen bekannten Lösung werden die eintreffenden Killrequests in eine Tabelle (siehe Fig. 2) eingetragen. Diese Tabelle wird mit gespeicherten Mustern verglichen und die beim aufgefundenen Muster als Abschaltkandidaten einge tragenen Datenverarbeitungsanlagen SMP1 . . . n anschließend eli miniert.

Beim Beispiel gemäß Fig. 2 sind maximal 4 Knoten A, B, C, D freigegeben. Dadurch ergeben sich die in der Figur gezeigten Muster. Dabei bedeutet eine 1 in Zeile A und Spalte B: Kill request (A, B) also A fordert, daß B abgeschaltet wird.

Für die mit "x" belegten Felder kann es keinen Killrequest geben, da eine Maschine nicht verlangt, daß sie selbst abge schaltet wird. Es bleiben somit 2 ** (16 - 4) = 2 ** 12 = 4048 Muster für 4 Knoten plus 64 Muster für drei Knoten, von denen nur die 35 wahrscheinlichsten mit einer Liste von abzuschal tenden Datenverarbeitungsanlagen versehen werden.

Diese Methode ist für Datennetze (30) mit einer potentiell unbegrenzten Anzahl von Knoten nicht vorteilhaft einsetzbar.

Das erfindungsgemäße Verfahren erlaubt es, für eine beliebige Anzahl von Knoten algorithmisch, also ohne vorgefertigte Ta bellen, zu einer Bestimmung der abzuschaltenden Knoten zu finden.

Dabei sind zwei Situationen grundsätzlich unterschiedlich zu behandeln:

a) Die unsymmetrische Situation: es gibt mindestens einen Killrequest (A, B) ohne den entsprechenden reversen Killre quest (B, A)
b) Die symmetrische Situation: zu jedem Killrequest (A, B) gibt es den entsprechenden reversen Killrequest (B, A)

Im Fall a) gibt es also B als Ziel eines Killrequests von A, aber nicht umgekehrt. Also ist die Datenverarbeitungsanlage B aus dem Verkehr zu ziehen, da sie selbst nicht mehr in der Lage ist, die Unterbrechung der Kommunikation zu melden. Bei komplexeren Situationen aus a) ist mit einer Zählung der Zielhäufigkeiten Z(x) und einer relativ einfachen Regel im allgemeinen ein Restcluster aus intakten Maschinen wiederher zustellen. Die Regel lautet:

- Datenverarbeitungsanlage x mit dem höchsten Z(x) abschal ten, alle Requests löschen, die von x ausgegangen sind und die x als Ziel hatten
- Zielhäufigkeiten neu bestimmen
- diese Regel wieder anwenden

Im Fall b) ist offensichtlich nur die Verbindung zwischen A und B unterbrochen, während die Datenverarbeitungsanlage selbst völlig in Ordnung sind und die Software richtig rea giert ("Split Brain Syndrom")

Daher ist es von größtem Interesse, möglichst viele Datenver arbeitungsanlagen DVA1 . . . n (Knoten), die untereinander unein geschränkt kommunizieren können, überleben zu lassen. Die Vorgehensweise wie im vorhergehenden Fall a) würde diese An forderung nicht erfüllen, da nicht die Anzahl der intakten Verbindungen das Wesentliche ist, sondern die sich daraus er gebende Struktur. Nur wenn in der Reststruktur jeder Knoten mit jedem verbunden ist, kann das verbleibende Cluster sinn voll weiterarbeiten.

Dieser Sachverhalt läßt sich mit Hilfe eines Graphen gut dar stellen. Die intakten Kommunikationswege werden als Kanten zwischen den Knoten - die den Rechnerknoten entsprechen - ge zeichnet. Dann ergibt sich die Lösung der Aufgabenstellung als Antwort auf die Frage, wie der größte vollkommene Unter graph eines ungerichteten Graphen zu finden ist. Diese mathe matische Frage ist in der englischsprachigen Literatur einge hend behandelt, das englische Stichwort für einen komplett verbundenen Untergraphen ist "clique". Da das Auffinden aller "cliques" in einem Graphen i. a. ein zeitaufwendiges Problem ist, gibt es in der Literatur auch ein Bemühen, den schnell sten Algorithmus dafür zu finden. Ein sehr effizienter Algo rithmus wurde dem Artikel "Finding All Cliques of an Undi rected Graph [H]" von Coen Bron und Joep Kerbosch aus CACM 1973, Volume 16, Number 9, pp 575-577 entnommen. Mittels die ses Algorithmus sind sehr kurze Reaktionszeiten realisierbar, die im Bereich der erzielbaren Reaktionszeiten mit Hilfe der oben genannten Tabellen erreichbar sind.

Die Fig. 3, 4 und 5 zeigen ein Ablaufdiagramm zur Analyse und Behandlung von quasisimultanen Mehrfachausfällen in Hochverfügbarkeitsclustern. Dieser Ablauf wird anhand eines Clusters aus zehn Knoten beschrieben. Es gehen die in der Ta belle gemäß Fig. 6 aufgezeigten Killrequests ein, die in ei ne Verbindungsmatrix gemäß Fig. 7 eingetragen werden.

Gemäß Fig. 3 werden mit einem Schritt 101 eine Konfigurati onsdatei gelesen und die Verbindungsmatrix durch Setzen mit einer 1 initialisiert. In einem zweiten Schritt 102 werden Nachrichten von den Datenverarbeitungsanlagen SMP1 . . . 10 gele sen, und sofern keine vorliegen, wird gewartet. Wird eine Nachricht empfangen, wird in einem dritten Schritt 103 ge prüft, ob es sich um einen Killrequest handelt. Ist dies der Fall, dann wird in einem vierten Schritt 104 der Killrequest in die Verbindungsmatrix eingetragen. Stammt der Killrequest demnach von der Datenverarbeitungsanlage SMP1 und fordert dieser Killrequest die Datenverarbeitungsanlage SMP4 abzu schalten, dann wird in die Matrix in Zeile 1, Spalte 4, eine 0 eingetragen.

In einem fünften Schritt 105 werden zunächst zehn Sekunden abgewartet, bis mit einem sechsten Schritt 106 die nächste Nachricht gelesen wird. In einem siebten Schritt 107 wird ge prüft, ob eine nächste Nachricht vorhanden ist. Ist dies der Fall, dann wird in einem achten Schritt 108 geprüft, ob es sich dabei wiederum um einen Killrequest handelt. Liegt ein weiterer Killrequest vor, wird in einem neunten Schritt 109 ein weiterer Eintrag in die Verbindungsmatrix vorgenommen. Dieser Vorgang wird im vorliegenden Beispiel so lange wieder holt, bis alle eintreffenden Nachrichten der Datenverarbei tungsanlagen SMP1 bis SMP10 in die Verbindungsmatrix einge tragen sind.

Liegt keine weitere Nachricht mehr vor, wird dies in dem Schritt 107 festgestellt. In einem weiteren zwölften Schritt 112 werden die abzuschaltenden Knoten bestimmt. Das dazu er forderliche Vorgehen zeigt das Ablaufdiagramm gemäß Fig. 4.

Zunächst soll jedoch das Ablaufdiagramm gemäß Fig. 3 be schrieben werden. Wird in einem der Schritt 103 oder 108 festgestellt, daß es sich um keinen Killrequest handelt, dann wird in einem elften Schritt 111 bzw. einem zehnten Schritt 110 diese Nachricht an die adressierte Stelle weitergereicht. Handelt es sich bei der Nachricht allerdings um einen Lösch befehl, dann führt dies zu einer Initialisierung der Verbin dungsmatrix gemäß Fig. 7, wodurch in dieser wieder an allen Stellen eine 1 eingetragen ist.

Die Bestimmung der abzuschaltenden Knoten erfolgt gemäß Fig. 4. In einem Schritt 113 wird überprüft, ob es sich bei den in die Verbindungsmatrix eingetragenen Killrequests um eine sym metrische Matrix handelt. Ist dies der Fall, dann wird in ei nem Schritt 114 mit Hilfe eines ACM Algorithmus nach komplett verbundenen Untergrafen, sogenannten "Cliques" gesucht.

Betrachtet man die Verbindungsmatrix gemäß Fig. 7, dann er kennt man, daß das Datennetz 30 in zwei Teile zerfallen ist, wobei ein Teil als Sechsknoten SMP1 bis SMP6 und aus vier Knoten SMP7 bis 10 zerfallen ist. In dem Teilcluster mit sechs Knoten sind zusätzlich die Diagonalen unterbrochen, so daß kein funktionsfähiges Teilcluster mehr vorliegt. Die Dia gonalen findet man beispielsweise in Zeile 4, Spalte 1, Zeile 5, Spalte 2, Zeile 6, Spalte 3 und Zeile 1, Spalte 4, Zeile 2, Spalte 5, Zeile 3, Spalte 6.

Bei der Verbindungsmatrix gemäß Fig. 7 handelt es sich um eine Matrix mit symmetrischen Eintragungen, was im Schritt 113 zu einer entsprechenden Entscheidung führt. Mit Hilfe des CACM Algorithmus (siehe obige Literaturstelle) können im Schritt 114 nun alle "cliques" gefunden werden. Beim vorliegenden Beispiel erhält man die in den Fig. 8 und 9 gezeigten "Cliques" also komplett verbunden im Untergrafen. Diese sind: Die Knoten 1, 2, 3 und 2, 3, 4 und 3, 4, 5 und 4, 5, 6 und 1, 3, 5 und 2, 4, 6 sowie 7, 8, 9, 10.

Die so bekannten Untergrafen werden in einem Schritt 115 nach Größe und Priorität geordnet. Da ein sinnvolles Weiterarbei ten von Datenverarbeitungsanlagen SMP1 bis 10 nur möglich ist, wenn jeder Knoten mit jedem verbunden ist, ergibt sich beim vorliegenden Beispiel, daß das Cluster mit den Knoten 7, 8, 9 und 10 diese Bedingung erfüllt. Nach Anwendung dieser Regel bleiben vier Datenverarbeitungsanlagen SMP7 bis 10 voll funktionsfähig erhalten, und es ist offensichtlich der größte mögliche Rechnerverbund fähig, weiterzuarbeiten. Die übrigen Rechnerknoten werden in einem Schritt 116 eliminiert. In ei nem folgenden Schritt 117 werden globale Daten reinitiali siert und somit versucht, andere Datenverarbeitungsanlagen im ursprünglichen Datennetz 30 wieder funktionsfähig zu machen oder gegebenenfalls Meldungen an einen Systemadministrator abzusetzen.

Wäre der Schritt 113 beim vorliegenden Beispiel mit nein be antwortet worden, das heißt, die Matrix wäre nicht symme trisch gewesen, dann wäre mit einem Schritt 118 ein Eliminie ren von Knoten anhand der Zielhäufigkeit eingetreten. Das diesbezügliche Verfahren ist in Fig. 5 erläutert. In einem Schritt 119 würde bestimmt, ob noch Killrequests in der Liste vorhanden sind. Wenn nein, käme der Rücksprung zum Schritt 117 aus Fig. 4, der zur Reinitialisierung globaler Daten führt. Ist jedoch der Schritt 119 mit ja zu beantworten, dann wird in einem Schritt 120 der Knoten K mit der größten Ziel häufigkeit und niedrigster Priorität bestimmt. In einem Schritt 121 wird dieser Knoten K abgeschaltet. Der entspre chende Befehl lautet: Lösche alle Requests mit K als Quelle und als Ziel. Ist der Löschvorgang für den Knoten K abgear beitet, dann wird im Schritt 119 wiederum gefragt, ob noch Killrequests in der Liste sind. Die Schritte 120 und 121 wer den solange wiederholt, bis im Schritt 119 die Frage mit nein beantwortet werden kann. Beim vorliegenden Beispiel würden durch das Verfahren gemäß Fig. 5 die Knoten 7, 8, 9 und 10 zuerst abgeschaltet werden, da sie sechsmal als Ziel vorkom men, während 1, 2, 3, 4, 5 und 6 nur je fünfmal das Ziel sind. Das Ziel, den größtmöglichen Verbund von Datenverarbei tungsanlagen SMP1 . . . 10 in Betrieb zu halten, wäre mit dieser Methode nicht erreichbar gewesen.

Claims

1. Verfahren zur Analyse und Behandlung von Störungen in einem Datennetz an das eine Mehrzahl von Datenverarbeitungs anlagen (SMP1 . . . n) gekoppelt ist, die mit einer Clusterkonsole (CKS) so verbunden sind, daß sie Nachrichten insbesondere über den Verbindungszustand zu anderen Datenverarbeitungsan lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu sterkonsole (CKS)

- bei eintreffenden Meldungen überprüft, ob es sich um Nach richten über den Verbindungszustand handelt,
- Nachrichten über den Verbindungszustand in eine Verbin dungsmatrix einträgt und weitere Meldungen erwartet, die für den Fall, daß es sich um Nachrichten über den Verbin dungszustand handelt auch in die Verbindungsmatrix einge tragen werden,
- wenn keine weiteren Meldungen mehr vorliegen, die Verbin dungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungs matrix ergeben,
- wenn keine symmetrische Verbindungsmatrix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten genannten, die gemeldeten Datenverarbeitungsanlagen (SMP1 . . . n) abschaltet,
- wenn eine symmetrische Verbindungsmatrix vorliegt, anhand eines graphentheoretischen Algorithmus alle Cluster von Da tenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb de rer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder ande ren Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kom munizieren kann und anschließend das Cluster, das die mei sten Datenverarbeitungsanlagen (SMP1 . . . n) enthält, auswählt weiterzuarbeiten, während sie alle anderen Datenverarbei tungsanlagen (SMP1 . . . n) abschaltet.

2. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo bei die Clusterkonsole (CKS) bei unsymmetrischer Verbindungs matrix und gleicher Häufigkeit der Nachrichten über den Ver bindungszustand für mindestens zwei Datenverarbeitungsanlagen (SMP1 . . . n) diejenige mit der niedrigsten Priorität zuerst ab schaltet.

3. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo bei die Clusterkonsole (CKS) bei symmetrischer Verbindungsma trix und gleicher Größe von funktionsfähigen Clustern die Da tenverarbeitungsanlagen (SMP1 . . . n) desjenigen Clusters zuerst abschaltet, deren Datenverarbeitungsanlagen (SMP1 .. n) in Sum me die niedrigste Priorität aufweisen.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Clusterkonsole (CKS) nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit einhält, bevor sie weitere Nachrichten liest.

5. Verfahren nach Anspruch 4, wobei die Wartezeit 10 Sekun den beträgt.

6. Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz an das eine Mehrzahl von Datenverarbeitungs anlagen (SMP1 . . . n) gekoppelt sind, die mit einer Clusterkonso le (CKS) so verbunden sind, daß sie Nachrichten insbesondere über den Verbindungszustand zu anderen Datenverarbeitungsan lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu sterkonsole (CKS) enthält:

- eine Prüfeinrichtung, die bei eintreffenden Meldungen über prüft, ob es sich um Nachrichten über den Verbindungszu stand handelt,
- Mittel zum Eintragen von Nachrichten über den Verbindungs zustand in eine Verbindungsmatrix, wobei es nach dem Ein trag einer Nachricht weitere Meldungen erwartet, und diese für den Fall, daß es sich um Nachrichten über den Verbin dungszustand handelt auch in die Verbindungsmatrix einge trägt,
- eine weitere Prüfeinrichtung, die, wenn keine weiteren Mel dungen mehr vorliegen, die Verbindungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungsmatrix ergeben,
- Abschaltmittel, die, wenn keine symmetrische Verbindungsma trix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten ge nannten, gemeldete Datenverarbeitungsanlagen (SMP1 . . . n) ab schalten,
- Analysemittel, die, wenn eine symmetrische Verbindungsma trix vorliegt, anhand eines graphentheoretischen Algorith mus alle Cluster von Datenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb derer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder anderen Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kommunizieren kann und anschlie ßend das Cluster, das die meisten Datenverarbeitungsanlagen (SMP1 . . . n) enthält auswählt weiterzuarbeiten, während es das Abschaltmittel anweist, alle anderen Datenverarbeitungsan lagen (SMP1 .. n) abzuschalten.

7. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wobei die Abschaltmittel der Clusterkonsole (CKS) bei unsym metrischer Verbindungsmatrix und gleicher Häufigkeit der Nachrichten über den Verbindungszustand für mindestens zwei Datenverarbeitungsanlagen (SMP1 . . . n) diejenige mit der nied rigsten Priorität zuerst abschalten.

8. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wobei die Abschaltmittel der Clusterkonsole (CKS) bei symme trischer Verbindungsmatrix und gleicher Größe von funktions fähigen Clustern die Datenverarbeitungsanlagen (SMP1 . . . n) des jenigen Clusters zuerst abschalten, deren Datenverarbeitungs anlagen (SMP1 . . . n) in Summe die niedrigste Priorität aufwei sen.

9. Vorrichtung nach einem der Ansprüche 6 bis 8, wobei die Clusterkonsole (CKS) eine Zeitsteuereinrichtung enthält, die nach Erhalt der ersten Nachricht über den Verbindungszustand eine definierbare Wartezeit einhält, bevor sie weitere Nach richten zum lesen freigibt.

10. Vorrichtung nach einem der Ansprüche 6 bis 9, wobei die Clusterkonsole (CKS) über serielle Konsoleleitungen (KS) mit den Datenverarbeitungsanlagen (SMP1 . . . n) gekoppelt ist.