DE19837008C2 - Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz - Google Patents
Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem DatennetzInfo
- Publication number
- DE19837008C2 DE19837008C2 DE1998137008 DE19837008A DE19837008C2 DE 19837008 C2 DE19837008 C2 DE 19837008C2 DE 1998137008 DE1998137008 DE 1998137008 DE 19837008 A DE19837008 A DE 19837008A DE 19837008 C2 DE19837008 C2 DE 19837008C2
- Authority
- DE
- Germany
- Prior art keywords
- data processing
- smp1
- processing systems
- messages
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur
Analyse und Behandlung von Störungen in einem Datennetz. Da
tennetze verbinden eine Mehrzahl von Datenverarbeitungsanla
gen. Die Datennetze müssen häufig in höchstem Maße verfügbar
sein. An das Datennetz gekoppelte Datenverarbeitungsanlagen
bilden die Knoten von sogenannten Hochverfügbarkeitsclustern.
Die Datenverarbeitungsanlagen sind mit einer weiteren Daten
verarbeitungsanlage gekoppelt, die als Clusterkonsole be
zeichnet wird. Die Clusterkonsole erhält Meldungen über die
Verfügbarkeit der Datenverarbeitungsanlagen von den Knoten,
die Sie analysiert und daraus Aktionen ableitet, die eine ho
he Verfügbarkeit des Datennetzes gewährleisten.
Derzeit werden Hochverfügbarkeitscluster aus Einzelprozessor-
Datenverarbeitungsanlagen und/oder Mehrprozessor-
Datenverarbeitungsanlagen (SMP) bis in die Größenordnung von
16 Anlagen im Cluster von großen Herstellern angeboten. Bei
gleichzeitigen Mehrfachausfällen von Datenverarbeitungsanla
gen ergibt sich damit das Problem, daß in kurzer Zeit analy
siert werden muß, ob es sich um
- - echte Ausfälle von Datenverarbeitungsanlagen handelt, z. B. durch Stromschwankungen oder -ausfälle,
- - Störungen der clusterbezogenen Kommunikationsfähigkeit ei ner Datenverarbeitungsanlage, z. B. Hardwaredefekt im Cluster- Kommunikationsinterface, womit sie ebenfalls wie eine ausge fallener Datenverarbeitungsanlage zu behandeln ist,
- - Störungen der Kommunikation zwischen einigen Datenverarbei tungsanlagen, z. B. Ausfall einiger Leitungen, wobei die Kom munikation zu anderen Datenverarbeitungsanlagen im Cluster noch intakt ist.
Die Clusterkonsole ist als unabhängige Instanz prädestiniert,
die Schiedsrichterfunktion bei allen Ausfallszenarien zu
übernehmen. Sie ist mit allen Datenverarbeitungsanlagen im
Cluster verbunden und hat häufig darüber hinaus den Zugriff
auf die sogenannten Konsoleleitungen aller Datenverarbei
tungsanlagen. Konsoleleitungen bilden eine Serviceschnitt
stelle zu den Datenverarbeitungsanlagen. Diese Schnittstelle
ist oft als serielle Schnittstelle ausgeführt. Mittels der
Konsoleleitungen kann also softwaregesteuert bei Bedarf jede
Datenverarbeitungsanlage angehalten oder neu gestartet werden
(reboot). Die Datenverarbeitungsanlagen im Cluster senden ei
ne Meldung an die Clusterkonsole, wenn die Lebenszeichen ei
ner anderen Datenverarbeitungsanlage ausbleiben. Da dieses
Ausbleiben zur Vermutung einer größeren Störung Anlaß gibt,
und gestörte Maschinen durch unkoordinierte Zugriffe auf die
Datenträger die Konsistenz der Daten gefährden könnten, folgt
dieser Meldung i. a. das Abschalten der Maschine durch die
Clusterkonsole. Deshalb hat sich für diese Meldung die Be
zeichnung "Shutdown request" oder auch "Killrequest" eta
bliert.
Falls das Cluster aus N Knoten besteht, werden bei Ausfall
eines Knotens von den N-1 Knoten auch N-1 Killrequests ein
treffen. Deren Auswertung erfolgt auf der Clusterkonsole und
hat das Abschalten der Datenverarbeitungsanlage im gemeldeten
Knoten zur Folge.
Es bestünde auch die Möglichkeit, vordefinierte Tabellen zu
verwenden, aus denen die erforderlichen Aktionen der Cluster
konsole abgeleitet werden könnten. Die eintreffenden Killre
quests würden in eine Tabelle eingetragen. Diese Tabelle
könnte mit gespeicherten Mustern verglichen werden, woraufhin
die beim aufgefundenen Muster als Abschaltkandidat eingetra
gene Datenverarbeitungsanlage anschließend aus dem Datennetz
entfernt werden könnte.
Die Tabellen wären bei Datennetzen mit mehr als vier Knoten
jedoch sehr komplex und kaum mehr überschaubar.
Der vorliegenden Erfindung liegt deshalb die Aufgabe zugrun
de, ein Verfahren und eine Vorrichtung zur Analyse und Be
handlung von Störungen in einem großen Datennetz an das eine
Mehrzahl von Datenverarbeitungsanlagen gekoppelt ist, aufzu
zeigen, das gestörte Datenverarbeitungsanlagen gezielt ab
schaltbar macht und dennoch überschaubar ist.
Diese Aufgabe wird durch die in den unabhängigen Ansprüchen
angegebenen Merkmale gelöst. Alle Datenverarbeitungsanlagen
sind mit einer Clusterkonsole so verbunden, daß sie Nachrich
ten insbesondere über den Verbindungszustand zu anderen Da
tenverarbeitungsanlagen mit dieser austauschen können. Im
mehreren Verfahrensschritten füllt die Clusterkonsole eine
Verbindungsmatrix. Wenn keine weiteren Meldungen mehr vorlie
gen, wird die Verbindungsmatrix überprüft, ob die eingetrage
nen Nachrichten über den Verbindungszustand eine symmetrische
Verbindungsmatrix ergeben:
Wenn keine symmetrische Verbindungsmatrix vorliegt, werden
anhand der eingegangenen Nachrichten über den Verbindungszu
stand, beginnend mit der am häufigsten genannten, betroffene
Datenverarbeitungsanlagen abgeschaltet. Wenn eine symmetri
sche Verbindungsmatrix vorliegt, werden anhand eines gra
phentheoretischen Algorithmus wie er beschrieben ist in "Fin
ding All Cliques of an Undirected Graph [H]" von Coen Bron
und Joep Kerbosch aus CACM 1973, Volume 16, Number 9, pp 575-
577, alle Cluster von Datenverarbeitungsanlagen ermittelt,
innerhalb derer jede Datenverarbeitungsanlage mit jeder ande
ren Datenverarbeitungsanlage uneingeschränkt kommunizieren
kann und anschließend wird das Cluster, das die meisten Da
tenverarbeitungsanlagen enthält ausgewählt weiterzuarbeiten,
während alle anderen Datenverarbeitungsanlagen abgeschaltet
werden.
Die Unterscheidung, ob die Verbindungsmatrix symmetrisch ist
oder nicht liefert somit optimale Ergebnisse. Die unsymmetri
sche Verbindungsmatrix kann durch einen einfachen Algorith
mus, der die Nennungshäufigkeit ermitteln kann behandelt wer
den. Die Adaption des graphentheoretischen Algorithmus lie
fert ebenfalls kurze Antwort- und Entscheidungszeiten, die
mit denen bisheriger tabellenbasierter Anwendungen konkurrie
ren können. Dabei ist immer klar erkennbar, nach welcher Re
gel die Abschaltungen vorgenommen werden. Abschaltmuster müs
sen nicht vordefiniert werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens
werden unterschiedliche Prioritäten für Datenverarbeitungsan
lagen im Datennetz vergeben, wobei die Clusterkonsole bei un
symmetrischer Verbindungsmatrix und gleicher Häufigkeit der
Nachrichten über den Verbindungszustand für mindestens zwei
Datenverarbeitungsanlagen diejenige mit der niedrigsten
Priorität zuerst abschaltet. Dadurch können wichtige Daten
verarbeitungsanlagen länger in Betrieb gehalten werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens
werden unterschiedliche Prioritäten für Datenverarbeitungsan
lagen im Datennetz vergeben, wobei die Clusterkonsole bei
symmetrischer Verbindungsmatrix und gleicher Größe von funk
tionsfähigen Cluster die Datenverarbeitungsanlagen desjenigen
Clusters zuerst abschaltet, deren Datenverarbeitungsanlagen
in Summe die niedrigste Priorität aufweisen. Dadurch können
wichtige Datenverarbeitungsanlagen in größern Clustern länger
in Betrieb gehalten werden.
Gemäß einer Ausgestaltung und Weiterbildung des Verfahrens
wartet die Clusterkonsole nach Erhalt der ersten Nachricht
über den Verbindungszustand eine definierbare Wartezeit, be
vor sie weitere Nachrichten liest. Damit wird auch anderen
Datenverarbeitungsanlagen ermöglicht eine Meldung an die Clu
sterkonsole abzusetzen. Die Gesamtheit der Nachrichten über
den Verbindungszustand, die sogenannten Killrequests, kann
somit in einer Gesamtschau bearbeitet werden, wodurch optima
le Ergebnisse erzielt werden. Die Wartezeit kann 10 Sekunden
betragen.
Gemäß einer Ausgestaltung und Weiterbildung der Vorrichtung
ist die Clusterkonsole über serielle Konsoleleitungen mit den
Datenverarbeitungsanlagen gekoppelt. Damit kann sie ihre
Überwachungsaufgaben unabhängig vom eigentlichen Datennetz
wahrnehmen.
Die Erfindung wird im folgenden anhand der Zeichnung näher
erläutert. Dabei zeigen,
Fig. 1 ein Blockschaltbild eines Datennetzes;
Fig. 2 eine einfache Tabelle, in die Killrequests von 4 Kno
ten eingetragen werden können;
Fig. 3 ein Ablaufdiagramm zur Analyse und Behandlung von
Mehrfachausfällen;
Fig. 4 eine Detaillierung des Ablaufdiagramms gemäß Fig. 3;
Fig. 5 eine Detaillierung des Ablaufdiagramms gemäß Fig. 4;
Fig. 6 eine Tabelle von Killrequests für ein Cluster mit 10
Knoten;
Fig. 7 eine Verbindungsmatrix für ein Cluster mit 10 Knoten;
Fig. 8 einen Verbindungsgraphen für die Knoten 1 bis 6;
Fig. 9 einen Verbindungsgraphen für die Knoten 7 bis 10.
Fig. 1 zeigt ein Datennetz 30, an das Datenverarbeitungsan
lagen SMP1, SMP2, SMP3, SMP4, . . . SMPn gekoppelt sind. Diese Da
tenverarbeitungsanlagen SMP1 . . . n sind zusätzlich über serielle
Konsoleleitungen KS1 . . . n an eine Clusterkonsole CKS gekoppelt.
Die Clusterkonsole CKS ist eine Datenverarbeitungsanlage, die
die Datenverarbeitungsanlagen SMP1 . . . n überwacht und steuert.
Der Clusterkonsole CKS obliegt die Schiedsrichterfunktion bei
allen Ausfallszenarien der Datenverarbeitungsanlagen SMP1 .. n.
Sie kann über die Konsoleleitungen KS1 . . . n softwaregesteuert
bei Bedarf jede Datenverarbeitungsanlage SMP1 . . . n anhalten
oder neu starten (rebooten). Dazu senden alle Datenverarbei
tungsanlagen SMP1 . . . n im auch als Cluster bezeichneten Daten
netz (30) eine Meldung an die Clusterkonsole CKS, wenn die
Lebenszeichen einer anderen Datenverarbeitungsanlage SMP1 . . . n
ausbleiben. Da dieses Ausbleiben zur Vermutung einer größeren
Störung Anlaß gibt, und gestörte Datenverarbeitungsanlagen
SMP1 . . . n durch unkoordinierte Zugriffe auf die Datenträger der
anderen Datenverarbeitungsanlagen SMP1 . . . n die Konsistenz der
Daten gefährden könnten, folgt dieser Meldung i. a. das Ab
schalten der gestörten Datenverarbeitungsanlage SMP1 . . . n durch
die Clusterkonsole. Diese Meldung wird auch als "Shutdown re
quest" oder "Killrequest" bezeichnet.
Falls das Cluster (30) aus N Knoten besteht, werden also bei
Ausfall eines Knotens von den N-1 Knoten auch N-1 Killre
quests eintreffen. Zum Sammeln der Killrequests ist ein Zei
tintervall von 10 Sekunden eingestellt. Dann beginnt die Aus
wertung auf der Clusterkonsole CKS und anschließend das Ab
schalten der Datenverarbeitungsanlagen SMP1 . . . n.
In einer einfachen bekannten Lösung werden die eintreffenden
Killrequests in eine Tabelle (siehe Fig. 2) eingetragen.
Diese Tabelle wird mit gespeicherten Mustern verglichen und
die beim aufgefundenen Muster als Abschaltkandidaten einge
tragenen Datenverarbeitungsanlagen SMP1 . . . n anschließend eli
miniert.
Beim Beispiel gemäß Fig. 2 sind maximal 4 Knoten A, B, C, D
freigegeben. Dadurch ergeben sich die in der Figur gezeigten
Muster. Dabei bedeutet eine 1 in Zeile A und Spalte B: Kill
request (A, B) also A fordert, daß B abgeschaltet wird.
Für die mit "x" belegten Felder kann es keinen Killrequest
geben, da eine Maschine nicht verlangt, daß sie selbst abge
schaltet wird. Es bleiben somit 2 ** (16 - 4) = 2 ** 12 = 4048
Muster für 4 Knoten plus 64 Muster für drei Knoten, von denen
nur die 35 wahrscheinlichsten mit einer Liste von abzuschal
tenden Datenverarbeitungsanlagen versehen werden.
Diese Methode ist für Datennetze (30) mit einer potentiell
unbegrenzten Anzahl von Knoten nicht vorteilhaft einsetzbar.
Das erfindungsgemäße Verfahren erlaubt es, für eine beliebige
Anzahl von Knoten algorithmisch, also ohne vorgefertigte Ta
bellen, zu einer Bestimmung der abzuschaltenden Knoten zu
finden.
Dabei sind zwei Situationen grundsätzlich unterschiedlich zu
behandeln:
- a) Die unsymmetrische Situation: es gibt mindestens einen Killrequest (A, B) ohne den entsprechenden reversen Killre quest (B, A)
- b) Die symmetrische Situation: zu jedem Killrequest (A, B) gibt es den entsprechenden reversen Killrequest (B, A)
Im Fall a) gibt es also B als Ziel eines Killrequests von A,
aber nicht umgekehrt. Also ist die Datenverarbeitungsanlage B
aus dem Verkehr zu ziehen, da sie selbst nicht mehr in der
Lage ist, die Unterbrechung der Kommunikation zu melden. Bei
komplexeren Situationen aus a) ist mit einer Zählung der
Zielhäufigkeiten Z(x) und einer relativ einfachen Regel im
allgemeinen ein Restcluster aus intakten Maschinen wiederher
zustellen. Die Regel lautet:
- - Datenverarbeitungsanlage x mit dem höchsten Z(x) abschal ten, alle Requests löschen, die von x ausgegangen sind und die x als Ziel hatten
- - Zielhäufigkeiten neu bestimmen
- - diese Regel wieder anwenden
Im Fall b) ist offensichtlich nur die Verbindung zwischen A
und B unterbrochen, während die Datenverarbeitungsanlage
selbst völlig in Ordnung sind und die Software richtig rea
giert ("Split Brain Syndrom")
Daher ist es von größtem Interesse, möglichst viele Datenver
arbeitungsanlagen DVA1 . . . n (Knoten), die untereinander unein
geschränkt kommunizieren können, überleben zu lassen. Die
Vorgehensweise wie im vorhergehenden Fall a) würde diese An
forderung nicht erfüllen, da nicht die Anzahl der intakten
Verbindungen das Wesentliche ist, sondern die sich daraus er
gebende Struktur. Nur wenn in der Reststruktur jeder Knoten
mit jedem verbunden ist, kann das verbleibende Cluster sinn
voll weiterarbeiten.
Dieser Sachverhalt läßt sich mit Hilfe eines Graphen gut dar
stellen. Die intakten Kommunikationswege werden als Kanten
zwischen den Knoten - die den Rechnerknoten entsprechen - ge
zeichnet. Dann ergibt sich die Lösung der Aufgabenstellung
als Antwort auf die Frage, wie der größte vollkommene Unter
graph eines ungerichteten Graphen zu finden ist. Diese mathe
matische Frage ist in der englischsprachigen Literatur einge
hend behandelt, das englische Stichwort für einen komplett
verbundenen Untergraphen ist "clique". Da das Auffinden aller
"cliques" in einem Graphen i. a. ein zeitaufwendiges Problem
ist, gibt es in der Literatur auch ein Bemühen, den schnell
sten Algorithmus dafür zu finden. Ein sehr effizienter Algo
rithmus wurde dem Artikel "Finding All Cliques of an Undi
rected Graph [H]" von Coen Bron und Joep Kerbosch aus CACM
1973, Volume 16, Number 9, pp 575-577 entnommen. Mittels die
ses Algorithmus sind sehr kurze Reaktionszeiten realisierbar,
die im Bereich der erzielbaren Reaktionszeiten mit Hilfe der
oben genannten Tabellen erreichbar sind.
Die Fig. 3, 4 und 5 zeigen ein Ablaufdiagramm zur Analyse
und Behandlung von quasisimultanen Mehrfachausfällen in
Hochverfügbarkeitsclustern. Dieser Ablauf wird anhand eines
Clusters aus zehn Knoten beschrieben. Es gehen die in der Ta
belle gemäß Fig. 6 aufgezeigten Killrequests ein, die in ei
ne Verbindungsmatrix gemäß Fig. 7 eingetragen werden.
Gemäß Fig. 3 werden mit einem Schritt 101 eine Konfigurati
onsdatei gelesen und die Verbindungsmatrix durch Setzen mit
einer 1 initialisiert. In einem zweiten Schritt 102 werden
Nachrichten von den Datenverarbeitungsanlagen SMP1 . . . 10 gele
sen, und sofern keine vorliegen, wird gewartet. Wird eine
Nachricht empfangen, wird in einem dritten Schritt 103 ge
prüft, ob es sich um einen Killrequest handelt. Ist dies der
Fall, dann wird in einem vierten Schritt 104 der Killrequest
in die Verbindungsmatrix eingetragen. Stammt der Killrequest
demnach von der Datenverarbeitungsanlage SMP1 und fordert
dieser Killrequest die Datenverarbeitungsanlage SMP4 abzu
schalten, dann wird in die Matrix in Zeile 1, Spalte 4, eine
0 eingetragen.
In einem fünften Schritt 105 werden zunächst zehn Sekunden
abgewartet, bis mit einem sechsten Schritt 106 die nächste
Nachricht gelesen wird. In einem siebten Schritt 107 wird ge
prüft, ob eine nächste Nachricht vorhanden ist. Ist dies der
Fall, dann wird in einem achten Schritt 108 geprüft, ob es
sich dabei wiederum um einen Killrequest handelt. Liegt ein
weiterer Killrequest vor, wird in einem neunten Schritt 109
ein weiterer Eintrag in die Verbindungsmatrix vorgenommen.
Dieser Vorgang wird im vorliegenden Beispiel so lange wieder
holt, bis alle eintreffenden Nachrichten der Datenverarbei
tungsanlagen SMP1 bis SMP10 in die Verbindungsmatrix einge
tragen sind.
Liegt keine weitere Nachricht mehr vor, wird dies in dem
Schritt 107 festgestellt. In einem weiteren zwölften Schritt
112 werden die abzuschaltenden Knoten bestimmt. Das dazu er
forderliche Vorgehen zeigt das Ablaufdiagramm gemäß Fig. 4.
Zunächst soll jedoch das Ablaufdiagramm gemäß Fig. 3 be
schrieben werden. Wird in einem der Schritt 103 oder 108
festgestellt, daß es sich um keinen Killrequest handelt, dann
wird in einem elften Schritt 111 bzw. einem zehnten Schritt
110 diese Nachricht an die adressierte Stelle weitergereicht.
Handelt es sich bei der Nachricht allerdings um einen Lösch
befehl, dann führt dies zu einer Initialisierung der Verbin
dungsmatrix gemäß Fig. 7, wodurch in dieser wieder an allen
Stellen eine 1 eingetragen ist.
Die Bestimmung der abzuschaltenden Knoten erfolgt gemäß Fig.
4. In einem Schritt 113 wird überprüft, ob es sich bei den in
die Verbindungsmatrix eingetragenen Killrequests um eine sym
metrische Matrix handelt. Ist dies der Fall, dann wird in ei
nem Schritt 114 mit Hilfe eines ACM Algorithmus nach komplett
verbundenen Untergrafen, sogenannten "Cliques" gesucht.
Betrachtet man die Verbindungsmatrix gemäß Fig. 7, dann er
kennt man, daß das Datennetz 30 in zwei Teile zerfallen ist,
wobei ein Teil als Sechsknoten SMP1 bis SMP6 und aus vier
Knoten SMP7 bis 10 zerfallen ist. In dem Teilcluster mit
sechs Knoten sind zusätzlich die Diagonalen unterbrochen, so
daß kein funktionsfähiges Teilcluster mehr vorliegt. Die Dia
gonalen findet man beispielsweise in Zeile 4, Spalte 1, Zeile
5, Spalte 2, Zeile 6, Spalte 3 und Zeile 1, Spalte 4, Zeile
2, Spalte 5, Zeile 3, Spalte 6.
Bei der Verbindungsmatrix gemäß Fig. 7 handelt es sich um
eine Matrix mit symmetrischen Eintragungen, was im Schritt 113 zu
einer entsprechenden Entscheidung führt. Mit Hilfe des CACM
Algorithmus (siehe obige Literaturstelle) können im Schritt
114 nun alle "cliques" gefunden werden. Beim vorliegenden
Beispiel erhält man die in den Fig. 8 und 9 gezeigten
"Cliques" also komplett verbunden im Untergrafen. Diese sind:
Die Knoten 1, 2, 3 und 2, 3, 4 und 3, 4, 5 und 4, 5, 6 und 1,
3, 5 und 2, 4, 6 sowie 7, 8, 9, 10.
Die so bekannten Untergrafen werden in einem Schritt 115 nach
Größe und Priorität geordnet. Da ein sinnvolles Weiterarbei
ten von Datenverarbeitungsanlagen SMP1 bis 10 nur möglich
ist, wenn jeder Knoten mit jedem verbunden ist, ergibt sich
beim vorliegenden Beispiel, daß das Cluster mit den Knoten 7,
8, 9 und 10 diese Bedingung erfüllt. Nach Anwendung dieser
Regel bleiben vier Datenverarbeitungsanlagen SMP7 bis 10 voll
funktionsfähig erhalten, und es ist offensichtlich der größte
mögliche Rechnerverbund fähig, weiterzuarbeiten. Die übrigen
Rechnerknoten werden in einem Schritt 116 eliminiert. In ei
nem folgenden Schritt 117 werden globale Daten reinitiali
siert und somit versucht, andere Datenverarbeitungsanlagen im
ursprünglichen Datennetz 30 wieder funktionsfähig zu machen
oder gegebenenfalls Meldungen an einen Systemadministrator
abzusetzen.
Wäre der Schritt 113 beim vorliegenden Beispiel mit nein be
antwortet worden, das heißt, die Matrix wäre nicht symme
trisch gewesen, dann wäre mit einem Schritt 118 ein Eliminie
ren von Knoten anhand der Zielhäufigkeit eingetreten. Das
diesbezügliche Verfahren ist in Fig. 5 erläutert. In einem
Schritt 119 würde bestimmt, ob noch Killrequests in der Liste
vorhanden sind. Wenn nein, käme der Rücksprung zum Schritt
117 aus Fig. 4, der zur Reinitialisierung globaler Daten
führt. Ist jedoch der Schritt 119 mit ja zu beantworten, dann
wird in einem Schritt 120 der Knoten K mit der größten Ziel
häufigkeit und niedrigster Priorität bestimmt. In einem
Schritt 121 wird dieser Knoten K abgeschaltet. Der entspre
chende Befehl lautet: Lösche alle Requests mit K als Quelle
und als Ziel. Ist der Löschvorgang für den Knoten K abgear
beitet, dann wird im Schritt 119 wiederum gefragt, ob noch
Killrequests in der Liste sind. Die Schritte 120 und 121 wer
den solange wiederholt, bis im Schritt 119 die Frage mit nein
beantwortet werden kann. Beim vorliegenden Beispiel würden
durch das Verfahren gemäß Fig. 5 die Knoten 7, 8, 9 und 10
zuerst abgeschaltet werden, da sie sechsmal als Ziel vorkom
men, während 1, 2, 3, 4, 5 und 6 nur je fünfmal das Ziel
sind. Das Ziel, den größtmöglichen Verbund von Datenverarbei
tungsanlagen SMP1 . . . 10 in Betrieb zu halten, wäre mit dieser
Methode nicht erreichbar gewesen.
Claims (10)
1. Verfahren zur Analyse und Behandlung von Störungen in
einem Datennetz an das eine Mehrzahl von Datenverarbeitungs
anlagen (SMP1 . . . n) gekoppelt ist, die mit einer Clusterkonsole
(CKS) so verbunden sind, daß sie Nachrichten insbesondere
über den Verbindungszustand zu anderen Datenverarbeitungsan
lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu
sterkonsole (CKS)
- - bei eintreffenden Meldungen überprüft, ob es sich um Nach richten über den Verbindungszustand handelt,
- - Nachrichten über den Verbindungszustand in eine Verbin dungsmatrix einträgt und weitere Meldungen erwartet, die für den Fall, daß es sich um Nachrichten über den Verbin dungszustand handelt auch in die Verbindungsmatrix einge tragen werden,
- - wenn keine weiteren Meldungen mehr vorliegen, die Verbin dungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungs matrix ergeben,
- - wenn keine symmetrische Verbindungsmatrix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten genannten, die gemeldeten Datenverarbeitungsanlagen (SMP1 . . . n) abschaltet,
- - wenn eine symmetrische Verbindungsmatrix vorliegt, anhand eines graphentheoretischen Algorithmus alle Cluster von Da tenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb de rer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder ande ren Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kom munizieren kann und anschließend das Cluster, das die mei sten Datenverarbeitungsanlagen (SMP1 . . . n) enthält, auswählt weiterzuarbeiten, während sie alle anderen Datenverarbei tungsanlagen (SMP1 . . . n) abschaltet.
2. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen
(SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo
bei die Clusterkonsole (CKS) bei unsymmetrischer Verbindungs
matrix und gleicher Häufigkeit der Nachrichten über den Ver
bindungszustand für mindestens zwei Datenverarbeitungsanlagen
(SMP1 . . . n) diejenige mit der niedrigsten Priorität zuerst ab
schaltet.
3. Verfahren nach Anspruch 1, mit Datenverarbeitungsanlagen
(SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30), wo
bei die Clusterkonsole (CKS) bei symmetrischer Verbindungsma
trix und gleicher Größe von funktionsfähigen Clustern die Da
tenverarbeitungsanlagen (SMP1 . . . n) desjenigen Clusters zuerst
abschaltet, deren Datenverarbeitungsanlagen (SMP1 .. n) in Sum
me die niedrigste Priorität aufweisen.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die
Clusterkonsole (CKS) nach Erhalt der ersten Nachricht über
den Verbindungszustand eine definierbare Wartezeit einhält,
bevor sie weitere Nachrichten liest.
5. Verfahren nach Anspruch 4, wobei die Wartezeit 10 Sekun
den beträgt.
6. Vorrichtung zur Analyse und Behandlung von Störungen in
einem Datennetz an das eine Mehrzahl von Datenverarbeitungs
anlagen (SMP1 . . . n) gekoppelt sind, die mit einer Clusterkonso
le (CKS) so verbunden sind, daß sie Nachrichten insbesondere
über den Verbindungszustand zu anderen Datenverarbeitungsan
lagen (SMP1 . . . n) mit dieser austauschen können, wobei die Clu
sterkonsole (CKS) enthält:
- - eine Prüfeinrichtung, die bei eintreffenden Meldungen über prüft, ob es sich um Nachrichten über den Verbindungszu stand handelt,
- - Mittel zum Eintragen von Nachrichten über den Verbindungs zustand in eine Verbindungsmatrix, wobei es nach dem Ein trag einer Nachricht weitere Meldungen erwartet, und diese für den Fall, daß es sich um Nachrichten über den Verbin dungszustand handelt auch in die Verbindungsmatrix einge trägt,
- - eine weitere Prüfeinrichtung, die, wenn keine weiteren Mel dungen mehr vorliegen, die Verbindungsmatrix überprüft, ob die eingetragenen Nachrichten über den Verbindungszustand eine symmetrische Verbindungsmatrix ergeben,
- - Abschaltmittel, die, wenn keine symmetrische Verbindungsma trix vorliegt, anhand der eingegangenen Nachrichten über den Verbindungszustand, beginnend mit der am häufigsten ge nannten, gemeldete Datenverarbeitungsanlagen (SMP1 . . . n) ab schalten,
- - Analysemittel, die, wenn eine symmetrische Verbindungsma trix vorliegt, anhand eines graphentheoretischen Algorith mus alle Cluster von Datenverarbeitungsanlagen (SMP1 . . . n) ermittelt, innerhalb derer jede Datenverarbeitungsanlage (SMP1 . . . n) mit jeder anderen Datenverarbeitungsanlage (SMP1 . . . n) uneingeschränkt kommunizieren kann und anschlie ßend das Cluster, das die meisten Datenverarbeitungsanlagen (SMP1 . . . n) enthält auswählt weiterzuarbeiten, während es das Abschaltmittel anweist, alle anderen Datenverarbeitungsan lagen (SMP1 .. n) abzuschalten.
7. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla
gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30),
wobei die Abschaltmittel der Clusterkonsole (CKS) bei unsym
metrischer Verbindungsmatrix und gleicher Häufigkeit der
Nachrichten über den Verbindungszustand für mindestens zwei
Datenverarbeitungsanlagen (SMP1 . . . n) diejenige mit der nied
rigsten Priorität zuerst abschalten.
8. Vorrichtung nach Anspruch 6, mit Datenverarbeitungsanla
gen (SMP1 . . . n) unterschiedlicher Prioritäten im Datennetz (30),
wobei die Abschaltmittel der Clusterkonsole (CKS) bei symme
trischer Verbindungsmatrix und gleicher Größe von funktions
fähigen Clustern die Datenverarbeitungsanlagen (SMP1 . . . n) des
jenigen Clusters zuerst abschalten, deren Datenverarbeitungs
anlagen (SMP1 . . . n) in Summe die niedrigste Priorität aufwei
sen.
9. Vorrichtung nach einem der Ansprüche 6 bis 8, wobei die
Clusterkonsole (CKS) eine Zeitsteuereinrichtung enthält, die
nach Erhalt der ersten Nachricht über den Verbindungszustand
eine definierbare Wartezeit einhält, bevor sie weitere Nach
richten zum lesen freigibt.
10. Vorrichtung nach einem der Ansprüche 6 bis 9, wobei die
Clusterkonsole (CKS) über serielle Konsoleleitungen (KS) mit
den Datenverarbeitungsanlagen (SMP1 . . . n) gekoppelt ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998137008 DE19837008C2 (de) | 1998-08-14 | 1998-08-14 | Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998137008 DE19837008C2 (de) | 1998-08-14 | 1998-08-14 | Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19837008A1 DE19837008A1 (de) | 2000-03-16 |
DE19837008C2 true DE19837008C2 (de) | 2000-06-21 |
Family
ID=7877613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998137008 Expired - Fee Related DE19837008C2 (de) | 1998-08-14 | 1998-08-14 | Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19837008C2 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1372075B1 (de) * | 2002-06-13 | 2004-08-25 | Fujitsu Siemens Computers, LLC | Verfahren um einen Computer aus einem Cluster zu entfernen |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4332881A1 (de) * | 1993-09-21 | 1995-03-23 | Ksp Ingenieurtechnische Dienst | Fehlertolerantes Multicomputersystem |
-
1998
- 1998-08-14 DE DE1998137008 patent/DE19837008C2/de not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4332881A1 (de) * | 1993-09-21 | 1995-03-23 | Ksp Ingenieurtechnische Dienst | Fehlertolerantes Multicomputersystem |
Also Published As
Publication number | Publication date |
---|---|
DE19837008A1 (de) | 2000-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1223709B1 (de) | Verfahren und Vorrichtung zum rechnergestützten Überwachen eines Telekommunikationsnetzes | |
DE60302876T2 (de) | Master-knotenauswahl in geclusterten knotenkonfigurationen | |
EP0635784B1 (de) | Multiprozessorsystem | |
DE19607515B4 (de) | Computer mit Prozessverwalter | |
DE10039538B4 (de) | Vorrichtung und Verfahren zum Analysieren der Leistung eines Computerprogramms | |
DE69629630T2 (de) | Struktur zur Gruppenzugehörigkeitsverwaltung in einem Mehrfachrechnersystem | |
DE69829759T2 (de) | Verteilung von nachrichten zu dienststeuereinrichtungen | |
DE60314025T2 (de) | System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement | |
DE112010003099B4 (de) | Erkennung gering ausgelasteter netzeinheiten | |
DE19822543A1 (de) | Verfahren zum Zuteilen von Aufträgen, Datenverarbeitssystem, Client-Datenbearbeitungsknoten und computerlesbares Speichermedium | |
EP0632617A2 (de) | Verfahren und Einrichtung zur Unterstützung des Netzwerkmanagements | |
DE60220375T2 (de) | Spezifischer Datenregistrierungsserver in einem Bedien- und Verwaltungszentrum für ein Telekommunikationssystem | |
DE10309246B4 (de) | Verfahren für das Event Management | |
DE102004005128B3 (de) | Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall | |
EP1307006A2 (de) | Akzeptanz-Filter | |
DE10260351A1 (de) | Lastverteilungssystem für die Steuervorrichtung einer Basisstation | |
EP1634176A2 (de) | Clusteranordnung für dezentrale lastverteilung | |
DE19837008C2 (de) | Verfahren und Vorrichtung zur Analyse und Behandlung von Störungen in einem Datennetz | |
EP1820307B1 (de) | Verfahren zum nachweis der verf]gbarkeit von systemkomponenten eines redundanten kommunikationssystems | |
DE112016005840B4 (de) | Drahtloses kommunikationsgerät, drahtloses kommunikationsverfahren und programm für drahtlose kommunikation | |
DE4422637A1 (de) | Rechnersystem und Verfahren zum Problemlösen | |
DE19640346C2 (de) | Verfahren zum Überprüfen eines gemäß einem Kommunikationsprotokoll durchgeführten Datenaustausches | |
DE19900636A1 (de) | Datenzugriffs- und -verwaltungssystem sowie Verfahren zum Datenzugriff und zur Datenverwaltung für ein Rechnersystem | |
EP3705993B1 (de) | System und verfahren zum auffinden und identifizieren von rechenknoten in einem netzwerk | |
EP1248430B1 (de) | Verfahren und Generierungsmodul zur Ermittlung von Filtermasken zur Relevanzprüfung von Kennzeichnern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: FUJITSU SIEMENS COMPUTERS GMBH, 81739 MUENCHEN, DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20110301 |