-
Anordnung für ein Mehrrechnersystem Die Erfindung betrifft eine Anordnung
für ein aus k Rechnern bestehendes Mehrrechnersystem, bei dem jeder Rechner jede
von maximal k möglichen Aufgaben bearbeitei kann und jede Aufgabe gleichzeitig nur
von einem Rechner bearbeitet werden darf.
-
Die der Erfindung zugrunde liegende Aufgabe ist die Erhöhung der Zuverlässigkeit
von Mehrrechnersystemen, insbesondere im Falle einer Störung bei einem oder mehreren
der k Rechner.
-
Die Erfindung besteht darin, daß jedem Rechner eine Überwachungseinrichtung
zugeordnet ist, in der periodisch die Betriebszustande aller zum System gehörigen
k Rechner gespeichert werden, und daß Mittel vorgesehen sind, die bei Ausfall eines
Rechners unter Beachtung der Prioritäten der Systemaufgaben diese gegebenenfalls
neu verteilen.
-
Weitere Merkmale der Erfindung ergeben sich aus den Anspriichen, ihre
Einzelheiten aus der Beschreibung.
-
Die I#eschreibung umfaßt ein 4-Rechnersystem, was jedoch keinerlei
linschrankung bedeutet. Eine Reduzierung auf ein t-Rechnersystem oder eine Erweiterung
ist grundsätzlich durch entsprechende
Anpassung des Hardwareumfangs
möglich.
-
Für ein 4-Rechnersystem sollen folgende Voraussetzungen gelten: Jeder
der vier Rechner kann jede von maximal vier möglichen Aufgaben bearbeiten, und jede
Aufgabe darf gleichzeitig nur von einem Rechner bearbeitet werden. Dabei kann eine
Aufgabe z.B. auch ein Teil einer auf mehrere Rechner verteilten Gesamtaufgabe sein.
Zu sender der Aufgaben gehört ein Satz von Peripheriegeräten, oder allgemein ein
Ein-/ Ausgabekanal und/oder ein Speicheranschluß.
-
Die jedem Rechner zugeordnete Überwachungseinrichtung kontrolliert
eine Reihe von den Betriebszustand der Rechner charakterisierenden Meldungen, die
von einem für alle Rechner gleichen Grundprogramm periodisch veranlaßt werden. Diese
Meldungen sind: a) Kontrolle der Funktionsfähigkeit der Rechner durch periodische
Kontrollausgaben, b) Mitteilung, welche Aufgabe von dem mitteilenden Rechner bearbeitet
wird, c) Mitteilung von Rechnerstörungen, welche der gestörte Rechner noch gezielt
feststellen kann.
-
Die liberwachungReinrichtung umfaßt ferner eine Abfragemöglichkeit
jedes Rechners über die Funktionsfähigkeit der anderen drei Rechner und die von
diesen bearbeiteten Aufgaben, sowie über die eigene Funktionsfähigkeit und die eigene
Aufgabe.
-
Ahhnngig von diesen Meldungen und Abfragen kann sich jeder der vier
Rechner ein vollständiges Bild über den Systemzustand verschaffen und im Falle einer
Störung eines anderen Rechners gegebenenfalls eine andere Aufgabe.alfl die bisherige
übernehmen. Zu diesem Zweck ist eine Umschalteinrichtung vorgesehen, die im Falle
einer Störung bei einem Rechner, diesen von seiner Peripherie trennt. Mittels der
Umschalteinrichtung kann jeder andere funktionsfähige Recnner diese nunmehr freie
Peripherie auf sich schalten, womit gleichzeitig die bisher an ihn geschaltete Peripherie
abgetrennt wird.
-
Für den Fall, daß auch die Umschalteinrichtung funktionsunfähig ist,
sind Schaltelemente vorgesehen, mittels denen eine mauelle Zuteilung oder U#mverteilung
der Aufgaben möglich ist.
-
Allgemein wird bei der Erfindung davon ausgegangen, daß jeder funktionsfähige
Rechner in der Lage ist, eine Aussage über seinen Betriebszustand zu machen. Dieser
umfaßt einerseits die Fllnktionsfähigkeitw andererseits die spezielle im Rahmen
des Ges'iintsystems zu bearbeitende Aufgabe.
-
Solange ein Rechner mit einer Aufgabe geladen ist, gibt er, angestoßen
von einem Signal seiner Realzeituhr in periodischen Zeitabständen von z.B. 100 msec
über einen Rechnerkernkanalanschluß eine Kontrollmeldung an die Überwachungseinrichtung
ab. Diese Kontrollmeldung besteht insbesondere aus einem 24-Bit-Wort, wobei jedem
Bit eine Bedeutung aus dem Bereich des Gesamtsystems zugewiesen ist.
-
Die ersten 5 Bits dieses 24-Bit-Wortsxrepräsentieren einerseits die
Funktionsfähigkeit des die Kontromeldung abgebenden Rechners, andererseits eine
der vier Aufgaben, die von diesem Rechner bearbeitet wird. Die übrigen Bits dienen
z.B. als Ansteuersignale für Lampen, die ihrerseits bestimmte Funktionen der Rechner
wie z.B. Belegung gemeinsamer Peripheriegeräte anzeigen. Jedem Bit des 24-Bit-Worts
ist in der Überwachungseinrichtung ein Impulslückendetektor zugeordnet, der priift,
ob in dem Zeitraster von z.B, 100 msec eine "L" ausgegeben wird oder nicht. Wird
eine "O" ausgegeben, oder unterbleibt die Ausgabe der Kontrollmeldung ganz, so geht
der Ausgang des oder der Impulslückendetektoren auf "0". Bei Ausfall der Stromversorgung
gehen alle 24 Ausgänge auf "O".
-
Durch die Kontrollmeldungen werden insbesondere folgende Rechnerfunktionen
überprüft: 1) Da die Kontrollmeldungen durch ein Interruptsignal ausgelöst werden,
unterbleibt die Ausgabe bei fehlerhaftem Programmunterbrecherwerk.
-
2) Da das Interruptsignal von der Realzeituhr gegeben wird, unterbleibt
die Kontrollmeldung bei fehlerhafter Realzeituhr.
-
3) Fällt die Stromversorgung aus, so wird automatisch Rechnerfehler
angezeigt.
-
4) Ist das Programm durch z.B. Speicherfehler zerstört, so wird keine
Kontrollmeldung ausgegeben.
-
Tritt nun einer dieser Fehler bei einem Rechner auf, so wird dessen
die Funktionsfähigkeit repräsentierendes Bit gelöscht.
-
Damit wird der Ausgang des Impulslückendetektors zu Null, wod'irch
die Umsohalteinrichtung aktiviert und die mit dem betreffenden Rechner verbundene
Peripherie abgetrennt werden.
-
Automatisch mit dem Löschen des Funktionsfähigkeitsbits wird auch
das die zu bearbeitende Aufgabe repräsentierende Bit gelöscht. Ist der gestörte
Rechner der die Aufgabe niederster Priorität bearbeitende Rechner, so bewirkt dessen
Störung nur die Abschaltung der Peripherie. Im übrigen reduziert sich das 4-Rechnersystem
auf ein 3-Rechnersystem, wobei diese drei Rechner ohne Unterbrechung ihre Aufgaben
abarbeiten.
-
Bearbeitet ein Rechner eine Aufgabe höherer Priorität als ein anderer
Rechner, so ergibt sich bei einer Störung des ersteren die Notwendigkeit der Neuverteilung
der Aufgaben. Beispielweise mogen der Rechner I die Aufgabe höchster Priorität,
der
Rechner II die Aufgabe nächstniedriger Priorität, der Rechner
III die Aufgabe wiederum nächsiniedriger Priorität und der Rechner IV die Aufgabe
niederster Priorität bearbeiten. Ist nun z.B. der Rechner II gestört, so übernimmt
der Rechner IV nach Abspeicherung seiner Zwischenergebnisse die bisher vom Rechner
II bearbeitete Aufgabe. Die Umverteilung der Aufgaben soll mit einem möglichst geringen
Umschaltaufwand vor sich gehen.
-
So übernimmt z.B. nach Behebung der Störung bei dem Rechner II dieser
nicht seine ursprüngliche Aufgabe, sondern die mit der nächsten anstehenden Priorität,
im speziellen Fall also die vorher von dem Rechner IV bearbeitete Aufgabe. Dies
gilt unter der Voraussetzung, daß inzwischen nicht ein weiterer Rechner ausgefallen
ist. Es muß jedoch für den Fall, daß mehrere Rechner zur BearbeAtung einer Aufgabe
frei sind, sichergestellt werden, daß aufgrund eines gestörten r#£;##rs nicht mehrere
Rechner eine bestimmte Aufgabe an siev ehen und damit die gleiche Peripherie auf
sich schalten. Die Tatsache, daß alle Rechner an alle anderen ihren Betriebszustand
melden, wird dazu ausgenutzt, die Bearbeitung einer Aufgabe durch mehrere Rechner
zu verhindern. Es darf angenommen werden, daß ein Rechner immer etwas schneller
ist als ein anderer, womit eine eindeutige Aufgabenverteilung gewährleistet ist.
-
Die wechselweise Information über den Betriebszustand umfaßt jeweils
die ersten fünf Bits des 24-Bit-Wortes, also die Auskllnft über die Funktionsfähigkeit
und die zu bearbeitende Afbe, Diese fünf Bits werden von jedem Rechner zu jedem
Rechner
übertragen und hier in der Überwachungseinrichtung abgespeichert.
-
I{erzll sind in jeder Überwachungseinrichtung 24 (allgemein 2k + k
) bistabile Elemente vorgesehen, deren Schaltzustände die Konfiguration des Mehrrechnersystems
wiederspiegeln.
-
Jeweils 4 (allgemein k) bistabile Elemente zeigen durch ihren Schaltzustand
die Funktionsfähigkeit der Rechner an, bzw.
-
deren Systemverfügbarkeit, also ob die Rechner mit der Umschalteinrichtung
verbunden sind oder nicht. Die übrigen 16 (allgemein k2) bistabilen Elemente zehen
an, wie die Aufgabenverteilung im System ist.
-
Durch periodische Abfragen dieser bistabilen Elemente holt sich jeder
Rechner in dem Zeitraster von z.B. 100 msec ein Eingahewort, das ihn Aufschluß über
den Gesamtzustand des Systems gibt. Dieses Einga##'<ort hat z.B. folgende Struktur:
Bit 1 Rechner 1 funktionsfähig Bit 2 Rechner I bearbeitet Aufgabe I Bit 3 Rechner
I bearbeitet Aufgabe II Bit 4 Rechner I bearbeitet Aufgabe III Bit 5 Rechner I bearbeitet
Aufgabe IV Bit 6 Rechner I auf Handumschaltung gestellt : : Bit 23 Rechner IV bearbeitet
Aufgabe IV Bit 24 Rechner IV auf Handumschaltung gestellt.
-
Die Verd@@htung zwischen den Rechnern sei ao, daß das Eingabewort
für alle Rechner gleich ist.
-
Im Falle eines gestörten Rechners ist unter Zugrundelegung des Eingabewortes
jeder Rechner über den Gesamt zustand des Systems informiert. Bei Ausfall eines
Rechners wird, vorausgesetzt dieser bearbeitet nicht die Aufgabe niederster Priorität,
die Umschalteinrichtung aktiviert und die vom ausgefallenen Rechner bearbeitete
Aufgabe einem anderen Rechner, insbesondere dem die Aufgabe niederster Priorität
bearbeitenden Rechner zugeteilt.
-
Die Umschaltung wird rechnergesteuertfi;4urchgeführt, solange die
Rechner mit der Umschalteinrichtung verbunden sind. Dabei wird stets unter Berücksichtigung
der Prioritäten der Aufgaben die notwendige Neuverteilung durchgeführt. Soll nun
ein Rechner für Testzwecke aus dem System genommen werden oder ist die Umschalteinrichtung
defekt, so kann die Konfiguration des Systems auch durch manuelle Betätigung entsprechender
Schaltelemente durchgeführt werden. Diese Schaltelemente sind an einem Kontrollpult
untergebracht und lassen in Verbindung mit durch das Eingabewort angesteuerten Anzeigeelementen,
insbesondere beleuchtete Tasten, eine eindeutige Rechner-Aufgabe-Zuordnung zu. Grundsätzlich
kann ein Rechner nur dann eine Aufgabe bearbeiten, wenn kein anderer Rechner diese
Aufgabe bearbeitet.
-
Soll so z.B. ein Rechner vom System getrennt werden, ohne daß er gestört
ist, so muß erst sein die entsprechende Aufgabe kennzeichnendes Bit gelöscht werden,
womit auch gleichzeitig die Peripherie freigegeben wird.
-
Ziir erhöhten Sicherheit ist eine Signaleinrichtung vorgesehen, die
jeweils bei einer Störung optische und/oder akustische Signale abgibt. Damit wird
das Bedienpersonal auf eine Störung aufmerksam und kann unter Beachtung des durch
die Anzeigeelemente nach außen sichtbaren Systemzustandes gegebenenfalls manuell
in das System eingreifen, womit die Kontinuität der Systemarbeit gewährleistet wird.