DE2539977C3 - Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage - Google Patents

Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage

Info

Publication number
DE2539977C3
DE2539977C3 DE2539977A DE2539977A DE2539977C3 DE 2539977 C3 DE2539977 C3 DE 2539977C3 DE 2539977 A DE2539977 A DE 2539977A DE 2539977 A DE2539977 A DE 2539977A DE 2539977 C3 DE2539977 C3 DE 2539977C3
Authority
DE
Germany
Prior art keywords
signal
failure
module
circuit arrangement
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2539977A
Other languages
English (en)
Other versions
DE2539977A1 (de
DE2539977B2 (de
Inventor
Lester Ralph Arvada Bellamy
Kenneth Legrand Boulder Hotaling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2539977A1 publication Critical patent/DE2539977A1/de
Publication of DE2539977B2 publication Critical patent/DE2539977B2/de
Application granted granted Critical
Publication of DE2539977C3 publication Critical patent/DE2539977C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • G06F11/326Display of status information by lamps or LED's for error or online/offline status

Description

Die Erfindung betrifft eine Schaltungsanordnung in einer modular aufgebauten Datenverarbeitungsanlage mit Moduln, die sich gegenseitig aushelfen können, zur Erkennung von fehlerhaften Zuständen peripherer Einheiten nach dem Oberbegriff des Anspruchs 1.
Die Zuverlässigkeit von Datenverarbeitungsanlagen hat heute eine solche Höhe erreicht, daß sie fast ausfallfrei arbeiten und ihre Leistung nur wegen Wartungsproblemen abnimmt. Dabei sind sie aber immer schwieriger unter Kontrolle zu halten, weil sie ihre eigenen Fehler weitgehend kompensieren.
Eine Anlage kann z. B. eine Funktionseinheit aus dem Verkehr ziehen und andere Funktionseinheiten an deren Stelle benutzen. Somit arbeitet die Anlage weiter, ihr Wirkungsgrad kann jedoch abnehmen, wenn immer mehr Funktionseinheiten ausfallen und von ihr umgangen werden. Auch für Anlageteile, die der Datenübermittlung dienen, wurden ausgeklügelte Fehlerkorrekturcodes ausgearbeitet, die der Anlage die Korrektur der Daten gestatten, auch wenn viele Fehler in einer Datenreihe auftreten. Somit kann eine Anlage Daten richtig auslesen, obwohl ihre Funktionseinheiten mit zunehmendem Alter in ihrer Leistung nachlassen.
Unter diesen Voraussetzungen kann ein für die Wartung einer Datenverarbeitungsanlage verantwortlicher Wartungstechniker eine solche Anlage untersuchen, die richtig zu arbeiten scheint. Da sie jedoch Fehler selbst korrigieren kann und über die Möglichkeit verfügt, nichtarbeitende oder ausgefallene Funktionseinheiten zu umgehen, kann ihre Leistung mit zunehmendem Alter abnehmen. Um die Anlage auf dem höchsten Wirkungsgrad zu halten, wäre es daher für den Wartungstechniker erwünscht, die Entwicklung des Leistungsverhaltens, bezogen auf Betriebszustände, wie Ströme und Spannungen, von außerhalb der Toleranzen liegenden Schaltungsmoduln oder auswechselbaren Einheiten zu kennen. Außerdem sollte er Ausfälle in Funktionseinheiten kennen, die wegen dieser Ausfälle vielleicht umgangen worden sind.
So sind Schaltungen für die Überwachung von Moduln, durch welche festgestellt wurde, ob die Spannungen in den Moduln innerhalb der Toleranzen liegen, in der Vergangenheit benutzt worden. Ebenso sind Geräte zur Abtastung einer Anzahl von Schaltkreisen zwecks Prüfung derselben bekannt. So ist beispielsweise in der DE-OS 2 262 476 ein Fehlersuchsystem und maschinell ausgeführtes Fehlersuchverfahren beschrieben, das Leistungsabfall und Betriebsausfall eines peripheren Gerätes festzustellen vermag. Keines dieser Geräte wurde jedoch in Verbindung mit einer Anlage benutzt, die sich selbst reorganisieren kann. Das Problem der Überwachung der Leistungs-
abnähme einer Anlage, weiche sich selbst helfen kann, gab es daher gar nicht.
Demgegenüber besteht die Aufgabe der Erfindung darin, für eine modulare Datenverarbeitungsanlage, deren Module sich bei der Funktionsausführung aushelfen können, eine Schaltungsanordnung anzugeben, die eine genaue Lokalisierung von fehlerhaften oder ausgefallenen Moduln ermöglicht.
Gelöst wird diese Aufgabe der Erfindung durch die in dem Hauptanspruch angegebenen Merkmale. ι ο
Vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.
Mit der Erfindung wird also der Vorteil erzielt, daß in einer Datenverarbeitungsanlage, die in der Lage ist, ihre eigenen Fehler zu korrigieren, notfalls durch eine Umstrukturierung ihrer Verarbeitungs- und Funktionseinheiten, dem Wartungsdienst der sonst nicht erkennbare Leistungsabfall der Anhge sichtbar gemacht werden kann.
Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird anschließend näher beschrieben. Es zeigt
Fig. 1 ein Ausführungsbeispiel der Erfindung in einer Datenspeicheranlage mit einer Verarbeitungsein- zr> heit, die in Verbindung mit n, ehreren Funktionseinheiten arbeitet, in diesem FaI. mit Lese/Schreibgeräten und ihren Steuerungen,
Fig. 2 eine NetzteilfühlerschaUung, die für die in Fig. 1 gezeigten Fühler verwendet werden kann, jo
Fig. 3 A und 3 B den Prozeßablauf in einer der genannten Verarbeitungseinheiten bei der Überwachung der Netzteil-Fühlerschaltungen und bei der Aufzeichnung von Frühwarnungen und Ausfällen.
Die in Fig. 1 gezeigte Datenspeicheranlage umfaßt Ji eine Verarbeitungseinheit 10, die mehrere Funktionseinheiten 12 steuert.
Da der Betrieb der Anlage bei der Steuerung der Lese- und Schreiboperationen von Daten nicht Teil dieser Erfindung ist, sind die Kommunikationswege 4» zwischen den Funktionseinheiten und der Verarbeitungseinheit nicht dargestellt. Die Kommunikationswege aber zwischen der Verarbeitungseinheit 10 und den Fühlern für Toleranzüberschreitungen (TU) und Ausfall sowie den TU-Anzeigen 14 sind ein Teil der -r> Erfindung und deshalb in Fig. 1 dargestellt.
Die Einrichtungen mit Ausfallfühler und -Anzeige 14 gehören zu einer Funktionseinheit 12. Der Betrieb eines Toleranzüberschreitungs- und Ausfaltfühlers ist im einzelnen in Fig. 2 dargestellt. Die Abfühlopera- -.0 tion beginnt mit den Netzteilfühlerschaltungen 16 und 18, welche das Lese/Schreib-Netzteil 20 bzw. das Steuerungsnetzteil 22 überwachen.
Es gibt zwei Arten von Netzteilfühlerschaltungen in jedem Fühlerblock 16 und 18 der Fig. 1. Die erste v, Art ist ein Toleranzüberschreitungs- oder Frühwarnfühler. Die zweite Art ist der Ausfall-Fühler. Diese Fühler werden später genauer im Zusammenhang mit Fig. 2 beschrieben.
Die TU- oder Frühwarnfühler überwachen Moduln wi zur Erkennung von Spannungen am Eingang oder Ausgang, die ungefähr 4% außerhalb der Toleranzgrenzen liegen. Ein Modul in einem solchen Zustand arbeitet wahrscheinlich noch richtig. Die Tatsache jedoch, daß es außerhalb der Toleranz liegt, zeigt an, μ daß seine Leistung nachzulassen beginnt. Die TU-Fühler sind somit Teile einer Frühwarnanlage. Die TU-Leitungen der Schaltungen 16 und 18 werden im ODER-Glied 24 zusammengeschaltet und ergeben ein TU-Bit in einem Zustandsbyteregister 26. Am Ende einer Lese- oder Schreiboperation durch die Lese/Schreibeinheit 27 schaltet die Lese/Schreibsteuerung 28 das Tor 30 ein, um ein Zustandsbyte an die Verarbeitungseinheit 10 zinückzuleiten. Ein Zustandsbyte besteht aus mehreren TU-Bits, d. h. aus dem individuellen Bit mehrerer TU-Fühler.
Jede TU-Leitung wird auch an eine TU-Anzeige 32 geführt. Eine TU-Anzeige besteht aus einem verzögerten Haltekreis 34, einer monostabilen Kippschaltung 36 und einer Lichtemitterdiode (LEDj 38. Wenn eine TU-Leitung beaufschlagt wird und anzeigt, daß ein Frühwarnfühler einen außer der Toleranz liegenden Zustand erkannt hat, wird der verzögerte Haltekreis angesteuert, aber noch nicht in den Haltezustand versetzt. Die ansteigende Flanke des Signals auf der TU-Leitung löst die monostabile Kippschaltung 36 aus. Wenn das Signal auf der TU-Leitung noch vorhanden ist, wenn die monostabile Kippschaltung 36 wieder zurückschaltet, wird der Haltekreis in den Haltezustand versetzt, and die LED 38 schaltet ein. Die Zeitverzögerung durch die monostabile Kippschaltung 36 soll erreichen, daß kurze und vorübergehende Überschreitungen der Toleranz von Betriebszuständen den Haltekreis noch nicht in den Haltezustand versetzen und die LED 38 zum Aufleuchten bringen. Die LED 38 bleibt eingeschaltet, bis ein Wartungstechniker den Haltekreis 34 von Hand zurückstellt. Die TU-Anzeige eines jeden Fühlers der Ausfallfühler und -Anzeigen 14 bezeichnet daher dem Wartungstechniker diejenigen Moduln, die zu irgendeinem Zeitpunkt während des Betriebes der Anlage außer Toleranz geraten sind.
Die Ausfall-Fühler der Schaltungsblöcke 16 und 18 haben Ausgangsleitungen, die durch Multiplexer zusammengefaßt werden. Der Multiplexer 40 überwacht die Netzteilfühler für das Lese/Schreib-Netzteil, während der Multiplexer 42 die Ausfall-Fehler für das Steuerungsnetzteil überwacht. Die Multiplexer 40 und 42 wirken als Selektionsschalter, über welche die Ausfall-Fühler elektronisch abgefragt werden können.
Die Abfrageoperation wird durch die Verarbeitungseinheit lOgesteueit, die eine Abfrage nur einleitet, wenn von ihr ein Operationsausfall- oder -Fehlerzustand erkannt worden ist. Die Abfrage wird durch ein Signal zum Einstellen des Flipflop 44 und Einschalten des Zählers 46 eingeleitet. Wenn das Flipflop 44 eingestellt ist, wird die Torschaltung 48 zum Übertragen von Taktimpulsen an den Zähler 46 eingeschaltet. Der Zähler 46 wird durch das Startsignal auf 0 zurückgesetzt und beginnt somit aufwärtszuzählen, wenn er Taktimpulse empfängt. Jede Zahl, die beim Hochzählen des Zählers zustande kommt, stellt die Adresse eines Ausfall-Fühlers in einer Einrichtung der Ausfall-Fühler und -Anzeigen 14 dar. Die Adresse im Zähler 46 wird der entsprechenden Fühler- und Anzeigeeinrichtung über die Treiber 50 mitgeteilt, weiche die Empfänger 52 einer jeden Einrichtung 14 speisen.
An jeden Empfänger 52 ist ein Adreßkodierer 54 angeschlossen. Wenn die dekodierte Adresse einem Ausfall-Fühler entspricht, schaltet die Adreßdekodierung den Multiplexer 40 bzw. 42 zum Weiterleiten des Ausgangssignals des betreffenden Ausfall-Fühlers an das ODER-Glied 56 ein.
Das ODER-Glied 56 sammelt die Ausgangssignale
10
15
20
25
der Multiplexerschaltungen 40 und 42 und leitet ein binäres Signal an einen Treiber 58 weiter, der seinerseits ein Signal an den Empfänger 60 bei der Verarbeitungseinheit zurückgibt. Die Empfänger 62 und 64 gehören zu anderen Ausfall-Fühlern und -Anzeigen 14 anderer Funktionseinheiten. Jede Ausfallanzeige, die vom Empfänger 60, 62 oder 64 empfangen wird, wird durch das ODER-Glied 66 übernommen. Der Ausfall-Status wird an die Verarbeitungseinheit 10 zurückgeleitet und setzt das Flipflop 44 zurück, um den Abfragevorgang anzuhalten.
Wenn der Abfragevorgang einen Ausfall ermittelt hat, kann die Verarbeitungseinheit 10 die zum Ausfall gehörige Adresse dem Register 68 entnehmen. Das Register 68 spiegelt den Inhalt des Zählers 46 wider. Die Verarbeitungseinheit 10 verzeichnet dann den Ausfall-Status zusammen mit der Adresse und kann anschließend die Abfrage durch Einschalten des Flipflop 44 wieder fortsetzen, wobei die Torschaltung 48 wieder eingeschaltet ist. Dann werden die Taktimpulse an den Zähler 46 geleitet und veranlassen diesen zur Wiederaufnahme der Abfrage.
Da die Netzteilfühlerschaltungen 16 und 18 und ihr zugehöriges Übermittlungsgerät zur Verarbeitungseinheit 10 aus der Stromversorgung der Verarbeitungseinheit gespeist werden, können sie letzterer einen Ausfall mitteilen, wenn die Netzteile 20 und 22, welche die Funktionseinheiten versorgen, ausfallen. Das Übermittlungsgerät, v/elches durch die Verarbeitungseinheit 10 gespeist wird, umfaßt die Empfänger 52, die Adreßdekodierer 54, die Multiplexer 40 und 42, das ODER-Glied 56, den Treiber 58 und die TU-Anzeigen 32.
In Fig. 2 ist ein Beispiel für einen Frühwarn- und einen Ausfall-Fühler gezeigt. Typischerweise wird von dieser Fühlerschaltiung ein austauschbares Modul 70 überwacht. Der Ausfall-Fühler besteht aus den Komparatoren 72 und 74 und der Logikschaltung 76. Der Komparator 72 überwacht den Betriebszustand am Ausgang des Moduls 70, um festzustellen, ob das Signal innerhalb von 25 % der durch Referenz definierten Normalwerte liegt. Der Komparator 74 überwacht in gleicher Weise den Betriebszustand am Eingang zum Modul, um festzustellen, ob da«: Eingangssignal innerhalb 25% der Normalwerte liegt.
Die Komparatoren 72 und 74 geben solange ein hohes Ausgangssignal ab, als die von ihnen überwachten Signale innerhalb der Toleranzen liegen. Ein Ausfall wird daher erkannt, wenn die Logik 76 feststellt, daß das Signal des Komparators 74 hoch ist, während dasjenige des Komparators 72 annähernd Null ist. Die Logik 76 besteht aus einem Inverter 78 zur Überwachung des Signalausgangs am Komparator 72 und einem UND-Glied 79 zur Kombination des invertierten Ausgangs von 72 mit dem Ausgang von 74. Das UND-Glied 79 gibt somit nur ein Signal ab, das einen Ausfall des Moduls 70 anzeigt, wenn das Ausgangssignal des Komparators 72 abfällt und damit anzeigt, daß das Signal am Modulausgang außerhalb des Toleranzbereiches liegt, während das Signal am Ausgang ω des Komparators 74 hoch bleibt und anzeigt, daß der Pegel am Moduleingang innerhalb der Toleranz liegt. Die in den Komparatoren 72 und 74 benutzte Toleranz von 25 % ist nicht kritisch. Eine Toleranz sollte so gewählt werden, daß die Anzeige einer Toleranz- (,5 Überschreitung einem Ausfall dieses Moduls gleichkommt.
Die Logikschaltung 76 kann natürlich bedeutend
45
50 erweitert werden, um mehr als ein austauschbares Modul zu überwachen. Ein Satz von Moduln kann z. B. von Komparatoren überwacht werden, die an ausgewählte Moduleingänge oder -ausgänge angeschlossen sind, und die Logik 76 kann aus einem logischen Baum bestehen, um dasjenige Modul des Modulsatzes, das ausgefallen ist, zu identifizieren.
Der TU-Fühler umfaßt einen Komparator 80, der das Ausgangssignal des austauschbaren Moduls 70 überwacht, um festzustellen, ob es innerhalb von 4% der durch ein an den Komparator 80 angelegtes Referenzsignal definierten normalen Betriebsgrenzen liegt. Der Komparator 80 kann an den Eingang oder an den Ausgang des Moduls angeschlossen werden. Die durch die TU-Fühler zu überwachenden Leitungen können frei unter den kritischeren Leitungen oder den Leitungen ausgewählt werden, die früh eine Warnanzeige bei einer Leistungsabnahme abgeben. Die beim Komparator 80 angewandte Toleranz von 4% ist ebenfalls eine Sache der freien Wahl. Der Toleranzbereich sollte so gewählt werden, daß die Frühwarnfunktion erfüllt wird.
In Fig. 3 A ist der Betriebsablauf der Verarbeitungseinheit 10 der Fig. 1 bei der Steuerung der Abtastung und Protokollführung über die Betriebszustände in der Datenspeicheranlage dargestellt. Der Ablauf beginnt, sobald die Verarbeitungseinheit erkennt, daß eine Lese/Schreiboperation ausgefallen ist und Fehlerkorrekturverfahren eingeleitet werden müssen. Wenn ein Betriebsfehler auftritt, verzweigt sich der Ablauf im Entscheidungsblock 82 zum Block 84. Während der Aktivzeit des Blockes 84 speichert die Einheit 10 das vom Zustandsbyteregister 26 empfangene Zustandsbyte. Als nächstes leitet die Verarbeitungseinheit im Block 86 das übliche Wiederherstellungsverfahren ein. Dieses Verfahren kann darin bestehen, daß versucht wird, dieselben Daten noch einmal zu lesen oder zu schreiben, und es kann auch Fehlerkorrekturkodes enthalten, mit denen versucht wird, die fehlerhafte Bits enthaltenden Daten zu korrigieren. Dann folgt die Protokollführung, welche abhängig von der erfolgreichen ode»· erfolglosen Wiederherstellung zwei verschiedene Wege einschlagen kann.
Wenn die Wiederherstellung erfolgreich war, verzweigt sich der Ablauf im Block 88 zum Entscheidungsblock 90. Wenn das TU-Bit im Statusbyte nicht »Eins« ist, dann geht der Ablauf zwecks Protokollierung vom Entscheidungsblock 90 weiter zum Block 92. Im Block 92 meidei und proiokullleri die Verarbeitungseinheit 10 die ganze Wiederherstellungsaktion zur Behebung des Fehlers sowie die vom Zustandsbyteregister empfangene Zustandsinformation.
Wenn das TU-Bit im Zustandsbyte »Eins« ist, geht der Ablauf vom Entscheidungsblock 90 weiter zum Block 94, wobei die Verarbeitungseinheit 10 die Modulprüfung nach Ausfällen einleitet, wie sie oben im Zusammenhang mit Fig. 1 beschrieben wurde. Der Entscheidungsblock 96 überwacht dann die Ergebnisse dieser Abfrage, um festzustellen, ob ein Modul ausgefallen ist. Wenn das der Fall ist, geht es weiter zum Block 98, wobei die Adresse des ausgefallenen Moduls gemeldet und protokolliert wird. Dieser Ausfall wird insofern als temporärer Ausfall betrachtet, als das Wiederherstellungsverfahren erfolgreich war und den Ausfall überwinden konnte.
Wenn andererseits kein Modulfehler während der Modulabfrage erkannt wird, verzweigt sich der Ablauf
vom Entscheidungsblock 96 zum Block 100. Dann meldet die Verarbeitungseinheit 10 einen vorübergehenden Ausfall der Stromversorgung, der typischerweise auf einen Ausfall des Stromnetzes zurückzuführen ist, welches die Verarbeitungsanlage speist.
Der Ablauf führt von jedem Block 92, 98 und 100 in einer Schleife zurück zum Entscheidungsblock 82, mit anderen Worten, der Melde- und Protokollierungsvorgang ist dann abgeschlossen und die Anlage für die nächste Operation bereit. Die nächste Operation würde erfahrungsgemäß nicht ausfallen und der Ablauf vom Entscheidungsblock 82 zum Block 102 verzweigen, wodurch angezeigt wird, daß die Operation erfolgreich beendet wurde und einen normalen Endzustand hatte. Die Verarbeitung wird dann weiter fortgesetzt, bis wieder ein Fehler oder ein Funktionsausfall auftritt.
Wenn das Wiederherstellungsverfahren im Entscheidungsblock 88 in Fig. 3 A nicht erfolgreich ist, verzweigt sich der Ablauf vom Entscheidungsblock 88 zur Fig. 3B. In Fig. 3B sind die Modulabfrage und der Protokollierungsvorgang in einer Situation gezeigt, in der die Wiederherstellung nicht erfolgreich war.
Der Betriebsablauf nach Fig. 3B beginnt beim Block 104, wo die Verarbeitungseinheit 10 die Abfrage der Moduln einleitet, wie sie vorher im Zusammenhang mit Fig. 1 beschrieben wurde. Der Entscheidungsblock 106 zeigt, daß die Ergebnisse der Modulabfrage überwacht werden. Wenn kein Modulausfall vorliegt, geht der Ablauf weiter zum Block 108, wobei erkannt wird, daß der Ausfall in der Funktionseinheit und nicht in der Stromversorgungseinheit liegt. Dieser Schluß wird von der Verarbeitungseinheit gezogen, da die Netzteilfühlerschaltungen 16 und 18 nur die Netzteile und nicht die Funktionsmoduln überwachen, die aus den Netzteilen versorgt werden. Das ergibt sich logisch daraus, da die Wiederherstellung nicht erfolgreich war und die Netzteilmoduln sich während der Modulabfrage als einwandfrei erweisen.
Die Verarbeitungseinheit 10 meldet im nächsten
Ablaufschritt 110, daß die Funktionseinheit nicht zur Verfügung steht und macht eine Eintragung im Protokollträger für die nachfolgende Benutzung durch den Wartungstechniker.
Wenn die Modulabfrage zeigt, daß ein Modul ausgefallen ist, verzweigt sich der Ablauf vom Entscheidungsblock 106 zum Block 112. Dieser zeigt der Verarbeitungseinheit 10 den logischen Schluß an, daß der Ausfall in einem Netzteil liegen muß. Im Ablaufschritt 114 protokolliert die Verarbeitungseinheit 10 die Funktionseinheit als nicht verfügbar. Im Schritt 116 wird außerdem die Adresse (Identifikation) des ausgefallenen Moduls protokolliert, wie sie vom Register 68 erhältlich ist (Fig. 1). So erfährt der Wartungstechniker aus der Durchsicht des Protokolls, welches austauschbare Modul im Netzteil ersetzt werden muß.
Nachdem die Protokollierung entweder im Block 110 oder 116 abgeschlossen ist, wird der Ablauf mit Block 118 fortgesetzt, wobei die Verarbeitungseinheit 10 die ausgefallene Funktionseinheit elektronisch aus der nutzbaren Anlage herausnimmt. Gleichzeitig wählt sie eine Alternativeinheit zur Durchführung von Operationen aus, die vorher der herausgenommenen Funktionseinheit zugeordnet waren. Unmittelbar danach protokolliert die Verarbeitungseinheit 10 im Schritt 120 eine Nachricht, welche die Reparatur der defekten Funktionseinheit verlangt.
Wenn die defekte Funktionseinheit aus der Anlage herausgetrennt ist, kehrt die Ablaufsteuerung zur Fig. 3 A zurück und versucht noch einmal, die gewünschte Operation auszuführen. Mit einer anderen Einheit verläuft diese Operation sehr wahrscheinlich erfolgreich. Der Ablauf verzweigt sich vom Entscheidungsblock 82 zum Block 102 und zeigt an, daß die Operation erfolgreich beendet ist und ein normaler Endzustand vorliegt.
Hierzu 3 Blatt Zeichnungen
•30 209/232

Claims (6)

Patentansprüche:
1. Schaltungsanordnung in einer modular aufgebauten Datenverarbeitungsanlage mit Moduln, die sich gegenseitig aushelfen können, zur Erkennung von fehlerhaften Zuständen peripherer Einheiten mit Signalspannungen bzw. -ströme abfragenden Uberwachungsschaltungen zur Feststellung von Leistungsabfall bzw. -ausfall und einer zentralen Einrichtung zur Abfrage dieser Überwachungsschaltungen, gekennzeichnet durch folgende Merkmale:
a) in jedem überwachten Modul (z. B. 70,
F i g. 2) ist ein Frühwarnfühler (80) angeord- ι; net, der schon auf geringe nicht notwendigerweise zu Fehlern führende Toleranzabweichungen der Ausgangssignale des zugehörigen Netzteils anspricht und ein Frühwarnsignal zur Anzeige bringt; x
b) am Ausgang jedes überwachten Moduls ist ein erster Ausfallfühler (72) vorgesehen, der ein Signal erzeugt, wenn das überwachte Ausgangssignal zu Fehlern führende Toleranzabweichungen aufweist; 2>
c) am Eingang jedes Moduls ist ein zweiter Ausfallfühler (74) vorgesehen, der ein Signal erzeugt, wenn das überwachte Eingangssignal zu Fehlern führende Toleranzabweichungen aufweist; jo
d) jedem überwachten Modul ist eine logische Schaltung (76) zugeordnet, die den Modul als fehlerhaft meldet, wenn das Ausgangssignal fehlerhaft ist, das Eingangssignal jedoch nicht; r>
e) es sind Abfrageeinrichtungen (40,42,46 und 54) vorhanden, die zur zentralen Erfassung von Ausfällen mit den Ausgängen der logischen Schaltungen verbunden sind, um eine zentrale Aufzeichnung der Ausfallmeldun- ■"> gen vorzunehmen.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß ein Frühwarnfühler (80, Fig. 2) wenigstens einen Komparator mit Eingängen für ein zu überwachendes und ein Re- ·)·» ferenzsignal und mit einem Ausgang für ein Signal umfaßt, dessen Auftreten das Abweichen des überwachten Signals vom Referenzwert über eine wählbare Toleranzgrenze hinaus anzeigt.
3. Schaltungsanordnung nach Anspruch 1 oder ■> <> 2, dadurch gekennzeichnet, daß Einrichtungen (32) zum Anzeigen von Leistungsschwund mit den Frühwarnfühlern (80) verbunden sind und daß sie eine Verzögerungsschaltung (36) enthalten, die bewirkt, daß Leistungsschwund nur angezeigt Vi wird, wenn er länger als die Verzögerungszeit andauert.
4. Schaltungsanordnung nach einem der Ansprüche 1 bis 3, daduich gekennzeichnet, daß die genannten Frühwarn- und Ausfallfühler (72, 74, wi 80) nur mit dem Netzteil (20,22) einer peripheren Einheit (12) in Verbindung stehen.
5. Schaltungsanordnung nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß zur Aufzeichnung von Adressen M ausgefallener Moduln (70) ein Adressenzähler (46), eine von der zentralen Verarbeitungseinheit (10) gesteuerte Auslöseeinrichtung (44, 48) für den Adressenzähler und ein von der Verarbeitungseinheit abrufbares Register (68) zur Speicherung der Ausfallanzeigen vorhanden sind.
6. Schaltungsanordnung nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Einrichtung (32) für Leistungsschwundanzeige mit einem Eingang zur manuellen Rückstellung ausgerüstet ist.
DE2539977A 1974-09-19 1975-09-09 Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage Expired DE2539977C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US507650A US3928830A (en) 1974-09-19 1974-09-19 Diagnostic system for field replaceable units

Publications (3)

Publication Number Publication Date
DE2539977A1 DE2539977A1 (de) 1976-04-01
DE2539977B2 DE2539977B2 (de) 1979-06-13
DE2539977C3 true DE2539977C3 (de) 1980-02-28

Family

ID=24019556

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2539977A Expired DE2539977C3 (de) 1974-09-19 1975-09-09 Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage

Country Status (14)

Country Link
US (1) US3928830A (de)
JP (1) JPS5634895B2 (de)
AT (1) AT353514B (de)
AU (1) AU498769B2 (de)
BR (1) BR7506026A (de)
CA (1) CA1033844A (de)
CH (1) CH585435A5 (de)
DD (1) DD121206A5 (de)
DE (1) DE2539977C3 (de)
FR (1) FR2285659A1 (de)
GB (1) GB1509783A (de)
IT (1) IT1041934B (de)
NL (1) NL7510814A (de)
SE (1) SE422849B (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2335000A1 (fr) * 1975-12-09 1977-07-08 Stofa Mobila Intreprinderea Procede et installation pour la poursuite, le controle et la synthese automatiques des parametres de production
DE2714481A1 (de) * 1976-04-15 1978-01-12 Xerox Corp Xerographisches reproduziergeraet mit fehlerermittlungssystem
US4133477A (en) * 1976-04-15 1979-01-09 Xerox Corporation Fault detection and system for electrostatographic machines
GB1536046A (en) * 1976-06-30 1978-12-20 Ibm Data processing system power control
US4205374A (en) * 1978-10-19 1980-05-27 International Business Machines Corporation Method and means for CPU recovery of non-logged data from a storage subsystem subject to selective resets
US4255748A (en) * 1979-02-12 1981-03-10 Automation Systems, Inc. Bus fault detector
US4322854A (en) * 1979-05-18 1982-03-30 Allan B. Bundens Data communications terminal
US4393498A (en) * 1981-01-22 1983-07-12 The Boeing Company Method and apparatus for testing systems that communicate over digital buses by transmitting and receiving signals in the form of standardized multi-bit binary encoded words
JPS5935209A (ja) * 1982-08-20 1984-02-25 Koyo Denshi Kogyo Kk シ−ケンスコントロ−ラ
US4514846A (en) * 1982-09-21 1985-04-30 Xerox Corporation Control fault detection for machine recovery and diagnostics prior to malfunction
US5023779A (en) * 1982-09-21 1991-06-11 Xerox Corporation Distributed processing environment fault isolation
US4578773A (en) * 1983-09-27 1986-03-25 Four-Phase Systems, Inc. Circuit board status detection system
US4649514A (en) * 1983-11-30 1987-03-10 Tandy Corporation Computer revision port
US4630191A (en) * 1984-04-13 1986-12-16 New Holland, Inc. Automatic baler with operator controlled diagnostics
US4713810A (en) * 1985-09-19 1987-12-15 Gte Sprint Communications Corp. Diagnostic technique for determining fault locations within a digital transmission system
US4710924A (en) * 1985-09-19 1987-12-01 Gte Sprint Communications Corp. Local and remote bit error rate monitoring for early warning of fault location of digital transmission system
CA1318030C (en) * 1988-03-30 1993-05-18 Herman Polich Expert system for identifying failure points in a digital data processing system
US5090014A (en) * 1988-03-30 1992-02-18 Digital Equipment Corporation Identifying likely failure points in a digital data processing system
US5019980A (en) * 1989-07-14 1991-05-28 The Boeing Company General purpose avionics display monitor
US5161158A (en) * 1989-10-16 1992-11-03 The Boeing Company Failure analysis system
AU660661B2 (en) * 1991-02-05 1995-07-06 Storage Technology Corporation Knowledge based machine initiated maintenance system
EP0570513B1 (de) * 1991-02-05 1999-04-21 Storage Technology Corporation Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren
US5305437A (en) * 1991-09-03 1994-04-19 International Business Machines Corporation Graphical system descriptor method and system
US5400346A (en) * 1992-03-16 1995-03-21 Phoenix Microsystems, Inc. Method for diagnosing conditions in a signal line
US5561760A (en) * 1994-09-22 1996-10-01 International Business Machines Corporation System for localizing field replaceable unit failures employing automated isolation procedures and weighted fault probability encoding
US6205561B1 (en) * 1997-12-11 2001-03-20 Microsoft Corporation Tracking and managing failure-susceptible operations in a computer system
US6665822B1 (en) * 2000-06-09 2003-12-16 Cisco Technology, Inc. Field availability monitoring
US6919816B2 (en) * 2001-06-07 2005-07-19 Dell Products, L.P. System and method for displaying computer system status information
DE10244131B4 (de) * 2002-09-23 2006-11-30 Siemens Ag Verfahren zur Unterstützung einer Identifizierung einer defekten Funktionseinheit in einer technischen Anlage
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
US7234085B2 (en) * 2004-01-13 2007-06-19 International Business Machines Corporation Method, system, and product for hierarchical encoding of field replaceable unit service indicators
EP1791346A1 (de) * 2005-11-25 2007-05-30 BRITISH TELECOMMUNICATIONS public limited company Backupsystem für Video und Signalverarbeitungssystemen
US8230261B2 (en) * 2009-12-17 2012-07-24 Hewlett-Packard Development Company, L.P. Field replaceable unit acquittal policy
US20110321052A1 (en) * 2010-06-23 2011-12-29 International Business Machines Corporation Mutli-priority command processing among microcontrollers
JP6592918B2 (ja) * 2015-03-11 2019-10-23 株式会社サタケ 穀物調製設備の制御装置
CN106055451B (zh) * 2016-05-23 2019-02-15 努比亚技术有限公司 信息处理方法及电子设备
CN110488206B (zh) * 2019-08-13 2022-07-05 科华恒盛股份有限公司 一种故障监控系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3027542A (en) * 1958-07-14 1962-03-27 Beckman Instruments Inc Automatic marginal checking apparatus
NL283162A (de) * 1961-09-13
GB1107876A (en) * 1965-04-06 1968-03-27 Inst Kib An Ukr Ssr Device for checking the operation of digital computers
FR1523390A (fr) * 1967-03-22 1968-05-03 Constr Telephoniques Perfectionnements aux circuits matriciels
US3581286A (en) * 1969-01-13 1971-05-25 Ibm Module switching apparatus with status sensing and dynamic sharing of modules
US3641505A (en) * 1969-06-25 1972-02-08 Bell Telephone Labor Inc Multiprocessor computer adapted for partitioning into a plurality of independently operating systems
US3814922A (en) * 1972-12-01 1974-06-04 Honeywell Inf Systems Availability and diagnostic apparatus for memory modules
US3803560A (en) * 1973-01-03 1974-04-09 Honeywell Inf Systems Technique for detecting memory failures and to provide for automatically for reconfiguration of the memory modules of a memory system
US3838260A (en) * 1973-01-22 1974-09-24 Xerox Corp Microprogrammable control memory diagnostic system

Also Published As

Publication number Publication date
ATA698675A (de) 1979-04-15
NL7510814A (nl) 1976-03-23
JPS5634895B2 (de) 1981-08-13
FR2285659A1 (fr) 1976-04-16
CA1033844A (en) 1978-06-27
FR2285659B1 (de) 1978-03-17
JPS5150625A (de) 1976-05-04
DE2539977A1 (de) 1976-04-01
DE2539977B2 (de) 1979-06-13
US3928830A (en) 1975-12-23
SE422849B (sv) 1982-03-29
AU8326975A (en) 1977-01-27
BR7506026A (pt) 1976-08-03
IT1041934B (it) 1980-01-10
SE7509556L (sv) 1976-03-22
AU498769B2 (en) 1979-03-22
GB1509783A (en) 1978-05-04
CH585435A5 (de) 1977-02-28
AT353514B (de) 1979-11-26
DD121206A5 (de) 1976-07-12

Similar Documents

Publication Publication Date Title
DE2539977C3 (de) Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage
EP0238841B1 (de) Fehlergesicherte, hochverfügbare Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes und Verfahren zum Speicherkonfigurationsbetrieb dieser Zentralsteuereinheit
DE3222692A1 (de) Elektrisches stromversorgungssystem
DE69627842T2 (de) Fehleranzeige für ein Speichersystem mit auswechselbaren Speichereinheiten
DE2701925C3 (de) Fahrzeugsteuerung mit zwei Bordrechnern
CH658137A5 (de) Steuereinrichtung mit einem speicher und einer schnittstelle, insbesondere fuer werkzeugmaschinen.
EP0615211B1 (de) Verfahren zum Speichern sicherheitsrelevanter Daten
EP0436818B1 (de) Diagnosesystem für eine digitale Steuereinrichtung
DE60008872T2 (de) Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem
EP0141161A2 (de) Schaltungsanordnung zum Erkennen von statischen und dynamischen Fehlern in Schaltungsbaugruppen
DE2364314C2 (de) Zeitmultiplexübertragungssystem für mehrere Kanäle
DE2823457C2 (de) Schaltungsanordnung zur Fehlerüberwachung eines Speichers einer digitalen Rechenanlage
DE2014729C3 (de) Datenverarbeitungssystem mit Einrichtungen zur Fehlerermittlung und zur Systemumkonfiguration unter Ausschluß fehlerhafter Systemeinheiten
DE2737350C2 (de) Einrichtung zur Fehlerbehandlung in einer mikroprogrammgesteuerten Datenverarbeitungsanlage
DE10347196B4 (de) Vorrichtung zur Überprüfung einer Schnittstelle
EP0864875B1 (de) Verfahren zur Überprüfung einer Sicherheitsschaltung
DE102005001390A1 (de) Verfahren zur Identifikation fehlerhafter Busteilnehmer
DE2315285C3 (de) Anordnung zur Steuerung der Abtastung in Vermittlungssystemen
DE2942133C2 (de) Prüfeinrichtung für Kleinrechnersysteme
DE3012045A1 (de) Anordnung und verfahren zum ein- und ausschalten von verbrauchern mit einem mikroprozessor
DE2616186C3 (de) Verfahren zur Prüfung des Speicherteiles einer Steuereinrichtung für eine Vermittlungsanlage, insbesondere Fernsprechvermittlungsanlage
DE2315750C2 (de) Schaltungsanordnung für durch Rechner zentralgesteuerte Fernmeldevermittlungsanlagen, insbesondere Fernsprechvermittlungsanlagen
EP0874295B1 (de) Verfahren und System zur chronologischen Sortierung von Prozesssignalen einer technischen Anlage
DE2460289C3 (de) Datenverarbeitendes System, insbesondere Fernsprechvermittlungssystem
EP0056099B1 (de) Überwachungseinrichtung für Fernwirkeinrichtungen

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee