DE2237925A1 - PROCEDURE IN ELECTRONIC DATA PROCESSING SYSTEMS FOR ERROR ANALYSIS AND ELIMINATION - Google Patents

PROCEDURE IN ELECTRONIC DATA PROCESSING SYSTEMS FOR ERROR ANALYSIS AND ELIMINATION

Info

Publication number
DE2237925A1
DE2237925A1 DE19722237925 DE2237925A DE2237925A1 DE 2237925 A1 DE2237925 A1 DE 2237925A1 DE 19722237925 DE19722237925 DE 19722237925 DE 2237925 A DE2237925 A DE 2237925A DE 2237925 A1 DE2237925 A1 DE 2237925A1
Authority
DE
Germany
Prior art keywords
error
service computer
data processing
unit
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19722237925
Other languages
German (de)
Other versions
DE2237925B2 (en
Inventor
Arnold Dipl Ing Blum
Kurt Fritzsch
Hellmuth Geng
Volkmar Dipl Ing Goetze
Johann Hajdu
Fritz Koederitz
Hans Lampe
Claus Dr Mohr
Werner Pohle
Leopold Dipl Ing Reichl
Peter Rudolph
Franco Simonini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Deutschland GmbH
Original Assignee
IBM Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Deutschland GmbH filed Critical IBM Deutschland GmbH
Priority to DE19722237925 priority Critical patent/DE2237925B2/en
Priority to IT2561173A priority patent/IT1006591B/en
Publication of DE2237925A1 publication Critical patent/DE2237925A1/en
Publication of DE2237925B2 publication Critical patent/DE2237925B2/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/141Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

Amtliches Aktenzeichen: P 22 37 925.5 Aktenzeichen der Anmelderin: GE 971 041 Verfahren in elektronischen Datenverarbeitungssystemen zur Fehleranalyse- und Beseitigung Die Erfindung betrifft ein Verfahren in elektronischen Datenverarbeitungssystemen zur Fehleranalyse- und Beseitigung durch Wiederholung der fehlerhaft ausgeführten Instruktion.Official file number: P 22 37 925.5 File number of the applicant: GE 971 041 Method in electronic data processing systems for error analysis and elimination The invention relates to a method in electronic data processing systems for error analysis and elimination by repeating the incorrectly executed Instruction.

Elektronische Datenverarbeit mgsanlagen arbeiten aufgrund von sporadisch oder permanent auftretenden Fehlern nicht immer einwandfreir so daß diese Anlagen bezüglich des Auftretens dieser Fehler überwacht werden müssen.Electronic data processing systems work sporadically due to or permanent errors are not always flawless so that these systems must be monitored with regard to the occurrence of these errors.

Die Fehler werden im allgemeinen in besonderen Prüfschaltungen, die einzelnen Verarbeitungs- und Übertragungsabschnitten zugeordnet sind, automatisch festgestellt und je nach technischem Aufwand auf der Schaltkreisseite, beispielsweise durch die Benutzung aufwendiger Codes undfoder durch die Verwendung spezieller Fehlerprogramme auch automatisch korrigiert.The errors are generally in special test circuits that are assigned to individual processing and transmission sections, automatically determined and depending on the technical effort on the circuit side, for example through the use of complex codes and / or through the use of special error programs also corrected automatically.

Bei den zuletzt genannten Fehlerprüfprogrammen werden zur Beseitigung sporadischer Fehler Instruktionen, die ein fehlerhaftes Ergebnis liefern, so oft wiederholt, bis dieser Fehler nicht;mehr auftritt. Wenn nach einer vorgebbaren Anzahl solcher Wiederholungen der Fehler immer noch vorliegt, dann handelt es sich mit großer Wahrscheinlichkeit nicht mehr um einen sporadischen, sondern um einen permanenten Fehler, der auf einem Schaltungsdefekt beruht (vgl. DAS 1 258 635).The last-mentioned error checking programs are used to eliminate sporadic error Instructions that produce an incorrect result so often repeatedly until this error no longer occurs. If after a specifiable number such repetitions the error is still present, then it is with It is very likely that it will no longer be a sporadic but a permanent one Error based on a circuit defect (see DAS 1 258 635).

Die Behandlung der Fehler richtet sich in hohem Maße nach der Struktur eines elektronischen Datenverarbeitungssystems. Fig. 1 zeigt einen typischen Systemaufbau, wie er vom IBM System / 360 her bekannt ist, bestehend aus der zentralen Recheneinheit (CPU) 10, dem Haupspeicher (MS) 11, der auch extern erweitert sein kann, den typischen Kanälen (CH) 12, deren Schaltkreise und Mikroprogramm voll in der zentralen Recheneinheit integriert sein können und den Steuerungen (CU I) 13 und 14, die in der zentralen Recheneinheit 10 integriert sind und die Steuerungsaufgaben der Ein-/Ausgabegeräte 15, 16 übernehmen. Meistens ist jedoch eine externe Kanalsteuereinheit (CU) 17 vorhanden, über die die Ein-/ Ausgabegeräte 18, 19 an die Kanalsteuerung 12 angeschlossen sind.The handling of the errors depends to a large extent on the structure an electronic data processing system. Fig. 1 shows a typical system structure, as it is known from the IBM System / 360, consisting of the central processing unit (CPU) 10, the main memory (MS) 11, which can also be expanded externally, the typical Channels (CH) 12, their circuits and microprogram fully in the central processing unit can be integrated and the controls (CU I) 13 and 14, which are in the central Computing unit 10 are integrated and the control tasks of the input / output devices 15, 16 take over. Usually, however, an external channel control unit (CU) 17 is available, Via which the input / output devices 18, 19 are connected to the channel control 12.

In zunehmenden Maße setzen sich die integrierten Anschlußeinheiten CUI, wie beispielsweise auch beim IBM System/370, durch, da sie in vieler Hinsicht vorteilhafter sind und die Aufgaben und Eigenschaften eines Kanals (12) und einer Steuereinheit (17) in sich vereinigen.The integrated connection units are becoming increasingly popular CUI, as is the case with the IBM System / 370, as it is in many ways Are more advantageous and the tasks and properties of a channel (12) and a Combine control unit (17).

Die Fehler, um die es sich hier handelt, sind reine Schaltkreis-oder Logikfehler, die in den Schaltkreisen und der Logik auftreten und durch ebensolche Schaltkreise entdeckt werden.The faults in question are circuit-or-purely Logic errors that occur in the circuits and the logic and by the same Circuits are discovered.

Die Begrenzung der Zentraleinheit ist bei modernen Datenverarbeitungsanlagen nicht mehr der Rechner selbst, wie noch bei den IBM Systemen 650 oder 1401, sondern sie ist weiter gefaßt, da in die Zentraleinheit zuerst aus Kostengründen die Kanäle und dann die vollständigen integrierten Anschlußeinheiten 13 oder 14 (in Fig. 1) aufgenommen wurden. Dieses bedeutet aber, daß sich bei den modernen Datenverarbeitungssystemen in der Zentraleinheit 10 selbst Steuereinheiteneigenschaften befinden.The limitation of the central unit is in modern data processing systems no longer the computer itself, as was the case with the IBM systems 650 or 1401, but it is broader since the channels are first in the central unit for reasons of cost and then the complete integrated connection units 13 or 14 (in Fig. 1) were recorded. However, this means that in modern data processing systems control unit properties are located in the central unit 10 itself.

Für die Behandlung der Schaltkreisfehler ist also bei den vorstehend genannten bekannten Systemen von essentieller Bedeutung, in welchem Teil des Systems die Fehler auftreten: Fehler im Rechner werden anders behandelt als Fehler im Speicher 11 oder in einer integrierten Steuereinheit 13 oder 14, oder in einem Kanal 12, obwohl alle zu dem Komplex des Datenverarbeitungs-Systems gehören, der in herkömmlicher Weise als Zentraleinheit bezeichnet wird.For the treatment of circuit faults, see the above called known systems of essential importance in which part of the system the errors occur: Errors in the calculator are handled differently as an error in memory 11 or in an integrated control unit 13 or 14, or in a channel 12, although all belong to the complex of the data processing system, which is conventionally referred to as the central unit.

Tritt nun im Rechner ein Fehler auf, so fällt damit unter Umständen das zentrale Element aus, so daß in diesem Falle keine unmittelbare Reaktion auf den Fehler von dieser zentralen Steuerung aus erfolgen kann.If an error now occurs in the computer, this may be the case the central element out, so that in this case no immediate reaction to the error can take place from this central control.

Alle genannten bekannten Systeme sind daher zu allen oder einem Teil der nachstehend genannten Maßnahmen gezwungen: a.) einen Systemausfall zu melden oder b.) einen erneuten Start über das Betriebssystem zu veranlassen, oder c.) einen Wiederholungsversuch in und mit Hilfe der von der Störung betroffenen Zentraleinheit durchzuführen.All known systems mentioned are therefore all or a part the following measures: a.) to report a system failure or b.) initiate a restart via the operating system, or c.) one Repeat attempt in and with the aid of the central unit affected by the fault perform.

Insbesondere die Punkte a.) und c.) stellen keine optimale Lösung für die Feststellung des Fehlers (Fehlerdiagnose) und die Fehlerbeseitigung (Fehlertherapie) dar, da in allen Fällen für die Durchführung solcher Operationen auf die gestörte Zentraleinheit zurückgegriffen werden muß.In particular, points a.) And c.) Do not represent an optimal solution for the determination of the error (error diagnosis) and the elimination of the error (error therapy) because in all cases to carry out such operations on the disturbed Central unit must be used.

Ferner wird bei den eingangs erwähnten bekannten Systemen bei einer Instruktionswiederholung, die im Fehlerfall zur Beseitigung sporadischer Fehler vorgenommen wird, das Mikroprogramm am Beginn der für die laufende Maschineninstruktion verantwortlichen Interpretationsphase gestaltet.Furthermore, in the known systems mentioned at the outset, a Instruction repetition to eliminate sporadic errors in the event of an error is carried out, the microprogram at the beginning of the for the current machine instruction responsible interpretation phase.

Dieses übliche Verfahren hat, unabhängig davon, daß die Entscheidung für die Instruktionswiederholung von der gestörten Zentraleinheit getroffen wird, den Nachteil, daß von dem Zeitpunkt an, an dem die erste Veränderung eines Ausgangsoperanden erfolgte, keine Instruktionswiederholung mehr möglich ist.This usual procedure has, regardless of that, the decision for repeating instructions from the disturbed Central unit is taken, the disadvantage that from the time the first change of an output operand, instructions can no longer be repeated.

Die Aufgabe der vorliegenden Erfindung besteht nun darin, die Fehlerüberwachung und- Beseitigung in elektronischen Datenverarbeitungsanlagen wirkungsvoller und zuverlässiger zu machen.The object of the present invention is now the error monitoring and- elimination in electronic data processing systems more effective and to make it more reliable.

Für ein Verfahren in elektronischen Datenverarbeitungssystemen zur Fehleranalyse- und Beseitigung durch Wiederholung der fehlerhaft ausgeführten Instruktion besteht die Erfindung darin, daß mittels eines an das System, bestehend aus zentraler Steuerung und Verarbeitungsmoduln für peripherer Geräte, angeschlossenen Dienstrechners, der die Prüfschaltungen des Systems abfragt, im Störungsfall aus der vorliegenden Fehlerinformation eine Fehleranalyse der ausgefallenen Einheit durchgeführt und abhängig von Fehlerart und der gestörten, zuletzt durchgeführten Mikroinstruktion für die Instruktionswiederholung der gezielte Wiederstart dieser Einheit durchgeführt und überwacht wird.For a method in electronic data processing systems for Error analysis and elimination by repeating the incorrectly executed instruction The invention consists in that by means of a to the system consisting of central Control and processing modules for peripheral devices, connected service computers, which queries the test circuits of the system, in the event of a fault from the present one Error information, an error analysis of the failed unit is carried out and depending on the type of error and the disturbed microinstruction that was carried out last for the repetition of instructions, the targeted restart of this unit is carried out and is monitored.

Weitere Merkmale, vorteilhafter Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.Further features, advantageous configurations and developments the subject matter of the invention can be found in the subclaims.

Wie die nun folgende ebenfalls tabellarische Aufstellung des erfindungsgemäßen Verfahrens speziell für die Fehlerprotokollierung zeigt, besitzt dieses gegenüber den bekannten Verfahren wesentliche Vorteile, da es auf folgende Weise abgewickelt werden kann: 1. Die Protokollierung der Fehlerinformation erfolgt mit Hilfe eines von der Zentraleinheitenstörung unabhängigen Rechners, des Dienstrechners 20, wodurch eine sichere Abspeicherung und Protokollierung der Fehlerinformation möglich ist.Like the following also tabular list of the invention Procedure specifically for error logging shows, has this opposite the known method has significant advantages, since it is handled in the following way can be: 1. The logging of the error information takes place with the help of a independent of the central unit malfunction computer, the service computer 20, whereby secure storage and logging of the error information is possible.

2. Die Abspeicherung erfolgt auf separten Protokollspeichern, wodurch eine völlige Unabhängigkeit und stete Verfügbarkeit dieser Speicher für Protokollierungsaufgaben sicher gestellt ist. 2. The storage takes place on separate log memories, whereby Complete independence and constant availability of this memory for logging tasks is guaranteed.

3. Ferner ist die Durchführung des Protokollierverfahrens unabhängig vom Betriebssystem, so daß nicht erst Prioritäten bezüglich des Speicherverkehrs gesetzt, untersucht und Anforderungen zugeteilt werden müssen. 3. Furthermore, the implementation of the logging process is independent from the operating system, so that there are no priorities with regard to memory traffic set, examined and requirements assigned.

4. Keine Platzbelegung im Kundenspeicher. 4. No space occupancy in the customer memory.

5. Ferner ist über den reinen Protokollierungsvorgang hinaus es mit dem Dienstrechner möglich, auch die Umgebung des Fehlerortes zu überprüfen um auf diese Weise weitere Fehleranalysedaten zu gewinnen. 5. Furthermore, it is beyond the pure logging process the service computer can also check the area around the fault location in this way to gain further error analysis data.

Fig. 2 zeigt nun ein im wesentlichen modular aufgebautes modernes Datenverarbeitungssystem, in dem die Fehlerüberwachung und -Beseitigung gemäß der Erfindung durchführbar ist. Das wesentliche Merkmal dieses Datenverarbeitungssystems ist der sogenannte "Dienstrechner" (SVP) 20, der Sonderaufgaben zu erfüllen hat, wie beispielsweise die anfängliche Programmladung, wobei hier vorwiegend die Mikroprogrammladung der einzelnen Moduln 21 bis 26, von denen jeder in seinem Steuerspeicher ein eigenes Mikroprogramm für die Durchführung nur ihm spezifischer Operationen, auf die später noch näher eingegangen wird, enthält. Ferner führt dieser Dienstrechner 20 die Fehleranalyse der ausgefallenen Zentraleinheit CPU, im Fall der Fig. 2 bestehend aus dem Hauptspeicher (MS) 21, der Hauptspeichersteuereinheit (MSC) 22 und der Instruktionsverarbeitungseinheit (IPU) 23, durch, um abhängig von der Fehlerart und der gestörten, zuletzt durchgeführten Mikroinstruktion der zentralen Einheit, den gezielten Wiederstart dieser Einheit durchzuführen und zu überwachen.Fig. 2 now shows a substantially modular modern one Data processing system in which error monitoring and elimination according to the Invention is feasible. The essential feature of this data processing system is the so-called "service computer" (SVP) 20, which has to perform special tasks, such as the initial program load, whereby the microprogram load is predominant here of the individual modules 21 to 26, each of which has its own in its control memory Microprogram for carrying out only him specific operations on which later will be discussed in more detail below. This service computer 20 also carries out the error analysis the failed central processing unit CPU, in the case of FIG. 2 consisting of the main memory (MS) 21, the main storage control unit (MSC) 22 and the instruction processing unit (IPU) 23, depending on the type of error and the last performed error Micro-instruction of the central unit, the targeted restart of this unit perform and monitor.

Ferner gehört es zu den Aufgaben des Dienstrechners 20, eine Fehlerprotokollierung für das System durchzuführen, so daß spätere Wartungs- und überholungsarbeiten mit einem minimalen Zeit- und Geräteaufwand durchgeführt werden können.The tasks of the service computer 20 also include error logging for the system so that later maintenance and overhaul work can be carried out a minimal time and Device expenditure can be carried out.

Es ist an dieser Stelle bereits zu sehen, daß die von einem unabhängigen Rechner, wie dem Dienstrechner 20, durchgeführte Fehleranalyse eine nicht auch noch vom Fehler beeinflußte Wiederstart-Entscheidung treffen kann.It can already be seen at this point that the independent Computer, such as the service computer 20, does not also perform an error analysis can make a restart decision influenced by the error.

Bei dem in Fig. 2 dargestellten Datenverarbeitungssystem wird zum Zwecke der Instruktionswiederholung im Fehlerfall nur die fehlerhafte, d.h. die vom Fehler gestörte Mikroinstruktion wiederholt und nicht, wie es bei den eingangs erwähnten bekannten Systemen üblich ist, das Mikroprogramm am Beginn der für die laufende Maschineninstruktion verantwortlichen Interpretationsphase gestartet.In the data processing system shown in Fig. 2 is used for The purpose of repeating the instruction in the event of an error is only the faulty one, i.e. the Repeated microinstruction disturbed by the error and not, as was the case with the initially mentioned known systems is usual, the microprogram at the beginning of for the ongoing machine instruction responsible interpretation phase started.

In üblicher Weise beschäftigen sich alle Instruktionswiederholungsmethoden, das gilt auch für die Methoden, die bei einem Datenverarbeitungssystem gemäß Fig. 2 angewendet werden, mit den sogenannten zeitweisen oder sporadischen Fehlern. Dieses sind Störungen, die nicht durch total ausgefallene Stromkreiskomponenten verursacht werden, sondern sehr häufig durch äußere Einwirkungen, wie Netzstörungen und Störungen durch elektrische Funken, auf die Schaltkreise des Datenverarbeitungssystems hervorgerufen werden. Auch können labile Komponenten verantwortlich sein, die unter besonderen Zeit- oder Belastungsverhältnissen kurzzeitig ausfallen. Diese zeitweisen oder sporadischen Fehler machen, wie umfangreiche Messungen gezeigt haben, über 50 % der Schaltkreisstörungen aus.In the usual way, all instruction repetition methods deal with this also applies to the methods that are used in a data processing system according to FIG. 2, with the so-called intermittent or sporadic errors. This are faults that are not caused by completely failed circuit components but very often due to external influences such as network disturbances and disturbances caused by electrical sparks on the circuitry of the data processing system will. Also unstable components can be responsible under special Time or stress conditions fail for a short time. These intermittent or sporadic As extensive measurements have shown, errors make up over 50% of circuit malfunctions the end.

Permanente Fehler, bedingt durch total ausgefallene Schaltkreiskomponenten führen zu einer vorher für ein System oder ein Teil eines Datenverarbeitungssystems festgelegten Anzahl von Instruktionswiederholungsversuchen, bevor von der Zentraleinheit des Systems entschieden wird, daß es sich hier um einen nicht wiederholpngsfähigen Systemausfall handelt.Permanent errors, caused by completely failed circuit components lead to a previously for a system or part of a data processing system specified number of instruction retry attempts before by the central unit of the system it is decided that this is a non-repeatable one System failure.

In allen Fällen, in denen die Instruktionswiederholung gelingt, wird zusätzlich die gesamte Fehlerinformation gespeichert,- also wie vorher bereits erwähnt protokolliert, um in einer zu einem späteren Zeitpunkt durchführbaren Analyse den Fehlerort für den Wartungstechniker zu lokalisieren.In all cases in which the instruction repetition succeeds, will the entire error information is also stored - as already mentioned before logged in order to analyze the To locate the fault location for the maintenance technician.

Im folgenden werden die in einem Datenverarbeitungssystem nach Fig. 2 vorteilhafter ablaufenden Funktionen im Falle einer Störung der Instruktionsverarbeitungseinheit 23 oder der Zentraleinheit CPU der besseren Übersicht wegen tabellerisch erläutert: 1. Auftreten der Störung, Die Ausführung der von der Störung betroffenen Mikroinstruktion führt zu einem Fehler.In the following, in a data processing system according to Fig. 2 more advantageous running functions in the event of a fault in the instruction processing unit 23 or the central processing unit CPU for a better overview explained in tabular form: 1. Occurrence of the fault, the execution of the microinstruction affected by the fault leads to an error.

2. Der Ausführungsfehler wird durch Prüfschaltkreise der Instruktionsverarbeitungseinheit 23 erkannt. 2. The execution error is detected by checking circuitry of the instruction processing unit 23 recognized.

3. Diese Fehlerfeststellung führt zum sofortigen Stop der Instruktionsverarbeitungseinheit 23 und zu einer Fehlermeldung an den Dienstrechner 20. 3. This error detection leads to an immediate stop of the instruction processing unit 23 and an error message to the service computer 20.

4. Der Dienstrechner 20 erkennt den Ausfall der Instruktionsverarbeitungseinheit 23 anhand der Fehlermeldung dieser Einheit. (Während dieser Zeit können die mit "alten" Aufträgen beschäftigten Verarbeitungs-und Steuermqduln (IOPl bis IOPn) 24-26, die den Ein-/ Ausgabegeräten (1/01 bis I/On) 27-29 ihre Daten weiterhin- ungestört, d.h. unbeeinflußt mit der-Hauptspeichersteuereinheit 22 au#stauschen.) 5. Aufgrund der Ausfallerkennung der Instruktionsverarbeitungseinheit 23 ruft der Dienstrechner von seinem eigenen Speicher, beispielsweise einem extern angeschlossen Plattenspeicher, das Instruktionswiederholungsprogramm ab und lädt es in seinen eigenen Steuer speicher. 4. The service computer 20 recognizes the failure of the instruction processing unit 23 based on the error message of this unit. (During this time, the "old" orders employed processing and control modules (IOPl to IOPn) 24-26, the input / output devices (1/01 to I / On) 27-29 continue to receive their data undisturbed, i.e. exchange with the main memory control unit 22 without being affected.) 5. Due the failure detection of the instruction processing unit 23 calls the service computer from its own memory, for example an externally connected disk storage device, the instruction replay program and loads it into its own control memory.

6. Das Instruktionswiederholungsprogramm für die Instruktionsverarbeitungseinheit 23 führt dann im einzelnen folgende Schritte aus: 6.1 Sicherstellung der verfügbaren Fehlerinformation von der Instruktionsverarbeitungseinheit: Diese Information besteht aus: 6.1.1 Fehlerstart 6.1.2 Registerinhalten 6.1.3 zuletzt durchgeführter Mikroinstruktion 6.1.4 Mikroinstruktionsadresse 6.2 Analyse der Fehlerinformation und Entscheidung über die Wiederholungsfähigkeit dieser Fehlerart 6.3 Instruktionswiederholung der fehlerhaft ausgeführten Mikroinstruktion in der Instruktionsverarbeitungseinheit 23.6. The instruction replay program for the instruction processing unit 23 then carries out the following individual steps: 6.1 Securing the available Error information from the instruction processing unit: This information exists from: 6.1.1 Error start 6.1.2 Register contents 6.1.3 last microinstruction carried out 6.1.4 Micro instruction address 6.2 Analysis of the error information and decision about the repeatability of this type of error 6.3 Repetition of instructions for incorrectly executed microinstruction in the instruction processing unit 23

6.4 Start der Instruktionsverarbeitungseinheit 23 6.5 Beobachtung der Befehlsverarbeitungseinheit bezüglich einer fehlerfreien Ausführung der Mikroinstruktionen. 6.4 Start of the instruction processing unit 23 6.5 Observation the instruction processing unit with regard to an error-free execution of the microinstructions.

6.6 Durchführung einer bestimmten Anzahl von Instruktionswiederholungsversuchen im Falle eines sofort folgenden weiteren Fehlers. 6.6 Carrying out a certain number of retry attempts in the event of a further error immediately following.

6.7 Fällen der Entscheidung Maschinen Stop" wenn alle Instruktionswiederholungsversuche erfolglos verliefen. 6.7 Making the decision machine stop "if all instruction retries unsuccessful.

6.8 Benachrichtigung des Maschinenoperators über ein geeignetes Anzeigemedium. 6.8 Notification of the machine operator via a suitable display medium.

6.9 Protokollierung der gesamten Fehlerinformation auf dem externen Speicher des Dienstrechners 20, unabhängig davon, ob der Fehler wiederholungsfähig ist oder nicht. 6.9 Logging of the entire error information on the external Memory of the service computer 20, regardless of whether the error is repeatable is or not.

Die Sicherstellung der Fehlerinformation, die sogenannte Fehlerprotokollierung, dient der späteren Fehlerortbestimmung für den Wartungstechniker, der auch in allen Fällen zeitweiser Störungen, auch unter-Umständen vorbeugend, labile Schaltkreiskomponenten austauschen kann, um einem späteren Totalausfall zuvorzukommen.Ensuring the error information, the so-called error logging, is used to later determine the location of the fault for the maintenance technician, who also works in all Cases of temporary malfunctions, including preventive measures, unstable circuit components can exchange in order to anticipate a later total failure.

Bei den eingangs genannten bekannten Systemen wird der Protokollierungsvorgang im wesentlichen auf folgende Weise abgewickelt: 1. Wiederstart der Mikroprogramme am Beginn der Interpretationsphase der gerade durchgeführten Maschineninstruktion wenn das System mit der Möglichkeit der Instruktionswiederholungssteuerung ausgerüstet ist oder falls ein Ausgangsoperand bereits verändert wurde erfolgt ein Maschinen Stop" mit möglicherweise nachfolgendem Wiederstart mit Hilfe des sogenannten Prüfpunktes im Betriebssystem.In the known systems mentioned above, the logging process essentially handled in the following way: 1. Restart the microprograms at the beginning of the interpretation phase of the machine instruction that has just been carried out if the system is equipped with the possibility of instruction repetition control or if an output operand has already been changed, a machine takes place Stop "with a possible subsequent restart using the so-called test point in the operating system.

2. Falls ein Wiederstart erfolgreich war, erfolg#t das Lesen eines Fehlersicherstellungs- oder Protokollierprogramms von einem Speicher, in dem im allgemeinen auch das Betriebssystem gespeichert ist. 2. If a restart was successful, a is # read Error recovery or logging program from a memory in which the generally also the operating system is stored.

3. Es folgt dann das Schreiben eines Protokollsatzes mit den Angaben über die Fehlersituation in den unter 2. genannten Speicher. 3. A protocol record with the information is then written about the error situation in the memory mentioned under 2.

Während bisher Fehler oder ganz allgemein Störungen der Zentraleinheit diskutiert wurden, sollen im folgenden Störungen der Hauptspeic#ereinheit 22 und der Ein-/Ausgabegerätesteuerungen 24 bis 26 erläutert werden. Die Hauptspeichersteuereinheit 22 weist eine Besonderheit insofern auf, als sie niemals bei einer festgestellten Störung stoppt. Im Gegensatz zu den übrigen Verarbeitungsmoduln'besteht die Hauptspeichersteuereinheit 22 nur aus Schaltkreisen, sie besitzt also kein eigenes ladbares Steuerprogramm und sie ist deshalb die schnellste Einheit im System nach Fig. 2. Das setzt sie auch in die Lage, das Gesamtsystem mittels einer Prioritätsschaltung zu betreuen. Der Verzicht auf ein eigenes Steuerprogramm macht die Hauptspeichersteuereinheit sehr schnell und programmunabhängig. Wenn in ihren Fehlerprüfkreisen ein Fehler festgestellt wird, dann sorgt sie für die Abspeicherung der Fehlerkonstellation in Schaltkreisregistern ohne seine Verarbeitungsoperation zu stoppen.While so far errors or general malfunctions of the central unit were discussed, malfunctions of the main storage unit 22 and of the input / output device controls 24 to 26 are explained. The main memory controller 22 has a peculiarity in that it is never used in a noted Fault stops. In contrast to the other processing modules, there is the main memory control unit 22 only from circuits, so it does not have its own loadable control program and it is therefore the fastest unit in the system of Fig. 2. That sets it also able to look after the entire system by means of a priority circuit. The main memory control unit dispenses with its own control program very fast and independent of the program. If there is an error in their error checking circles is determined, then it ensures that the error constellation is stored in circuit registers without stopping its processing operation.

Dieses Merkmal ist deshalb besonders vorteilhaft, weil der festgestellte Störungsfall beispielsweise durch den Dialog mit einer bestimmten Steuereinheit 24 bis 26 für die Ein-/Ausgabegeräte 27 bis 29 verursacht sein könnte. Wenn nun die Hauptspeichersteuereinheit 22 grundsätzlich bei jeder Störung gestoppt würde, dann würden auch unberechtigterweise andere Ein-/Ausgabegeräte 27 bis 29, die überlappt und verzahnt ihre Daten an den Hauptspeicher 21 liefern, von diesem Stop betroffen. Tritt aber eine wirkliche Störung des Hauptspeichers 21 oder der Hauptspeichereinheit 22 ein, dann wird diese Störung durch die Prüfschaltkreise entdeckt und in Registern gespeichert. Diese Register speichern dann nicht nur die Störungsart selbst, sondern noch zusätzliche, für eine Analyse notwendige Fehlerdaten. Der Dienstrechner 20, der das Gesamtsystem ständig hinsichtlich möglicher Störungen überwacht und betreut, stellt diese Störung des Hauptspeichers 21 und/oder der Hauptspeichersteuereinheit 22 fest und entnimmt den genannten Registern nun die Fehlerdaten für die bereits erläuterte Protokollierung in seinen Speicher. Bei einer derartigen Störung wird zunächst keine weitere Analyse durchgeführt, um nicht den Hauptspeicher, der sich in einem Dialog mit anderen Ein-/Ausgabegeräten befindet, zu stören. Der Hauptspeicher wird also bei einer Störung des Gebietes Hauptspeicher-Hauptspeichersteuereinheit nicht gestoppt, weil sonst noch laufende Ein-/Ausgabeoperationen die nicht gestört sind, grundlos beeinträchtigt würden.This feature is particularly advantageous because of the established In the event of a malfunction, for example, through dialog with a specific control unit 24 to 26 for the input / output devices 27 to 29 could be caused. If now the main memory control unit 22 would in principle be stopped in the event of any malfunction, then other input / output devices 27 to 29 that overlap would also be unauthorized and deliver their data to the main memory 21, affected by this stop. However, if there is a real malfunction of the main memory 21 or the main memory unit 22 a, then this fault is detected by the test circuitry and stored in registers saved. These registers then not only store the type of fault itself, but also additional error data necessary for an analysis. The service computer 20, who constantly monitors and looks after the entire system with regard to possible malfunctions, represents this malfunction of the main memory 21 and / or the main memory control unit 22 and now takes the error data for the already explained logging into its memory. In the event of such a fault initially no further analysis is performed to avoid the main memory that is located is in a dialog with other input / output devices. The main memory thus becomes main memory-main memory control unit in the event of a fault in the area not stopped because otherwise it is still ongoing I / O operations which are not disturbed, would be impaired for no reason.

Die Steuereinheiten 24 bis 26 für die Ein-/Ausgabegeräte 27 bis 29, die ebenfalls zu den Verarbeitungsmoduln des Systems nach Fig. 2 gerechnet werden, sind überwiegend für bestimmte Ein-/Ausgabeoperationen eingesetzt, so daß sich eine Störung immer nur gezielt in einem bestimmten Bereich auswirkt. Diese Bereiche sind der Karten-/Ausgabebereich der Druckerbereich, der Plattenspeicherbereich oder der Bandspeicherbereich. Eine Störung dieser Steuergeräte für die Ein-/Ausgabegeräte, wird, wie Fig. 2 zeigt, über das Verbindungsleitungsnetz des Dienstrechners 20 von diesem festgestellt, so daß er nun mit seinem Fehlerprogramm, das kann ein Fehleranalyse und/oder ein Fehlerbeseitigungsprogramm sein, in die gestörte Steuereinheit eingreifen kann. Dieser Eingriff sieht vor, daß diese gestörte Steuereinheit voll durchgeprüft und die Fehlerdaten ebenfalls sichergestellt und protokolliert werden.The control units 24 to 26 for the input / output devices 27 to 29, which are also included in the processing modules of the system according to FIG. 2, are mainly used for certain input / output operations, so that a Disturbance only has a targeted effect in a certain area. These areas are the card / output area the printer area, the disk storage area or the Tape storage area. A malfunction of these control devices for the input / output devices, is, as FIG. 2 shows, via the trunk network of the service computer 20 of found this, so that he can now run an error analysis with his error program and / or a troubleshooting program to intervene in the faulty control unit can. This intervention provides that this malfunctioning control unit is fully checked and the error data are also secured and logged.

Da während dieser Zeit weder die Instruktionsverarbeitungseinheit 23, die Hauptspeichersteuereinheit 22 noch die übrigen Steuereinheiten für die Ein-/Ausgabegeräte gestört sind, kann also, mit Ausnahme der einen gestörten Verarbeitungseinheit für ein Ein-/Ausgabegerät, ein volles Programm abgewickelt werden. Das Betriebssystem eines in Fig. 2 dargestellten Datenverarbeitungssystems erfährt diesen Ausfall entweder, wenn der Dienst rechner 20 nach Durchführung der Protokollierung der Fehlerinformation sich an die Instruktionsverarbeitungseinheit 23 meldet, um stellvertretend für die gestörte Steuereinheit diese Mitteilung jetzt an das Betriebssystem weiterzuleiten oder wenn sich das Betriebssystem selbst an die gestörte Steuereinheit wendet.Since during this time neither the instruction processing unit 23, the main memory control unit 22 and the other control units for the input / output devices are disturbed, so, with the exception of a disturbed processing unit for an input / output device, a full program can be handled. The operating system a data processing system shown in Fig. 2 experiences this failure either, when the service computer 20 after the logging of the error information has been carried out reports to the instruction processing unit 23 in order to represent the faulty control unit will now forward this message to the operating system or when the operating system itself turns to the malfunctioning control unit.

Wie. die bisherigen Ausführungen gezeigt haben, ist, aufgrund der Verlagerung der Aufgaben, die sich im Zusammenhang mit der Fehlerprüfung und Fehlerbeseitigung in elektronischen Datenverarbeitungsanlagen ergeben, in den sogenannten Dienstrechner 20 die ständige Verfügbarkeit und Fehlerfreiheit dieses Rechners von essentieller Bedeutung. Da dieser Dienstrechner im Vergleich zu den Zentraleinheiten der eingangs genannten bekannten Datenverarbeitungssysteme nur sehr wenig Schaltkreise besitzt, die darüber hinaus in einem Umfang intensiver geprüft und überwacht werden, wie das bei Großsystemen aus Kostengründen nicht möglich ist, liegt seine Zuverlässigkeit weit über den bisher bekannten Systemen.As. the previous statements have shown is, due to the Relocation of the tasks related to error checking and troubleshooting result in electronic data processing systems, in the so-called service computer 20 the constant availability and freedom from errors of this computer are essential Meaning. Since this service computer in comparison to the central units of the aforementioned known data processing systems has very little circuitry over it can also be checked and monitored more intensively, as is the case with large systems is not possible for reasons of cost, its reliability is far higher than before known systems.

Zum anderen wird der Dienstrechner schon während des Ladevorgangs intensiv überprüft. Bei dem in Fig. 2 dargestellten Datenverarbeitungssystem dient, wie bereits erwähnt wurde, der Dienstrechner nach dem Einschalten des Systems zur Durchführung des Ladeprozesses der intelligenten Verarbeitungsmoduln, wobei er selbst bereits sehr intensiv geprüft wird. Da sein Schaltkreisumfang relativ gering ist, sind auch seine Störungen viel leichter lokalisierbar, als bei Systemen mit komplizierten Schaltkreisstrukturen.On the other hand, the service computer is already switched on during the charging process intensively checked. In the data processing system shown in FIG. 2, as already mentioned, the service computer after switching on the system for Execution of the loading process of the intelligent processing modules, whereby he himself is already being examined very intensively. Since its circuit size is relatively small, its faults are also much easier to localize than in systems with complex ones Circuit structures.

Störungen an und in den Ein-/Ausgabegeräten werden von diesen selbst oder in den Schaltkreisen oder Mikroprogrammroutinen in der zugeordneten Steuereinheit erkannt.Malfunctions on and in the input / output devices are taken care of by them or in the circuits or microprogram routines in the associated control unit recognized.

Die Fehlermeldung an den Dienstrechner wird ebenfalls vom Mikroprogramm der Steuereinheit durchgeführt, die dem gestörten Ein-/ Ausgabegerät zugeordnet ist. Alle über dem Ein-/Ausgabegerätefehler verfügbaren Fehlerdaten werden in einem Dialog zwischen der Steuereinheit und dem Dienstrechner dem letzteren über mittelt, bevor das Betriebssystem von der Steuereinheit über die Fehlersituation informiert wird.The error message to the service computer is also sent by the microprogram carried out by the control unit assigned to the faulty input / output device is. All error data available via the input / output device error are stored in a Dialog between the control unit and the service computer transmitted to the latter, before the operating system informs the control unit about the error situation will.

Die Fehlerdaten des Ein-/Ausgabegerätes werden in gleicher Weise, wie die Fehlerdaten der Schaltkreisstörungen in den Speicher des Fehlerrechners protokolliert, um einer späteren Fehlerlokalisierung zu dienen.The error data of the input / output device are displayed in the same way, like the fault data of the circuit faults in the memory of the fault computer logged for later error localization.

Claims (6)

PATENTANSPRÜCHE PATENT CLAIMS Verfahren in elektronischen Datenverarbeitungssystemen zur Fehleranalyse und-Beseitigung durch Wiederholung der fehlerhaft ausgeführten Instruktion, dadurch gekennzeichnet, daß mittels eines an das System, bestehend aus zentraler Steuerung (CPU; Fig. 2) und Verarbeitungsmoduln (IOPl bis IOPn) für periphere Geräte (1/01 bis I/On), angeschlossenen Dienstrechners (SVP), der die Prüfschaltungen (z.B. Paritätsprüfschaltungen) des Systems abfragt, im Störungsfall aus der vorliegenden Fehlerinformation eine Fehleranalyse der ausgefallenen Einheit (21 bis 29) durchgeführt und abhängig von der Fehlerart und der gestörten, zuletzt durchgeführten Mikroinstruktion für die Instruktionswiederholung der gezielte Wiederstart dieser Einheit durchgeführt und überwacht wird.Method in electronic data processing systems for error analysis and elimination by repeating the incorrectly executed instruction, thereby characterized in that by means of a to the system consisting of central control (CPU; Fig. 2) and processing modules (IOPl to IOPn) for peripheral devices (1/01 to I / On), connected service computer (SVP) that runs the test circuits (e.g. parity check circuits) of the system, in the event of a malfunction, a Error analysis of the failed unit (21 to 29) carried out and depending on the type of error and the disturbed, last executed microinstruction for the Instruction repetition of the targeted restart of this unit carried out and is monitored. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß vor dem Wiederstart der gestörten Einheit durch die Fehleranalyse des Dienstrechners (SVI) die Wiederholungsfähigkeit der fehlerhaft ausgeführten Mikroinstruktion festgestellt wird. 2. The method according to claim 1, characterized in that before Restart of the malfunctioning unit through the error analysis of the service computer (SVI) the repeatability of the incorrectly executed microinstruction is determined will. 3. Verfahren nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, daß der Wiederstart der fehlerhaft ausgeführten Mikroinstruktion am Beginn der Interpretationsphase erfolgt. 3. The method according to claim 1 and / or 2, characterized in that that the restart of the incorrectly executed microinstruction at the beginning of the interpretation phase he follows. 4. Verfahren nach einem oder mehreren der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Fehlerprotokollierung der Fehler#rmation für alle Einheiten (21 bis 29) vom Dienstrechner (SVP) gesteuert und die Fehlerinformation in einem, dem Dienstrechner zugeordneten Speicher aufbewahrt wird. 4. The method according to one or more of claims 1 to 3, characterized characterized that the error logging of the error # rmation for all units (21 to 29) controlled by the service computer (SVP) and the error information in one, the service computer allocated memory is kept. 5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der Dienstrechner (SVP) für die ausgefalfene Einheit (21 bis 29) die Störunysmeldung an das Betriebssystem des Datenverarbeitungssystems vornimmt.5. The method according to one or more of claims 1 to 4, characterized characterized in that the service computer (SVP) for the failed unit (21 to 29) reports the fault to the operating system of the data processing system. 6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß der Dienstrechner (SVP) die Fehleranalyse nicht auf die unmittelbare Fehlermeldung (z.B. eines Prüfschaltkreises) abstützt, sondern auch in die Fehlerinformation die Zustände der benachbarten Schaltungen (z.B. Register, die Ausgangsinformation enthalten) aufnimmt.6. The method according to one or more of claims 1 to 5, characterized characterized in that the service computer (SVP) does not carry out the error analysis on the immediate Error message (e.g. of a test circuit), but also in the error information the states of the neighboring circuits (e.g. registers, the output information included).
DE19722237925 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines Ceased DE2237925B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19722237925 DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines
IT2561173A IT1006591B (en) 1972-08-02 1973-06-20 EQUIPMENT FOR ANALYSIS AND ELIMINATION OF ERRORS IN DATA PROCESSING SYSTEMS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19722237925 DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines

Publications (2)

Publication Number Publication Date
DE2237925A1 true DE2237925A1 (en) 1974-02-21
DE2237925B2 DE2237925B2 (en) 1975-11-27

Family

ID=5852421

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722237925 Ceased DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines

Country Status (2)

Country Link
DE (1) DE2237925B2 (en)
IT (1) IT1006591B (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0048991B1 (en) * 1980-09-30 1984-05-30 Siemens Aktiengesellschaft Method and device for the treatment of interruption conditions during the operating sequence in microprogramme-controlled data-processing systems
DE10243145B4 (en) * 2002-09-17 2006-01-26 Siemens Ag Method for monitoring a hardware driver output

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0048991B1 (en) * 1980-09-30 1984-05-30 Siemens Aktiengesellschaft Method and device for the treatment of interruption conditions during the operating sequence in microprogramme-controlled data-processing systems
DE10243145B4 (en) * 2002-09-17 2006-01-26 Siemens Ag Method for monitoring a hardware driver output
US7185230B2 (en) 2002-09-17 2007-02-27 Siemens Aktiengesellschaft Method for monitoring a driver output

Also Published As

Publication number Publication date
DE2237925B2 (en) 1975-11-27
IT1006591B (en) 1976-10-20

Similar Documents

Publication Publication Date Title
DE3206891C2 (en)
DE3587520T2 (en) User interface processor for computer network.
EP0238841B1 (en) Error-protected multiprocessor controller having a high availability to a switching system, and method for memory configuration operation of this centraller
DE2328058C2 (en) Fault diagnosis device in a digital data processing arrangement
DE1524239B2 (en) CIRCUIT ARRANGEMENT FOR MAINTAINING ERROR-FREE OPERATION IN A COMPUTER SYSTEM WITH AT LEAST TWO COMPUTER DEVICES WORKING IN PARALLEL
DE3786381T2 (en) Test method and device for a distributed processing system.
DE2225841C3 (en) Method and arrangement for systematic error checking of a monolithic semiconductor memory
CH654943A5 (en) TESTING DEVICE FOR MICRO PROGRAMS.
DE19509363A1 (en) Parallel processor system and method for switching between groups of parallel processors
EP0236803A1 (en) Method for the operation of a fault-protected and highly available multiprocessor central controller of a switching system
DE2210325A1 (en) Data processing system
DE2442847A1 (en) TEST AND DIAGNOSTIC ARRANGEMENT FOR A DATA PROCESSING UNIT
DE3322509A1 (en) SELF-TEST SUBSYSTEM AND METHOD FOR A CORE REACTOR PROTECTION SYSTEM
DE2425757A1 (en) TEST SYSTEM FOR A DATA PROCESSING UNIT
DE2461592A1 (en) ARRANGEMENT FOR PERFORMING MAINTENANCE OPERATIONS IN A DATA PROCESSING SYSTEM
DE2364323C2 (en) Method for handling interruption conditions in a data processing system
EP0048991A1 (en) Method and device for the treatment of interruption conditions during the operating sequence in microprogramme-controlled data-processing systems
DE3037475A1 (en) INTERFACE CIRCUIT ARRANGEMENT FOR A DATA PROCESSING SYSTEM
DE3689491T2 (en) Monitoring circuit.
DE3138989A1 (en) ADDITIONAL FUNCTIONAL UNIT IN A MICROPROCESSOR, MICROPROCESSOR SYSTEM AND METHOD FOR ITS OPERATION
DE2237925A1 (en) PROCEDURE IN ELECTRONIC DATA PROCESSING SYSTEMS FOR ERROR ANALYSIS AND ELIMINATION
DE2823457C2 (en) Circuit arrangement for error monitoring of a memory of a digital computer system
DE10047966A1 (en) Logic instruction verification for electronic control unit in vehicle, involves comparing ID and execution timing of correct and instantaneous executed logic operations
DE3502387A1 (en) Method for monitoring microprocessor systems and stored-program controls
EP2250560B1 (en) Method for increasing the robustness of computer systems and computer system

Legal Events

Date Code Title Description
BHV Refusal