DE2237925B2 - Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines - Google Patents

Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines

Info

Publication number
DE2237925B2
DE2237925B2 DE19722237925 DE2237925A DE2237925B2 DE 2237925 B2 DE2237925 B2 DE 2237925B2 DE 19722237925 DE19722237925 DE 19722237925 DE 2237925 A DE2237925 A DE 2237925A DE 2237925 B2 DE2237925 B2 DE 2237925B2
Authority
DE
Germany
Prior art keywords
error
processing module
fault
service computer
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19722237925
Other languages
German (de)
Other versions
DE2237925A1 (en
Inventor
Arnold Dipl.- Ing. 7530 Pforzheim Blum
Kurt 7036 Schoenaich Fritsch
Hellmuth 7036 Schoenaich Geng
Volkmar Dipl.-Ing. 7032 Sindelfingen Goetze
Johann Hajdu
Fritz 7261 Gechingen Koederitz
Hans 7031 Oberjesingen Lampe
Claus Dr. Mohr
Werner 7031 Doeffingen Pohle
Leopold Dipl.-Ing. 7030 Boeblingen Reichl
Peter 7036 Schoenaich Rudolph
Franco 7030 Boeblingen Simonini
Petar 7031 Magstadt Skuin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Deutschland GmbH
Original Assignee
IBM Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Deutschland GmbH filed Critical IBM Deutschland GmbH
Priority to DE19722237925 priority Critical patent/DE2237925B2/en
Priority to IT2561173A priority patent/IT1006591B/en
Publication of DE2237925A1 publication Critical patent/DE2237925A1/en
Publication of DE2237925B2 publication Critical patent/DE2237925B2/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/141Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Abstract

The system is for the detection and correction of sporadic errors due to power system interruptions, interference effects and so on, but cannot deal with permanent hardware failures. More than 50% of failures however fall within its scope. When an error of some kind is detected by this unit, the program is halted and an auxiliary computer is alerted. This loads an appropriate data retrieval and repetition routine into the main computer and restarts is in an appropriate manner, so that the fault is corrected. If the fault reoccurs, then a hardware fault is suspected and the system is brought to a halt.

Description

Die Erfindung betrifft ein Verfahren zur Fehleranalyse und zur Fehlerbeseitigung in elektronischen Datenverarbeitungsanlagen unter Einsatz eines Dienstrechners, der die Prüfschaltungen der Verarbeiiungsnioduln der Anlage abfragt, im Störungsfall aus der vorliegenden Fehlerinformation eine Fehleranalyse des ausgefallenen Verarbeitungsrnoduls durchführt, die Wiederholbarkeit der Instruktion prüft und den Wiederstart der Datenverarbeitungsanlage vornimmt.The invention relates to a method for error analysis and for error elimination in electronic data processing systems using a service computer that runs the test circuits for the processing modules the system queries, in the event of a fault, an error analysis of the failed one from the available error information Processing module, checks the repeatability of the instruction and restarting the Data processing system makes.

Elektronische Datenverarbeitungsanlagen arbeiten auf Grund von sporadisch oder permanent auftretenden Fehlern nicht immer einwandfrei, so daß diese Anlagen bezüglich des Auftretens dieser Fehler überwacht werden müssen.Electronic data processing systems work on the basis of sporadic or permanent occurrences Errors are not always correct, so that these systems monitor the occurrence of these errors Need to become.

Die Fehler werden im allgemeinen in besonderen Prüfschaltungen, die einzelnen Verarbeitungs- und Übertragungsabschnitten zugeordnet sind, automatisch festgestellt und je nach technischem Aufwand auf der Schaltkreisseite, beispielsweise durch die Benutzung aufwendiger Codes und/oder durch die Verwendung spezieller Fehlerprogramme auch automatisch korrigiert. The errors are generally in special test circuits, the individual processing and Transmission sections are assigned, automatically determined and depending on the technical effort on the Circuit side, for example through the use of complex codes and / or through the use special error programs also corrected automatically.

Bei den zuletzt genannten Fehlerprüfprogrammen werden zur Beseitigung sporadischer Fehler Instruktionen, die ein fehlerhaftes Ergebnis liefern, so oft wiederholt, bis dieser Fehler nicht mehr auftritt. Wenn nach einer vorgebbaren Anzahl solcher Wiederholungen der Fehler immer noch vorliegt, dann handelt es sich mit großer Wahrscheinlichkeit nicht mehr um einen sporadischen, sondern um einen permanenten Fehler, der auf einem Schaltungsdefekt beruht (vgl. DT-AS 12 58 635).With the last-mentioned error checking programs, instructions are given to eliminate sporadic errors, which provide an incorrect result, repeated until this error no longer occurs. If after If the error is still present for a predeterminable number of such repetitions, then it is with It is very likely that it is no longer a sporadic, but a permanent error that occurs a circuit defect is based (see. DT-AS 12 58 635).

Die Behandlung der Fehler richtet sich in hohem Maße nach der Struktur eines elektronischen Datenverarbeitungssystems. F i g. I zeigt einen typischen Systemaufbau, wie er vom IBM System/360 her bekannt ist, bestehend aus der zentralen Recheneinheit (CPU) ίο! dem Hauptspeicher (MS) 11, der auch extern erweitert sein kann, den typischen Kanälen (CH) 12, deren Schaltkreise und Mikroprogramm voll in der zentralen Recheneinheit integriert sf:in können und den Steuerungen (CUI) 13 und 14, die in der zentralen Rechen einheit 10 integriert sind und die Steuerungaufgaben der Ein-/Ausgabegeräte 15, 16 übernehmen. Meistens ist jedoch eine externe Kanalsteuereinheit (CU) 17 vorhanden, über die die Ein-/Ausgabegeräte 18, 19 an die Kanalsteuerung 12 angeschlossen sind.The handling of errors depends to a large extent on the structure of an electronic data processing system. F i g. I shows a typical system structure as it is known from the IBM System / 360, consisting of the central processing unit (CPU) ίο! the main memory (MS) 11, which can also be expanded externally, the typical channels (CH) 12, whose circuits and microprogram are fully integrated in the central processing unit and the controls (CUI) 13 and 14, which are in the central Computing unit 10 are integrated and take over the control tasks of the input / output devices 15, 16. In most cases, however, there is an external channel control unit (CU) 17 via which the input / output devices 18, 19 are connected to the channel control 12.

In zunehmendem Maße setzen sich die integrierten Anschlußeinheiten CUl, I, wie beispielsweise auch beim IBM System/370, durch, da sie in vieler Hinsicht vorteilhafter sind und die Aufgaben und Eigenschaften eines Kanals 12 und einer Steuereinheit 17 in sich vereinigen. The integrated connection units CU1, I are becoming increasingly popular, for example also in the IBM System / 370, since they are more advantageous in many respects and combine the tasks and properties of a channel 12 and a control unit 17.

Die Fehler, um die es sich hier handelt, sind reine Schaltkreis- oder Logikfehler, die in den Schaltkreisen und der Logik auftreten und durch ebensolche Schallkreise entdeckt werden.The mistakes that are at issue here are pure Circuit or logic errors occurring in the circuits and logic and by such sound circuits getting discovered.

Die Begrenzung der Zentraleinheit ist bei modernen Datenverarbeitungsanlagen nicht menr der Rechner selbst, wie noch bei den IBM Systemen 650 oder 1401, sondern sie ist weiter gefaßt, da in die Zentraleinheit zuerst aus Kostengründen die Kanäle und dann die vollständigen integrierten Anschlußeinheiten 13 oder 14 (in F i g. 11) aufgenommen wurden. Dieses bedeutet aber, daß sich bei den modernen Datenverarbeitungssystemen in der Zentraleinheit 10 selbst Steuereinheiteneigenschaften befinden.In modern data processing systems, the limitation of the central unit is no longer the computer itself, as with the IBM systems 650 or 1401, but it is more broadly defined, since in the central unit first, for cost reasons, the channels and then the complete integrated connection units 13 or 14 (in Fig. 11) were included. This means but that in modern data processing systems in the central unit 10 itself control unit properties are located.

Für die Behandlung der Schaltkreisfehler ist also bei den vorstehend genannten bekannten Systemen von essentieller Bedeutung, in welchem Teil des .Systems die Fehler auftreten:For the treatment of the circuit faults is therefore in the aforementioned known systems of essential importance in which part of the system the errors occur:

Fehler im Rechner werden anders behandelt als Fehler im Speicher 11 oder in einer integrierten Steuereinheit 13 oder 14, oder in einem Kanal 12, obwohl alle /u dem Kompex des Datenverarbeitungssystems gehören, der in herkömmlicher Weise als Zentraleinheit bezeichnet wird.Errors in the computer are handled differently than errors in memory 11 or in an integrated control unit 13 or 14, or in a channel 12, although all / u belong to the complex of the data processing system, which is conventionally referred to as the central unit.

Tritt nun im Rechner ein Fehler auf, so fällt damit unter Umständen das zentrale Element aus, so daß in diesem Falle keine unmittelbare Reaktion auf den Fehler von dieser zentralen Steuerung aus erfolgen kann.If an error occurs in the computer, the central element may fail, so that in In this case, there can be no immediate reaction to the error from this central controller.

Alle genannten bekannten Systeme sind daher zu allen oder einem Teil der nachstehend genannten Maßnahmen gezwungen:All known systems mentioned are therefore to all or part of the measures mentioned below forced:

a) einen Systemausfall zu melden oder b) einen erneuten Start über das Betriebssystem zu veranlassen odera) report a system failure or b) initiate a restart via the operating system or

c) einen Wiederholungsversuch in und mit Hilfe der von der Störung betroffenen Zentraleinheit durchzuführen. c) to make a retry attempt in and with the aid of the central unit affected by the fault.

Insbesondere die Punkte a) und c) stellen keine optimale Lösung für die Feststellung des Fehlers (Fehlerdiagnose) und die Fehlerbeseitigung (Fehlertherapie) dar, da in allen Fällen für die Durchführung solcher Operationen auf die gestörte Zentraleinheit zurückgegriffen werden muß.In particular, points a) and c) are not optimal Solution for identifying the error (error diagnosis) and eliminating it (error therapy) because in all cases the disturbed central unit is used to carry out such operations must become.

Ferner wird bei den eingangs erwähnten bekannten Systemen bei einer Instruktionswiederholung, die im Fehlerfaü zur Beseitigung sporadischer Fehler vorgenommen wird, das Mikroprogramm am Beginn der für die laufende Maschineninstruktion verantwortlichen Interpretationsphase gestaltet.Furthermore, in the case of the known systems mentioned at the outset, an instruction repetition which is in the Fehlerfaü to eliminate sporadic errors is carried out, the microprogram at the beginning of the for the current machine instruction is responsible for the interpretation phase.

Dieses übliche Verfanren hat, unabhängig davon, daßThis usual misleading has, regardless of that

die Entscheidung für die Instruktionswiederholung von der gestörten Zentraleinheit getroffen wird, den Nachteil, daß von dem Zeitpunkt an, an dem c ie erste Veränderung eines Ausgangsoperanden erfolgte, keine Instruktionswiederholung mehr möglich ist.the decision to repeat the instruction is made by the disturbed central unit, the disadvantage that from the point in time at which the first change to an output operand took place, no instruction repetition took place more is possible.

Der Stand der Technik zeigt (vgl. DT-OS 20 48 473), daß bereits elektronische Datenverarbeitungsanlagen beschrieben wurden, die über einen Dienstrechner verfügen, der eine Fehleranalyse, -abspeicherung, einen Wiederstart und eine Selbsterregung des korrekten Resultats vornehmen kann, wenn das angeschlossene Hauptverarbeitungssystem diesen Fehler von sich aus nicht mehr korrigieren kann.The prior art shows (see. DT-OS 20 48 473) that electronic data processing systems have been described, which have a service computer, the error analysis, storage, a Restart and a self-excitement of the correct Result can make if the connected main processing system this error on its own can no longer correct.

Wenngleich eine solche Datenverarbeitungsanlage bereits wesentliche Verbesserungen im Rahmer, einer höheren Verfügbarkeit im Fehlerfall und auch bei der Fehleranalyse mit sich bringt, ist sie öoch nicht von dem Nachteil frei, den Wiederstart und die Gewinnung von Fehlanalysedaten nicht optima! zu gestalten.Although such a data processing system already has significant improvements in the framework, one higher availability in the event of an error and also in error analysis, it is not yet of the disadvantage that the restart and the acquisition of incorrect analysis data are not optimal! to design.

Auch die in der DT-OS 15 74 598 beschriebene Datenverarbeitungsanlage vermag den weitgehend unterbrechungsfreien Betrieb und eine wirkungsvolle Fehleranalyse aus den gleichen, vorstehend erwähnten Gründen nicht optimal zu lösen, sie ist außerdem noch mit dem Nachteil behaftet, daß sie sich, nur mit erhebli- *5 ehern technischen Aufwand realisieren läßt, da sie aus zwei gleichen Anlagen besieht, die von einer beide bedienenden Einrichtung gesteuert wird.Also the data processing system described in DT-OS 15 74 598 is capable of largely uninterrupted operation and effective error analysis not to be solved optimally for the same reasons mentioned above, it is also still afflicted with the disadvantage that, only with considerable- * 5 Either technical effort can be realized, since it consists of two identical systems, the one that serves both Facility is controlled.

In der DT-PS 12 58 635 ist eine datenverarbehende Maschine beschrieben, die auf Fehler unterschiedlicher Art spezifisch reagiert sowie die generelle Wiederholbarkeit von Befehlen vor der Ausführung einer Wiederholungsoperalion prüft.In the DT-PS 12 58 635 a data processing machine is described, which is different for errors Kind reacts specifically as well as the general repeatability of commands before the execution of a Repeat operalion checks.

Obwohl hier bereits eine fehlet spezifische Fehlerbehandlung vorgeschlagen wird, leidet diese Lösung immer noch unter dem Mangel, daß nicht auch eine aggregatspezifische Fehlerbehandlung vorgenommen wird. Außerdem führt die Prüfung der Wiederholbarkeit einer Instruktion vor deren tatsächlicher Wiederholung aus Angaben darüber, ob wichtige Ausgangsdaten für diese Instruktionswiederholung bereits zerstört worden sind oder nicht, noch nicht zu einer optimalen Fehlerbehandlung, da die strukturellen Gegebenheiten der Maschine in diese Betrachtung nicht einbezogen sind. Dieses ist aber insbesondere bei modular aul'gebauten Datenverarbeitungsanlagen von Nachteil, da hier die Wiederholbarkeit von fehlerhaft ausgeführten Instruktionen auch davon abhängt, in welchem Verarbeitungsmodul der Fehler aufgetreten ist.Although a specific error handling is already suggested here, this solution always suffers still under the deficiency that an aggregate-specific error handling was not carried out will. In addition, the test of the repeatability of an instruction leads to its actual repetition from information on whether important output data for this instruction repetition has already been destroyed have been or not, not yet an optimal error handling, because of the structural conditions of the machine are not included in this consideration. However, this is particularly the case with modular structures Data processing systems disadvantageous, since here the repeatability of incorrectly executed Instructions also depend on which processing module the error occurred in.

In der DT-AS 19 01 228 ist eine weitere Einrichtung zur Wiederholung von Operationen bei Auftreten eines Fehlers beschrieben, bei der die Inslruktionswiederholung sehr dicht vor derjenigen Stelle begonnen wird, an der ein Fehler festgestellt wurde.In the DT-AS 19 01 228 there is another device for repeating operations when one occurs Error described in which the repeated instruction is started very close to that point that an error was detected.

Auch diese Einrichtung zur Operationswiederholung leidet unter dem Mangel, daß sie für die Fehlerbehandlung weder die Umgebungsdaten des Fehlers noch strukturelle Gegebenheiten der Datenverarbeitungsanlage berücksichtigt.This re-operation device also suffers from the defect that it is used for error handling neither the environmental data of the error nor the structural conditions of the data processing system considered.

Es ist daher die Aufgabe der vorliegenden Erfindung, eine Lösung anzugeben, mit deren Hilfe eine optimale Fehlerbehandlung möglich ist, die wirklich nur dann zu einem Maschinenstopp führen soll, wenn die Anlage unter keinen Umständen mehr in der Lage ist, das korrekte Resultat eines Verarbeilungsschrittes selbst zu errechnen. Außerdem soll sie für eine optimale Fehleranalyse auch solche Daten bereitstellen, die aus der Umgebung des Fehlers gewonnen wurden und damit eine bessere Beurteilung der Fehlerursache gestatten.It is therefore the object of the present invention to provide a solution with the aid of which an optimal one Error handling is possible, which should really only lead to a machine stop when the system under no circumstances is able to get the correct Calculate the result of a processing step yourself. It is also intended for an optimal error analysis also provide such data that were obtained from the environment of the error and thus allow a better assessment of the cause of the failure.

Gelöst wird diese Aufgabe durch die im Patentanspruch angegebenen Merkmaie.This problem is solved by the features specified in the claim.

Wie die nun folgende ebenfalls tabellarische Aufstellung des erfindungsgemäßen Verfahrens speziell für die Fehlerprotokollierung zeigt, besitzt dieses gegenüber den bekannten Verfahren wesentliche Vorteile, da es auf folgende Weise abgewickelt werden kann:As the now following also tabular list of the method according to the invention especially for the Error logging shows, this has significant advantages over the known method, since it can be processed in the following ways:

1. Die Proiokollierung der Fehle; information erfolgt mit Hilfe eines von der Zentraleinheitenstörung unabhängigen Rechners, des Dienstrechners 20, wodurch eine sichere Abspeicherung und Protokollierung der Fehlerinformation möglich ist.1. The logging of errors; information takes place with the help of a computer that is independent of the central unit malfunction, the service computer 20, whereby a secure storage and logging of the error information is possible.

2. Die Abspeicherung erfolgt auf separaten Protokollspeichern, wodurch eine völlige Unabhängigkeit und stete Verfügbarkeit dieser Speicher für Protokollierungsaufgaben sichergestellt ist.2. The storage takes place on separate log memories, This ensures complete independence and constant availability of this memory for logging tasks.

i. Ferner ist die Durchführufty des Proiokollierverfahrens unabhängig vom Betriebssystem, so daß nicht erst Prioritäten bezüglich des Speicherverkehrs gesetzt, untersucht und Anforderungen zugeteilt werden müssen.i. Furthermore, the execution time of the logging process independent of the operating system, so that there is no need for priorities with regard to memory traffic set, examined and requirements assigned.

4. Keine Platzbelegung im Kundenspeicher.4. No space occupied in the customer memory.

5. Ferner ist über den reinen Protokollicrungsvorgang hinaus es mit dem Dienstrechner möglich, auch die Umgebung des Fehlerortes zu überprüfen, um auf diese Weise weitere Fchleranaljscdaten zu gewinnen.5. Furthermore, it is about the pure logging process In addition, it is possible with the service computer to check the area around the fault location, in this way to obtain further subject analysis data to win.

b. Schließlich wird, bevor der endgültige Maschinenstopp veranlaßt wird, der Fehler hinsichtlich seiner Lage in der .Systemstruktur untersucht, mit dem Ziel, einen noch möglichen Dialogverkehr zwischen der Anlagenperipherie und dem Hauptspeicher aufrechtzuerhalten, um unter anderem einen möglichen Datenverlust zu vermeiden.
F i g. 2 zeigt nun ein im wesentlichen modular aufgebautes modernes Datenverarbeitungssystem, in dem die Fehlerüberwachug und -beseitigung gemäß der Erfindung beispielsweise durchführbar ist. Das wesentliche Merkmal dieses Datenverarbeitungssystems ist der sogenannte »Dienstrechner« (SVP) 20. der Sondcruufgaben zu erfüllen hat, wie beispielsweise die anfängliche Programmladung, wobei hier vorwiegend die Mikroprogrammladung der einzelnen Moduln 21 bis 26, von denen jeder in seinem Stcuerspeichcr ein eigenes Mikroprogramm für die Durchführung nur ihm spezifischer Operationen, auf die später noch näher eingegangen wird, enthält. Ferner führt dieser Dienstrechne: 20 die Fehleranalyse der ausgefallenen Zentraleinheil CPU. im Fall der F i g. 2 bestehend aus dem 1 lauptspeicher (MS)2\, der Hauptspeicherstcucrcinheii (MSC)22 und der lnstruktionsvcrarbeitungscinheit (IPU) 23, durch, um abhängig von der Fehlera-l und der gestörten, zuletzt durchgeführten Mikroinstruktion der zentralen Einheit, den gezielten Wiederstart dieser Einheit durchzuführen und zu überwachen.
b. Finally, before the final machine stop is initiated, the error is examined with regard to its location in the system structure, with the aim of maintaining possible dialog traffic between the system periphery and the main memory in order to avoid, among other things, a possible loss of data.
F i g. 2 now shows an essentially modular, modern data processing system in which the error monitoring and elimination according to the invention can be carried out, for example. The essential feature of this data processing system is the so-called "service computer" (SVP) 20. which has to fulfill special tasks, such as the initial program loading, whereby the microprogram loading of the individual modules 21 to 26, each of which has its own microprogram in its control memory, is predominant the implementation of operations specific to him, which will be discussed in more detail later. This service computer also carries out: 20 the error analysis of the failed central unit CPU. in the case of FIG. 2 consisting of the main memory (MS) 2 \, the main memory storage unit (MSC) 22 and the instruction processing unit (IPU) 23, in order to restart the central unit depending on the error and the disturbed microinstruction last carried out Perform and monitor unit.

Ferner gehört es zu den Aufgaben des Dienstrechners 20, eine Fehlerprotokollierung für das System durchzuführen, so daß spätere Warnings- und Überholungsarbeiten mit einem minimalen Zeil- und Geräteaufwand durchgeführt werden können.The tasks of the service computer 20 also include error logging for the system to carry out, so that later warning and overhaul work with a minimum of lines and equipment can be carried out.

Fs ist an dieser Stelle bcreiis zu sehen, daß die von einem unabhängigen Rechner, wie dem Dienstrechner 20, durchgeführte Fehleranalyse eine nicht auch noch vom Fehler beeinflußte Wiederstart-Entscheidung treffen kann.At this point it can be seen that those of an independent computer, such as the service computer 20, performed error analysis make a restart decision that is not also influenced by the error can.

Bei dem in F i g. 2 dargestellten Datenverarbeilungssvstem wird zum Zwecke der InstruktionswiederholungIn the case of the FIG. The data processing system shown in FIG. 2 is used for the purpose of repeating instructions

im Fehlerfall nur die fehlerhafte, d. h. die vom Fehler gestörte Mikroinstruktion wiederholt und nicht, wie es bei den eingangs erwähnten bekannten Systemen üblich ist, das Mikroprogramm am Beginn der für die laufende Maschineninstruktion verantwortlichen Interpretationsphase gestartet.in the event of an error only the faulty one, d. H. those from the bug Repeated disrupted microinstruction and not, as is usual with the known systems mentioned at the beginning is the microprogram at the beginning of the interpretation phase responsible for the current machine instruction started.

In üblicher Weise beschäftigen sich alle Instruktionswiederholungsmethoden, das gilt auch für die Methoden, die bei einem Datenverarbeitungssystem gemäß Fi g. 2 angewendet werden, mit den sogenannten zeitweisen oder sporadischen Fehlern. Dieses sind Störungen, die nicht durch total ausgefallene Stromkreiskomponenten verursacht werden, sondern sehr häufig durch äußere Einwirkungen, wie Netzstörungen und Störungen durch elektrische Funken, auf die Schaltkreise des Datenverarbeitungssystems hervorgerufen werden. Auch können labile Komponenten verantwortlich sein, die unter besonderen Zeit- oder Belastungsverhältnissen kurzzeitig ausfallen. Diese zeitweisen oder sporadischen Fehler machen, wie umfangreiche Messungen gezeigt haben, über 50% der Schaltkreisstörungen aus.In the usual way, all instruction repetition methods deal this also applies to the methods used in a data processing system according to Fi g. 2 are applied, with the so-called intermittent or sporadic errors. These are faults that are not caused by totally failed circuit components are caused, but very often by external influences, such as network disturbances and Interference caused by electrical sparks on the circuits of the data processing system. Unstable components can also be responsible, which are exposed to special time or stress conditions fail for a short time. These intermittent or sporadic mistakes make such extensive measurements have shown over 50% of circuit malfunctions.

Permanente Fehler, bedingt durch total ausgefallene Schaltkrieskomponenten, führen zu einer vorher für ein System oder ein Teil eines Datenverarbeitungssystems festgelegten Anzahl von Instruktionswiederholungsversuchen, bevor von der Zentraleinheit des Systems entscheiden wird, daß es sich hier um einen nicht wiederholungsfähigen Systemausfall handelt.Permanent errors, caused by completely failed switching circuit components, lead to a previously for a System or part of a data processing system specified number of instruction retry attempts, before the central processing unit of the system decides that this is not one of them is a repetitive system failure.

In allen Fällen, in denen die Instruktionswiederholung gelingt, wird zusätzlich die gesamte Fehlerinformation gespeichert, also wie vorher bereits erwähnt protokolliert, um in einer zu einem späteren Zeitpunkt durchführbaren Analyse den Fehlerort für den Wartungstechniker zu lokalisieren.In all cases in which the instructions are repeated If it succeeds, the entire error information is also stored, i.e. as already mentioned above logged in order to identify the fault location for the maintenance technician in an analysis that can be carried out at a later point in time to locate.

Im folgenden werden die in einem Datenverarbeitungssystem nach F i g. 2 vorteilhafter ablaufenden Funktionen im Falle einer Störung der Instruktionsverarbeitungseinheit 23 oder der Zentraleinheit CPU der besseren Übersicht wegen tabellarisch erläutert:In the following, in a data processing system according to FIG. 2 functions that run more advantageously in the event of a fault in the instruction processing unit 23 or the central processing unit CPU are explained in a table for a better overview:

1. Auftreten der Störung. Die Ausführung der von der Störung betroffenen Mikroinstruktion führt zu einem Fehler.1. Occurrence of the fault. The execution of the microinstruction affected by the malfunction leads to a mistake.

2. Der Ausführungsfehler wird durch Prüfschaltkreise der Instruktionsverarbeitungseinheit 23 erkannt.2. The execution error is detected by test circuits of the instruction processing unit 23.

3. Diese Fehlerfeststellung führt zum sofortigen Stop der Instruktionsverarbeitungseinheit 23 und zu einer Fehlermeldung an den Dienstrechner 20.3. This error detection leads to an immediate stop the instruction processing unit 23 and an error message to the service computer 20.

4. Der Dienstrechner 20 erkennt den Ausfall der Instruktionsverarbeitungseinheit 23 an Hand der Fehlermeldung dieser Einheit. (Während dieser Zeit können die mit »alten« Auftragen beschäftigten Verarbeitungs- und Steuermoduln (/OPl bis /OPn) 24 bis 26. die den Ein-/Ausgabegeräten (//Ol bis UOn) 27 bis 29 ihre Daten weiterhin ungestört, d. h. unbeeinflußt mit der Hauptspeichersteuereinheit 22 austauschen.)4. The service computer 20 recognizes the failure of the instruction processing unit 23 on the basis of the error message from this unit. (During this time, the processing and control modules (/ OPl to / OPn) 24 to 26 that are busy with "old" jobs can continue to have their data undisturbed, ie unaffected with the main memory control unit 22.)

5. Auf Grund der Ausfallerkennung der Instruktionsverarbeitungseinheit 23 ruft der Dienstrechner von seinem eigenen Speicher, beispielsweise einem extern angeschlossenen Plattenspeicher, das lnstruktionswiederholungsprogramm ab und lädt es in seinen eigenen Stcuerspeicher.5. Due to the failure detection of the instruction processing unit The service computer calls 23 from its own memory, for example an external one connected disk storage, the instruction replay program and loads it into its own control memory.

6. Das Instruktionswiederholungsprogramm für die Instruktionsverarbeitungseinheit 23 führt dann im einzelnen folgende Schritte aus:6. The instruction replay program for the instruction processing unit 23 then executes im the following individual steps:

6.1 Sichersteilung der verfügbaren Fchlerinformation von der Inslruktionsverarbeitungseinheit: Diese Information besteht aus: 6.1.1 Fehlerstart
6.1.2. Registerinhalten
6.1 Saving the available student information from the instruction processing unit: This information consists of: 6.1.1 Error start
6.1.2. Register contents

6.1.3 zuletzt durchgeführter Mikroinstruktion 6.1.4 Mikroinstruktionsadresse6.1.3 last microinstruction carried out 6.1.4 microinstruction address

6.2 Analyse der Fehlerinformation und Entscheidung über die Wiederholungsfähigkeit dieser Fehlerart.6.2 Analysis of the error information and decision on the repeatability of this Type of error.

6.3 Instruktionswiederholung der fehlerhaft ausgeführten Mikroinstruktion in der Instruk-6.3 Instruction repetition of the incorrectly executed Micro-instruction in the instruction

tionsverarbeitungseinheit 23.tion processing unit 23.

6.4 Start der Instruktionsverarbeitungseinheit 23.6.4 Start of the instruction processing unit 23.

6.5 Beobachung der Befehlsverarbeituiigseinheit bezüglich einer fehlerfreien Ausführung der Mikroinstruktionen.6.5 Monitoring of the command processing unit with regard to an error-free execution of the Micro instructions.

6.6 Durchführung einer beimmten Anzahl von Instruktionswiederholungsversuchen im Falle eines sofort folgenden weiteren Fehlers.6.6 Carrying out a certain number of attempts to repeat instructions in the event of a further error immediately following.

6.7 Fällen der Entscheidung »Maschinen Stop«, wenn alle Instruktionswiederholungsversuche6.7 Making the decision »machine stop« if all instruction retries

erfolglos verliefen.unsuccessful.

6.8 Benachrichtigung des Maschinenoperators über ein geeignetes Anzeigemedium.6.8 Notification of the machine operator via a suitable display medium.

6.9 Protokollierung der gesamten Fehlerinformation auf dem externen Speicher des Dienstrechners 20, unabhängig davon, ob der Fehler wiederholungsfähig ist oder nicht.6.9 Logging of all error information on the external memory of the service computer 20 regardless of whether the fault is repeatable or not.

Die Sicherstellung der Fehlerinformation, die sogenannte Fehlerprotokollierung, dient der späteren Fehlerortbestimmung für den Wartungstechniker, der auch in allen Fällen zeitweiser Störungen, auch unter Umständen vorbeugend, labile Schaltkreiskomponenten austauschen kann, um einem späteren Totalausfall zuvorzukommen.Ensuring the error information, the so-called error logging, is used later Defect location for the maintenance technician, who also in all cases of temporary malfunctions, even under As a precautionary measure, unstable circuit components can be replaced in order to avoid a subsequent total failure to forestall.

Bei den eingangs genannten bekannien Systemen wird der Protokollierungsvorgang im wesentlichen auf folgende Weise abgewickelt:In the known systems mentioned at the beginning, the logging process is essentially on handled the following way:

1. Wiederstart der Mikroprogramme am Beginn der Interpretationsphase der gerade durchgeführten Maschineninstruktion, wenn das System mit der Möglichkeit der Instruktionswiederholungssteuerung ausgerüstet ist oder falls ein Ausgangsoperand bereits verändert wurden, erfolgt ein »Maschinen Stop« mit möglicherweise nachfolgendem Wiederstart mit Hilfe des sogenannten Prüfpunktes im Betriebssystem.1. Restart the microprograms at the beginning of the interpretation phase of the one that has just been carried out Machine instruction if the system has the option of instruction repeat control is equipped or if an output operand has already been changed, a »Machine Stop «with a possible subsequent restart using the so-called test point in the operating system.

2. Falls ein Wiederstart erfolgreich war, erfolgt das Lesen eines Fehlersicherstellungs- oder Protokollierprogramms von einem Speicher, in dem im allgemeinen auch das Betriebssystem gespeichert ist.2. If a restart was successful, an error protection or logging program is read from a memory in which the operating system is generally also stored.

3. Es folgt dann das Schreiben eines Protokollsatzes mit den Angaben über die Fehlersituation in den unter 2. genannten Speicher.3. A log record is then written with the information about the error situation in the under 2. named storage.

Während bisher Fehler oder ganz allgemein Störungen der Zentraleinheit diskutiert wurden, sollen im folgenden Störungen der Hauptspeichereinheit 22 und der Ein-/Ausgabegerätesteuerungen 24 bis 26 erläutert werden. Die Hauptspeichersteuereinheit 22 weist eine Besonderheit insofern auf, als sie niemals bei einer festgestellten Störung stoppt. Im Gegensatz zu den übrigen Verarbeitungsmoduln besteht die Hauptspeichersteuereinheit 22 nur aus Schaltkreisen, sie besitzt also kein eigenes ladbares SteuerprograiTim und sie iü deshalb die schnellste Einheit im System nach Fig.2. Das setzt sie auch in die Lage, das Gesamtsystem mittels einer Prioritätsschaltung zu betreuen. Der Verzicht auf ein eigenes Sleuerprogramm macht die Hauptspeicher-Steuereinheit sehr schnell und programmunabhängig.While errors or general malfunctions in the central unit have been discussed so far, the following Malfunctions of the main memory unit 22 and the input / output device controls 24 to 26 are explained will. The main memory control unit 22 has a peculiarity in that it is never detected when a Fault stops. In contrast to the other processing modules, there is the main memory control unit 22 only from circuits, so it does not have its own loadable control program and therefore it works the fastest unit in the system according to Fig. 2. This also puts them in a position to control the overall system using to supervise a priority circuit. The main memory control unit dispenses with its own sleuer program very fast and independent of the program.

Wenn in ihren Fehlerprüfkreiseii ein Fehler festgestellt wird, dann sorgt sie für die Abspeicherung der Fchlerkonstellation in Schaltkreisregistern, ohne seine Verarbeitungsoperation zu stoppen.If an error is found in their Fehlerprüfkreiseii then it ensures that the Fchler constellation is saved in circuit registers without stopping its processing operation.

Dieses Merkmal ist deshalb besonders vorteilhaft, weil der festgestellte Störungsfall beispielsweise durch den Dialog mit einer bestimmten Steuereinheit 24 bis 26 für die Ein-/Ausgabegeräte 27 bis 29 verursacht sein könnte. Wenn nun die Hauptspeichcrsteuercinhcit 22 grundsätzlich bei jeder Störung gestoppt würde, dann wurden auch unberechtigterweise andere Ein/Ausgabegeräte 27 bis 29. die überlappt und verzahnt ihre Daten an den Hauptspeicher 21 liefern, von diesem Stop betroffen. Tritt aber eine wirkliche Störung des Hauptspeichers 21 oder der Hauptspeichercinheil 22 ein, dann wird diese Störung durch die Prüfschahkreise entdeckt und in Registern gespeichert. Diese Register speichern dann nicht nur die Störungsart selbst, sondern noch zusätzliche, für eine Analyse notwendige Fehlerdaten. Der Dienstrechner 20. der das Gcsamtsystern ständig hinsichtlich möglicher Störungen überwacht und betreut, stellt diese Störung des Hauptspeichers 21 und/oder der Hauptspeichersteucreinheit 22 fest und entnimmt den genannten Registern nun die Fehlerdaten für die bereits erläuterte Protokollierung in seinen Speicher. Bei einer derartigen Störung wird zunächst keine v/eitere Analyse durchgeführt, um nicht den Hauptspeicher, der sich in einem Dialog mit anderen Ein-/Ausgabegerätcn befindet, zu stören. Der Hauptspeicher wird also bei einer Störung des Gebietes Hauptspeicher-Hauptspciehei-steuercinheit nicht gestoppt, weil sonst noch laufende Ein-ZAusgabeoperationen, die nicht gestört sind, grundlos beeinträchtig; würden.This feature is particularly advantageous because the identified malfunction occurs, for example the dialogue with a specific control unit 24 to 26 for the input / output devices 27 to 29 can be caused could. If the main memory control unit 22 were to be stopped in principle whenever there was a fault, then Unauthorized other input / output devices 27 to 29 were also used which overlapped and interlocked their data to the main memory 21, affected by this stop. But if there is a real fault in the main memory 21 or the main memory unit 22, then this fault is detected by the checking circuit and stored in registers. These registers then not only store the type of fault itself, but also additional error data necessary for an analysis. The service computer 20. the total system constantly monitored and looked after with regard to possible malfunctions, this malfunction of the main memory represents 21 and / or the main memory control unit 22 and now takes the registers mentioned Error data for the already explained logging in its memory. In the event of such a fault initially no further analysis was carried out in order to avoid the main memory, which is in a dialogue with others Input / output devices is to disturb. The main memory is used when the area is disturbed Main memory main memory controller not stopped because I / O output operations are still running, who are not disturbed, impaired for no reason; would.

Die Slcnereiriheitcn 24 bis 26 für die FiiWAusgabegerä'e 27 bis 29 die ebenfalls /u den Verarbeiumgsmoduln des Systems nach F i g. 2 gerechnet werden, sind überwiegend fur bestimmte Ein-ZAusgabeopcrationen eingesetzt, so daß sich eine Störung immer nur gezielt in einem bestimmten Bereich auswirkt. Diese Bereiche sind der Karten-Musgabebereich, der Druckerbereich, der Plattenspeicherbereich oder der Bandspcicherbereich. Eine Störung dieser Steuergeräte für die Hin-/ Ausgabegeräte wird, wie F i g. 2 zeigt, -iber das Verbindungsleitungsnetz des Dienstrechners 20 von diesem festgestellt, so daß er nun mit seinem Fehlcrprogramm, das kann ein Fehleranalyse- und/oder ein Fehlerbeseitigungsprogramm sein, in die gestörte Steuereinheit eingreifen kann. Dieser Eingriff sieht vor, daß diese gestörte Steuereinheit voll durchgeprüft und die Fehlerdaten ebenfalls sichergestellt und protokolliert werden. Da während dieser Zeit weder die lnstruktionsverarbeitungseinheit 23, die Hauptspeichersteuereinheit 22 noch die übrigen Steuereinheilen für die Ein-ZAusgabegeräte gestört sind, kann also, mit Ausnahme der einen gestörten Verarbeitungseinheil für ein Ein-/Ausgabegcrät, ein volles Programm abgewickelt werden. Das Betriebssystem eines in F i g. 2 dargestellten Datenverarbeitungssystems erfährt diesen Ausfall entweder, wenn der Dienstrechner 20 nach Durchführung der Protokollierung der Fehlerinformation sich an die Instruktionsverarbeitungseinheit 23 meldet, um stellvertretend für die gestörte Steuereinheit diese Mitteilung jetzt an das Betriebssystem weiterzuleiten oder wenn sich das Betriebssystem selbst an die gestörte Steuereinheit wendet.The interface units 24 to 26 for the fiiW output devices 27 to 29 which also / u the processing modules of the system according to FIG. 2 are calculated mainly used for certain input / output operations, so that a disturbance is only ever targeted affects in a certain area. These areas are the card input area, the printer area, the disk storage area or the tape storage area. A malfunction of these control units for the outward / Output devices, such as FIG. 2 shows -over the trunk network of the service computer 20 determined by this, so that he now with his Fehlercrprogramm, this can be a fault analysis and / or a fault removal program can intervene in the malfunctioning control unit. This intervention provides that this disturbed The control unit is fully checked and the error data are also ensured and logged. Since during this time neither the instruction processing unit 23 nor the main storage control unit 22 the other control units for the input and output devices are still disturbed, so, with the exception of one disturbed processing unit for an input / output device, a full program can be processed. That Operating system of one in FIG. The data processing system shown in Figure 2 experiences this failure either, when the service computer 20 contacts the instruction processing unit after the logging of the error information has been carried out 23 reports to forward this message to the operating system on behalf of the malfunctioning control unit or if so the operating system itself turns to the faulty control unit.

Wie die bisherigen Auslührungen gezeigt haben, ist, auf Grund der Verlagerung der Aufgaben, die sich im Zusammenhang mit der Federprüfung und Fehlerbeseitigung in elektronischen Datenverarbeitungsanlagen ergeben, in den sogenannten Dientrechner 20 die ständige Verfügbarkeit und Fehlerfreiheit dieses Rechners von essentieller Bedeutung. Da dieser Dientrechner im Vergleich zu den Zentraleinheiten der eingangs genannten bekannten Datenverarbeitungssysteme nur sehr wenig Schaltkreise besitzt, die darüber hinaus in einem Umfang intensiver geprüft und überwacht werden, wie das bei Großsystemen aus Kostengründen nicht möglich ist. liegt seine Zuverlässigkeit weit über den bisher bekannten Systemen.As the previous remarks have shown, is due to the relocation of the tasks that are in the Connection with spring testing and troubleshooting in electronic data processing systems result, in the so-called service computer 20, the constant availability and freedom from errors of this computer of essential importance. Since this service computer in comparison to the central units of the aforementioned known data processing systems has very little circuitry that is also included in be checked and monitored more intensively, as is the case with large systems for reasons of cost not possible. its reliability is far above the previously known systems.

Zum anderen wird der Dienstrechncr schon während des Ladevorgangs intensiv überprüft. Bei dem in F i g. 2 dargestellten Datenverarbeitungssystem dient, wie bereits erwähnt wurde, der Dienstrechner nach dem Einschalten des Systems zur Durchführung des Ladeprozesses der intelligenten Verarbeitungsmoduln, wobei er selbst bereits sehr intensiv geprüft wird. Da sein Schaltkreisumfang relativ gering ist, sind auch seine Störungen viel leichter lokalisierbar als bei Systemen mit komplizierten Schaltkreisstrukturen.On the other hand, the service computer is checked intensively during the charging process. In the case of the FIG. 2 As already mentioned, the data processing system shown is used by the service computer after it has been switched on of the system for carrying out the loading process of the intelligent processing modules, whereby he is already being examined very intensively. Since its circuit size is relatively small, so are its glitches much easier to locate than systems with complex circuit structures.

Störungen an und in den Ein-/Ausgabegeräten werden von diesen selbst oder in den Schaltkreisen oder Mikroprogrammroutinen in der zugeordneten Steuereinheit erkannt.Faults on and in the input / output devices are caused by them or in the circuits or Microprogram routines recognized in the associated control unit.

Die Fehlermeldung an den Dienstrechner wird ebenfalls vom Mikroprogramm der Steuereinheit durchgeführt, die dem gestörten Ein-/Ausgabegcrät zugeordnet ist. Alle über dein Ein/Ausgabegerätfehler verfügbaren F« Verdaten werden in einem Dialog zwischen der Steuereinheit und dem Dienstrechner dem letzteren übcimittelt, bevor das Betriebssystem von der Steuereinheit über die Fehlei situation informiert wird.The error message to the service computer is also carried out by the microprogram of the control unit, which is assigned to the faulty input / output device. All available from your I / O device failure The data are processed in a dialog between the control unit and the service computer übercimittelt before the operating system is informed by the control unit about the incorrect situation.

Die Fehlerdaten des Ein/Ausgabegerätes werden in gleicher Weise, wie die Fehlerdaten der Sehaltkreisstörungen in den Speicher des Fehlerrechners protokolliert, um einer späteren Fehlerlokalisierung zu dienen.The error data of the input / output device are stored in in the same way as the error data of the circuit faults are logged in the memory of the error computer, to serve a later error localization.

Hierzu 1 Blatt Zeichnungen1 sheet of drawings

Claims (1)

2222nd Patentanspruch:Claim: Verfahren zur Fehleranalyse und zur Fehlerbeseitigung in elektronischen Datenverarbeitungsanlagen unter Einsatz eines Dienstrechners, der die Prüfschaltungen der Verarbeitungsmoduln der Anlag abfragt, im Strömungsfall aus der vorliegenden Fehlerinformation eine Fehleranalyse des ausgefallenen Verarbeitungsmoduls durchführt, die Wiederholbarkeit der Instruktion prüft und den Wiederstart der Datenverarbeitungsanlage vornimmt, d a durch gekennzeichnet, daß bei Auftreten eines Fehlers in einem Verarbeitungsmodul der Dienstrechner mit einem für den betreffenden Verarbeitungsmodul spezifischen Fehleranalyse- und -beseitigungsprogramm aus externen Speichern geladen wird, daß er vor dem Wiederstart des fehlerhaften Verarbeitungsmoduls die Wiederholbarkeit der fehlerhaft ausgeführten Mikroinstruktion auch hinsichtlich der Systemstruktur prüft, daß die dem fehlerhaften Verarbeitungsmodul entnommenen Fehleranalysedaten auch aus der Umgebung des Fehlers auf externen Protokollspeichern gespeichert werden und daß der Diensirechner den *5 Wiederstart der fehlerhaft ausgeführten Mikroinstruktion am Beginn ihrer Interpretationsphase vornimmt und für die ausgefallene Einheit die Störungsmeldung an das Betriebssystem der Datenverarbeitungsanlage durchrührt.Procedure for error analysis and for eliminating errors in electronic data processing systems using a service computer that controls the test circuits of the processing modules of the system queries, in the case of flow, an error analysis of the failed one from the existing error information Processing module, checks the repeatability of the instruction and restart the data processing system makes d a characterized by that when an error in a processing module of the service computer with a processing module for the relevant processing module specific error analysis and removal program loaded from external memories is that before restarting the faulty processing module, the repeatability the incorrectly executed microinstruction also checks with regard to the system structure that the dem fault analysis data taken from the faulty processing module also from the environment of the Errors can be saved on external log memories and that the service computer has the * 5 Restart the incorrectly executed microinstruction at the beginning of its interpretation phase and for the failed unit, the fault report to the operating system of the data processing system stirs. 925 3925 3
DE19722237925 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines Ceased DE2237925B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE19722237925 DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines
IT2561173A IT1006591B (en) 1972-08-02 1973-06-20 EQUIPMENT FOR ANALYSIS AND ELIMINATION OF ERRORS IN DATA PROCESSING SYSTEMS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19722237925 DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines

Publications (2)

Publication Number Publication Date
DE2237925A1 DE2237925A1 (en) 1974-02-21
DE2237925B2 true DE2237925B2 (en) 1975-11-27

Family

ID=5852421

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722237925 Ceased DE2237925B2 (en) 1972-08-02 1972-08-02 Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines

Country Status (2)

Country Link
DE (1) DE2237925B2 (en)
IT (1) IT1006591B (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3036926C2 (en) * 1980-09-30 1984-07-26 Siemens AG, 1000 Berlin und 8000 München Method and arrangement for controlling the workflow in data processing systems with microprogram control
DE10243145B4 (en) * 2002-09-17 2006-01-26 Siemens Ag Method for monitoring a hardware driver output

Also Published As

Publication number Publication date
IT1006591B (en) 1976-10-20
DE2237925A1 (en) 1974-02-21

Similar Documents

Publication Publication Date Title
DE3206891C2 (en)
DE102018113625A1 (en) ERROR INJECTION TESTING DEVICE AND METHOD
EP0238841A1 (en) Error-protected multiprocessor controller having a high availability to a switching system, and method for memory configuration operation of this centraller
EP0236803A1 (en) Method for the operation of a fault-protected and highly available multiprocessor central controller of a switching system
DE60002908T2 (en) DEVICE AND METHOD FOR IMPROVED ERROR LOCATION AND DIAGNOSIS IN COMPUTERS
DE1524239B2 (en) CIRCUIT ARRANGEMENT FOR MAINTAINING ERROR-FREE OPERATION IN A COMPUTER SYSTEM WITH AT LEAST TWO COMPUTER DEVICES WORKING IN PARALLEL
DE2442847A1 (en) TEST AND DIAGNOSTIC ARRANGEMENT FOR A DATA PROCESSING UNIT
DE102008004205A1 (en) Circuit arrangement for error treatment in real-time system e.g. controller, for motor vehicle, has processing units reporting result of inherent error diagnosis by monitoring unit that activates arithmetic units in dependence of result
DE2425757A1 (en) TEST SYSTEM FOR A DATA PROCESSING UNIT
EP0048991B1 (en) Method and device for the treatment of interruption conditions during the operating sequence in microprogramme-controlled data-processing systems
DE102019131865A1 (en) METHOD AND DEVICE FOR SELF-DIAGNOSTICING THE RAM ERROR DETECTION LOGIC OF A DRIVELINE CONTROLLER
DE10232919A1 (en) Computer system with backup management for handling an embedded processor failure
DE10392916T5 (en) Self-test system
DE60008872T2 (en) METHOD AND DEVICE FOR AUTOMATIC REINTEGRATION OF A MODULE IN A COMPUTER SYSTEM
EP1359485B1 (en) Control and monitoring system
DE2237925B2 (en) Automatic sporadic computer error detection and correction - using auxiliary computer unit with diagnostic and recovery routines
DE2823457C2 (en) Circuit arrangement for error monitoring of a memory of a digital computer system
EP1924914B1 (en) Data processing system and a method for the operation thereof
EP2250560B1 (en) Method for increasing the robustness of computer systems and computer system
DE10029141A1 (en) Fault monitoring of memory contents using check sums involves deriving desired new check sum from difference between old and new contents and old check sum before writing new contents
DE102004043063A1 (en) Semiconductor device e.g. ROM, operating method, involves operating pin of device in normal operation mode as application-function-pin, where pin is operated in two test operating modes as test pin and application-function pin, respectively
EP1283471A2 (en) Program controlled unit
DE1958747C3 (en) Device for microprogram-controlled error checking
DE2048473C3 (en) Fault data computer of lower performance connected to a main data computer
DE2717375B2 (en) Device for locating program or hardware errors

Legal Events

Date Code Title Description
BHV Refusal