DE4005321A1 - Fehlertolerantes rechnersystem - Google Patents

Fehlertolerantes rechnersystem

Info

Publication number
DE4005321A1
DE4005321A1 DE19904005321 DE4005321A DE4005321A1 DE 4005321 A1 DE4005321 A1 DE 4005321A1 DE 19904005321 DE19904005321 DE 19904005321 DE 4005321 A DE4005321 A DE 4005321A DE 4005321 A1 DE4005321 A1 DE 4005321A1
Authority
DE
Germany
Prior art keywords
memory
cco
ccl
processor
fail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19904005321
Other languages
English (en)
Other versions
DE4005321C2 (de
Inventor
Erfinder Wird Nachtraeglich Benannt Der
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19904005321 priority Critical patent/DE4005321A1/de
Publication of DE4005321A1 publication Critical patent/DE4005321A1/de
Application granted granted Critical
Publication of DE4005321C2 publication Critical patent/DE4005321C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/42Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
    • H04Q3/54Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised
    • H04Q3/545Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme
    • H04Q3/54541Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme using multi-processor systems
    • H04Q3/54558Redundancy, stand-by
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/74Masking faults in memories by using spares or by reconfiguring using duplex memories, i.e. using dual copies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Description

Die Betreiber von Vermittlungssystemen stellen die Forderung, daß bei Auftreten von Störungen in einem Vermittlungssystem die jeweils gerade anstehenden Aufgaben, wie z. B. die Aufrechter­ haltung bestehender Verbindungen oder der Auf- bzw. Abbau von Verbindungen, weitgehend unterbrechungsfrei weitergeführt werden. Um bei Auftreten von durch Hardware bedingten Fehlern in einem Rechnersystem eine Weiterführung der Aufgaben sicherzustellen, ist es notwendig, redundante Systemteile vorzusehen. Bei Rechner­ anwendungen, die die Echtzeitverarbeitung erfordern, wie z. B. die Vermittlungstechnik ist es notwendig, weitgehend verzöge­ rungsfrei auf redundante Systemteile zurückzugreifen. Es sind Rechnerstrukturen denkbar, die einen synchronen Parallelbetrieb von redundanten Systemteilen vorsehen. Dabei werden die in Auf­ gabenabschnitte eingeteilten anstehenden Aufgaben in den redun­ danten Systemteilen jeweils gleichzeitig ausgeführt und die Er­ gebnisse verglichen. Weichen die Ergebnisse aufgrund eines Fehlers voneinander ab, so muß auf das Ergebnis einer bei Echt­ zeitverarbeitung vorzusehenden, zusätzlichen Redundanz zurückge­ griffen werden. Dieses Konzept bedingt neben dem bei Echtzeitver­ arbeitung vorzusehenden Aufwand für mindestens drei redundante Systemteile eine enge Synchronisation zwischen den einzelnen Systemteilen.
Ein anderes, aus der Zeitschrift TECHNISCHE RUND­ SCHAU, 1986, Heft 36, Seiten 76 . . . 79 bekanntes, fehlertolerantes Rechnersystem beruht darauf, daß jeder einer Mehrzahl von unter­ einander verbundenen Prozessoren vor der Bearbeitung eines Auf­ gabenabschnitts eine Kopie seiner Einstellungen an einen anderen Prozessor übergibt, so daß bei Auftreten einer Störung der je­ weils andere Prozessor die Aufgabe aus dem Zustand weiterführen kann, in dem er die Kopie erhalten hat. Dieses Konzept erfordert eine komplexe Software und erscheint wegen der im Fehlerfall auftretenden Verzögerungen im Programmablauf für kritische Real­ zeitbedingungen nicht geeignet zu sein. Aus der Schrift AFIPS Conf. Proceedings VOL. 50, 1981, Seiten 41-48 ist ein fehlertole­ ranter Prozessor für Echtzeitverarbeitung bekannt, der zwei gleiche Rechnereinheiten aufweist, wobei im Betrieb die eine Rechnereinheit die betriebsführende Funktion übernimmt, während die andere Rechnereinheit als Ersatzschalteinheit zur Verfügung steht, ohne daß ein synchroner Lauf zwischen den beiden Rechner­ einheiten vorliegt (active/standby). Der jeweils betriebsführen­ de Prozessor schreibt während jedes Schreibzyklus in den Arbeits­ speicher jeder Rechnereinheit und kann zum Lesen auf jeden Ar­ beitsspeicher zugreifen. Jede Rechnereinheit weist Einrichtungen zur Selbstüberwachung auf. Die Prozessoren der Rechnereinheiten sind über einen sogenannten Maintenance Channel miteinander ver­ bunden, über den sie gegenseitig Zustandssignale austauschen. Tritt während des Betriebs der jeweils betriebsführenden Rechner­ einheit ein Fehler auf, so teilt sie dies über den Maintenance Channel der bislang als Ersatzschalteinheit bereitgestandenen Rechnereinheit mit, worauf diese die jeweils in Arbeit stehende Aufgabe weiterführt, wobei sie auf den jeweiligen aktuellen Speicherinhalt zugreifen kann. Bei diesem Konzept macht es sich nachteilig bemerkbar, daß für sämtliche Daten im Arbeitsspeicher der gleiche sicherungstechnische Aufwand betrieben werden muß, unabhängig davon, ob die Daten für die Abarbeitung der jeweils gerade anstehenden Aufgaben durch die bislang als Ersatzschalt­ einheit bereitstehende Rechnereinheit notwendig ist oder nicht.
Die Erfindung stellt sich die Aufgabe, eine besonders aufwand­ arme Schaltungsanordnung für fehlertolerante Rechnersysteme an­ zugeben.
Die Erfindung betrifft eine Schaltungsanordnung für ein fehler­ tolerantes Rechnersystem, das für Echtzeitverarbeitung geeignet ist mit zwei redundanten Rechnereinheiten, die jeweils einen Arbeitsspeicher und einen Prozessor aufweisen, die über einen Verbindungskanal miteinander verbunden sind, über den die Pro­ zessoren Zustandssignale darüber austauschen, welcher Prozessor der gerade betriebsführende ist, wobei der jeweils betriebsfüh­ rende Prozessor Daten in die Arbeitsspeicher beider Rechnerein­ heiten zu schreiben vermag und die Rechnereinheiten jeweils Mit­ tel zum Erkennen von Fehlern aufweisen. Diese Schaltungsanordnung ist erfindungsgemäß dadurch gekennzeichnet, daß die Prozessoren jeweils nur auf den zugehörigen Arbeitsspeicher lesend zugreifen und daß die Arbeitsspeicher jeweils in einen aufwendigen ausfall­ sicheren Speicherbereich, in dem die zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendigen Daten abgelegt werden und in einen weniger aufwendigen Speicherbereich aufgeteilt sind, in dem alle übrigen Daten abgespeichert werden, wobei der jeweils betriebsführende Prozessor nur in den aufwendigen, ausfallsiche­ ren Speicher einzuschreibende Daten auch in den aufwendigen, aus­ fallsicheren Speicher der jeweils als Ersatzschalteinheit bereit­ stehenden Rechnereinheit einschreibt.
Die Erfindung bringt den Vorteil einer besonders aufwandarmen Realisierung eines fehlertoleranten, für Echtzeitverarbeitung geeigneten Rechnersystems in active/standby-Struktur mit sich, wobei durch den Sicherungsaufwand bedingte Zugriffsverzögerungen gegenüber einem Standardarbeitsspeicher nur für den Speicherbe­ reich des aufwendigen ausfallsicheren Speichers auftreten, so daß sich insgesamt gegenüber Rechneranordnungen, bei denen sämt­ liche Daten in einen aufwendigen ausfallsicheren Speicher abge­ legt werden, eine erhöhte Verarbeitungsgeschwindigkeit ergibt. Dadurch, daß jeder Prozessor nur auf den zugehörigen Arbeits­ speicher lesend zugreift, sind insoweit Kollisionsfälle beim Speicherzugriff von vornherein ausgeschlossen.
In weiterer Ausgestaltung der Erfindung bearbeitet die jeweils als Ersatzschalteinheit bereitstehende Rechnereinheit Aufgaben, für deren Abarbeitung nicht auf den Speicherbereich des aufwen­ digen ausfallsicheren Speichers zugegriffen werden muß.
Diese Maßnahme bringt den Vorteil einer Nutzung der jeweils als Ersatzschalteinheit bereitstehenden Rechnereinheit als produkti­ ve Redundanz mit sich.
In weiterer Ausgestaltung der Erfindung sind die aufwendigen ausfallsicheren Speicher (ARSO, ARSl) jeweils in sich gedoppelt.
Durch diese Maßnahme wird eine erhöhte Ausfallsicherheit durch Redundanzbildung erreicht.
In weiterer Ausgestaltung der Erfindung weisen die Rechnerein­ heiten jeweils eine eigene Spannungsversorgung auf, wobei bei Auf­ treten eines Fehlers in einer Rechnereinheit der zugehörige Pro­ zessor die Spannungsversorgung der zugehörigen Rechnereinheit abzu­ schalten vermag und wobei die Prozessoren jeweils über eine An­ schalte- und Trenneinrichtung auf einen mit den Arbeitsspeichern verbundenen Schreibbus Zugriff haben und die jeweilige Anschalte- und Trenneinrichtung bei Ausfall ihrer Versorgungsspannung an ihren mit dem Schreibbus verbundenen Ausgängen einen hochohmigen Zustand aufweist.
Durch diese Maßnahme wird eine Veränderung von Daten der Arbeits­ speicher durch eine fehlerhafte Rechnereinheit vermieden.
Die Figur zeigt im zum Verständnis der Erfindung erforderlichem Umfang eine beispielhafte Ausgestaltung einer Schaltungsanordnung für fehlertolerante Rechnersysteme, bei der sämtliche Hardware­ komponenten in gedoppelter Ausführung vorgesehen sind. Die Schal­ tungsanordnung wird demnach in zwei redundante, prinzipiell gleichartig aufgebaute Rechnereinheiten UO, Ul mit jeweils eige­ ner Spannungsversorgung SVO, SVl eingeteilt, die jeweils für sich die gerade anstehenden Aufgaben abarbeiten können und die, sicherungstechnisch betrachtet, jeweils eine Ausfalleinheit bilden. Jede Rechnereinheit UO, Ul weist einen Prozessor CCO, CCl, mit nicht im einzelnen dargestellte Einrichtungen zur Selbst­ überwachung und zur Fehlererkennung auf, wobei der jeweilige Prozessor CCO, CCl in sich gedoppelt sein kann. Die Prozessoren CCO, CCl der beiden Rechnereinheiten UO, Ul sind über einen Ver­ bindungskanal MC miteinander verbunden, über den sie Zustands­ signale beispielsweise darüber austauschen können, welcher Pro­ zessor CCO, CCl der gerade betriebsführende ist und welcher ge­ rade als Ersatzschalteinheit bereitsteht. Die Signalisierung auf dem Verbindungskanal MC erfolgt dabei vorzugsweise derart, daß im Fehlerfall von dem betroffenen Prozessor CCO, CCl die glei­ chen Zustandssignale abgegeben werden, wie sie bei Ausfall der zugehörigen Spannungsversorgung SVO, SVl abgegeben werden. Die Prozessoren CCO, CCl sind jeweils über einen bidirektionalen Anschluß EAO, EAl mit einem Bus BUS verbunden, der wiederum ge­ doppelt sein kann, über den die Prozessoren CCO, CCl mit an den Bus BUS angeschlossenen, nicht näher dargestellten peripheren Einheiten in Verbindung treten können. Kommt die erfindungsge­ mäße Schaltungsanordnung beispielsweise als Gruppenprozessor in einer Teilnehmeranschlußgruppe (Line Trunk Group) eines Vermitt­ lungssystems zum Einsatz, so kann es sich bei den peripheren Einheiten um Gruppenkoppler oder die Sätze für Teilnehmerlei­ tungen und Verbindungsleitungen handeln. Die Prozessoren CCO, CCl sind jeweils über einen, eine Vielzahl von Verbindungslei­ tungen aufweisenden Lesebus RDO, RDl mit einem der jeweiligen Rech­ nereinheit UO, Ul zugehörigen Arbeitsspeicher MO, Ml verbun­ den. Die Prozessoren CCO, CCl sind des weiteren wechselweise über eine Anschalte- und Trenneinrichtung RO, Rl mit einem eine Vielzahl von Verbindungsleitungen aufweisenden Schreibbus WR ver­ bindbar, der wiederum mit den Arbeitsspeichern MO, Ml der beiden Rechnereinheiten UO, Ul verbunden ist. Die Anschalte- und Trenn­ einrichtung RO, Rl wird vorzugsweise mit handelsüblichen Bustrei­ bern gebildet, die so ausgebildet sind, daß sie bei Ausfall der der jeweiligen Rechnereinheit UO, Ul zugeordneten Spannungsver­ sorgung SVO, SVl, oder bei Ausbleiben von den aktiven Zustand kennzeichnenden Steuersignalen vom zugehörigen, gerade betriebs­ führenden Prozessor CCO, CCl, an den mit dem Schreibbus WR ver­ bundenen Ausgängen einen hochohmigen Zustand aufweisen. Zur Über­ prüfung der Buswege WR, RDO, RDl, BUS der Schaltungsanordnung können bei jeder Datenwortübertragung Fehlererkennungs- und Pari­ tätsbits mitübertragen werden. Dabei können die Fehlererkennungs­ bits beispielsweise aus einer auf den Leitungen des jeweiligen Busweges der Datenwortübertragung vorausgehenden l-O-Folge be­ stehen, nach deren Erscheinen am Ende des Übertragungsweges das zu übertragende Datenwort weitergeschaltet wird.
Erfindungsgemäß weisen die Arbeitsspeicher MO, Ml jeweils einen besonders ausfallsicheren Speicherbereich ARSO, ARSl auf, in den nur die Daten abgelegt werden, die zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendig sind; in einem Rechnersy­ stem für Vermittlungstechnik können dies beispielsweise die tran­ sienten Daten der Vermittlungstechnik sein. Die aufwendigen aus­ fallsicheren Speicher ARSO, ARSl können jeweils in mehrere zu­ sammenhängende Speicherbereiche des zugehörigen Arbeitsspeichers MO, Ml aufgeteilt sein, wobei die Speicherbereiche durch eine an sich bekannte Memory Management Unit definiert sein können. Wer­ den die aufwendigen ausfallsicheren Speicher ASO, ASl jeweils in einem adressenmäßig zusammenhängenden Speicherbereich angeordnet, so ist es möglich, ein höherwertiges Bit des Speicheradressierungs­ worts als Speicherfreigabesignal für den aufwendigen ausfallsiche­ ren Speicher ARSO, ARSl zu verwenden. Die aufwendigen ausfallsiche­ ren Speicher ARSO, ARSl können jeweils, wie dies in der Figur sche­ matisch angedeutet ist, gedoppelt sein und werden jeweils von ei­ ner Überwachungsschaltung UEO, UEl überwacht, die mit dem zuge­ hörigen Prozessor CCO, CCl verbunden ist. In den Überwachungsschal­ tungen UEO, UEl können jeweils Einrichtungen zur Paritätsprüfung der Datenworte vorgesehen sein, die es einhergehend mit fehler­ erkennenden und fehlerkorrigierenden Codes in an sich bekannter Weise ermöglichen, Fehler zu erkennen und gegebenenfalls zu korrigieren. Alle übrigen Daten, die nicht zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendig sind, wie z. B. die transienten Daten des Betriebssystems werden in dem Speicherbe­ reich SPO, SPl des jeweiligen Arbeitsspeichers MO, Ml abgelegt, der mit herkömmlichen, standardisierten Speicherbausteinen gebildet sein kann.
Die Organisation ist nun so getroffen, daß die Prozessoren CCO, CCl zum Lesen und Schreiben jeweils auf den ihrer Rechnereinheit UO, Ul zugehörigen Arbeitsspeicher MO, Ml zugreifen, wobei je­ doch der jeweils betriebsführende Prozessor CCO, CCl nur Daten, die zur Abarbeitung der jeweils gerade anstehenden Aufgaben not­ wendig sind, in den zugehörigen, aufwendigen ausfallsicheren Spei­ cher ARSO, ARSl und gleichzeitig in den aufwendigenden ausfall­ sicheren Speicher ARSO, ARSl der jeweils gerade als Ersatzschalt­ einheit bereitstehenden Rechnereinheit UO, Ul schreibt.
Sind die aufwendigen, ausfallsicheren Speicher ARSO, ARSl je­ weils in sich gedoppelter Ausführung vorgesehen, so können die Prozessoren CCO, CCl mit Hilfe eines Routinetests den Speicher­ bereich des zugehörigen aufwendigen ausfallsicheren Speichers ARSO, ARSl dadurch überprüfen, daß sie jeweils den Speicherin­ halt aus den entsprechenden redundanten Speicherplätzen wort­ weise auslesen, die redundanten Datenworte miteinander ver­ gleichen und wieder einschreiben. Die Hardware des Speicherbe­ reichs ARSO, ARSl und die Überwachungsschaltungen UEO, UEl kön­ nen mit Hilfe eines gegenüber der Abarbeitung der jeweils gerade anstehenden Aufgaben zurückstehenden Routinetests überprüft werden.
Stellt nun der jeweils betriebsführende Prozessor CCO, CCl bei­ spielsweise aufgrund eines von der zugehörigen Überwachungsschal­ tung UEO, UEl abgegebenen Signals einen Fehler fest, so signali­ siert er dies über den Verbindungskanal MC dem bislang als Ersatz­ schalteinheit bereitstehenden Prozessor CCO, CCl, der jeweils anderen Rechnereinheit UO, Ul. Daraufhin übernimmt die bislang als Ersatzschalteinheit bereitstehende Rechnereinheit UO, Ul die betriebsführende Funktion, wobei sie auf die zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendigen Daten des zugehörigen aufwendigen ausfallsicheren Speichers ARSO, ARSl zugreift, die sich auf einem Stand befinden, wie er bei Erkennen des Fehlers vorlag. Speicherinhalte im Speicherbereich des aufwen­ digen ausfallsicheren Speichers ARSO, ARSl, die bedingt durch fehlerhaften Betrieb verfälscht wurden, oder die bedingt durch während der Übergabe der betriebsführenden Funktion von einer Rechnereinheit UO, Ul auf die andere Rechnereinheit UO, Ul von­ stattengegangener Veränderungen in der Peripherie des Rechnersy­ stems nicht dem tatsächlichen vorliegenden Zustand der Periphe­ rie des Rechnersystems entsprechen, werden im Zuge des Wiederanlaufs (recovery) mit Hilfe von Plausibilitätsroutinen entweder korrigiert, oder aber wenn dies nicht möglich ist, gelöscht (putzen).
Wird die erfindungsgemäße Schaltungsanordnung beispielsweise in einer Teilnehmeranschlußgruppe (Line Trunk Group) eines Vermitt­ lungssystems eingesetzt, so ist es damit möglich, den überwie­ genden Teil der Verbindungen, die sich im Aufbau befinden, trotz Auftreten eines Fehlers im Bereich des Gruppenprozessors der Teilnehmeranschlußgruppe, in den stabilen Verbindungszustand weiterzuführen, wobei nur solche im Aufbau begriffenen Verbin­ dungen verloren gehen, die aufgrund einer fehlerbedingten Spei­ cherveränderung nicht mehr weitergeführt werden können.
Beide Rechnereinheiten UO, Ul arbeiten jeweils mit der gleichen Software; d. h. die Software kann im wesentlichen so abgefaßt werden, als ob es nur eine Rechnereinheit UO, Ul gäbe. Beim Ab­ fassen der Software ist zu berücksichtigen, daß Daten, die zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendig sind, im Speicherbereich des aufwendigen ausfallsicheren Spei­ chers ARSO, ARSl abgelegt werden. Die Aktualisierung des auf­ wendigen ausfallsicheren Speichers ARSO, ARSl der jeweils als Ersatzschalteinheit bereitstehenden Rechnereinheit UO, Ul läuft während des Betriebes selbsttätig, ohne Mitwirkung von irgend­ welchen Update-Funktionen, d. h. anwendertransparent, ab. Da die erfindungsgemäße Schaltungsanordnung für fehlertolerante Rechner­ systeme keinen mikrosynchronen Parallelbetrieb zwischen den Pro­ zessoren CCO, CCl der beiden Rechnereinheiten UO, UOl vorsieht, bewegt sich die Komplexität der Software in einem niedrigen Be­ reich. Da die Lese- und Schreibberechtigung auf die Speicherbe­ reiche SPO, SPl, ARSO, ARSl der Rechnereinheiten UO, Ul eindeu­ tig geregelt ist, sind Kollisionsfälle beim Speicherzugriff von vornherein ausgeschlossen.
Eine zusätzliche Fehlererkennungsmöglichkeit kann darin bestehen, daß für die Abarbeitung von Aufgaben jeweils höchstzulässige Zeitdauern festgelegt werden, wobei das Überschreiten der jewei­ ligen höchstzulässigen Zeitdauer wie ein Fehler behandelt wird und somit eine Umschaltung der betriebsführenden Funktion auf die bislang als Ersatzschalteinheit bereitstehende Rechnerein­ heit UO, Ul bewirkt wird.
Hat eine Rechnereinheit UO, Ul einen Fehler erkannt, so kann dies in geeigneter Weise signalisiert werden, worauf sich eine Wartung der betreffenden Rechnereinheit UO, Ul anschließen kann. Ist der aufwendige ausfallsichere Speicher ARSO, ARSl der zu wartenden Rechnereinheit UO, Ul durch das Auftreten eines Fehlers betroffen, so bedarf es nach der Rekonfiguration der jeweiligen Rechnereinheit UO, Ul eine gewisse Zeit, bis die Daten im auf­ wendigen ausfallsicheren Speicher ARSO, ARSl der gerade als Er­ satzschalteinheit bereitstehenden Rechnereinheit UO, Ul den Daten im aufwendigen ausfallsicheren Speicher ARSO, ARSl der betriebsführenden Rechnereinheit UO, Ul entsprechen; während dieser Zeit weist demnach das Rechnersystem eine eingeschränkte Fehlertoleranz auf.
Ein Wechsel des Anlagenprogrammsystems kann dadurch vorgenommen werden, daß die Rechnereinheiten UO, Ul unter Inkaufnahme einer eingeschränkten Fehlertoleranz der jeweils betriebsführenden Rechnereinheit UO, Ul durch Auftrennung des Verbindungskanals MC entkoppelt werden, worauf das neu einzusetzende Anlagenprogramm­ system in den Speicher SPO, SPl der jeweils als Ersatzschaltein­ heit bereitstehenden Rechnereinheit UO, Ul geladen wird; nach Schließung des Verbindungskanals MC kann beispielsweise durch kurzzeitige Unterbrechung der Spannungsversorgung SVO, SVl der bislang betriebsführenden Rechnereinheit UO, Ul eine Umschaltung auf die Rechnereinheit UO, Ul bewirkt werden, die mit dem neu einzusetzenden Anlagenprogrammsystem geladen ist, wobei die mit dem neuen Anlagenprogrammsystem geladene Rechnereinheit UO, Ul Zugriff auf aktuelle Daten aus dem zugehörigen aufwendigen aus­ fallsicheren Speicher ARSO, ARSl hat, die zur weiteren Abarbei­ tung der jeweils gerade anstehenden Aufgaben notwendig sind.

Claims (4)

1. Schaltungsanordnung für ein fehlertolerantes Rechnersystem, das für Echtzeitverarbeitung geeignet ist, mit zwei redundanten Rechnereinheiten (UO, Ul), die jeweils einen Arbeitsspeicher (MO, Ml) und einen Prozessor (CCO, CCl) aufweisen, die über einen Verbindungskanal (MC) miteinander verbunden sind, über den die Prozessoren (CCO, CCl) Zustandssignale darüber austauschen, welcher Prozessor (CCO, CCl) der gerade betriebsführende ist und welcher als Ersatzschalteinheit bereitsteht, wobei der jeweils betriebsführende Prozessor (CCO, CCl) Daten in die Arbeitsspei­ cher (MO, Ml) beider Rechnereinheiten (UO, Ul) zu schreiben ver­ mag und die Rechnereinheiten (UO, Ul) jeweils Mittel zum Erken­ nen von Fehlern aufweisen, dadurch gekennzeichnet, daß die Prozessoren (CCO, CCl) jeweils nur auf den zugehörigen Arbeitsspeicher (MO, Ml) lesend zugreifen, und daß die Arbeits­ speicher (MO, Ml) jeweils in einen aufwendigen ausfallsicheren Speicherbereich (ARSO, ARSl), in dem die zur Abarbeitung der jeweils gerade anstehenden Aufgaben notwendigen Daten abgelegt werden, und in einen weniger aufwendigen Speicherbereich (SPO, SPl) aufgeteilt sind, in dem alle übrigen Daten abgespeichert werden, wobei der jeweils betriebsführende Prozessor (CCO, CCl) nur in den aufwendigen ausfallsicheren Speicher (ARSO, ARSl) einzuschreibende Daten auch in den aufwendigen ausfallsicheren Speicher (ARSO, ARSl) der jeweils als Ersatzschalteinheit bereitstehenden Rechnereinheit (UO, Ul) einschreibt.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß in der jeweils als Ersatzschalteinheit bereitstehenden Rechnereinheit (UO, Ul) Aufgaben bearbeitet werden, für deren Abarbeitung nicht auf den Speicherbereich des aufwendigen ausfallsicheren Speichers (ARSO, ARSl) zugegriffen wird.
3. Schaltungsanordnung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die aufwendigen ausfallsicheren Speicher (ARSO, ARSl) je­ weils in sich gedoppelt sind.
4. Schaltungsanordnung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Rechnereinheiten (UO, Ul) jeweils eine eigene Spannungs­ versorgung (SVO, SVl) aufweisen, und daß bei Auftreten eines Fehlers in einer Rechnereinheit (UO, Ul) die Spannungsversorgung (SVO, SVl) der zugehörigen Rechnereinheit (UO, Ul) durch den zugehörigen Prozessor (CCO, CCl) abgeschaltet wird, wobei die Prozessoren (CCO, CCl) jeweils über eine Anschalte- und Trenneinrichtung (RO, Rl) auf einen mit den Arbeitsspeichern (MO, Ml) verbundenen Schreibbus (WR) Zugriff haben, und die jeweilige Anschalte- und Trenneinrichtung (RO, Rl) bei Ausfall ihrer Versorgungsspannung an ihren mit dem Schreibbus (WR) verbundenen Ausgängen einen hochohmigen Zustand aufweist.
DE19904005321 1990-02-20 1990-02-20 Fehlertolerantes rechnersystem Granted DE4005321A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19904005321 DE4005321A1 (de) 1990-02-20 1990-02-20 Fehlertolerantes rechnersystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19904005321 DE4005321A1 (de) 1990-02-20 1990-02-20 Fehlertolerantes rechnersystem

Publications (2)

Publication Number Publication Date
DE4005321A1 true DE4005321A1 (de) 1991-08-22
DE4005321C2 DE4005321C2 (de) 1992-02-06

Family

ID=6400581

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19904005321 Granted DE4005321A1 (de) 1990-02-20 1990-02-20 Fehlertolerantes rechnersystem

Country Status (1)

Country Link
DE (1) DE4005321A1 (de)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0518630A2 (de) * 1991-06-12 1992-12-16 Aeci Limited Redundante Prozessregelung
DE4332881A1 (de) * 1993-09-21 1995-03-23 Ksp Ingenieurtechnische Dienst Fehlertolerantes Multicomputersystem
DE19832060A1 (de) * 1998-07-16 2000-01-20 Siemens Ag Doppelbare Prozessoreinrichtung
EP1249744A1 (de) * 2001-08-23 2002-10-16 Siemens Aktiengesellschaft Verfahren zum Herstellen konsistenter Speicherinhalte in redundanten Systemen
EP1335615A1 (de) * 2002-02-12 2003-08-13 Alcatel Verfahren zur Verhandlung einer aktiven oder passiven Rollenzuteilung für ein Netzelementsteuerungsmittel
WO2006010374A1 (de) * 2004-07-27 2006-02-02 Siemens Aktiengesellschaft Verfahren und vorrichtung zur sicherung von konsistenten speicherinhalten in redundant speicherinheiten

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10127466C1 (de) * 2001-06-07 2002-11-28 Ahrens & Birner Company Gmbh Verfahren und Anordnung mit D-RAM und S-RAM zur Sicherstellung der Datenremanenz

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Gallaher L.E. und TOY W.N., The fault-tolerant 3B-20 Processor in: AFIPS Conf. Proceedings Vol. 50, 1981, S. 41-48 *
Jörn, Fritz H., Das Tadem ist zuverlässiger als zwei Einzelkämpfer, in: Technische Rundschau 36/86, S. 76-79 *
Jung Klaus, Verfügbarkeit und Fehlertoleranz von Rechnern zur Steuerung elektronischer Vermittlungsanlagen, in: NTG-Fachberichte Bd. 80, Struktur und Betrieb von Rechensystemen, VDE-Verlag, 1982, S. 392-403 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0518630A2 (de) * 1991-06-12 1992-12-16 Aeci Limited Redundante Prozessregelung
EP0518630A3 (en) * 1991-06-12 1993-10-20 Aeci Ltd Redundant control system
DE4332881A1 (de) * 1993-09-21 1995-03-23 Ksp Ingenieurtechnische Dienst Fehlertolerantes Multicomputersystem
DE19832060A1 (de) * 1998-07-16 2000-01-20 Siemens Ag Doppelbare Prozessoreinrichtung
DE19832060C2 (de) * 1998-07-16 2000-07-06 Siemens Ag Doppelbare Prozessoreinrichtung
EP1249744A1 (de) * 2001-08-23 2002-10-16 Siemens Aktiengesellschaft Verfahren zum Herstellen konsistenter Speicherinhalte in redundanten Systemen
EP1335615A1 (de) * 2002-02-12 2003-08-13 Alcatel Verfahren zur Verhandlung einer aktiven oder passiven Rollenzuteilung für ein Netzelementsteuerungsmittel
US7394759B2 (en) 2002-02-12 2008-07-01 Alcatel Method of negotiating an active or a passive role assignment to a control means of a network element, a control means, a program module and a network element therefor
WO2006010374A1 (de) * 2004-07-27 2006-02-02 Siemens Aktiengesellschaft Verfahren und vorrichtung zur sicherung von konsistenten speicherinhalten in redundant speicherinheiten

Also Published As

Publication number Publication date
DE4005321C2 (de) 1992-02-06

Similar Documents

Publication Publication Date Title
EP0238841B1 (de) Fehlergesicherte, hochverfügbare Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes und Verfahren zum Speicherkonfigurationsbetrieb dieser Zentralsteuereinheit
DE3587520T2 (de) Anwenderschnittstellenprozessor für Rechnernetz.
DE3111447C2 (de)
DE2048670B2 (de) Verfahren und anordnung zur ueberpruefung einer datenverarbeitungsanlage
DE3485820T2 (de) Doppelspeichersystem mit reservestromversorgung.
DE2939487A1 (de) Rechnerarchitektur auf der basis einer multi-mikrocomputerstruktur als fehlertolerantes system
DE1279980B (de) Aus mehreren miteinander gekoppelten Datenverarbeitungseinheiten bestehendes Datenverarbeitungssystem
DE2225841C3 (de) Verfahren und Anordnung zur systematischen Fehlerprüfung eines monolithischen Halbleiterspeichers
DE68922440T2 (de) Gerät und Verfahren zur gleichzeitigen Einreichung von Fehlerunterbrechung und Fehlerdaten zu einem Unterstützungsprozessor.
DE3045609C2 (de)
DE4335061C2 (de) Mehrspeichervorrichtung
DE3332601A1 (de) Schaltungsanordnung zum registrieren von adressen von einen fehlerhaften speicherinhalt aufweisenden speicherzellen
DE4005321C2 (de)
DE10317925A1 (de) Steuerungskommunikation über eine ständig eingeschaltete Steuerungsverbindung
DE3780306T2 (de) Adapterbusschalter zur verbesserung der verfuegbarkeit einer steuereinheit.
DE2325137A1 (de) Speichereinrichtung mit bereitschaftsspeicherelementen
DE2647367B2 (de) Redundante Prozeßsteueranordnung
DE69534316T2 (de) Telekommunikationsanlage mit einem prozessorsystem und ein prozessorsystem
DE2823457C2 (de) Schaltungsanordnung zur Fehlerüberwachung eines Speichers einer digitalen Rechenanlage
EP0353660B1 (de) Verfahren zur Fehlersicherung in Speichersystemen von Datenverarbeitungsanlagen, insbesondere Fernsprechvermittlungsanlagen
DE1966991A1 (de) Ausfallgesicherte datenverarbeitungsanlage
DE2846890A1 (de) Verfahren zur ueberpruefung von speichern mit wahlfreiem zugriff
DE19619886C2 (de) Steuer- und Datenübertragungsanlage mit teilweise redundantem Bussystem
CH674689A5 (de)
DE69119351T2 (de) System zur Schaltsteuerung zwischen Normal und Ersatz

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8181 Inventor (new situation)

Free format text: SCHEFTS, HORST, 8027 NEURIED, DE RIEDHAMMER, ERICH, 8031 GILCHING, DE SOWA, ALEXANDER, 8176 WAAKIRCHEN, DE WEBER, ANTON, 8000 MUENCHEN, DE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee