DE19938109A1 - Renewed activation of redundant multi-processor computer system - Google Patents

Renewed activation of redundant multi-processor computer system

Info

Publication number
DE19938109A1
DE19938109A1 DE1999138109 DE19938109A DE19938109A1 DE 19938109 A1 DE19938109 A1 DE 19938109A1 DE 1999138109 DE1999138109 DE 1999138109 DE 19938109 A DE19938109 A DE 19938109A DE 19938109 A1 DE19938109 A1 DE 19938109A1
Authority
DE
Germany
Prior art keywords
main processor
error
computer system
restarting
processor platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE1999138109
Other languages
German (de)
Inventor
Erich Krompas
Bernhard Ostendorf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE1999138109 priority Critical patent/DE19938109A1/en
Publication of DE19938109A1 publication Critical patent/DE19938109A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/22Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Hardware Redundancy (AREA)

Abstract

The method involves re-activating (1) a multi-processor computer system with at least one main processor platform (2) consisting of respectively at least two main processor units (MPU (3)) and at least two hardware components (HW (4)) for the redundant operation of the at least two main processor units (3), after a total crash of at least one main processor platform. Each main processor platform outputs an error message (5) at a crash, which contains at least one characteristic attribute, to at least one control computer (MP-SA (6)). A first characteristic attribute is preferably associated with at least one error, describing an error type, especially the gravity of the error.

Description

Die Erfindung betrifft ein Computersystem, sowie ein Verfah­ ren zur Wiederinbetriebnahme von mindestens einfach/redundan­ ten Multiprozessorcomputersystemen, insbesondere bei öffent­ lichen Vermittlungsstellen, mit mindestens einer Hauptprozes­ sorplattform (MP = Main Processor Platform), bestehend aus jeweils mindestens zwei Hauptprozessoreinheiten (MPU = Main Processor Unit) und mindestens zwei Hardwarekomponenten für den redundanten Betrieb der mindestens zwei Hauptprozes­ soreinheiten (MPU), nach einem Totalausfall mindestens einer Hauptprozessorplattform.The invention relates to a computer system and a method for restarting at least simple / redundant th multiprocessor computer systems, especially in public exchanges, with at least one main process Main platform (MP = Main Processor Platform), consisting of at least two main processor units (MPU = Main Processor Unit) and at least two hardware components for the redundant operation of the at least two main processes sensor units (MPU), after a total failure at least one Main processor platform.

In redundanten Systemen kommt es nach Fehlern in den Redun­ danzen in der Regel zu einem Totalausfall des Systems. Im folgenden soll ein einfach-redundantes System (1 + 1-Redundanz) betrachtet werden, wie es beispielsweise bei öffentlichen Vermittlungsstellen von Telekommunikationssystemen auftritt. Zur Zeit werden beispielsweise die Vermittlungsrechnersysteme EWSD oder EWSX eingesetzt.In redundant systems, errors occur in the Redun usually lead to a total failure of the system. in the the following is a simple redundant system (1 + 1 redundancy) be considered, as is the case with public Switching centers of telecommunications systems occurs. At the moment, for example, the switching computer systems EWSD or EWSX used.

Ein Gesamtsystem G besteht aus mehreren Teilsystemen E1 bis En, die einfach-redundant ausgelegt sind. So besteht bei­ spielsweise die Einheit E1 aus den zwei physikalischen Ein­ heiten E11 und E12. Beide physikalischen Einheiten verrich­ ten aus Redundanzgründen die gleiche Aufgabe. Fällt die Ein­ heit E11 aufgrund eines Fehlers aus, so kann die Aufgabe vom E1 noch vollständig durch die Einheit E12 ausgeführt werden. Ein im folgenden in E12 auftretender Fehler führt zu einem Totalausfall der Einheit E1. Hierdurch ist das Gesamtsystem G in seiner Funktionalität eingeschränkt.An overall system G consists of several subsystems E1 to En that are designed simply redundant. So there is at for example the unit E1 from the two physical inputs units E11 and E12. Both physical units the same task for redundancy reasons. The one falls If E11 is missing due to an error, the task can be canceled from E1 can still be carried out completely by the unit E12. An error subsequently occurring in E12 leads to Total failure of unit E1. As a result, the overall system G limited in functionality.

Es sind zwei unterschiedliche Fälle zu betrachten. Im ersten Fall haben beide Einheiten E11 und E12 so schwerwiegende Feh­ ler, daß keine Einheit für sich allein betriebsbereit, oder zumindest eingeschränkt betriebsbereit ist. Im zweiten Fall ist zumindest eine der beiden Einheiten E11 oder E12 für sich allein betriebsbereit.There are two different cases to consider. In the first Case both units E11 and E12 have such a serious mistake ler that no unit is operational on its own, or  is at least partially operational. In the second case is at least one of the two units E11 or E12 in itself ready for operation alone.

Bisher wurden sowohl im ersten als auch im zweiten Fall die Fehler durch einen Eingriff des Bedienpersonals, also von außen behoben. Im Falle der schwerwiegenden Fehler beider Einheiten E11 und E12 kann lediglich ein Austauschen der Ein­ heiten gegen fehlerfreie Einheiten den Ausfall von E1 beheben und somit die eingeschränkte Funktionalität des Gesamtsystems beseitigen. Im zweiten Fall, eine der beiden Einheiten E11 oder E12 ist für sich allein betriebsbereit, kann ohne die vorliegende Erfindung lediglich das Bedienpersonal durch Aus­ tausch der fehlerhaften durch eine fehlerfreie Einheit den Ausfall dieser Einheit beheben, um dem Gesamtsystem die Funk­ tion dieser Einheit wieder bereitzustellen.So far, both in the first and in the second case Errors caused by operator intervention, i.e. by fixed outside. In case of serious mistakes of both Units E11 and E12 can only be exchanged units against faultless units rectify the failure of E1 and thus the limited functionality of the overall system remove. In the second case, one of the two units E11 or E12 is ready for use by itself, can be used without the present invention only the operating personnel by off replace the faulty unit with a faultless one Failure of this unit fix the radio to the overall system tion of this unit again.

Der Austausch von Einheiten sowie die Wiederinbetriebnahme einer ausgefallenen Einheit muß von dem Bedienpersonal durch­ geführt werden. Diese manuelle Arbeit nimmt sehr viel Zeit in Anspruch.The exchange of units and the restart a failed unit must be replaced by the operating personnel be performed. This manual work takes a lot of time claim.

Es ist daher Aufgabe der Erfindung, ein Verfahren zur Wiede­ rinbetriebnahme von mindestens einfach redundanten Multipro­ zessorcomputersystemen, insbesondere bei öffentlichen Ver­ mittlungsstellen, nach einem Totalausfall mindestens einer Hauptprozessorplattform, dahingehend zu verbessern, daß eine Zeitersparnis bei Beseitigung der eingeschränkten Funktiona­ lität erreicht wird.It is therefore an object of the invention to provide a method for repetition Commissioning of at least single redundant Multipro processor computer systems, especially in public ver agencies, after a total failure at least one Main processor platform to improve that one Saving time when removing the restricted functions lity is achieved.

Außerdem soll ein Computersystem zur Anwendung des erfin­ dungsgemäßen Verfahrens entwickelt werden.In addition, a computer system to apply the inventions Process according to the invention can be developed.

Die Aufgabe der Entwicklung eines Verfahrens wird durch die Merkmale des ersten Verfahrensanspruches gelöst, die Aufgabe der Entwicklung eines Computersystems wird durch die Merkmale des ersten Vorrichtungsanspruches gelöst. The task of developing a process is through the Features of the first method claim solved the task The development of a computer system is determined by the characteristics of the first device claim solved.  

Gemäß dem ersten Verfahrensanspruch wird vorgeschlagen, das Verfahren zur Wiederinbetriebnahme von mindestens einfach­ redundanten Multiprozessorcomputersystemen, insbesondere bei öffentlichen Vermittlungsstellen, mit mindestens einer Haupt­ prozessorplattform (MP = Main Processor Platform), bestehend aus jeweils mindestens zwei Hauptprozessoreinheiten (MPU = Main Processor Unit) und mindestens zwei Hardwarekomponenten (HW) für den redundanten Betrieb der mindestens zwei Haupt­ prozessoreinheiten (MPU), nach dem Totalausfall mindestens einer Hauptprozessorplattform (MP), dahingehend zu verbes­ sern, daß jede Hauptprozessoreinheit beim Ausfall eine Feh­ lermeldung, die mindestens ein charakterisierendes Attribut enthält, an mindestens einen weiteren Kontrollcomputer (MP-SA = MP Stand Alone) ausgibt.According to the first method claim, it is proposed that Procedure for restarting at least simple redundant multiprocessor computer systems, especially in public exchanges, with at least one main processor platform (MP = Main Processor Platform) consisting of at least two main processor units (MPU = Main Processor Unit) and at least two hardware components (HW) for the redundant operation of the at least two main processor units (MPU), after the total failure at least a main processor platform (MP) to verbes to that effect Ensure that each main processor unit fails if it fails message that has at least one characterizing attribute contains, to at least one other control computer (MP-SA = MP Stand Alone).

Der Totalausfall der mindestens einfach redundanten Hauptpro­ zessorplattform (MP) kann durch die Stillegung der mindestens zwei Hauptprozessoreinheiten (MPU) verursacht sein. Hierbei kann die Stillegung der MPU durch einen Fehler in der MPU verursacht sein, wie beispielsweise einen Speicherfehler. Eine weitere Möglichkeit für den Ausfall der MPU, kann ein auftretender Fehler in der Hardwarekomponente (HW) für den redundanten Betrieb sein. Diese Hardwarekomponente (HW) er­ möglicht eine redundante Betriebsweise der Hauptprozessorein­ heiten der Hauptprozessorplattform. Zum Beispiel können die Hauptprozessoreinheiten identische Operationen ausführen.The total failure of the at least simply redundant main pro processor platform (MP) can be set aside by decommissioning the minimum two main processor units (MPU). Here the MPU can be shut down due to an error in the MPU such as a memory error. Another possibility for the failure of the MPU can be occurring error in the hardware component (HW) for the redundant operation. This hardware component (HW) he enables redundant operation of the main processor main processor platform. For example, the Main processor units perform identical operations.

Tritt ein Fehler auf, kann dem mindestens einen Fehler ein erstes charakterisierendes Attribut zugeordnet sein, das die Fehlerart beschreibt.If an error occurs, at least one error can occur be assigned to the first characterizing attribute that the Type of error describes.

Die Fehlerart kann die Schwere eines auftretenden Fehlers be­ schreiben. Die Fehlerart kann beispielsweise beschreiben, daß kein Betrieb der Hauptprozessorplattform möglich ist. Desweiteren kann die Fehlerart beschreiben, daß ein einge­ schränkter Betrieb der Hauptprozessorplattform möglich ist. The type of error can be the severity of an error that occurs write. The type of error can describe, for example, that the main processor platform cannot be operated. Furthermore, the type of error can describe that an on limited operation of the main processor platform is possible.  

Hierbei bedeutet eingeschränkter Betrieb, daß die vom Fehler betroffene MPU aktiviert werden kann und somit eine Betrei­ bung der Hauptprozessorplattform mit nur einer Hauptprozes­ soreinheit stattfinden kann (= Notbetrieb).Restricted operation means that the fault affected MPU can be activated and thus a Betrei Practice of the main processor platform with only one main process sensor unit can take place (= emergency operation).

Einem auftretenden Fehler kann ein zweites charakterisieren­ des Attribut zugeordnet sein, das den Ort des Fehlers be­ schreibt.A second error can characterize an occurring error be assigned to the attribute that be the location of the error writes.

Als Ort des mindestens einen Fehlers kann die Hardwarekompo­ nente für den redundanten Betrieb beschrieben werden. Es können beispielsweise auch die Hauptprozessoreinheit und/oder die Peripherie als Ort des mindestens einen Fehlers beschrie­ ben werden.The hardware compo can be the location of the at least one error be described for redundant operation. It can for example also the main processor unit and / or described the periphery as the location of the at least one error be.

Haben für ein einfach-redundantes System beide Einheiten so schwerwiegende Fehler, daß keine Einheit für sich allein be­ triebsbereit, oder zumindest eingeschränkt betriebsbereit ist, kann die Situation wie folgt dargestellt werden:Both units have the same for a simple redundant system serious mistakes that no unit alone operational, or at least limited operational the situation can be represented as follows:

1. und 2. Fehler1st and 2nd error

FAULT_STATE = nicht_betriebsbereit_und_kein_ Notbetrieb_möglichFAULT_STATE = not_operable_and_no_ Emergency operation_possible

Das heißt, es liegen zwei Fehler vor, die beide einen Einzel­ betrieb einer MPU nicht möglich machen. Eine automatisch Wiederinbetriebnahme ist nicht möglich.That is, there are two errors, both of which are single make operation of an MPU impossible. One automatically Recommissioning is not possible.

Im zweiten Fall ist zumindest eine der beiden Einheiten für sich allein betriebsbereit.In the second case, at least one of the two units is for ready to operate alone.

1. Fehler (für erste Hauptprozessoreinheit)1. Error (for first main processor unit)

FAULT_STATE = nicht_betriebsbereit_aber_Not­ betrieb_möglichFAULT_STATE = not_operable_but_Not operation_possible

2. Fehler (für zweite Hauptprozessoreinheit)2nd error (for second main processor unit)

FAULT_STATE = nicht_betriebsbereit_und_kein_ Notbetrieb_möglich FAULT_STATE = not_operable_and_no_ Emergency operation_possible

Das heißt, es liegen zwei Fehler vor. Hierbei kann die erste Hauptprozessoreinheit automatisch wieder in Betrieb genommen werden, die Funktionalität der Hauptprozessorplattform ist gewährleistet.That means there are two errors. Here, the first Main processor unit automatically put back into operation the functionality of the main processor platform guaranteed.

Eine Bewertung der Fehler kann anhand der charakterisierenden Attribute stattfinden.An assessment of the errors can be made using the characterizing Attributes take place.

Bei Fehlern in der Hardwarekomponente für den redundanten Be­ trieb kann eine Aktivierung der Betriebsfähigkeit der Haupt­ prozessorplattform (MP) durch Aktivierung der Hauptprozes­ soreinheit durch den mindestens einen Kontrollcomputer statt­ finden.In the event of errors in the hardware component for the redundant load drive can activate the operability of the main processor platform (MP) by activating the main processes sor unit instead of the at least one control computer Find.

Die Bewertung und Aktivierung der ausgefallenen Hauptprozes­ soreinheit kann durch mindestens ein Programmodul erfolgen. Dieses Programmodul kann sich beispielsweise im Kontrollcom­ puter befinden.The evaluation and activation of the failed main processes sensor unit can be implemented by at least one program module. This program module can be found, for example, in the control com computer.

Eine Bewertung und Aktivierung kann bei dem Auftreten zweier Fehler eines einfach redundanten Systems wie folgt aussehen.:
An evaluation and activation can look like this when two errors occur in a simply redundant system:

Eine Vielzahl von Hauptprozessorplattformen (MP) können über ein Netzwerk zu einem Multiprozessorsystem verbunden sein.A variety of main processor platforms (MP) can be used a network can be connected to a multiprocessor system.

Diese Verbindung kann über ein Netzwerk (beispielsweise einen ATM-Bus (ATM = asynchron transfer mode)) stattfinden.This connection can be made via a network (e.g. a ATM bus (ATM = asynchronous transfer mode)) take place.

Die Erfinder haben erkannt, daß bei einer systemgesteuerten Wiederinbetriebnahme einer ausgefallenen Einheit, also einer Wiederinbetriebnahme mit Hilfe eines Kontrollcomputers ohne Eingriff durch ein Bedienpersonal, die Zeit der eingeschränk­ ten Systemfunktionalität auf einen sehr kurzen Zeitraum be­ grenzt wird.The inventors have recognized that in a system-controlled Recommissioning a failed unit, i.e. one Recommissioning using a control computer without Intervention by an operator, the time of restricted system functionality for a very short period of time is bordered.

Die Erfinder schlagen weiterhin vor, insbesondere zur Nutzung des oben genannten Verfahrens, ein Computersystem, insbeson­ dere in Vermittlungsrechnersystemen, mit mindestens einer Hauptprozessorplattform (MP = Main Processor Platform), be­ stehend aus jeweils mindestens zwei Hauptprozessoreinheiten (MPU = Main Processor Unit), mit mindestens zwei Hardwarekom­ ponenten (HW) für den redundanten Betrieb der mindestens zwei Hauptprozessoreinheiten, dahingehend zu verbessern, daß es ein Mittel zur automatischen Wiederinbetriebnahme einer zuvor ausgefallenen Einheit enthält.The inventors continue to propose, especially for use the above method, a computer system, in particular those in switching computer systems, with at least one Main processor platform (MP), be each consisting of at least two main processor units (MPU = Main Processor Unit), with at least two hardware comm components (HW) for the redundant operation of the at least two Main processor units to improve that a means for automatically restarting a previously failed unit contains.

Vorteilhaft kann das Mittel zur automatischen Wiederinbe­ triebnahme einer zuvor ausgefallenen Einheit so ausgestaltet werden, daß für jeden Ausfall der mindestens einen Hauptpro­ zessorplattform eine Fehlermeldung, die mindestens ein cha­ rakterisierendes Attribut enthält, vorhanden ist.The means for automatic recovery can be advantageous drive of a previously failed unit designed so be that for each failure of the at least one main pro processor platform an error message that contains at least one cha contains characteristic attribute is present.

Hierbei kann für den mindestens einen Fehler ein erstes cha­ rakterisierendes Attribut vorhanden sein, das die Fehlerart, insbesondere die Schwere des Fehlers beschreibt. In this case, a first cha characterizing attribute that indicates the type of error, particularly describes the severity of the error.  

Für den mindestens einen Fehler kann ein zweites charakteri­ sierendes Attribut vorhanden sein, das den Ort des Fehlers beschreibt.A second character can be used for the at least one error attribute must be present that indicates the location of the error describes.

Es kann mindestens ein Kontrollcomputer vorhanden sein, der die Fehlermeldung erhält.There can be at least one control computer that receives the error message.

Mindestens ein Programmodul kann vorhanden sein, das die auf­ tretenden Fehler bewertet. Das Programmodul kann beispiels­ weise im Kontrollcomputer enthalten sein.At least one program module can be present that the on occurring error assessed. The program module can, for example be contained in the control computer.

Des weiteren kann das Programmodul zur Aktivierung der Be­ triebsfähigkeit der ausgefallenen Hauptprozessoreinheit (MPU) vorhanden sein.Furthermore, the program module for activating the loading operability of the failed main processor unit (MPU) to be available.

Im Computersystem kann für jede MPU eine zugehörige Hardware­ komponente (HW) für den redundanten Betrieb vorhanden sein. Diese Hardwarekomponente ermöglicht die redundante Betriebs­ weise der Hauptprozessoreinheiten.Associated hardware can be found in the computer system for each MPU component (HW) for redundant operation. This hardware component enables redundant operation the main processor units.

Es können eine Vielzahl von Hauptprozessorplattformen (MP) vorhanden sein, die über ein Netzwerk zu einem Multiprozes­ sorsystem verbunden sind.A variety of main processor platforms (MP) be present over a network to a multiprocess sorsystem are connected.

Als Verbindung kann ein Netzwerk, wie beispielsweise ein ATM- Bus (ATM = asynchron transfer mode) vorhanden sein.A network, such as an ATM Bus (ATM = asynchronous transfer mode) is available.

Es versteht sich, daß die vorstehend genannten und nachste­ hend noch zu erläuternden Merkmale der Erfindung nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der Erfindung zu verlassen.It is understood that the above and next features to be explained not only in the specified combination, but also in others Combinations or alone can be used without to leave the scope of the invention.

Weitere Merkmale der Erfindung ergeben sich aus den Unteran­ sprüchen und der nachfolgenden Beschreibung eines Ausfüh­ rungsbeispiels unter Bezugnahme auf drei Zeichnungen. Further features of the invention result from the Unteran say and the following description of an execution Example with reference to three drawings.  

Im folgenden wird die Erfindung anhand der drei Zeichnungen beschrieben:In the following the invention with reference to the three drawings described:

Die Fig. 1 und 2 zeigen eine beispielhafte schematische Darstellung eines Multiprozessorsystems 1, bestehend aus meh­ reren Hauptprozessorplattformen (MP) 2, einem Kontrollcompu­ ter (MP-SA) 6 und einem Netzwerk 11, das eine Verbindung zwi­ schen den Hautprozessorplattformen 2 und dem Kontrollcomputer 6 herstellt. Figs. 1 and 2 show an exemplary schematic diagram of a multiprocessor system 1 consisting of MEH reren main processor platforms (MP) 2, a Kontrollcompu ter (MP-SA) 6 and a network 11, the interim rule to connect the skin processor platforms 2 and the control computer 6 manufactures.

Die beispielhafte Ausführung eines einfach-redundanten Sy­ stems mit zwei Hauptprozessoreinheiten (MPU0 und MPU1) 3 und zwei Hardwarekomponenten (HW) 4 für den redundanten Betrieb ist in einer der Hauptprozessorplattformen 2 dargestellt.The exemplary embodiment of a simple redundant system with two main processor units (MPU0 and MPU1) 3 and two hardware components (HW) 4 for the redundant operation is shown in one of the main processor platforms 2 .

Die Fig. 1 zeigt zwei Fehler 7, die in den Hauptprozes­ soreinheiten 3 MPU0 und MPU1 auftreten. Beide Hauptprozes­ soreinheiten 3 haben so schwerwiegende Fehler 7, daß keine MPU 3 für sich allein betriebsbereit ist. Dies führt zum To­ talausfall der betreffenden Hauptprozessorplattform 2. Fig. 1 shows two errors 7 , which occur in the main processor units 3 MPU0 and MPU1. Both main processor units 3 have such serious errors 7 that no MPU 3 is ready for operation on its own. This leads to total failure of the relevant main processor platform 2 .

Die Fig. 2 zeigt zwei Fehler 7, wobei der eine in der Hard­ warekomponente 4 für den redundanten Betrieb der Hauptprozes­ soreinheit MPU0, der andere in der Hauptprozessoreinheit MPU1 auftritt. Hier ist die MPU0 für sich allein betriebsbereit. Das erfindungsgemäße Verfahren und Computersystem bewirken eine automatische Aktivierung 9 der Einheit MPU0. Fig. 2 shows two errors 7 , one in the hardware component 4 for the redundant operation of the main processor unit MPU0, the other occurs in the main processor unit MPU1. Here the MPU0 is ready for operation on its own. The method and computer system according to the invention bring about an automatic activation 9 of the MPU0 unit.

Die Fig. 3 zeigt die Aktivierung 9 einer ausgefallenen Hauptprozessorplattform 2. Nach dem Totalausfall erhält das Programmodul 10 eine Fehlermeldung 5. Es folgt eine Bewer­ tung 8 des mindestens einen der Fehlers 7 anhand seines min­ destens einen charakterisierenden Attributes. Das charakte­ risierende Attribut beschreibt beispielsweise die Fehlerart, insbesondere wie schwerwiegend der Fehler ist und den Fehler­ ort. Im beschriebenen Beispiel findet eine Aktivierung 9 der Hauptprozessoreinheit MPU0 statt, da ein Fehler in der Hard­ warekomponente 4 für den redundanten Betrieb erkannt wird. Dies führt zu einer Wiederinbetriebnahme der Hauptprozessor­ plattform 2. FIG. 3 shows the activation of a failed host processor 9 platform 2. After the total failure, the program module 10 receives an error message 5 . This is followed by an evaluation 8 of the at least one of the errors 7 based on its at least one characterizing attribute. The characteristic risky attribute describes, for example, the type of error, in particular how serious the error is and the location of the error. In the example described, the main processor unit MPU0 is activated 9 because an error in the hardware component 4 for the redundant operation is detected. This leads to a restart of the main processor platform 2 .

Claims (24)

1. Verfahren zur Wiederinbetriebnahme von mindestens ein­ fach redundanten Multiprozessorcomputersystemen (1), ins­ besondere bei öffentlichen Vermittlungsstellen, mit min­ destens einer Hauptprozessorplattform (MP = Main Prozes­ sor Plattform) (2), bestehend aus jeweils mindestens zwei Hauptprozessoreinheiten (MPU = Main Prozessor Unit) (3) und mindestens zwei Hardwarekomponenten (HW) (4) für den redundanten Betrieb der mindestens zwei Hauptprozes­ soreinheiten (3), nach einem Totalausfall mindestens einer Hauptprozessorplattform (MP) (2), dadurch ge­ kennzeichnet, daß jede Hauptprozessorplattform (MP) (2) beim Ausfall eine Fehlermeldung (5), die mindestens ein charakterisierendes Attribut enthält, an mindestens einen Kontrollcomputer (MP-SA = MP Stand Alone) (6) aus­ gibt.1. Method for restarting at least one multiply processor redundant computer systems ( 1 ), especially in public exchanges, with at least one main processor platform (MP = Main Processor Platform) ( 2 ), each consisting of at least two main processor units (MPU = Main Processor Unit ) ( 3 ) and at least two hardware components (HW) ( 4 ) for the redundant operation of the at least two main processor units ( 3 ), after a total failure of at least one main processor platform (MP) ( 2 ), characterized in that each main processor platform (MP) ( 2 ) in the event of failure, outputs an error message ( 5 ), which contains at least one characterizing attribute, to at least one control computer (MP-SA = MP Stand Alone) ( 6 ). 2. Verfahren zur Wiederinbetriebnahme gemäß dem voranstehen­ den Anspruch 1, dadurch gekennzeichnet, daß minde­ stens einem Fehler (7) ein erstes charakterisierendes At­ tribut zugeordnet ist, das die Fehlerart, insbesondere die Schwere des Fehlers beschreibt.2. A method for restarting according to the preceding claim 1, characterized in that at least one error ( 7 ) is assigned a first characterizing attribute which describes the type of error, in particular the severity of the error. 3. Verfahren zur Wiederinbetriebnahme, gemäß dem voranste­ henden Anspruch 2, dadurch gekennzeichnet, daß eine Fehlerart beschreibt, daß kein Betrieb der Hauptpro­ zessorplattform (2) möglich ist.3. A method for restarting, according to the preceding claim 2, characterized in that one type of error describes that no operation of the main processor platform ( 2 ) is possible. 4. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 2 bis 3, dadurch gekennzeich­ net, daß eine Fehlerart beschreibt, daß ein einge­ schränkter Betrieb der Hauptprozessorplattform (2) mög­ lich ist. 4. A method for restarting according to one of the preceding claims 2 to 3, characterized in that a type of error describes that a restricted operation of the main processor platform ( 2 ) is possible. 5. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 4, dadurch gekennzeich­ net, daß mindestens einem Fehler (7) ein zweites cha­ rakterisierendes Attribut zugeordnet ist, das den Ort des Fehlers (7) beschreibt.5. A method for restarting according to one of the preceding claims 1 to 4, characterized in that at least one error ( 7 ) is assigned a second characterizing attribute describing the location of the error ( 7 ). 6. Verfahren zur Wiederinbetriebnahme, gemäß dem voranste­ henden Anspruch 5, dadurch gekennzeichnet, daß als Ort des mindestens einen Fehlers (7) die Hardwarekompo­ nente (4) für den redundanten Betrieb beschrieben wird.6. A method for restarting, according to the preceding claim 5, characterized in that the hardware component ( 4 ) for the redundant operation is described as the location of the at least one error ( 7 ). 7. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 5 bis 6, dadurch gekennzeich­ net, daß als Ort des mindestens einen Fehlers (7) die Hauptprozessoreinheit (3) beschrieben wird.7. The method for restarting according to one of the preceding claims 5 to 6, characterized in that the main processor unit ( 3 ) is described as the location of the at least one error ( 7 ). 8. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 5 bis 7, dadurch gekennzeich­ net, daß als Ort des mindestens einen Fehlers (7) eine Peripherie gelten kann.8. A method for restarting according to one of the preceding claims 5 to 7, characterized in that a periphery can apply as the location of the at least one error ( 7 ). 9. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 8, dadurch gekennzeich­ net, daß eine Bewertung (8) der Fehler (7) anhand der charakterisierenden Attribute stattfindet.9. The method for restarting according to one of the preceding claims 1 to 8, characterized in that an evaluation ( 8 ) of the error ( 7 ) takes place on the basis of the characterizing attributes. 10. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 9, dadurch gekennzeich­ net, daß bei Fehlern (7) in der Hardwarekomponente (4) für den redundanten Betrieb eine Aktivierung (9) der Be­ triebsfähigkeit der Hauptprozessorplattform (MP) (2) durch Aktivierung (9) einer Hauptprozessoreinheit (3) durch den mindestens einen Kontrollcomputer (MP-SA) (6) stattfindet.10. A method for restarting according to one of the preceding claims 1 to 9, characterized in that in the event of errors ( 7 ) in the hardware component ( 4 ) for redundant operation, an activation ( 9 ) of the operability of the main processor platform (MP) ( 2 ) by activation ( 9 ) of a main processor unit ( 3 ) by the at least one control computer (MP-SA) ( 6 ). 11. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 10, dadurch gekennzeich­ net, daß eine Bewertung (8) der Fehler (7) durch minde­ stens ein Programmodul (10) stattfindet.11. A method for restarting according to one of the preceding claims 1 to 10, characterized in that an evaluation ( 8 ) of the errors ( 7 ) by at least one program module ( 10 ) takes place. 12. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 11, dadurch gekennzeich­ net, daß eine Aktivierung (9) der ausgefallenen Haupt­ prozessoreinheit (3) durch mindestens ein Programmodul (10) stattfindet.12. A method for restarting according to one of the preceding claims 1 to 11, characterized in that an activation ( 9 ) of the failed main processor unit ( 3 ) takes place by at least one program module ( 10 ). 13. Verfahren zur Wiederinbetriebnahme gemäß einem der voran­ stehenden Ansprüche 1 bis 12, dadurch gekennzeich­ net, daß eine Vielzahl von Hauptprozessorplattformen (MP) (2) über ein Netzwerk zu einem Multiprozessorsystem (1) verbunden sind und von dem mindestens einem Kon­ trollcomputer (6) betreut werden.13. The method for restarting according to one of the preceding claims 1 to 12, characterized in that a plurality of main processor platforms (MP) ( 2 ) are connected via a network to a multiprocessor system ( 1 ) and from the at least one control computer ( 6 ) are cared for. 14. Verfahren zur Wiederinbetriebnahme gemäß dem voranstehen­ den Anspruch 13, dadurch gekennzeichnet, daß die Verbindung über einen ATM-Bus (ATM = asynchron transfer mode) stattfindet.14. Restart procedure according to the previous the claim 13, characterized in that the Connection via an ATM bus (ATM = asynchronous transfer mode) takes place. 15. Computersystem, insbesondere in Vermittlungsrechnersyste­ men, mit mindestens einer Hauptprozessorplattform (MP = Main Processor Platform) (2), bestehend aus jeweils min­ destens zwei Hauptprozessoreinheiten (MPU = Main Proces­ sor Unit) (3), mit mindestens zwei Hardwarekomponenten (HW) (4) für den redundanten Betrieb der mindestens zwei Hauptprozessoreinheiten (3), dadurch gekennzeich­ net, daß es ein Mittel zur automatischen Überwachung und Aktivierung (9) einer vorher ausgefallenen Hauptpro­ zessoreinheit (3) enthält.15. Computer system, in particular in switching computer systems, with at least one main processor platform (MP = Main Processor Platform) ( 2 ), each consisting of at least two main processor units (MPU = Main Processors Unit) ( 3 ), with at least two hardware components (HW) (4) for redundant operation of the at least two main processor units (3), characterized in that it zessoreinheit means for automatically monitoring and activation (9) of a previously failed Hauptpro (3). 16. Computersystem gemäß dem voranstehenden Anspruch 15, da­ durch gekennzeichnet, daß für jeden Ausfall der mindestens einen Hauptprozessorplattform (2) eine Fehler­ meldung (5), die mindestens ein charakterisierendes At­ tribut enthält, vorhanden ist. 16. Computer system according to the preceding claim 15, characterized in that for each failure of the at least one main processor platform ( 2 ) an error message ( 5 ) containing at least one characterizing At tribute is available. 17. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 16, dadurch gekennzeichnet, daß für den mindestens einen Fehler (7) ein erstes charakterisieren­ des Attribut, das die Fehlerart, insbesondere die Schwere des Fehlers beschreibt, vorhanden ist.17. Computer system according to one of the preceding claims 15 to 16, characterized in that for the at least one error ( 7 ) characterize a first attribute which describes the type of error, in particular the severity of the error, is present. 18. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 17, dadurch gekennzeichnet, daß für den mindestens einen Fehler (7) ein zweites charakterisieren­ des Attribut, das den Ort des Fehlers (7) beschreibt, vorhanden ist.18. Computer system according to one of the preceding claims 15 to 17, characterized in that for the at least one error ( 7 ) characterize a second attribute which describes the location of the error ( 7 ) is present. 19. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 18, dadurch gekennzeichnet, daß mindestens ein Kontrollcomputer (6), der die Fehlermeldung (5) er­ hält, vorhanden ist.19. Computer system according to one of the preceding claims 15 to 18, characterized in that at least one control computer ( 6 ) which holds the error message ( 5 ) is present. 20. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 19, dadurch gekennzeichnet, daß mindestens ein Programmodul für die Bewertung (8) der Fehler (4) vorhanden ist.20. Computer system according to one of the preceding claims 15 to 19, characterized in that at least one program module for evaluating ( 8 ) the error ( 4 ) is present. 21. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 20, dadurch gekennzeichnet, daß mindestens ein Programmodul für die Aktivierung (9) der Betriebsfä­ higkeit der ausgefallenen Hauptprozessoreinheit (MPU) (3) vorhanden ist.21. Computer system according to one of the preceding claims 15 to 20, characterized in that at least one program module for the activation ( 9 ) of the operability of the failed main processor unit (MPU) ( 3 ) is present. 22. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 21, dadurch gekennzeichnet, daß für jede Hauptprozessoreinheit (MPU) (3) eine zugehörige Hardware­ komponente (HW) (4) für den redundanten Betrieb vorhanden ist.22. Computer system according to one of the preceding claims 15 to 21, characterized in that for each main processor unit (MPU) ( 3 ) an associated hardware component (HW) ( 4 ) is available for redundant operation. 23. Computersystem gemäß einem der voranstehenden Ansprüche 15 bis 22, dadurch gekennzeichnet, daß eine Viel­ zahl von Hauptprozessorplattformen (MP) (2), die über ein Netzwerk zu einem Multiprozessorcomputersystem (1) ver­ bunden sind, vorhanden sind.23. Computer system according to one of the preceding claims 15 to 22, characterized in that a large number of main processor platforms (MP) ( 2 ), which are connected via a network to a multiprocessor computer system ( 1 ), are available. 24. Computersystem gemäß dem voranstehenden Anspruch 23, da­ durch gekennzeichnet, daß als Netzwerk ein ATM-Bus (11) (ATM = asynchron transfer mode) vorhanden ist.24. Computer system according to the preceding claim 23, characterized in that an ATM bus ( 11 ) (ATM = asynchronous transfer mode) is present as the network.
DE1999138109 1999-08-12 1999-08-12 Renewed activation of redundant multi-processor computer system Ceased DE19938109A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1999138109 DE19938109A1 (en) 1999-08-12 1999-08-12 Renewed activation of redundant multi-processor computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999138109 DE19938109A1 (en) 1999-08-12 1999-08-12 Renewed activation of redundant multi-processor computer system

Publications (1)

Publication Number Publication Date
DE19938109A1 true DE19938109A1 (en) 2001-03-01

Family

ID=7918086

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999138109 Ceased DE19938109A1 (en) 1999-08-12 1999-08-12 Renewed activation of redundant multi-processor computer system

Country Status (1)

Country Link
DE (1) DE19938109A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1964250A1 (en) * 1969-12-22 1971-07-15 Siemens Ag Centrally controlled switching system for telecommunications, in particular telephone technology

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1964250A1 (en) * 1969-12-22 1971-07-15 Siemens Ag Centrally controlled switching system for telecommunications, in particular telephone technology

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fa. Druckschrift, Siemens: Elektr. Wählsystem EWS Zentralsteuerwerk mit SSP 102 und Bedienungsplatz,Bestelln. A30808-X15-A100-18, Dez. 1978, S. 62-64,67-75, 90-109 *

Similar Documents

Publication Publication Date Title
EP2550599B1 (en) Control computer system, method for controlling a control computer system, and use of a control computer system
DE19747396C2 (en) Method and arrangement for creating a remote diagnosis for an electronic system via a network
DE19509363C2 (en) Parallel processor system and method for switching between groups of parallel processors
EP0236803B1 (en) Method for the operation of a fault-protected and highly available multiprocessor central controller of a switching system
DE1524239B2 (en) CIRCUIT ARRANGEMENT FOR MAINTAINING ERROR-FREE OPERATION IN A COMPUTER SYSTEM WITH AT LEAST TWO COMPUTER DEVICES WORKING IN PARALLEL
EP0238841A1 (en) Error-protected multiprocessor controller having a high availability to a switching system, and method for memory configuration operation of this centraller
EP2550598A1 (en) Redundant two-processor controller and control method
DE4317729A1 (en) Programmable control unit
DE2210325A1 (en) Data processing system
DE3702408C2 (en)
DE3322509C2 (en)
EP1358554B1 (en) Automatic startup of a cluster system after occurrence of a recoverable error
DE2461592C3 (en) Arrangement for performing maintenance operations on a data processing system
DE3036926C2 (en) Method and arrangement for controlling the workflow in data processing systems with microprogram control
DE102019131865A1 (en) METHOD AND DEVICE FOR SELF-DIAGNOSTICING THE RAM ERROR DETECTION LOGIC OF A DRIVELINE CONTROLLER
EP1820307B1 (en) Process for detecting the availability of redundant communication system components
DE4302908A1 (en) Critical fault detection system for communication system - compares number of detected faults within defined interval with threshold value to indicate critical condition
DE4233837A1 (en) Dual lane computing system
DE2717375C3 (en) Device for locating program or hardware errors
DE19938109A1 (en) Renewed activation of redundant multi-processor computer system
DE3404782A1 (en) METHOD AND CIRCUIT ARRANGEMENT FOR CHECKING A PROGRAM IN DATA PROCESSING SYSTEMS
DE60003209T2 (en) METHOD AND DEVICE FOR IMPROVING THE RELIABILITY OF A COMPUTER SYSTEM
EP2250560B1 (en) Method for increasing the robustness of computer systems and computer system
DE2715983C2 (en) Circuit arrangement in a digital computer for monitoring and checking the proper operation of the digital computer
DE2950342A1 (en) Telephone exchange fault diagnostic routine - receiving faults detected by central processor in excitation register for fault locating and separately storing according to fault type

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection