EP3049932A1 - Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems - Google Patents

Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems

Info

Publication number
EP3049932A1
EP3049932A1 EP14799950.2A EP14799950A EP3049932A1 EP 3049932 A1 EP3049932 A1 EP 3049932A1 EP 14799950 A EP14799950 A EP 14799950A EP 3049932 A1 EP3049932 A1 EP 3049932A1
Authority
EP
European Patent Office
Prior art keywords
time
message
sign
life
constituent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP14799950.2A
Other languages
English (en)
French (fr)
Inventor
Hermann Kopetz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tttech Computertechnik AG
Original Assignee
FTS Computertechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FTS Computertechnik GmbH filed Critical FTS Computertechnik GmbH
Publication of EP3049932A1 publication Critical patent/EP3049932A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Definitions

  • the invention relates to a method for detecting a failure of a constituent system in a system-of-system consisting of a number of constituent systems exchanging messages via a communication system.
  • the present invention is in the field of computer engineering and describes an innovative method of how, in a system-of-system, an extremely rapid detection of a failure of a subsystem can be realized.
  • a constituent system may be shut down at short notice by the local operator or otherwise, e.g. Hardware or software error, fail.
  • the immediate detection of a failure of a constituent system - the minimization of fault detection latency - is of great importance, since rapid fault detection is a necessary prerequisite for setting timely measures to handle a fault.
  • rapid fault detection is a necessary prerequisite for setting timely measures to handle a fault.
  • an error latency as possible is critical to minimize the consequences of a moving system error.
  • a moving system in the event of camera failure immediately stop the movement to prevent an accident. The later the movement is stopped, the more likely is the occurrence of an accident.
  • a widely used method for error detection is the monitoring of a periodic life sign message of a constituent system by a monitor component.
  • a life character message is a message from whose arrival at a receiver it can be deduced that the sender of this message had not failed at the time of creation of the life character message. If a monitor component whose job it is to monitor the orderly operation of a system-of-system determines that a life sign message has not arrived before the expected time-out time, the monitor component can immediately set appropriate work-around action. Since the consequences of an error can spread unhindered in the time interval between the occurrence of an error and the detection of an error, it is important to keep this time interval-the error detection latency-as short as possible.
  • the period of the life sign message is determined by the progression of the local clock in the constituent system to be monitored. Because there is no global time available in many systems, the communication system is event-driven (Kopetz, H. Real-Time Systems, Design Principles for Distributed Embedded Applications. Springer Verlag. 2011, p. 178). Due to the large jitter of an event-driven communication system, a corresponding time-out must be set so that the error-detection latency becomes long (see the example at the end of the description of a realization section).
  • a global time with a known granularity g exists, at least one constituent system to a priori from the progression of global time specific periodic generation times a timed sign of life which is synchronized in the timed communication system a priori by the progression of the global time transmission time of this life character message with the generation time of this life character message and the a priori of the progression of the global time determined time of receiving this life character message with the a priori from the progression of the global time determined timeout the arrival of the life sign message monitoring monitor of this lifetime message is synchronized, wherein at the timeout time an error message is triggered, if expected Receiving time no life sign message has arrived.
  • a priori realized over a global time synchronization realized the periodic generation time of the life sign message with the transmission time of the message in a timed communication system and further by an a priori planned synchronization of the periodic reception time of the life sign message with the timeout time of the message in the monitor component Time interval between the occurrence of an error and the detection of the error minimized.
  • the time interval, measured with the global time, between the time of creation of the life character message and the transmission time of this message is ng, where g is the granularity of the global time and n is a natural number with n> 2 is.
  • time interval measured with the global time, between the time of arrival of the sign of life message and the timeout time of this message is n.g, where g is the granularity of the global time and n is a natural number with n> 2.
  • an error handling process is started when the error message is triggered.
  • Fig. 1 shows the structure of a system-of-system
  • Fig. 2 shows the timing of the transport of a life sign message in the inventive method.
  • Constituent system An autonomous subsystem of a system of system.
  • Receipt time of a message The time at which the complete message is transferred to a recipient.
  • the periodic reception times are derived a priori from the progression of the global time.
  • Creation time of a message The time at which a message is generated by a producer.
  • Error detection latency the time interval between failure and failure detection.
  • Global Time An abstraction about the synchronized times of local clocks in some or all of the constituent system of a system of system. The granularity g of the global time results from the precision of clock synchronization see [Kopetz, supra, pages 58-63].
  • Jitter of a message transport the difference between the minimum and maximum transport times.
  • Sign of life message a periodic message from whose arrival at a receiver it can be deduced that the sender of this message had not failed at the time of creation of the sign of life signing.
  • Legacy system Existing computer system that is integrated into a system of systems. The integration makes the legacy system a constituent system.
  • Send time of a message The time at which the sender starts a message through a communication system.
  • the periodic transmission times are derived a priori from the progression of the global time.
  • Synchronization of two events General: the timing of two events. In the context of this patent specification: timed sequence of two events.
  • a system-of-System arises from the integration of a finite number of constituent systems that operate independently and communicate over a network for a given time interval to reach a given higher target.
  • a System of Systems is an Integration of a finite number of constituent systems which are independent and operable, and which are networked together for a period of time to achieve a certain higher goal.”
  • Timeout Time The time when it is determined that an expected event (e.g., the receipt of an expected message) has not arrived.
  • Timed communication system A communication system in which the periodic transmission times of the messages are determined a priori from the progression of the global time such that there are no time conflicts in the message transport, e.g. TT Ethernet [Jamshidi, s.o.].
  • Cyclic Computer System A computer system that processes the data in cycles. At the beginning of a cycle, the input data is read by the environment, and before the end of a cycle, the output data is transferred to the environment.
  • Fig. 1 shows the structure of a system of system consisting of the four constituent systems 1 10, 111, 112 and 113, the message distribution unit 120 and the monitor component 130.
  • the four constituent systems 110, 111, 112 and 113 and the monitor component 130 is connected to the message distribution unit 120 via bidirectional communication channels 151.
  • an actuator 122 such as a valve
  • a sensor 123 such as a camera
  • the message distribution unit arbitrates timed messages, eg by means of the TTEthernet protocol [SAE standard AS6802 of TT Ethernet. URL: http: // standards. sae. org / ' as6802].
  • the four constituent systems 110, 111, 112, 113, the message distributor unit 120 and the monitor component 130 have access to a global time with the granularity g.
  • the global time is established either via an internal synchronization algorithm as described in ([Kopetz, sup., Pages 66-73]) or via the reception of GPS signals (see [Kopetz, supra, page 74]).
  • the internal synchronization can be fault tolerant.
  • Fig. 2 shows the timing of error detection assuming a global time with which the events 211, 212 and 213 are synchronized and a time-triggered communication system TT-Ethernet.
  • the ticks of the global time are entered.
  • the granularity of the global time i. the distance between two ticks is 2 ⁇ . This granularity of global time results from the precision of clock synchronization as described in [Kopetz, supra. Page 58].
  • the communication system 120 is realized by a 100 Mbit TTEthernet.
  • a constituent system e.g. the constituent system 113
  • the monitor component 130 interprets this message as a life sign message of the component 113.
  • the period of the life sign message is designated 260 in FIG.
  • the life-character message is generated at the time of generation 210 and sent at the time of transmission 211.
  • the time of reception of the expected life character message the Sign of life message at the monitor component 130. Therefore, at timeout 213, the timeout that monitors the arrival of the life sign message does not become active.
  • the duration of the life character message transport ie, the interval 250 between the send event 211 and the receive event 212, that is the transport time, is 14 ⁇ .
  • the time interval between the events 210 and 211 and the events 222 and 223 must be at least 2 g, where g indicates the granularity of global time to ensure the temporal synchronization of these events (see [Kopetz, supra, p.62]).
  • component 113 has failed.
  • no message is generated at the time of generation 210 of the life sign message 220, and no message is sent even at the time of transmission 221.
  • no sign of life message arrives at the monitor component 130 and therefore at timeout point 223 the timeout becomes active and triggers an error message or an error handling.
  • the error detection latency 270 d.i. the time interval between the failure 211 and the detection of the failure by the timeout 223, 26 ⁇ .
  • the error detection latency that results when using the prior art methodology is estimated.
  • the constituent system 113 periodically generates, according to its non-synchronized local time, a life character message with a period of approximately 60 ⁇ .
  • a life character message arrives at the monitor component 130, a new timeout is set to monitor the arrival of the next life character message. Since in this case the communication system must operate in an event-controlled manner, the transport time varies between the minimum transport time of 14 and a worst-case maximum transport duration which can not be exactly estimated.
  • the worst-case maximum transport duration is 214 ⁇ and the jitter, d.i. the difference between minimum and maximum transport time, 200 ⁇ . Since the timeout has to be longer than the jitter, this results in a worst case fault detection latency of more than 414 ⁇ (maximum transport time plus length of the timeout interval).
  • Error detection latency 270 according to the invention 26 ⁇ .
  • a system on chip is a component known in microelectronics that contains the CPU, the memory, the input / output electronics, a communication controller and the necessary software for a specified task.
  • a system-on-chip is a clearly defined failure unit from the standpoint of fault tolerance, which periodically has to send a life sign message. After absence of the life sign message, caused by a transient error, d.i. an error that corrupts the data stored in the volatile memory of the system-on-chip, but has not permanently damaged the hardware of the chip, it makes sense, the entire system-on-chip by a reset message from the monitor component 130 new to start. Since most hardware errors are transient in nature, such a procedure, combined with the rapid error detection, the operability of the affected system-on-chip can be restored within a cycle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

Ein Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems (110...113) in einem System-of-Systems (1), bestehend aus einer Anzahl von Constituent- Systemen (111...113), die über ein Kommunikationssystem (120) Nachrichten austauschen, bei welchem in jedem Constituent-System (111...113) eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten (210, 211) eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem (120) a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt (211, 221) dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt (212, 222) dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt (213, 223) eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors (130) dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt (222) keine Lebenszeichennachricht eingetroffen ist

Description

Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems in einem System-of-Systems
Die Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems in einem System-of-Systems, bestehend aus einer Anzahl von Constituent-Systemen, die über ein Kommunikationssystem Nachrichten austauschen.
Die vorliegende Erfindung liegt im Bereich der Computertechnik und sie beschreibt ein innovatives Verfahren, wie in einem System-of-Systems eine extrem rasches Erkennen eines Ausfalls eines Subsystems realisiert werden kann.
Durch die Integration bestehender EDV-Systeme (legacy Systems) oder neu entwickelter EDV-Systeme in ein System-of-Systems können neue Dienste angeboten und wirtschaftliche Vorteile realisiert werden. In der Fachliteratur (Jamshidi, M., Ed. System of Systems Engineering - Innovations for the 21st Centur., J. Wiley & Sons.2009]) hat sich der Begriff Constituent-System für ein Subsystem eines System-of-Systems durchgesetzt.
Da die Constituent-Systeme eines System-of-Systems von unterschiedlichen Organisationen entwickelt und/oder betrieben werden, die vorrangig ihre eigenen Ziele verfolgen, kann ein Constituent-System kurzfristig vom lokalen Betreiber abgeschaltet werden oder aus anderen Gründen, z.B. Hardware- oder Softwarefehler, ausfallen. Aus der Sicht eines System-of-Systems ist die sofortige Erkennung eines Ausfalls eines Constituent-System - die Minimierung der Fehlererkennungslatenz - von großer Bedeutung, da eine rasche Fehlererkennung eine notwendige Voraussetzung für das Setzen von zeitgerechten Maßnahmen zur Behandlung eines Fehlers darstellt. Zum Beispiel ist eine möglichst kurze Fehlerlatenz entscheidend, um die Folgen eines Fehlers eines bewegten Systems zu minimieren. So kann z.B. in einem bewegten System bei Ausfall einer Kamera sofort die Bewegung angehalten werden, um einen Unfall zu verhindern. Je später die Bewegung angehalten wird, umso wahrscheinlicher ist das Auftreten eines Unfalls.
Eine weit verbreitete Methode zur Fehlererkennung ist die zeitliche Überwachung einer periodischen Lebenszeichennachricht (life-sign message) eines Constituent- Systems durch eine Monitorkomponente. Eine Lebenszeichennachricht ist eine Nachricht, aus deren Eintreffen bei einem Empfänger abgeleitet werden kann, dass der Sender dieser Nachricht zum Erzeugungszeitpunkt der Lebenszeichennachricht nicht ausgefallen war. Wenn eine Monitorkomponente, deren Aufgabe es ist, den geordneten Betrieb eines System-of-Systems zu überwachen, feststellt, dass eine Lebenszeichennachricht vor dem erwarteten Timeoutzeitpunkt nicht eingetroffen ist, so kann die Monitorkomponente sofort geeignete Maßnahmen zur Fehlerumgehung setzten. Da sich im Zeitintervall zwischen dem Auftreten eines Fehlers und der Erkennung eines Fehlers die Folgen eines Fehlers ungehindert ausbreiten können ist es wichtig, dieses Zeitintervall - die Fehlererkennungslatenz - möglichst kurz zu halten.
Entsprechend dem gegenwärtigen Stand der Technik wird die Periode der Lebenszeichennachricht von dem Fortschreiten der lokalen Uhr im zu überwachenden Constituent-System bestimmt. Da in vielen Systemen keine globale Zeit verfügbar ist, funktioniert das Kommunikationssystem ereignisgesteuert (Kopetz, H. Real-Time Systems, Design Principles for Distributed Embedded Applications. Springer Verlag. 2011, S. 178). Aufgrund des großen Jitters eines ereignisgesteuerten Kommunikationssystems muss ein entsprechendes Timeout gesetzt werden, so dass die Fehlererkennungslatenz lang wird (siehe das Beispiel am Ende des Abschnitts Beschreibung einer Realisierung).
Der Erfindung liegt die Aufgabe zugrunde, in einem System-of-System das Zeitintervall zwischen dem Auftreten eines Fehlers in einem Constituent-System und dem Erkennen des Fehlers minimal zu halten.
Diese Aufgabe wird erfindungsgemäß mit einem Verfahren der eingangs genannten Art gelöst, bei welchem im jedem Constituent-System eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt keine Lebenszeichennachricht eingetroffen ist.
Demnach wird durch eine a priori geplante über eine globale Zeit realisierte Synchronisation des periodischen Erzeugungszeitpunkts der Lebenszeichennachricht mit dem Sendezeitpunkt der Nachricht in einem zeitgesteuerten Kommunikationssystem und im Weiterem durch eine a priori geplante Synchronisation des periodischen Empfangszeitpunkt der Lebenszeichennachricht mit dem Timeoutzeitpunkt der Nachricht in der Monitorkomponente das Zeitintervall zwischen dem Auftreten eines Fehlers und dem Erkennen des Fehlers minimal gehalten.
Bei einer vorteilhaften Variante des erfindungsgemäßen Verfahrens ist vorgesehen, dass das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Erzeugungszeitpunkt der Lebenszeichennachricht und dem Sendezeitpunkt dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.
Es kann des Weiteren zweckmäßig sein, wenn das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Empfangszeitpunkt der Lebenszeichennachricht und dem Timeoutzeitpunkt dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.
Bei einer weiteren Variante ist mit Vorteil vorgesehen, dass mit dem Auslösen der Fehlermeldung ein Fehlerbehandlungsprozess begonnen wird.
Es ist auch empfehlenswert, wenn in einem zyklischen Computersystem am Ende jedes Zyklus eine Lebenszeichennachricht gesendet wird - also auch in allen Zyklen in denen das Ergebnis noch nicht bereit gestellt werden, so dass ein Fehler des Produzenten sofort erkannt und die Fehlererkennungslatenz minimal gehalten wird. Die Erfindung samt weiteren Vorteilen ist im Folgenden an Hand beispielsweiser Ausführungsformen näher erläutert, die in der Zeichnung veranschaulicht sind. In dieser zeigen
Fig. 1 die Struktur eines System-of-Systems und
Fig. 2 den zeitlichen Ablauf des Transports einer Lebenszeichennachricht bei dem erfindungsgemäßen Verfahren.
Bevor an Hand eines Ausführungsbeispiels die Erfindung im Detail beschrieben wird, seien die Definitionen einiger verwendeter Begriffe gegeben, um langatmige Wiederholungen zu vermeiden.
Constituent-System: Ein autonomes Subsystem eines System of Systems.
Empfangszeitpunkt einer Nachricht: Der Zeitpunkt, zu dem die komplette Nachricht an einen Empfänger übergeben wird. In einem zeitgesteuerten Kommunikationssystem werden die periodischen Empfangszeitpunkte a priori vom Fortschreiten der globalen Zeit abgeleitet.
Erzeugungszeitpunkt einer Nachricht: Der Zeitpunkt zu dem eine Nachricht von einem Produzenten generiert wird.
Fehlererkennungslatenz: das Zeitintervall zwischen einem Ausfall und der Erkennung des Ausfalls.
Globale Zeit: Eine Abstraktion über die synchronisierten Zeiten der lokalen Uhren in einigen oder allen Constituent-Systems eines System of Systems. Die Granularität g der globalen Zeit ergibt sich aus der Präzision der Uhrensynchronisation siehe [Kopetz, s.o., Seiten 58-63].
Jitter eines Nachrichtentransports: die Differenz zwischen minimaler und maximaler Transportdauer.
Lebenszeichennachricht: eine periodische Nachricht, aus deren Eintreffen bei einem Empfänger abgeleitet werden kann, dass der Sender dieser Nachricht zum Erzeugungszeitpunkt der Lebenszeichennachricht nicht ausgefallen war.
Legacy -System: Bestehendes EDV-System, das in ein System-of-Systems integriert wird. Durch die Integration wird das Legacy System zu einem Constituent-System.
Sendezeitpunkt einer Nachricht: Der Zeitpunkt, zu dem mit dem Sendern eine Nachricht durch ein Kommunikationssystem begonnen wird. In einem zeitgesteuerten Kommunikationssystem werden die periodischen Sendezeitpunkte a priori vom Fortschreiten der globalen Zeit abgeleitet.
Synchronisation zweier Ereignisse: Allgemein: die zeitliche Abstimmung zweier Ereignisse. Im Kontext dieser Patentschrift: zeitliche abgestimmte Folge zweier Ereignisse.
System-of-Systems: Ein System-of-Systems entsteht aus der Integration einer endlichen Anzahl von Constituent-Systemen, die unabhängig arbeiten und die während eines vorgegebenen Zeitintervalls über ein Netzwerk kommunizieren, um ein gegebenes höheres Ziel zu erreichen. ("A System of Systems is an Integration of a finite number of constituent Systems which are independent and operable, and which are networked together for a period of time to achieve a certain higher goal. "), aus [Barot, V. et al. T-Area SoS State of the Art Report. Report No. TARE A-PU-WP2-R-LU-9. Loughborough University. England. 2012.] und [Kopetz, s.o.].
Timeoutzeitpunkt: Der Zeitpunkt zu dem festgestellt wird, dass ein erwartetes Ereignis (z.B. der Empfang einer erwarteten Nachricht) nicht eingetroffen ist.
Zeitgesteuertes Kommunikationssystem: Ein Kommunikationssystem, in dem die periodischen Sendezeitpunkte der Nachrichten a priori vom Fortschreiten der globalen Zeit derart bestimmt werden, dass es zu keinen zeitlichen Konflikten im Nachrichtentransport kommt, z.B. TT-Ethernet [Jamshidi, s.o.].
Zyklisches Computersystem: Ein Computersystem, bei dem die Bearbeitung der Daten in Zyklen erfolgt. Zu Beginn eines Zyklus werden die Eingabedaten von der Umgebung gelesen und vor dem Ende eines Zyklus werden die Ausgabedaten an die Umgebung übergeben.
Fig. 1 zeigt die Struktur eines System-of-Systems bestehend aus den vier Constituent- Systemen 1 10, 111, 112 und 113, der Nachrichtenverteilereinheit 120 und der Monitorkomponente 130. Die vier Constituent-Systeme 110, 111, 1 12 und 113 und die Monitorkomponente 130 sind über bidirektionale Kommunikationskanäle 151 mit der Nachrichtenverteilereinheit 120 verbunden. An das Constituent-System 112 ist ein Aktuator 122, z.B. eine Ventil, und an das Constituent-System 113 ein Sensor 123, z.B. eine Kamera, angeschlossen Die Nachrichtenverteilereinheit vermittelt zeitgesteuerte Nachrichten, z.B. mittels des TTEthernet Protokolls [SAE Standard AS6802 von TT Ethernet. URL: http ://standards. sae. org/'as6802] . Die vier Constituent-Systeme 110, 111, 112, 113, die Nachrichtenverteilereinheit 120 und die Monitorkomponente 130 haben Zugriff auf eine globale Zeit mit der Granularität g. Die globale Zeit wird entweder über einen internen Synchronisationsalgorithmus, wie in ([Kopetz, s.o., Seiten 66-73]) beschrieben oder über den Empfang von GPS Signalen (siehe [Kopetz, s.o., Seite 74]) aufgebaut. Die interne Synchronisation kann fehlertolerant sein.
Fig. 2 zeigt den zeitlichen Ablauf der Fehlererkennung unter der Annahme einer globalen Zeit, mit der die Ereignisse 211, 212 und 213 synchronisiert werden und eines zeitgesteuerten Kommunikationssystems TT-Ethernet. Auf der Abszisse 200 sind die Ticks der globalen Zeit eingetragen. Im Beispiel der Fig. 2 wird angenommen, dass die Granularität der globalen Zeit, d.i. der Abstand zwischen zwei Ticks, 2 μβεϋ beträgt. Diese Granularität der globalen Zeit ergibt sich aus der Präzision der Uhrensynchronisation, wie in [Kopetz, s.o. Seite 58] angeführt.
Im Beispiel der Fig. 2 wird das Kommunikationssystem 120 durch ein 100 Mbit TTEthernet realisiert.
Im Folgenden wird angenommen, dass ein Constituent-System, z.B. das Constituent- System 113, eine periodische Nachricht mit einer Länge von 100 Bytes, die die Ergebnissen der Berechnung des Constituent-Systems 113 enthält, an das Constituent-System 112 und gleichzeitig (im Multicast Verfahren) an die Monitorkomponente 130 sendet. Die Monitorkomponente 130 interpretiert diese Nachricht als eine Lebenszeichennachricht der Komponente 113. Die Periode der Lebenszeichennachricht ist in Fig. 2 mit 260 bezeichnet.
Im fehlerfreien Fall wird zum Erzeugungszeitpunkt 210 die Lebenszeichennachricht erzeugt und zum Sendezeitpunkt 211 gesendet. Zum Zeitpunkt 212, dem Empfangszeitpunkt der erwarteten Lebenszeichennachricht trifft die Lebenszeichennachricht bei der Monitorkomponente 130 ein. Daher wird zum Timeoutzeitpunkt 213 das Timeout, das das Eintreffen der Lebenszeichennachricht überwacht, nicht aktiv. In diesem konkreten Beispiel beträgt die Dauer des Lebenzeichennachrichtentransports, d.i., das Intervall 250 zwischen dem Sendeereignis 211 und dem Empfangsereignis 212, das ist die Transportdauer, 14 μβε Der zeitliche Abstand zwischen den Ereignissen 210 und 211 bzw. den Ereignissen 222 und 223 muss mindestens 2 g sein, wobei g die Granularität der globalen Zeit angibt, um die zeitliche Synchronisation dieser Ereignisse sicher zu stellen (siehe [Kopetz, s.o., S.62]).
Angenommen zum Zeitpunkt 211 ist die Komponente 113 ausgefallen. In diesem Fall wird zum Erzeugungszeitpunkt 210 der Lebenszeichennachricht 220 keine Nachricht generiert und auch zum Sendezeitpunkt 221 keine Nachricht gesendet. Zum erwarteten Empfangszeitpunkt 222 der Lebenszeichennachricht trifft keine Lebenszeichennachricht bei der Monitorkomponente 130 ein und daher wird zum Timeoutzeitpunkt 223 das Timeout aktiv und löst eine Fehlermeldung bzw. eine Fehlerbehandlung aus. In diesem Fall beträgt die Fehlererkennungslatenz 270, d.i. das Zeitintervall zwischen dem Ausfall 211 und der Erkennung des Ausfalls durch das Timeout 223, 26 μβ.
Im Folgenden wird die Fehlererkennungslatenz abgeschätzt, die sich ergibt, wenn die Methodik des vorherrschenden Stands der Technik zur Anwendung gelangt. Entsprechend diesem vorherrschender Stands der Technik gibt es keine gemeinsame globale Zeit auf die die vier Constituent-Systeme 110, 111, 112, 113, die Nachrichtenverteilereinheit 120 und die Monitorkomponente 130 Zugriff haben. In diesem Fall erzeugt das Constituent-System 113 periodisch, entsprechend seiner nicht synchronisierten lokalen Zeit, mit einer Periode von ungefähr 60 μβεϋ eine Lebenszeichennachricht. Sobald eine Lebenszeichennachricht bei der Monitorkomponente 130 ankommt, wird ein neues Timeout zur Überwachung der Ankunft der nächsten Lebenszeichennachricht gesetzt. Da in diesem Fall das Kommunikationssystem ereignisgesteuert arbeiten muss, schwankt die Transportdauer zwischen der minimalen Transportdauer von 14 von und einer nicht exakt abschätzbaren worst-case Maximaltransportdauer. Wenn angenommen wird, das im worst case zwei lange Ethernet-Nachrichten mit einer Übertragungsdauer von 100 μβεϋ in der Kommunikation vorgereiht sind, so beträgt die worst-case Maximaltransportdauer 214 μβ und der Jitter, d.i. die Differenz zwischen minimaler und maximaler Transportdauer, 200 μβ. Da das Timeout länger sein muss als der Jitter ergibt sich in diesem Fall eine worst case Fehlererkennungslatenz von mehr als 414 μβ (Maximaltransportdauer plus Länge des Timeout-Intervalls).
Aus der folgenden Gegenüberstellung dieses konkreten Beispiels ist die durch die Erfindung ermöglichte signifikante Reduktion der worst-case Fehlererkennungslatenz eindrucksvoll veranschaulicht
Fehlererkennungslatenz 270 entsprechend der Erfindung 26 μβ.
Fehlererkennungslatenz entsprechend dem Stand der Technik 414 μβ.
In [Kopetz, s.o.] wird vorgeschlagen, in einem zyklischen Computersystem den Nachrichtentransport zwischen dem Produzenten einer Nachricht und dem Konsumenten einer Nachricht über die globale Zeit zu synchronisieren. Erfindungsgemäß wird vorgeschlagen, in einem zyklischen System in jedem Zyklus, also auch in allen Zyklen in denen das Ergebnis noch nicht bereit gestellt werden, eine Lebenszeichennachricht zu senden, so dass ein Fehler des Produzenten sofort erkannt und die Fehlererkennungslatenz minimal gehalten wird.
In vielen Anwendungsfällen ist es möglich ein Constituent-System auf einem einzigen System-on-Chip zu realisieren. Ein System on Chip ist ein in der Mikroelektronik bekannter Bauteil der die CPU, den Speicher, die Input/Output Elektronik, einen Kommunikationskontroller und die notwendige Software für eine spezifizierte Aufgabenstellung enthält. Ein System-on-Chip stellt vom Standpunkt der Fehlertoleranz eine klar definierte Ausfalleinheit dar, die periodisch eine Lebenszeichennachricht zu senden hat. Nach Ausbleiben der Lebenszeichennachricht, verursacht durch einen transienten Fehler, d.i. ein Fehler, der die im volatilen Speicher des System-on-Chip abgelegten Daten korrumpiert, der aber die Hardware des Chips nicht permanent beschädigt hat, ist es sinnvoll, den gesamten System-on- Chip durch eine Reset-Nachricht von der Monitorkomponente 130 neu zu starten. Da die meisten Hardwarefehler transienter Natur sind, kann durch ein solches Vorgehen, verbunden mit der schnellen Fehlererkennung, die Funktionsfähigkeit des betroffenen System-on-Chip innerhalb eines Zyklus wieder hergestellt werden.

Claims

Patentansprüche
1. Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems (110... 113) in einem System-of-Systems (1), bestehend aus einer Anzahl von Constituent-Systemen (111... 113), die über ein Kommunikationssystem (120) Nachrichten austauschen,
dadurch gekennzeichnet, dass
in jedem Constituent-System (111... 113) eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten (210, 211) eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem (120) a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt (211, 221) dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt (212, 222) dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt (213, 223) eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors (130) dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt (222) keine Lebenszeichennachricht eingetroffen ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Erzeugungszeitpunkt (210, 220) der Lebenszeichennachricht und dem Sendezeitpunkt (211, 221) dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das
Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Empfangszeitpunkt (212, 222) der Lebenszeichennachricht und dem Timeoutzeitpunkt (213, 223) dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass mit dem Auslösen der Fehlermeldung ein Fehlerbehandlungsprozess begonnen wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass in einem zyklischen Computer System am Ende jedes Zyklus eine Lebenszeichennachricht gesendet wird.
EP14799950.2A 2013-09-27 2014-09-25 Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems Withdrawn EP3049932A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AT506272013 2013-09-27
PCT/AT2014/050217 WO2015042626A1 (de) 2013-09-27 2014-09-25 Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems

Publications (1)

Publication Number Publication Date
EP3049932A1 true EP3049932A1 (de) 2016-08-03

Family

ID=51932141

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14799950.2A Withdrawn EP3049932A1 (de) 2013-09-27 2014-09-25 Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems

Country Status (3)

Country Link
US (1) US9766964B2 (de)
EP (1) EP3049932A1 (de)
WO (1) WO2015042626A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150119601A1 (en) 2013-03-15 2015-04-30 Opx Biotechnologies, Inc. Monofunctional mcr + 3-hp dehydrogenase
US11408013B2 (en) 2013-07-19 2022-08-09 Cargill, Incorporated Microorganisms and methods for the production of fatty acids and fatty acid derived products
JP6603658B2 (ja) 2013-07-19 2019-11-06 カーギル インコーポレイテッド 脂肪酸及び脂肪酸誘導体の製造のための微生物及び方法
EP2993228B1 (de) 2014-09-02 2019-10-09 Cargill, Incorporated Herstellung von fettsäureestern
US11345938B2 (en) 2017-02-02 2022-05-31 Cargill, Incorporated Genetically modified cells that produce C6-C10 fatty acid derivatives
CN106921539A (zh) * 2017-02-06 2017-07-04 上海斐讯数据通信技术有限公司 一种基于云ac的关键业务模块监听方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737515A (en) * 1996-06-27 1998-04-07 Sun Microsystems, Inc. Method and mechanism for guaranteeing timeliness of programs
US7237152B2 (en) * 2003-10-24 2007-06-26 Honeywell International Inc. Fail-operational global time reference in a redundant synchronous data bus system
US8935574B2 (en) * 2011-12-16 2015-01-13 Advanced Micro Devices, Inc. Correlating traces in a computing system
DE102012204586A1 (de) * 2012-03-22 2013-10-17 Bayerische Motoren Werke Aktiengesellschaft Gateway, Knoten und Verfahren für ein Fahrzeug
US8832500B2 (en) * 2012-08-10 2014-09-09 Advanced Micro Devices, Inc. Multiple clock domain tracing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2015042626A1 *

Also Published As

Publication number Publication date
US9766964B2 (en) 2017-09-19
WO2015042626A1 (de) 2015-04-02
US20160232046A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
WO2015042626A1 (de) Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems
EP2145431B1 (de) Kommunikationsverfahren und apparat zur effizienten und sicheren übertragung von tt-ethernet nachrichten
EP2850788B1 (de) Verfahren und apparat zur vermittlung von zeitgesteuerten und ereignisgesteuerten nachrichten
EP2556633B1 (de) Verfahren und apparat zur fehlertoleranten zeitgesteuerten echtzeitkommunikation
EP2803155B1 (de) Verfahren und vermittlungseinheit zur zuverlässigen vermittlung von synchronisationsnachrichten
EP3170285B1 (de) Verfahren zum bestimmen einer übertragungszeit eines telegramms in einem kommunikationsnetzwerk und entsprechende netzwerkkomponenten
DE4215380A1 (de) Verfahren zum Synchronisieren von lokalen Zeitgebern eines Automatisierungssystems
EP2798495A2 (de) Verfahren zur zeitrichtigen zusammenführung von ergebnissen von periodisch arbeitenden edv-komponenten
EP3214804B1 (de) Verfahren zum zuverlässigen transport von alarmnachrichten in einem verteilten computersystem
EP2801174B1 (de) Verfahren und vorrichtung zur konsistenten änderung der zeitpläne in einer zeitgesteuerten vermittlung
CN104486017B (zh) 一种基于ip光传输的卫星授时多节点同步监测方法
DE202013012476U1 (de) Systeme zur Steigerung der Datenbankzugriffsparallelität mit Hilfe granularer Zeitstempel
EP3363165B1 (de) Verfahren und computersystem zur schnellen übertragung von zeitgesteuerten echtzeitnachrichten
WO2014090658A1 (de) Zuweisen von zeitstempeln zu empfangenen datenpaketen
WO2019076600A1 (de) Verfahren und vorrichtung zum rückwirkungsfreien und integritätsgeschützten synchronisieren von log-daten
EP2520989B1 (de) Verfahren zum Betrieb eines hochverfügbaren Systems mit funktionaler Sicherheit sowie ein hochverfügbares System mit funktionaler Sicherheit
DE102009033229B4 (de) Verfahren zur Erkennung von Doppeladressierungen in AS Interface Netzen
EP3902206B1 (de) Fehlertolerante verteilereinheit und verfahren zur bereitstellung einer fehlertoleranten globalen zeit
DE102012222885A1 (de) Verfahren zum Zuweisen von Zeitstempeln zu empfangenen Datenpaketen
EP1399818B1 (de) Verfahren und vorrichtung zur kommunikation in einem fehlertoleranten verteilten computersystem
EP3157187B1 (de) Zeitgesteuertes verfahren zum periodischen fehlertoleranten transport von echtzeitdaten in einem verteilten computersystem
DE102012108864A1 (de) Verfahren zur Bestimmung eines Synchronisierungszustands der Uhr eines Feldgerätes
WO2012019617A1 (de) Verfahren und vorrichtung zum synchronisieren von ereignissen autarker systeme
EP2476029B1 (de) Zeitsynchronisation in automatisierungsgeräten
AT507204B1 (de) Verfahren sowie anlage zur verteilung von einlangenden daten

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20160324

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: TTTECH COMPUTERTECHNIK AG

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20190515

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20220628