EP3049932A1

EP3049932A1 - Verfahren zum erkennen eines ausfalls eines constituent-systems in einem system-of-systems

Info

Publication number: EP3049932A1
Application number: EP14799950.2A
Authority: EP
Inventors: Hermann Kopetz
Original assignee: FTS Computertechnik GmbH
Current assignee: Tttech Computertechnik AG
Priority date: 2013-09-27
Filing date: 2014-09-25
Publication date: 2016-08-03
Also published as: US9766964B2; WO2015042626A1; US20160232046A1

Abstract

Ein Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems (110...113) in einem System-of-Systems (1), bestehend aus einer Anzahl von Constituent- Systemen (111...113), die über ein Kommunikationssystem (120) Nachrichten austauschen, bei welchem in jedem Constituent-System (111...113) eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten (210, 211) eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem (120) a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt (211, 221) dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt (212, 222) dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt (213, 223) eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors (130) dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt (222) keine Lebenszeichennachricht eingetroffen ist

Description

Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems in einem System-of-Systems

Die Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems in einem System-of-Systems, bestehend aus einer Anzahl von Constituent-Systemen, die über ein Kommunikationssystem Nachrichten austauschen.

Die vorliegende Erfindung liegt im Bereich der Computertechnik und sie beschreibt ein innovatives Verfahren, wie in einem System-of-Systems eine extrem rasches Erkennen eines Ausfalls eines Subsystems realisiert werden kann.

Durch die Integration bestehender EDV-Systeme (legacy Systems) oder neu entwickelter EDV-Systeme in ein System-of-Systems können neue Dienste angeboten und wirtschaftliche Vorteile realisiert werden. In der Fachliteratur (Jamshidi, M., Ed. System of Systems Engineering - Innovations for the 21st Centur., J. Wiley & Sons.2009]) hat sich der Begriff Constituent-System für ein Subsystem eines System-of-Systems durchgesetzt.

Da die Constituent-Systeme eines System-of-Systems von unterschiedlichen Organisationen entwickelt und/oder betrieben werden, die vorrangig ihre eigenen Ziele verfolgen, kann ein Constituent-System kurzfristig vom lokalen Betreiber abgeschaltet werden oder aus anderen Gründen, z.B. Hardware- oder Softwarefehler, ausfallen. Aus der Sicht eines System-of-Systems ist die sofortige Erkennung eines Ausfalls eines Constituent-System - die Minimierung der Fehlererkennungslatenz - von großer Bedeutung, da eine rasche Fehlererkennung eine notwendige Voraussetzung für das Setzen von zeitgerechten Maßnahmen zur Behandlung eines Fehlers darstellt. Zum Beispiel ist eine möglichst kurze Fehlerlatenz entscheidend, um die Folgen eines Fehlers eines bewegten Systems zu minimieren. So kann z.B. in einem bewegten System bei Ausfall einer Kamera sofort die Bewegung angehalten werden, um einen Unfall zu verhindern. Je später die Bewegung angehalten wird, umso wahrscheinlicher ist das Auftreten eines Unfalls.

Eine weit verbreitete Methode zur Fehlererkennung ist die zeitliche Überwachung einer periodischen Lebenszeichennachricht (life-sign message) eines Constituent- Systems durch eine Monitorkomponente. Eine Lebenszeichennachricht ist eine Nachricht, aus deren Eintreffen bei einem Empfänger abgeleitet werden kann, dass der Sender dieser Nachricht zum Erzeugungszeitpunkt der Lebenszeichennachricht nicht ausgefallen war. Wenn eine Monitorkomponente, deren Aufgabe es ist, den geordneten Betrieb eines System-of-Systems zu überwachen, feststellt, dass eine Lebenszeichennachricht vor dem erwarteten Timeoutzeitpunkt nicht eingetroffen ist, so kann die Monitorkomponente sofort geeignete Maßnahmen zur Fehlerumgehung setzten. Da sich im Zeitintervall zwischen dem Auftreten eines Fehlers und der Erkennung eines Fehlers die Folgen eines Fehlers ungehindert ausbreiten können ist es wichtig, dieses Zeitintervall - die Fehlererkennungslatenz - möglichst kurz zu halten.

Entsprechend dem gegenwärtigen Stand der Technik wird die Periode der Lebenszeichennachricht von dem Fortschreiten der lokalen Uhr im zu überwachenden Constituent-System bestimmt. Da in vielen Systemen keine globale Zeit verfügbar ist, funktioniert das Kommunikationssystem ereignisgesteuert (Kopetz, H. Real-Time Systems, Design Principles for Distributed Embedded Applications. Springer Verlag. 2011, S. 178). Aufgrund des großen Jitters eines ereignisgesteuerten Kommunikationssystems muss ein entsprechendes Timeout gesetzt werden, so dass die Fehlererkennungslatenz lang wird (siehe das Beispiel am Ende des Abschnitts Beschreibung einer Realisierung).

Der Erfindung liegt die Aufgabe zugrunde, in einem System-of-System das Zeitintervall zwischen dem Auftreten eines Fehlers in einem Constituent-System und dem Erkennen des Fehlers minimal zu halten.

Diese Aufgabe wird erfindungsgemäß mit einem Verfahren der eingangs genannten Art gelöst, bei welchem im jedem Constituent-System eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt keine Lebenszeichennachricht eingetroffen ist.

Demnach wird durch eine a priori geplante über eine globale Zeit realisierte Synchronisation des periodischen Erzeugungszeitpunkts der Lebenszeichennachricht mit dem Sendezeitpunkt der Nachricht in einem zeitgesteuerten Kommunikationssystem und im Weiterem durch eine a priori geplante Synchronisation des periodischen Empfangszeitpunkt der Lebenszeichennachricht mit dem Timeoutzeitpunkt der Nachricht in der Monitorkomponente das Zeitintervall zwischen dem Auftreten eines Fehlers und dem Erkennen des Fehlers minimal gehalten.

Bei einer vorteilhaften Variante des erfindungsgemäßen Verfahrens ist vorgesehen, dass das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Erzeugungszeitpunkt der Lebenszeichennachricht und dem Sendezeitpunkt dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.

Es kann des Weiteren zweckmäßig sein, wenn das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Empfangszeitpunkt der Lebenszeichennachricht und dem Timeoutzeitpunkt dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.

Bei einer weiteren Variante ist mit Vorteil vorgesehen, dass mit dem Auslösen der Fehlermeldung ein Fehlerbehandlungsprozess begonnen wird.

Es ist auch empfehlenswert, wenn in einem zyklischen Computersystem am Ende jedes Zyklus eine Lebenszeichennachricht gesendet wird - also auch in allen Zyklen in denen das Ergebnis noch nicht bereit gestellt werden, so dass ein Fehler des Produzenten sofort erkannt und die Fehlererkennungslatenz minimal gehalten wird. Die Erfindung samt weiteren Vorteilen ist im Folgenden an Hand beispielsweiser Ausführungsformen näher erläutert, die in der Zeichnung veranschaulicht sind. In dieser zeigen

Fig. 1 die Struktur eines System-of-Systems und

Fig. 2 den zeitlichen Ablauf des Transports einer Lebenszeichennachricht bei dem erfindungsgemäßen Verfahren.

Bevor an Hand eines Ausführungsbeispiels die Erfindung im Detail beschrieben wird, seien die Definitionen einiger verwendeter Begriffe gegeben, um langatmige Wiederholungen zu vermeiden.

Constituent-System: Ein autonomes Subsystem eines System of Systems.

Empfangszeitpunkt einer Nachricht: Der Zeitpunkt, zu dem die komplette Nachricht an einen Empfänger übergeben wird. In einem zeitgesteuerten Kommunikationssystem werden die periodischen Empfangszeitpunkte a priori vom Fortschreiten der globalen Zeit abgeleitet.

Erzeugungszeitpunkt einer Nachricht: Der Zeitpunkt zu dem eine Nachricht von einem Produzenten generiert wird.

Fehlererkennungslatenz: das Zeitintervall zwischen einem Ausfall und der Erkennung des Ausfalls.

Globale Zeit: Eine Abstraktion über die synchronisierten Zeiten der lokalen Uhren in einigen oder allen Constituent-Systems eines System of Systems. Die Granularität g der globalen Zeit ergibt sich aus der Präzision der Uhrensynchronisation siehe [Kopetz, s.o., Seiten 58-63].

Jitter eines Nachrichtentransports: die Differenz zwischen minimaler und maximaler Transportdauer.

Lebenszeichennachricht: eine periodische Nachricht, aus deren Eintreffen bei einem Empfänger abgeleitet werden kann, dass der Sender dieser Nachricht zum Erzeugungszeitpunkt der Lebenszeichennachricht nicht ausgefallen war.

Legacy -System: Bestehendes EDV-System, das in ein System-of-Systems integriert wird. Durch die Integration wird das Legacy System zu einem Constituent-System.

Sendezeitpunkt einer Nachricht: Der Zeitpunkt, zu dem mit dem Sendern eine Nachricht durch ein Kommunikationssystem begonnen wird. In einem zeitgesteuerten Kommunikationssystem werden die periodischen Sendezeitpunkte a priori vom Fortschreiten der globalen Zeit abgeleitet.

Synchronisation zweier Ereignisse: Allgemein: die zeitliche Abstimmung zweier Ereignisse. Im Kontext dieser Patentschrift: zeitliche abgestimmte Folge zweier Ereignisse.

System-of-Systems: Ein System-of-Systems entsteht aus der Integration einer endlichen Anzahl von Constituent-Systemen, die unabhängig arbeiten und die während eines vorgegebenen Zeitintervalls über ein Netzwerk kommunizieren, um ein gegebenes höheres Ziel zu erreichen. ("A System of Systems is an Integration of a finite number of constituent Systems which are independent and operable, and which are networked together for a period of time to achieve a certain higher goal. "), aus [Barot, V. et al. T-Area SoS State of the Art Report. Report No. TARE A-PU-WP2-R-LU-9. Loughborough University. England. 2012.] und [Kopetz, s.o.].

Timeoutzeitpunkt: Der Zeitpunkt zu dem festgestellt wird, dass ein erwartetes Ereignis (z.B. der Empfang einer erwarteten Nachricht) nicht eingetroffen ist.

Zeitgesteuertes Kommunikationssystem: Ein Kommunikationssystem, in dem die periodischen Sendezeitpunkte der Nachrichten a priori vom Fortschreiten der globalen Zeit derart bestimmt werden, dass es zu keinen zeitlichen Konflikten im Nachrichtentransport kommt, z.B. TT-Ethernet [Jamshidi, s.o.].

Zyklisches Computersystem: Ein Computersystem, bei dem die Bearbeitung der Daten in Zyklen erfolgt. Zu Beginn eines Zyklus werden die Eingabedaten von der Umgebung gelesen und vor dem Ende eines Zyklus werden die Ausgabedaten an die Umgebung übergeben.

Fig. 1 zeigt die Struktur eines System-of-Systems bestehend aus den vier Constituent- Systemen 1 10, 111, 112 und 113, der Nachrichtenverteilereinheit 120 und der Monitorkomponente 130. Die vier Constituent-Systeme 110, 111, 1 12 und 113 und die Monitorkomponente 130 sind über bidirektionale Kommunikationskanäle 151 mit der Nachrichtenverteilereinheit 120 verbunden. An das Constituent-System 112 ist ein Aktuator 122, z.B. eine Ventil, und an das Constituent-System 113 ein Sensor 123, z.B. eine Kamera, angeschlossen Die Nachrichtenverteilereinheit vermittelt zeitgesteuerte Nachrichten, z.B. mittels des TTEthernet Protokolls [SAE Standard AS6802 von TT Ethernet. URL: http ://standards. sae. org/^'as6802] . Die vier Constituent-Systeme 110, 111, 112, 113, die Nachrichtenverteilereinheit 120 und die Monitorkomponente 130 haben Zugriff auf eine globale Zeit mit der Granularität g. Die globale Zeit wird entweder über einen internen Synchronisationsalgorithmus, wie in ([Kopetz, s.o., Seiten 66-73]) beschrieben oder über den Empfang von GPS Signalen (siehe [Kopetz, s.o., Seite 74]) aufgebaut. Die interne Synchronisation kann fehlertolerant sein.

Fig. 2 zeigt den zeitlichen Ablauf der Fehlererkennung unter der Annahme einer globalen Zeit, mit der die Ereignisse 211, 212 und 213 synchronisiert werden und eines zeitgesteuerten Kommunikationssystems TT-Ethernet. Auf der Abszisse 200 sind die Ticks der globalen Zeit eingetragen. Im Beispiel der Fig. 2 wird angenommen, dass die Granularität der globalen Zeit, d.i. der Abstand zwischen zwei Ticks, 2 μβεϋ beträgt. Diese Granularität der globalen Zeit ergibt sich aus der Präzision der Uhrensynchronisation, wie in [Kopetz, s.o. Seite 58] angeführt.

Im Beispiel der Fig. 2 wird das Kommunikationssystem 120 durch ein 100 Mbit TTEthernet realisiert.

Im Folgenden wird angenommen, dass ein Constituent-System, z.B. das Constituent- System 113, eine periodische Nachricht mit einer Länge von 100 Bytes, die die Ergebnissen der Berechnung des Constituent-Systems 113 enthält, an das Constituent-System 112 und gleichzeitig (im Multicast Verfahren) an die Monitorkomponente 130 sendet. Die Monitorkomponente 130 interpretiert diese Nachricht als eine Lebenszeichennachricht der Komponente 113. Die Periode der Lebenszeichennachricht ist in Fig. 2 mit 260 bezeichnet.

Im fehlerfreien Fall wird zum Erzeugungszeitpunkt 210 die Lebenszeichennachricht erzeugt und zum Sendezeitpunkt 211 gesendet. Zum Zeitpunkt 212, dem Empfangszeitpunkt der erwarteten Lebenszeichennachricht trifft die Lebenszeichennachricht bei der Monitorkomponente 130 ein. Daher wird zum Timeoutzeitpunkt 213 das Timeout, das das Eintreffen der Lebenszeichennachricht überwacht, nicht aktiv. In diesem konkreten Beispiel beträgt die Dauer des Lebenzeichennachrichtentransports, d.i., das Intervall 250 zwischen dem Sendeereignis 211 und dem Empfangsereignis 212, das ist die Transportdauer, 14 μβε Der zeitliche Abstand zwischen den Ereignissen 210 und 211 bzw. den Ereignissen 222 und 223 muss mindestens 2 g sein, wobei g die Granularität der globalen Zeit angibt, um die zeitliche Synchronisation dieser Ereignisse sicher zu stellen (siehe [Kopetz, s.o., S.62]).

Angenommen zum Zeitpunkt 211 ist die Komponente 113 ausgefallen. In diesem Fall wird zum Erzeugungszeitpunkt 210 der Lebenszeichennachricht 220 keine Nachricht generiert und auch zum Sendezeitpunkt 221 keine Nachricht gesendet. Zum erwarteten Empfangszeitpunkt 222 der Lebenszeichennachricht trifft keine Lebenszeichennachricht bei der Monitorkomponente 130 ein und daher wird zum Timeoutzeitpunkt 223 das Timeout aktiv und löst eine Fehlermeldung bzw. eine Fehlerbehandlung aus. In diesem Fall beträgt die Fehlererkennungslatenz 270, d.i. das Zeitintervall zwischen dem Ausfall 211 und der Erkennung des Ausfalls durch das Timeout 223, 26 μβ.

Im Folgenden wird die Fehlererkennungslatenz abgeschätzt, die sich ergibt, wenn die Methodik des vorherrschenden Stands der Technik zur Anwendung gelangt. Entsprechend diesem vorherrschender Stands der Technik gibt es keine gemeinsame globale Zeit auf die die vier Constituent-Systeme 110, 111, 112, 113, die Nachrichtenverteilereinheit 120 und die Monitorkomponente 130 Zugriff haben. In diesem Fall erzeugt das Constituent-System 113 periodisch, entsprechend seiner nicht synchronisierten lokalen Zeit, mit einer Periode von ungefähr 60 μβεϋ eine Lebenszeichennachricht. Sobald eine Lebenszeichennachricht bei der Monitorkomponente 130 ankommt, wird ein neues Timeout zur Überwachung der Ankunft der nächsten Lebenszeichennachricht gesetzt. Da in diesem Fall das Kommunikationssystem ereignisgesteuert arbeiten muss, schwankt die Transportdauer zwischen der minimalen Transportdauer von 14 von und einer nicht exakt abschätzbaren worst-case Maximaltransportdauer. Wenn angenommen wird, das im worst case zwei lange Ethernet-Nachrichten mit einer Übertragungsdauer von 100 μβεϋ in der Kommunikation vorgereiht sind, so beträgt die worst-case Maximaltransportdauer 214 μβ und der Jitter, d.i. die Differenz zwischen minimaler und maximaler Transportdauer, 200 μβ. Da das Timeout länger sein muss als der Jitter ergibt sich in diesem Fall eine worst case Fehlererkennungslatenz von mehr als 414 μβ (Maximaltransportdauer plus Länge des Timeout-Intervalls).

Aus der folgenden Gegenüberstellung dieses konkreten Beispiels ist die durch die Erfindung ermöglichte signifikante Reduktion der worst-case Fehlererkennungslatenz eindrucksvoll veranschaulicht

Fehlererkennungslatenz 270 entsprechend der Erfindung 26 μβ.

Fehlererkennungslatenz entsprechend dem Stand der Technik 414 μβ.

In [Kopetz, s.o.] wird vorgeschlagen, in einem zyklischen Computersystem den Nachrichtentransport zwischen dem Produzenten einer Nachricht und dem Konsumenten einer Nachricht über die globale Zeit zu synchronisieren. Erfindungsgemäß wird vorgeschlagen, in einem zyklischen System in jedem Zyklus, also auch in allen Zyklen in denen das Ergebnis noch nicht bereit gestellt werden, eine Lebenszeichennachricht zu senden, so dass ein Fehler des Produzenten sofort erkannt und die Fehlererkennungslatenz minimal gehalten wird.

In vielen Anwendungsfällen ist es möglich ein Constituent-System auf einem einzigen System-on-Chip zu realisieren. Ein System on Chip ist ein in der Mikroelektronik bekannter Bauteil der die CPU, den Speicher, die Input/Output Elektronik, einen Kommunikationskontroller und die notwendige Software für eine spezifizierte Aufgabenstellung enthält. Ein System-on-Chip stellt vom Standpunkt der Fehlertoleranz eine klar definierte Ausfalleinheit dar, die periodisch eine Lebenszeichennachricht zu senden hat. Nach Ausbleiben der Lebenszeichennachricht, verursacht durch einen transienten Fehler, d.i. ein Fehler, der die im volatilen Speicher des System-on-Chip abgelegten Daten korrumpiert, der aber die Hardware des Chips nicht permanent beschädigt hat, ist es sinnvoll, den gesamten System-on- Chip durch eine Reset-Nachricht von der Monitorkomponente 130 neu zu starten. Da die meisten Hardwarefehler transienter Natur sind, kann durch ein solches Vorgehen, verbunden mit der schnellen Fehlererkennung, die Funktionsfähigkeit des betroffenen System-on-Chip innerhalb eines Zyklus wieder hergestellt werden.

Claims

Patentansprüche

1. Verfahren zum Erkennen eines Ausfalls eines Constituent-Systems (110... 113) in einem System-of-Systems (1), bestehend aus einer Anzahl von Constituent-Systemen (111... 113), die über ein Kommunikationssystem (120) Nachrichten austauschen,

dadurch gekennzeichnet, dass

in jedem Constituent-System (111... 113) eine globale Zeit mit einer bekannten Granularität g vorhanden ist, mindestens ein Constituent-System zu a priori vom Fortschreiten der globalen Zeit bestimmten periodischen Erzeugungszeitpunkten (210, 211) eine zeitgesteuerte Lebenszeichennachricht erzeugt, der in dem zeitgesteuerten Kommunikationssystem (120) a priori vom Fortschreiten der globalen Zeit bestimmte Sendezeitpunkt (211, 221) dieser Lebenszeichennachricht mit dem Erzeugungszeitpunkt dieser Lebenszeichennachricht synchronisiert ist und der a priori vom Fortschreiten der globalen Zeit bestimmte Empfangszeitpunkt (212, 222) dieser Lebenszeichennachricht mit dem a priori vom Fortschreiten der globalen Zeit bestimmten Timeoutzeitpunkt (213, 223) eines die Ankunft der Lebenszeichennachricht überwachendenden Monitors (130) dieser Lebenszeitnachricht synchronisiert ist, wobei zum Timeoutzeitpunkt eine Fehlermeldung ausgelöst wird, falls zu erwarteten Empfangszeitpunkt (222) keine Lebenszeichennachricht eingetroffen ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Erzeugungszeitpunkt (210, 220) der Lebenszeichennachricht und dem Sendezeitpunkt (211, 221) dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das

Zeitintervall, gemessen mit der globalen Zeit, zwischen dem Empfangszeitpunkt (212, 222) der Lebenszeichennachricht und dem Timeoutzeitpunkt (213, 223) dieser Nachricht n.g beträgt, wobei g die Granularität der globalen Zeit bedeutet und n eine natürliche Zahl mit n > 2 ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass mit dem Auslösen der Fehlermeldung ein Fehlerbehandlungsprozess begonnen wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass in einem zyklischen Computer System am Ende jedes Zyklus eine Lebenszeichennachricht gesendet wird.