DE112021005722T5

DE112021005722T5 - Elektronisches System zur Implementierung einer kritischen Funktion, assoziiertes Verfahren und Computerprogramm

Info

Publication number: DE112021005722T5
Application number: DE112021005722.7T
Authority: DE
Inventors: Florence DE GRANCEY
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2020-10-27
Filing date: 2021-10-27
Publication date: 2023-08-10
Also published as: FR3115594B1; WO2022090280A1; FR3115594A1

Abstract

Dieses elektronische System (10) zur Implementierung einer kritischen Funktion umfasst ein erstes Verarbeitungsmodul (14) zum Berechnen von ersten Zwischendaten (SA) anhand erster Eingangsdaten (A) und eines Algorithmus durch bestärkendes Lernen; ein zweites Verarbeitungsmodul (16) zum Berechnen von zweiten Zwischendaten (SB) anhand des Algorithmus und zweiten Eingangsdaten (B); ein Hilfsverarbeitungsmodul (18) zum Berechnen von Referenzzwischendaten (SR) anhand der ersten und der zweiten Eingangsdaten und eines Algorithmus und zweiten Eingangsdaten (B); und eine Überwachungsvorrichtung (20) um zu überprüfen, ob die Zwischendaten zu einem Sicherheitsbereich gehören, und um sie zu vergleichen, um eine mögliche Inkonsistenz zu erkennen; und um Ausgangsdaten (C) abhängig von Zwischendaten zu erzeugen, wenn sie zu dem Sicherheitsbereich gehören und ohne Inkonsistenz sind, wobei die Ausgangsdaten ansonsten die Referenzzwischendaten sind.

Description

Die vorliegende Erfindung betrifft ein elektronisches System, das konfiguriert ist, um eine kritische Funktion zu implementieren.
Die Erfindung betrifft auch ein Verfahren zur Implementierung einer kritischen Funktion durch ein solches elektronisches System.
Die Erfindung betrifft auch ein Computerprogramm, umfassend Softwareanweisungen, die, wenn sie von einem Computer ausgeführt werden, ein solches Verfahren implementieren.
Das elektronische System ist insbesondere in einer Anlage oder in einem Gerät eingebettet. Das Gerät ist vorzugsweise ein Fahrzeug, wie z. B. ein Luftfahrzeug, insbesondere ein Luftfahrzeug, ein Schienenfahrzeug oder ein Kraftfahrzeug. Alternativ ist die Anlage z. B. eine Chemiefabrik oder ein Kraftwerk.
Insbesondere betrifft die Erfindung die Implementierung von kritischen Funktionen, d. h. Funktionen, die für die Sicherheit des Geräts oder der Anlage kritisch sind. Beispiele für solche kritischen Funktionen sind die Steuerung des Fahrzeugs, z. B. die Flugsteuerung eines Luftfahrzeugs, das Bremssystem des Fahrzeugs, die Notabschaltung einer Chemiefabrik oder eines Kraftwerks.
Im Bereich der Avionik ist eine kritische Funktion zum Beispiel durch die Norm ARP-4754A (Aerospace Recommended Practice auf Englisch) definiert.
Unter Implementierung einer kritischen Funktion ist die Durchführung einer oder mehrerer Berechnungen zu verstehen, die es ermöglichen, anhand mindestens Eingangsdaten mindestens Ausgangsdaten zu erzeugen, die mit dieser kritischen Funktion assoziiert sind.
Um die Sicherheit des Geräts oder der Anlage zu gewährleisten, muss somit sichergestellt sein, dass die Implementierung der kritischen Funktion ohne Störung erfolgt. Insbesondere ist eine solche kritische Funktion auf konventionelle Weise mit einem Sicherheitsnutzungsbereich assoziiert, der einen zulässigen Wertebereich für die mit dieser kritischen Funktion assoziierten Ausgangsdaten definiert. Ausgangsdaten außerhalb des zulässigen Wertebereichs werden abgelehnt und es wird eine Warnung ausgegeben. Im Bereich der Avionik ist dieser zulässige Wertebereich z. B. Werte zwischen einer Minimal- und einer Maximalgrenze, wie z. B. die Maximal- und Minimalgrenze der Flughöhe des Luftfahrzeugs. Der Wertebereich entspricht alternativ einer Höchstgrenze oder einer Mindestgrenze, die nicht überschritten werden darf, wie z. B. eine Grenze für die Steiggeschwindigkeit des Luftfahrzeugs oder eine Höchstleistung des Motors des Luftfahrzeugs. Als Variante entspricht der Wertebereich einem einzelnen Wert, normalerweise 0 oder 1, der mit einem booleschen Indikator assoziiert ist, z. B. einem Betriebszustand eines Avioniksystems des Luftfahrzeugs.
Es sind Algorithmen durch bestärkendes Lernen bekannt, deren Ziel es ist, eine Funktion oder ein Verhaltensmodell schrittweise zu erlernen, indem sie aufeinanderfolgende Experimente durchführen und mit einer Rückmeldung eines Leistungsindikators der Funktion. Nach erfolgtem Lernvorgang können diese Algorithmen durch bestärkendes Lernen die Leistung bei der Implementierung der kritischen Funktion verbessern. Ferner ermöglichen die Algorithmen durch bestärkendes Lernen die Modellierung kritischer Funktionen, die auf konventionelle Weise, z. B. über physikalische Gesetze, nicht modelliert werden können, weil die Komplexität des Systems zu groß ist.
Diese Algorithmen weisen jedoch Schwachstellen auf, die die Sicherheit des elektronischen Systems in Frage stellen. Die Umsetzung der kritischen Funktion durch diese Algorithmen durch bestärkendes Lernen führt nämlich in gewissen Fällen zu einem Resultat, das nicht zu dem mit der kritischen Funktion assoziierten Sicherheitsbereich gehört, was möglicherweise erhebliche Auswirkungen auf die Sicherheit der Anlage oder des Geräts hat, in dem das System eingebettet ist. Diese Schwachstellen schränken somit die Verwendung dieser Algorithmen für die Implementierung kritischer Funktion(en) stark ein.
Es besteht also ein Bedarf an einem leistungsfähigeren elektronischen System zur Implementierung einer kritischen Funktion, das gleichzeitig ausreichend sicher ist.
Zu diesem Zweck hat die Erfindung ein elektronisches System zum Gegenstand, das konfiguriert ist, um eine kritische Funktion zu implementieren, wobei das elektronische System geeignet ist, um erste und zweite Eingangsdaten zu empfangen und konsolidierte Ausgangsdaten auszugeben, die mit der kritischen Funktion assoziiert sind, wobei die Ausgangsdaten mit einem vorbestimmten Sicherheitsbereich assoziiert sind, wobei der Sicherheitsbereich in Form eines Bereichs von vordefinierten Werten ist,
das elektronische System umfassend:

- ein erstes Verarbeitungsmodul, das konfiguriert ist, um anhand der ersten Eingangsdaten und eines Algorithmus durch bestärkendes Lernen erste Zwischendaten zu berechnen, um die kritische Funktion für die ersten Eingangsdaten zu implementieren,
- ein zweites Verarbeitungsmodul, das konfiguriert ist, um anhand der zweiten Eingangsdaten und des Algorithmus durch bestärkendes Lernen zweite Zwischendaten zu berechnen, um die kritische Funktion für die zweiten Eingangsdaten zu implementieren, wobei sich die zweiten Eingangsdaten von den ersten Eingangsdaten unterscheiden,
- ein Hilfsverarbeitungsmodul, das konfiguriert ist, um anhand der ersten Eingangsdaten und/oder der zweiten Eingangsdaten und eines Referenzalgorithmus, der sich von dem Algorithmus durch bestärkendes Lernen unterscheidet, Referenzzwischendaten zu berechnen, um die kritische Funktion für die ersten Eingangsdaten und/oder die zweiten Eingangsdaten über den Referenzalgorithmus zu implementieren,
- eine Überwachungsvorrichtung, umfassend:
- + ein Kontrollmodul, das konfiguriert ist, um zu prüfen, ob die ersten und die zweiten Zwischendaten zu der Sicherheitsbereich gehören, und um die ersten und die zweiten Zwischendaten miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen;
- + ein Erzeugungsmodul, das konfiguriert ist, um die Ausgangsdaten abhängig von den ersten und den zweiten Zwischendaten zu erzeugen, wenn die ersten und die zweiten Zwischendaten zu dem Sicherheitsbereich gehören und wenn keine Inkonsistenz erkannt wird, wobei die Ausgangsdaten ansonsten gleich wie die Referenzzwischendaten sind.

Gemäß weiteren vorteilhaften Aspekten der Erfindung umfasst das elektronische System eines oder mehrere der folgenden Merkmale, die einzeln oder in allen technisch möglichen Kombinationen vorkommen können:

- die Gesamtheit der Implementierungen der kritischen Funktion durch den Referenzalgorithmus definiert einen Ankunftsbereich des Referenzalgorithmus, wobei der Ankunftsbereich in dem Sicherheitsbereich beinhaltet ist;
- die Überwachungsvorrichtung umfasst ein Belohnungsmodul, das konfiguriert ist, um eine erste Belohnung für die Implementierung der kritischen Funktion durch das erste Verarbeitungsmodul und eine zweite Belohnung für die Implementierung der kritischen Funktion durch das zweite Verarbeitungsmodul zu berechnen,

- das Belohnungsmodul ist konfiguriert ist, um jede erste Belohnung bzw. jede zweite Belohnung zu bestrafen, wenn die ersten Zwischendaten bzw. die zweiten Zwischendaten nicht zu dem Sicherheitsbereich gehören; wenn die ersten und die zweiten Zwischendaten zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wird, ist das Erzeugungsmodul konfiguriert, um als Ausgangsdaten die Zwischendaten ausgibt, die mit der höchsten Belohnung assoziiert sind, die von dem Belohnungsmodul berechnet wird;
- das Kontrollmodul ist ferner konfiguriert, um die erste und die zweite Belohnung miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen, und wobei das elektronische System ferner ein Warnmodul umfasst, das konfiguriert ist, um abhängig von jeder Inkonsistenz zwischen den Zwischendaten und/oder zwischen den Belohnungen ein Warnsignal zu erzeugen;
- das Kontrollmodul ist ferner konfiguriert, um die Anzahl der Male zu zählen, in denen die ersten bzw. zweiten Zwischendaten den Sicherheitsbereich nicht einhalten, und um die erste Vielzahl von algorithmischen Parametern bzw. der zweiten Vielzahl von algorithmischen Parametern zurückzusetzen, wenn die Anzahl größer ist als ein vorbestimmter Schwellenwert ist; und
- das System ist ein Avioniksystem, das geeignet ist, um an Bord eines Steuerstands eines Luftfahrzeugs zu sein, insbesondere ein Navigationssystem des Luftfahrzeugs.

Die Erfindung betrifft auch ein Verfahren zur Implementierung einer kritischen Funktion durch ein elektronisches System, wobei das elektronische System konfiguriert ist, um eine kritische Funktion zu implementieren, wobei das elektronische System geeignet ist, um erste und zweite Eingangsdaten zu empfangen und konsolidierte Ausgangsdaten auszugeben, die mit der kritischen Funktion assoziiert sind, wobei die Ausgangsdaten mit einem vorbestimmten Sicherheitsbereich assoziiert sind, wobei der Sicherheitsbereich in Form eines vordefinierten Wertebereichs ist,
das Verfahren umfassend die folgenden Schritte:

- Berechnen erster Zwischendaten anhand der ersten Eingangsdaten und eines Algorithmus durch bestärkendes Lernen, um die kritische Funktion für die ersten Eingangsdaten zu implementieren,
- Berechnen zweiter Zwischendaten anhand der zweiten Eingangsdaten und des Algorithmus durch bestärkendes Lernen, um die kritische Funktion für die zweiten Eingangsdaten zu implementieren, wobei sich die zweiten Eingangsdaten sich von den ersten Eingangsdaten unterscheiden,
- Berechnen von Referenzzwischendaten anhand der ersten Eingangsdaten und/oder der zweiten Eingangsdaten und eines Referenzalgorithmus, der sich von dem Algorithmus durch bestärkendes Lernen unterscheidet, um die kritische Funktion für die ersten Eingangsdaten und/oder die zweiten Eingangsdaten über den Referenzalgorithmus zu implementieren,
- Überprüfen, ob die ersten und die zweiten Zwischendaten zu dem Sicherheitsbereich gehören, und Vergleichen der ersten und der zweiten Zwischendaten miteinander, um eine mögliche Inkonsistenz zu erkennen;
- Erzeugen der Ausgangsdaten abhängig von den ersten und den zweiten Zwischendaten, wenn die ersten und die zweiten Zwischendaten zu dem Sicherheitsbereich gehören und wenn keine Inkonsistenz erkannt wird, wobei die Ausgangsdaten ansonsten gleich wie die Referenzdaten sind.

Ein weiterer Gegenstand der Erfindung ist ein Computerprogramm, umfassend Softwareanweisungen, die, wenn sie von einem Computer ausgeführt werden, ein Verfahren implementieren, wie es oben definiert ist.
Die Erfindung und ihre Vorteile werden besser verstanden beim Lesen der folgenden Beschreibung, die nur als nicht beschränkendes Beispiel angegeben ist und unter Bezugnahme auf die beigefügten Zeichnungen, in denen:

[1] 1 eine schematische Darstellung eines elektronischen Systems gemäß der Erfindung ist, und
[2] 2 eine schematische Darstellung der Implementierung eines Algorithmus durch bestärkendes Lernen ist,
[3] 3 ein Organigramm für ein Verfahren gemäß der Erfindung zur Implementierung einer kritischen Funktion durch das elektronische System von 1 ist.

Ein elektronisches System 10 ist in 1 dargestellt. Das elektronische System 10 ist konfiguriert, um mindestens eine kritische Funktion zu implementieren.
In dem Beispiel in 1 ist das elektronische System 10 an Bord in einem Luftfahrzeug. Das Luftfahrzeug ist normalerweise ein Flugzeug, ein Hubschrauber oder auch eine Drohne. Anders ausgedrückt, das Luftfahrzeug ist ein Fluggerät, das von einem Piloten über eine Steuerstation gesteuert werden kann, wobei die Steuerstation im Inneren des Luftfahrzeugs oder auch entfernt vom Luftfahrzeug angeordnet ist, insbesondere im Fall einer Drohne.
In diesem Beispiel ist das elektronische System 10 dann ein Avioniksystem, das konfiguriert ist, um eine kritische Avionikfunktion zu implementieren.
Die kritische Avionikfunktion ist dann normalerweise ausgewählt aus der Gruppe, bestehend aus: einer Berechnung der Flugbahn des Luftfahrzeugs, einer Flugsteuerung des Luftfahrzeugs, der Strategie, einem Hindernis auf der Flugbahn des Luftfahrzeugs auszuweichen, einer Bremsfunktion des Luftfahrzeugs usw.
Der Fachmann auf dem Gebiet wird verstehen, dass die Erfindung auch auf andere kritische Funktionen anwendbar ist, z. B. auf einen Prozess zur Steuerung der Reaktivität in einem Kernreaktor, eine Temperatursteuerung in einem Ofen in einer Fabrik, auf einen Navigationsbefehl in einem autonomen Kraftfahrzeug, auf einen Geschwindigkeitsbefehl in einem Schienenfahrzeug usw., zu übertragen.
Das elektronische System 10 ist geeignet, um erste und zweite Eingangsdaten zu empfangen, die im Folgenden mit A und B bezeichnet werden, und Ausgangsdaten C auszugeben, die mit der kritischen Funktion assoziiert sind.
Die zweiten Eingangsdaten B sind von den ersten Eingangsdaten A verschieden und unterscheiden sich davon.
Alle Eingangsdaten A, B werden von einer jeweiligen vorgeschalteten elektronischen Vorrichtung 12A, 12B bereitgestellt.
Die vorgeschaltete elektronische Vorrichtung 12A, die mit den Eingangsdaten A assoziiert ist, unterscheidet sich von der vorgeschalteten elektronischen Vorrichtung 12B, die mit den Eingangsdaten B assoziiert ist.
Jede vorgeschaltete elektronische Vorrichtung 12A, 12B befindet sich beispielsweise an Bord des Luftfahrzeugs. Jede vorgeschaltete elektronische Vorrichtung 12A, 12B ist insbesondere ein Sensor an Bord des Luftfahrzeugs, z. B. eine Kamera, ein Positionssensor oder ein Temperatursensor. Alternativ ist jede vorgeschaltete elektronische Vorrichtung 12A, 12B ein anderes System, insbesondere ein anderes Avioniksystem.
Alternativ dazu ist jede vorgeschaltete elektronische Vorrichtung 12A, 12B ein System außerhalb des Luftfahrzeugs, wie z. B. ein Kontrollturm, der die Eingangsdaten A, B übermittelt, die mit dem Luftfahrzeug assoziiert sind.
Vorteilhafterweise sind die ersten und die zweiten Eingangsdaten A, B vom gleichen Typ. Mit anderen Worten, die Art der Werte, die von den ersten und den zweiten Daten angenommen werden können, ist bei diesen ersten und zweiten Daten identisch.
Insbesondere ist dieser Typ ausgewählt aus der Gruppe, bestehend aus: einem Bild, einem Videostream, einer Messung oder Abfolge von Messungen eines oder mehrerer Betriebsparameter des elektronischen Systems 10, eines Messsignals, das von einem Sensor stammt, einem Befehl eines Benutzers des elektronischen Systems 10, einem Text (d. h. einer alphanumerischen Zeichenfolge), aus Informationsmitteilungen oder Spracherkennung.
Die ersten und die zweiten Eingangsdaten A, B sind beispielsweise Bilder der Umgebung des Luftfahrzeugs von zwei verschiedenen Bordkameras, Standortdaten des Luftfahrzeugs von zwei verschiedenen Sensoren, Avionikparameter, wie z. B. der Treibstoffstand oder der Betriebszustand eines oder mehrerer Avioniksysteme, oder auch Flugbefehle von zwei verschiedenen redundanten Flugsteuerungssystemen.
Alternativ sind die ersten und die zweiten Eingangsdaten A, B unterschiedlicher Art.
Die ersten Eingangsdaten A sind beispielsweise ein Bild der Umgebung des Luftfahrzeugs von einer Kamera an Bord des Luftfahrzeugs, und die zweiten Eingangsdaten B sind eine digitale Darstellung des von dem Luftfahrzeug überflogenen Geländes aus einer geografischen Datenbank.
Die Ausgangsdaten C sind vorteilhafterweise ein numerischer Wert oder ein boolescher Indikator, der normalerweise gleich 0 oder 1 ist.
Die Ausgangsdaten C sind z. B. ein Wert einer Flugsteuerung, ein Geschwindigkeits- oder Höhensollwert für das Luftfahrzeug, ein Sollwert für die Aktivierung/Deaktivierung eines Avioniksystems usw.
Die Ausgangsdaten C sind mit einem vorbestimmten Sicherheitsbereich assoziiert, wobei der Sicherheitsbereich in Form eines vordefinierten Wertebereichs ist.
Wenn also die Ausgangsdaten C ein numerischer Wert sind, ist der Sicherheitsbereich beispielsweise ein Intervall von Werten zwischen zwei vorbestimmten Grenzwerten oder ein offenes Intervall, das durch einen minimalen oder maximalen Schwellenwert definiert ist, oder auch eine Einheit solcher Intervalle. Wenn die Ausgangsdaten ein boolescher Indikator sind, der normalerweise 0 oder 1 ist, ist der Sicherheitsbereich dann ein einzelner Wert.
Das elektronische System 10 umfasst ein erstes Verarbeitungsmodul 14, ein zweites Verarbeitungsmodul 16, ein Hilfsverarbeitungsmodul 18 und eine Überwachungsvorrichtung 20.
Als optionale Ergänzung umfasst das elektronische System ferner ein Warnmodul 21 und ein Anzeigemodul 23.
Das erste Verarbeitungsmodul 14, das zweite Verarbeitungsmodul 16 und das Hilfsverarbeitungsmodul 18 sind beispielsweise jeweils in ein jeweiliges elektronischen Steuergerät integriert.
Jedes elektronische Steuergerät umfasst vorteilhafterweise seine eigene Stromversorgung und seine eigene Recheneinheit. Das elektronische Steuergerät ist z. B. in Form eines elektronischen Moduls, das unabhängig von anderen elektronischen Modulen ist und in ein Rack installiert werden kann (nicht dargestellt) oder in Form einer elektronischen Karte ist, die unabhängig von anderen elektronischen Karten ist und in ein Elektronikgehäuse installiert werden kann. Alternativ weist das elektronische Steuergerät sein eigenes elektronisches Gehäuse auf und ist dann das einzige Steuergerät, das innerhalb eines Schutzgehäuses angeordnet ist, das mit dem Gehäuse assoziiert ist.
Das erste Verarbeitungsmodul 14 ist konfiguriert, um anhand der ersten Eingangsdaten A und eines Algorithmus durch bestärkendes Lernen erste Zwischendaten SA zu berechnen, um die kritische Funktion zu implementieren.
Mit anderen Worten, das erste Verarbeitungsmodul 14 ist konfiguriert, um die kritische Funktion für die ersten Eingangsdaten A zu implementieren, indem es den Algorithmus durch bestärkendes Lernen auf die ersten Eingangsdaten A anwendet, dies, um die ersten Zwischendaten SA zu erlangen.
Die Funktionsweise eines Algorithmus durch bestärkendes Lernen ist in 2 schematisch dargestellt. Auf bekannte Weise besteht das Lernen durch Bestärken darin, dass ein autonomer Agent X, z. B. ein Algorithmus, in einem aktuellen Zustand S anhand von Erfahrungen die auszuführenden Handlungen F lernt, um eine quantitative Belohnung R im Lauf der Zeit zu optimieren. Der Agent X taucht in die Umgebung E ein und trifft seine Entscheidungen basierend auf seinem aktuellen Zustand S. Im Gegenzug erhält der Agent X von der Umgebung E eine positive oder negative Belohnung R und der Agent X bewegt sich in einem neuen aktuellen Zustand S'. Der Agent X versucht durch iterative Experimente, ein Entscheidungsverhalten zu optimieren, das als Strategie oder Politik bezeichnet wird und eine Funktion ist, die mit dem aktuellen Zustand S die auszuführende Aktion F assoziiert, um die Summe der Belohnungen R im Lauf der Zeit zu maximieren.
Daher ist bei einem solchen Problem die Rede davon, dass der Agent X mit der Umgebung E interagiert, um die optimale Lösung zu finden. Das Lernen durch Bestärken unterscheidet sich grundlegend von überwachten und nicht überwachten Problemen durch diese interaktive und iterative Seite: Der Agent X versucht verschiedene Lösungen aus (die Rede ist von „Exploration“), beobachtet die Reaktion der Umgebung E und passt sein Verhalten an, um die beste Strategie zu finden.
Die wichtigsten Familien des Algorithmus durch bestärkendes Lernen sind die sogenannten „Q-Learning“-Verfahren, Varianten des Q-Learning, wie z. B. die Verfahren, die als „Deep Q-Learning“ bezeichnet werden, die Verfahren, die als „Actor Critic“ bezeichnet werden, Bandit-Algorithmen, Markov-Entscheidungsalgorithmen und Spielbäume.
Wie später noch erläutert wird, wird eine Belohnung von der Steuervorrichtung 20 als Reaktion auf die ersten Zwischendaten SA bestimmt und an das erste Verarbeitungsmodul 14 zurückgesendet. Das erste Verarbeitungsmodul 14 ist dann geeignet, um den Algorithmus durch bestärkendes Lernen abhängig von dieser Belohnung für die Berechnung der nächsten ersten Zwischendaten SA weiterzuentwickeln, um die nächste erhaltene Belohnung zu maximieren.
Insbesondere ist das erste Verarbeitungsmodul 14 konfiguriert, um vorzugsweise ein so genanntes Verfahren „Q-Iearning“, ein so genanntes Verfahren „Actor Critic“ oder eine Variante dieser Verfahren, die dem Fachmann bekannt sind.
Vorteilhafterweise ist das erste Verarbeitungsmodul 14 konfiguriert, um den Algorithmus durch bestärkendes Lernen abhängig von einer ersten Vielzahl von algorithmischen Parametern zu implementieren.
Jeder algorithmische Parameter steuert insbesondere die Bedeutung einer Variablen oder Funktion in den Berechnungen, die der Algorithmus durch bestärkendes Lernen durchführt. Somit kann durch die Änderung eines oder mehrerer algorithmischer Parameter der Algorithmus durch bestärkendes Lernen im Lauf seiner Nutzung weiterentwickelt und angepasst werden.
Das Verfahren „Q-Learning“ zielt normalerweise darauf ab, eine Tabelle zu erstellen, die es ermöglicht alle möglichen Eingangsdaten mit Kosten zu verknüpfen, wobei die Kosten nach und nach entsprechend der Werte der Tabelle angepasst werden.
Das erste Verarbeitungsmodul 14 ist konfiguriert, um den Algorithmus durch bestärkendes Lernen mit dem so genannten Verfahren „Q-Learning“ zu implementieren, wenn die Anzahl der möglichen oder auch betrachteten oder berücksichtigten Eingangsdaten für die ersten Eingangsdaten A gering ist, normalerweise, wenn diese Anzahl von Eingangsdaten unter einem vordefinierten Schwellenwert ist. Das erste Verarbeitungsmodul 14 ist normalerweise konfiguriert, um den Algorithmus durch bestärkendes Lernen mit dem so genannten Verfahren „Q-Learning“ zu implementieren, wenn eine Kombinatorik von Eingangsdaten für die ersten Eingangsdaten A gering ist, wie etwa unterhalb eines entsprechenden vordefinierten Schwellenwerts.
Das so genannte Verfahren „Deep Q-Learning“ baut normalerweise ein neuronales Netz auf, das die Kosten aus allen möglichen Eingangsdaten berechnet, wobei die Parameter, wie z. B. Gewichte, des neuronalen Netzes angepasst werden, z. B. durch ein Verfahren absteigender Gradienten.
Das erste Verarbeitungsmodul 14 ist konfiguriert, um den Algorithmus durch bestärkendes Lernen mit dem so genannten Verfahren „Deep Q-Learning“ zu implementieren, wenn die Anzahl der möglichen oder auch betrachteten oder berücksichtigten Eingangsdaten für die ersten Eingangsdaten A groß ist, insbesondere zu groß, um eine Tabelle zu erstellen, normalerweise wenn die Anzahl der Eingangsdaten über dem vordefinierten Schwellenwert ist. Das erste Verarbeitungsmodul 14 ist normalerweise konfiguriert, um den Algorithmus durch bestärkendes Lernen mit dem so genannten Verfahren „Deep Q-Learning“ zu implementieren, wenn die Kombinatorik der Eingangsdaten für die ersten Eingangsdaten A hoch ist, wie z. B. über dem entsprechenden vordefinierten Schwellenwert.
Bei dem so genannten Verfahren „Actor Critic“ besteht das Prinzip darin, eine Kosten- und Wertfunktion zu schätzen. Diese Funktionen werden normalerweise durch neuronale Netze modelliert, indem die Gewichte dieser neuronalen Netze angepasst werden.
Das erste Verarbeitungsmodul 14 ist normalerweise konfiguriert, um den Algorithmus durch bestärkendes Lernen mit dem so genannten Verfahren „Actor Critic“ zu implementieren, wenn die Anzahl der möglichen oder auch betrachteten oder berücksichtigten Eingangsdaten für die ersten Eingangsdaten A groß ist, insbesondere zu groß, um eine Tabelle zu erstellen, normalerweise wenn die Anzahl der Eingangsdaten über dem vordefinierten Schwellenwert ist.
Der algorithmische Parameter ist dann normalerweise die Anzahl der möglichen, betrachteten oder berücksichtigten Eingangsdaten; oder auch die Kombinatorik der Eingangsdaten für die ersten Eingangsdaten A.
Das erste Verarbeitungsmodul 14 ist ferner konfiguriert, um die ersten Zwischendaten SA an die Überwachungsvorrichtung 20 zu senden.
Das zweite Verarbeitungsmodul 16 ist konfiguriert, um anhand der zweiten Eingangsdaten B und des Algorithmus durch bestärkendes Lernen zweite Zwischendaten SB zu berechnen, um die kritische Funktion zu implementieren.
Mit anderen Worten, das zweite Verarbeitungsmodul 16 ist konfiguriert, um die kritische Funktion für die zweiten Eingangsdaten B zu implementieren, indem es den Algorithmus durch bestärkendes Lernen auf die zweiten Eingangsdaten B anwendet, dies, um die zweiten Zwischendaten SB zu erlangen.
Die kritische Funktion wird also von dem zweiten Verarbeitungsmodul 16 mit demselben Algorithmus wie jener, der von dem ersten Verarbeitungsmodul 14 verwendet wird, aber mit anderen Eingangsdaten implementiert.
Vorteilhafterweise ist das zweite Verarbeitungsmodul 16 konfiguriert, um den Algorithmus durch bestärkendes Lernen abhängig von einer zweiten Vielzahl von algorithmischen Parametern zu implementieren.
Der Fachmann auf dem Gebiet wird verstehen, dass die erste Vielzahl von algorithmischen Parametern und die zweite Vielzahl von algorithmischen Parametern ähnlich sind und ermöglichen, die gleichen Variablen und Funktionen einzustellen, sie können aber auch unterschiedliche numerische Werte für jeden algorithmischen Parameter abhängig von der ersten bzw. zweiten erhaltenen Belohnung aufweisen.
Das zweite Verarbeitungsmodul 16 ist ferner konfiguriert, um die zweiten Zwischendaten SB an die Überwachungsvorrichtung 20 zu senden.
Das Hilfsverarbeitungsmodul 18 ist konfiguriert, um anhand der ersten Eingangsdaten A und/oder der zweiten Eingangsdaten B und eines Referenzalgorithmus Referenzzwischendaten zu berechnen, um die kritische Funktion zu implementieren
Mit anderen Worten, das Hilfsverarbeitungsmodul 18 ist konfiguriert, um durch Anwenden des Referenzalgorithmus auf die ersten Eingangsdaten A und/oder die zweiten Eingangsdaten B, um die Referenzzwischendaten SR zu erlangen, die kritische Funktion für die ersten Eingangsdaten A und/oder die zweiten Eingangsdaten zu implementieren.
Das Hilfsverarbeitungsmodul 18 ist beispielsweise konfiguriert, um die kritische Funktion nur anhand der ersten Eingangsdaten A oder nur anhand der zweiten Eingangsdaten B zu implementieren. Insbesondere ist das Hilfsverarbeitungsmodul 18 konfiguriert, um eingangs vorrangig die ersten Eingangsdaten A zu nehmen, und ansonsten, insbesondere bei einer Störung der ersten vorgeschalteten elektronischen Vorrichtung 12A, die zweiten Eingangsdaten B zu nehmen.
Alternativ ist das Hilfsverarbeitungsmodul 18 konfiguriert, um die kritische Funktion sowohl anhand der ersten Eingangsdaten A als auch anhand der zweiten Eingangsdaten B zu implementieren.
Alternativ dazu ist das Hilfsverarbeitungsmodul 18 konfiguriert, um die kritische Funktion nur anhand der ersten Eingangsdaten A zu implementieren; und separat die kritische Funktion nur anhand der zweiten Eingangsdaten B zu implementieren. Gemäß dieser Variante ist das Hilfsverarbeitungsmodul 18 dann konfiguriert, um der Überwachungsvorrichtung 20 zusätzlich zweite Zwischenreferenzdaten SR' bereitzustellen, die mit der zweiten Implementierung der kritischen Funktion assoziiert sind.
Der Referenzalgorithmus unterscheidet sich von dem Algorithmus durch bestärkendes Lernen. Der Referenzalgorithmus ist also nicht konfiguriert, um ein bestärkendes Lernen zu implementieren.
Die Gesamtheit der Implementierungen der kritischen Funktion durch den Referenzalgorithmus definiert einen Zielbereich des Referenzalgorithmus. Vorteilhafterweise ist der Ankunftsbereich in dem Sicherheitsbereich beinhaltet. Auf diese Weise ergibt die Implementierung der kritischen Funktion durch das Hilfsverarbeitungsmodul 18 am Ausgang Zwischenreferenzdaten SR, die immer innerhalb des Sicherheitsbereichs der kritischen Funktion sind, wodurch die Sicherheit des Luftfahrzeugs gewährleistet wird.
Der Referenzalgorithmus ist insbesondere ein Algorithmus, der kein Verfahren des maschinellen Lernens implementiert. Insbesondere ist der Referenzalgorithmus ein deterministischer Algorithmus, der z. B. aus einer Folge von bedingten Anweisungen (vom Typ „if, then“) besteht und/oder auf der Umsetzung eines Modells beruht, das aus einer Reihe von physikalischen Gesetzen besteht, die die Funktionsweise des Systems beschreiben, wobei die Gleichungen insbesondere von einem Fachmann auf dem Gebiet basierend auf physikalischen Gesetze, die möglicherweise vereinfacht wurden, aufgestellt werden., oder auch Signalverarbeitungs- oder Filterverfahren. Signalverarbeitungs- oder Filterverfahren sind zum Beispiel Verfahren, bei denen digitale Filter, Kalman-Filter, die an sich bekannt sind, implementiert werden.
Der Fachmann auf dem Gebiet wird dann verstehen, dass der Referenzalgorithmus ein deterministischer, d. h. vollständig begründbarer Algorithmus ist, was bei dem Algorithmus durch bestärkendes Lernen nicht der Fall ist, der nach und nach durch Versuche, insbesondere durch sein Lernen, aufgebaut wird.
Die kritische Funktion wird also von dem Hilfsverarbeitungsmodul 18 mit denselben Eingangsdaten A, B wie von dem ersten und dem zweiten Verarbeitungsmodul 14, 16, aber mit einem anderen Algorithmus implementiert.
Das Hilfsverarbeitungsmodul 18 ist ferner konfiguriert, um die zweiten Referenzzwischendaten SR, SR' an die Überwachungsvorrichtung 20 zu senden.
Die Überwachungsvorrichtung 20 umfasst ein Kontrollmodul 22 und ein Erzeugungsmodul 24.
Als Ergänzung umfasst die Überwachungsvorrichtung 20 ein Erzeugungsmodul 26.
Das Belohnungsmodul 26 ist konfiguriert, um eine erste Belohnung RA, die mit der Implementierung der kritischen Funktion durch das erste Verarbeitungsmodul 14 assoziiert ist, und eine zweite Belohnung RB, die mit der Implementierung der kritischen Funktion durch das zweite Verarbeitungsmodul 16 assoziiert ist, zu berechnen.
Insbesondere ist das Belohnungsmodul 26 konfiguriert, um die erste und die zweite Belohnung RA, RB basierend auf einer vorbestimmten Belohnungsregel zu berechnen.
Wie oben erläutert, definiert die vorbestimmte Belohnungsregel, ob die von dem ersten oder dem zweiten Verarbeitungsmodul 14, 16 durchgeführte Berechnung nahe an einem vorbestimmten Ziel ist.
Als Beispiel ist das Ziel z. B. eine Flugbahn des Luftfahrzeugs, die verfolgt werden soll, und die Belohnungsregel ist durch den Abstand zwischen der tatsächlichen Flugbahn, der das Luftfahrzeug folgt, und der angestrebten Flugbahn definiert. Je näher also der Abstand zwischen den zwei Flugbahnen ist, desto höher ist die Belohnung als Reaktion, sodass das erste und das zweite Verarbeitungsmodul 14, 16 bevorzugt Aktionen berücksichtigen, die zu einer Flugbahn führen, die möglichst nahe an der Zielflugbahn ist.
Das Belohnungsmodul 26 ist ferner konfiguriert, um jede erste Belohnung RA und/oder jeweils jede zweite Belohnung RB zu bestrafen, wenn die ersten Zwischendaten SA und/oder jeweils die zweiten Zwischendaten SB nicht zu dem Sicherheitsbereich gehören.
Das Belohnungsmodul 26 ist zum Beispiel konfiguriert, um jede erste Belohnung RA und/oder jede zweite Belohnung RB mit einem Multiplikator zu multiplizieren, der strikt kleiner ist als 1, wenn die ersten Zwischendaten SA bzw. die zweiten Zwischendaten SB nicht zu dem Sicherheitsbereich gehören. Je größer die Abweichung der ersten und/oder der zweiten Zwischendaten SA, SB in Bezug auf den Sicherheitsbereich ist, desto kleiner ist der Multiplikator, um die assoziierte erste oder zweite Belohnung RA, RB zu bestrafen.
Alternativ ist das Belohnungsmodul 26 konfiguriert, um von jeder ersten Belohnung RA bzw. von jeder zweiten Belohnung RA einen Wert proportional zu der Abweichung zwischen der ersten oder der zweiten Belohnung RA, RB von dem Sicherheitsbereich zu berechnen.
Das erste Verarbeitungsmodul 14 ist konfiguriert, um die erste Belohnung RA bei jeder Iteration zu erhalten und um die erste Vielzahl von algorithmischen Parametern abhängig von der ersten erhaltenen Belohnung RA bei jeder Iteration zu modifizieren, um die nächste erhaltene erste Belohnung RA zu maximieren.
Das zweite Verarbeitungsmodul 16 ist konfiguriert, um die zweite Belohnung RB bei jeder Iteration zu erhalten und um die zweite Vielzahl von algorithmischen Parametern abhängig von der erhaltenen zweiten Belohnung RB bei jeder Iteration zu modifizieren, um die nächste erhaltene zweite Belohnung RB zu maximieren.
Das Kontrollmodul 22 ist konfiguriert, um zu überprüfen, ob die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören.
Insbesondere, wenn die ersten und die zweiten Zwischendaten SA, SB numerische Werte sind, ist das Kontrollmodul 22 konfiguriert, um zu überprüfen, ob die ersten und die zweiten Zwischendaten SA, SB zu dem Wertebereich gehören, der den Sicherheitsbereich definiert.
Wenn die ersten und die zweiten Zwischendaten SA, SB boolesche Indikatoren sind, ist das Kontrollmodul 22 konfiguriert, um zu überprüfen, ob die ersten und die zweiten Zwischendaten SA, SB gleich wie der Wert sind, der mit dem Sicherheitsbereich assoziiert ist, normalerweise 0 oder 1.
Das Kontrollmodul 22 ist ferner konfiguriert, um die ersten und die zweiten Zwischendaten SA, SB miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen.
Der Vergleich zwischen den zwei Zwischendaten SA, SB bestimmt, ob diese zwei Zwischendaten gemäß einer vorbestimmten Kohärenzregel miteinander kohärent sind. Die Kohärenzregel definiert ein Kriterium für das Resultat des Vergleichs, mit dem bestimmt werden kann, ob die Zwischendaten untereinander kohärent sind.
Wenn die Zwischendaten numerische Werte sind, definiert die Kohärenzregel normalerweise eine Berechnung einer Metrik, wie z. B. eines Abstands zwischen den Daten, z. B. den absoluten Wert der Differenz, und einen Kohärenzschwellenwert. Die Zwischendaten SA, SB sind dann untereinander kohärent, wenn der Messwert, wie z. B. der Abstand zwischen den Werten kleiner ist als der Kohärenzschwellenwert.
Als Beispiel werden zwei Zwischendaten, die Sollwerte für die Geschwindigkeit des Luftfahrzeugs darstellen und sich im Wert um mehr als 10 % unterscheiden, als inkonsistent zueinander betrachtet.
Das Kontrollmodul 22 ist ferner konfiguriert, um die Anzahl der Male zu zählen, in denen die ersten bzw. zweiten Zwischendaten SA, SB den Sicherheitsbereich nicht einhalten.
Das Kontrollmodul 22 ist konfiguriert, um die erste Vielzahl von algorithmischen Parametern bzw. die zweite Vielzahl von algorithmischen Parametern zurückzusetzen, wenn die Anzahl größer ist als ein vorbestimmter Schwellenwert.
Insbesondere werden die in den ersten und den zweiten Verarbeitungsmodulen 14, 16 implementierten Algorithmen durch bestärkendes Lernen in einer kontrollierten simulationsähnlichen Umgebung trainiert, bevor das System 10 unter realen Bedingungen in Betrieb genommen wird. Dieses Training ermöglicht die Etablierung eines Verhaltens der Algorithmen, das einen Betrieb der Algorithmen sicherstellt, der eine Leistung und Sicherheit gewährleistet, die von einem Fachmann auf dem Gebiet vor einem Betrieb des Systems 10 als ausreichend erachtet wird. Die nach dem Training erlangten algorithmischen Parameter des Algorithmus werden in einer Datenbank gespeichert, die in das System 10 integriert ist.
Somit ist unter „Zurücksetzen der ersten Vielzahl von algorithmischen Parametern und der zweiten Vielzahl von algorithmischen Parametern“ der Umstand eines Zurücksetzens der in dem ersten und dem zweiten Verarbeitungsmodul 14, 16 implementierten Algorithmen durch bestärkendes Lernen gemäß den beim Training vor einem Betrieb des Systems 10 definierten algorithmischen Parametern zu verstehen.
Wenn das Hilfsverarbeitungsmodul 18 konfiguriert ist, um zwei assoziierte Zwischenreferenzdaten anhand der ersten Referenzdaten A bzw. der zweiten Eingangsdaten B und der zweiten Referenzdaten für die Implementierung der kritischen Funktion bereitzustellen, ist das Kontrollmodul 22 vorteilhafterweise konfiguriert, um die ersten Zwischendaten SA mit den Referenzzwischendaten SR zu vergleichen, die mit den ersten Eingangsdaten assoziiert sind, und jeweils um die zweiten Zwischendaten SB mit den Referenzzwischendaten SR', die mit den zweiten Eingangsdaten B assoziiert sind, zu vergleichen.
Wenn also zwischen den ersten und den zweiten Zwischendaten SA, SB eine Inkonsistenz erkannt wird, ist das Kontrollmodul 22 geeignet, um zu erkennen, ob die Störung auf ersten und die zweiten Eingangsdaten A, B oder auf die Implementierung der kritischen Funktion durch das erste und das zweite Verarbeitungsmodul 14, 16 zurückzuführen ist.
Wenn nämlich die ersten Zwischendaten SA und die Referenzzwischendaten SR, die mit den ersten Eingangsdaten A assoziiert sind, kohärent sind und wenn die zweiten Zwischendaten SB nicht mit den Referenzzwischendaten, die mit den zweiten Eingangsdaten B assoziiert sind, konsistent ist, dann kommt die Störung von dem zweiten Verarbeitungsmodul 16.
Wenn die ersten Zwischendaten SA und die Referenzzwischendaten SR, die mit den ersten Eingangsdaten A assoziiert sind, kohärent sind und die zweiten Zwischendaten SB mit den Referenzzwischendaten, die den zweiten Eingangsdaten B assoziiert sind, konsistent sind, dann kommt der Fehler von einer der zwei vorgeschalteten elektronischen Vorrichtungen 12A, 12B.
Das Kontrollmodul 22 ist ferner konfiguriert, um die erste und die zweite Belohnung RA, RB miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen.
Insbesondere berechnet das Kontrollmodul 22 eine Metrik, wie z. B. einen Abstand zwischen den Belohnungen RA, RB, z. B. den absoluten Wert der Differenz, und einen zweiten Konsistenzschwellenwert. Die Zwischendaten sind dann untereinander kohärent, wenn die Metrik, wie z. B. der Abstand zwischen den Werten kleiner ist als der Kohärenzschwellenwert.
Das Erzeugungsmodul 24 ist konfiguriert, um die Ausgangsdaten C abhängig von den ersten und den zweiten Zwischendaten zu erzeugen, wenn die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wurde.
Die Ausgangsdaten C sind zum Beispiel gleich wie eines von den zwei Zwischendaten SA, SB. Wenn die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wird, sind die Ausgangsdaten C normalerweise gleich wie die ersten Zwischendaten SA.
Wenn die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wird, sind die Ausgangsdaten C als Variante gleich wie die Zwischendaten SA, SB, die mit der höchsten Belohnung RA, RB assoziiert sind, die von dem Belohnungsmodul 26 berechnet wird.
Als weitere Variante ist das Erzeugungsmodul 24 konfiguriert, um eine mathematische Formel auf die ersten und die zweiten Zwischendaten SA, SB anzuwenden, um die Ausgangsdaten C zu erlangen. Beispielsweise ist das Erzeugungsmodul 24 konfiguriert, um einen Mittelwert der Zwischendaten SA, SB zu bilden.
Wenn eines von den ersten und zweiten Zwischendaten SA, SB nicht zu dem Sicherheitsbereich gehört und/oder eine Inkonsistenz erkannt wird, dann sind die Ausgangsdaten C gleich wie die Referenzdaten SR.
Das Warnmodul 21 ist konfiguriert ist, um abhängig von jeder von dem Kontrollmodul 22 erkannten Inkonsistenz zwischen den Zwischendaten SA, SB und/oder zwischen den Belohnungen RA, RB ein Warnsignal zu erzeugen.
Das Warnsignal umfasst vorteilhafterweise eine Warnung über die Störung der vorgeschalteten elektronischen Vorrichtungen 12A, 12B oder eines der Verarbeitungsmodule 14, 16.
Optional ist das Anzeigemodul 23 konfiguriert, um die Warnung für einen Benutzer des elektronischen Systems 10 anzuzeigen. Insbesondere, wenn das System 10 ein Avioniksystem ist, ist das Anzeigemodul 23 konfiguriert, um die Warnung auf einem Head-Up-Display oder einem Head-Up-Display vor dem Piloten anzuzeigen, der dann die erkannte Störung berücksichtigt.
In dem Beispiel von 1 umfasst das elektronische System 10 eine Informationsverarbeitungseinheit 50, die beispielsweise aus einem Speicher 52 und einem mit dem Speicher 52 assoziierten Prozessor 54 gebildet ist. Das erste Verarbeitungsmodul 14, das zweite Verarbeitungsmodul 16, das Hilfsverarbeitungsmodul 18 und die Überwachungsvorrichtung 20 sowie optional zusätzlich das Warnmodul 21 und das Anzeigemodul 23 sind jeweils in Form von Software oder Softwarebaustein realisiert, die von dem Prozessor 54 ausgeführt werden können. Der Speicher 52 ist dann geeignet, um eine erste Verarbeitungssoftware, eine zweite Verarbeitungssoftware, eine Hilfsverarbeitungssoftware und eine Überwachungssoftware, sowie als optionale Ergänzung eine Warnsoftware und eine Anzeigesoftware zu speichern. Der Prozessor 54 ist dann geeignet, um jede dieser Software auszuführen.
Als nicht dargestellte Variante sind das erste Verarbeitungsmodul 14, das zweite Verarbeitungsmodul 16, das Hilfsverarbeitungsmodul 18 und die Überwachungsvorrichtung 20 sowie optional zusätzlich das Warnmodul 21 und das Anzeigemodul 23 jeweils in Form eines programmierbaren Logikbauteils, wie z. B. einem FPGA (von engl. Field Programmable Gate Array), oder auch in Form eines dedizierten integrierten Schaltkreises, wie z. B. einem ASIC (von engl. Application Specific Integrated Circuit}, realisiert. Das erste Verarbeitungsmodul 14, das zweite Verarbeitungsmodul 16 und das Hilfsverarbeitungsmodul 18 und die Überwachungsvorrichtung 20 sind dann vorzugsweise jeweils in ein jeweiliges elektronisches Steuergerät integriert.
Wenn das elektronische System 10 in Form einer oder mehrerer Softwareprogramme, d. h. in Form eines Computerprogramms, realisiert ist, ist es ferner geeignet, um auf einem nicht dargestellten, computerlesbaren Medium gespeichert zu sein. Das computerlesbare Medium ist z. B. ein Medium, das elektronische Anweisungen speichern kann und mit einem Bus eines Computersystems gekoppelt sein kann. Beispielsweise ist das lesbare Medium eine optische Disk, eine magneto-optische Disk, ein ROM, ein RAM, jede Art von nichtflüchtigem Speicher (z. B. EPROM, EEPROM, FLASH, NVRAM), eine Magnetkarte oder eine optische Karte. Auf dem lesbaren Medium ist dann ein Computerprogramm gespeichert, das Softwareanweisungen umfasst.
Die Funktionsweise des elektronischen Systems 10 gemäß der Erfindung wird nun anhand von 3 erläutert, die ein Organigramm des Verfahrens gemäß der Erfindung zur Implementierung einer kritischen Funktion durch das System 10 darstellt.
Im Folgenden ist ein Beispiel für die Durchführung des Verfahrens für ein Avioniksystem beschrieben und der Fachmann auf dem Gebiet wird verstehen, dass dieses Verfahren allgemeiner auf jedes elektronische System 10 angewendet werden kann.
Anfangs fliegt das Luftfahrzeug z. B. in Richtung eines Flughafens.
Das Avioniksystem 10 implementiert dann eine kritische Avionikfunktion, z. B. die Berechnung einer Flugsteuerung des Luftfahrzeugs, die Berechnung einer optimierten Flugbahn gemäß einem vorbestimmten Kriterium, wie z. B. dem Treibstoffverbrauch des Luftfahrzeugs, oder die Berechnung einer Strategie, mit der das Luftfahrzeug einem Hindernis ausweicht. In einem ersten Berechnungsschritt 100 berechnet das erste Verarbeitungsmodul 14 anhand der ersten Eingangsdaten A und des Algorithmus durch bestärkendes Lernen die ersten Zwischendaten SA, um die kritische Funktion für die ersten Eingangsdaten A zu implementieren.
In dem Beispiel der Berechnung einer Flugsteuerung sind die ersten Eingangsdaten A insbesondere erste Daten des Standorts des Luftfahrzeugs, erste Daten in Bezug auf den Zustand des Luftfahrzeugs, erste Daten in Bezug auf den Zustand eines Avioniksystems oder erste Daten in Bezug auf die Flugbahn, der das Luftfahrzeug folgen soll. Das erste Verarbeitungsmodul 14 berechnet dann die ersten Zwischendaten SA, wie z. B. eine erste Flugsteuerung für das Luftfahrzeug, um sich so nah wie möglich an einen Zielpfad anzunähern, dies ausgehend von diesen ersten Eingangsdaten A, indem es den Algorithmus durch bestärkendes Lernen darauf anwendet. Die ersten Zwischendaten SA sind somit repräsentativ für einen ersten Flugbefehl für das Luftfahrzeug, um dem angestrebten Kurs bestmöglich zu folgen.
In dem Beispiel der Berechnung einer optimierten Flugbahn sind die ersten Eingangsdaten A insbesondere erste Daten des Standorts des Luftfahrzeugs, erste Daten in Bezug auf den Zustand des Luftfahrzeugs, erste Daten in Bezug auf das Ziel, das für das Luftfahrzeug programmiert ist. Die ersten Zwischendaten SA sind dann repräsentativ für eine erste zu verfolgende Flugbahn.
In dem Beispiel der Berechnung einer Strategie zur Vermeidung eines Hindernisses sind die ersten Eingangsdaten A insbesondere erste Standortdaten des Luftfahrzeugs, erste Standortdaten des Hindernisses oder erste Daten in Bezug auf den Zustand eines Avioniksystems. Die ersten Zwischendaten SA sind dann repräsentativ für eine erste Strategie, mit der das Luftfahrzeug einem Hindernis ausweicht.
In einem zweiten Berechnungsschritt 110 berechnet das zweite Verarbeitungsmodul 16 die zweiten Zwischendaten SB anhand der zweiten Eingangsdaten B und des Algorithmus durch bestärkendes Lernen, um die kritische Funktion für die zweiten Eingangsdaten B zu implementieren.
In dem Beispiel der Berechnung einer Flugsteuerung sind die zweiten Eingangsdaten B insbesondere zweite Standortdaten des Luftfahrzeugs, die vorzugsweise von einem anderen Sensor als jenem kommen, der die ersten Standortdaten bereitgestellt hat, zweite Daten in Bezug auf den Zustand des Avioniksystems oder zweite Daten in Bezug auf die zu verfolgende Flugbahn. Das zweite Verarbeitungsmodul 16 berechnet die zweiten Zwischendaten SB, wie z. B. eine zweite Flugsteuerung für das Luftfahrzeug, um sich so nah wie möglich an die vorgesehene Flugbahn anzunähern, dies ausgehend von diesen zweiten Eingangsdaten B, indem es den Algorithmus durch bestärkendes Lernen darauf anwendet. Die zweiten Zwischendaten SB sind somit repräsentativ für eine zweite Flugsteuerung für das Luftfahrzeug, um der vorgesehenen Flugbahn bestmöglich zu folgen.
In dem Beispiel der Berechnung einer optimierten Flugbahn sind die zweiten Eingangsdaten AB insbesondere zweite Daten des Standorts des Luftfahrzeugs, zweite Daten in Bezug auf den Zustand des Luftfahrzeugs, zweite Daten in Bezug auf das Ziel, das für das Luftfahrzeug programmiert ist. Die zweiten Zwischendaten SB sind dann repräsentativ für eine zweite zu verfolgende Flugbahn.
In dem Beispiel der Berechnung einer Strategie zur Vermeidung eines Hindernisses sind die zweiten Eingangsdaten A insbesondere zweite Standortdaten des Luftfahrzeugs, zweite Standortdaten des Hindernisses oder zweite Daten in Bezug auf den Zustand eines Avioniksystems. Die zweiten Zwischendaten SB sind dann repräsentativ für eine zweite Strategie, mit der das Luftfahrzeug einem Hindernis ausweicht.
In einem dritten Berechnungsschritt 120 berechnet das Hilfsverarbeitungsmodul 18 anhand der ersten Eingangsdaten A und/oder der zweiten Eingangsdaten SR und des Referenzalgorithmus die Referenzzwischendaten SR, um die kritische Funktion über den Referenzalgorithmus für die ersten Eingangsdaten A und/oder die zweiten Eingangsdaten B zu implementieren.
Beispielsweise berechnet das Hilfsverarbeitungsmodul 18 die Referenzzwischendaten SR, wie z. B. eine dritte Flugsteuerung für das Luftfahrzeug, um der vorhergesehenen Flugbahn so nahe wie möglich zu kommen, eine dritte zu verfolgende Flugbahn oder eine dritte Ausweichstrategie, dies anhand der ersten Eingangsdaten A und/oder der zweiten Eingangsdaten B an sich indem der Referenzalgorithmus auf sie angewendet wird.
In dem Beispiel der Berechnung einer Flugsteuerung ist der Referenzalgorithmus beispielsweise ein vereinfachtes physikalisches Modell, das eine deterministische Formel bereitstellt, die die Flugsteuerung abhängig von der Abweichung der Flugbahn des Luftfahrzeugs von der Zielflugbahn ergibt.
In dem Beispiel der Berechnung einer optimierten Flugbahn ist der Referenzalgorithmus z. B. ein vereinfachtes physisches Modell, das eine deterministische Formel bereitstellt, die eine Flugbahn mit geringem Treibstoffverbrauch abhängig von der Position des Luftfahrzeugs und seinem Ziel ergibt.
In dem Beispiel der Berechnung einer Ausweichstrategie für ein Hindernis ist der Referenzalgorithmus z. B. ein vereinfachtes physisches Modell, das eine deterministische Formel bereitstellt, die eine Ausweichstrategie abhängig von der Position des Luftfahrzeugs und der Position des Hindernisses ergibt.
Die Schritte 100, 110 und 120 werden unabhängig voneinander, gleichzeitig oder auch nacheinander in beliebiger Reihenfolge durchgeführt.
Die Überwachungsvorrichtung 20 erhält die ersten und die zweiten Zwischendaten SA, SB und prüft dann in einem Prüfschritt 130, ob die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören, und vergleicht die ersten und die zweiten Zwischendaten SA, SB miteinander, um eine mögliche Inkonsistenz zu erkennen.
Wenn die Flugsteuerung beispielsweise eine Geschwindigkeitsvorgabe ist, ist der Sicherheitsbereich dann insbesondere ein assoziiertes Geschwindigkeitsintervall. Wenn der Flugbefehl ein Höhensollwert ist, ist der Sicherheitsbereich dann ein Höhenintervall. Wenn die Flugsteuerung eine Motorsteuerung ist, ist der Sicherheitsbereich dann insbesondere ein Motorleistungsintervall. Wenn die Flugsteuerung eine Richtungssteuerung ist, ist der Sicherheitsbereich z. B. eine Beschränkung für die Richtungsänderung des Luftfahrzeugs usw.
Ferner werden beispielsweise zwei Flugbefehle als inkonsistent zueinander erkannt, wenn die Flugbahnen, die mit diesen zwei Befehlen assoziiert ist, eine räumliche Abweichung aufweisen, die größer ist als ein vorbestimmter Schwellenwertabstand.
Wenn die ersten und die zweiten Zwischendaten SA, SB zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wird, stellt die Überwachungsvorrichtung 20 die Ausgangsdaten C abhängig von den ersten und den zweiten Zwischendaten SA, SB in einem Erzeugungsschritt 140 bereit.
Beispielsweise sind die Ausgangsdaten C gleich wie die erste Flugsteuerung oder gleich wie der Mittelwert zwischen der ersten und der zweiten Flugsteuerung.
Wenn eine Inkonsistenz erkannt wird, stellt die Überwachungsvorrichtung 20 dann die Ausgangsdaten C bereit, die gleich wie die Referenzdaten SR in dem Erzeugungsschritt 140 sind. Darüber hinaus erzeugt das Warnmodul 21 in einem Warnschritt 150 ein Warnsignal und optional in einem Anzeigeschritt 160 zeigt das Anzeigemodul 25 die Warnung für einen Benutzer des elektronischen Systems 10, insbesondere den Piloten des Luftfahrzeugs, an.
In einem Belohnungsschritt 170 erhält das Belohnungsmodul 26 die ersten und die zweiten Zwischendaten SA, SB und berechnet eine erste Belohnung RA, die mit der Implementierung der kritischen Funktion durch das erste Verarbeitungsmodul 14 assoziiert ist, und eine zweite Belohnung RB, die mit der Implementierung der kritischen Funktion durch das zweite Verarbeitungsmodul 16 assoziiert ist.
In dem Beispiel der Berechnung einer Flugsteuerung gilt, je näher der Abstand zwischen der berechneten und der vorhergesehenen Flugbahn ist, desto höher ist die Belohnung.
In dem Beispiel der Berechnung einer optimierten Flugbahn wird die Belohnung basierend auf dem gemessenen tatsächlichen Kraftstoffverbrauch berechnet. Je geringer der Konsum, desto höher ist dann die Belohnung.
In dem Beispiel der Berechnung einer Strategie zum Ausweichen eines Hindernisses wird die Belohnung nach Ausweichen des Hindernisses basierend auf dem Mindestabstand zwischen dem Luftfahrzeug und dem Hindernis berechnet. Je größer diese Distanzdifferenz ist, desto größer ist auch die Belohnung.
Das Belohnungsmodul 26 sendet die erste Belohnung RA bzw. die zweite Belohnung RB an das erste bzw. zweite Verarbeitungsmodul 14, 16.
Bei der nächsten Iteration des ersten Berechnungsschritts 100 erhält das erste Verarbeitungsmodul 14 die erste Belohnung RA und ändert die erste Vielzahl von algorithmischen Parametern, um die nächste erhaltene erste Belohnung RA zu maximieren und somit beispielsweise eine Flugbahn zu berechnen, die näher an der Zielflugbahn ist.
Bei der nächsten Iteration des zweiten Berechnungsschritts 110 erhält das zweite Verarbeitungsmodul 16 die zweite Belohnung RB und modifiziert die zweite Vielzahl von algorithmischen Parametern, um die nächste erhaltene zweite Belohnung RB zu maximieren und somit zum Beispiel eine Flugbahn zu berechnen, die weniger Treibstoff verbraucht, oder eine effizientere Ausweichstrategie.
Es ist daher zu verstehen, dass die vorliegende Erfindung eine gewisse Anzahl von Vorteilen aufweist.
Durch Implementierung der kritischen Funktion durch das erste und das zweite Verarbeitungsmodul 14, 16 über den Algorithmus durch bestärkendes Lernen kann die Leistung des Systems 10 während seines Betriebs verbessert werden. Denn ein solcher Algorithmus ermöglicht es, sich an neue und unerwartete Ereignisse anzupassen, die das elektronische System 10 während seines Betriebs vorfindet.
Der Vergleich zwischen diesen zwei Zwischendaten SA, SB, die aus zwei verschiedenen Eingangsdaten stammen, und die Überprüfung der Zugehörigkeit zu dem Sicherheitsbereich ermöglichen es ferner, eine mögliche Inkonsistenz zu erkennen und gegebenenfalls ein Ausgangsdaten C bereitzustellen, die gleich wie die Zwischenreferenzdaten SR sind, die zu dem Sicherheitsbereich gehören, und somit die Sicherheit des Systems 10 selbst im Fall einer erkannten Inkonsistenz zu gewährleisten.
Schließlich kann das System 10 gemäß der Erfindung den Benutzer gegebenenfalls auf eine Störung aufmerksam machen, die auf die Eingangsdaten oder die Implementierung des Algorithmus durch bestärkendes Lernen zurückzuführen ist.
Auf diese Weise ermöglicht es die Erfindung, ein leistungsfähiges elektronisches System 10 zu erlangen, das gleichzeitig ausreichend sicher ist, insbesondere im Hinblick auf die Sicherheitsanforderungen im Bereich der Avionik.

Claims

Elektronisches System (10), das konfiguriert ist, um eine kritische Funktion zu implementieren, wobei das elektronische System (10) geeignet ist, um erste und zweite Eingangsdaten (A, B) zu empfangen und konsolidierte Ausgangsdaten (C) auszugeben, die mit der kritischen Funktion assoziiert sind, wobei die Ausgangsdaten (C) mit einem vorbestimmten Sicherheitsbereich assoziiert sind, wobei der Sicherheitsbereich in Form eines vordefinierten Wertebereichs ist, das elektronische System (10) umfassend: - ein erstes Verarbeitungsmodul (14), das konfiguriert ist, um anhand der ersten Eingangsdaten (A) und eines Algorithmus durch bestärkendes Lernen erste Zwischendaten (SA) zu berechnen, um die kritische Funktion für die ersten Eingangsdaten (A) zu implementieren, - ein zweites Verarbeitungsmodul (16), das konfiguriert ist, um anhand der zweiten Eingangsdaten (B) und des Algorithmus durch bestärkendes Lernen zweite Zwischendaten (SB) zu berechnen, um die kritische Funktion für die zweiten Eingangsdaten (B) zu implementieren, wobei sich die zweiten Eingangsdaten (B) von den ersten Eingangsdaten (A) unterscheiden, - ein Hilfsverarbeitungsmodul (18), das konfiguriert ist, um anhand der ersten Eingangsdaten (A) und/oder der zweiten Eingangsdaten (B) und eines Referenzalgorithmus, der sich von dem Algorithmus durch bestärkendes Lernen unterscheidet, Referenzzwischendaten (SR) zu berechnen, um die kritische Funktion für die ersten Eingangsdaten (A) und/oder die zweiten Eingangsdaten (B) über den Referenzalgorithmus zu implementieren, eine Überwachungsvorrichtung (20), umfassend: + ein Kontrollmodul (22), das konfiguriert ist, um zu prüfen, ob die ersten und die zweiten Zwischendaten (SA, SB) zu der Sicherheitsbereich gehören, und um die ersten und die zweiten Zwischendaten (SA, SB) miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen; + ein Erzeugungsmodul (24), das konfiguriert ist, um die Ausgangsdaten (C) abhängig von den ersten und den zweiten Zwischendaten (SA, SB) zu erzeugen, wenn die ersten und die zweiten Zwischendaten (SA, SB) zu dem Sicherheitsbereich gehören und wenn keine Inkonsistenz erkannt wird, wobei die Ausgangsdaten (C) ansonsten gleich wie die Referenzzwischendaten (SR) sind.
System (10) nach Anspruch 1, wobei die Gesamtheit der Implementierungen der kritischen Funktion durch den Referenzalgorithmus einen Ankunftsbereich des Referenzalgorithmus definiert, wobei der Ankunftsbereich in dem Sicherheitsbereich beinhaltet ist.
System (10) nach Anspruch 1 oder 2, wobei die Überwachungsvorrichtung (20) ein Belohnungsmodul (26) umfasst, das konfiguriert ist, um eine erste Belohnung (RA) für die Implementierung der kritischen Funktion durch das erste Verarbeitungsmodul (14) und eine zweite Belohnung (RB) für die Implementierung der kritischen Funktion durch das zweite Verarbeitungsmodul (16) zu berechnen, wobei das erste Verarbeitungsmodul (14) konfiguriert ist, um den Algorithmus durch bestärkendes Lernen abhängig von einer ersten Vielzahl von algorithmischen Parametern zu implementieren, wobei das erste Verarbeitungsmodul (14) bei jeder Iteration konfiguriert ist, um die erste Belohnung (RA) zu empfangen und um die erste Vielzahl von algorithmischen Parametern abhängig von der empfangenen ersten Belohnung (RA) zu modifizieren, um die nächste empfangene erste Belohnung (RA) zu maximieren, wobei das zweite Verarbeitungsmodul (14) konfiguriert ist, um den Algorithmus durch bestärkendes Lernen abhängig von einer zweiten Vielzahl von algorithmischen Parametern zu implementieren, wobei das zweite Verarbeitungsmodul (16) bei jeder Iteration konfiguriert ist, um die zweite Belohnung (RB) zu empfangen und um die zweite Vielzahl von algorithmischen Parametern abhängig von der empfangenen zweiten Belohnung (RB) zu modifizieren, um die nächste empfangene zweite Belohnung (RB) zu maximieren.
System (10) nach Anspruch 3, wobei das Belohnungsmodul (26) konfiguriert ist, um jede erste Belohnung (RA) bzw. jede zweite Belohnung (B) zu bestrafen, wenn die ersten Zwischendaten (SA) bzw. die zweiten Zwischendaten (SB) nicht zu dem Sicherheitsbereich gehören.
System (10) nach Anspruch 3 oder 4, wobei, wenn die ersten und die zweiten Zwischendaten (SA, SB) zu dem Sicherheitsbereich gehören und keine Inkonsistenz erkannt wird, das Erzeugungsmodul (24) konfiguriert ist, um als Ausgangsdaten die Zwischendaten ausgibt, die mit der höchsten Belohnung (RA, RB) assoziiert sind, die von dem Belohnungsmodul (26) berechnet wird.
System (10) nach einem der vorherigen Ansprüche, wobei das Kontrollmodul (22) ferner konfiguriert ist, um die erste und die zweite Belohnung (RA, RB) miteinander zu vergleichen, um eine mögliche Inkonsistenz zu erkennen, und wobei das elektronische System (10) ferner ein Warnmodul (21) umfasst, das konfiguriert ist, um abhängig von jeder Inkonsistenz zwischen den Zwischendaten (SA, SB) und/oder zwischen den Belohnungen (RA, RB) ein Warnsignal zu erzeugen.
System (10) nach einem der Ansprüche 3 bis 5, wobei das Kontrollmodul (22) ferner konfiguriert ist, um die Anzahl der Male zu zählen, in denen die ersten bzw. zweiten Zwischendaten (SA, SB) den Sicherheitsbereich nicht einhalten, und um die erste Vielzahl von algorithmischen Parametern bzw. der zweiten Vielzahl von algorithmischen Parametern zurückzusetzen, wenn die Anzahl größer ist als ein vorbestimmter Schwellenwert ist.
System (10) nach einem der vorherigen Ansprüche, wobei das System (10) ein Avioniksystem ist, das geeignet ist, um an Bord eines Steuerstands eines Luftfahrzeugs zu sein, insbesondere ein Navigationssystem des Luftfahrzeugs.
Verfahren zur Implementierung einer kritischen Funktion durch ein elektronisches System (10), wobei das elektronische System (10) konfiguriert ist, um eine kritische Funktion zu implementieren, wobei das elektronische System (10) geeignet ist, um erste und zweite Eingangsdaten (A, B) zu empfangen und konsolidierte Ausgangsdaten (C) auszugeben, die mit der kritischen Funktion assoziiert sind, wobei die Ausgangsdaten (C) mit einem vorbestimmten Sicherheitsbereich assoziiert sind, wobei der Sicherheitsbereich in Form eines vordefinierten Wertebereichs ist, das Verfahren umfassend die folgenden Schritte: - Berechnen (100) erster Zwischendaten (SA) anhand der ersten Eingangsdaten (A) und eines Algorithmus durch bestärkendes Lernen, um die kritische Funktion für die ersten Eingangsdaten (A) zu implementieren, - Berechnen (110) zweiter Zwischendaten (SB) anhand der zweiten Eingangsdaten (B) und des Algorithmus durch bestärkendes Lernen, um die kritische Funktion für die zweiten Eingangsdaten (B) zu implementieren, wobei sich die zweiten Eingangsdaten (B) sich von den ersten Eingangsdaten (A) unterscheiden, - Berechnen (120) von Referenzzwischendaten (SR) anhand der ersten Eingangsdaten (A) und/oder der zweiten Eingangsdaten (B) und eines Referenzalgorithmus, der sich von dem Algorithmus durch bestärkendes Lernen unterscheidet, um die kritische Funktion für die ersten Eingangsdaten (A) und/oder die zweiten Eingangsdaten (B) über den Referenzalgorithmus zu implementieren, - Überprüfen (130), ob die ersten und die zweiten Zwischendaten (SA, SB) zu dem Sicherheitsbereich gehören, und Vergleichen der ersten und der zweiten Zwischendaten (SA, SB) miteinander, um eine mögliche Inkonsistenz zu erkennen; - Erzeugen (140) der Ausgangsdaten (C) abhängig von den ersten und den zweiten Zwischendaten (SA, SB), wenn die ersten und die zweiten Zwischendaten (SA, SB) zu dem Sicherheitsbereich gehören und wenn keine Inkonsistenz erkannt wird, wobei die Ausgangsdaten (C) ansonsten gleich wie die Referenzdaten (SR) sind.
Computerprogramm, umfassend Softwareanweisungen, die, wenn sie von einem Computer ausgeführt werden, ein Verfahren nach dem vorherigen Anspruch implementieren.