DE102022207279A1

DE102022207279A1 - Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes

Info

Publication number: DE102022207279A1
Application number: DE102022207279.0A
Authority: DE
Inventors: Michael Volpp; Gerhard Neumann
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2024-01-18
Also published as: CN117422105A; US20240020535A1

Abstract

Die Offenbarung betrifft ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (200), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, und eine Architektur des neuronalen Netzes (200) zum Abschätzen von Unsicherheiten.

Description

Stand der Technik
Die Offenbarung betrifft ein Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes.
In technischen Systemen, insbesondere sicherheitskritischen, technischen Systemen, können Modelle, insbesondere Modelle für aktives Lernen, bestärkendes Lernen oder Extrapolation, zur Prädiktion von Unsicherheiten, beispielsweise mittels neuronalen Netzen, eingesetzt werden.
In letzter Zeit werden verstärkt neuronale Prozesse, NPs, für die Vorhersage von Modellunsicherheiten eingesetzt. Neuronale Prozesse sind im Wesentlichen eine Familie von Architekturen auf der Grundlage neuronaler Netze, die probabilistische Vorhersagen für Regressionsprobleme erstellen. Sie lernen automatisch induktive Verzerrungen, die auf eine Klasse von Zielfunktionen mit einer Art gemeinsamer Struktur zugeschnitten sind, beispielsweise quadratische Funktionen oder Dynamikmodelle eines bestimmten physikalischen Systems mit variierenden Parametern. Neuronale Prozesse werden mit sogenannten Multi-Task-Trainingsverfahren trainiert, wobei eine Funktion einer Aufgabe entspricht. Das daraus resultierende Modell liefert genaue Vorhersagen über unbekannte Zielfunktionen auf der Grundlage von nur wenigen Kontextbeobachtungen.
Die NP-Architektur besteht üblicherweise aus einem neuronalen Encoder-Netzwerk, einem Aggregator-Modul und einem neuronalen Decoder-Netzwerk. Das Encoder-Netzwerk und das Aggregator-Modul berechnen eine latente Repräsentation, d.h. den Mittelwert µ_z und die Varianz $σ_{z}^{2}$
Parameter einer Gauß-Verteilung über eine latente Variable z, aus einer Kontextmenge Dc von Beobachtungen, d.h. $p (z | D^{c}) = N (z | μ_{z}, σ_{z}^{2}) .$
Dies kann auch beschrieben werden als $(μ_{z}, σ_{z}^{2}) = e n c a g g_{ϕ} (D^{c}),$
wobei encagg_ϕ die neuronalen Encoder-Netzwerk und Aggregator-Modul mit trainierbaren Gewichten ϕ bezeichnet.
Das neuronale Decoder-Netzwerk parametrisiert eine Gaußsche Ausgangsverteilung, d. h. die Likelihood $p (y | x, z) = N (y | μ_{y}, σ_{n}^{2}) .$
Das neuronale Decoder-Netzwerk empfängt eine Zieleingabestelle x zusammen mit einer Stichprobe z aus der latenten Verteilung und berechnet den mittleren µ_y-Parameter der Ausgangsverteilung, d. h, µ_y = dec_θ(x,z), wobei dec_θ ein neuronales Decoder-Netzwerk mit Gewichten θ bezeichnet und $σ_{n}^{2}$
das Beobachtungsrauschen beschreibt.
Das NP-Trainingsverfahren optimiert die Gewichte θ und ϕ gemeinsam, um die marginale Vorhersagewahrscheinlichkeit zu maximieren.
Der vorliegenden Offenbarung liegt die Aufgabe zugrunde, ein ökonomisches, beispielsweise zeit- und/oder rechenaufwand- und/oder speicherplatzsparendes, Verfahren, zum Parametrisieren der NP-Architektur bereitzustellen.
Offenbarung der Erfindung
Eine Ausführungsform betrifft ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem ersten Schritt eine Modellunsicherheit als Varianz σ_z ² einer Gauß-Verteilung und ein Mittelwert der Gauß-Verteilung über latente Variablen z aus einer Kontextmenge bestimmt wird und in einem weiteren Schritt mittels eines neuronalen Decoder-Netzwerks basierend auf der Gauß-Verteilung, in Abhängigkeit einer Eingabestelle, ein Mittelwert der Ausgabe des Modells bestimmt wird, wobei die latenten Variablen z die Gewichte des neuronalen Decoder-Netzwerks sind.
Gemäß der Offenbarung ist vorgesehen, dass eine jeweilige latente Variable nicht als Eingabe an das neuronale Decoder-Netzwerk weitergegeben wird, sondern den Gewichten des neuronalen Decoder-Netzwerks entsprechen. Die jeweilige latente Variable wird also im Vergleich zu den aus dem Stand der Technik bekannten Verfahren neu interpretiert. In bekannten Verfahren wird die latente Variable zusammen mit der Eingabestelle an den Decoder übergeben. Gemäß der vorliegenden Erfindung erhält das neuronale Decoder-Netzwerk also nur die Eingabestelle, und eine jeweilige Probe, also eine jeweilige latente Variable, aus der latenten Gauß-Verteilung entspricht einer Instanziierung des neuronalen Decoder-Netzwerks.
Die Offenbarung stellt daher einen ökonomischeren Weg dar, das neuronale Decoder-Netzwerk zu parametrisieren. Erfindungsgemäß umfasst das neuronale Decoder-Netzwerk keine trainierbaren Gewichte.
Darüber hinaus erfordern die bereits bekannte Verfahren selbst für vergleichsweise einfache Probleme oft unangemessen große Decoder-Architekturen. Dies liegt auch daran, dass für eine vergleichsweise kleine Decoder-Architektur schwierig wäre, unterschiedlichen Bedeutungen der beiden Eingaben, latente Variable und Eingabestelle, zu interpretieren. Da gemäß der Offenbarung vorgesehen ist, dass das neuronale Decoder-Netzwerk nun nur noch die Eingabestelle als Eingabe erhält, können kleinere Decoder-Architekturen verwendet werden. Das Verfahren gemäß der Offenbarung kann mit kleineren NP-Architekturen mit weniger trainierbaren Parametern ausgeführt werden. Dies ermöglicht das Ausführen des Verfahrens mit weniger Speicherbedarf und/oder weniger Rechenleistung.
Gemäß einer Ausführungsform ist vorgesehen, dass die Varianz σ_z ² der Gauß-Verteilung, mit $σ_{z}^{2} = σ_{z}^{2} (D^{c}),$
über die latente Variable z aus einer Kontextmenge D^c von Beobachtungen, d.h. $p (z | D^{c}) = N (z | μ_{z} (D^{c}), σ_{z}^{2} (D^{c}))$
berechnet wird. Diese latente Verteilung ermöglicht eine Schätzung der Modellunsicherheit durch die Varianz σ_z ². Grundsätzlich ist eine solche Schätzung im Allgemeinen nicht exakt, sondern mit einer Unsicherheit behaftet. Dies ist der Fall, wenn die Kontextmenge D^c nicht informativ genug ist, um die Funktionsparameter zu bestimmen, z. B. aufgrund von Mehrdeutigkeit der Aufgabe, beispielweise wenn mehrere Funktionen dieselbe Menge von Kontextbeobachtungen erzeugen können. Diese Art von Unsicherheit wird als Modellunsicherheit bezeichnet und soll durch die Varianz σ_z ² der latenten Raumverteilung p(z|D^c) quantifiziert werden. Die Varianz σ_z ² wird konkret berechnet über $σ_{z}^{2} = σ_{z}^{2} (D^{c})$
und $p (z | D^{c}) = N (z | μ_{z} (D^{c}), σ_{z}^{2} (D^{c})) .$
Gemäß einer Ausführungsform ist vorgesehen, dass der Mittelwert µ_z der Gauß-Verteilung, mit µ_z = µ_z(D^c), über die latente Variable z aus der Kontextmenge D^c von Beobachtungen, d.h. $p (z | D^{c}) = N (z | μ_{z} (D^{c}), σ_{z}^{2} (D^{c})),$
berechnet wird. Diese latente Verteilung ermöglicht eine Schätzung der Funktionsparameter durch den Mittelwert µ_z. Der Mittelwert µ_z wird beispielsweise konkret berechnet über µ_z = µ_z (D^c) und $p (z | D^{c}) = N (z | μ_{z} (D^{c}), σ_{z}^{2} (D^{c})) .$
Gemäß einer Ausführungsform ist vorgesehen, dass die latenten Variablen z aus der Varianz $σ_{z}^{2}$
der Gauß-Verteilung und dem Mittelwert µ_z der Gauß-Verteilung der Ausgabe des Modells extrahiert werden. Unter Extrahieren wird verstanden, dass die latenten Variablen z von der Gaussverteilung „gezogen“ bzw. „gesampelt“ bzw. durch die Gaussverteilung „instantiiert“ werden.
Gemäß einer Ausführungsform ist vorgesehen, dass das neuronale Decoder-Netzwerk die Ausgabe des Modells parametrisiert, d.h. die Wahrscheinlichkeit $p (y | x, z) = N (y | μ_{y}, σ_{n}^{2}) .$
Der Mittelwert (µ_y) der Ausgabe des Modells ist parametrisiert durch µ_y = dec_z(x).
Weitere Ausführungsformen betreffen Architektur eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, wobei das neuronale Netz ausgebildet ist, Schritte eines Verfahrens gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell auszuführen, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert. Das neuronale Netz umfasst wenigstens ein neuronales Decoder-Netzwerk, wobei die latenten Variablen z die Gewichte des neuronalen Decoder-Netzwerks sind.
Gemäß einer Ausführungsform ist vorgesehen, dass das neuronale Netz wenigstens ein neuronales Encoder-Netzwerk und/oder ein wenigstens ein Aggregator-Modul umfasst, und wobei das neuronale Encoder-Netzwerk und/oder das Aggregator-Modul dazu ausgebildet sind, eine Modellunsicherheit als Varianz σ_z ² einer Gauß-Verteilung und einen Mittelwert µ_z der Gauß-Verteilung über latente Variablen z aus einer Kontextmenge D^c zu bestimmen.
Weitere Ausführungsformen betreffen ein Trainingsverfahren zum Parametrisieren eines neuronalen Netzes mit einer Architektur gemäß den beschriebenen Ausführungsformen, wobei das Verfahren das Trainieren von Gewichten für das neuronale Encoder-Netzwerk und/oder das Aggregator-Modul umfasst, und wobei die latenten Variablen z die Gewichte des neuronalen Decoder-Netzwerks sind.
Gemäß der erfindungsgemäßen Architektur und dem erfindungsgemäßen Trainingsverfahren reduzieren sich die trainierbaren Gewichte der NP-Architektur im Vergleich zu den aus dem Stand der Technik bekannten Architekturen von ϕ, θ auf nur ϕ. Die Offenbarung stellt daher einen ökonomischeres Trainingsverfahren dar, die NP-Architektur zu parametrisieren.
Das Trainingsverfahren ist beispielsweise ein Multi-Task-Trainingsverfahren. Bei einem Multi-Task-Trainingsverfahren entspricht eine Funktion, also ein Task, einer Aufgabe. Mehrere Aufgaben werden gleichzeitig gelöst, um so Gemeinsamkeiten und Unterschiede zwischen den Aufgaben zu nutzen. Dies kann zu einer verbesserten Lerneffizienz und Vorhersagegenauigkeit für die aufgabenspezifischen Modelle führen, verglichen mit dem separaten Training der Modelle.
Verwenden eines Verfahrens nach einem der Ansprüche 1 bis 6 und/oder eines neuronalen Netzes (200, 300), insbesondere eines neuronalen Prozesses, mit einer Architektur nach einem der Ansprüche 7 bis 9 zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich
Beim Ermitteln der Abweichung des technischen Systems nutzt ein künstliches neuronales Netz, dem in einer Lernphase Eingangsdaten und Ausgangsdaten der technischen Einrichtung zugeführt werden. Durch den Vergleich mit den Eingangs- und Ausgangsdaten des technischen Systems werden die entsprechenden Verknüpfungen in dem künstlichen neuronalen Netz geschaffen und das neuronale Netz auf das Systemverhalten des technischen Systems trainiert.
In einer sich an die Lernphase anschließenden Prädiktionsphase kann mittels des neuronalen Netzes das Systemverhalten des technischen Systems zuverlässig vorhergesagt werden. Hierzu werden in der Prädiktionsphase dem neuronalen Netz Eingangsdaten des technischen Systems zugeführt und im neuronalen Netz Ausgangsvergleichsdaten berechnet, welche mit Ausgangsdaten des technischen Systems verglichen werden. Ergibt sich bei diesem Vergleich, dass die Differenz der Ausgangsdaten des technischen Systems, welche vorzugsweise als Messwerte erfasst werden, von den Ausgangsvergleichsdaten des neuronalen Netzes abweichen und die Abweichung einen Grenzwert übersteigt, so liegt eine unzulässige Abweichung des Systemverhaltens des technischen Systems von dem Normwertebereich vor. Daraufhin können geeignete Maßnahmen ergriffen werden, beispielsweise ein Warnsignal erzeugt oder abgespeichert oder Teilfunktionen des technischen Systems deaktiviert werden (Degradation der technischen Einrichtung). Gegebenenfalls kann im Fall der unzulässigen Abweichung auf alternative technische Einrichtungen ausgewichen werden.
Mithilfe des vorbeschriebenen Verfahrens kann ein reales technisches System fortlaufend überwacht werden. In der Lernphase wird das neuronale Netz mit ausreichend vielen Informationen des technischen Systems sowohl von dessen Eingangsseite als auch von dessen Ausgangsseite gespeist, so dass des technischen Systems mit hinreichender Genauigkeit in dem neuronalen Netz abgebildet und simuliert werden kann. Dies erlaubt es in der sich daran anschließenden Prädiktionsphase, das technische System zu überwachen und eine Verschlechterung des Systemverhaltens zu prädizieren. Auf diese Weise kann insbesondere die Restnutzungsdauer des technischen Systems vorhergesagt werden.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Offenbarung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Offenbarung, unabhängig von ihrer Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung. In der Zeichnung zeigt:

1 eine Architektur eines neuronalen Prozesses gemäß einer Ausführungsform;
2 einen Ausschnitt einer Architektur eines neuronalen Prozesses gemäß der Ausführungsform aus 1;
3 einen Ausschnitt einer Architektur eines neuronalen Prozesses gemäß der Ausführungsform aus 1.

Im Folgenden wird anhand der Figuren ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, beschrieben. Gemäß dem Verfahren wird in einem Schritt eine Modellunsicherheit als Varianz σ_z ² einer Gauß-Verteilung und einen Mittelwert µ_z der Gauß-Verteilung über latente Variablen z aus einer Kontextmenge D^c bestimmt wird und in einem weiteren Schritt mittels eines neuronalen Decoder-Netzwerks basierend auf der Gauß-Verteilung, in Abhängigkeit einer Eingabestelle x, ein Mittelwert µ_y der Ausgabe des Modells bestimmt.
In 1 zeigt schematisch und vereinfacht eine Architektur eines neuronalen Netzes 100, insbesondere einen neuronalen Prozess, wobei das neuronale Netz 100 ausgebildet ist, Schritte eines Verfahrens gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell, auszuführen.
Das neuronale Netz 100 umfasst gemäß 1 ein neuronales Decoder-Netzwerk 110, wobei das neuronale Decoder-Netzwerk 110 dazu trainiert ist, basierend auf der Gauß-Verteilung, in Abhängigkeit einer Eingabestelle x, ein Mittelwert µ_y der Ausgabe des Modells zu bestimmen.
Die latente Variable z ist eine aufgabenspezifische latente Zufallsvariable, die einen probabilistischen Charakter des gesamten Modells charakterisiert. Aufgabenindizes werden der Einfachheit halber im Folgenden nicht verwendet. Beispielsweise, für zwei gegebene Beobachtungstupeln (x₁, y₁) und (x₂, y₂) einer eindimensionalen quadratischen Funktion y = f(x) als Kontextmenge, soll die latente Verteilung eine Schätzung einer latenten Einbettung der Funktionsparameter liefern, z.B. die Parameter a, b, c in y = ax² + bx + c.
Das neuronale Decoder-Netzwerk 110 parametrisiert die Ausgabe des Modells, d.h. die Wahrscheinlichkeit $p (y | x, z) = N (y | μ_{y}, σ_{n}^{2}) .$
Aus Sicht der Modellierung gilt σ_y ² = σ_n ², d. h. die Ausgabevarianz σ_y ² kann herangezogen werden, um die in der Regel unbekannte Rauschvarianz zu schätzen. In den meisten Anwendungen sind die Daten mit Rauschen behaftet, d.h. y = y'+ε, wobei ε als Gauß-verteilte Variable d. h. $\in \sim N (\in | 0, σ_{n}^{2})$
mit dem Mittelwert Null modelliert werden kann. Im Folgenden wird von der in der Praxis am häufigsten anzutreffende Situation, nämlich, dass das Rauschen sowohl homoskedastisch, d. h. σ_n ² ist unabhängig vom Eingabeort x als auch aufgabenunabhängig, d. h. σ_n ² ist unabhängig von der spezifischen Zielfunktion ist, ausgegangen. Daraus folgt, dass σ_n ² eine feste Konstante ist.
In 1 ist schematisch und vereinfacht ein Encoder-Aggregator-Element 120 dargestellt. Das Encoder-Aggregator-Element 120 umfasst wenigstens ein neuronales Encoder-Netzwerk und ein Aggregator-Modul. Verschiedene Ausführungsformen des Encoder-Aggregator-Elements 120 werden später in Bezug auf die 2 und 3 erläutert.
Im Allgemeinen ist das Encoder-Aggregator-Element 120 dazu ausgebildet, eine Modellunsicherheit als Varianz σ_z ² der Gauß-Verteilung und einen Mittelwert µ_z der Gauß-Verteilung über latente Variablen z aus einer Kontextmenge D^c zu bestimmen.
In einem weiteren Schritt werden die latenten Variablen z aus der Varianz σ_z ² der Gauß-Verteilung und dem Mittelwert µ_z der Gauß-Verteilung der Ausgabe des Modells extrahiert.
Die latenten Variablen werden nicht als Eingaben an das neuronale Decoder-Netzwerk 110 weitergegeben, sondern entsprechen den Gewichten des neuronalen Decoder-Netzwerks 110. Gemäß der vorliegenden Erfindung erhält das neuronale Decoder-Netzwerk also nur die Eingabestelle x, und eine jeweilige Probe, also eine jeweilige latente Variable z, aus der latenten Gauß-Verteilung entspricht einer Instanziierung des neuronalen Decoder-Netzwerks 110. Das neuronale Decoder-Netzwerk 110 ist also mit den latenten Variable z parametrisiert. Erfindungsgemäß umfasst das neuronale Decoder-Netzwerk keine trainierbaren Gewichte. Die Offenbarung stellt daher einen ökonomischeren Weg dar, das neuronale Decoder-Netzwerk zu parametrisieren.
Die Modellunsicherheit, also die Varianz σ_z ², wird als Varianz einer Gauß-Verteilung und der Mittelwert µ_z der Gauß-Verteilung über eine latente Variable z aus einer Kontextmenge D^c von Beobachtungen, d.h. $p (z | D^{c}) = N (z | μ_{z}, σ_{z}^{2})$
berechnet.
Grundsätzlich ist eine solche Schätzung im Allgemeinen nicht exakt, sondern mit einer Unsicherheit behaftet. Dies ist der Fall, wenn die Kontextmenge D^c nicht informativ genug ist, um die Funktionsparameter zu bestimmen, z. B. aufgrund von Mehrdeutigkeit der Aufgabe. Eine Mehrdeutigkeit kann darin liegen, dass viele Funktionen dieselbe Menge von Kontextbeobachtungen erzeugen. Bei dieser Art von Unsicherheit handelt es sich um die als Modellunsicherheit bezeichnete und durch die Varianz σ_z ² der latenten Raumverteilung p(z|D^c) quantifizierte Unsicherheit.
Da z eine globale, d.h. von einer variabel großen Menge an Kontexttupeln abhängige, latente Variable ist, ist eine Form von Aggregationsmechanismus erforderlich, um die Verwendung von Kontextdatensätzen D^c variabler Größe zu ermöglichen. Um eine sinnvolle Operation auf Datensätzen darstellen zu können, muss eine solche Aggregation hinsichtlich der Permutationen der Kontextdatenpunkte x_n und y_n invariant sein. Um diese Permutationsbedingung zu erfüllen, kann beispielsweise eine in 2 schematisch dargestellte Mittelwert-Aggregation verwendet werden.
2 zeigt schematisch ein Netzwerk 200, beispielsweise mit einer Mittelwert-Aggregation (MA) mit Likelihood-Variationsverfahren (VI). VI stellt in diesem Fall ein beispielhaftes Inferenzverfahren dar. Die Architektur kann aber auch mit anderen Verfahren trainiert werden.
Kästchen, die mit MLP beschriftet sind, kennzeichnen mehrlagige Perzeptren (engl. „multi-layer perceptron“, MLP) mit einer Anzahl an verborgenen Schichten. Das Kästchen mit der Bezeichnung „MA“ bezeichnet die traditionelle Mittelwert-Aggregation.
Das Kästchen, welches mit z beschriftet ist, kennzeichnet die Realisierung einer Zufallsvariable mit einer Zufallsverteilung, die mit Parametern, die durch die eingehenden Knoten gegeben sind, parametrisiert ist.
Zunächst wird jedes Kontextdatenpaar (x_n, y_n) durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung r_n abgebildet. Dann wird eine permutationsinvariante Operation auf den erzeugten Satz ${r_{n}}_{n = 1}^{N}$
angewendet, um eine aggregierte latente Beobachtung r zu erhalten. Eine Möglichkeit in diesem Zusammenhang ist die Berechnung eines Mittelwertes, nämlich $\bar{r} = 1 / N \cdot \sum_{n = 1}^{N} r_{n} .$

Es ist zu beachten, dass diese aggregierte Beobachtung r dann verwendet wird, um eine entsprechende Verteilung für die latenten Variablen z zu parametrisieren.
Gemäß 2 umfasst das Encoder-Aggregator-Element 120 also beispielsweise ein Aggregator-Model MA, und drei Encoder-Abschnitte 210, 220, 230.
Alternativ zur Mittelwert Aggregation kann eine Aggregation für die latente Variable z unter Verwendung von bayesscher Inferenz bestimmt werden. 3 zeigt schematisch ein Netzwerk 300 mit bayesscher Aggregation, BA. Das Kästchen mit der Bezeichnung „BA“ bezeichnet die bayessche Aggregation.
Gemäß 3 umfasst das Encoder-Aggregator-Element 120 also beispielsweise ein Aggregator-Model BA, und zwei Encoder-Abschnitte 310, 320.
Im Vergleich zur Mittelwert-Aggregation vermeidet bayessche Aggregation den Umweg über eine aggregierte latente Beobachtung r und behandelt direkt das die latente Variable z als aggregierte Größe. Dies spiegelt eine zentrale Beobachtung für Modelle mit globalen latenten Variablen wider: Die Aggregation von Kontextdaten und die Inferenz verborgener Parameter sind im Grunde derselbe Mechanismus. Basierend darauf kann probabilistische Beobachtungsmodells p(r|z) für r definiert werden, das von z abhängt. Für eine latente Beobachtung $r_{n} = e n c_{r, ϕ} (x_{n}^{c}, y_{n}^{c})$
wird p(z) aktualisiert, indem das Posterior p(z|r_n) = p(r_n|z)p(z)/p(r_n) berechnet wird. Indem die Aggregation von Kontextdaten als Bayes'sches Inferenzproblem formuliert wird, werden die in D^c enthaltenen Informationen direkt in die statistische Beschreibung von z aggregiert. Weiter beschrieben ist die bayessche Aggregation beispielsweise in M. Volpp, F. Flürenbock, L. Grossberger, C. Daniel, G. Neumann; BAYESIAN CONTEXT AGGREGATION FOR NEURAL PROCESSES, ICLR 2021.
Weitere Ausführungsformen betreffen die Verwendung des Verfahrens gemäß den beschriebenen Ausführungsformen und/oder eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, mit einer Architektur gemäß den beschriebenen Ausführungsformen zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.
Beim Ermitteln der Abweichung des technischen Systems nutzt ein künstliches neuronales Netz, dem in einer Lernphase Eingangsdaten und Ausgangsdaten der technischen Einrichtung zugeführt werden. Durch den Vergleich mit den Eingangs- und Ausgangsdaten des technischen Systems werden die entsprechenden Verknüpfungen in dem künstlichen neuronalen Netz geschaffen und das neuronale Netz auf das Systemverhalten des technischen Systems trainiert.
Eine Mehrzahl von in der Lernphase verwendeten Trainings-Datensätzen kann an dem technischen System gemessene und/oder für das technische System berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände des technischen Systems enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings-Datensätzen Informationen bezüglich der Umwelt des technischen Systems enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für ein gewisses technisches System trainiert sein, um in diesem technischen System und/oder in dessen Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung des technischen Systems relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung des technischen Systems passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnenen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für das technische System eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb des technischen Systems eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.
Die in der Lernphase verwendeten Trainings-Datensätze können gemäß der obigen Definition auch als Kontextdatensätze bezeichnet werden, $D_{l}^{c} .$
Der in der vorliegenden Offenbarung verwendete Trainings-Datensatz (x_n, y_n) (z.B. für einen ausgewählten Index l mit l = 1.. L) kann die Mehrzahl von Trainings-Datenpunkten umfassen und aus einer ersten Mehrzahl von Datenpunkten x_n und einer zweiten Mehrzahl von Datenpunkten y_n bestehen . Die zweite Mehrzahl von Datenpunkten, y_n, kann beispielhaft unter Verwendung einer gegebenen Teilmenge von Funktionen aus einer allgemeinen gegebenen Funktionsfamilie
auf der ersten Mehrzahl von Datenpunkten, x_n, auf dieselbe Weise berechnet werden, wie weiter oben besprochen ist. Zum Beispiel kann die Funktionsfamilie
so ausgewählt werden, dass sie am besten zur Beschreibung eines Betriebszustands einer bestimmten betrachteten Vorrichtung passt. Die Funktionen und insbesondere die gegebene Teilmenge von Funktionen können auch eine ähnliche statistische Struktur aufweisen.
In einer sich an die Lernphase anschließenden Prädiktionsphase kann mittels des neuronalen Netzes das Systemverhalten des technischen Systems zuverlässig vorhergesagt werden. Hierzu werden in der Prädiktionsphase dem neuronalen Netz Eingangsdaten des technischen Systems zugeführt und im neuronalen Netz Ausgangsvergleichsdaten berechnet, welche mit Ausgangsdaten des technischen Systems verglichen werden. Ergibt sich bei diesem Vergleich, dass die Differenz der Ausgangsdaten des technischen Systems, welche vorzugsweise als Messwerte erfasst werden, von den Ausgangsvergleichsdaten des neuronalen Netzes abweichen und die Abweichung einen Grenzwert übersteigt, so liegt eine unzulässige Abweichung des Systemverhaltens des technischen Systems von dem Normwertebereich vor. Daraufhin können geeignete Maßnahmen ergriffen werden, beispielsweise ein Warnsignal erzeugt oder abgespeichert oder Teilfunktionen des technischen Systems deaktiviert werden (Degradation der technischen Einrichtung). Gegebenenfalls kann im Fall der unzulässigen Abweichung auf alternative technische Einrichtungen ausgewichen werden.
Mithilfe des vorbeschriebenen Verfahrens kann ein reales technisches System fortlaufend überwacht werden. In der Lernphase wird das neuronale Netz mit ausreichend vielen Informationen des technischen Systems sowohl von dessen Eingangsseite als auch von dessen Ausgangsseite gespeist, so dass des technischen Systems mit hinreichender Genauigkeit in dem neuronalen Netz abgebildet und simuliert werden kann. Dies erlaubt es in der sich daran anschließenden Prädiktionsphase, das technische System zu überwachen und eine Verschlechterung des Systemverhaltens zu prädizieren. Auf diese Weise kann insbesondere die Restnutzungsdauer des technischen Systems vorhergesagt werden.
Konkrete Anwendungsformen betreffen beispielsweise Anwendungen in verschiedenen technischen Vorrichtungen und Systemen. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.
Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings-Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computer-implementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (ℝⁿ) zu einem Ausgangsvektor einer zweiten Dimension (ℝ^m) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.
Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.
Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera-, Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. Beispielsweise kann unter Verwendung von Daten von Positions- und//oder Geschwindigkeits- und/oder Drehmomentsensoren, insbesondere eines Roboterarms, mittels der beschrieben Regression eine präzise probabilistische Schätzung von Position und/oder Geschwindigkeit, insbesondere des Roboterarms, bestimmt werden. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.
In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.
In wieder anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.
Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.
Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.

Claims

Computerimplementiertes Verfahren, zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (100, 200, 300), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem ersten Schritt eine Modellunsicherheit als Varianz (σ_z ²) einer Gauß-Verteilung und einen Mittelwert (µ_z) der Gauß-Verteilung über latente Variablen (z) aus einer Kontextmenge (D^c) bestimmt wird und in einem weiteren Schritt mittels eines neuronalen Decoder-Netzwerks (110) basierend auf der Gauß-Verteilung, in Abhängigkeit einer Eingabestelle (x), ein Mittelwert (µ_y) der Ausgabe des Modells bestimmt wird, wobei die latenten Variablen (z) die Gewichte des neuronalen Decoder-Netzwerks (110) sind.
Verfahren nach Anspruch 1, wobei die Varianz (σ_z ²) der Gauß-Verteilung, mit $σ_{z}^{2} = σ_{z}^{2} (D^{G}),$
über die latente Variable (z) aus einer Kontextmenge D^c von Beobachtungen, d.h. $p (z | D^{C}) = N (z | μ_{z} (D^{C}), σ_{z}^{2} (D^{C}))$
berechnet wird.
Verfahren nach einem der Ansprüche 1 oder 2, wobei der Mittelwert (µ_z) der Gauß-Verteilung, mit n_z = µ_z(D^c), über die latente Variable z aus der Kontextmenge (D^c) von Beobachtungen, d.h. $p (z | D^{C}) = N (z | μ_{z} (D^{C}), σ_{z}^{2} (D^{C}))$
berechnet wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das neuronale Decoder-Netzwerk (110) die Ausgabe des Modells parametrisiert, d.h. die Wahrscheinlichkeit $p (y | x, z) = N (y | μ_{y}, σ_{n}^{2}) .$
Verfahren nach einem der vorhergehenden Ansprüche, wobei die latenten Variablen (z) aus der Varianz (σ_z ²) der Gauß-Verteilung und dem Mittelwert µ_z der Gauß-Verteilung der Ausgabe des Modells extrahiert werden.
Architektur (100, 200, 300) eines neuronalen Netzes (100, 200, 300), insbesondere eines neuronalen Prozesses, wobei das neuronale Netz (100, 200, 300) ausgebildet ist, Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 5 zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen, das neuronale Netz umfassend wenigstens ein neuronales Decoder-Netzwerk (110), wobei die latenten Variablen (z) die Gewichte des neuronalen Decoder-Netzwerks (110) sind.
Architektur nach Anspruch 6, wobei das neuronale Netz (100, 200, 300) wenigstens ein neuronales Encoder-Netzwerk (210, 220, 230, 310, 320) und/oder ein wenigstens ein Aggregator-Modul (BA, MA) umfasst, und wobei das neuronale Encoder-Netzwerk (210, 220, 230, 310, 320) und/oder das Aggregator-Modul (BA, MA) dazu ausgebildet sind, eine Modellunsicherheit als Varianz (σ_z ²) einer Gauß-Verteilung und einen Mittelwert (µ_z) der Gauß-Verteilung über latente Variablen (z) aus einer Kontextmenge (D^c) zu bestimmen.
Trainingsverfahren zum Parametrisieren eines neuronalen Netzes (100, 200, 300) nach Anspruch 7, wobei das Verfahren das Trainieren von Gewichten für das neuronale Encoder-Netzwerk (210, 220, 230, 310, 320) und/oder das Aggregator-Modul (BA, MA) umfasst, und wobei die latenten Variablen (z) die Gewichte des neuronalen Decoder-Netzwerks (110) sind.
Trainingsverfahren nach Anspruch 8, wobei das Verfahren ein Multi-Task-Trainingsverfahren ist.
Verwenden eines Verfahrens nach einem der Ansprüche 1 bis 6 und/oder eines neuronalen Netzes (100, 200, 300), insbesondere eines neuronalen Prozesses, mit einer Architektur nach einem der Ansprüche 5 oder 6 zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.