DE102020212502A1

DE102020212502A1 - Bayessche kontext-aggregation für neuronale prozesse

Info

Publication number: DE102020212502A1
Application number: DE102020212502.3A
Authority: DE
Inventors: Michael Volpp; Gerhard Neumann
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-10-02
Filing date: 2020-10-02
Publication date: 2022-04-07
Also published as: CN114386563A; US20220108153A1

Abstract

Ein Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems. Das Verfahren umfasst das Empfangen eines Trainings-Datensatzes xc, yc, der einem dynamischen Verhalten einer Vorrichtung entsprechen und das Berechnen einer Aggregation für mindestens eine latente Variable zldes Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Trainings-Datensatzes xc, yc. Eine in dem Trainings-Datensatz enthaltene Information wird direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen zlübertragen. Das Verfahren umfasst weiterhin das Erzeugen einer A-Posteriori prädiktiven Verteilung p(y|x,Dc) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz xc, yceingetreten ist.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft Computer-implementierte Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems für eine technische Vorrichtung.
Hintergrund
Die Entwicklung leistungsfähiger Computer-implementierter Modelle zur Ableitung quantitativer Beziehungen zwischen Variablen aus Messdaten ist in allen Zweigen des Ingenieurwesens von zentraler Bedeutung. In diesem Zusammenhang werden Computerimplementierte neuronale Netzwerke und Verfahren, die auf den Gaußprozessen basieren, vermehrt in verschiedenen technischen Umgebungen eingesetzt. Neuronale Netzwerke können gut mit großen Mengen an Trainingsdatensätzen zurechtkommen und sind zur Trainingszeit rechnerisch effizient. Nachteilig ist, dass sie keine Einschätzungen für eine Unbestimmtheit über ihre Vorhersagen liefern und außerdem können zu einer Überanpassung bei kleinen Datensätzen neigen. Darüber hinaus kann sich das Problem ergeben, dass die neuronalen Netzwerke für ihre erfolgreiche Anwendung stark strukturiert sein sollten und ihre Größe ab einer gewissen Komplexität der Anwendungen schnell zunehmen kann. Das kann zu hohe Anforderungen an die für das Anwenden der neuronalen Netzwerke erforderliche Hardware stellen. Gaußprozesse können als komplementär zu neuronaler Netzwerken angesehen werden, da sie zuverlässige Einschätzungen für die Unbestimmtheit liefern können, jedoch kann ihre z.B. quadratische oder kubische Skalierung mit der Anzahl der Kontextdaten während der Trainingszeit die Anwendung bei Aufgaben mit großen Datenmengen oder bei hochdimensionalen Problemen auf typischer Hardware stark einschränken.
Um die oben erwähnten Probleme zu adressieren, wurden Verfahren entwickelt, die sich auf so genannte neuronale Prozesse beziehen. Diese neuronalen Prozesse können die Vorteile von neuronalen Netzwerken und Gaußprozessen kombinieren. Schließlich stellen sie eine Verteilung über Funktionen (statt einer einzelnen Funktion) bereit und stellen ein Multitask-Lernen („multi-task learning“) Verfahren dar (d.h. das Verfahren wird auf mehrere Aufgaben gleichzeitig trainiert). Darüber hinaus basieren diese Verfahren in der Regel auf Modellen der bedingten latenten Variable („conditional latent variable (CLV) models“), wobei die latente Variable zur Berücksichtigung der globalen Unbestimmtheit verwendet wird.
Die Computer-implementierten Maschinenlernsysteme können z.B. für die Parametrisierung von technischen Vorrichtungen eingesetzt werden (z.B. für die Parametrierung eines Kennfeldes). Ein weiterer Anwendungsbereich dieser Verfahren sind kleinere technische Geräte mit limitierten Hardware-Ressourcen bei denen der Stromverbrauch oder die geringe Speicherkapazität den Einsatz größerer neuronaler Netzwerke oder eines auf Gaußprozessen basierenden Verfahrens wesentlich einschränken kann.
Zusammenfassung der Erfindung
Die vorliegende Erfindung betrifft ein Computer-implementiertes Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems. Das Verfahren umfasst das Empfangen eines Trainings-Datensatzes x_c, y_c, der ein dynamischen Verhalten einer Vorrichtung widerspiegelt und das Berechnen einer Aggregation für mindestens eine latente Variable z₁ des Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Trainings-Datensatzes x_c, y_c. Eine in dem Trainings-Datensatz enthaltene Information wird direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z₁ übertragen. Das Verfahren umfasst weiterhin das Erzeugen einer A-Posteriori prädiktiven Verteilung p(y|x,D^c) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz x_c, y_c eingetreten ist.
Die vorliegende Erfindung betrifft darüber hinaus das Anwenden des erzeugten Computerimplementierten Maschinenlernsystems in verschiedenen technischen Umgebungen. Die vorliegende Erfindung betrifft ferner Erzeugen eines Computer-implementierten Maschinenlernsystems und/oder Anwenden eines Computer-implementierten Maschinenlernsystems für eine Vorrichtung.
Die Techniken der vorliegenden Erfindung zielen darauf ab, ein (möglichst) simples und effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen, das eine verbesserte prädiktive Leistung und Genauigkeit im Vergleich zu manchen Verfahren des Standes der Technik bereitstellt und zusätzlich einen Gewinn an Berechnungskosten aufweist. Für diesen Zweck kann das Computer-implementierte Maschinenlernsystem auf Basis verfügbarer Datensätze (z. B. historischer Daten) maschinell gelernt werden. Diese Datensätze können aus einer allgemein gegebenen Funktionsfamilie unter Verwendung einer gegebenen Teilmenge von Funktionen aus dieser Funktionsfamilie erhalten werden, die an bekannten Datenpunkten berechnet werden.
Insbesondere kann ein Nachteil einer Mittelwert-Aggregation einiger Techniken des Standes der Technik, in der jeder latenten Beobachtung des Maschinenlernsystems (unabhängig von der Informationsmenge, die im entsprechenden Kontextdatenpaar enthalten ist) das gleiche Gewicht 1/N zugewiesen werden kann, umgangen werden. Die Techniken der vorliegenden Offenbarung zielt darauf ab, den Aggregationsschritt des Verfahrens zu verbessern, um ein effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen und die daraus resultierenden Berechnungskosten zu reduzieren. Die auf diese Weise erzeugten Computerimplementierten Maschinenlernsysteme können in zahlreichen technischen Systemen eingesetzt werden. Beispielsweise kann mittels der Computer-implementierten Maschinenlernsysteme eine technische Vorrichtung ausgelegt werden (z.B. eine Modellierung einer Parametrisierung eines Kennfeldes für eine Vorrichtung wie einen Motor, einen Verdichter oder eine Brennstoffzelle).
Figurenliste

1a zeigt schematisch das Modell der bedingten latenten Variable („conditional latent variable (CLV) model“) mit aufgabenspezifischen latenten Variablen z_l und einer aufgabenunabhängigen latenten Variable 9, die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die Variablen in Kreisen entsprechen den Variablen des CLV-Modells: $D_{l}^{c} \equiv {x_{l, n}^{c}, y_{l, n}^{c}}_{n = 1}^{N_{l}} und D_{l}^{t} \equiv {x_{l, m}^{t}, y_{l, m}^{t}}_{m = 1}^{M_{l}}$
sind die Kontext- (c) bzw. Zieldatensätze (t).
1b zeigt schematisch ein Netzwerk mit einer Mittelwert-Aggregation (MA) des Stands der Technik mit dem Likelihood-Variationsverfahren (VI), die in CLV-Modellen verwendet werden. Aufgabenindizes l werden der Einfachheit halber weggelassen. Jedes Kontextdatenpaar $(x_{n}^{c}, y_{n}^{c})$
wird durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung r_n abgebildet. r ist eine aggregierte latente Beobachtung, $\bar{r} = 1 / N \cdot \sum_{n = 1}^{N} r_{n}$
(Mittelwert). Kästchen, die mit a · [b] beschriftet sind, kennzeichnen mehrlagige Perzeptren (engl. „multi-layer perceptron“, MLP) mit a verborgenen Schichten je mit b Einheiten. Das Kästchen mit der Bezeichnung „Mittelwert“ bezeichnet die traditionelle Mittelwert-Aggregation. Das Kästchen, welches mit z beschriftet ist, kennzeichnet die Realisierung einer Zufallsvariable mit einer Zufallsverteilung, die mit Parametern, die durch die eingehenden Knoten gegeben sind, parametrisiert ist. d_z entspricht der latenten Dimension, $z_{l} \in ℝ^{d_{z}} und x_{n}^{t}$
sind in der Überschrift von 1a definiert.
2 zeigt ein Netzwerk mit der „bayesschen Aggregation“ der vorliegenden Offenbarung. Aufgabenindizes l werden der Einfachheit halber weggelassen. Das Kästchen mit der Bezeichnung „Bayes“ bezeichnet die „bayessche Aggregation“. Jedes Kontextdatenpaar $(x_{n}^{c}, y_{n}^{c})$
kann in einem Beispiel zusätzlich zu der in 1b eingeführten Abbildung mittels eines neuronalen Netzwerks durch ein zweites neuronales Netzwerk auf eine Unbestimmtheit $(σ_{r_{n}}^{2})$
der entsprechenden latenten Beobachtung (r_n) abgebildet werden. In diesem Beispiel parametrisieren die Parameter $(μ_{z}; σ_{z}^{2})$
die approximative A-Posteriori-Verteilung $q_{φ} (z | D^{c}) .$
. Die anderen Notationen entsprechen den in 1b verwendeten Notationen. Die in 1b definierte aggregierte latente Beobachtung r wird nicht verwendet.
3 vergleicht die Ergebnisse für einen Testdatensatz (das Furuta-Pendel), die für verschiedene Verfahren berechnet wurden, und zeigt Logarithmen der A-Posteriori prädiktiven Verteilung, $l o g p (y | x, D^{c}),$
in Abhängigkeit von der Anzahl der Kontextdatenpunkte N. BA+PB: numerische Ergebnisse unter Verwendung der auf 2 gezeigten erfindungsgemäßen „bayesschen Aggregation“ (BA) und der erfindungsgemäßen nichtstochastischen parameterbasierten Verlustfunktion (PB), die traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden ersetzt. MA+PB: numerische Ergebnisse unter Verwendung der in 1b skizzierten traditionellen Mittelwert-Aggregation und der erfindungsgemäßen PB Verlustfunktion. BA + VI: numerische Ergebnisse unter Verwendung der erfindungsgemäßen BA und der traditionellen Verlustfunktion, die durch das Likelihood-Variationsverfahren approximiert wird. L entspricht der Anzahl der Trainings-Datensätze.

Ausführliche Beschreibung
Die vorliegende Offenbarung betrifft das Verfahren zum Erzeugen eines Computerimplementierten Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) für eine Vorrichtung, das unter Verwendung einer Aggregation mittels bayesscher Inferenz („bayesschen Aggregation“) erzeugt wird. Diese Verfahren werden aufgrund ihrer rechnerischen Komplexität in einem computerimplementierten System ausgeführt. Zunächst werden einige allgemeine Aspekte des Verfahrens zum Erzeugen eines Computer-implementierten Maschinenlernsystems diskutiert werden, bevor anschließend einige mögliche Implementierungen erläutert werden.
Insbesondere die probabilistischen Modelle im Zusammenhang mit neuronalen Prozessen lassen sich schematisch wie folgt formulieren. Man bezeichnet mit
eine Familie allgemeiner Funktionen f_l, die für ein spezifisches technisches Problem verwendet werden können und die eine ähnliche statistische Struktur aufweisen. Es wird ferner angenommen, dass für das Trainieren verwendete Datensätze $D_{l} \equiv {x_{l, i}, y_{l, i}}_{i}$
verfügbar sind, wobei y_l,i unter Verwendung der Teilmenge von L Funktionen („Aufgaben“) ${ƒ_{l}}_{l = 1}^{L}, \subset F$
aus der oben erwähnten Funktionsfamilie an den Datenpunkten x_l,i wie folgt berechnet werden: y_l,i = f_l(x_l,i) + ε. Hier ist ε ein additives Gaußsches Rauschen mit dem Mittelwert Null. Die Datensätze $D_{l} \equiv {x_{l, i}, y_{l, i}}_{i},$
wie in 1a veranschaulicht, werden anschließend in Kontextdatensätze, $D_{l}^{c} \equiv {x_{l, n}^{c}, y_{l, n}^{c}}_{n = 1}^{N_{l}},$
und Zieldatensätze, $D_{l}^{t} \equiv {x_{l, m}^{t}, y_{l, m}^{t}}_{m = 1}^{M_{l}},$
unterteilt. Das auf neuronalen Prozessen basierende Verfahren zielt auf das Trainieren einer A-Posteriori prädiktiven Verteilung $p (y_{l, m}^{t} | x_{l, m}^{t}, D_{l}^{c})$
über f_l ab (unter Bedingung, dass der Kontextdatensatz $D_{l}^{c}$
eingetreten ist), um die Zielwerte $y_{l, m}^{t}$
an den Zielpunkten $x_{l, m}^{t}$
möglichst genau vorherzusagen (z.B. mit einem Fehler, der unterhalb eines vorbestimmten Schwellwertes liegt).
Wie oben erwähnt und in Fig. la gezeigt, kann dieses Verfahren zusätzlich die Verwendung von Modellen mit bedingten latenten Variablen (CLV-Variablen) umfassen. Konkret kann dieses Modell aufgabenspezifische latente Variablen z_l sowie zumindest eine aufgabenunabhängige latente Variable umfassen (z.B. eine aufgabenunabhängige latente Variable θ), die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die latenten Variablen z_l sind Zufallsvariablen, die zu einem probabilistischen Charakter des gesamten Verfahrens beitragen. Darüber hinaus werden die latenten Variablen z_l für die Übertragung der in den Kontextdatensätzen (linker Kasten in 1a) enthaltenen Information benötigt, um entsprechende Vorhersagen über die Zieldatensätze (rechter Kasten in 1a) treffen zu können. Das gesamte Verfahren kann rechnerisch relativ kompliziert sein und kann aus mehreren Zwischenschritten bestehen. Das Verfahren lässt sich als Optimierungsproblem darstellen, indem eine A-Posteriori prädiktive Likelihood Verteilung in Bezug auf die mindestens eine aufgabenunabhängige latente Variable θ und auf einen einzelnen Parametersatz φ, der die approximative A-Posteriori-Verteilung $q_{φ} (z | D^{c})$
parametrisiert und den Kontextdatensätzen $D_{l}^{c}$
D_i gemeinsam ist, maximiert wird. Zugleich werden alle von der latenten Variablen z_l abhängigen Verteilungen entsprechend marginalisiert, d.h. über z_l integriert. Abschließend kann die gewünschte A-Posteriori prädiktive Verteilung $p (y_{l, m}^{t} | x_{l, m}^{t}, D_{l}^{c})$
hergeleitet werden.
Da z_l eine latente Variable ist, ist eine Form von Aggregationsmechanismus erforderlich, um die Verwendung von Kontextdatensätzen $D_{l}^{c}$
variabler Größe zu ermöglichen. Um eine sinnvolle Operation auf Datensätzen darstellen zu können, muss eine solche Aggregation hinsichtlich der Permutationen der Kontextdatenpunkte $x_{l, n}^{c} und y_{l, n}^{c}$
invariant sein. Um diese Permutationsbedingung zu erfüllen, wird normalerweise die in 1b schematisch dargestellte traditionelle Mittelwert-Aggregation verwendet. Zunächst wird jedes Kontextdatenpaar $(x_{n}^{c}, y_{n}^{c})$
durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung r_n abgebildet. (Aufgabenindizes l werden der Einfachheit halber im Folgenden weggelassen.) Dann wird eine permutationsinvariante Operation auf den erzeugten Satz ${r_{n}}_{n = 1}^{N}$
angewendet, um eine aggregierte latente Beobachtung r zu erhalten. Eine der in diesem Zusammenhang im Stand der Technik genutzten Möglichkeiten ist die Berechnung eines Mittelwertes, nämlich r = $\bar{r} = 1 / N \cdot \sum_{n = 1}^{N} r_{n} .$
Es ist zu beachten, dass diese aggregierte Beobachtung r dann verwendet wird, um eine entsprechende Verteilung für die latenten Variablen z zu parametrisieren.
Wie in 2 skizziert ist, kann eine hierhin beschriebene Aggregation, die für eine Mehrzahl von latenten Variablen z unter Berücksichtigung des Trainings-Datensatzes $(x_{n}^{c}, y_{n}^{c})$
berechnet wird, beispielweise als bayesschen Inferenzproblem formuliert werden. In einem Beispiel können der empfangene Trainings-Datensatz $(x_{n}^{c}, y_{n}^{c})$
ein dynamisches Verhalten der Vorrichtung widerspiegeln. Im Gegensatz zu den im Stand der Technik verwendeten Aggregationsmechanismen kann das vorliegende Verfahren, das auf der Aggregation unter Verwendung einer bayesschen Inferenz (oder kurz „bayessche Aggregation“) basiert, ermöglichen, dass die in dem Trainings-Datensatz enthaltene Information direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z übertragen wird. Wie weiter unten erörtert, werden insbesondere die Parameter, die eine entsprechende Verteilung in Bezug auf die Mehrzahl von latenten Variablen z parametrisieren, nicht auf einer groben Mittelwert-Aggregation r für aggregierte latente Beobachtungen r_n beruhen, die traditionell im Stand der Technik verwendet wird. Der erfindungsgemäße Aggregationsschritt kann das gesamte Verfahren verbessern und zum Erzeugen eines effizienten Computer-implementierten Maschinenlernsystems durch das Erzeugen einer A-Posteriori prädiktiven Verteilung $p (y | x, D^{c})$
zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten „bayesschen Aggregation“ und unter Bedingung, dass der Trainings-Datensatz $(x_{n}^{c}, y_{n}^{c})$
eingetreten ist, führen. Die daraus resultierenden Berechnungskosten können ebenfalls wesentlich reduziert werden. Die mit diesem Verfahren erzeugte A-Posteriori prädiktive Verteilung kann vorteilhafterweise zur Vorhersage entsprechender Ausgangsgrößen in Abhängigkeit von Eingangsgrößen bezüglich des dynamischen Verhaltens der kontrollierten Vorrichtung verwendet werden.
Eine Mehrzahl von Trainings-Datensätzen kann an der Vorrichtung gemessene und/oder für die Vorrichtung berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände der technischen Vorrichtung enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings-Datensätzen Informationen bezüglich der Umwelt der technischen Vorrichtung enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für eine gewisse technische Vorrichtung trainiert sein, um in dieser Vorrichtung und/oder in deren Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung der Vorrichtung relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung der technischen Vorrichtung passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für die technische Vorrichtung eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb der technischen Vorrichtung eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.
Die Trainings-Datensätze können gemäß der obigen Definition auch als Kontextdatensätze bezeichnet werden, $D_{l}^{c},$
siehe auch 1a. Der in der vorliegenden Offenbarung verwendete Trainings-Datensatz $(x_{n}^{c}, y_{n}^{c})$
(z.B. für einen ausgewählten Index l mit l = 1..L) kann die Mehrzahl von Trainings-Datenpunkten umfassen und aus einer ersten Mehrzahl von Datenpunkten $x_{n}^{c}$
und einer zweiten Mehrzahl von Datenpunkten $y_{n}^{c}$
bestehen . Die zweite Mehrzahl von Datenpunkten, $y_{n}^{c},$
kann beispielhaft unter Verwendung einer gegebenen Teilmenge von Funktionen aus einer allgemeinen gegebenen Funktionsfamilie
auf der ersten Mehrzahl von Datenpunkten, $x_{n}^{c},$
auf dieselbe Weise berechnet werden, wie weiter oben besprochen ist. Zum Beispiel kann die Funktionsfamilie
so ausgewählt werden, dass sie am besten zur Beschreibung eines Betriebszustands einer bestimmten betrachteten Vorrichtung passt. Die Funktionen und insbesondere die gegebene Teilmenge von Funktionen können auch eine ähnliche statistische Struktur aufweisen.
Im nächsten Schritt des Verfahrens und in Übereinstimmung mit den obigen Diskussionen kann jedes Paar der ersten Mehrzahl von Datenpunkten $x_{n}^{c}$
und der zweiten Mehrzahl von Datenpunkten $y_{n}^{c}$
aus dem Trainings-Datensatz $(x_{n}^{c}, y_{n}^{c})$
durch ein erstes neuronales Netzwerk 1 auf eine entsprechende latente Beobachtung r_n abgebildet werden. Zusätzlich zu der eingeführten Abbildung auf die entsprechende latente Beobachtung r_n kann jedes Kontextdatenpaar in einem Beispiel durch ein zweites neuronales Netz 2 auf eine Unbestimmtheit $σ_{r_{n}}^{2}$
der entsprechenden latenten Beobachtung r_n abgebildet werden. Dann kann eine bayessche A-Posteriori-Verteilung p(z|r_n) für die Mehrzahl von latenten Variablen z aggregiert werden (z.B. Mittels eines entsprechend eingerichteten Moduls 3), unter Bedingung, dass die Mehrzahl von latenten Beobachtungen r_n eingetreten ist. Eine beispielhafte Methode in diesem Zusammenhang besteht darin, die A-Posteriori-Verteilung durch eine bayessche Interferenz zu aktualisieren. Zum Beispiel kann eine bayessche Inferenz-Berechnung der folgenden Form durchgeführt werden: p(z|r_n) = p(r_n|z) · p(z)/p(r_n). Letztendlich kann eine Mehrzahl von latenten Beobachtungen r_n und eine Mehrzahl ihrer Unbestimmtheiten $σ_{r_{n}}^{2}$
berechnet werden, siehe auch 2. Wie weiter oben bereits erwähnt, unterscheidet sich das erfindungsgemäße Verfahren von den traditionellen Verfahren vor allem dadurch, dass das erstere von Anfang an zwei neuronale Netzwerke für den Abbildungsschritt verwendet, während die letzteren nur ein neuronales Netzwerk und eine grobe Mittelwert-Aggregation r für aggregierte latente Beobachtungen r_n umfassen. Dadurch kann die in dem Trainings-Datensatz enthaltene Information direkt in die statistische Beschreibung der Mehrzahl von latenten Variablen übertragen werden.
In einem Beispiel kann die „bayessche Aggregation“ mit Hilfe von faktorisierten Gaußschen Verteilungen implementiert werden. Eine entsprechende Likelihood-Verteilung p(r_n|z) kann beispielweise durch jeweilige Gaußsche Verteilung folgendermaßen definiert werden: $p (r_{n} | z) = N (r_{n} | z, σ_{r_{n}}^{2}) .$
In diesem Fall entspricht die Unbestimmtheit $σ_{r_{n}}^{2}$
einer Varianz der einsprechenden Gaußschen Verteilung.
Das Verfahren der vorliegenden Offenbarung kann das Erzeugen einer zweiten approximativen A-Posteriori-Verteilung q_φ (z|D^c) für die Mehrzahl von latenten Variablen z unter Bedingung umfassen, dass den Trainings-Datensatz $(x_{n}^{c}, y_{n}^{c})$
eingetreten ist. Diese zweite approximative A-Posteriori-Verteilung kann im obigen Fall faktorisierter Gaußschen Verteilungen $N (r_{n} | z, σ_{r_{n}}^{2})$
durch einen Parametersatz $(μ_{z}; σ_{z}^{2})$
beschrieben werden, welche über einen für den Trainings-Datensatz gemeinsamen Parameter φ parametrisiert werden kann. Dieser Parametersatz $(μ_{z}; σ_{z}^{2})$
kann basierend auf der berechneten Mehrzahl von latenten Beobachtungen r_n und der berechneten Mehrzahl ihrer Unbestimmtheiten $σ_{r_{n}}^{2}$
iterativ berechnet werden. Zusammenfassend ermöglicht die Formulierung der Aggregation als bayessche Inferenz, die in dem Trainings-Datensatz $D^{c} \equiv (x_{n}^{c}, y_{n}^{c})$
enthaltene Information direkt in die statistische Beschreibung von latenten Variablen z zu übertragen.
Des Weiteren kann das iterative Berechnen des Parametersatzes der zweiten approximativen A-Posteriori-Verteilung $D^{c} \equiv (x_{n}^{c}, y_{n}^{c})$
das Implementieren einer anderen Mehrzahl von faktorisierten Gaußschen Verteilungen in Bezug auf die latenten Variablen z umfassen. In diesem Beispiel kann der Parametersatz einer Mehrzahl von Mittelwerten µ_z und Varianzen $σ_{z}^{2}$
der Gaußschen Verteilungen entsprechen.
Des Weiteren beinhaltet das Verfahren das Empfangen eines anderen Trainings-Datensatzes $(x_{n}^{t}, y_{n}^{t}),$
der eine dritte Mehrzahl von Datenpunkten $x_{n}^{t}$
und eine vierte Mehrzahl von Datenpunkten $y_{n}^{t}$
umfasst. Der andere Trainings-Datensatz kann auch einem weiter oben erwähnten Zieldatensatz entsprechen, $D^{t} \equiv (x_{n}^{t}, y_{n}^{t})$
(siehe auch 1a). Das vorliegende Verfahren umfasst beispielhaft das Berechnen der vierten Mehrzahl von Datenpunkten $y_{n}^{t}$
unter Verwendung der gleichen gegebenen Teilmenge von Funktionen aus der allgemeinen gegebenen Funktionsfamilie
, wobei die gegebene Teilmenge von Funktionen auf der dritten Mehrzahl von Datenpunkten $x_{n}^{t}$
berechnet wird. Das Verfahren umfasst ferner das Erzeugen einer dritten Verteilung $p (y_{n}^{t} | μ_{z}, σ_{z}^{2}, x_{n}^{t}, θ),$
die von der Mehrzahl von latenten Variablen z, von dem Parametersatz $(μ_{z}; σ_{z}^{2}),$
der aufgabenunabhängigen Variablen θ und dem anderen Trainings-Datensatz $(x_{n}^{t}, y_{n}^{t})$
(z.B. Zieldatensatz) abhängt. Diese dritte Verteilung $p (y_{n}^{t} | μ_{z}, σ_{z}^{2}, x_{n}^{t}, θ)$
kann in einem bevorzugten Beispiel durch ein drittes und viertes neuronales Netzwerk 4, 5 erzeugt werden.
Ein nächster Schritt des Verfahrens umfasst das Optimieren einer Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ. In einem ersten Beispiel kann das Optimieren der Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
das Maximieren der Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ umfassen. Hier kann das Maximieren auf der erzeugten zweiten approximativen A-Posteriori-Verteilung $q_{φ} (z | D^{c})$
und auf der erzeugten dritten Verteilung $p (y_{n}^{t} | μ_{z}, σ_{z}^{2}, x_{n}^{t}, θ)$
beruhen. In diesem Zusammenhang kann das Maximieren der Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
ferner das Berechnen eines Integrals über eine Funktion von latenten Variablen z umfassen, die jeweilige Produkte der zweiten approximativen A-Posteriori-Verteilung $q_{φ} (z | D^{c})$
und der dritten Verteilung $p (y_{n}^{t} | μ_{z}, σ_{z}^{2}, x_{n}^{t}, θ)$
beinhaltet.
Um die aufgabenunabhängige Variable 9 und den gemeinsamen Parameter φ durch das Maximieren der Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
zu optimieren kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z approximiert werden. Hierzu kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z durch eine nicht-stochastische Verlustfunktion approximiert werden, die auf den Parametersatz $(μ_{z}; σ_{z}^{2})$
der zweiten approximativen A-Posteriori-Verteilung $q_{φ} (z | D^{c})$
beruht. Das gesamte Verfahren kann dadurch schneller berechnet werden als manche Verfahren des Standes der Technik, welche traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden verwenden. Abschließend können die durch das Optimieren hergeleiteten aufgabenunabhängigen Variablen 9 und der gemeinsame Parameter φ in der Likelihood-Verteilung $p (y_{n}^{t} | x_{n}^{t}, D^{c}, θ)$
eingesetzt werden, um die A-Posteriori prädiktiven Verteilung $q_{φ} (y | x, D^{c})$
zu erzeugen.
In 3 sind die Ergebnisse für ein Standard-Problem (das Furuta-Pendel) verglichen, die für verschiedene Verfahren berechnet wurden. Diese Figur zeigt Logarithmen der A-Posteriori prädiktiven Verteilung, $l o g p (y | x, D^{c}),$
in Abhängigkeit von der ersten Mehrzahl von Datenpunkten (d.h. von der Anzahl der Kontextdatenpunkte) N. Wie aus dieser Figur ersichtlich, kann das Verfahren der vorliegenden Offenbarung die Gesamtleistung des Computer-implementierten Maschinenlernsystems im Vergleich zu den entsprechenden traditionellen Verfahren, nämlich Mittelwert-Aggregation (MA) bzw. Likelihood-Variationsverfahren (VI), insbesondere bei kleinen Trainings-Datensätzen verbessern.
Wie weiter oben bereits besprochen, können die Computer-implementierten Maschinenlernsysteme dieser Offenbarung in verschiedenen technischen Vorrichtungen und Systemen eingesetzt werden. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.
Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings-Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computer-implementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (ℝⁿ) zu einem Ausgangsvektor einer zweiten Dimension (ℝ^m) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.
Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.
Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera- , Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.
In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.
In wieder anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.
Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.
Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.

Claims

Computer-implementiertes Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems, wobei das Verfahren folgende Schritte umfasst: das Empfangen eines Trainings-Datensatzes (x_c, y_c), der ein dynamischen Verhalten einer Vorrichtung widerspiegelt; das Berechnen einer Aggregation für mindestens eine latente Variable (z_l) des Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Training-Datensatzes (x_c, y_c), wobei eine in dem Trainings-Datensatz enthaltene Information direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen (z_l) übertragen wird; das Erzeugen einer A-Posteriori prädiktiven Verteilung (p(y|x,D^c)) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz (x_c, y_c) eingetreten ist.
Computer-implementiertes Verfahren nach Anspruch 1 ferner das Verwenden der erzeugten A-Posteriori prädiktiven Verteilung zur Vorhersage entsprechender Ausgangsgrößen in Abhängigkeit von Eingangsgrößen bezüglich des dynamischen Verhaltens der Vorrichtung umfasst.
Computer-implementiertes Verfahren nach Anspruch 1 oder 2, wobei der Trainings-Datensatz (x_c, y_c) eine erste Mehrzahl von Datenpunkten (x_c) und eine zweite Mehrzahl von Datenpunkten (y_c) umfasst, wobei das Verfahren das Berechnen der zweiten Mehrzahl von Datenpunkten (y_c) unter Verwendung einer gegebenen Teilmenge von Funktionen (F) aus einer allgemeinen gegebenen Funktionsfamilie umfasst, wobei die gegebene Teilmenge von Funktionen auf der ersten Mehrzahl von Datenpunkten berechnet wird; und wobei das Berechnen der Aggregation folgende Schritte umfasst: das Abbilden jedes Paares der ersten (x_c) Mehrzahl von Datenpunkten und der zweiten (y_c) Mehrzahl von Datenpunkten aus dem Trainings-Datensatz (x_c, y_c) durch ein erstes neuronales Netzwerk auf eine entsprechende latente Beobachtung (r_n) und durch ein zweites neuronales Netzwerk auf eine Unbestimmtheit (σ_rn) der entsprechenden latenten Beobachtung (rn); das Aggregieren einer bayesschen A-Posteriori-Verteilung (p(z_l|r_n)) für die Mehrzahl von latenten Variablen (z_l) unter Bedingung, dass die Mehrzahl von latenten Beobachtungen (r_n) eingetreten ist, wobei das Aggregieren unter Verwendung einer bayesschen Inferenz durchgeführt wird, wodurch die in dem Trainings-Datensatz (x_c, y_c) enthaltene Information direkt in die statistische Beschreibung der Mehrzahl von latenten Variablen übertragen wird; das Berechnen einer Mehrzahl von latenten Beobachtungen (r_n) und einer Mehrzahl ihrer Unbestimmtheiten (σ_rn).
Computer-implementiertes Verfahren nach Anspruch 3, wobei das Aggregieren der bayesschen A-Posteriori-Verteilung (p(z_l|r_n)) das Implementieren einer Mehrzahl von faktorisierten Gaußschen Verteilungen umfasst, und wobei die Unbestimmtheit (σ_rn) eine Varianz der einsprechenden Gaußschen Verteilung ist.
Computer-implementiertes Verfahren nach Anspruch 4, wobei das Erzeugen der A-Posteriori prädiktiven Verteilung (p(y|x,D^c)) folgende weitere Schritte umfasst: das Erzeugen einer zweiten approximativen A-Posteriori-Verteilung (q_φ(z_l|_D ^c)) für die Mehrzahl von latenten Variablen (z_l) unter Bedingung, dass den Trainings-Datensatz (x_c, y_c) eingetreten ist, wobei die zweite approximative A-Posteriori-Verteilung ferner durch einen Parametersatz (µ_z, σ_z ²) beschrieben wird, welche über einen für den Trainings-Datensatz (x_c, y_c) gemeinsamen Parameter (φ) parametrisiert ist; das iterative Berechnen des Parametersatzes basierend auf der berechneten Mehrzahl von latenten Beobachtungen (r_n) und der berechneten Mehrzahl ihrer Unbestimmtheiten (σ_rn).
Computer-implementiertes Verfahren nach Anspruch 5, wobei das iterative Berechnen des Parametersatzes das Implementieren einer anderen Mehrzahl von faktorisierten Gaußschen Verteilungen in Bezug auf die latenten Variablen (z_l) umfasst, und wobei der Parametersatz einer Mehrzahl von Mittelwerten (µ_z) und Varianzen (σ_z ²) der Gaußschen Verteilungen entspricht.
Computer-implementiertes Verfahren nach Anspruch 5 oder 6 ferner das Empfangen eines anderen Trainings-Datensatzes (x_t, y_t) beinhaltet, der eine dritte Mehrzahl von Datenpunkten (x_t) und eine vierte Mehrzahl von Datenpunkten (y_t) umfasst, wobei das Verfahren das Berechnen der vierten Mehrzahl von Datenpunkten (y_t) unter Verwendung der gegebenen Teilmenge von Funktionen (F) aus der allgemeinen gegebenen Funktionsfamilie umfasst, wobei die gegebene Teilmenge von Funktionen auf der dritten Mehrzahl von Datenpunkten berechnet wird, und wobei das Erzeugen der A-Posteriori prädiktiven Verteilung (p(y|x,D^c)) ferner das Erzeugen einer dritten Verteilung (p(y_t| µ_z, σ_z ², x_t, θ)) durch ein drittes und viertes neuronales Netzwerk umfasst, wobei die dritte Verteilung (p(y_t| µ_z, σ_z ², x_t, θ)) von der Mehrzahl von latenten Variablen (z_l), dem Parametersatz (µ_z, α_z ²), der aufgabenunabhängigen Variablen (θ) und dem anderen Trainings-Datensatz (x_t, y_t) abhängt.
Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 7, wobei das Erzeugen der A-Posteriori prädiktiven Verteilung [p(y|x,D^c)] das Optimieren einer Likelihood-Verteilung [p(y_t| x_t, D_c, θ)] bezüglich der aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) umfasst.
Computer-implementiertes Verfahren nach Anspruch 8, wobei das Optimieren der Likelihood-Verteilung [p(y_t| x_t, D_c, θ)] das Maximieren der Likelihood-Verteilung [p(y_t| x_t, D_c, θ)] bezüglich der aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) umfasst, wobei das Maximieren auf der erzeugten zweiten approximativen A-Posteriori-Verteilung [q_φ(z_l|D^c)] und auf der erzeugten dritten Verteilung [p(yt| µ_z, σ_z ², x_t, θ)] beruht.
Computer-implementiertes Verfahren nach Anspruch 9, wobei das Maximieren der Likelihood-Verteilung [p(y_t| x_t, D_c, θ)] das Berechnen eines Integrals über eine Funktion von latenten Variablen (z_l) umfasst, die jeweilige Produkte der zweiten approximativen A-Posteriori-Verteilung [q_φ(z|D^c)] und der dritten Verteilung [p(y_t| µ_z, σ_z ², x_t, θ)] beinhaltet.
Computer-implementiertes Verfahren nach Anspruch 10, wobei das Berechnen des Integrals das Approximieren des Integrals in Bezug auf die Mehrzahl von latenten Variablen (z_l) durch eine nicht-stochastische Verlustfunktion umfasst, die auf den Parametersatz der zweiten approximativen A-Posteriori-Verteilung (q_φ(z_l|D^c)) beruht.
Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 8 bis 11 ferner das Einsetzen der durch das Optimieren hergeleiteten aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) in der Likelihood-Verteilung [p(y_t| x_t, D_c, θ)] umfasst, um die A-Posteriori prädiktiven Verteilung [p(y|x,D^c)] zu erzeugen.
Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 12, wobei das Erzeugen des Computer-implementierten Maschinenlernsystems das Abbilden von einem Eingangsvektor einer Dimension (Rⁿ) zu einem Ausgangsvektor einer zweiten Dimension (R^m) umfasst, wobei der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellt, und wobei der Ausgangsvektor mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellt, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird.
Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 13, wobei die Vorrichtung eine Maschine, optional ein Motor ist.
Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 14 , wobei der Computer-implementierte Maschinenlernsystem für eine Modellierung einer Parametrisierung eines Kennfeldes der Vorrichtung ausgelegt ist.
Computer-implementiertes Verfahren nach Anspruch 15 , weiter umfassend: Parametrisieren eines Kennfeldes der Vorrichtung unter Verwendung des erzeugten Computer-implementierten Maschinenlernsystems.
Computer-implementiertes Verfahren nach einem der Ansprüche 14 bis 16, wobei die Trainings-Datensätze an der Vorrichtung gemessene und/oder für die Vorrichtung berechnete Eingangsgrößen umfasst, optional wobei die mindestens eine Eingangsgröße der Vorrichtung eine Drehzahl, eine Temperatur, einen Massenstrom oder eine Kombination davon umfasst, und wobei die mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis oder eine Kombination davon umfasst.
Ein Computer-implementiertes System zum Erzeugen und/oder Anwenden eines Computer-implementierten Maschinenlernsystems für eine Vorrichtung, wobei das Computer-implementierten Maschinenlernsystem mit einem der Verfahren der vorhergehenden Ansprüche 1 bis 17 trainiert ist.