-
Technisches Gebiet
-
Die vorliegende Offenbarung betrifft Computer-implementierte Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems für eine technische Vorrichtung.
-
Hintergrund
-
Die Entwicklung leistungsfähiger Computer-implementierter Modelle zur Ableitung quantitativer Beziehungen zwischen Variablen aus Messdaten ist in allen Zweigen des Ingenieurwesens von zentraler Bedeutung. In diesem Zusammenhang werden Computerimplementierte neuronale Netzwerke und Verfahren, die auf den Gaußprozessen basieren, vermehrt in verschiedenen technischen Umgebungen eingesetzt. Neuronale Netzwerke können gut mit großen Mengen an Trainingsdatensätzen zurechtkommen und sind zur Trainingszeit rechnerisch effizient. Nachteilig ist, dass sie keine Einschätzungen für eine Unbestimmtheit über ihre Vorhersagen liefern und außerdem können zu einer Überanpassung bei kleinen Datensätzen neigen. Darüber hinaus kann sich das Problem ergeben, dass die neuronalen Netzwerke für ihre erfolgreiche Anwendung stark strukturiert sein sollten und ihre Größe ab einer gewissen Komplexität der Anwendungen schnell zunehmen kann. Das kann zu hohe Anforderungen an die für das Anwenden der neuronalen Netzwerke erforderliche Hardware stellen. Gaußprozesse können als komplementär zu neuronaler Netzwerken angesehen werden, da sie zuverlässige Einschätzungen für die Unbestimmtheit liefern können, jedoch kann ihre z.B. quadratische oder kubische Skalierung mit der Anzahl der Kontextdaten während der Trainingszeit die Anwendung bei Aufgaben mit großen Datenmengen oder bei hochdimensionalen Problemen auf typischer Hardware stark einschränken.
-
Um die oben erwähnten Probleme zu adressieren, wurden Verfahren entwickelt, die sich auf so genannte neuronale Prozesse beziehen. Diese neuronalen Prozesse können die Vorteile von neuronalen Netzwerken und Gaußprozessen kombinieren. Schließlich stellen sie eine Verteilung über Funktionen (statt einer einzelnen Funktion) bereit und stellen ein Multitask-Lernen („multi-task learning“) Verfahren dar (d.h. das Verfahren wird auf mehrere Aufgaben gleichzeitig trainiert). Darüber hinaus basieren diese Verfahren in der Regel auf Modellen der bedingten latenten Variable („conditional latent variable (CLV) models“), wobei die latente Variable zur Berücksichtigung der globalen Unbestimmtheit verwendet wird.
-
Die Computer-implementierten Maschinenlernsysteme können z.B. für die Parametrisierung von technischen Vorrichtungen eingesetzt werden (z.B. für die Parametrierung eines Kennfeldes). Ein weiterer Anwendungsbereich dieser Verfahren sind kleinere technische Geräte mit limitierten Hardware-Ressourcen bei denen der Stromverbrauch oder die geringe Speicherkapazität den Einsatz größerer neuronaler Netzwerke oder eines auf Gaußprozessen basierenden Verfahrens wesentlich einschränken kann.
-
Zusammenfassung der Erfindung
-
Die vorliegende Erfindung betrifft ein Computer-implementiertes Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems. Das Verfahren umfasst das Empfangen eines Trainings-Datensatzes xc, yc, der ein dynamischen Verhalten einer Vorrichtung widerspiegelt und das Berechnen einer Aggregation für mindestens eine latente Variable z1 des Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Trainings-Datensatzes xc, yc. Eine in dem Trainings-Datensatz enthaltene Information wird direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z1 übertragen. Das Verfahren umfasst weiterhin das Erzeugen einer A-Posteriori prädiktiven Verteilung p(y|x,Dc) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz xc, yc eingetreten ist.
-
Die vorliegende Erfindung betrifft darüber hinaus das Anwenden des erzeugten Computerimplementierten Maschinenlernsystems in verschiedenen technischen Umgebungen. Die vorliegende Erfindung betrifft ferner Erzeugen eines Computer-implementierten Maschinenlernsystems und/oder Anwenden eines Computer-implementierten Maschinenlernsystems für eine Vorrichtung.
-
Die Techniken der vorliegenden Erfindung zielen darauf ab, ein (möglichst) simples und effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen, das eine verbesserte prädiktive Leistung und Genauigkeit im Vergleich zu manchen Verfahren des Standes der Technik bereitstellt und zusätzlich einen Gewinn an Berechnungskosten aufweist. Für diesen Zweck kann das Computer-implementierte Maschinenlernsystem auf Basis verfügbarer Datensätze (z. B. historischer Daten) maschinell gelernt werden. Diese Datensätze können aus einer allgemein gegebenen Funktionsfamilie unter Verwendung einer gegebenen Teilmenge von Funktionen aus dieser Funktionsfamilie erhalten werden, die an bekannten Datenpunkten berechnet werden.
-
Insbesondere kann ein Nachteil einer Mittelwert-Aggregation einiger Techniken des Standes der Technik, in der jeder latenten Beobachtung des Maschinenlernsystems (unabhängig von der Informationsmenge, die im entsprechenden Kontextdatenpaar enthalten ist) das gleiche Gewicht 1/N zugewiesen werden kann, umgangen werden. Die Techniken der vorliegenden Offenbarung zielt darauf ab, den Aggregationsschritt des Verfahrens zu verbessern, um ein effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen und die daraus resultierenden Berechnungskosten zu reduzieren. Die auf diese Weise erzeugten Computerimplementierten Maschinenlernsysteme können in zahlreichen technischen Systemen eingesetzt werden. Beispielsweise kann mittels der Computer-implementierten Maschinenlernsysteme eine technische Vorrichtung ausgelegt werden (z.B. eine Modellierung einer Parametrisierung eines Kennfeldes für eine Vorrichtung wie einen Motor, einen Verdichter oder eine Brennstoffzelle).
-
Figurenliste
-
- 1a zeigt schematisch das Modell der bedingten latenten Variable („conditional latent variable (CLV) model“) mit aufgabenspezifischen latenten Variablen zl und einer aufgabenunabhängigen latenten Variable 9, die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die Variablen in Kreisen entsprechen den Variablen des CLV-Modells: sind die Kontext- (c) bzw. Zieldatensätze (t).
- 1b zeigt schematisch ein Netzwerk mit einer Mittelwert-Aggregation (MA) des Stands der Technik mit dem Likelihood-Variationsverfahren (VI), die in CLV-Modellen verwendet werden. Aufgabenindizes l werden der Einfachheit halber weggelassen. Jedes Kontextdatenpaar wird durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung rn abgebildet. r ist eine aggregierte latente Beobachtung, (Mittelwert). Kästchen, die mit a · [b] beschriftet sind, kennzeichnen mehrlagige Perzeptren (engl. „multi-layer perceptron“, MLP) mit a verborgenen Schichten je mit b Einheiten. Das Kästchen mit der Bezeichnung „Mittelwert“ bezeichnet die traditionelle Mittelwert-Aggregation. Das Kästchen, welches mit z beschriftet ist, kennzeichnet die Realisierung einer Zufallsvariable mit einer Zufallsverteilung, die mit Parametern, die durch die eingehenden Knoten gegeben sind, parametrisiert ist. dz entspricht der latenten Dimension, sind in der Überschrift von 1a definiert.
- 2 zeigt ein Netzwerk mit der „bayesschen Aggregation“ der vorliegenden Offenbarung. Aufgabenindizes l werden der Einfachheit halber weggelassen. Das Kästchen mit der Bezeichnung „Bayes“ bezeichnet die „bayessche Aggregation“. Jedes Kontextdatenpaar kann in einem Beispiel zusätzlich zu der in 1b eingeführten Abbildung mittels eines neuronalen Netzwerks durch ein zweites neuronales Netzwerk auf eine Unbestimmtheit der entsprechenden latenten Beobachtung (rn) abgebildet werden. In diesem Beispiel parametrisieren die Parameter die approximative A-Posteriori-Verteilung . Die anderen Notationen entsprechen den in 1b verwendeten Notationen. Die in 1b definierte aggregierte latente Beobachtung r wird nicht verwendet.
- 3 vergleicht die Ergebnisse für einen Testdatensatz (das Furuta-Pendel), die für verschiedene Verfahren berechnet wurden, und zeigt Logarithmen der A-Posteriori prädiktiven Verteilung, in Abhängigkeit von der Anzahl der Kontextdatenpunkte N. BA+PB: numerische Ergebnisse unter Verwendung der auf 2 gezeigten erfindungsgemäßen „bayesschen Aggregation“ (BA) und der erfindungsgemäßen nichtstochastischen parameterbasierten Verlustfunktion (PB), die traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden ersetzt. MA+PB: numerische Ergebnisse unter Verwendung der in 1b skizzierten traditionellen Mittelwert-Aggregation und der erfindungsgemäßen PB Verlustfunktion. BA + VI: numerische Ergebnisse unter Verwendung der erfindungsgemäßen BA und der traditionellen Verlustfunktion, die durch das Likelihood-Variationsverfahren approximiert wird. L entspricht der Anzahl der Trainings-Datensätze.
-
Ausführliche Beschreibung
-
Die vorliegende Offenbarung betrifft das Verfahren zum Erzeugen eines Computerimplementierten Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) für eine Vorrichtung, das unter Verwendung einer Aggregation mittels bayesscher Inferenz („bayesschen Aggregation“) erzeugt wird. Diese Verfahren werden aufgrund ihrer rechnerischen Komplexität in einem computerimplementierten System ausgeführt. Zunächst werden einige allgemeine Aspekte des Verfahrens zum Erzeugen eines Computer-implementierten Maschinenlernsystems diskutiert werden, bevor anschließend einige mögliche Implementierungen erläutert werden.
-
Insbesondere die probabilistischen Modelle im Zusammenhang mit neuronalen Prozessen lassen sich schematisch wie folgt formulieren. Man bezeichnet mit
eine Familie allgemeiner Funktionen f
l, die für ein spezifisches technisches Problem verwendet werden können und die eine ähnliche statistische Struktur aufweisen. Es wird ferner angenommen, dass für das Trainieren verwendete Datensätze
verfügbar sind, wobei y
l,i unter Verwendung der Teilmenge von L Funktionen („Aufgaben“)
aus der oben erwähnten Funktionsfamilie an den Datenpunkten x
l,i wie folgt berechnet werden: y
l,i = f
l(x
l,i) + ε. Hier ist ε ein additives Gaußsches Rauschen mit dem Mittelwert Null. Die Datensätze
wie in
1a veranschaulicht, werden anschließend in Kontextdatensätze,
und Zieldatensätze,
unterteilt. Das auf neuronalen Prozessen basierende Verfahren zielt auf das Trainieren einer A-Posteriori prädiktiven Verteilung
über f
l ab (unter Bedingung, dass der Kontextdatensatz
eingetreten ist), um die Zielwerte
an den Zielpunkten
möglichst genau vorherzusagen (z.B. mit einem Fehler, der unterhalb eines vorbestimmten Schwellwertes liegt).
-
Wie oben erwähnt und in Fig. la gezeigt, kann dieses Verfahren zusätzlich die Verwendung von Modellen mit bedingten latenten Variablen (CLV-Variablen) umfassen. Konkret kann dieses Modell aufgabenspezifische latente Variablen z
l sowie zumindest eine aufgabenunabhängige latente Variable umfassen (z.B. eine aufgabenunabhängige latente Variable θ), die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die latenten Variablen z
l sind Zufallsvariablen, die zu einem probabilistischen Charakter des gesamten Verfahrens beitragen. Darüber hinaus werden die latenten Variablen z
l für die Übertragung der in den Kontextdatensätzen (linker Kasten in
1a) enthaltenen Information benötigt, um entsprechende Vorhersagen über die Zieldatensätze (rechter Kasten in
1a) treffen zu können. Das gesamte Verfahren kann rechnerisch relativ kompliziert sein und kann aus mehreren Zwischenschritten bestehen. Das Verfahren lässt sich als Optimierungsproblem darstellen, indem eine A-Posteriori prädiktive Likelihood Verteilung in Bezug auf die mindestens eine aufgabenunabhängige latente Variable θ und auf einen einzelnen Parametersatz φ, der die approximative A-Posteriori-Verteilung
parametrisiert und den Kontextdatensätzen
D
i gemeinsam ist, maximiert wird. Zugleich werden alle von der latenten Variablen z
l abhängigen Verteilungen entsprechend marginalisiert, d.h. über z
l integriert. Abschließend kann die gewünschte A-Posteriori prädiktive Verteilung
hergeleitet werden.
-
Da z
l eine latente Variable ist, ist eine Form von Aggregationsmechanismus erforderlich, um die Verwendung von Kontextdatensätzen
variabler Größe zu ermöglichen. Um eine sinnvolle Operation auf Datensätzen darstellen zu können, muss eine solche Aggregation hinsichtlich der Permutationen der Kontextdatenpunkte
invariant sein. Um diese Permutationsbedingung zu erfüllen, wird normalerweise die in
1b schematisch dargestellte traditionelle Mittelwert-Aggregation verwendet. Zunächst wird jedes Kontextdatenpaar
durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung r
n abgebildet. (Aufgabenindizes l werden der Einfachheit halber im Folgenden weggelassen.) Dann wird eine permutationsinvariante Operation auf den erzeugten Satz
angewendet, um eine aggregierte latente Beobachtung
r zu erhalten. Eine der in diesem Zusammenhang im Stand der Technik genutzten Möglichkeiten ist die Berechnung eines Mittelwertes, nämlich
r =
Es ist zu beachten, dass diese aggregierte Beobachtung
r dann verwendet wird, um eine entsprechende Verteilung für die latenten Variablen z zu parametrisieren.
-
Wie in
2 skizziert ist, kann eine hierhin beschriebene Aggregation, die für eine Mehrzahl von latenten Variablen z unter Berücksichtigung des Trainings-Datensatzes
berechnet wird, beispielweise als bayesschen Inferenzproblem formuliert werden. In einem Beispiel können der empfangene Trainings-Datensatz
ein dynamisches Verhalten der Vorrichtung widerspiegeln. Im Gegensatz zu den im Stand der Technik verwendeten Aggregationsmechanismen kann das vorliegende Verfahren, das auf der Aggregation unter Verwendung einer bayesschen Inferenz (oder kurz „bayessche Aggregation“) basiert, ermöglichen, dass die in dem Trainings-Datensatz enthaltene Information direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z übertragen wird. Wie weiter unten erörtert, werden insbesondere die Parameter, die eine entsprechende Verteilung in Bezug auf die Mehrzahl von latenten Variablen z parametrisieren, nicht auf einer groben Mittelwert-Aggregation
r für aggregierte latente Beobachtungen r
n beruhen, die traditionell im Stand der Technik verwendet wird. Der erfindungsgemäße Aggregationsschritt kann das gesamte Verfahren verbessern und zum Erzeugen eines effizienten Computer-implementierten Maschinenlernsystems durch das Erzeugen einer A-Posteriori prädiktiven Verteilung
zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten „bayesschen Aggregation“ und unter Bedingung, dass der Trainings-Datensatz
eingetreten ist, führen. Die daraus resultierenden Berechnungskosten können ebenfalls wesentlich reduziert werden. Die mit diesem Verfahren erzeugte A-Posteriori prädiktive Verteilung kann vorteilhafterweise zur Vorhersage entsprechender Ausgangsgrößen in Abhängigkeit von Eingangsgrößen bezüglich des dynamischen Verhaltens der kontrollierten Vorrichtung verwendet werden.
-
Eine Mehrzahl von Trainings-Datensätzen kann an der Vorrichtung gemessene und/oder für die Vorrichtung berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände der technischen Vorrichtung enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings-Datensätzen Informationen bezüglich der Umwelt der technischen Vorrichtung enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für eine gewisse technische Vorrichtung trainiert sein, um in dieser Vorrichtung und/oder in deren Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung der Vorrichtung relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung der technischen Vorrichtung passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für die technische Vorrichtung eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb der technischen Vorrichtung eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.
-
Die Trainings-Datensätze können gemäß der obigen Definition auch als Kontextdatensätze bezeichnet werden,
siehe auch
1a. Der in der vorliegenden Offenbarung verwendete Trainings-Datensatz
(z.B. für einen ausgewählten Index l mit l = 1..L) kann die Mehrzahl von Trainings-Datenpunkten umfassen und aus einer ersten Mehrzahl von Datenpunkten
und einer zweiten Mehrzahl von Datenpunkten
bestehen . Die zweite Mehrzahl von Datenpunkten,
kann beispielhaft unter Verwendung einer gegebenen Teilmenge von Funktionen aus einer allgemeinen gegebenen Funktionsfamilie
auf der ersten Mehrzahl von Datenpunkten,
auf dieselbe Weise berechnet werden, wie weiter oben besprochen ist. Zum Beispiel kann die Funktionsfamilie
so ausgewählt werden, dass sie am besten zur Beschreibung eines Betriebszustands einer bestimmten betrachteten Vorrichtung passt. Die Funktionen und insbesondere die gegebene Teilmenge von Funktionen können auch eine ähnliche statistische Struktur aufweisen.
-
Im nächsten Schritt des Verfahrens und in Übereinstimmung mit den obigen Diskussionen kann jedes Paar der ersten Mehrzahl von Datenpunkten
und der zweiten Mehrzahl von Datenpunkten
aus dem Trainings-Datensatz
durch ein erstes neuronales Netzwerk 1 auf eine entsprechende latente Beobachtung r
n abgebildet werden. Zusätzlich zu der eingeführten Abbildung auf die entsprechende latente Beobachtung r
n kann jedes Kontextdatenpaar in einem Beispiel durch ein zweites neuronales Netz 2 auf eine Unbestimmtheit
der entsprechenden latenten Beobachtung r
n abgebildet werden. Dann kann eine bayessche A-Posteriori-Verteilung p(z|r
n) für die Mehrzahl von latenten Variablen z aggregiert werden (z.B. Mittels eines entsprechend eingerichteten Moduls 3), unter Bedingung, dass die Mehrzahl von latenten Beobachtungen r
n eingetreten ist. Eine beispielhafte Methode in diesem Zusammenhang besteht darin, die A-Posteriori-Verteilung durch eine bayessche Interferenz zu aktualisieren. Zum Beispiel kann eine bayessche Inferenz-Berechnung der folgenden Form durchgeführt werden: p(z|r
n) = p(r
n|z) · p(z)/p(r
n). Letztendlich kann eine Mehrzahl von latenten Beobachtungen r
n und eine Mehrzahl ihrer Unbestimmtheiten
berechnet werden, siehe auch
2. Wie weiter oben bereits erwähnt, unterscheidet sich das erfindungsgemäße Verfahren von den traditionellen Verfahren vor allem dadurch, dass das erstere von Anfang an zwei neuronale Netzwerke für den Abbildungsschritt verwendet, während die letzteren nur ein neuronales Netzwerk und eine grobe Mittelwert-Aggregation
r für aggregierte latente Beobachtungen r
n umfassen. Dadurch kann die in dem Trainings-Datensatz enthaltene Information direkt in die statistische Beschreibung der Mehrzahl von latenten Variablen übertragen werden.
-
In einem Beispiel kann die „bayessche Aggregation“ mit Hilfe von faktorisierten Gaußschen Verteilungen implementiert werden. Eine entsprechende Likelihood-Verteilung p(r
n|z) kann beispielweise durch jeweilige Gaußsche Verteilung folgendermaßen definiert werden:
In diesem Fall entspricht die Unbestimmtheit
einer Varianz der einsprechenden Gaußschen Verteilung.
-
Das Verfahren der vorliegenden Offenbarung kann das Erzeugen einer zweiten approximativen A-Posteriori-Verteilung q
φ (z|D
c) für die Mehrzahl von latenten Variablen z unter Bedingung umfassen, dass den Trainings-Datensatz
eingetreten ist. Diese zweite approximative A-Posteriori-Verteilung kann im obigen Fall faktorisierter Gaußschen Verteilungen
durch einen Parametersatz
beschrieben werden, welche über einen für den Trainings-Datensatz gemeinsamen Parameter φ parametrisiert werden kann. Dieser Parametersatz
kann basierend auf der berechneten Mehrzahl von latenten Beobachtungen r
n und der berechneten Mehrzahl ihrer Unbestimmtheiten
iterativ berechnet werden. Zusammenfassend ermöglicht die Formulierung der Aggregation als bayessche Inferenz, die in dem Trainings-Datensatz
enthaltene Information direkt in die statistische Beschreibung von latenten Variablen z zu übertragen.
-
Des Weiteren kann das iterative Berechnen des Parametersatzes der zweiten approximativen A-Posteriori-Verteilung
das Implementieren einer anderen Mehrzahl von faktorisierten Gaußschen Verteilungen in Bezug auf die latenten Variablen z umfassen. In diesem Beispiel kann der Parametersatz einer Mehrzahl von Mittelwerten µ
z und Varianzen
der Gaußschen Verteilungen entsprechen.
-
Des Weiteren beinhaltet das Verfahren das Empfangen eines anderen Trainings-Datensatzes
der eine dritte Mehrzahl von Datenpunkten
und eine vierte Mehrzahl von Datenpunkten
umfasst. Der andere Trainings-Datensatz kann auch einem weiter oben erwähnten Zieldatensatz entsprechen,
(siehe auch
1a). Das vorliegende Verfahren umfasst beispielhaft das Berechnen der vierten Mehrzahl von Datenpunkten
unter Verwendung der gleichen gegebenen Teilmenge von Funktionen aus der allgemeinen gegebenen Funktionsfamilie
, wobei die gegebene Teilmenge von Funktionen auf der dritten Mehrzahl von Datenpunkten
berechnet wird. Das Verfahren umfasst ferner das Erzeugen einer dritten Verteilung
die von der Mehrzahl von latenten Variablen z, von dem Parametersatz
der aufgabenunabhängigen Variablen θ und dem anderen Trainings-Datensatz
(z.B. Zieldatensatz) abhängt. Diese dritte Verteilung
kann in einem bevorzugten Beispiel durch ein drittes und viertes neuronales Netzwerk 4, 5 erzeugt werden.
-
Ein nächster Schritt des Verfahrens umfasst das Optimieren einer Likelihood-Verteilung
bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ. In einem ersten Beispiel kann das Optimieren der Likelihood-Verteilung
das Maximieren der Likelihood-Verteilung
bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ umfassen. Hier kann das Maximieren auf der erzeugten zweiten approximativen A-Posteriori-Verteilung
und auf der erzeugten dritten Verteilung
beruhen. In diesem Zusammenhang kann das Maximieren der Likelihood-Verteilung
ferner das Berechnen eines Integrals über eine Funktion von latenten Variablen z umfassen, die jeweilige Produkte der zweiten approximativen A-Posteriori-Verteilung
und der dritten Verteilung
beinhaltet.
-
Um die aufgabenunabhängige Variable 9 und den gemeinsamen Parameter φ durch das Maximieren der Likelihood-Verteilung
zu optimieren kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z approximiert werden. Hierzu kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z durch eine nicht-stochastische Verlustfunktion approximiert werden, die auf den Parametersatz
der zweiten approximativen A-Posteriori-Verteilung
beruht. Das gesamte Verfahren kann dadurch schneller berechnet werden als manche Verfahren des Standes der Technik, welche traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden verwenden. Abschließend können die durch das Optimieren hergeleiteten aufgabenunabhängigen Variablen 9 und der gemeinsame Parameter φ in der Likelihood-Verteilung
eingesetzt werden, um die A-Posteriori prädiktiven Verteilung
zu erzeugen.
-
In
3 sind die Ergebnisse für ein Standard-Problem (das Furuta-Pendel) verglichen, die für verschiedene Verfahren berechnet wurden. Diese Figur zeigt Logarithmen der A-Posteriori prädiktiven Verteilung,
in Abhängigkeit von der ersten Mehrzahl von Datenpunkten (d.h. von der Anzahl der Kontextdatenpunkte) N. Wie aus dieser Figur ersichtlich, kann das Verfahren der vorliegenden Offenbarung die Gesamtleistung des Computer-implementierten Maschinenlernsystems im Vergleich zu den entsprechenden traditionellen Verfahren, nämlich Mittelwert-Aggregation (MA) bzw. Likelihood-Variationsverfahren (VI), insbesondere bei kleinen Trainings-Datensätzen verbessern.
-
Wie weiter oben bereits besprochen, können die Computer-implementierten Maschinenlernsysteme dieser Offenbarung in verschiedenen technischen Vorrichtungen und Systemen eingesetzt werden. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.
-
Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings-Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computer-implementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (ℝn) zu einem Ausgangsvektor einer zweiten Dimension (ℝm) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.
-
Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.
-
Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera- , Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
-
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.
-
In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.
-
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.
-
In wieder anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.
-
Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.
-
Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.