DE102021200569A1

DE102021200569A1 - Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells

Info

Publication number: DE102021200569A1
Application number: DE102021200569.1A
Authority: DE
Inventors: The Duy Nguyen-Tuong; Christoph Zimmer; Hon Sum Alec Yu; Dingling Yao
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-07-28
Also published as: CN114770492A; US20220245521A1

Abstract

Eine Vorrichtung und ein Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells werden offenbart, wobei das Gaußprozess-Zustandsraummodell einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreibt. Das Verfahren weist auf: für jeden Steuerparameter der Vielzahl von Steuerparametern: Ermitteln einer dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung, Ermitteln einer einem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung, Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung; Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter; Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung; und Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert wird.

Description

Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells.
Dynamische Systeme, wie beispielsweise Robotervorrichtungen, können zum Beispiel in der Fertigung, in der Produktion, in der Wartung, im Haushalt, in Fortbewegungsmitteln, in der Medizintechnik, etc. eingesetzt werden. Hierbei kann ein dynamisches System unter Verwendung eines Zustandsraummodells (SSM), wie beispielsweise eines Gaußprozess-Zustandsraummodells (GPSSM), gesteuert werden. Das SSM bzw. das GPSSM kann einen Zusammenhang zwischen Steuerparametern und einer Zielgröße des dynamischen Systems beschreiben. Hierbei kann es erforderlich sein, dass das Zustandsraummodell speziell für das dynamische System gelernt wird. Allerdings kann das Lernen des Zustandsraummodells einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand. Daher kann es erforderlich sein, den Zeitaufwand bzw. den rechentechnischen Aufwand des Lernens zu verringern.
Die Veröffentlichung „Variational Gaussian Process State-Space Models“ von R. Frigola et al., in Advances in neuronal information processing systems, 2014, (im Folgenden als Referenz [1] bezeichnet) beschreibt ein Lernen eines Gaußprozess-Zustandsraummodells.
Die Veröffentlichung „Overcoming Mean-Field Approximations in Recurrent Gaussian Process Models“ von A. Ialongo et al., in Proceedings of the 36th International Conference on Machine Learning, 2019, (im Folgenden als Referenz [2] bezeichnet) beschreibt ein Variationsinferenz-Verfahren zum Lernen eines Gaußprozess-Zustandsraummodells.
Die Veröffentlichung „Localized active learning of Gaussian process state space models“ von A. Capone et al., in Learning for Dynamics and Control, Proceedings of Machine Learning Research, 2020, beschreibt ein aktives Lernen eines Gaußprozess-Zustandsraummodells, wobei Steuertrajektorien unter der Annahme, dass latente Zustände messbar sind, optimiert werden.
Das Verfahren und die Robotervorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 8 (achtes Beispiel) ermöglichen, ein Gaußprozess-Zustandsraummodell zum Steuern einer Robotervorrichtung mit einem verringerten rechentechnischen Aufwand zu lernen.
Eine Robotervorrichtung kann jede Art von computergesteuerter Vorrichtung sein, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, z.B. ein Roboterarm, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System, aerodynamisches System (z.B. ein Flugzeug, z.B. eine Drohne, z.B. ein Hubschrauber), etc.
Die Transinformation kann eine Menge an Informationen quantifizieren, die über eine erste Variable (z.B. die Übergänge, z.B. die Übergangsnormalverteilung) erhalten werden, indem eine zweite Variable (z.B. die Ausgangsgrößen) gemessen wird. Anschaulich kann das Messen der Ausgangsgröße mit dem höchsten Wert der Transinformation auch mehr Informationen über die Übergänge bereitstellen. Daher ermöglicht das Verfahren gemäß dem ersten Beispiel, ein GPSSM mit einem verringerten Zeitaufwand zu Lernen.
Das Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters kann zu einem neuen Zustand der Robotervorrichtung führen. Das Verfahren kann iterativ für den jeweils neuen Zustand der Robotervorrichtung als derzeitigen Zustand der Robotervorrichtung durchgeführt werden, wobei der für den jeweiligen neuen Steuerparameter vorhergesagte Ausgangs-Zustand der derzeitige Eingangs-Zustand der Robotervorrichtung der nachfolgenden Iteration ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel.
Anschaulich kann das Gaußprozess-Zustandsraummodell dadurch iterativ gelernt werden, wobei der Steuerparameter in jeder Iteration aktiv ausgewählt werden kann. Mehrere Iterationen des Trainierens kann beispielsweise die Genauigkeit des Gaußprozess-Zustandsraummodells erhöhen.
Die Übergangsfunktion kann den Eingangs-Zustand der Robotervorrichtung und den Steuerparameter der Vielzahl von Steuerparametern gemäß der dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbilden. Die Übergangsfunktion kann den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens auf den vorhergesagten Ausgangs-Zustand abbilden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bilden ein drittes Beispiel.
Dadurch kann eine Unsicherheit der Robotervorrichtung, wie beispielsweise ein Prozess-Rauschen, berücksichtigt werden. Dies kann die Genauigkeit des gelernten Gaußprozess-Zustandsraummodells erhöhen.
Jeder gemessenen Ausgangsgröße der Robotervorrichtung kann eine jeweilige mittels der Übergangsfunktion ermittelte Übergangsnormalverteilung und eine jeweilige mittels der Ausgangsgrößenvorhersagefunktion ermittelte Ausgangsgrößen-Normalverteilung zugeordnet sein. Die Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung eines jeweiligen Steuerparameters kann eine Transinformation zwischen: einer gemeinsamen Wahrscheinlichkeitsverteilung der Ausgangsgrößen, welche die den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen und die für den jeweiligen Steuerparameter ermittelte Ausgangsgrößen-Normalverteilung aufweist; und einer gemeinsamen Wahrscheinlichkeitsverteilung der Übergangsnormalverteilungen, welche die den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen und die für den jeweiligen Steuerparameter ermittelte Übergangsnormalverteilung aufweist, sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel.
Dadurch kann zum Beispiel in dem Fall, dass schwache Abhängigkeiten zwischen den latenten Zuständen vorliegen, die aktive Auswahl des Steuerparameters dahingehend verbessert werden, dass ein Zeitaufwand des Trainierens signifikant verringert wird. Anschaulich kann diese Transinformation als gesamte Transinformation (I(y_1:t;f_1:t)) aller gemessenen Ausgangsgrößen bezeichnet werden.
Das Ermitteln des Wertes der Transinformation zwischen den den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung und den den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Übergangsnormalverteilung kann aufweisen: für jeden Abtastwert einer Vielzahl von Abtastwerten: für jede gemessene Ausgangsgröße der Robotervorrichtung, Ermitteln eines jeweiligen Schrankenwertes mittels einer Differenz aus einem Logarithmus einer allen gemessenen Ausgangsgrößen zugeordneten Wahrscheinlichkeitsdichtefunktion und einer für die jeweilige gemessene Ausgangsgröße ermittelten Evidenzuntergrenze und Summieren der für alle gemessenen Ausgangsgrößen ermittelten Schrankwerte; und Ermitteln eines Mittelwertes der summierten Schrankenwerte aller Abtastwerte der Vielzahl von Abtastwerten als Wert der Transinformation. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel bilden ein fünftes Beispiel.
Der derzeitige Eingangs-Zustand der Robotervorrichtung kann ein latenter Zustand sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem fünften Beispiel bilden ein sechstes Beispiel.
Anschaulich kann der latente Zustand der Robotervorrichtung nicht gemessen werden. Das Verfahren ermöglicht, das Gaußprozess-Zustandsraummodell zu trainieren, indem aktiv ein Steuerparameter ausgewählt wird, ohne dass der derzeitige Zustand der Robotervorrichtung gemessen werden kann.
Das Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung kann ein Trainieren des Gaußprozess-Zustandsraummodells mittels eines Variationsinferenz-Verfahrens unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem sechsten Beispiel bilden ein siebtes Beispiel.
Anschaulich kann das Gaußprozess-Zustandsraummodell mittels des Variationsinferenz-Verfahrens für einen Trainingsdatensatz gelernt werden. Der Trainingsdatensatz kann um die gemessene Ausgangsgröße erweitert werden und das Gaußprozess-Zustandsraummodell kann mittels des Variationsinferenz-Verfahrens für den erweiterten Trainingsdatensatz gelernt werden.
Eine Robotervorrichtung kann eingerichtet sein, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel auszuführen. Die Robotervorrichtung mit den in diesem Absatz beschriebenen Merkmalen bildet ein achtes Beispiel.
Ein Steuerungsmodell kann zum Steuern einer Robotervorrichtung eingerichtet sein. Ein Verfahren zum Trainieren des Steuerungsmodells kann aufweisen: für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung, Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel trainierten Gaußprozess-Zustandsraummodells; und Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein neuntes Beispiel.
Eine Robotervorrichtung kann eine Speichereinrichtung und eine Steuereinrichtung aufweisen. Die Speichereinrichtung kann eingerichtet sein, das gemäß dem neunten Beispiel trainierte Steuerungsmodell zu speichern. Die Steuereinrichtung kann eingerichtet sein, die Robotervorrichtung gemäß dem trainierten Steuerungsmodell zu steuern. Die Robotervorrichtung mit den in diesem Absatz beschriebenen Merkmalen bildet ein zehntes Beispiel.
Ein Computerprogrammprodukt kann Programminstruktionen speichern, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerprogrammprodukt mit den in diesem Absatz beschriebenen Merkmalen bildet ein elftes Beispiel.
Ein nichtflüchtiges Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführen. Das nichtflüchtige Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein zwölftes Beispiel.
Ein nichtvolatiles Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführen. Das nichtvolatile Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein dreizehntes Beispiel.
Ein Computerprogramm kann Instruktionen aufweisen, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerprogramm mit den in diesem Absatz beschriebenen Merkmalen bildet ein vierzehntes Beispiel.
Ein Computerlesbares Medium kann Instruktionen speichern, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerlesbare Medium mit den in diesem Absatz beschriebenen Merkmalen bildet ein fünfzehntes Beispiel.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.
Es zeigen

1 eine beispielhafte Robotervorrichtungsanordnung gemäß verschiedenen Ausführungsformen,
2 eine graphische Veranschaulichung eines Gaußprozess-Zustandsraummodells gemäß verschiedenen Ausführungsformen;
3A und 3B jeweils ein Ablaufdiagramm zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung gemäß verschiedenen Ausführungsformen;
4 ein Ablaufdiagramm eines Verfahrens zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung, gemäß verschiedenen Ausführungsformen.

Robotervorrichtungen können mittels Roboter-Steuerungsmodellen gesteuert werden, welche ein speziell für die jeweilige Robotervorrichtung trainiertes Gaußprozess-Zustandsraummodell (GPSSM) verwenden, das einen Zusammenhang zwischen Steuerparametern der Robotervorrichtung und Zielgrößen der Robotervorrichtung beschreibt. Allerdings kann das Lernen des GPSSM einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand. Verschiedene Ausführungsbeispiele betreffen eine Vorrichtung und ein Verfahren zum Trainieren eines GPSSM, bei denen während des Lernens aktiv Steuerparameter ausgewählt werden, so dass der Zeitaufwand bzw. der rechentechnische Aufwand des Lernens des GPSSM einer Robotervorrichtung verringert wird
1 zeigt eine Robotervorrichtungsanordnung 100. Die Robotervorrichtungsanordnung 100 kann eine Robotervorrichtung 101 aufweisen. Die in 1 gezeigte und im Folgenden beispielhaft beschriebene Robotervorrichtung 101 stellt zur Veranschaulichung eine beispielhafte Robotervorrichtung dar und kann zum Beispiel einen Industrieroboter in der Form eines Roboterarms zum Bewegen, Montieren oder Bearbeiten eines Werkstücks aufweisen. Es wird darauf hingewiesen, dass die Robotervorrichtung jede Art von computergesteuerter Vorrichtung sein kann, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
In einer Ausführungsform kann ein „Computer“ als jede Art von Logik-implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform ein „Computer“ eine hartverdrahtete Logikschaltung oder eine programmierbare Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Ein „Computer“ kann ein oder mehrere Prozessoren aufweisen. Ein „Computer“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als ein „Computer“ verstanden werden.
Die Robotervorrichtung 101 weist Roboterglieder 102, 103, 104 und einen Sockel (oder allgemein eine Halterung) 105 auf, durch die die Roboterglieder 102, 103, 104 getragen werden. Der Begriff „Roboterglied" bezieht sich auf die beweglichen Teile der Robotervorrichtung 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, z.B. um eine Aufgabe auszuführen, z.B. um ein oder mehrere Fertigkeiten auszuführen bzw. durchzuführen.
Zur Steuerung beinhaltet die Robotervorrichtungsanordnung 100 eine Steuervorrichtung 106, die eingerichtet ist, die Interaktion mit der Umgebung gemäß einem Steuerungsprogramm zu realisieren. Das letzte Element 104 (von dem Sockel 105 aus gesehen) der Roboterglieder 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge beinhalten.
Die anderen Roboterglieder 102, 103 (näher am Sockel 105) können eine Positionierungsvorrichtung bilden, so dass zusammen mit dem Endeffektor 104 ein Roboterarm 120 (oder Gelenkarm) mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 120 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm erfüllen kann (möglicherweise mit einem Werkzeug an seinem Ende).
Die Robotervorrichtung 101 kann Verbindungselemente 107, 108, 109 beinhalten, die die Roboterglieder 102, 103, 104 miteinander und mit dem Sockel 105 verbinden. Ein Verbindungselement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine Drehbewegung und/oder eine Translationsbewegung (d.h. eine Verschiebung) für zugehörige Roboterglieder relativ zueinander bereitstellen kann. Die Bewegung der Roboterglieder 102, 103, 104 kann mit Hilfe von Stellgliedern eingeleitet werden, die von der Steuervorrichtung 106 gesteuert werden.
Der Begriff „Stellglied“ kann als eine Komponente verstanden werden, die geeignet ist, als Reaktion darauf, dass sie angetrieben wird, einen Mechanismus zu beeinflussen. Das Stellglied kann von der Steuervorrichtung 106 ausgegebene Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen umsetzen. Das Stellglied, z.B. ein elektromechanischer Wandler, kann eingerichtet werden, elektrische Energie als Reaktion auf seine Ansteuerung in mechanische Energie umzuwandeln.
Der Begriff „Steuervorrichtung“ (auch als „Steuereinrichtung bezeichnet“) kann als jede Art von logischer Implementierungseinheit verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor beinhalten kann, der in der Lage ist, in einem Speichermedium gespeicherte Software, Firmware oder eine Kombination derselben auszuführen, und die Anweisungen, z.B. an ein Stellglied im vorliegenden Beispiel, erteilen kann. Die Steuervorrichtung kann beispielsweise durch Programmcode (z.B. Software) eingerichtet werden, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
In dem vorliegenden Beispiel beinhaltet die Steuervorrichtung 106 einen Computer 110 und einen Speicher 111, der Code und Daten speichert, auf deren Grundlage der Computer 110 die Robotervorrichtung 101 steuert. Gemäß verschiedener Ausführungsformen steuert die Steuervorrichtung 106 die Robotervorrichtung 101 auf der Grundlage eines im Speicher 111 gespeicherten Roboter-Steuerungsmodells 112.
Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 (z.B. der Roboterarm 120) eingerichtet sein, ein oder mehrere Objekte 114 aufzunehmen. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 (z.B. der Roboterarm 120) eingerichtet sein, ein aufgenommenes Objekt zu bewegen.
Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtungsanordnung 100 ein oder mehrere Sensoren aufweisen. Die ein oder mehreren Sensoren können eingerichtet sein, Sensordaten, die einen Zustand der Robotervorrichtung charakterisieren, bereitzustellen. Zum Beispiel können die ein oder mehreren Sensoren einen Bildgebungssensor, wie beispielsweise eine Kamera (z.B. eine Standardkamera, eine Digitalkamera, eine Infrarotkamera, eine Stereokamera, eine Tiefenkamera, etc.), einen Radar-Sensor, einen LIDAR-Sensor, einen Positionssensor, einen Geschwindigkeitssensor, einen Ultraschallsensor, einen Beschleunigungssensor, einen Drucksensor, etc. aufweisen.
Die Robotervorrichtung 101 kann in einem Zustand einer Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zu jedem Zeitpunkt in einem derzeitigen Zustand der Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen können mittels der von den ein oder mehreren Sensoren bereitgestellten Sensordaten Informationen bezüglich des jeweiligen Zustands der Robotervorrichtung 101 ermittelt werden.
Die Robotervorrichtung 101 kann eingerichtet sein, eine Vielzahl von Fertigkeiten auszuführen. Die Fertigkeiten der Vielzahl von Fertigkeiten können beispielsweise in dem Programmcode der Steuervorrichtung 106 vordefiniert sein. Ein oder mehrere Fertigkeiten der Vielzahl von Fertigkeiten können zum Beispiel eine mechanische Bewegung von ein oder mehreren Robotergliedern 102, 103, 104 aufweisen. Ein oder mehrere Fertigkeiten der Vielzahl von Fertigkeiten können zum Beispiel eine Aktion des Endeffektors (z.B. einem Greifen, z.B. einem Lösen, etc.) aufweisen. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zum Ausführen einer Fertigkeit unter Verwendung ein oder mehrerer Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 gesteuert werden. Gemäß verschiedenen Ausführungsformen kann ein in einem derzeitigen Zustand der Robotervorrichtung 101 durchgeführtes Steuern der Robotervorrichtung 101 unter Verwendung ein oder mehrerer Steuerparameter der Vielzahl von Steuerparametern zu einem resultierenden Zustand der Vielzahl von Zuständen der Robotervorrichtung 101 führen. Ein Steuerparameter kann zum Beispiel ein anzulegender Spannungswert sein.
Gemäß verschiedenen Ausführungsformen können die Zustände der Robotervorrichtung 101 latente Zustände sein. Anschaulich kann es nicht möglich sein, einen jeweiligen derzeitigen Zustand der Robotervorrichtung 101 zu ermitteln.
Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein trainiertes Gaußprozess-Zustandsraummodell (GPSSM) verwenden. Das trainierte GPSSM kann zum Beispiel einen Zusammenhang zwischen Steuerparametern einer Vielzahl von Steuerparametern der Robotervorrichtung 101 und ein oder mehrerer Zielgrößen der Robotervorrichtung 101 beschreiben. Gemäß verschiedenen Ausführungsformen kann das GPSSM spezifisch für die Robotervorrichtung 101 gelernt werden. Gemäß verschiedenen Ausführungsformen kann ein Teil des Roboter-Steuerungsmodells 112 erzeugt (z.B. gelernt, z.B. trainiert) werden, während die Robotervorrichtung 101 außer Betrieb ist. Gemäß verschiedenen Ausführungsformen kann das trainierte GPSSM während des Betriebs der Robotervorrichtung 101 verwendet werden, um Steuerparameter zum Steuern der Robotervorrichtung 101 bezüglich eines gewünschten Werts einer Zielgröße zu ermitteln. Gemäß verschiedenen Ausführungsformen kann das trainierte GPSSM während des Betriebs der Robotervorrichtung 101 zusätzlich trainiert werden. Gemäß verschiedenen Ausführungsformen kann ein Wert der Zielgröße gemessen werden. Zum Beispiel können die ein oder mehreren Sensoren eingerichtet sein, die Zielgröße zu messen. Zum Beispiel können die ein oder mehreren Sensoren eingerichtet sein, Daten zu erfassen und der Computer 110 kann eingerichtet sein, unter Verwendung der Daten die Zielgröße zu ermitteln.
Die Robotervorrichtung 101 kann zu jedem Zeitpunkt in einem derzeitigen Zustand, x_t, sein. Gemäß verschiedenen Ausführungsformen kann der derzeitige Zustand, x_t, ein nicht messbarer latenter Zustand sein. Gemäß verschiedenen Ausführungsformen kann die Zielgröße gemessen werden. Zur Veranschaulichung kann die Robotervorrichtungsanordnung 100 zum Beispiel ein Beschichtungssystem aufweisen oder sein, das sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel ein Schichtdicke sein kann, welche gemessen (z.B. optisch, z.B. mittels wiegen, z.B. mittels Teilchenströmen etc.) werden kann. Zum Beispiel kann die Robotervorrichtungsanordnung 100 ein Flugobjekt aufweisen oder sein, das sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel eine Flughöhe sein kann, welche gemessen werden kann. Zum Beispiel kann die Robotervorrichtungsanordnung 100 einen Roboterarm aufweisen, der sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel eine Position des Roboterarms sein kann, welche gemessen werden kann.
2 zeigt eine graphische Veranschaulichung eines GPSSM 200 einer Robotervorrichtung, wie beispielsweise der Robotervorrichtung 101, gemäß verschiedenen Ausführungsformen. Das GPSSM 200 kann zum Beispiel als das Roboter-Steuerungsmodell 112 und/oder als ein Teil des Steuerungsmodells 112 verwendet werden. Im Folgenden wird das GPSSM 200 beispielhaft mit Bezug auf die Robotervorrichtung 101 beschrieben.
Das GPSSM 200 kann für einen Zeitpunkt, t, einer diskreten Zeitsequenz von t=1 bis t=T (mit T ≥ 1) einen Zusammenhang zwischen einem Steuerparameter, c_t-1, des vorherigen Zeitpunkts, t-1, und einer zu dem jeweiligen Zeitpunkt, t, gemessenen Ausgangsgröße, y_t, beschreiben. Die Robotervorrichtung 101 kann zu jedem Zeitpunkt, t, in einem derzeitigen Zustand, x_t, sein. Gemäß verschiedenen Ausführungsformen kann der derzeitige Zustand, x_t, ein latenter Zustand sein. Zum Beispiel kann der latente Zustand, x_t, eine latente Variable sein. Anschaulich kann der latente Zustand, x_t, der Robotervorrichtung 101 nicht gemessen werden. Zum Beispiel kann das GPSSM 200 zu einem Zeitpunkt t=1 in latenten Zustand x₁ sein und ein Steuern der Robotervorrichtung 101 unter Verwendung eines Steuerparameters c₁ kann zu einem neuen Zustand x₂ der Robotervorrichtung 101 führen. Gemäß verschiedenen Ausführungsformen kann in dem neuen Zustand x₂ der Robotervorrichtung 101 eine Ausgangsgröße y₂ gemessen werden.
Die für die jeweiligen Zeitpunkte, t, der diskreten Zeitsequenz von t=1 bis t=T gemessenen Ausgangsgrößen, y, (in manchen Aspekten auch als Beobachtungen bezeichnet) können beschrieben werden durch $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
Jede Ausgangsgröße $y_{t} \in Y \subseteq ℝ^{d_{y}}$
kann aus einem zugeordneten latenten Zustand $x_{t} \in X \subseteq ℝ^{d_{x}}$
und einem dem vorherigen Zeitpunkt, t-1, zugeordneten Steuerparameter $c_{t - 1} \in C \subseteq ℝ^{d_{c}}$
resultieren.
Anschaulich kann das GPSSM 200 für die diskrete Zeitsequenz t=1-T die gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T},$
die latenten Zustände $x_{0 : T} \equiv {x_{t}}_{t = 0}^{T}$
und die Steuerparameter $c_{0 : T} \equiv {c_{t}}_{t = 0}^{T}$
aufweisen.
Gemäß verschiedenen Ausführungsformen können die latenten Zustände die Markow-Eigenschaft erfüllen. Das GPSSM 200 kann einen Zusammenhang zwischen ausgewählten Steuerparametern $c_{0 : T} \equiv {c_{t}}_{t = 0}^{T}$
einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 und jeweils zugeordneten gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
der Robotervorrichtung 101 beschreiben.
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 eine Übergangsfunktion, f, aufweisen. Die Übergangsfunktion, f, kann für einen Zeitpunkt, t, einen Eingangs-Zustand, x_t-1, der Robotervorrichtung 101 und einen Steuerparameter, c_t-1, der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 gemäß einer dem Steuerparameter, c_t-1, und dem Eingangs-Zustand, x_t-1, zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand, x_t, abbilden. Die Abbildung der Übergangsfunktion, f, kann beschrieben werden durch $ƒ : ℝ^{d_{x}} \times ℝ^{d_{c}} \to ℝ^{d_{x}} .$
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 als ein probabilistisches Zustandsraummodell mit einer Gaußprozess (GP) a-priori der Übergangsfunktion, f, definiert sein. Die Übergangsfunktion, f, kann mittels Gleichung (1) beschrieben werden: $ƒ \sim G P (m (\cdot), k (\cdot, \cdot))$
wobei m(·) eine Mittelwertfunktion und k· (·,·) eine positiv definite Kovarianzfunktion ist.
Gemäß verschiedenen Ausführungsformen kann der initiale Zustand, x0, mittels Gleichung (2) beschrieben werden: $x_{0} \sim p (x_{0})$
Der initiale Zustand $p (x_{0}) = N (x_{0} | μ_{0}, Σ_{0})$
kann als bekannt angenommen werden.
Die Übergangsfunktion f_t ≡ f (x_t-1, c_t-1) kann den Eingangs-Zustand x_t-1 und den Steuerparameter C_t-1 gemäß einer dem Eingangs-Zustand x_t-1 und dem Steuerparameter C_t-1 zugeordneten Übergangsnormalverteilung auf den vorhergesagten Ausgangs-Zustand, x_t, abbilden. Gemäß verschiedenen Ausführungsformen kann die Übergangsfunktion f_t ≡ f(x_t-_1, c_t-1) den Eingangs-Zustand x_t-1 und den Steuerparameter c_t-1 gemäß der dem Eingangs-Zustand x_t-1 und dem Steuerparameter c_t-1 zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbilden und kann den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens, Q, auf den vorhergesagten Ausgangs-Zustand, x_t, abbilden. Das Zustands-Rauschen Q kann zum Beispiel ein Prozess-Rauschen sein. Der vorhergesagte Ausgangs-Zustand, x_t, kann mittels Gleichung (3) beschrieben werden: $x_{t} | ƒ (x_{t - 1}, c_{t - 1}) \sim N (x_{t} | ƒ (x_{t - 1}, c_{t - 1}), Q)$
wobei aus f_t ≡ f(x_t-1,c_t-1) folgt, dass $x_{t} | ƒ_{t} \sim N (x_{t} | ƒ_{t}, Q) .$
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 eine Ausgangsgrößenvorhersagefunktion, o, aufweisen. Die Ausgangsgrößenvorhersagefunktion, o_t, kann den vorhergesagte Ausgangs-Zustand, x_t, gemäß einer dem Ausgangs-Zustand, x_t, zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße, y_t, der Robotervorrichtung 101 abbilden. Gemäß verschiedenen Ausführungsformen kann die Ausgangsgrößenvorhersagefunktion, o_t, des für die diskrete Zeitsequenz t=1-T gelernten GPSSM 200 einen jeweiligen Ausgangs-Zustand $x_{0 : T} \equiv {x_{t}}_{t = 0}^{T}$
auf die jeweils gemessene Ausgangsgröße $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
abbilden. Anschaulich kann sowohl die Übergangsfunktion, f, als auch die Ausgangsgrößenvorhersagefunktion, o, eine jeweilige Normalverteilung (in manchen Aspekten auch als Gaußverteilung bezeichnet) aufweisen.
Die Ausgangsgrößenvorhersagefunktion, o_t, kann mittels Gleichung (4) beschrieben werden: $y_{t} | x_{t} \sim N (y_{t} | C x_{t} + d, R)$
wobei R ein Beobachtungs-Rauschen (z.B. ein Mess-Rauschen) ist und wobei C und d Parameter einer linearen Abbildung sind.
Zur Vereinfachung kann ${\tilde{x}}_{*} = (x_{*}, c_{*})$
verwendet werden, wobei * einen jeweiligen Index bzw. eine Reihe von Indizes angeben kann.
Gemäß verschiedenen Ausführungsformen kann die Matrix der Kovarianzfunktionen beschrieben werden durch $K_{i : j} : = {(k ({\tilde{x}}_{s}, {\tilde{x}}_{t}))}_{s, t = i}^{j} .$
In verschiedenen Aspekten kann $k ({\tilde{x}}_{i : j}, {\tilde{x}}_{k}) \equiv (k ({\tilde{x}}_{i}, {\tilde{x}}_{k}), \dots, k ({\tilde{x}}_{j}, {\tilde{x}}_{k}))$
sein und $k {({\tilde{x}}_{i : j}, {\tilde{x}}_{k})}^{T} = k ({\tilde{x}}_{k}, {\tilde{x}}_{i : j})$
kann gelten.
Anschaulich kann die Übergangsfunktion, f, des für die diskrete Zeitsequenz t=1-T gelernten GPSSM 200 beschrieben werden durch $ƒ_{1 : T} \equiv {ƒ_{t}}_{t = 1}^{T} .$
Die gemeinsame Wahrscheinlichkeitsdichtefunktion (gemeinsame PDF) p(y_1:T,x_0:T,f_1:T) kann mittels Gleichung (5) beschrieben werden: $\begin{array}{l} p (y_{1 : T}, x_{0 : T}, ƒ_{1 : T}) \\ = p (x_{0}) \prod_{t = 1}^{T} p (y_{t} | x_{t}) p (x_{t} | ƒ_{t}) p (ƒ_{t} | x_{0 : t - 1}, ƒ_{1 : t - 1}) \end{array}$
Mehr Details hierzu werden in Referenz [1] beschrieben.
Der Term p(f_tlx_0:t-1, f_1:t-1) aus Gleichung (5) kann unter Verwendung von Gleichung (1) gemäß Gleichung (6) beschrieben werden: $p (ƒ_{t} | x_{0 : t - 1}, ƒ_{1 : t - 1}) = N (ƒ_{t} | M_{t - 1}, K_{t - 1})$
wobei $\begin{array}{l} M_{t - 1} = m ({\tilde{x}}_{t - 1}) + \\ k ({\tilde{x}}_{t - 1}, {\tilde{x}}_{0 : t - 2}) K_{0 : t - 2}^{- 1} {(ƒ_{1 : t - 1} - m ({\tilde{x}}_{0 : t - 2}))}^{T}, \end{array}$
$\begin{array}{l} K_{t - 1} = k ({\tilde{x}}_{t - 1}, {\tilde{x}}_{t - 1}) - \\ k ({\tilde{x}}_{t - 1}, {\tilde{x}}_{0 : t - 2}) K_{0 : t - 2}^{- 1} k ({\tilde{x}}_{0 : t - 2}, {\tilde{x}}_{t - 1}), \end{array}$
und wobei der Term f_1:-1 c_t-1 -m(x_0:t-2) beschrieben werden kann als f_1:t-1 - m(x̃_0:t-2) ≡ f₁ -m(x̃₀), ... , f_t-1 -m(x̃_t-2)).
Jeder gemessenen Ausgangsgröße $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
kann ein vorhergesagter Ausgangs-Zustand $x_{0 : T} \equiv {x_{t}}_{t = 0}^{T}$
zugeordnet sein. Der jeweilige vorhergesagte Ausgangs-Zustand, x_t, kann unter Verwendung der Übergangsfunktion, f_t, ermittelt werden.
Das GPSSM 200 kann unter Verwendung der gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T},$
den vorhergesagten Ausgangs-Zustände $x_{0 : T} \equiv {x_{t}}_{t = 0}^{T}$
und den Übergangsnormalverteilungen $ƒ_{1 : T} \equiv {ƒ_{t}}_{t = 1}^{T}$
ermittelt werden.
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung eines Variationsinferenz-Verfahrens trainiert werden. Bei dem Variationsinferenz-Verfahren kann eine Evidenzuntergrenze (engl.: evidence lower bound, ELBO) ermittelt werden. Das Variationsinferenz-Verfahren ist beispielsweise rechentechnisch effizient. Ferner können mittels des Variationsinferenz-Verfahrens Vorhersagen ermittelt werden, welche bei einem aktiven Lernen eines GPSSM, wie beispielsweise des GPSSM 200, verwendet werden können.
Im Folgenden wird ein Lernen des GPSSM 200 beispielhaft für ein Variationsinferenz-Verfahren beschrieben. Es wird darauf hingewiesen, dass das GPSSM 200 auch mittels anderen Verfahren zum Lernen von Gaußprozess-Zustandsraummodellen gelernt werden kann.
Die Ausgangsgrößenvorhersagefunktion, o_t, kann den vorhergesagte Ausgangs-Zustand, x_t, gemäß einer dem Ausgangs-Zustand, x_t, zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße, y_t, der Robotervorrichtung 101 abbilden. Die Ausgangsgrößenvorhersagefunktion, o_t, des GPSSM 200 kann derart gelernt werden, dass diese den vorhergesagte Ausgangs-Zustand, x_t, gemäß der dem Ausgangs-Zustand, x_t, zugeordneten Ausgangsgrößen-Normalverteilung p(y_t) auf die jeweils gemessene Ausgangsgröße, y_t, abbildet. Anschaulich kann zum Beispiel eine Differenz zwischen der gemessenen Ausgangsgröße, y_t, und einem Mittelwert der Ausgangsgrößen-Normalverteilung p(y_t) reduziert (z.B. minimiert) werden.
Gemäß verschiedenen Ausführungsformen kann p(x_0:t,f_1:t|y_1:t) =p(x_0:t, f_1:t, y_1:t)/p(y_1:t) ermittelt werden.
Der gemeinsamen Wahrscheinlichkeitsdichtefunktion p(y_1:T, x_0:T, f_1:T) gemäß Gleichung (5) können zusätzliche Punkte, u, hinzugefügt werden. Dies kann mittels der gemeinsamen Wahrscheinlichkeitsdichtefunktion gemäß Gleichung (7) beschrieben werden: $\begin{array}{l} p (y_{1 : T}, x_{0 : T}, ƒ_{1 : T}, u) = p (x_{0}) p (u) \prod_{t = 1}^{T} p (y_{t} | x_{t}) p (x_{t} | ƒ_{t}) \\ p (ƒ_{t} | x_{0 : t - 1}, ƒ_{1 : t - 1}, u) . \end{array}$
Die zusätzlichen Punkte, u, können beschrieben werden durch $u_{1 : M} = {u_{i}}_{i = 1}^{M},$
wobei M < < T sein kann.
Die Ausgangsgrößen-Normalverteilung p(y_1:t) kann auf einer Kullback-Leibler-(KL)-Divergenz beruhen. Die logarithmische marginale Likelihood der Ausgangsgrößen-Normalverteilung p(y_1:t) kann beschrieben werden mittels Gleichung (8): $log (p (y_{1 : t})) = L_{t} + KL [q (x_{0 : t}, ƒ_{1 : t}) ‖ p (x_{0 : t}, ƒ_{1 : t} | y_{1 : t})] for t = 1, \dots, T$
wobei $L_{t}$
die Evidenzuntergrenze (ELBO) der logarithmischen marginalen Likelihood der Ausgangsgrößen-Normalverteilung p(y_1:t) ist.
Gemäß verschiedenen Ausführungsformen kann die ELBO $L_{t}$
beschrieben werden durch: $\begin{array}{l} L_{t} = \int q (x_{0 : t}, ƒ_{1 : t}, u) \\ log (\frac{p (y_{1 : t}, x_{0 : t}, ƒ_{1 : t}, u)}{q (x_{0 : t}, ƒ_{1 : t}, u)}) d x_{0 : t} d ƒ_{1 : t} d u \end{array}$
q(x_0:t, f_1:t, u) kann mittels Gleichung (10) beschrieben werden: $\begin{array}{l} q (x_{0 : t}, ƒ_{1 : t}, u) \\ = q (u) q (x_{0}) \prod_{i = 1}^{t} q (x_{i} | ƒ_{i}) p (ƒ_{i} | ƒ_{1 : i - 1}, x_{0 : i - 1}, u) \end{array}$
Einsetzen von q(x_0:t, f_1:t, u) gemäß Gleichung (10) in Gleichung (9) führt zu Gleichung (11): $\begin{array}{l} L_{T} = \int \sum_{t = 1}^{T} q (x_{0 : T}) log (p (y_{t} | x_{t})) d x_{0 : T} \\ - \sum_{t = 1}^{T} \int q (ƒ_{t}) KL [q (x_{t}, ƒ_{t}) ‖ p (x_{t}, ƒ_{t})] d ƒ_{t} \\ - KL [q (x_{0}) ‖ p (x_{0})] - KL [q (u) ‖ p (u)] \end{array}$
Die freie Gaußdichte der zusätzlichen Werte, u, kann beschrieben werden als $q (u) = N (u | μ_{u}, Σ_{u}) .$
Gemäß verschiedenen Ausführungsformen kann q(x_i|f_i) beschrieben werden als $q (x_{i} | ƒ_{i}) = N (x_{i} | A_{i - 1} {\tilde{ƒ}}_{i - 1} + b_{i - 1}, S_{i - 1})$
wobei A_i , b_i und S_i freie Variationsparameter sind.
Mehr Details zum Lernen des GPSSM werden in Referenz [2] beschrieben.
Gemäß verschiedenen Ausführungsformen kann f̃_i=x_i gesetzt werden. Dadurch kann beispielsweise ein stabiler Fortschritt der Genauigkeit des GPSSM während des Trainierens gewährleistet werden. Ferner kann dies eine verringerte Anzahl an Iterationen erfordern, wodurch ein Zeitaufwand des Trainings verringert wird. Unter Verwendung von f̃_i=x_i können die freien Variationsparameter in Gleichung (12) beschrieben werden als: $S_{i - 1} = {(Q^{- 1} + C^{T} R^{- 1} C)}^{- 1},$
$A_{i - 1} = S_{i - 1} Q^{- 1}$
und $b_{i - 1} = S_{i - 1} C^{T} R^{- 1} (y_{t} - d) .$
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 für die derzeitigen Trainingsdaten $D \equiv {y_{1 : T}, x_{0 : T}, ƒ}$
gelernt werden. Die Ausgangsgrößenvorhersagefunktion, o_t, des gelernten GPSSM 200 kann unter Verwendung eines jeweiligen Steuerparameters $c \in C \subseteq ℝ^{d_{c}}$
und der derzeitigen Trainingsdaten $D \equiv {y_{1 : T}, x_{0 : T}, ƒ}$
eine Ausgangsgrößen-Normalverteilung p(y) ermitteln. Gemäß verschiedenen Ausführungsformen kann eine Ausgangsgrößen-Normalverteilung einer für einen Steuerparameter c* vorhergesagten Ausgangsgröße y* mittels der prädiktiven Verteilung $p (y * | c *, D)$
gemäß Gleichung (13) beschrieben werden: $p (y * | c *, D) = N (y * | C f (x_{T}, c *) + d, R + C Q C^{T})$
Gemäß verschiedenen Ausführungsformen kann f(x_T,c*) unter Verwendung der während des Trainierens des GPSSM 200 bereits vorhergesagten Ausgangs-Zuständen x_1:T ermittelt werden. Mehr Details hierzu sind in Referenz [2] beschrieben.
3A zeigt ein Ablaufdiagramm 300 zum Trainieren des GPSSM 200 einer Robotervorrichtung, wie beispielsweise der Robotervorrichtung 101, gemäß verschiedenen Ausführungsformen. Im Folgenden wird das Trainieren des GPSSM 200 beispielhaft mit Bezug auf die Robotervorrichtung 101 beschrieben.
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 mittels aktivem Lernen trainiert werden. Bei einem aktiven Lernen kann ein Steuerparameter aktiv ausgewählt werden und die dem ausgewählten Steuerparameter zugeordnete Ausgangsgröße kann gemessen werden. Anschaulich kann derart die Menge der derzeitigen Trainingsdaten $D \equiv {y_{1 : T}, x_{0 : T}, ƒ}$
vergrößert werden und das GPSSM 200 kann, wie mit Bezug auf 2 beschrieben, für die vergrößerte Menge an derzeitigen Trainingsdaten gelernt werden.
Das Trainieren eines GPSSM kann einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand benötigen. Daher kann es wünschenswert sein, einen neuen Steuerparameter derart auszuwählen, dass der Zeitaufwand bzw. der rechentechnische Aufwand des Trainierens verringert wird. Anschaulich soll das GPSSM möglichst schnell gelernt werden. Gemäß verschiedenen Ausführungsformen wird hierfür eine Transinformation als Kriterium verwendet, wie im Folgenden in verschiedenen Ausführungsbeispielen beschrieben.
Die Robotervorrichtung 101 kann eingerichtet sein, mittels eines Steuerparameters, c_t, der Vielzahl von Steuerparametern $c \in C \subseteq ℝ^{d_{c}}$
302 gesteuert zu werden.
Die Robotervorrichtung 101 kann in einem derzeitigen Eingangs-Zustand 304, x_t, sein. Der derzeitige Eingangs-Zustand 304, x_t, kann mittels der Übergangsfunktion, f, vorhergesagt werden bzw. während des bisherigen Trainierens vorhergesagt worden sein.
Gemäß verschiedenen Ausführungsformen kann für jeden Steuerparameter, c_t, der Vielzahl von Steuerparametern $c \in C \subseteq ℝ^{d_{c}}$
302 eine jeweilige Übergangsnormalverteilung f_t+1 und eine jeweilige Ausgangsgrößen-Normalverteilung ŷ_t+1 der vorhergesagten Ausgangsgröße ermittelt 306 werden. Für jeden Steuerparameter, c_t, der Vielzahl von Steuerparametern $c \in C \subseteq ℝ^{d_{c}}$
302 können der dem jeweiligen Steuerparameter, c_t, und dem derzeitigen Eingangszustand 304 zugeordnete Übergangsnormalverteilung f_t+1 und die dem jeweiligen vorhergesagten Ausgangs-Zustand, x_t+1, zugeordnete Ausgangsgrößen-Normalverteilung ŷ_t+1 der vorhergesagten Ausgangsgröße ermittelt 306 werden. Anschaulich kann die Übergangsnormalverteilung f_t+1 eine derzeitige Übergangsnormalverteilung sein und die Ausgangsgrößen-Normalverteilung ŷ_t+1 kann eine derzeitige Ausgangsgrößen-Normalverteilung sein. Die Ausgangsgrößen-Normalverteilung ŷ_t+1 kann für einen jeweiligen Steuerparameter, c_t, mittels Gleichung (13), $p (y * | c *, D) = N (y * | C ƒ (x_{T}, c *) + d, R + C Q C^{T}),$
ermittelt werden. Anschaulich ist hierbei der jeweilige Steuerparameter, c_t, die einzige unabhängige Variable.
Gemäß verschiedenen Ausführungsformen kann für jeden Steuerparameter, c_t, der Vielzahl von Steuerparametern $c \in C \subseteq ℝ^{d_{c}}$
302 ein jeweiliger Wert einer Transinformation 308 ermittelt werden. In verschiedenen Ausführungsbeispielen kann die Transinformation (engl.: mutual information) 308, I, entweder (1) zwischen dem für den jeweiligen Steuerparameter, c_t, ermittelten Übergang f_t+1 und den ermittelten Ausgangsgrößen ŷ_t+1 gemäß Iŷ_t+1 c_t-1 f_t+1) (im Folgenden als derzeitige Transinformation bezeichnet) ermittelt werden oder (2) zwischen (a) einer gemeinsamen Wahrscheinlichkeitsverteilung aller gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgröße ŷ_t+1 und (b) einer gemeinsamen Wahrscheinlichkeitsverteilung der den gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
zugeordneten Übergängen $ƒ_{1 : T} \equiv {ƒ_{t}}_{t = 1}^{T}$
sowie dem für den jeweiligen Steuerparameter ermittelten derzeitigen Übergang ft+1 gemäß $I (y_{1 : t}, {\hat{y}}_{t + 1}; ƒ_{1 : t + 1})$
(im Folgenden als gesamte Transinformation bezeichnet) ermittelt werden. Im Allgemeinen beschreibt eine Transinformation, wie unterschiedlich die gemeinsame Wahrscheinlichkeitsverteilung des Variablenpaares in Bezug auf das Produkt der marginalen Verteilungen der Variablen ist. Da sich die Transinformation auf Wahrscheinlichkeitsverteilungen der beiden Variablen bezieht, wird die Transinformation 308, I, im Folgenden auch als Transinformation entweder (1) zwischen der für den jeweiligen Steuerparameter, c_t, ermittelten Übergangsnormalverteilung ft+ 1 und ermittelten Ausgangsgrößen-Normalverteilung ŷ_t+1 gemäß $I ({\hat{y}}_{t + 1}; ƒ_{t + 1})$
(im Folgenden als derzeitige Transinformation bezeichnet) ermittelt werden oder (2) zwischen (a) einer gemeinsamen Wahrscheinlichkeitsverteilung der zugeordneten Ausgangsgrößen-Normalverteilungen aller gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgrößen-Normalverteilung ŷ_t+1 und (b) einer gemeinsamen Wahrscheinlichkeitsverteilung der den gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
zugeordneten Übergangsnormalverteilungen $ƒ_{1 : T} \equiv {ƒ_{t}}_{t = 1}^{T}$
sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Übergangsnormalverteilung f_t+1 gemäß $I (y_{1 : t}, {\hat{y}}_{t + 1}; ƒ_{1 : t + 1})$
(im Folgenden als gesamte Transinformation bezeichnet) ermittelt werden.
(1) derzeitige Transinformation $I ({\hat{y}}_{t + 1}; ƒ_{t + 1})$
Gemäß verschiedenen Ausführungsformen kann die Übergangsnormalverteilung ft+1 eines jeweiligen Steuerparameters, c_t, f_t+1 ≡ f (x_t, c_t) sein.
Beispielhaft für zwei zufällige Variablen x, y, kann p(y|x) beschrieben werden als $p (y | x) = N (y | μ (x), σ^{2} (x)) .$
Für einen Mittelwert u und eine Varianz Σ_x kann p(x|u, Σ_x) beschrieben werden als $p (x | u, \sum_{x}) = N (x | u, \sum_{x}) .$
Hierbei kann das approximierte Gaußintegral gemäß Gleichung (14) beschrieben werden: $\int p (y | x) p (x | u, \sum_{x}) d x \approx N (M (u, \sum_{x}), V (u, \sum_{x}))$
wobei M (u,Σ_x) und V(u,Σ_x) die zu ermittelten Integralfunktionen sind mit $M (u, \sum_{x}) = \int μ (x) p (x | u, \sum_{x}) d x,$
und $V (u, \sum_{x}) = \int σ^{2} (x) p (x | u, \sum_{x}) d x + \int μ^{2} (x) p (x | u, \sum_{x}) d x - M {(u, \sum_{x})}^{2} .$
Sofern µ(x) linear ist (z.B. µ(x) = Fx + a) und σ² (x) als Matrix A repräsentiert wird, kann das Gaußintegral mittels Gleichung (15) beschrieben werden: $\int N (y | F x + a, A) N (x | u, \sum_{x}) d x = N (y | a + F u, A + F \sum_{x} F^{T})$
Für einen Gaußprozess (GP) können M (.,. ) und V(.,.) mittels des Erwartungswertes der Kernelfunktion k beschrieben werden: $M (∵) = \sum_{i = 1}^{t} β_{i} E_{x} [k (x, x_{i})]$
$V (∵) = E_{x} [k (x, x)] - \sum_{i, j = 1}^{t} (K_{i j}^{- 1} - β_{i} β_{j}) E_{x} [k (x, x_{i}) k (x, x_{j})] - M {(u, \sum_{x})}^{2}$
wobei β = K^-1y , $β = {β_{i}}_{i = 1}^{t}$
und K die Kovarianzmatrix des Gaußprozesses ist.
Mit Bezug auf die Gleichungen (15) und (16) sind die folgenden Terme zu ermitteln: $l : = E_{x} [k (x, x)],$
$l_{i} : = E_{x} [k (x, x_{i})],$
$l_{i j} : = E_{x} [k (x, x_{i}) k (x, x_{j})] .$
Hat die Kernelfunktion eine quadratisch exponentielle Form, wie beispielsweise $k (x_{i}, x_{j}) = σ^{2} exp [- \frac{1}{2} {(x_{i} - x_{j})}^{T} Λ^{- 1} (x_{i} - x_{j}),],$
so kann k(x_i,x_j) beschrieben werden als $k (x_{i}, x_{j}) = c N (x_{i} | x_{j}, Λ)$
mit $c = {(2 π)}^{d_{x} / 2} {| Λ |}^{1 / 2} σ^{2} .$
In diesem Fall kann gelten: $l = l = σ^{2},$
$l_{i} = c N (u | x_{i}, Λ + \sum_{x}),$
$l_{i j} : = c N (x_{i} | x_{i},2 Λ) N (u | \frac{1}{2} (x_{i} + x_{j}), \frac{1}{2} Λ + \sum_{x})$
Zur Vereinfachung wird die derzeitige Transinformation I(ŷ_t+1; f_t+1) im Folgenden mittels I(y_t: f_t) beschrieben. Die derzeitige Transinformation I(y_t: f_t) kann beschrieben werden mittels I(y_t: f_t) = h(y_t) - h(y_t|f_t), wobei h(·) die differentielle Entropie ist. Die Ausgangsgrößen-Normalverteilung p(y_t) kann gemäß Gleichung (17) beschrieben werden: $\begin{matrix} p (y_{t}) = \int p (y_{t}, x_{0 : t}, ƒ_{1 : t}) d x_{0 : t} d ƒ_{1 : t} \\ = \int p (y_{t}, x_{0 : t}, ƒ_{1 : t}) p (x_{t} | x_{0 : t - 1} . ƒ_{1 : t}) p (ƒ_{t} | x_{0 : t - 1} . ƒ_{1 : t - 1}) p (x_{0 : t - 1}, ƒ_{1 : t - 1}) d x_{0 : t} d ƒ_{1 : t} \\ = \int p (y_{t}, x_{t}) p (x_{t} {| ƒ}_{t}) p (ƒ_{t} | x_{0 : t - 1} . ƒ_{1 : t - 1}) p (x_{0 : t - 1}, ƒ_{1 : t - 1}) d x_{0 : t} d ƒ_{1 : t} \\ = \int p (y_{t} | x_{t}) \prod_{i = 1}^{t} p (x_{i} | f_{i}) p (f_{i} | x_{0 : i - 1} . ƒ_{1 : i - 1}) p (x_{0}) d x_{0 : t} d ƒ_{1 : t} \\ = \int N (y_{t} | C x_{t} + d . R) \prod_{i = 1}^{t} N (x_{i} | f_{i} . Q) N (ƒ_{i} | M_{i - 1}, K_{i - 1}) N (x_{0} | μ_{0} . \sum_{0}) d x_{0 : t} d ƒ_{1 : t} \end{matrix}$
wobei f_1:0≡ Ø ist.
Anschließend kann Gleichung (17) integriert werden in der Reihenfolge:
x₀ → f₁ → x₁ . . . → f_t→ x_t beginnend mit $N (ƒ_{1} | M_{0}, K_{0}) N (x_{0} | μ_{0}, \sum_{0}) d x_{0} .$
Unter Verwendung von Gleichung (14) kann $N (ƒ_{1} | M_{0}, K_{0}) N (x_{0} | μ_{0}, \sum_{0}) d x_{0}$
mittels Gleichung (18) approximiert werden: $\int N (f_{1} | M_{0}, K_{0}) N (x_{0} | μ_{0}, \sum_{0}) d x_{0} \approx N (ƒ_{1} M (μ_{0}, \sum_{0}), V (μ_{0}, \sum_{0})) = : N (f_{1} | M_{1}, V_{1})$
Anschließend kann $\int N (x_{1} | ƒ_{1}, Q) N (ƒ_{1} | M_{1}, V_{1}) d ƒ_{1} = N (x_{1} | M_{1}, Q + V_{1})$
integriert werden. Die Integration der Gleichung (17) kann fortgesetzt werden, bis M_t und V_t definiert sind: $\begin{matrix} \int N (ƒ_{2} | M_{1}, K_{1}) N (x_{1} | M_{1}, Q + V_{1}) d x_{1} \approx N (ƒ_{2} | M (M_{1}, Q + V_{1}), V (M_{1}, Q + V_{1})) \\ = : N (ƒ_{2} | M_{2}, V_{2}), \\ \int N (x_{2} | ƒ_{2}, Q) N (ƒ_{2} | M_{2}, V_{2}) d ƒ_{2} = N (x_{2} | M_{2}, Q + V_{2}), \\ ⋮ \\ \int N (ƒ_{t} | M_{t - 1}, K_{t - 1}) N (x_{t - 1} | M_{t - 1}, Q + V_{t - 1}) d x_{t - 1} \approx N (ƒ_{t} | M (M_{t - 1}, Q + V_{t - 1}), V (M_{t - 1}, Q + V_{t - 1})) \\ = N (ƒ_{t} | M_{t}, V_{t}) \\ \int N (x_{t} | ƒ_{t}, Q) N (ƒ_{t} | M_{t}, V_{t}) d ƒ_{t} = N (x_{t} | M_{t}, Q + V_{t}) . \end{matrix}$
Die abschließende Integration bezüglich x_t kann gegeben sein durch: $\int N (y_{t} | C x_{t} + d, R) N (x_{t} | M_{t}, Q + V_{t}) d x_{t} = N (y_{t} | C M_{t} + d, R + C (Q + V_{t}) C^{T}) .$
Hierbei kann $p (y_{t}) \approx N (y_{t} | C M_{t} + d, R + C (Q + V_{t}) C^{T})$
sein, so dass die differentielle Entropie h(y_t) in der Gleichung I(y_t : f_t) = h(y_t) - h(y_t |f_t) mittels Gleichung (19) ermittelt werden kann: $h (y_{t}) \approx \frac{1}{2} logdet (2 π e (R + C (Q + V_{t}) C^{T}))$
Der Term p(y_t|f_t) kann ermittelt werden gemäß: $\begin{matrix} p (y_{t} | f_{t}) = \int p (y_{t}, x_{t} | ƒ_{t}) d x_{t} \\ = \int p (y_{t} | x_{t}, ƒ_{t}) p (x_{t} | ƒ_{t}) d x_{t} \\ = \int p (y_{t} | x_{t}) p (x_{t} | ƒ_{t}) d x_{t} \\ = \int N (y_{t} | C x_{t} + d, R) N (x_{t} | ƒ_{t}, Q) d x_{t} \\ = N (y_{t} | C ƒ_{t} + d, R + C Q C^{T}) . \end{matrix}$
Die differentielle Entropie h(y_t|f_t) in der Gleichung I(y_t:f_t) = h(y_t) - h(yt|ft) kann mittels Gleichung (20) ermittelt werden: $h (y_{t} | ƒ_{t}) = \frac{1}{2} logdet (2 π e (R + C Q C^{T}))$
Ein Einsetzen der Gleichungen (19) und (20) in die derzeitige Transinformation I(y_t: f_t) = h(y_t) - h(y_t|f_t) führt zu Gleichung (21): $\begin{matrix} I (y_{t} : ƒ_{t}) \approx \frac{1}{2} logdet (2 π e (R + C (Q + V_{t}) C^{T})) - \frac{1}{2} logdet (2 π e (R + C Q C^{T})) \\ = \frac{1}{2} log (\frac{det (R + C (Q + V_{t}) C^{T})}{det (R + C Q C^{T})}) . \end{matrix}$
Anschaulich kann die derzeitige Transinformation I(y_t:f_t) unter Verwendung der Nomenklatur der Gleichungen (1) bis (4) und (6) gemäß Gleichung (21) ermittelt (z.B. approximiert, z.B. abgeschätzt) werden.
(2) gesamte Transinformation $I (y_{1 : t}, {\hat{y}}_{t + 1}; ƒ_{1 : t + 1})$
Anschaulich kann y_1:t, ŷ_t+1 die gemeinsame Wahrscheinlichkeitsverteilung der gemessenen Ausgangsgrößen $y_{1 : T} \equiv {y_{t}}_{t = 1}^{T}$
und der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgrößen-Normalverteilung ŷ_t+1 sein.
Anschaulich kann f_1:t+1 die gemeinsamen Wahrscheinlichkeitsverteilung der bekannten Übergangsnormalverteilungen $ƒ_{1 : T} \equiv {ƒ_{t}}_{t = 1}^{T}$
und der für den jeweiligen Steuerparameter ermittelten derzeitigen Übergangsnormalverteilung f_t+1 sein.
Zur Vereinfachung wird die gesamte Transinformation I(y_1:t ,ŷ_t+1; f_1:t+1) im Folgenden mittels I(y_1:t; f_1:t) beschrieben.
Gemäß verschiedenen Ausführungsformen kann die gesamte Transinformation
I(y_1:t; f_1:t) unter Verwendung der in Gleichung (11) gegebenen Evidenzuntergrenze $L_{t}$
ermittelt werden. Gemäß verschiedenen Ausführungsformen kann eine Anzahl von S Stichproben entnommen werden mit s = 1,···,S.
Die gesamte Transinformation I(y_1:t;f_1:t) kann beschrieben werden als
I(y_1:t; f_1:t) = h(y1:t) - h(y_1:t| f_1:t). Die differentielle Entropie h(·) kann für die S Stichproben mittels Gleichung (22) beschrieben werden: $h (\cdot) = \frac{1}{S} \sum_{i = 1}^{S} log (\frac{1}{{\hat{p}}_{s} (\cdot)})$
wobei p̂_s (·) die Wahrscheinlichkeitsdichtefunktion (PDF) ist.
Für eine erste Wahrscheinlichkeitsdichtefunktion p̂_s (y_1:t) und eine zweite Wahrscheinlichkeitsdichtefunktion p̂_s (y_1:t| f_1:t) kann die gesamte Transinformation I(y_1:t; f_1:t) mittels Gleichung (23) beschrieben werden: $\begin{matrix} I (y_{1 : t} : ƒ_{1 : t}) \approx \frac{1}{S} \sum_{s = 1}^{S} log (\frac{1}{{\hat{p}}_{s} (y_{1 : t})}) - \frac{1}{S} \sum_{s = 1}^{S} log (\frac{1}{{\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t})}) \\ = \frac{1}{S} \sum_{s = 1}^{S} (log ({\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t})) - log ({\hat{p}}_{s} (y_{1 : t}))) \end{matrix}$
Aus Gleichung (23) ergibt sich, dass die Transinformation i_s der s-ten Stichprobe mittels Gleichung (24) beschrieben werden kann. $i_{s} : = log ({\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t})) - L_{t, s}$
Hieraus ergibt sich unter Verwendung der Evidenzuntergrenze $L_{t}$
der s-ten Stichprobe $(L_{t, s})$
und unter Verwendung von log $(p (y_{1 : t})) \geq L_{t}$
eine Grenze (in manchen Aspekten auch als Schrankenwert bezeichnet) der Transinformation i_s gemäß Gleichung (25): $i_{s} \leq log ({\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t})) - L_{t, s}$
Die zweite Wahrscheinlichkeitsdichtefunktion ${\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t})$
kann mittels Gleichung (26) ermittelt werden: $\begin{matrix} {\hat{p}}_{s} (y_{1 : t} | ƒ_{1 : t}) = \int {\hat{p}}_{s} (y_{1 : t}, x_{0 : t} | ƒ_{1 : t}) d x_{0 : t} \\ = \int {\hat{p}}_{s} (y_{t} y_{1 : t - 1}, x_{0 : t}, ƒ_{1 : t}) {\hat{p}}_{s} (x_{t} | y_{1 : t - 1}, x_{0 : t - 1}, x_{0 : t - 1} . ƒ_{1 : t}) {\hat{p}}_{s} (y_{1 : t - 1}, x_{0 : t - 1} | ƒ_{1 : t}) d x_{0 : t} \\ = \int \prod_{i = 1}^{t} {\hat{p}}_{s} (y_{i} | x_{i}) {\hat{p}}_{s} (x_{i} | ƒ_{i}) d x_{1 : t} \end{matrix}$
Unter Verwendung der Nomenklatur der Gleichungen (1) bis (4) kann $\int \prod_{i = 1}^{t} {\hat{p}}_{s} (y_{i} | x_{i}) {\hat{p}}_{s} (x_{i} | ƒ_{i}) d x_{1 : t}$
der Gleichung (26) gemäß Gleichung (27) beschrieben werden: $\begin{matrix} \int \prod_{i = 1}^{t} {\hat{p}}_{s} (y_{i} | x_{i}) {\hat{p}}_{s} (x_{i} | ƒ_{i}) d x_{1 : t} = \int \prod_{i = 1}^{t} N_{s} (y_{i} | C x_{i} + d, R) N_{s} (x_{i} | ƒ_{i}, Q) d x_{1 : t} \\ = \prod_{i = 1}^{t} (\int N_{s} (y_{i} | C x_{i} + d, R) N (x_{i} | ƒ_{i}, Q) d x_{i}) \\ = \prod_{i = 1}^{t} N_{s} (y_{i} | C ƒ_{i} + d, R + C Q C^{T}) . \end{matrix}$
wobei $N_{s} (.)$
die Normalverteilung der s-ten Stichprobe ist.
Unter Verwendung der Gleichungen (26) und (27) und einem Umrechnen der Produkte in Gleichung (27) in eine Summe der Logarithmen kann die Transinformation i_s der Gleichung (25) mittels Gleichung (28) ermittelt werden: $i_{s} \leq \sum_{i = 1}^{t} log (N_{s} (y_{i} | C ƒ_{i} + d, R + C Q C^{T})) - L_{t, s}$
Die gesamte Transinformation I(y_1:t; f_1:t) kann somit gemäß Gleichung (29) ermittelt werden: $I (y_{1 : t}; ƒ_{1 : t}) \approx \frac{1}{S} \sum_{s = 1}^{S} i_{s}$
Bezüglich Gaußprozess-Zustandsraummodellen kann angenommen werden, dass die Markow-Eigenschaft erfüllt ist (dass die latenten Zustände die Markow-Eigenschaft erfüllen). In diesem Fall kann beispielsweise die derzeitige Transinformation I(ŷ_t+1;f_t+1) verwendet werden. Allerdings ist es möglich, dass die Markow-Eigenschaft nicht vollständig erfüllt ist und dass schwache Abhängigkeiten zwischen den latenten Zuständen vorliegen. In diesem Fall kann die gesamte Transinformation I(y_1:t, ŷ_t+1; f_1:t+1) die aktive Auswahl eines Steuerparameters dahingehend verbessern, dass ein Zeitaufwand des Trainierens signifikant verringert wird.
Mit Bezug auf 3A kann gemäß verschiedenen Ausführungsformen der Steuerparameter $c_{t}^{*}$
der Vielzahl von Steuerparametern $c \in C \subseteq ℝ^{d_{c}}$
302 mit dem höchsten Wert der Transinformation 308 als neuer Steuerparameter 310 ausgewählt werden.
Im Falle der derzeitigen Transinformation I(ŷ_t+1 ; f_t+1) kann der neue Steuerparameter 310, $c_{t}^{*},$
gemäß Gleichung (30) ausgewählt werden: $c_{t}^{*} = \underset{c_{t} \in C}{argmax} I ({\hat{y}}_{t + 1}; ƒ_{t + 1})$
wobei die derzeitige Transinformation I(ŷ_t+1 ; f_t+1) unter Verwendung von Gleichung (21) ermittelt werden kann.
Im Falle der gesamten Transinformation I(y_1:t ,ŷ_t+1; f_1:+1) kann der neue Steuerparameter 310, $c_{t}^{*},$
gemäß Gleichung (31) ausgewählt werden: $c_{t}^{*} = \underset{c_{t} \in C}{argmax} I (y_{1 : t}; {\hat{y}}_{t + 1}; ƒ_{1 : t + 1})$
wobei die gesamte Transinformation I(y_1:t , ŷ_t+1; f_1:t+1) unter Verwendung der Gleichungen (28) und (29) ermittelt werden kann.
Gemäß verschiedenen Ausführungsformen kann der neue Steuerparameter 310, $c_{t}^{*},$
auf eine verschiedene Weise unter Verwendung der ermittelten Transinformation 308 ausgewählt werden. Zum Beispiel können zusätzliche Bedingungen berücksichtigt werden.
Zum Beispiel kann der Steuerparameter mit dem zweithöchsten Wert, dem dritthöchsten Wert, etc. als der neue Steuerparameter 310, $c_{t}^{*},$
ausgewählt werden.
Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310, $c_{t}^{*},$
gesteuert 312 werden. Zum Beispiel kann die Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310, $c_{t}^{*},$
zu steuern 312.
Gemäß verschiedenen Ausführungsformen kann eine dem neuen Steuerparameter 310, $c_{t}^{*},$
zugeordnete Ausgangsgröße 314, y_t+1, der Robotervorrichtung 101 gemessen werden. Zum Beispiel können die ein oder mehrere Sensoren der Robotervorrichtungsanordnung 100 eingerichtet sein, die dem neuen Steuerparameter 310, $c_{t}^{*},$
zugeordnete Ausgangsgröße 314, y_t+1, zu messen. Zum Beispiel können die ein oder mehrere Sensoren der Robotervorrichtungsanordnung 100 eingerichtet sein, Daten zu erfassen, welche die dem neuen Steuerparameter 310, $c_{t}^{*},$
zugeordnete Ausgangsgröße 314, y_t+1, beschreiben und der Computer 110 kann eingerichtet sein, unter Verwendung der erfassten Daten die dem neuen Steuerparameter 310, $c_{t}^{*},$
zugeordnete Ausgangsgröße 314, y_t+1, zu ermitteln.
Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung des neuen Steuerparameters 310, $c_{t}^{*},$
und der dem neuen Steuerparameter 310 zugeordneten Ausgangsgröße 314, y_t+1, trainiert werden. Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung des neuen Steuerparameters 310, $c_{t}^{*},$
und der dem neuen Steuerparameter 310 zugeordneten Ausgangsgröße 314, y_t+1, derart trainiert werden, dass eine Differenz zwischen der gemessenen Ausgangsgröße und einem Mittelwert der für den neuen Steuerparameter 310 ermittelten Ausgangsgrößen-Normalverteilung reduziert (z.B. minimiert) wird. Gemäß verschiedenen Ausführungsformen können der vorhergesagte Ausgangs-Zustand und die gemessene Ausgangsgröße ŷ_t+1 den Trainingsdaten $D \equiv {y_{1 : T}, x_{0 : T}, ƒ}$
hinzugefügt werden und das GPSSM 200 kann, wie mit Bezug auf 2 beschrieben, für diese Trainingsdaten gelernt werden.
3B zeigt das Ablaufdiagramm 300 zum Trainieren des GPSSM 200 gemäß verschiedenen Ausführungsformen. Das Steuern 312 der Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310 kann zu einem neuen latenten Zustand der Robotervorrichtung führen. Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 iterativ trainiert werden. Hierbei kann das Ablaufdiagramm 300 iterativ für den neuen Zustand der Robotervorrichtung 101 als derzeitiger Zustand der Robotervorrichtung 101 durchgeführt werden. Gemäß verschiedenen Ausführungsformen kann der in einer Iteration unter Verwendung der Übergangsfunktion, ft+1 , vorhergesagte Ausgangs-Zustand 318, x_t+1, der Robotervorrichtung 101 der derzeitige Eingangs-Zustand 304, x_t, der nachfolgenden Iteration sein.
Gemäß verschiedenen Ausführungsformen kann das aktive Lernen eines GPSSM mittels einer hierin beschriebenen Transinformation mittels des Algorithmus 1 beschrieben werden:
wobei das optimierte GPSSM die für die gemessen Ausgangsgrößen y_1:T+N und die zugeordneten Steuerparameter c_0:T+N gelernt wird bzw. nach N Iterationen gelernt wurde.
4 zeigt ein Ablaufdiagramm 400 eines Verfahrens zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung, gemäß verschiedenen Ausführungsformen. Das Gaußprozess-Zustandsraummodell kann einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreiben. Das Gaußprozess-Zustandsraummodell kann eine Übergangsfunktion und eine Ausgangsgrößenvorhersagefunktion aufweisen. Die Übergangsfunktion kann einen Eingangs-Zustand der Robotervorrichtung und einen Steuerparameter der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung gemäß einer dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand abbilden. Die Ausgangsgrößenvorhersagefunktion kann den vorhergesagten Ausgangs-Zustand gemäß einer dem vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße der Robotervorrichtung abbilden.
Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln der dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung aufweisen (in 404).
Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln der dem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung aufweisen (in 406).
Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung aufweisen (in 408).
Das Verfahren kann ein Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter aufweisen (in 410).
Das Verfahren kann ein Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und ein Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung aufweisen (in 412).
Das Verfahren kann ein Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweisen (in 414). Das Gaußprozess-Zustandsraummodell kann unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart trainiert werden, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den jeweiligen neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert (z.B. minimiert) wird. Gemäß verschiedenen Ausführungsformen kann das Gaußprozess-Zustandsraummodell unter Verwendung eines bisherigen Trainingsdatensatzes an für Steuerparameter gemessenen Ausgangsgrößen und der für den neuen Steuerparameter ermittelten Ausgangsgröße gelernt werden. Anschaulich kann der Trainingsdatensatz an bisher gemessenen Ausgangsgrößen um die für den neuen Steuerparameter ermittelten Ausgangsgröße erweitert werden und das Gaußprozess-Zustandsraummodell kann für den erweiterten Trainingsdatensatz gelernt werden.
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren eines Steuerungsmodells zum Steuern einer Robotervorrichtung bereitstellt. Das Verfahren kann für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung ein Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines trainierten Gaußprozess-Zustandsraummodells aufweisen. Das trainierte Gaußprozess-Zustandsraummodell kann zum Beispiel gemäß dem in 4 beschriebenen Verfahren trainiert worden sein. Das trainierte Gaußprozess-Zustandsraummodell kann zum Beispiel gemäß dem Algorithmus 1 trainiert worden sein. Das Verfahren kann ein Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen aufweisen. Gemäß verschiedenen Ausführungsformen kann das Steuerungsmodell unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart trainiert werden, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt. In einem anschaulichen Beispiel kann das trainierte Steuerungsmodell eine anzulegende Spannung ausgeben, mittels welcher eine gewünschte Zielgröße der Robotervorrichtung erreicht wird.

Claims

Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells, wobei das Gaußprozess-Zustandsraummodell einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreibt, wobei das Gaußprozess-Zustandsraummodell eine Übergangsfunktion und eine Ausgangsgrößenvorhersagefunktion aufweist, wobei die Übergangsfunktion einen Eingangs-Zustand der Robotervorrichtung und einen Steuerparameter der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung gemäß einer dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand abbildet, und wobei die Ausgangsgrößenvorhersagefunktion den vorhergesagten Ausgangs-Zustand gemäß einer dem vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße der Robotervorrichtung abbildet, das Verfahren aufweisend: · für jeden Steuerparameter der Vielzahl von Steuerparametern: Ermitteln der dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung; Ermitteln der dem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung; und Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung; • Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter; • Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung; und • Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert wird.
Verfahren gemäß Anspruch 1, wobei das Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters zu einem neuen Zustand der Robotervorrichtung führt; und wobei das Verfahren iterativ für den jeweils neuen Zustand der Robotervorrichtung als derzeitigen Zustand der Robotervorrichtung durchgeführt wird, wobei der für den jeweiligen neuen Steuerparameter vorhergesagte Ausgangs-Zustand der derzeitige Eingangs-Zustand der Robotervorrichtung der nachfolgenden Iteration ist.
Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die Übergangsfunktion den Eingangs-Zustand der Robotervorrichtung und den Steuerparameter der Vielzahl von Steuerparametern gemäß der dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbildet; und wobei die Übergangsfunktion den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens auf den vorhergesagten Ausgangs-Zustand abbildet.
Verfahren gemäß einem der Ansprüche 1 bis 3, wobei jeder gemessenen Ausgangsgröße der Robotervorrichtung eine jeweilige mittels der Übergangsfunktion ermittelte Übergangsnormalverteilung und eine jeweilige mittels der Ausgangsgrößenvorhersagefunktion ermittelte Ausgangsgrößen-Normalverteilung zugeordnet ist; wobei die Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung eines jeweiligen Steuerparameters eine Transinformation zwischen: • einer gemeinsamen Wahrscheinlichkeitsverteilung der Ausgangsgrößen, welche die den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen und die für den jeweiligen Steuerparameter ermittelte Ausgangsgrößen-Normalverteilung aufweist; und • einer gemeinsamen Wahrscheinlichkeitsverteilung der Übergangsnormalverteilungen, welche die den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen und die für den jeweiligen Steuerparameter ermittelte Übergangsnormalverteilung aufweist, ist.
Verfahren gemäß Anspruch 4, wobei das Ermitteln des Wertes der Transinformation zwischen den den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung und den den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Übergangsnormalverteilung aufweist: • für jeden Abtastwert einer Vielzahl von Abtastwerten: für jede gemessene Ausgangsgröße der Robotervorrichtung, Ermitteln eines jeweiligen Schrankenwertes mittels einer Differenz aus einem Logarithmus einer allen gemessenen Ausgangsgrößen zugeordneten Wahrscheinlichkeitsdichtefunktion und einer für die jeweilige gemessene Ausgangsgröße ermittelten Evidenzuntergrenze; Summieren der für alle gemessenen Ausgangsgrößen ermittelten Schrankwerte; • Ermitteln eines Mittelwertes der summierten Schrankenwerte aller Abtastwerte der Vielzahl von Abtastwerten als Wert der Transinformation.
Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der derzeitige Eingangs-Zustand der Robotervorrichtung ein latenter Zustand ist.
Verfahren gemäß einem der Ansprüche 1 bis 6, wobei das Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung ein Trainieren des Gaußprozess-Zustandsraummodells mittels eines Variationsinferenz-Verfahrens unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweist.
Robotervorrichtung, die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Verfahren zum Trainieren eines Steuerungsmodells, eingerichtet zum Steuern einer Robotervorrichtung, das Verfahren aufweisend: für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung, Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines gemäß einem der Ansprüche 1 bis 7 trainierten Gaußprozess-Zustandsraummodells; Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt.
Robotervorrichtung, aufweisend: • eine Speichereinrichtung, die eingerichtet ist, das gemäß Anspruch 9 trainierte Steuerungsmodell zu speichern; und • eine Steuereinrichtung, die eingerichtet ist, die Robotervorrichtung gemäß dem trainierten Steuerungsmodell zu steuern.
Computerprogramm, das Instruktionen aufweist, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.
Computerlesbares Medium, das Instruktionen speichert, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.