DE102021200569A1 - Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells - Google Patents

Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells Download PDF

Info

Publication number
DE102021200569A1
DE102021200569A1 DE102021200569.1A DE102021200569A DE102021200569A1 DE 102021200569 A1 DE102021200569 A1 DE 102021200569A1 DE 102021200569 A DE102021200569 A DE 102021200569A DE 102021200569 A1 DE102021200569 A1 DE 102021200569A1
Authority
DE
Germany
Prior art keywords
robotic device
control parameter
output
normal distribution
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021200569.1A
Other languages
English (en)
Inventor
The Duy Nguyen-Tuong
Christoph Zimmer
Hon Sum Alec Yu
Dingling Yao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021200569.1A priority Critical patent/DE102021200569A1/de
Priority to US17/648,069 priority patent/US20220245521A1/en
Priority to CN202210072384.2A priority patent/CN114770492A/zh
Publication of DE102021200569A1 publication Critical patent/DE102021200569A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

Eine Vorrichtung und ein Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells werden offenbart, wobei das Gaußprozess-Zustandsraummodell einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreibt. Das Verfahren weist auf: für jeden Steuerparameter der Vielzahl von Steuerparametern: Ermitteln einer dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung, Ermitteln einer einem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung, Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung; Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter; Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung; und Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert wird.

Description

  • Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells.
  • Dynamische Systeme, wie beispielsweise Robotervorrichtungen, können zum Beispiel in der Fertigung, in der Produktion, in der Wartung, im Haushalt, in Fortbewegungsmitteln, in der Medizintechnik, etc. eingesetzt werden. Hierbei kann ein dynamisches System unter Verwendung eines Zustandsraummodells (SSM), wie beispielsweise eines Gaußprozess-Zustandsraummodells (GPSSM), gesteuert werden. Das SSM bzw. das GPSSM kann einen Zusammenhang zwischen Steuerparametern und einer Zielgröße des dynamischen Systems beschreiben. Hierbei kann es erforderlich sein, dass das Zustandsraummodell speziell für das dynamische System gelernt wird. Allerdings kann das Lernen des Zustandsraummodells einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand. Daher kann es erforderlich sein, den Zeitaufwand bzw. den rechentechnischen Aufwand des Lernens zu verringern.
  • Die Veröffentlichung „Variational Gaussian Process State-Space Models“ von R. Frigola et al., in Advances in neuronal information processing systems, 2014, (im Folgenden als Referenz [1] bezeichnet) beschreibt ein Lernen eines Gaußprozess-Zustandsraummodells.
  • Die Veröffentlichung „Overcoming Mean-Field Approximations in Recurrent Gaussian Process Models“ von A. Ialongo et al., in Proceedings of the 36th International Conference on Machine Learning, 2019, (im Folgenden als Referenz [2] bezeichnet) beschreibt ein Variationsinferenz-Verfahren zum Lernen eines Gaußprozess-Zustandsraummodells.
  • Die Veröffentlichung „Localized active learning of Gaussian process state space models“ von A. Capone et al., in Learning for Dynamics and Control, Proceedings of Machine Learning Research, 2020, beschreibt ein aktives Lernen eines Gaußprozess-Zustandsraummodells, wobei Steuertrajektorien unter der Annahme, dass latente Zustände messbar sind, optimiert werden.
  • Das Verfahren und die Robotervorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 8 (achtes Beispiel) ermöglichen, ein Gaußprozess-Zustandsraummodell zum Steuern einer Robotervorrichtung mit einem verringerten rechentechnischen Aufwand zu lernen.
  • Eine Robotervorrichtung kann jede Art von computergesteuerter Vorrichtung sein, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, z.B. ein Roboterarm, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System, aerodynamisches System (z.B. ein Flugzeug, z.B. eine Drohne, z.B. ein Hubschrauber), etc.
  • Die Transinformation kann eine Menge an Informationen quantifizieren, die über eine erste Variable (z.B. die Übergänge, z.B. die Übergangsnormalverteilung) erhalten werden, indem eine zweite Variable (z.B. die Ausgangsgrößen) gemessen wird. Anschaulich kann das Messen der Ausgangsgröße mit dem höchsten Wert der Transinformation auch mehr Informationen über die Übergänge bereitstellen. Daher ermöglicht das Verfahren gemäß dem ersten Beispiel, ein GPSSM mit einem verringerten Zeitaufwand zu Lernen.
  • Das Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters kann zu einem neuen Zustand der Robotervorrichtung führen. Das Verfahren kann iterativ für den jeweils neuen Zustand der Robotervorrichtung als derzeitigen Zustand der Robotervorrichtung durchgeführt werden, wobei der für den jeweiligen neuen Steuerparameter vorhergesagte Ausgangs-Zustand der derzeitige Eingangs-Zustand der Robotervorrichtung der nachfolgenden Iteration ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel.
  • Anschaulich kann das Gaußprozess-Zustandsraummodell dadurch iterativ gelernt werden, wobei der Steuerparameter in jeder Iteration aktiv ausgewählt werden kann. Mehrere Iterationen des Trainierens kann beispielsweise die Genauigkeit des Gaußprozess-Zustandsraummodells erhöhen.
  • Die Übergangsfunktion kann den Eingangs-Zustand der Robotervorrichtung und den Steuerparameter der Vielzahl von Steuerparametern gemäß der dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbilden. Die Übergangsfunktion kann den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens auf den vorhergesagten Ausgangs-Zustand abbilden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bilden ein drittes Beispiel.
  • Dadurch kann eine Unsicherheit der Robotervorrichtung, wie beispielsweise ein Prozess-Rauschen, berücksichtigt werden. Dies kann die Genauigkeit des gelernten Gaußprozess-Zustandsraummodells erhöhen.
  • Jeder gemessenen Ausgangsgröße der Robotervorrichtung kann eine jeweilige mittels der Übergangsfunktion ermittelte Übergangsnormalverteilung und eine jeweilige mittels der Ausgangsgrößenvorhersagefunktion ermittelte Ausgangsgrößen-Normalverteilung zugeordnet sein. Die Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung eines jeweiligen Steuerparameters kann eine Transinformation zwischen: einer gemeinsamen Wahrscheinlichkeitsverteilung der Ausgangsgrößen, welche die den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen und die für den jeweiligen Steuerparameter ermittelte Ausgangsgrößen-Normalverteilung aufweist; und einer gemeinsamen Wahrscheinlichkeitsverteilung der Übergangsnormalverteilungen, welche die den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen und die für den jeweiligen Steuerparameter ermittelte Übergangsnormalverteilung aufweist, sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel.
  • Dadurch kann zum Beispiel in dem Fall, dass schwache Abhängigkeiten zwischen den latenten Zuständen vorliegen, die aktive Auswahl des Steuerparameters dahingehend verbessert werden, dass ein Zeitaufwand des Trainierens signifikant verringert wird. Anschaulich kann diese Transinformation als gesamte Transinformation (I(y1:t;f1:t)) aller gemessenen Ausgangsgrößen bezeichnet werden.
  • Das Ermitteln des Wertes der Transinformation zwischen den den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung und den den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Übergangsnormalverteilung kann aufweisen: für jeden Abtastwert einer Vielzahl von Abtastwerten: für jede gemessene Ausgangsgröße der Robotervorrichtung, Ermitteln eines jeweiligen Schrankenwertes mittels einer Differenz aus einem Logarithmus einer allen gemessenen Ausgangsgrößen zugeordneten Wahrscheinlichkeitsdichtefunktion und einer für die jeweilige gemessene Ausgangsgröße ermittelten Evidenzuntergrenze und Summieren der für alle gemessenen Ausgangsgrößen ermittelten Schrankwerte; und Ermitteln eines Mittelwertes der summierten Schrankenwerte aller Abtastwerte der Vielzahl von Abtastwerten als Wert der Transinformation. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel bilden ein fünftes Beispiel.
  • Der derzeitige Eingangs-Zustand der Robotervorrichtung kann ein latenter Zustand sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem fünften Beispiel bilden ein sechstes Beispiel.
  • Anschaulich kann der latente Zustand der Robotervorrichtung nicht gemessen werden. Das Verfahren ermöglicht, das Gaußprozess-Zustandsraummodell zu trainieren, indem aktiv ein Steuerparameter ausgewählt wird, ohne dass der derzeitige Zustand der Robotervorrichtung gemessen werden kann.
  • Das Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung kann ein Trainieren des Gaußprozess-Zustandsraummodells mittels eines Variationsinferenz-Verfahrens unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem sechsten Beispiel bilden ein siebtes Beispiel.
  • Anschaulich kann das Gaußprozess-Zustandsraummodell mittels des Variationsinferenz-Verfahrens für einen Trainingsdatensatz gelernt werden. Der Trainingsdatensatz kann um die gemessene Ausgangsgröße erweitert werden und das Gaußprozess-Zustandsraummodell kann mittels des Variationsinferenz-Verfahrens für den erweiterten Trainingsdatensatz gelernt werden.
  • Eine Robotervorrichtung kann eingerichtet sein, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel auszuführen. Die Robotervorrichtung mit den in diesem Absatz beschriebenen Merkmalen bildet ein achtes Beispiel.
  • Ein Steuerungsmodell kann zum Steuern einer Robotervorrichtung eingerichtet sein. Ein Verfahren zum Trainieren des Steuerungsmodells kann aufweisen: für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung, Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel trainierten Gaußprozess-Zustandsraummodells; und Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein neuntes Beispiel.
  • Eine Robotervorrichtung kann eine Speichereinrichtung und eine Steuereinrichtung aufweisen. Die Speichereinrichtung kann eingerichtet sein, das gemäß dem neunten Beispiel trainierte Steuerungsmodell zu speichern. Die Steuereinrichtung kann eingerichtet sein, die Robotervorrichtung gemäß dem trainierten Steuerungsmodell zu steuern. Die Robotervorrichtung mit den in diesem Absatz beschriebenen Merkmalen bildet ein zehntes Beispiel.
  • Ein Computerprogrammprodukt kann Programminstruktionen speichern, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerprogrammprodukt mit den in diesem Absatz beschriebenen Merkmalen bildet ein elftes Beispiel.
  • Ein nichtflüchtiges Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführen. Das nichtflüchtige Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein zwölftes Beispiel.
  • Ein nichtvolatiles Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführen. Das nichtvolatile Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein dreizehntes Beispiel.
  • Ein Computerprogramm kann Instruktionen aufweisen, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerprogramm mit den in diesem Absatz beschriebenen Merkmalen bildet ein vierzehntes Beispiel.
  • Ein Computerlesbares Medium kann Instruktionen speichern, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem oder mehreren des ersten Beispiels bis dem siebten Beispiel durchführt. Das Computerlesbare Medium mit den in diesem Absatz beschriebenen Merkmalen bildet ein fünfzehntes Beispiel.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.
  • Es zeigen
    • 1 eine beispielhafte Robotervorrichtungsanordnung gemäß verschiedenen Ausführungsformen,
    • 2 eine graphische Veranschaulichung eines Gaußprozess-Zustandsraummodells gemäß verschiedenen Ausführungsformen;
    • 3A und 3B jeweils ein Ablaufdiagramm zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung gemäß verschiedenen Ausführungsformen;
    • 4 ein Ablaufdiagramm eines Verfahrens zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung, gemäß verschiedenen Ausführungsformen.
  • Robotervorrichtungen können mittels Roboter-Steuerungsmodellen gesteuert werden, welche ein speziell für die jeweilige Robotervorrichtung trainiertes Gaußprozess-Zustandsraummodell (GPSSM) verwenden, das einen Zusammenhang zwischen Steuerparametern der Robotervorrichtung und Zielgrößen der Robotervorrichtung beschreibt. Allerdings kann das Lernen des GPSSM einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand. Verschiedene Ausführungsbeispiele betreffen eine Vorrichtung und ein Verfahren zum Trainieren eines GPSSM, bei denen während des Lernens aktiv Steuerparameter ausgewählt werden, so dass der Zeitaufwand bzw. der rechentechnische Aufwand des Lernens des GPSSM einer Robotervorrichtung verringert wird
  • 1 zeigt eine Robotervorrichtungsanordnung 100. Die Robotervorrichtungsanordnung 100 kann eine Robotervorrichtung 101 aufweisen. Die in 1 gezeigte und im Folgenden beispielhaft beschriebene Robotervorrichtung 101 stellt zur Veranschaulichung eine beispielhafte Robotervorrichtung dar und kann zum Beispiel einen Industrieroboter in der Form eines Roboterarms zum Bewegen, Montieren oder Bearbeiten eines Werkstücks aufweisen. Es wird darauf hingewiesen, dass die Robotervorrichtung jede Art von computergesteuerter Vorrichtung sein kann, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
  • In einer Ausführungsform kann ein „Computer“ als jede Art von Logik-implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform ein „Computer“ eine hartverdrahtete Logikschaltung oder eine programmierbare Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Ein „Computer“ kann ein oder mehrere Prozessoren aufweisen. Ein „Computer“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als ein „Computer“ verstanden werden.
  • Die Robotervorrichtung 101 weist Roboterglieder 102, 103, 104 und einen Sockel (oder allgemein eine Halterung) 105 auf, durch die die Roboterglieder 102, 103, 104 getragen werden. Der Begriff „Roboterglied" bezieht sich auf die beweglichen Teile der Robotervorrichtung 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, z.B. um eine Aufgabe auszuführen, z.B. um ein oder mehrere Fertigkeiten auszuführen bzw. durchzuführen.
  • Zur Steuerung beinhaltet die Robotervorrichtungsanordnung 100 eine Steuervorrichtung 106, die eingerichtet ist, die Interaktion mit der Umgebung gemäß einem Steuerungsprogramm zu realisieren. Das letzte Element 104 (von dem Sockel 105 aus gesehen) der Roboterglieder 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge beinhalten.
  • Die anderen Roboterglieder 102, 103 (näher am Sockel 105) können eine Positionierungsvorrichtung bilden, so dass zusammen mit dem Endeffektor 104 ein Roboterarm 120 (oder Gelenkarm) mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 120 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm erfüllen kann (möglicherweise mit einem Werkzeug an seinem Ende).
  • Die Robotervorrichtung 101 kann Verbindungselemente 107, 108, 109 beinhalten, die die Roboterglieder 102, 103, 104 miteinander und mit dem Sockel 105 verbinden. Ein Verbindungselement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine Drehbewegung und/oder eine Translationsbewegung (d.h. eine Verschiebung) für zugehörige Roboterglieder relativ zueinander bereitstellen kann. Die Bewegung der Roboterglieder 102, 103, 104 kann mit Hilfe von Stellgliedern eingeleitet werden, die von der Steuervorrichtung 106 gesteuert werden.
  • Der Begriff „Stellglied“ kann als eine Komponente verstanden werden, die geeignet ist, als Reaktion darauf, dass sie angetrieben wird, einen Mechanismus zu beeinflussen. Das Stellglied kann von der Steuervorrichtung 106 ausgegebene Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen umsetzen. Das Stellglied, z.B. ein elektromechanischer Wandler, kann eingerichtet werden, elektrische Energie als Reaktion auf seine Ansteuerung in mechanische Energie umzuwandeln.
  • Der Begriff „Steuervorrichtung“ (auch als „Steuereinrichtung bezeichnet“) kann als jede Art von logischer Implementierungseinheit verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor beinhalten kann, der in der Lage ist, in einem Speichermedium gespeicherte Software, Firmware oder eine Kombination derselben auszuführen, und die Anweisungen, z.B. an ein Stellglied im vorliegenden Beispiel, erteilen kann. Die Steuervorrichtung kann beispielsweise durch Programmcode (z.B. Software) eingerichtet werden, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
  • In dem vorliegenden Beispiel beinhaltet die Steuervorrichtung 106 einen Computer 110 und einen Speicher 111, der Code und Daten speichert, auf deren Grundlage der Computer 110 die Robotervorrichtung 101 steuert. Gemäß verschiedener Ausführungsformen steuert die Steuervorrichtung 106 die Robotervorrichtung 101 auf der Grundlage eines im Speicher 111 gespeicherten Roboter-Steuerungsmodells 112.
  • Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 (z.B. der Roboterarm 120) eingerichtet sein, ein oder mehrere Objekte 114 aufzunehmen. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 (z.B. der Roboterarm 120) eingerichtet sein, ein aufgenommenes Objekt zu bewegen.
  • Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtungsanordnung 100 ein oder mehrere Sensoren aufweisen. Die ein oder mehreren Sensoren können eingerichtet sein, Sensordaten, die einen Zustand der Robotervorrichtung charakterisieren, bereitzustellen. Zum Beispiel können die ein oder mehreren Sensoren einen Bildgebungssensor, wie beispielsweise eine Kamera (z.B. eine Standardkamera, eine Digitalkamera, eine Infrarotkamera, eine Stereokamera, eine Tiefenkamera, etc.), einen Radar-Sensor, einen LIDAR-Sensor, einen Positionssensor, einen Geschwindigkeitssensor, einen Ultraschallsensor, einen Beschleunigungssensor, einen Drucksensor, etc. aufweisen.
  • Die Robotervorrichtung 101 kann in einem Zustand einer Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zu jedem Zeitpunkt in einem derzeitigen Zustand der Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen können mittels der von den ein oder mehreren Sensoren bereitgestellten Sensordaten Informationen bezüglich des jeweiligen Zustands der Robotervorrichtung 101 ermittelt werden.
  • Die Robotervorrichtung 101 kann eingerichtet sein, eine Vielzahl von Fertigkeiten auszuführen. Die Fertigkeiten der Vielzahl von Fertigkeiten können beispielsweise in dem Programmcode der Steuervorrichtung 106 vordefiniert sein. Ein oder mehrere Fertigkeiten der Vielzahl von Fertigkeiten können zum Beispiel eine mechanische Bewegung von ein oder mehreren Robotergliedern 102, 103, 104 aufweisen. Ein oder mehrere Fertigkeiten der Vielzahl von Fertigkeiten können zum Beispiel eine Aktion des Endeffektors (z.B. einem Greifen, z.B. einem Lösen, etc.) aufweisen. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zum Ausführen einer Fertigkeit unter Verwendung ein oder mehrerer Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 gesteuert werden. Gemäß verschiedenen Ausführungsformen kann ein in einem derzeitigen Zustand der Robotervorrichtung 101 durchgeführtes Steuern der Robotervorrichtung 101 unter Verwendung ein oder mehrerer Steuerparameter der Vielzahl von Steuerparametern zu einem resultierenden Zustand der Vielzahl von Zuständen der Robotervorrichtung 101 führen. Ein Steuerparameter kann zum Beispiel ein anzulegender Spannungswert sein.
  • Gemäß verschiedenen Ausführungsformen können die Zustände der Robotervorrichtung 101 latente Zustände sein. Anschaulich kann es nicht möglich sein, einen jeweiligen derzeitigen Zustand der Robotervorrichtung 101 zu ermitteln.
  • Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein trainiertes Gaußprozess-Zustandsraummodell (GPSSM) verwenden. Das trainierte GPSSM kann zum Beispiel einen Zusammenhang zwischen Steuerparametern einer Vielzahl von Steuerparametern der Robotervorrichtung 101 und ein oder mehrerer Zielgrößen der Robotervorrichtung 101 beschreiben. Gemäß verschiedenen Ausführungsformen kann das GPSSM spezifisch für die Robotervorrichtung 101 gelernt werden. Gemäß verschiedenen Ausführungsformen kann ein Teil des Roboter-Steuerungsmodells 112 erzeugt (z.B. gelernt, z.B. trainiert) werden, während die Robotervorrichtung 101 außer Betrieb ist. Gemäß verschiedenen Ausführungsformen kann das trainierte GPSSM während des Betriebs der Robotervorrichtung 101 verwendet werden, um Steuerparameter zum Steuern der Robotervorrichtung 101 bezüglich eines gewünschten Werts einer Zielgröße zu ermitteln. Gemäß verschiedenen Ausführungsformen kann das trainierte GPSSM während des Betriebs der Robotervorrichtung 101 zusätzlich trainiert werden. Gemäß verschiedenen Ausführungsformen kann ein Wert der Zielgröße gemessen werden. Zum Beispiel können die ein oder mehreren Sensoren eingerichtet sein, die Zielgröße zu messen. Zum Beispiel können die ein oder mehreren Sensoren eingerichtet sein, Daten zu erfassen und der Computer 110 kann eingerichtet sein, unter Verwendung der Daten die Zielgröße zu ermitteln.
  • Die Robotervorrichtung 101 kann zu jedem Zeitpunkt in einem derzeitigen Zustand, xt, sein. Gemäß verschiedenen Ausführungsformen kann der derzeitige Zustand, xt, ein nicht messbarer latenter Zustand sein. Gemäß verschiedenen Ausführungsformen kann die Zielgröße gemessen werden. Zur Veranschaulichung kann die Robotervorrichtungsanordnung 100 zum Beispiel ein Beschichtungssystem aufweisen oder sein, das sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel ein Schichtdicke sein kann, welche gemessen (z.B. optisch, z.B. mittels wiegen, z.B. mittels Teilchenströmen etc.) werden kann. Zum Beispiel kann die Robotervorrichtungsanordnung 100 ein Flugobjekt aufweisen oder sein, das sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel eine Flughöhe sein kann, welche gemessen werden kann. Zum Beispiel kann die Robotervorrichtungsanordnung 100 einen Roboterarm aufweisen, der sich in einem latenten Zustand befindet, wobei die Zielgröße zum Beispiel eine Position des Roboterarms sein kann, welche gemessen werden kann.
  • 2 zeigt eine graphische Veranschaulichung eines GPSSM 200 einer Robotervorrichtung, wie beispielsweise der Robotervorrichtung 101, gemäß verschiedenen Ausführungsformen. Das GPSSM 200 kann zum Beispiel als das Roboter-Steuerungsmodell 112 und/oder als ein Teil des Steuerungsmodells 112 verwendet werden. Im Folgenden wird das GPSSM 200 beispielhaft mit Bezug auf die Robotervorrichtung 101 beschrieben.
  • Das GPSSM 200 kann für einen Zeitpunkt, t, einer diskreten Zeitsequenz von t=1 bis t=T (mit T ≥ 1) einen Zusammenhang zwischen einem Steuerparameter, ct-1, des vorherigen Zeitpunkts, t-1, und einer zu dem jeweiligen Zeitpunkt, t, gemessenen Ausgangsgröße, yt, beschreiben. Die Robotervorrichtung 101 kann zu jedem Zeitpunkt, t, in einem derzeitigen Zustand, xt, sein. Gemäß verschiedenen Ausführungsformen kann der derzeitige Zustand, xt, ein latenter Zustand sein. Zum Beispiel kann der latente Zustand, xt, eine latente Variable sein. Anschaulich kann der latente Zustand, xt, der Robotervorrichtung 101 nicht gemessen werden. Zum Beispiel kann das GPSSM 200 zu einem Zeitpunkt t=1 in latenten Zustand x1 sein und ein Steuern der Robotervorrichtung 101 unter Verwendung eines Steuerparameters c1 kann zu einem neuen Zustand x2 der Robotervorrichtung 101 führen. Gemäß verschiedenen Ausführungsformen kann in dem neuen Zustand x2 der Robotervorrichtung 101 eine Ausgangsgröße y2 gemessen werden.
  • Die für die jeweiligen Zeitpunkte, t, der diskreten Zeitsequenz von t=1 bis t=T gemessenen Ausgangsgrößen, y, (in manchen Aspekten auch als Beobachtungen bezeichnet) können beschrieben werden durch y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0001
    Jede Ausgangsgröße y t Y d y
    Figure DE102021200569A1_0002
    kann aus einem zugeordneten latenten Zustand x t X d x
    Figure DE102021200569A1_0003
    und einem dem vorherigen Zeitpunkt, t-1, zugeordneten Steuerparameter c t 1 C d c
    Figure DE102021200569A1_0004
    resultieren.
  • Anschaulich kann das GPSSM 200 für die diskrete Zeitsequenz t=1-T die gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T ,
    Figure DE102021200569A1_0005
    die latenten Zustände x 0 : T { x t } t = 0 T
    Figure DE102021200569A1_0006
    und die Steuerparameter c 0 : T { c t } t = 0 T
    Figure DE102021200569A1_0007
    aufweisen.
  • Gemäß verschiedenen Ausführungsformen können die latenten Zustände die Markow-Eigenschaft erfüllen. Das GPSSM 200 kann einen Zusammenhang zwischen ausgewählten Steuerparametern c 0 : T { c t } t = 0 T
    Figure DE102021200569A1_0008
    einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 und jeweils zugeordneten gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0009
    der Robotervorrichtung 101 beschreiben.
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 eine Übergangsfunktion, f, aufweisen. Die Übergangsfunktion, f, kann für einen Zeitpunkt, t, einen Eingangs-Zustand, xt-1, der Robotervorrichtung 101 und einen Steuerparameter, ct-1, der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung 101 gemäß einer dem Steuerparameter, ct-1, und dem Eingangs-Zustand, xt-1, zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand, xt, abbilden. Die Abbildung der Übergangsfunktion, f, kann beschrieben werden durch ƒ : d x × d c d x .
    Figure DE102021200569A1_0010
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 als ein probabilistisches Zustandsraummodell mit einer Gaußprozess (GP) a-priori der Übergangsfunktion, f, definiert sein. Die Übergangsfunktion, f, kann mittels Gleichung (1) beschrieben werden: ƒ G P ( m ( ) , k ( , ) )
    Figure DE102021200569A1_0011
    wobei m(·) eine Mittelwertfunktion und k· (·,·) eine positiv definite Kovarianzfunktion ist.
  • Gemäß verschiedenen Ausführungsformen kann der initiale Zustand, x0, mittels Gleichung (2) beschrieben werden: x 0 p ( x 0 )
    Figure DE102021200569A1_0012
  • Der initiale Zustand p ( x 0 ) = N ( x 0 | μ 0 , Σ 0 )
    Figure DE102021200569A1_0013
    kann als bekannt angenommen werden.
  • Die Übergangsfunktion ft ≡ f (xt-1, ct-1) kann den Eingangs-Zustand xt-1 und den Steuerparameter Ct-1 gemäß einer dem Eingangs-Zustand xt-1 und dem Steuerparameter Ct-1 zugeordneten Übergangsnormalverteilung auf den vorhergesagten Ausgangs-Zustand, xt, abbilden. Gemäß verschiedenen Ausführungsformen kann die Übergangsfunktion ft ≡ f(xt-1, ct-1) den Eingangs-Zustand xt-1 und den Steuerparameter ct-1 gemäß der dem Eingangs-Zustand xt-1 und dem Steuerparameter ct-1 zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbilden und kann den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens, Q, auf den vorhergesagten Ausgangs-Zustand, xt, abbilden. Das Zustands-Rauschen Q kann zum Beispiel ein Prozess-Rauschen sein. Der vorhergesagte Ausgangs-Zustand, xt, kann mittels Gleichung (3) beschrieben werden: x t | ƒ ( x t 1 , c t 1 ) N ( x t | ƒ ( x t 1 , c t 1 ) , Q )
    Figure DE102021200569A1_0014
    wobei aus ft ≡ f(xt-1,ct-1) folgt, dass x t | ƒ t N ( x t | ƒ t , Q ) .
    Figure DE102021200569A1_0015
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 eine Ausgangsgrößenvorhersagefunktion, o, aufweisen. Die Ausgangsgrößenvorhersagefunktion, ot, kann den vorhergesagte Ausgangs-Zustand, xt, gemäß einer dem Ausgangs-Zustand, xt, zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße, yt, der Robotervorrichtung 101 abbilden. Gemäß verschiedenen Ausführungsformen kann die Ausgangsgrößenvorhersagefunktion, ot, des für die diskrete Zeitsequenz t=1-T gelernten GPSSM 200 einen jeweiligen Ausgangs-Zustand x 0 : T { x t } t = 0 T
    Figure DE102021200569A1_0016
    auf die jeweils gemessene Ausgangsgröße y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0017
    abbilden. Anschaulich kann sowohl die Übergangsfunktion, f, als auch die Ausgangsgrößenvorhersagefunktion, o, eine jeweilige Normalverteilung (in manchen Aspekten auch als Gaußverteilung bezeichnet) aufweisen.
  • Die Ausgangsgrößenvorhersagefunktion, ot, kann mittels Gleichung (4) beschrieben werden: y t | x t N ( y t | C x t + d , R )
    Figure DE102021200569A1_0018
    wobei R ein Beobachtungs-Rauschen (z.B. ein Mess-Rauschen) ist und wobei C und d Parameter einer linearen Abbildung sind.
  • Zur Vereinfachung kann x ˜ = ( x , c )
    Figure DE102021200569A1_0019
    verwendet werden, wobei * einen jeweiligen Index bzw. eine Reihe von Indizes angeben kann.
  • Gemäß verschiedenen Ausführungsformen kann die Matrix der Kovarianzfunktionen beschrieben werden durch K i : j : = ( k ( x ˜ s , x ˜ t ) ) s , t = i j .
    Figure DE102021200569A1_0020
    In verschiedenen Aspekten kann k ( x ˜ i : j , x ˜ k ) ( k ( x ˜ i , x ˜ k ) , , k ( x ˜ j , x ˜ k ) )
    Figure DE102021200569A1_0021
    sein und k ( x ˜ i : j , x ˜ k ) T = k ( x ˜ k , x ˜ i : j )
    Figure DE102021200569A1_0022
    kann gelten.
  • Anschaulich kann die Übergangsfunktion, f, des für die diskrete Zeitsequenz t=1-T gelernten GPSSM 200 beschrieben werden durch ƒ 1 : T { ƒ t } t = 1 T .
    Figure DE102021200569A1_0023
    Die gemeinsame Wahrscheinlichkeitsdichtefunktion (gemeinsame PDF) p(y1:T,x0:T,f1:T) kann mittels Gleichung (5) beschrieben werden: p ( y 1 : T , x 0 : T , ƒ 1 : T ) = p ( x 0 ) t = 1 T p ( y t | x t ) p ( x t | ƒ t ) p ( ƒ t | x 0 : t 1 , ƒ 1 : t 1 )
    Figure DE102021200569A1_0024
  • Mehr Details hierzu werden in Referenz [1] beschrieben.
  • Der Term p(ftlx0:t-1, f1:t-1) aus Gleichung (5) kann unter Verwendung von Gleichung (1) gemäß Gleichung (6) beschrieben werden: p ( ƒ t | x 0 : t 1 , ƒ 1 : t 1 ) = N ( ƒ t | M t 1 , K t 1 )
    Figure DE102021200569A1_0025
    wobei M t 1 = m ( x ˜ t 1 ) + k ( x ˜ t 1 , x ˜ 0 : t 2 ) K 0 : t 2 1 ( ƒ 1 : t 1 m ( x ˜ 0 : t 2 ) ) T ,
    Figure DE102021200569A1_0026
    K t 1 = k ( x ˜ t 1 , x ˜ t 1 ) k ( x ˜ t 1 , x ˜ 0 : t 2 ) K 0 : t 2 1 k ( x ˜ 0 : t 2 , x ˜ t 1 ) ,
    Figure DE102021200569A1_0027
    und wobei der Term f1:-1 ct-1 -m(x0:t-2) beschrieben werden kann als f1:t-1 - m(x̃0:t-2) ≡ f1 -m(x̃0), ... , ft-1 -m(x̃t-2)).
  • Jeder gemessenen Ausgangsgröße y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0028
    kann ein vorhergesagter Ausgangs-Zustand x 0 : T { x t } t = 0 T
    Figure DE102021200569A1_0029
    zugeordnet sein. Der jeweilige vorhergesagte Ausgangs-Zustand, xt, kann unter Verwendung der Übergangsfunktion, ft, ermittelt werden.
  • Das GPSSM 200 kann unter Verwendung der gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T ,
    Figure DE102021200569A1_0030
    den vorhergesagten Ausgangs-Zustände x 0 : T { x t } t = 0 T
    Figure DE102021200569A1_0031
    und den Übergangsnormalverteilungen ƒ 1 : T { ƒ t } t = 1 T
    Figure DE102021200569A1_0032
    ermittelt werden.
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung eines Variationsinferenz-Verfahrens trainiert werden. Bei dem Variationsinferenz-Verfahren kann eine Evidenzuntergrenze (engl.: evidence lower bound, ELBO) ermittelt werden. Das Variationsinferenz-Verfahren ist beispielsweise rechentechnisch effizient. Ferner können mittels des Variationsinferenz-Verfahrens Vorhersagen ermittelt werden, welche bei einem aktiven Lernen eines GPSSM, wie beispielsweise des GPSSM 200, verwendet werden können.
  • Im Folgenden wird ein Lernen des GPSSM 200 beispielhaft für ein Variationsinferenz-Verfahren beschrieben. Es wird darauf hingewiesen, dass das GPSSM 200 auch mittels anderen Verfahren zum Lernen von Gaußprozess-Zustandsraummodellen gelernt werden kann.
  • Die Ausgangsgrößenvorhersagefunktion, ot, kann den vorhergesagte Ausgangs-Zustand, xt, gemäß einer dem Ausgangs-Zustand, xt, zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße, yt, der Robotervorrichtung 101 abbilden. Die Ausgangsgrößenvorhersagefunktion, ot, des GPSSM 200 kann derart gelernt werden, dass diese den vorhergesagte Ausgangs-Zustand, xt, gemäß der dem Ausgangs-Zustand, xt, zugeordneten Ausgangsgrößen-Normalverteilung p(yt) auf die jeweils gemessene Ausgangsgröße, yt, abbildet. Anschaulich kann zum Beispiel eine Differenz zwischen der gemessenen Ausgangsgröße, yt, und einem Mittelwert der Ausgangsgrößen-Normalverteilung p(yt) reduziert (z.B. minimiert) werden.
  • Gemäß verschiedenen Ausführungsformen kann p(x0:t,f1:t|y1:t) =p(x0:t, f1:t, y1:t)/p(y1:t) ermittelt werden.
  • Der gemeinsamen Wahrscheinlichkeitsdichtefunktion p(y1:T, x0:T, f1:T) gemäß Gleichung (5) können zusätzliche Punkte, u, hinzugefügt werden. Dies kann mittels der gemeinsamen Wahrscheinlichkeitsdichtefunktion gemäß Gleichung (7) beschrieben werden: p ( y 1 : T , x 0 : T , ƒ 1 : T , u ) = p ( x 0 ) p ( u ) t = 1 T p ( y t | x t ) p ( x t | ƒ t ) p ( ƒ t | x 0 : t 1 , ƒ 1 : t 1 , u ) .
    Figure DE102021200569A1_0033
  • Die zusätzlichen Punkte, u, können beschrieben werden durch u 1 : M = { u i } i = 1 M ,
    Figure DE102021200569A1_0034
    wobei M < < T sein kann.
  • Die Ausgangsgrößen-Normalverteilung p(y1:t) kann auf einer Kullback-Leibler-(KL)-Divergenz beruhen. Die logarithmische marginale Likelihood der Ausgangsgrößen-Normalverteilung p(y1:t) kann beschrieben werden mittels Gleichung (8): log ( p ( y 1 : t ) ) = L t + KL [ q ( x 0 : t , ƒ 1 : t ) p ( x 0 : t , ƒ 1 : t | y 1 : t ) ] for t = 1, , T
    Figure DE102021200569A1_0035
    wobei L t
    Figure DE102021200569A1_0036
    die Evidenzuntergrenze (ELBO) der logarithmischen marginalen Likelihood der Ausgangsgrößen-Normalverteilung p(y1:t) ist.
  • Gemäß verschiedenen Ausführungsformen kann die ELBO L t
    Figure DE102021200569A1_0037
    beschrieben werden durch: L t = q ( x 0 : t , ƒ 1 : t , u ) log ( p ( y 1 : t , x 0 : t , ƒ 1 : t , u ) q ( x 0 : t , ƒ 1 : t , u ) ) d x 0 : t d ƒ 1 : t d u
    Figure DE102021200569A1_0038
    q(x0:t, f1:t, u) kann mittels Gleichung (10) beschrieben werden: q ( x 0 : t , ƒ 1 : t , u ) = q ( u ) q ( x 0 ) i = 1 t q ( x i | ƒ i ) p ( ƒ i | ƒ 1 : i 1 , x 0 : i 1 , u )
    Figure DE102021200569A1_0039
  • Einsetzen von q(x0:t, f1:t, u) gemäß Gleichung (10) in Gleichung (9) führt zu Gleichung (11): L T = t = 1 T q ( x 0 : T ) log ( p ( y t | x t ) ) d x 0 : T t = 1 T q ( ƒ t ) KL [ q ( x t , ƒ t ) p ( x t , ƒ t ) ] d ƒ t KL [ q ( x 0 ) p ( x 0 ) ] KL [ q ( u ) p ( u ) ]
    Figure DE102021200569A1_0040
  • Die freie Gaußdichte der zusätzlichen Werte, u, kann beschrieben werden als q ( u ) = N ( u | μ u , Σ u ) .
    Figure DE102021200569A1_0041
  • Gemäß verschiedenen Ausführungsformen kann q(xi|fi) beschrieben werden als q ( x i | ƒ i ) = N ( x i | A i 1 ƒ ˜ i 1 + b i 1 , S i 1 )
    Figure DE102021200569A1_0042
    wobei Ai , bi und Si freie Variationsparameter sind.
  • Mehr Details zum Lernen des GPSSM werden in Referenz [2] beschrieben.
  • Gemäß verschiedenen Ausführungsformen kann f̃i=xi gesetzt werden. Dadurch kann beispielsweise ein stabiler Fortschritt der Genauigkeit des GPSSM während des Trainierens gewährleistet werden. Ferner kann dies eine verringerte Anzahl an Iterationen erfordern, wodurch ein Zeitaufwand des Trainings verringert wird. Unter Verwendung von f̃i=xi können die freien Variationsparameter in Gleichung (12) beschrieben werden als: S i 1 = ( Q 1 + C T R 1 C ) 1 ,
    Figure DE102021200569A1_0043
    A i 1 = S i 1 Q 1
    Figure DE102021200569A1_0044
    und b i 1 = S i 1 C T R 1 ( y t d ) .
    Figure DE102021200569A1_0045
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 für die derzeitigen Trainingsdaten D { y 1 : T , x 0 : T , ƒ }
    Figure DE102021200569A1_0046
    gelernt werden. Die Ausgangsgrößenvorhersagefunktion, ot, des gelernten GPSSM 200 kann unter Verwendung eines jeweiligen Steuerparameters c C d c
    Figure DE102021200569A1_0047
    und der derzeitigen Trainingsdaten D { y 1 : T , x 0 : T , ƒ }
    Figure DE102021200569A1_0048
    eine Ausgangsgrößen-Normalverteilung p(y) ermitteln. Gemäß verschiedenen Ausführungsformen kann eine Ausgangsgrößen-Normalverteilung einer für einen Steuerparameter c* vorhergesagten Ausgangsgröße y* mittels der prädiktiven Verteilung p ( y * | c * , D )
    Figure DE102021200569A1_0049
    gemäß Gleichung (13) beschrieben werden: p ( y * | c * , D ) = N ( y * | C f ( x T , c * ) + d , R + C Q C T )
    Figure DE102021200569A1_0050
  • Gemäß verschiedenen Ausführungsformen kann f(xT,c*) unter Verwendung der während des Trainierens des GPSSM 200 bereits vorhergesagten Ausgangs-Zuständen x1:T ermittelt werden. Mehr Details hierzu sind in Referenz [2] beschrieben.
  • 3A zeigt ein Ablaufdiagramm 300 zum Trainieren des GPSSM 200 einer Robotervorrichtung, wie beispielsweise der Robotervorrichtung 101, gemäß verschiedenen Ausführungsformen. Im Folgenden wird das Trainieren des GPSSM 200 beispielhaft mit Bezug auf die Robotervorrichtung 101 beschrieben.
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 mittels aktivem Lernen trainiert werden. Bei einem aktiven Lernen kann ein Steuerparameter aktiv ausgewählt werden und die dem ausgewählten Steuerparameter zugeordnete Ausgangsgröße kann gemessen werden. Anschaulich kann derart die Menge der derzeitigen Trainingsdaten D { y 1 : T , x 0 : T , ƒ }
    Figure DE102021200569A1_0051
    vergrößert werden und das GPSSM 200 kann, wie mit Bezug auf 2 beschrieben, für die vergrößerte Menge an derzeitigen Trainingsdaten gelernt werden.
  • Das Trainieren eines GPSSM kann einen hohen Zeitaufwand bzw. einen hohen rechentechnischen Aufwand benötigen. Daher kann es wünschenswert sein, einen neuen Steuerparameter derart auszuwählen, dass der Zeitaufwand bzw. der rechentechnische Aufwand des Trainierens verringert wird. Anschaulich soll das GPSSM möglichst schnell gelernt werden. Gemäß verschiedenen Ausführungsformen wird hierfür eine Transinformation als Kriterium verwendet, wie im Folgenden in verschiedenen Ausführungsbeispielen beschrieben.
  • Die Robotervorrichtung 101 kann eingerichtet sein, mittels eines Steuerparameters, ct, der Vielzahl von Steuerparametern c C d c
    Figure DE102021200569A1_0052
    302 gesteuert zu werden.
  • Die Robotervorrichtung 101 kann in einem derzeitigen Eingangs-Zustand 304, xt, sein. Der derzeitige Eingangs-Zustand 304, xt, kann mittels der Übergangsfunktion, f, vorhergesagt werden bzw. während des bisherigen Trainierens vorhergesagt worden sein.
  • Gemäß verschiedenen Ausführungsformen kann für jeden Steuerparameter, ct, der Vielzahl von Steuerparametern c C d c
    Figure DE102021200569A1_0053
    302 eine jeweilige Übergangsnormalverteilung ft+1 und eine jeweilige Ausgangsgrößen-Normalverteilung ŷt+1 der vorhergesagten Ausgangsgröße ermittelt 306 werden. Für jeden Steuerparameter, ct, der Vielzahl von Steuerparametern c C d c
    Figure DE102021200569A1_0054
    302 können der dem jeweiligen Steuerparameter, ct, und dem derzeitigen Eingangszustand 304 zugeordnete Übergangsnormalverteilung ft+1 und die dem jeweiligen vorhergesagten Ausgangs-Zustand, xt+1, zugeordnete Ausgangsgrößen-Normalverteilung ŷt+1 der vorhergesagten Ausgangsgröße ermittelt 306 werden. Anschaulich kann die Übergangsnormalverteilung ft+1 eine derzeitige Übergangsnormalverteilung sein und die Ausgangsgrößen-Normalverteilung ŷt+1 kann eine derzeitige Ausgangsgrößen-Normalverteilung sein. Die Ausgangsgrößen-Normalverteilung ŷt+1 kann für einen jeweiligen Steuerparameter, ct, mittels Gleichung (13), p ( y * | c * , D ) = N ( y * | C ƒ ( x T , c * ) + d , R + C Q C T ) ,
    Figure DE102021200569A1_0055
    ermittelt werden. Anschaulich ist hierbei der jeweilige Steuerparameter, ct, die einzige unabhängige Variable.
  • Gemäß verschiedenen Ausführungsformen kann für jeden Steuerparameter, ct, der Vielzahl von Steuerparametern c C d c
    Figure DE102021200569A1_0056
    302 ein jeweiliger Wert einer Transinformation 308 ermittelt werden. In verschiedenen Ausführungsbeispielen kann die Transinformation (engl.: mutual information) 308, I, entweder (1) zwischen dem für den jeweiligen Steuerparameter, ct, ermittelten Übergang ft+1 und den ermittelten Ausgangsgrößen ŷt+1 gemäß Iŷt+1 ct-1 ft+1) (im Folgenden als derzeitige Transinformation bezeichnet) ermittelt werden oder (2) zwischen (a) einer gemeinsamen Wahrscheinlichkeitsverteilung aller gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0057
    sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgröße ŷt+1 und (b) einer gemeinsamen Wahrscheinlichkeitsverteilung der den gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0058
    zugeordneten Übergängen ƒ 1 : T { ƒ t } t = 1 T
    Figure DE102021200569A1_0059
    sowie dem für den jeweiligen Steuerparameter ermittelten derzeitigen Übergang ft+1 gemäß I ( y 1 : t , y ^ t + 1 ; ƒ 1 : t + 1 )
    Figure DE102021200569A1_0060
    (im Folgenden als gesamte Transinformation bezeichnet) ermittelt werden. Im Allgemeinen beschreibt eine Transinformation, wie unterschiedlich die gemeinsame Wahrscheinlichkeitsverteilung des Variablenpaares in Bezug auf das Produkt der marginalen Verteilungen der Variablen ist. Da sich die Transinformation auf Wahrscheinlichkeitsverteilungen der beiden Variablen bezieht, wird die Transinformation 308, I, im Folgenden auch als Transinformation entweder (1) zwischen der für den jeweiligen Steuerparameter, ct, ermittelten Übergangsnormalverteilung ft+ 1 und ermittelten Ausgangsgrößen-Normalverteilung ŷt+1 gemäß I ( y ^ t + 1 ; ƒ t + 1 )
    Figure DE102021200569A1_0061
    (im Folgenden als derzeitige Transinformation bezeichnet) ermittelt werden oder (2) zwischen (a) einer gemeinsamen Wahrscheinlichkeitsverteilung der zugeordneten Ausgangsgrößen-Normalverteilungen aller gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0062
    sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgrößen-Normalverteilung ŷt+1 und (b) einer gemeinsamen Wahrscheinlichkeitsverteilung der den gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0063
    zugeordneten Übergangsnormalverteilungen ƒ 1 : T { ƒ t } t = 1 T
    Figure DE102021200569A1_0064
    sowie der für den jeweiligen Steuerparameter ermittelten derzeitigen Übergangsnormalverteilung ft+1 gemäß I ( y 1 : t , y ^ t + 1 ; ƒ 1 : t + 1 )
    Figure DE102021200569A1_0065
    (im Folgenden als gesamte Transinformation bezeichnet) ermittelt werden.
  • (1) derzeitige Transinformation I ( y ^ t + 1 ; ƒ t + 1 )
    Figure DE102021200569A1_0066
  • Gemäß verschiedenen Ausführungsformen kann die Übergangsnormalverteilung ft+1 eines jeweiligen Steuerparameters, ct, ft+1 ≡ f (xt, ct) sein.
  • Beispielhaft für zwei zufällige Variablen x, y, kann p(y|x) beschrieben werden als p ( y | x ) = N ( y | μ ( x ) , σ 2 ( x ) ) .
    Figure DE102021200569A1_0067
    Für einen Mittelwert u und eine Varianz Σx kann p(x|u, Σx) beschrieben werden als p ( x | u , x ) = N ( x | u , x ) .
    Figure DE102021200569A1_0068
    Hierbei kann das approximierte Gaußintegral gemäß Gleichung (14) beschrieben werden: p ( y | x ) p ( x | u , x ) d x N ( M ( u , x ) , V ( u , x ) )
    Figure DE102021200569A1_0069
    wobei M (u,Σx) und V(u,Σx) die zu ermittelten Integralfunktionen sind mit M ( u , x ) = μ ( x ) p ( x | u , x ) d x ,
    Figure DE102021200569A1_0070
    und V ( u , x ) = σ 2 ( x ) p ( x | u , x ) d x + μ 2 ( x ) p ( x | u , x ) d x M ( u , x ) 2 .
    Figure DE102021200569A1_0071
  • Sofern µ(x) linear ist (z.B. µ(x) = Fx + a) und σ2 (x) als Matrix A repräsentiert wird, kann das Gaußintegral mittels Gleichung (15) beschrieben werden: N ( y | F x + a , A ) N ( x | u , x ) d x = N ( y | a + F u , A + F x F T )
    Figure DE102021200569A1_0072
  • Für einen Gaußprozess (GP) können M (.,. ) und V(.,.) mittels des Erwartungswertes der Kernelfunktion k beschrieben werden: M ( ) = i = 1 t β i E x [ k ( x , x i ) ]
    Figure DE102021200569A1_0073
    V ( ) = E x [ k ( x , x ) ] i , j = 1 t ( K i j 1 β i β j ) E x [ k ( x , x i ) k ( x , x j ) ] M ( u , x ) 2
    Figure DE102021200569A1_0074
    wobei β = K-1y , β = { β i } i = 1 t
    Figure DE102021200569A1_0075
    und K die Kovarianzmatrix des Gaußprozesses ist.
  • Mit Bezug auf die Gleichungen (15) und (16) sind die folgenden Terme zu ermitteln: l : = E x [ k ( x , x ) ] ,
    Figure DE102021200569A1_0076
    l i : = E x [ k ( x , x i ) ] ,
    Figure DE102021200569A1_0077
    l i j : = E x [ k ( x , x i ) k ( x , x j ) ] .
    Figure DE102021200569A1_0078
  • Hat die Kernelfunktion eine quadratisch exponentielle Form, wie beispielsweise k ( x i , x j ) = σ 2 exp [ 1 2 ( x i x j ) T Λ 1 ( x i x j ) , ] ,
    Figure DE102021200569A1_0079
    so kann k(xi,xj) beschrieben werden als k ( x i , x j ) = c N ( x i | x j , Λ )
    Figure DE102021200569A1_0080
    mit c = ( 2 π ) d x / 2 | Λ | 1 / 2 σ 2 .
    Figure DE102021200569A1_0081
    In diesem Fall kann gelten: l = l = σ 2 ,
    Figure DE102021200569A1_0082
    l i = c N ( u | x i , Λ + x ) ,
    Figure DE102021200569A1_0083
    l i j : = c N ( x i | x i ,2 Λ ) N ( u | 1 2 ( x i + x j ) , 1 2 Λ + x )
    Figure DE102021200569A1_0084
  • Zur Vereinfachung wird die derzeitige Transinformation I(ŷt+1; ft+1) im Folgenden mittels I(yt: ft) beschrieben. Die derzeitige Transinformation I(yt: ft) kann beschrieben werden mittels I(yt: ft) = h(yt) - h(yt|ft), wobei h(·) die differentielle Entropie ist. Die Ausgangsgrößen-Normalverteilung p(yt) kann gemäß Gleichung (17) beschrieben werden: p ( y t ) = p ( y t , x 0 : t , ƒ 1 : t ) d x 0 : t d ƒ 1 : t = p ( y t , x 0 : t , ƒ 1 : t ) p ( x t | x 0 : t 1 . ƒ 1 : t ) p ( ƒ t | x 0 : t 1 . ƒ 1 : t 1 ) p ( x 0 : t 1 , ƒ 1 : t 1 ) d x 0 : t d ƒ 1 : t = p ( y t , x t ) p ( x t | ƒ t ) p ( ƒ t | x 0 : t 1 . ƒ 1 : t 1 ) p ( x 0 : t 1 , ƒ 1 : t 1 ) d x 0 : t d ƒ 1 : t = p ( y t | x t ) i = 1 t p ( x i | f i ) p ( f i | x 0 : i 1 . ƒ 1 : i 1 ) p ( x 0 ) d x 0 : t d ƒ 1 : t = N ( y t | C x t + d . R ) i = 1 t N ( x i | f i . Q ) N ( ƒ i | M i 1 , K i 1 ) N ( x 0 | μ 0 . 0 ) d x 0 : t d ƒ 1 : t
    Figure DE102021200569A1_0085
    wobei f1:0≡ Ø ist.
  • Anschließend kann Gleichung (17) integriert werden in der Reihenfolge:
    x0 → f1 → x1 . . . → ft→ xt beginnend mit N ( ƒ 1 | M 0 , K 0 ) N ( x 0 | μ 0 , 0 ) d x 0 .
    Figure DE102021200569A1_0086
    Unter Verwendung von Gleichung (14) kann N ( ƒ 1 | M 0 , K 0 ) N ( x 0 | μ 0 , 0 ) d x 0
    Figure DE102021200569A1_0087
    mittels Gleichung (18) approximiert werden: N ( f 1 | M 0 , K 0 ) N ( x 0 | μ 0 , 0 ) d x 0 N ( ƒ 1 M ( μ 0 , 0 ) , V ( μ 0 , 0 ) ) = : N ( f 1 | M 1 , V 1 )
    Figure DE102021200569A1_0088
  • Anschließend kann N ( x 1 | ƒ 1 , Q ) N ( ƒ 1 | M 1 , V 1 ) d ƒ 1 = N ( x 1 | M 1 , Q + V 1 )
    Figure DE102021200569A1_0089
    integriert werden. Die Integration der Gleichung (17) kann fortgesetzt werden, bis Mt und Vt definiert sind: N ( ƒ 2 | M 1 , K 1 ) N ( x 1 | M 1 , Q + V 1 ) d x 1 N ( ƒ 2 | M ( M 1 , Q + V 1 ) , V ( M 1 , Q + V 1 ) ) = : N ( ƒ 2 | M 2 , V 2 ) , N ( x 2 | ƒ 2 , Q ) N ( ƒ 2 | M 2 , V 2 ) d ƒ 2 = N ( x 2 | M 2 , Q + V 2 ) , N ( ƒ t | M t 1 , K t 1 ) N ( x t 1 | M t 1 , Q + V t 1 ) d x t 1 N ( ƒ t | M ( M t 1 , Q + V t 1 ) , V ( M t 1 , Q + V t 1 ) ) = N ( ƒ t | M t , V t ) N ( x t | ƒ t , Q ) N ( ƒ t | M t , V t ) d ƒ t = N ( x t | M t , Q + V t ) .
    Figure DE102021200569A1_0090
  • Die abschließende Integration bezüglich xt kann gegeben sein durch: N ( y t | C x t + d , R ) N ( x t | M t , Q + V t ) d x t = N ( y t | C M t + d , R + C ( Q + V t ) C T ) .
    Figure DE102021200569A1_0091
    Hierbei kann p ( y t ) N ( y t | C M t + d , R + C ( Q + V t ) C T )
    Figure DE102021200569A1_0092
    sein, so dass die differentielle Entropie h(yt) in der Gleichung I(yt : ft) = h(yt) - h(yt |ft) mittels Gleichung (19) ermittelt werden kann: h ( y t ) 1 2 logdet ( 2 π e ( R + C ( Q + V t ) C T ) )
    Figure DE102021200569A1_0093
  • Der Term p(yt|ft) kann ermittelt werden gemäß: p ( y t | f t ) = p ( y t , x t | ƒ t ) d x t = p ( y t | x t , ƒ t ) p ( x t | ƒ t ) d x t = p ( y t | x t ) p ( x t | ƒ t ) d x t = N ( y t | C x t + d , R ) N ( x t | ƒ t , Q ) d x t = N ( y t | C ƒ t + d , R + C Q C T ) .
    Figure DE102021200569A1_0094
  • Die differentielle Entropie h(yt|ft) in der Gleichung I(yt:ft) = h(yt) - h(yt|ft) kann mittels Gleichung (20) ermittelt werden: h ( y t | ƒ t ) = 1 2 logdet ( 2 π e ( R + C Q C T ) )
    Figure DE102021200569A1_0095
  • Ein Einsetzen der Gleichungen (19) und (20) in die derzeitige Transinformation I(yt: ft) = h(yt) - h(yt|ft) führt zu Gleichung (21): I ( y t : ƒ t ) 1 2 logdet ( 2 π e ( R + C ( Q + V t ) C T ) ) 1 2 logdet ( 2 π e ( R + C Q C T ) ) = 1 2 log ( det ( R + C ( Q + V t ) C T ) det ( R + C Q C T ) ) .
    Figure DE102021200569A1_0096
    Anschaulich kann die derzeitige Transinformation I(yt:ft) unter Verwendung der Nomenklatur der Gleichungen (1) bis (4) und (6) gemäß Gleichung (21) ermittelt (z.B. approximiert, z.B. abgeschätzt) werden.
  • (2) gesamte Transinformation I ( y 1 : t , y ^ t + 1 ; ƒ 1 : t + 1 )
    Figure DE102021200569A1_0097
  • Anschaulich kann y1:t, ŷt+1 die gemeinsame Wahrscheinlichkeitsverteilung der gemessenen Ausgangsgrößen y 1 : T { y t } t = 1 T
    Figure DE102021200569A1_0098
    und der für den jeweiligen Steuerparameter ermittelten derzeitigen Ausgangsgrößen-Normalverteilung ŷt+1 sein.
  • Anschaulich kann f1:t+1 die gemeinsamen Wahrscheinlichkeitsverteilung der bekannten Übergangsnormalverteilungen ƒ 1 : T { ƒ t } t = 1 T
    Figure DE102021200569A1_0099
    und der für den jeweiligen Steuerparameter ermittelten derzeitigen Übergangsnormalverteilung ft+1 sein.
  • Zur Vereinfachung wird die gesamte Transinformation I(y1:t ,ŷt+1; f1:t+1) im Folgenden mittels I(y1:t; f1:t) beschrieben.
  • Gemäß verschiedenen Ausführungsformen kann die gesamte Transinformation
    I(y1:t; f1:t) unter Verwendung der in Gleichung (11) gegebenen Evidenzuntergrenze L t
    Figure DE102021200569A1_0100
    ermittelt werden. Gemäß verschiedenen Ausführungsformen kann eine Anzahl von S Stichproben entnommen werden mit s = 1,···,S.
  • Die gesamte Transinformation I(y1:t;f1:t) kann beschrieben werden als
    I(y1:t; f1:t) = h(y1:t) - h(y1:t| f1:t). Die differentielle Entropie h(·) kann für die S Stichproben mittels Gleichung (22) beschrieben werden: h ( · ) = 1 S i = 1 S log ( 1 p ^ s ( · ) )
    Figure DE102021200569A1_0101
    wobei p̂s (·) die Wahrscheinlichkeitsdichtefunktion (PDF) ist.
  • Für eine erste Wahrscheinlichkeitsdichtefunktion p̂s (y1:t) und eine zweite Wahrscheinlichkeitsdichtefunktion p̂s (y1:t| f1:t) kann die gesamte Transinformation I(y1:t; f1:t) mittels Gleichung (23) beschrieben werden: I ( y 1 : t : ƒ 1 : t ) 1 S s = 1 S log ( 1 p ^ s ( y 1 : t ) ) 1 S s = 1 S log ( 1 p ^ s ( y 1 : t | ƒ 1 : t ) ) = 1 S s = 1 S ( log ( p ^ s ( y 1 : t | ƒ 1 : t ) ) log ( p ^ s ( y 1 : t ) ) )
    Figure DE102021200569A1_0102
  • Aus Gleichung (23) ergibt sich, dass die Transinformation is der s-ten Stichprobe mittels Gleichung (24) beschrieben werden kann. i s : = log ( p ^ s ( y 1 : t | ƒ 1 : t ) ) L t , s
    Figure DE102021200569A1_0103
  • Hieraus ergibt sich unter Verwendung der Evidenzuntergrenze L t
    Figure DE102021200569A1_0104
    der s-ten Stichprobe ( L t , s )
    Figure DE102021200569A1_0105
    und unter Verwendung von log ( p ( y 1 : t ) ) L t
    Figure DE102021200569A1_0106
    eine Grenze (in manchen Aspekten auch als Schrankenwert bezeichnet) der Transinformation is gemäß Gleichung (25): i s log ( p ^ s ( y 1 : t | ƒ 1 : t ) ) L t , s
    Figure DE102021200569A1_0107
  • Die zweite Wahrscheinlichkeitsdichtefunktion p ^ s ( y 1 : t | ƒ 1 : t )
    Figure DE102021200569A1_0108
    kann mittels Gleichung (26) ermittelt werden: p ^ s ( y 1 : t | ƒ 1 : t ) = p ^ s ( y 1 : t , x 0 : t | ƒ 1 : t ) d x 0 : t = p ^ s ( y t y 1 : t 1 , x 0 : t , ƒ 1 : t ) p ^ s ( x t | y 1 : t 1 , x 0 : t 1 , x 0 : t 1 . ƒ 1 : t ) p ^ s ( y 1 : t 1 , x 0 : t 1 | ƒ 1 : t ) d x 0 : t = i = 1 t p ^ s ( y i | x i ) p ^ s ( x i | ƒ i ) d x 1 : t
    Figure DE102021200569A1_0109
  • Unter Verwendung der Nomenklatur der Gleichungen (1) bis (4) kann i = 1 t p ^ s ( y i | x i ) p ^ s ( x i | ƒ i ) d x 1 : t
    Figure DE102021200569A1_0110
    der Gleichung (26) gemäß Gleichung (27) beschrieben werden: i = 1 t p ^ s ( y i | x i ) p ^ s ( x i | ƒ i ) d x 1 : t = i = 1 t N s ( y i | C x i + d , R ) N s ( x i | ƒ i , Q ) d x 1 : t = i = 1 t ( N s ( y i | C x i + d , R ) N ( x i | ƒ i , Q ) d x i ) = i = 1 t N s ( y i | C ƒ i + d , R + C Q C T ) .
    Figure DE102021200569A1_0111
    wobei N s ( . )
    Figure DE102021200569A1_0112
    die Normalverteilung der s-ten Stichprobe ist.
  • Unter Verwendung der Gleichungen (26) und (27) und einem Umrechnen der Produkte in Gleichung (27) in eine Summe der Logarithmen kann die Transinformation is der Gleichung (25) mittels Gleichung (28) ermittelt werden: i s i = 1 t log ( N s ( y i | C ƒ i + d , R + C Q C T ) ) L t , s
    Figure DE102021200569A1_0113
  • Die gesamte Transinformation I(y1:t; f1:t) kann somit gemäß Gleichung (29) ermittelt werden: I ( y 1 : t ; ƒ 1 : t ) 1 S s = 1 S i s
    Figure DE102021200569A1_0114
  • Bezüglich Gaußprozess-Zustandsraummodellen kann angenommen werden, dass die Markow-Eigenschaft erfüllt ist (dass die latenten Zustände die Markow-Eigenschaft erfüllen). In diesem Fall kann beispielsweise die derzeitige Transinformation I(ŷt+1;ft+1) verwendet werden. Allerdings ist es möglich, dass die Markow-Eigenschaft nicht vollständig erfüllt ist und dass schwache Abhängigkeiten zwischen den latenten Zuständen vorliegen. In diesem Fall kann die gesamte Transinformation I(y1:t, ŷt+1; f1:t+1) die aktive Auswahl eines Steuerparameters dahingehend verbessern, dass ein Zeitaufwand des Trainierens signifikant verringert wird.
  • Mit Bezug auf 3A kann gemäß verschiedenen Ausführungsformen der Steuerparameter c t *
    Figure DE102021200569A1_0115
    der Vielzahl von Steuerparametern c C d c
    Figure DE102021200569A1_0116
    302 mit dem höchsten Wert der Transinformation 308 als neuer Steuerparameter 310 ausgewählt werden.
  • Im Falle der derzeitigen Transinformation I(ŷt+1 ; ft+1) kann der neue Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0117
    gemäß Gleichung (30) ausgewählt werden: c t * = argmax c t C I ( y ^ t + 1 ; ƒ t + 1 )
    Figure DE102021200569A1_0118
    wobei die derzeitige Transinformation I(ŷt+1 ; ft+1) unter Verwendung von Gleichung (21) ermittelt werden kann.
  • Im Falle der gesamten Transinformation I(y1:t ,ŷt+1; f1:+1) kann der neue Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0119
    gemäß Gleichung (31) ausgewählt werden: c t * = argmax c t C I ( y 1 : t ; y ^ t + 1 ; ƒ 1 : t + 1 )
    Figure DE102021200569A1_0120
    wobei die gesamte Transinformation I(y1:t , ŷt+1; f1:t+1) unter Verwendung der Gleichungen (28) und (29) ermittelt werden kann.
  • Gemäß verschiedenen Ausführungsformen kann der neue Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0121
    auf eine verschiedene Weise unter Verwendung der ermittelten Transinformation 308 ausgewählt werden. Zum Beispiel können zusätzliche Bedingungen berücksichtigt werden.
  • Zum Beispiel kann der Steuerparameter mit dem zweithöchsten Wert, dem dritthöchsten Wert, etc. als der neue Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0122
    ausgewählt werden.
  • Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310, c t * ,
    Figure DE102021200569A1_0123
    gesteuert 312 werden. Zum Beispiel kann die Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310, c t * ,
    Figure DE102021200569A1_0124
    zu steuern 312.
  • Gemäß verschiedenen Ausführungsformen kann eine dem neuen Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0125
    zugeordnete Ausgangsgröße 314, yt+1, der Robotervorrichtung 101 gemessen werden. Zum Beispiel können die ein oder mehrere Sensoren der Robotervorrichtungsanordnung 100 eingerichtet sein, die dem neuen Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0126
    zugeordnete Ausgangsgröße 314, yt+1, zu messen. Zum Beispiel können die ein oder mehrere Sensoren der Robotervorrichtungsanordnung 100 eingerichtet sein, Daten zu erfassen, welche die dem neuen Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0127
    zugeordnete Ausgangsgröße 314, yt+1, beschreiben und der Computer 110 kann eingerichtet sein, unter Verwendung der erfassten Daten die dem neuen Steuerparameter 310, c t * ,
    Figure DE102021200569A1_0128
    zugeordnete Ausgangsgröße 314, yt+1, zu ermitteln.
  • Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung des neuen Steuerparameters 310, c t * ,
    Figure DE102021200569A1_0129
    und der dem neuen Steuerparameter 310 zugeordneten Ausgangsgröße 314, yt+1, trainiert werden. Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 unter Verwendung des neuen Steuerparameters 310, c t * ,
    Figure DE102021200569A1_0130
    und der dem neuen Steuerparameter 310 zugeordneten Ausgangsgröße 314, yt+1, derart trainiert werden, dass eine Differenz zwischen der gemessenen Ausgangsgröße und einem Mittelwert der für den neuen Steuerparameter 310 ermittelten Ausgangsgrößen-Normalverteilung reduziert (z.B. minimiert) wird. Gemäß verschiedenen Ausführungsformen können der vorhergesagte Ausgangs-Zustand und die gemessene Ausgangsgröße ŷt+1 den Trainingsdaten D { y 1 : T , x 0 : T , ƒ }
    Figure DE102021200569A1_0131
    hinzugefügt werden und das GPSSM 200 kann, wie mit Bezug auf 2 beschrieben, für diese Trainingsdaten gelernt werden.
  • 3B zeigt das Ablaufdiagramm 300 zum Trainieren des GPSSM 200 gemäß verschiedenen Ausführungsformen. Das Steuern 312 der Robotervorrichtung 101 unter Verwendung des neuen Steuerparameters 310 kann zu einem neuen latenten Zustand der Robotervorrichtung führen. Gemäß verschiedenen Ausführungsformen kann das GPSSM 200 iterativ trainiert werden. Hierbei kann das Ablaufdiagramm 300 iterativ für den neuen Zustand der Robotervorrichtung 101 als derzeitiger Zustand der Robotervorrichtung 101 durchgeführt werden. Gemäß verschiedenen Ausführungsformen kann der in einer Iteration unter Verwendung der Übergangsfunktion, ft+1 , vorhergesagte Ausgangs-Zustand 318, xt+1, der Robotervorrichtung 101 der derzeitige Eingangs-Zustand 304, xt, der nachfolgenden Iteration sein.
  • Gemäß verschiedenen Ausführungsformen kann das aktive Lernen eines GPSSM mittels einer hierin beschriebenen Transinformation mittels des Algorithmus 1 beschrieben werden:
    Figure DE102021200569A1_0132
    wobei das optimierte GPSSM die für die gemessen Ausgangsgrößen y1:T+N und die zugeordneten Steuerparameter c0:T+N gelernt wird bzw. nach N Iterationen gelernt wurde.
  • 4 zeigt ein Ablaufdiagramm 400 eines Verfahrens zum Trainieren eines Gaußprozess-Zustandsraummodells einer Robotervorrichtung, gemäß verschiedenen Ausführungsformen. Das Gaußprozess-Zustandsraummodell kann einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreiben. Das Gaußprozess-Zustandsraummodell kann eine Übergangsfunktion und eine Ausgangsgrößenvorhersagefunktion aufweisen. Die Übergangsfunktion kann einen Eingangs-Zustand der Robotervorrichtung und einen Steuerparameter der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung gemäß einer dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand abbilden. Die Ausgangsgrößenvorhersagefunktion kann den vorhergesagten Ausgangs-Zustand gemäß einer dem vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße der Robotervorrichtung abbilden.
  • Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln der dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung aufweisen (in 404).
  • Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln der dem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung aufweisen (in 406).
  • Das Verfahren kann für jeden Steuerparameter der Vielzahl von Steuerparametern (in 402) ein Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung aufweisen (in 408).
  • Das Verfahren kann ein Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter aufweisen (in 410).
  • Das Verfahren kann ein Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und ein Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung aufweisen (in 412).
  • Das Verfahren kann ein Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweisen (in 414). Das Gaußprozess-Zustandsraummodell kann unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart trainiert werden, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den jeweiligen neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert (z.B. minimiert) wird. Gemäß verschiedenen Ausführungsformen kann das Gaußprozess-Zustandsraummodell unter Verwendung eines bisherigen Trainingsdatensatzes an für Steuerparameter gemessenen Ausgangsgrößen und der für den neuen Steuerparameter ermittelten Ausgangsgröße gelernt werden. Anschaulich kann der Trainingsdatensatz an bisher gemessenen Ausgangsgrößen um die für den neuen Steuerparameter ermittelten Ausgangsgröße erweitert werden und das Gaußprozess-Zustandsraummodell kann für den erweiterten Trainingsdatensatz gelernt werden.
  • Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren eines Steuerungsmodells zum Steuern einer Robotervorrichtung bereitstellt. Das Verfahren kann für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung ein Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines trainierten Gaußprozess-Zustandsraummodells aufweisen. Das trainierte Gaußprozess-Zustandsraummodell kann zum Beispiel gemäß dem in 4 beschriebenen Verfahren trainiert worden sein. Das trainierte Gaußprozess-Zustandsraummodell kann zum Beispiel gemäß dem Algorithmus 1 trainiert worden sein. Das Verfahren kann ein Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen aufweisen. Gemäß verschiedenen Ausführungsformen kann das Steuerungsmodell unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart trainiert werden, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt. In einem anschaulichen Beispiel kann das trainierte Steuerungsmodell eine anzulegende Spannung ausgeben, mittels welcher eine gewünschte Zielgröße der Robotervorrichtung erreicht wird.

Claims (12)

  1. Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells, wobei das Gaußprozess-Zustandsraummodell einen Zusammenhang zwischen ausgewählten Steuerparametern einer Vielzahl von Steuerparametern zum Steuern einer Robotervorrichtung und jeweils zugeordneten gemessenen Ausgangsgrößen der Robotervorrichtung beschreibt, wobei das Gaußprozess-Zustandsraummodell eine Übergangsfunktion und eine Ausgangsgrößenvorhersagefunktion aufweist, wobei die Übergangsfunktion einen Eingangs-Zustand der Robotervorrichtung und einen Steuerparameter der Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung gemäß einer dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Ausgangs-Zustand abbildet, und wobei die Ausgangsgrößenvorhersagefunktion den vorhergesagten Ausgangs-Zustand gemäß einer dem vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung auf eine Ausgangsgröße der Robotervorrichtung abbildet, das Verfahren aufweisend: · für jeden Steuerparameter der Vielzahl von Steuerparametern: Ermitteln der dem jeweiligen Steuerparameter und einem derzeitigen Eingangs-Zustand der Robotervorrichtung zugeordneten Übergangsnormalverteilung; Ermitteln der dem jeweiligen vorhergesagten Ausgangs-Zustand zugeordneten Ausgangsgrößen-Normalverteilung; und Ermitteln eines jeweiligen Wertes einer Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung; • Auswählen des Steuerparameters mit dem höchsten Wert der Transinformation als neuen Steuerparameter; • Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters und Messen einer dem neuen Steuerparameter zugeordneten Ausgangsgröße der Robotervorrichtung; und • Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung derart, dass eine Differenz zwischen der gemessenen Ausgangsgröße der Robotervorrichtung und einem Mittelwert der für den neuen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung reduziert wird.
  2. Verfahren gemäß Anspruch 1, wobei das Steuern der Robotervorrichtung unter Verwendung des neuen Steuerparameters zu einem neuen Zustand der Robotervorrichtung führt; und wobei das Verfahren iterativ für den jeweils neuen Zustand der Robotervorrichtung als derzeitigen Zustand der Robotervorrichtung durchgeführt wird, wobei der für den jeweiligen neuen Steuerparameter vorhergesagte Ausgangs-Zustand der derzeitige Eingangs-Zustand der Robotervorrichtung der nachfolgenden Iteration ist.
  3. Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die Übergangsfunktion den Eingangs-Zustand der Robotervorrichtung und den Steuerparameter der Vielzahl von Steuerparametern gemäß der dem Steuerparameter und dem Eingangs-Zustand zugeordneten Übergangsnormalverteilung auf einen vorhergesagten Zwischen-Zustand abbildet; und wobei die Übergangsfunktion den vorhergesagten Zwischen-Zustand unter Verwendung eines Zustands-Rauschens auf den vorhergesagten Ausgangs-Zustand abbildet.
  4. Verfahren gemäß einem der Ansprüche 1 bis 3, wobei jeder gemessenen Ausgangsgröße der Robotervorrichtung eine jeweilige mittels der Übergangsfunktion ermittelte Übergangsnormalverteilung und eine jeweilige mittels der Ausgangsgrößenvorhersagefunktion ermittelte Ausgangsgrößen-Normalverteilung zugeordnet ist; wobei die Transinformation zwischen der ermittelten Ausgangsgrößen-Normalverteilung und der ermittelten Übergangsnormalverteilung eines jeweiligen Steuerparameters eine Transinformation zwischen: • einer gemeinsamen Wahrscheinlichkeitsverteilung der Ausgangsgrößen, welche die den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen und die für den jeweiligen Steuerparameter ermittelte Ausgangsgrößen-Normalverteilung aufweist; und • einer gemeinsamen Wahrscheinlichkeitsverteilung der Übergangsnormalverteilungen, welche die den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen und die für den jeweiligen Steuerparameter ermittelte Übergangsnormalverteilung aufweist, ist.
  5. Verfahren gemäß Anspruch 4, wobei das Ermitteln des Wertes der Transinformation zwischen den den gemessenen Ausgangsgrößen zugeordneten Ausgangsgrößen-Normalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Ausgangsgrößen-Normalverteilung und den den gemessenen Ausgangsgrößen zugeordneten Übergangsnormalverteilungen sowie der für den jeweiligen Steuerparameter ermittelten Übergangsnormalverteilung aufweist: • für jeden Abtastwert einer Vielzahl von Abtastwerten: für jede gemessene Ausgangsgröße der Robotervorrichtung, Ermitteln eines jeweiligen Schrankenwertes mittels einer Differenz aus einem Logarithmus einer allen gemessenen Ausgangsgrößen zugeordneten Wahrscheinlichkeitsdichtefunktion und einer für die jeweilige gemessene Ausgangsgröße ermittelten Evidenzuntergrenze; Summieren der für alle gemessenen Ausgangsgrößen ermittelten Schrankwerte; • Ermitteln eines Mittelwertes der summierten Schrankenwerte aller Abtastwerte der Vielzahl von Abtastwerten als Wert der Transinformation.
  6. Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der derzeitige Eingangs-Zustand der Robotervorrichtung ein latenter Zustand ist.
  7. Verfahren gemäß einem der Ansprüche 1 bis 6, wobei das Trainieren des Gaußprozess-Zustandsraummodells unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung ein Trainieren des Gaußprozess-Zustandsraummodells mittels eines Variationsinferenz-Verfahrens unter Verwendung des neuen Steuerparameters und der zugeordneten gemessenen Ausgangsgröße der Robotervorrichtung aufweist.
  8. Robotervorrichtung, die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
  9. Verfahren zum Trainieren eines Steuerungsmodells, eingerichtet zum Steuern einer Robotervorrichtung, das Verfahren aufweisend: für jeden Steuerparameter einer Vielzahl von Steuerparametern zum Steuern der Robotervorrichtung, Ermitteln einer jeweiligen Ausgangsgröße einer Vielzahl von Ausgangsgrößen der Robotervorrichtung mittels eines gemäß einem der Ansprüche 1 bis 7 trainierten Gaußprozess-Zustandsraummodells; Trainieren des Steuerungsmodells unter Verwendung der Vielzahl von Steuerparametern und der ermittelten Vielzahl von Ausgangsgrößen derart, dass das trainierte Steuerungsmodell für eine Ziel-Ausgangsgröße einen Steuerparameter ausgibt.
  10. Robotervorrichtung, aufweisend: • eine Speichereinrichtung, die eingerichtet ist, das gemäß Anspruch 9 trainierte Steuerungsmodell zu speichern; und • eine Steuereinrichtung, die eingerichtet ist, die Robotervorrichtung gemäß dem trainierten Steuerungsmodell zu steuern.
  11. Computerprogramm, das Instruktionen aufweist, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.
  12. Computerlesbares Medium, das Instruktionen speichert, die bei Ausführung durch einen Computer bewirken, dass der Computer ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.
DE102021200569.1A 2021-01-22 2021-01-22 Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells Pending DE102021200569A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102021200569.1A DE102021200569A1 (de) 2021-01-22 2021-01-22 Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells
US17/648,069 US20220245521A1 (en) 2021-01-22 2022-01-14 Device and method for training a gaussian process state space model
CN202210072384.2A CN114770492A (zh) 2021-01-22 2022-01-21 用于训练高斯过程状态空间模型的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021200569.1A DE102021200569A1 (de) 2021-01-22 2021-01-22 Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells

Publications (1)

Publication Number Publication Date
DE102021200569A1 true DE102021200569A1 (de) 2022-07-28

Family

ID=82321117

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021200569.1A Pending DE102021200569A1 (de) 2021-01-22 2021-01-22 Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells

Country Status (3)

Country Link
US (1) US20220245521A1 (de)
CN (1) CN114770492A (de)
DE (1) DE102021200569A1 (de)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010021607B4 (de) 2009-05-28 2015-06-25 GM Global Technology Operations LLC (n. d. Ges. d. Staates Delaware) Kontaktzustandsschätzung für Roboterhände mit mehreren Fingern unter Verwendung von Partikel-Filtern
DE202017106506U1 (de) 2016-11-15 2018-04-03 Google Llc Einrichtung für tiefes Maschinenlernen zum Robotergreifen
EP3432271A1 (de) 2017-07-20 2019-01-23 Tata Consultancy Services Limited Systeme und verfahren zur erfassung von griffpositionen zur handhabung von zielobjekten
WO2019241680A1 (en) 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
US20200086483A1 (en) 2018-09-15 2020-03-19 X Development Llc Action prediction networks for robotic grasping
US20200230815A1 (en) 2019-01-22 2020-07-23 Mitsubishi Electric Research Laboratories, Inc. System and Method for Automatic Error Recovery in Robotic Assembly
DE102019205651B3 (de) 2019-04-18 2020-08-20 Kuka Deutschland Gmbh Verfahren und System zum Ausführen von Roboterapplikationen
EP3747604A1 (de) 2019-06-07 2020-12-09 Robert Bosch GmbH Robotervorrichtungssteuergerät, robotervorrichtungsanordnung und verfahren zur steuerung einer robotervorrichtung
DE102020110650A1 (de) 2019-06-27 2020-12-31 Intel Corporation Automatische Roboterwahrnehmungsprogrammierung durch Initiationslernen
WO2021001312A1 (de) 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer applikation mithilfe wenigstens eines roboters

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010021607B4 (de) 2009-05-28 2015-06-25 GM Global Technology Operations LLC (n. d. Ges. d. Staates Delaware) Kontaktzustandsschätzung für Roboterhände mit mehreren Fingern unter Verwendung von Partikel-Filtern
DE202017106506U1 (de) 2016-11-15 2018-04-03 Google Llc Einrichtung für tiefes Maschinenlernen zum Robotergreifen
EP3432271A1 (de) 2017-07-20 2019-01-23 Tata Consultancy Services Limited Systeme und verfahren zur erfassung von griffpositionen zur handhabung von zielobjekten
WO2019241680A1 (en) 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
US20200086483A1 (en) 2018-09-15 2020-03-19 X Development Llc Action prediction networks for robotic grasping
US20200230815A1 (en) 2019-01-22 2020-07-23 Mitsubishi Electric Research Laboratories, Inc. System and Method for Automatic Error Recovery in Robotic Assembly
DE102019205651B3 (de) 2019-04-18 2020-08-20 Kuka Deutschland Gmbh Verfahren und System zum Ausführen von Roboterapplikationen
EP3747604A1 (de) 2019-06-07 2020-12-09 Robert Bosch GmbH Robotervorrichtungssteuergerät, robotervorrichtungsanordnung und verfahren zur steuerung einer robotervorrichtung
DE102020110650A1 (de) 2019-06-27 2020-12-31 Intel Corporation Automatische Roboterwahrnehmungsprogrammierung durch Initiationslernen
WO2021001312A1 (de) 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer applikation mithilfe wenigstens eines roboters

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CAPONE, Alexandre [et al.]: Localized active learning of Gaussian process state space models. In: Proceedings of Machine Learning Research, Vol. 120: 2nd Annual Conference on Learning for Dynamics and Control, 10-11 June 2020, The Cloud, 10 S. [S. 490-499]. - ISSN 2640-3498. URL: http://proceedings.mlr.press/v120/capone20a/capone20a.pdf [abgerufen am 2021-04-01]
FRIGOLA, Roger ; CHEN, Yutian ; RASMUSSEN, Carl E.: Variational Gaussian process state-space models. In: Advances in neural information processing systems 27 : 28th Annual Conference on Neural Information Processing Systems 2014 : December 8 - 13, 2014, Montreal, Canada. Vol. 4. Red Hook, N.Y. : Curran, 2015. 9 S. [S. 3680-3688] + 3 S. Supplementary material. - ISBN 978-1-5108-0041-0. URL: https://papers.nips.cc/paper/2014/hash/139f0874f2ded2e41b0393c4ac5644f7-Abstract.html [abgerufen am 2021-04-26]
IALONGO, Alessandro Davide [et al.]: Overcoming mean-field approximations in recurrent Gaussian process models. In: 36th International Conference on Machine Learning (ICML 2019) : Long Beach, California, USA, 9-15 June 2019. Part 8. Red Hook, N.Y. : Curran, 2019 (Proceedings of machine learning research ; 97). S. 5223-5232. - ISBN 978-1-5108-8698-8

Also Published As

Publication number Publication date
CN114770492A (zh) 2022-07-22
US20220245521A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
DE102018000730B4 (de) Werkstückaufnahmevorrichtung und Werkstückaufnahmeverfahren zum Verbessern des Aufnahmevorgangs eines Werkstücks
DE102019001948A1 (de) Steuerung und maschinelle Lernvorrichtung
EP3285975B1 (de) Steuern und/oder regeln von motoren eines roboters
DE112019002310T5 (de) Ausführen einer &#34;peg in hole&#34;-aufgabe mit unbekannter neigung
DE112013002018T5 (de) Echtzeithaltungs- und Bewegungsvorhersage bei der Ausführung von Betriebsaufgaben
DE102020209685B4 (de) Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
DE102010021607A1 (de) Kontaktzustandsschätzung für Roboterhände mit mehreren Fingern unter Verwendung von Partikel-Filtern
DE102021204697B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102020207085A1 (de) Verfahren zum steuern eines roboters und robotersteuereinheit
DE102018207421A1 (de) Verfahren und System zum Ermitteln einer erwarteten Vorrichtungskontur
DE102020214231A1 (de) Verfahren zum steuern einer robotervorrichtung und robotersteuereinrichtung
DE102020214633A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102018201570A1 (de) Multiple-Target-Object-Tracking-Verfahren, Vorrichtung und Computerprogramm zum Durchführen eines Multiple-Target-Object-Tracking für bewegliche Objekte
DE102015009892A1 (de) Verfahren und System zum Steuern eines Roboters
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102021200569A1 (de) Vorrichtung und Verfahren zum Trainieren eines Gaußprozess-Zustandsraummodells
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
DE102020205962B3 (de) Vorrichtung und Verfahren zum Betreiben eines Prüfstands
DE102021114768A1 (de) Fahrzeugsteuerung unter Verwendung eines Controllers eines neuronalen Netzes in Kombination mit einem modellbasierten Controller
DE102021210533A1 (de) Einrichtung und Verfahren zum Steuern eines Agenten
DE102019201045B4 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Aktion oder Trajektorie eines Roboters
DE102021204797A1 (de) Vorrichtung und Verfahren zum Erlernen einer Richtlinie für Geländefahrzeuge für Baustellen
DE102021200042A1 (de) Vorrichtung und Verfahren zum Verfahren zum Trainieren des neuronalen Driftnetzwerks und des neuronalen Diffusionsnetzwerks einer neuronalen stochastischen Differentialgleichung
DE102022212638B3 (de) Vorrichtung und Verfahren zum Steuern eines Roboters
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen

Legal Events

Date Code Title Description
R163 Identified publications notified