DE102020211648A1

DE102020211648A1 - Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung

Info

Publication number: DE102020211648A1
Application number: DE102020211648.2A
Authority: DE
Inventors: Fabian Otto
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2022-03-17
Also published as: US20220080586A1; CN114193443A

Abstract

Eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung werden offenbart, wobei das Verfahren (400) aufweist: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells (402); Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen (404); Projizieren der aktualisierten Strategie auf eine projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist (406); Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie (408); und Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells (410).

Description

Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung.
Robotervorrichtungen können unter Verwendung von Roboter-Steuerungsmodellen gesteuert werden. Dazu kann ein Roboter-Steuerungsmodell mittels maschinellen Lernens, wie beispielsweise bestärkendem Lernen (auch verstärkendes Lernen genannt, engl.: Reinforcement Learning), trainiert werden. Dabei kann das Roboter-Steuerungsmodell mittels einer auf ein Ziel gerichteten Strategie für einen derzeitigen Zustand der Robotervorrichtung eine durch die Robotervorrichtung durchzuführende Aktion auswählen. Anschaulich bildet die Strategie für einen jeweiligen Zustand von mehreren Zuständen auf eine Aktion von mehreren Aktionen ab. Während des Trainierens des Roboter-Steuerungsmodells und/oder während der Inferenz des trainierten Roboter-Steuerungsmodells kann die Strategie aktualisiert werden. Hierbei kann es erwünscht und/oder erforderlich sein, dass eine Ähnlichkeit zwischen der anfänglichen Strategie und der aktualisierten Strategie innerhalb eines vordefinierten Bereichs (z.B. eines Vertrauensbereichs) liegt.
In Schulman et al., Trust Region Policy Optimization, ICML, Proceedings of Machine Learning Research, 37, 2015, wird eine Vertrauensbereich-Strategie-Optimierung (TRPO) beschrieben, bei der eine Strategie-Aktualisierung unter einer Bedingung derart erfolgt, dass die aktualisierte Strategie innerhalb eines Vertrauensbereichs liegt. Hierbei ist die Bedingung eine heuristische Näherung der Kullback-Leibler-(KL)-Divergenz zwischen der anfänglichen Strategie und der aktualisierten Strategie unter Verwendung einer mittleren KL-Divergenz.
Allerdings ist bei bestärkendem Lernen der Exploration-Exploitation-Kompromiss (auch Exploration-Exploitation-Dilemma genannt) zu berücksichtigen.
In Abdolmaleki et al., Model-based relative entropy stochastic search, Advances in Neural Information Processing Systems, 2015, wird beschrieben, dass, falls bei der Aktualisierung der Strategie die Entropie der aktualisierten Strategie nicht berücksichtigt wird, dies aufgrund einer verstärkten Exploitation zu einer vorzeitigen Strategie-Konvergenz führen kann. Bei der Strategie-Aktualisierung innerhalb des Vertrauensbereichs kann die Entropie der Strategie als eine zusätzliche Bedingung berücksichtigt werden.
Akrour et al., Projections for Approximate Policy Iteration Algorithms, ICLR, 2019, baut auf das von Schulman et al. beschriebene TRPO-Verfahren und die von Abdolmaleki et al. beschriebene zusätzliche Bedingung der Strategie-Entropie auf, wobei eine aktualisierte bedingungs-beschränkte Strategie in eine bedingungs-unbeschränkte Strategie projiziert wird.
Allerdings basiert die bei TRPO verwendete Bedingung und damit auch die Projektion dieser auf der mittleren KL-Divergenz über alle Zustände. Daher könnten einzelne Zustände der projizierten Strategie die Bedingung des Vertrauensbereichs verletzten (z.B. außerhalb des Vertrauensbereichs liegen). Folglich könnte es erforderlich sein, ein Verfahren bereitzustellen, das imstande ist, bei der Aktualisierung der Strategie den Vertrauensbereich für jeden Zustand sicherzustellen.
Ferner sind die beschriebene Vertrauensbereich-Strategie-Optimierung und die Projektion der Strategie auf die gemittelte KL-Divergenz begrenzt. Daher könnte es hilfreich und/oder erforderlich sein, für die Projektion einer Strategie in einen Vertrauensbereich andere mathematische Methoden zu verwenden, wie beispielsweise mathematisch besser geeigneter Methoden (zum Beispiel mathematische Methoden, die einen geringeren rechentechnischen Aufwand erfordern, zum Beispiel mathematische Methoden, die in geschlossener Form gelöst werden können).
Ferner könnte es vorteilhaft und/oder für ein Ende-zu-Ende-Trainieren des Roboter-Steuerungsmodells erforderlich sein, ein Verfahren zur Projektion der Strategie in einen Vertrauensbereich bereitzustellen, mittels dessen die Strategie-Projektion als ein oder mehrere differenzierbare Schichten in einem neuronalen Netzwerk implementiert werden kann.
In Amos und Kolter, OptNet: Differentiable Optimization as a Layer in Neural Networks, 34th International Conference on Machine Learning, 2017 wird ein Verfahren beschrieben, das es ermöglicht, Optimierungsprobleme als differenzierbare Schichten in ein neuronales Netzwerk (OptNet) zu integrieren.
Das Verfahren und die Vorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 14 (achtzehntes Beispiel) ermöglichen, ein Roboter-Steuerungsmodell derart zu trainieren, dass bei einer Aktualisierung der Strategie des Roboter-Steuerungsmodells für jeden Zustand des Roboter-Steuerungsmodells ein Vertrauensbereich (z.B. ein jeweiliger Vertrauensbereich) sichergestellt wird.
Folglich sind die Vorrichtung und das Verfahren zum Steuern einer Robotervorrichtung imstande, das Roboter-Steuerungsmodell effizienter (z.B. schneller, z.B. mit einer höheren Genauigkeit, z.B. mit einem verbesserten Verhältnis von Exploration und Exploitation) zu trainieren.
Ein Roboter-Steuerungsmodell kann ein auf maschinellem Lernen basierendes Modell sein. Das Roboter-Steuerungsmodells kann beispielsweise einen bestärkendes-Lernen-Algorithmus aufweisen. Gemäß verschiedenen Ausführungsbeispielen kann zumindest ein Teil des Roboter-Steuerungsmodells mittels eines neuronalen Netzwerks implementiert werden.
Eine Robotervorrichtung kann jede Art von computergesteuerter Vorrichtung sein, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
Durch das Projizieren der aktualisierten Strategie des Roboter-Steuerungsmodells derart, dass der Vertrauensbereich für jeden Zustand des Roboter-Steuerungsmodells sichergestellt wird, kann beispielsweise der Exploration-Exploitation-Kompromiss beim bestärkenden Lernen kontrolliert (z.B. verbessert, z.B. optimiert) werden.
Das Ermitteln der aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen kann aufweisen: Ermitteln einer jeweiligen Belohnung für jede durchgeführte Aktion der durchgeführten Abfolge von Aktionen mittels Anwendens einer Belohnungsfunktion auf den jeweils resultierenden Zustand; und Ermitteln der aktualisierten Strategie unter Verwendung der anfänglichen Strategie und der ermittelten Belohnungen derart, dass eine erwartete Belohnung maximiert wird. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bilden ein drittes Beispiel.
Anschaulich kann die Bedingung, dass die Entropie für jeden Zustand der Vielzahl von Zuständen Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist, dazu führen, dass beim Aktualisieren der Strategie zum Beispiel nicht nur die Kovarianz, sondern auch der Erwartungswert der multivariaten Normalverteilung der Projizierten Strategie geändert wird.
Die anfängliche Strategie kann eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die aktualisierte Strategie kann eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die projizierte Strategie kann eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist; und eine Entropie der projizierten multivariaten Normalverteilung größer als oder gleich dem vordefinierten Entropie-Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem dritten Beispiel und dem vierten Beispiel bilden ein fünftes Beispiel.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Mahalanobis-Abstands und der Frobeniusnorm. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein sechstes Beispiel.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Wasserstein-Abstands. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein siebtes Beispiel.
Das Verwenden des Mahalanobis-Abstands und der Frobeniusnorm gemäß dem sechsten Beispiel oder des Wasserstein-Abstands gemäß dem siebten Beispiel hat den Effekt, dass die Projektion der aktualisierten Strategie in einer mathematisch geschlossenen Form ermittelt werden kann. Beispielsweise kann die derart ermittelte projizierte Strategie als eine Schicht (oder mehrere Schichten) in einem neuronalen Netzwerk integriert werden.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels eines numerischen Optimierers. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein achtes Beispiel.
Der numerische Optimierer kann die projizierte multivariate Normalverteilung unter Verwendung der Kullback-Leibler-Divergenz ermitteln. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem achten Beispiel bildet ein neuntes Beispiel.
Das Ermitteln der projizierten multivariaten Normalverteilung kann ein Lagrange-Multiplikatoren-Verfahren aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des sechsten Beispiels bis dem neunten Beispiel bildet ein zehntes Beispiel.
Das Roboter-Steuerungsmodell kann ein neuronales Netzwerk sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem zehnten Beispiel bildet ein elftes Beispiel.
Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann als ein oder mehrere Schichten (z.B. als differenzierbare Schichten) in dem neuronalen Netzwerk implementiert sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem elften Beispiel bildet ein zwölftes Beispiel.
Das Integrieren der Projektion der Strategie in einen zustandseigenen Vertrauensbereich als ein oder mehrere differenzierbaren Schichten in ein neuronales Netzwerk hat den Effekt, dass das neuronales Netzwerk unter Verwendung der Strategie-Projektion Ende-zu-Ende trainiert werden kann, wobei die Bedingung des Vertrauensbereiches während des Trainierens für jeden Zustand sichergestellt wird.
Das Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie kann ein Anpassen des Roboter-Steuerungsmodells mittels eines Gradientenverfahrens aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem zwölften Beispiel bildet ein dreizehntes Beispiel.
Das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells kann aufweisen: Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen mittels einer Regression. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreizehnten Beispiel bilden ein vierzehntes Beispiel.
Das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells kann aufweisen: Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen derart, dass eine Differenz aus einer erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreizehnten Beispiel bilden ein fünfzehntes Beispiel.
Ein Verfahren zum Steuern einer Robotervorrichtung kann aufweisen: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; Ermitteln einer projizierten Strategie derart, dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie maximiert wird; Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie; und Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein sechzehntes Beispiel.
Ein Verfahren zum Steuern einer Robotervorrichtung kann aufweisen: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; Ermitteln einer projizierten Strategie derart, dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie maximiert wird; und Steuern der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung der projizierten Strategie. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein siebzehntes Beispiel.
Ein Computerprogrammprodukt kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren nach einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das Computerprogrammprodukt mit den in diesem Absatz beschriebenen Merkmalen bildet ein neunzehntes Beispiel.
Ein nichtflüchtiges Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das nichtflüchtige Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein zwanzigstes Beispiel.
Ein nichtvolatiles Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das nichtvolatile Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein einundzwanzigstes Beispiel.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.
Es zeigen

1 eine beispielhafte Robotervorrichtungsanordnung gemäß verschiedenen Ausführungsformen,
2 ein anschauliches Ablaufdiagramm zum Ermitteln einer Strategie gemäß verschiedenen Ausführungsformen;
3 ein Schema, das ein Ermitteln einer projizierten Strategie unter Verwendung eines numerischen Optimierers gemäß verschiedenen Ausführungsformen darstellt;
4 ein Verfahren zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen,
5 ein Verfahren zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.

In einer Ausführungsform kann ein „Computer“ als jede Art von Logik-implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform ein „Computer“ eine hartverdrahtete Logikschaltung oder eine programmierbare Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Ein „Computer“ kann ein oder mehrere Prozessoren aufweisen. Ein „Computer“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als ein „Computer“ verstanden werden.
Robotervorrichtungen können unter Verwendung von bestärkendem-Lernen-basierten Roboter-Steuerungsmodellen gesteuert werden. Um bei dem Aktualisieren der Strategie des Roboter-Steuerungsmodells einen verbesserten (z.B. optimalen) Kompromiss von Exploration und Exploitation sicherzustellen, kann es erforderlich sein, die Strategie innerhalb eines Vertrauensbereichs zu aktualisieren. Verschiedene Ausführungsbeispiele betreffen eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung, die imstande sind, ein Roboter-Steuerungsmodell derart zu trainieren, dass eine aktualisierte Strategie für jeden Zustand der Rotobervorrichtung innerhalb des Vertrauensbereichs liegt. Anschaulich kann beim Aktualisieren der Strategie des Roboter-Steuerungsmodels der Vertrauensbereich für jeden Zustand der Robotervorrichtung berücksichtigt und sichergestellt werden.
1 zeigt eine Robotervorrichtungsanordnung 100. Die Robotervorrichtungsanordnung 100 kann eine Robotervorrichtung 101 aufweisen. Die in 1 gezeigte und im Folgenden beispielhaft beschriebene Robotervorrichtung 101 stellt zur Veranschaulichung eine beispielhafte Robotervorrichtung dar und kann zum Beispiel einen Industrieroboter in der Form eines Roboterarms zum Bewegen, Montieren oder Bearbeiten eines Werkstücks aufweisen. Es wird darauf hingewiesen, dass die Robotervorrichtung jede Art von computergesteuerter Vorrichtung sein kann, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
Die Robotervorrichtung 101 weist Roboterglieder 102, 103, 104 und einen Sockel (oder allgemein eine Halterung) 105 auf, durch die die Roboterglieder 102, 103, 104 getragen werden. Der Begriff „ Roboterglied“ bezieht sich auf die beweglichen Teile der Robotervorrichtung 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, z.B. um eine Aufgabe auszuführen, z.B. um eine Aktion durchzuführen.
Zur Steuerung beinhaltet die Robotervorrichtungsanordnung 100 eine Steuervorrichtung 106, die eingerichtet ist, die Interaktion mit der Umgebung gemäß einem Steuerungsprogramm zu realisieren. Das letzte Element 104 (von dem Sockel 105 aus gesehen) der Roboterglieder 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie einen Schweißbrenner, ein Greifwerkzeug, ein Lackiergerät oder dergleichen beinhalten.
Die anderen Roboterglieder 102, 103 (näher am Sockel 105) können eine Positionierungsvorrichtung bilden, so dass zusammen mit dem Endeffektor 104 ein Roboterarm (oder Gelenkarm) mit dem Endeffektor 104 an seinem Ende vorgesehen ist.
Der Roboterarm ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm erfüllen kann (möglicherweise mit einem Werkzeug an seinem Ende).
Die Robotervorrichtung 101 kann Verbindungselemente 107, 108, 109 beinhalten, die die Roboterglieder 102, 103, 104 miteinander und mit dem Sockel 105 verbinden. Ein Verbindungselement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine Drehbewegung und/oder eine Translationsbewegung (d.h. eine Verschiebung) für zugehörige Roboterglieder relativ zueinander bereitstellen kann. Die Bewegung der Roboterglieder 102, 103, 104 kann mit Hilfe von Stellgliedern eingeleitet werden, die von der Steuervorrichtung 106 gesteuert werden.
Der Begriff „Stellglied“ kann als eine Komponente verstanden werden, die geeignet ist, als Reaktion darauf, dass sie angetrieben wird, einen Mechanismus zu beeinflussen. Das Stellglied kann von der Steuervorrichtung 106 ausgegebene Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen umsetzen. Das Stellglied, z.B. ein elektromechanischer Wandler, kann eingerichtet werden, elektrische Energie als Reaktion auf seine Ansteuerung in mechanische Energie umzuwandeln.
Der Begriff „Steuervorrichtung“ (auch als „Steuereinrichtung bezeichnet“) kann als jede Art von logischer Implementierungseinheit verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor beinhalten kann, der in der Lage ist, in einem Speichermedium gespeicherte Software, Firmware oder eine Kombination derselben auszuführen, und die Anweisungen, z.B. an ein Stellglied im vorliegenden Beispiel, erteilen kann. Die Steuervorrichtung kann beispielsweise durch Programmcode (z.B. Software) eingerichtet werden, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
In dem vorliegenden Beispiel beinhaltet die Steuervorrichtung 106 einen Computer 110 und einen Speicher 111, der Code und Daten speichert, auf deren Grundlage der Computer 110 die Robotervorrichtung 101 steuert. Gemäß verschiedener Ausführungsformen steuert die Steuervorrichtung 106 die Robotervorrichtung 101 auf der Grundlage eines im Speicher 111 gespeicherten Roboter-Steuerungsmodells 112.
Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtungsanordnung 100 ein oder mehrere Sensoren 113 aufweisen. Die ein oder mehreren Sensoren 113 können eingerichtet sein, Sensordaten, die einen Zustand der Robotervorrichtung charakterisieren, bereitzustellen. Zum Beispiel können die ein oder mehreren Sensoren 113 einen Bildgebungssensor, wie beispielsweise eine Kamera (z.B. eine Standardkamera, eine Digitalkamera, eine Infrarotkamera, eine Stereokamera, etc.), einen Radar-Sensor, einen LIDAR-Sensor, einen Positionssensor, einen Geschwindigkeitssensor, einen Ultraschallsensor, einen Beschleunigungssensor, einen Drucksensor, etc. aufweisen.
Die Robotervorrichtung 101 kann in einem Zustand s_t einer Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zu jedem Zeitpunkt in einem derzeitigen Zustand der Vielzahl von Zuständen sein. Der jeweilige Zustand der Vielzahl von Zuständen kann unter Verwendung der von den ein oder mehreren Sensoren 113 bereitgestellten Sensordaten ermittelt werden.
Die Robotervorrichtung 101 kann eingerichtet sein, eine Vielzahl von Aktionen auszuführen. Die Aktionen der Vielzahl von Aktionen können beispielsweise in dem Programmcode der Steuervorrichtung 106 vordefiniert sein. Ein oder mehrere Aktionen der Vielzahl von Aktionen können zum Beispiel eine mechanische Bewegung von ein oder mehreren Robotergliedern 102, 103, 104 aufweisen. Ein oder mehrere Aktionen der Vielzahl von Aktionen können zum Beispiel eine Aktion des Endeffektors (z.B. einem Greifen, z.B. einem Lösen, etc.) aufweisen. Gemäß verschiedenen Ausführungsformen kann eine in einem derzeitigen Zustand s_t der Robotervorrichtung 101 durchgeführte Aktion a_t zu einem resultierenden Zustand der Vielzahl von Zuständen der Robotervorrichtung 101 führen.
Das Roboter-Steuerungsmodell 112 kann ein bestärkendes-Lernen-basiertes Modell sein. Zum Beispiel kann das Roboter-Steuerungsmodell 112 einen bestärkendes-Lernen-Algorithmus implementieren.
Das Roboter-Steuerungsmodell 112 kann eingerichtet sein, für einen Zustand der Vielzahl von Zuständen eine Aktion der Vielzahl von Aktionen zu ermitteln. Zum Beispiel kann das Roboter-Steuerungsmodell 112 auf eine Eingabe eines Zustands der Vielzahl von Zuständen hin eine Aktion der Vielzahl von Aktionen ausgeben. Anschaulich kann das Roboter-Steuerungsmodell 112 von einem Zustand der Vielzahl von Zuständen auf eine Aktion der Vielzahl von Aktionen abbilden. Die Zustände der Vielzahl von Zuständen können einen Zustandsraum bilden. Die Aktionen der Vielzahl von Aktionen können einen Aktionsraum bilden. Anschaulich kann das Roboter-Steuerungsmodell 112 von dem Zustandsraum auf den Aktionsraum abbilden.
Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 eine Strategie (engl.: policy) π aufweisen. Zum Beispiel kann das Roboter-Steuerungsmodell 112 zu jedem Zeitpunkt eine Strategie verfolgen. Eine jeweilige Strategie kann einem Ziel und/oder einer Aufgabe zugeordnet sein. Zum Beispiel kann eine jeweilige Strategie eine Strategie zum Erreichen des Ziels bzw. zum Erfüllen der Aufgabe sein. Gemäß verschiedenen Ausführungsformen kann eine Strategie auf eine Eingabe eines Zustands der Vielzahl von Zuständen hin eine Aktion der Vielzahl von Aktionen ausgeben. Anschaulich kann die von dem Roboter-Steuerungsmodell 112 verwendete Strategie von dem Zustandsraum auf den Aktionsraum abbilden.
Jedem Zustand der Vielzahl von Zuständen kann eine jeweilige Wahrscheinlichkeitsverteilung (z.B. eine Normalverteilung) der Vielzahl von Aktionen zugeordnet sein. Gemäß verschiedenen Ausführungsformen kann eine Strategie eine multivariate Normalverteilung (auch als mehrdimensionale Normalverteilung und/oder als multivariate Gaußverteilung bezeichnet) aufweisen oder sein. Eine multivariate Normalverteilung kann durch einen Erwartungswertvektor und eine Kovarianzmatrix definiert sein. Der Erwartungswertvektor der multivariaten Normalverteilung einer Strategie kann einen Erwartungswert für jeden Zustand der Vielzahl von Zuständen aufweisen. Die Kovarianzmatrix (hierin auch als Kovarianz bezeichnet) der multivariaten Normalverteilung einer Strategie kann von der Vielzahl von Zuständen abhängig sind (z.B. eine Funktion dieser sein).
Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 derart zu steuern, dass die Robotervorrichtung 101 die für den derzeitigen Zustand der Robotervorrichtung 101 von dem Roboter-Steuerungsmodell 112 unter Verwendung der derzeitigen Strategie ermittelte Aktion ausführt und/oder durchführt.
Die Steuervorrichtung 106 kann eingerichtet sein, für den aus der durchgeführten Aktion resultierenden Zustand der Robotervorrichtung 101 eine Belohnung (engl.: reward) R zu ermitteln. Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 die Belohnung für einen resultierenden Zustand unter Verwendung einer Belohnungsfunktion ermitteln. Der Algorithmus zum Ausführen der Belohnungsfunktion kann zum Beispiel in dem Speicher 111 gespeichert sein. Zum Beispiel kann das Roboter-Steuerungsmodell 112 eingerichtet sein, die Belohnungsfunktion auszuführen. Die für den resultierenden Zustand ermittelte Belohnung kann beispielsweise der durchgeführten Aktion in Verbindung mit dem anfänglichen Zustand der Robotervorrichtung 101 zugeordnet sein oder werden.
Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des Roboter-Steuerungsmodell 112 eine Abfolge von Aktionen ausführen. Die Steuervorrichtung 106 kann eingerichtet sein, jede Aktion der Abfolge von Aktionen unter Verwendung einer anfänglichen Strategie π_θold zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, für jede durchgeführte Aktion der durchgeführten Abfolge von Aktionen eine jeweilige Belohnung zu ermitteln.
Die Steuervorrichtung 106 (z.B. der Computer 110 der Steuervorrichtung 106) kann eingerichtet sein, unter Verwendung der durchgeführten Abfolge von Aktionen eine aktualisierte Strategie π_θ zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ derart zu ermitteln, dass die für die in Gleichung (1) gegebene erwartete Belohnung erhöht (z.B. maximiert) wird: $E_{τ} [\sum_{t = 0}^{\infty} γ^{t} R (s_{t}, a_{t})]$
wobei τ = s₀ _, a_0, . . . die Trajektorie der Zustände s_t und der Aktionen a_t, die unter Verwendung der Strategie zum Erreichen des Ziels bzw. zum Erfüllen der Aufgabe durchlaufen werden, ist, wobei γ der Diskontierungsfaktor (engl.: discount factor) ist, und wobei s₀ ∼ ρ(s₀), a_t ∼ π(a_t|s_t) _und s_t+1 ~ P(s_t+1|s_t,a_t) ist.
Eine Strategie π_θ kann durch die Parameter θ des Roboter-Steuerungsmodells 112 definiert sein, zum Beispiel kann die π_θ durch θ parametrisiert sein.
Gemäß verschiedenen Ausführungsformen kann eine aktualisierte Strategie π_θ unter Verwendung von Gleichung (2) ermittelt werden: $max_{θ} E_{(s_{t}, a_{t}) \sim π_{θ_{o l d}}} [\frac{π_{0} (a_{t} | s_{t})}{π_{θ_{o l d}} (a_{t} | s_{t})} A^{π} (s_{t}, a_{t})]$
wobei π_θold die anfängliche Strategie (z.B. die zuvor verwendete Strategie) ist, und wobei A^π(a_t, s_t) die Vorteilsfunktion ist. Die Vorteilsfunktion kann beispielsweise durch A^π(a_t, s_t) = Q^π(a_t, s_t) - V^π(s_t) ermittelt werden, wobei Q^π(a_t, s_t) die Aktions-Wertigkeits-Funktion (engl.: action value function) und V^π(s_t) die Wertigkeits-Funktion (engl.: value function) ist.
Gemäß verschiedenen Ausführungsformen kann die aktualisierte Strategie π_θ unter Verwendung einer Stichprobenentnahme nach Wichtigkeit (engl.: importance sampling) ermittelt werden.
Gemäß verschiedenen Ausführungsformen kann die aktualisierte Strategie π_θ ein oder mehreren Bedingungen (z.B. Randbedingungen, zum Beispiel Nebenbedingen) bezüglich der anfänglichen Strategie π_θold unterliegen. Zum Beispiel kann eine Bedingung sein, dass die aktualisierte Strategie π_θ innerhalb eines Vertrauensbereichs (engl.: Trust Region) bezüglich der anfänglichen Strategie π_θold liegt (z.B. kann das Roboter-Steuerungsmodell 112 ein vertrauensbereich-basiertes bestärkendes Lernen implementieren). Zum Beispiel kann eine Bedingung sein, dass ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der aktualisierten Strategie π_θ und der anfänglichen Strategie π_θold für jeden Zustand s_t der Vielzahl von Zuständen größer als ein vordefinierter Schwellenwert ist. Zum Beispiel kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der zu verwenden Strategie und der anfänglichen Strategie π_θold für jeden Zustand s_t der Vielzahl von Zuständen größer als ein vordefinierter Schwellenwert sein, falls ein Abstand d zwischen der aktualisierten Strategie π_θ und der anfänglichen Strategie π_θold kleiner oder gleich dem vordefinierten Schwellenwert ε ist. Gemäß verschiedenen Ausführungsformen kann jedem Zustand der Vielzahl von Zuständen eine jeweiliger vordefinierten Schwellenwert ε zugeordnet sein. Zum Beispiel kann bezüglich Gleichung (2) die Bedingung (s.t.), dass ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der aktualisierten Strategie π_θ und der anfänglichen Strategie π_θold für jeden Zustand s_t der Vielzahl von Zuständen größer als der vordefinierte Schwellenwert ε ist, gemäß Gleichung (3) beschrieben werden: $d (π_{θ_{o l d}} (\cdot | s_{t})), π_{θ} (\cdot | s_{t})) \leq ε (s_{t})$
Anschaulich kann die aktualisierte Strategie für jeden Punkt (z.B. Zustand) im Zustandsraum beschränkt sein. Anschaulich hat das Aktualisieren der Strategie innerhalb des Vertrauensbereichs den Effekt, dass sich die Strategie der optimalen Strategie in nicht zu großen Schritten nähert (z.B. mit dieser konvergiert). Anschaulich kann ein Maß einer Änderung der verwendeten Strategie beschränkt werden.
Gemäß verschiedenen Ausführungsformen kann eine Bedingung sein, dass eine Entropie
der aktualisierten Strategie π_θ für jeden Zustand s_t der Vielzahl von Zuständen größer als oder gleich einem vordefinierten Entropie-Schwellenwert β ist. Zum Beispiel kann die Bedingung bezüglich Gleichung (2) gemäß Gleichung (4) beschrieben werden: $H (π (\cdot | s_{t})) \geq β (s_{t})$
Das Verwenden der Bedingungen bezüglich der aktualisierten Strategie π_θ gemäß Gleichung (3) und optional ferner Gleichung (4) ermöglicht eine Kontrolle über Exploration (auch als Erkundung bezeichnet) und Exploitation (auch als Ausnutzung bezeichnet) des bestärkenden Lernens des Roboter-Steuerungsmodells 112.
Gemäß verschiedenen Ausführungsformen kann die Gleichung (2) mit den Bedingungen gemäß Gleichungen (3) und (4) mittels Gleichung (5) definiert werden: $\begin{array}{l} max_{π} E_{x \sim π_{o l d}} [\frac{π (x)}{π_{o l d} (x)} R (x)] \\ s . t . d (π (x), π_{o l d} (x)) \leq ε, \\ H (π (x)) \geq β \end{array}$
Mit Bezug auf 2 kann das Roboter-Steuerungsmodell 112 jede Aktion der Abfolge von Aktionen unter Verwendung der anfänglichen Strategie π_θold ermitteln (in 202). Wie hierin beschrieben, kann die Steuervorrichtung 106 die aktualisierten Strategie π_θ gemäß Gleichung (2) ermitteln (in 204), wobei die aktualisierte Strategie π_θ durch die in Gleichung (3) und optional ferner die in Gleichung (4) definierten Bedingungen beschränkt sein kann. Anschaulich kann die aktualisierte Strategie π_θ eine beschränkte aktualisierte Strategie π_θ sein. Die aktualisierte Strategie π_θ kann für jeden Zustand der Vielzahl von Zuständen beschränkt (z.B. der Bedingung gemäß Gleichung (3) unterliegen) sein. Anschaulich kann die aktualisierte Strategie π_θ eine zustands-individuell beschränkte aktualisierte Strategie π_θ sein. Zum Beispiel kann jeder Zustand der Vielzahl von Zuständen einen jeweiligen vordefinierten Schwellenwert ε aufweisen, so dass der vordefinierte Schwellenwert ε ein vordefinierter Schwellenwertvektor sein kann.
Die Steuervorrichtung 106 kann eingerichtet sein, eine projizierte Strategie π̃ ermitteln (in 206). Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf eine projizierte Strategie π̃ zu projizieren. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie π_θ erhöht (z.B. maximiert) wird. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie π_θ erhöht (z.B. maximiert) und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der anfänglichen Strategie π_θold größer als der vordefinierte Schwellenwert ε ist. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie π_θ erhöht (z.B. maximiert), dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der anfänglichen Strategie π_θold größer als der vordefinierte Schwellenwert ε ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ die Entropie
der aktualisierten Strategie π_θ für jeden Zustand s_t der Vielzahl von Zuständen größer als oder gleich dem vordefinierten Entropie-Schwellenwert β ist.
Gemäß verschiedenen Ausführungsformen kann eine jeweilige Strategie mittels einer zugeordneten multivariaten Normalverteilung beschrieben werden. Zum Beispiel kann die anfängliche Strategie π_θold eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die anfängliche multivariate Normalverteilung kann beschrieben werden durch: π_θold(a|s) = N(a|µ_old(s), Σ_old(s)) wobei µ_old(s) der anfängliche Erwartungswertvektor und Σ_old die anfängliche Kovarianz der anfänglichen multivariaten Normalverteilung sind. Zum Beispiel kann die aktualisierte Strategie π_θ eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die aktualisierte multivariate Normalverteilung kann beschrieben werden durch:
π_θ(a|s) = N(a|µ(s), Σ(s))_, wobei µ der aktualisierte Erwartungswertvektor und Σ die aktualisierte Kovarianz der aktualisierten multivariaten Normalverteilung sind. Der anfängliche Erwartungswertvektor, die anfängliche Kovarianz, der aktualisierte Erwartungswertvektor und/oder die aktualisierte Kovarianz können eine Funktion der Vielzahl von Zuständen sein. Zum Beispiel kann die projizierten Strategie π̃ eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die projizierte multivariate Normalverteilung kann beschrieben werden durch:
π̃(a|s) = N(a|µ̃(µ_old, µ, Σ_old, Σ, ε(s)), Σ(µ_old, µ, Σ_old, Σ, ε(s), β(s)))_, wobei µ̃ der projizierte Erwartungswertvektor und Σ̃ die projizierte Kovarianz der projizierten multivariaten Normalverteilung sind. Der projizierte Erwartungswertvektor kann von dem anfänglichen Erwartungswertvektor, dem aktualisierten Erwartungswertvektor, der anfänglichen Kovarianz, der aktualisierten Kovarianz, dem vordefinierten Schwellenwert und/oder der Vielzahl von Zuständen abhängig sein. Die projizierte Kovarianz kann von dem anfänglichen Erwartungswertvektor, dem aktualisierten Erwartungswertvektor, der anfänglichen Kovarianz, der aktualisierten Kovarianz, dem vordefinierten Schwellenwert, der Vielzahl von Zuständen und/oder dem vordefinierten Entropie-Schwellenwert abhängig sein.
Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert) wird. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert) und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ε ist. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie π_θ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert), dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ε ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten multivariaten Normalverteilung die Entropie
der aktualisierten St multivariaten Normalverteilung für jeden Zustand s_t der Vielzahl von Zuständen größer als oder gleich dem vordefinierten Entropie-Schwellenwert β ist.
Wie hierin beschrieben, kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik unter Verwendung eines Abstands d beschrieben werden. Gemäß verschiedenen Ausführungsformen kann der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der aktualisierten multivariaten Normalverteilung der aktualisierten Strategie π_θ einen Abstand d zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der aktualisierten multivariaten Normalverteilung aufweisen. Gemäß verschiedenen Ausführungsformen kann der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der anfänglichen multivariaten Normalverteilung der anfänglichen Strategie π_θold einen Abstand d zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der anfänglichen multivariaten Normalverteilung der anfänglichen Strategie π_θold aufweisen. Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem zum Ermitteln der projizierten Strategie π̃ gemäß Gleichungen (6) bis (8) beschrieben werden: $max_{\tilde{π}} d (\tilde{π}, π_{0})$
$s . t . d (\tilde{π}, π_{θ_{o l d}}) \leq ε,$
$H (\tilde{π}) \geq β$
Gemäß verschiedenen Ausführungsformen kann das Projizieren der aktualisierten Strategie π_θ auf die projizierte Strategie π̃ derart erfolgen, dass die projizierte Strategie π̃ eine unbeschränkte projizierte Strategie π̃ ist. Anschaulich kann die projizierte Strategie π̃ derart ermittelt werden, dass die Bedingungen (siehe zum Beispiel Gleichung (6)) erfüllt sind. Anschaulich wir die aktualisierte Strategie π_θ derart auf die projizierte Strategie π̃ projiziert, dass die projizierte multivariate Normalverteilung so nah wie möglich zur aktualisierten multivariaten Normalverteilung liegt (zum Beispiel dass der Abstand zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung minimal ist) und dass die projizierte multivariate Normalverteilung (und damit die projizierte Strategie π̃) die Bedingungen erfüllt.
Die projizierte multivariate Normalverteilung kann mittels des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ beschrieben werden. Das Projizieren der aktualisierten Strategie π_θ auf die projizierte Strategie π̃ kann das Ermitteln des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ aufweisen.
Anschaulich kann die aktualisierte multivariate Normalverteilung auf die projizierte multivariate Normalverteilung unter den hierin beschriebenen ein oder mehreren Bedingungen projiziert werden. Anschaulich kann die aktualisierte multivariate Normalverteilung auf die projizierte multivariate Normalverteilung projiziert werden, dass die hierin beschriebenen ein oder mehreren Bedingungen für jeden Zustand der Vielzahl von Zuständen erfüllt sind.
Im Folgenden werden drei beispielhafte Projektionsverfahren zum Ermitteln des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ beschrieben:

(I) ein erstes Projektionsverfahren unter Verwendung des Mahalanobis-Abstands und der Frobeniusnorm;
(II) ein zweites Projektionsverfahren unter Verwendung des Wasserstein-Abstands; und
(III) ein drittes Projektionsverfahren unter Verwendung eines numerischen Optimierers.

(I) erstes Projektionsverfahren
Gemäß verschiedenen Ausführungsformen kann Gleichung (6) des Optimierungsproblems unter Verwendung des Mahalanobis-Abstands und der Frobeniusnorm bezüglich des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ gemäß Gleichung (9) beschrieben werden: $min_{\tilde{μ}, \tilde{Σ}} {(μ - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ - \tilde{μ}) + {‖ Σ - \tilde{Σ} ‖}_{F}^{2}$
Gemäß verschiedenen Ausführungsformen können der Erwartungswertvektor und die Kovarianz voneinander unabhängig sein. Zum Beispiel können der Erwartungswertvektor und die Kovarianz unabhängig betrachtet werden. Beispielsweise kann die Bedingung gemäß in Gleichung (7) für einen vordefinierten Schwellenwert ε_µ des Erwartungswertvektors gemäß Gleichung (10) und einen vordefinierten Schwellenwert ε_Σ der Kovarianz gemäß Gleichung (11) betrachtet werden: ${(μ_{o l d} - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ_{o l d} - \tilde{μ}) \leq ε_{μ}$
${‖ Σ_{o l d} - \tilde{Σ} ‖}_{F}^{2} \leq ε_{Σ}$
Anschaulich kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik bezüglich des Erwartungswertvektors und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik bezüglich der Kovarianz betrachtet werden. Gemäß verschiedenen Ausführungsformen kann das gemäß Gleichungen (9) bis (11) beschriebene Optimierungsproblem unter Verwendung eines Lagrange-Multiplikatoren-Verfahrens gelöst werden. Zum Beispiel kann die Lagrange-Dualität der Gleichungen (9) bis (11) gemäß der Lagrange-Funktion $L (\tilde{μ}, \tilde{Σ}, ω, η)$
von Gleichung (12) beschrieben werden: $\begin{array}{l} L (\tilde{μ}, \tilde{Σ}, ω, η) = {(μ - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ - \tilde{μ}) + {‖ Σ - \tilde{Σ} ‖}_{F}^{2} \\ + ω ({(μ - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ - \tilde{μ}) - ε_{μ}) + η ({‖ Σ - \tilde{Σ} ‖}_{F}^{2} - ε_{Σ}) \end{array}$
wobei ω und η Lagrange-Multiplikatoren sind.
Mittels Lösens von Gleichung (12) ergibt sich der projizierte Erwartungswertvektor gemäß Gleichung (13) und die projizierte Kovarianz gemäß Gleichung (14): $\tilde{μ} = \frac{μ + ω μ_{old}}{1 + ω}$
$\tilde{Σ} = \frac{Σ + η Σ_{old}}{1 + η}$
wobei ω gemäß Gleichung (15) und η gemäß Gleichung (16) ermittelt werden können. $ω = \sqrt{\frac{{(μ_{old} - μ)}^{T} \sum_{old}^{- 1} (μ_{old} - μ)}{ε_{μ}}} - 1$
$η = \sqrt{\frac{{‖ Σ_{o l d} - \tilde{Σ} ‖}_{F}^{2}}{ε_{Σ}}} - 1$
(11) zweites Projektionsverfahren
Gemäß verschiedenen Ausführungsformen kann Gleichung (6) des Optimierungsproblems unter Verwendung des Wasserstein-Abstands (z.B. skalierten Wasserstein-Abstands) bezüglich des projizierten Erwartungswertvektors Mund der projizierten Kovarianz ∑̃ gemäß Gleichung (17) beschrieben werden: $min_{\tilde{μ}, \tilde{Σ}} {(μ - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ - \tilde{μ}) + tr (\sum_{old}^{- 1} Σ + \sum_{old}^{- 1} \tilde{Σ} - 2 \sum_{old}^{- 1} {(Σ^{\frac{1}{2}} \tilde{Σ} Σ^{\frac{1}{2}})}^{\frac{1}{2}})$
wobei tr die Spur der Matrix ist.
Der Wasserstein-Abstand beinhaltet für zwei Normalverteilungen eine Euklidische Distanz der Erwartungswerte der beiden Normalverteilungen. Multiplizieren mit der anfänglichen Kovarianz Σ_old und Skalieren des Wasserstein-Abstands führt zu dem Mahalanobis-Abstand (siehe hierzu zum Beispiel Gleichung (17)).
Wie hierin beschrieben, können der Erwartungswertvektor und die Kovarianz unabhängig voneinander betrachtet werden. Beispielsweise kann die Bedingung gemäß in Gleichung (7) für den vordefinierten Schwellenwert ε_µ des Erwartungswertvektors gemäß Gleichung (18) und den vordefinierten Schwellenwert ε_∑ der Kovarianz gemäß Gleichung (19) betrachtet werden: ${(μ_{o l d} - \tilde{μ})}^{T} \sum_{old}^{- 1} (μ_{o l d} - \tilde{μ}) \leq ε_{μ}$
$tr (I + \sum_{old}^{- 1} \tilde{Σ} - 2 \sum_{old}^{- 1} {(Σ_{old}^{\frac{1}{2}} \tilde{Σ} Σ_{old}^{\frac{1}{2}})}^{\frac{1}{2}}) \leq ε_{Σ}$
wobei $I$
die Identitätsmatrix (auch Informationsmatrix genannt) ist.
Gemäß verschiedenen Ausführungsformen kann das gemäß Gleichungen (17) bis (19) beschriebene Optimierungsproblem unter Verwendung eines Lagrange-Multiplikatoren-Verfahrens gelöst werden. Für die Lösung bezüglich des projizierten Erwartungswertvektors µ̃ wird auf die Gleichungen (13) und (15) verwiesen.
Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem bezüglich der Wurzel der projizierten Kovarianz gelöst werden. Zum Beispiel kann die Lagrange-Dualität der Gleichungen (17) und (19) gemäß der Lagrange-Funktion $L ({\tilde{Σ}}^{\frac{1}{2}}, η)$
von Gleichung (20) beschrieben werden. $L ({\tilde{Σ}}^{\frac{1}{2}}, η) = tr (\sum_{old}^{- 1} Σ + {\tilde{Σ}}^{\frac{1}{2}} \sum_{old}^{- 1} {\tilde{Σ}}^{\frac{1}{2}} - 2 Σ^{\frac{1}{2}} \sum_{old}^{- 1} {\tilde{Σ}}^{\frac{1}{2}}) + η (tr (I + {\tilde{Σ}}^{\frac{1}{2}} \sum_{old}^{- 1} {\tilde{Σ}}^{\frac{1}{2}} - 2 \sum_{old}^{- \frac{1}{2}} {\tilde{Σ}}^{\frac{1}{2}}) - ε_{Σ})$
Mittels Lösens von Gleichung (20) ergibt sich die projizierte Kovarianz gemäß Gleichung (21): ${\tilde{Σ}}^{\frac{1}{2}} = \frac{Σ^{\frac{1}{2}} + η Σ_{old}^{\frac{1}{2}}}{1 + η}$
wobei η gemäß Gleichung (22) ermittelt werden kann. $η = \sqrt{\frac{tr (I + \sum_{old}^{- 1} Σ - 2 \sum_{old}^{- \frac{1}{2}} Σ^{\frac{1}{2}})}{ε_{Σ}}} - 1$
Somit können das erste Projektionsverfahren und das zweiten Projektionsverfahren in einer geschlossenen Form gelöst werden (die projizierte multivariate Normalverteilung kann in einer geschlossenen Form ermittelt werden).
(III) drittes Projektionsverfahren
Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem gemäß den Gleichungen (6) bis (8) mittels eines numerischen Optimierers gelöst werden.
3 zeigt ein Schema, das ein Ermitteln einer projizierten Strategie π̃ unter Verwendung eines numerischen Optimierers 302 gemäß verschiedenen Ausführungsformen darstellt. Zum Beispiel kann die Steuervorrichtung 106 (z.B. der Computer 110 der Steuervorrichtung 106) eingerichtet sein, den numerischen Optimierer 302 zu implementieren.
Eine multivariate Normalverteilung kann mittels des kanonischen Parameters q (auch natürlicher Parameter genannt) und der Kumulanten-erzeugende Funktion Λ beschrieben werden.
Der numerische Optimierer 302 kann eingerichtet sein, für einen kanonischen Parameter q und einer Kumulanten-erzeugende Funktion Λ das Optimierungsproblem gemäß den Gleichungen (6) bis (8) zu lösen, indem der numerische Optimierer 302 für den kanonischen Parameter q und die Kumulanten-erzeugende Funktion Λ einen ersten optimierten Lagrange-Multiplikator η* und einen zweiten optimierten Lagrange-Multiplikator ω* ermittelt. Zum Beispiel kann der numerische Optimierer 302 den ersten optimierten Lagrange-Multiplikator η* und den zweiten optimierten Lagrange-Multiplikator ω* unter Verwendung der KL-Divergenz ermitteln.
Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 für die aktualisierte Kovarianz ∑ 304 die aktualisierte Kumulanten-erzeugende Funktion Λ 306 gemäß Λ = Σ^-1 ermitteln. Zum Beispiel kann die Steuervorrichtung 106 für den aktualisierten Erwartungswertvektor µ 308 und die aktualisierte Kumulanten-erzeugende Funktion Λ 306 den aktualisierten kanonischen Parameter q 310 gemäß q = Λµ ermitteln.
Der numerische Optimierer 302 kann eingerichtet sein, unter Verwendung der aktualisierten Kumulanten-erzeugende Funktion Λ 306 und des aktualisierten kanonischen Parameters q 310 den ersten optimierten Lagrange-Multiplikator η* und den zweiten optimierten Lagrange-Multiplikator ω* zu ermitteln. Der numerische Optimierer 302 kann eingerichtet sein, unter Verwendung der aktualisierten Kumulanten-erzeugende Funktion Λ 306, des aktualisierten kanonischen Parameters ^q 310, eines ersten Lagrange-Multiplikators η 312 und eines zweiten Lagrange-Multiplikators ω 314 den ersten optimierten Lagrange-Multiplikator η* 316 und den zweiten optimierten Lagrange-Multiplikator ω* 318 zu ermitteln. Zum Beispiel können der erste Lagrange-Multiplikator η 312 und/oder der zweite Lagrange-Multiplikators W 314 vordefiniert (z.B. gesetzt) sein. Zum Beispiel kann der numerische Optimierer 302 eingerichtet sein, den ersten Lagrange-Multiplikator η 312 und/oder den zweiten Lagrange-Multiplikators ω 314 zu ermitteln.
Die anfängliche Kumulanten-erzeugende Funktion Λ_old kann unter Verwendung der anfänglichen Kovarianz Σ_old (z.B. basierend auf Λ = Σ^-1) ermittelt werden. Der anfängliche kanonische Parameter q_old kann unter Verwendung der anfänglichen Kumulanten-erzeugenden Funktion und des anfänglichen Erwartungswertvektors (z.B. basierend auf q = Λµ) ermittelt werden.
Der projizierte kanonische Parameter q̃ 320 kann gemäß Gleichung (23) ermittelt werden: $\tilde{q} = \frac{η * q_{old} + q}{η * + ω * + 1}$
Die projizierte Kumulanten-erzeugende Funktion Λ̃ 322 kann gemäß Gleichung (24) ermittelt werden: $\tilde{Λ} = \frac{η * Λ_{old} + Λ}{η * + ω * + 1}$
Der projizierte Kovarianz Σ̃ 324 kann unter Verwendung der projizierte Kumulanten-erzeugende Funktion Λ̃ 322 (z.B. basierend auf Λ = Σ^-1) ermittelt werden. Der projizierte Erwartungswertvektor µ̃ kann unter Verwendung des projizierten kanonischen Parameters q̃ 320 und der projizierte Kumulanten-erzeugende Funktion Λ̃ 322 (z.B. basierend auf q = Λµ) ermittelt werden.
Es wird darauf hingewiesen, dass das Projizieren der aktualisierten Strategie π_θ auf die projizierte Strategie π̃ auch mittels anderer als der hierin beschriebenen drei beispielhaften Projektionsverfahren erfolgen kann.
Gemäß verschiedenen Ausführungsformen ist die projizierte Strategie eine optimierte Strategie und mittels der projizierten Strategie kann eine optimale Abfolge (z.B. Sequenz) von Zuständen der Robotervorrichtung 101 und ausgeführten und/oder durchgeführten Aktionen der Robotervorrichtung 101 ermittelt und von der Robotervorrichtung 101 durchgeführt werden.
Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein neuronales Netzwerk aufweisen oder sein. Das Projizieren der aktualisierten Strategie π_θ auf die projizierte Strategie π̃ kann als ein oder mehrere Schichten in dem neuronalen Netzwerk implementiert sein. Zum Beispiel kann das Projizieren der aktualisierten Strategie π_θ auf die projizierte Strategie π̃ als ein oder mehrere differenzierbare Schichten in dem neuronalen Netzwerk implementiert sein. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten derart eingerichtet sein, dass die hierin beschriebene Projektion durchgeführt wird, falls eine der Bedingungen für die aktualisierte Strategie nicht erfüllt ist.
Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 eingerichtet sein, das Roboter-Steuerungsmodell 112 zur Implementierung der projizierten Strategie π̃ anzupassen (z.B. zu adaptieren).
Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein neuronales Netzwerk aufweisen und das Anpassen des Roboter-Steuerungsmodells 112 kann ein Trainieren des neuronalen Netzwerks sein. Zum Beispiel kann das neuronale Netzwerk unter Verwendung eines Gradientenverfahrens (z.B. eines Strategie-Gradientenverfahrens) trainiert werden. Gemäß verschiedenen Ausführungsformen können unter Verwendung der projizierten Strategie π̃ und der anfänglichen Strategie π_θold ein oder mehrere Gradienten ermittelt werden. Anschaulich kann das Anpassen des neuronalen Netzwerks unter Verwendung der projizierten Strategie π̃ eine Iteration des Trainierens des neuronalen Netzwerks sein. Gemäß verschiedenen Ausführungsformen können mehrere Iterationen durchgeführt werden. Zum Beispiel kann das hierin beschriebene Verfahren zum Anpassen des Roboter-Steuerungsmodell 112 mehrmals durchgeführt werden.
Zum Beispiel kann das neuronale Netzwerk des Roboter-Steuerungsmodells 112 mittels des Gradientenverfahrens unter Verwendung der ermittelten ein oder mehreren Gradienten angepasst (z.B. trainiert) werden.
Das erste Projektionsverfahren und das zweite Projektionsverfahren können in geschlossener Form gelöst werden. Hierbei können die ein oder mehreren Gradienten direkt ermittelt werden. Für das dritte Projektionsverfahren können die ein oder mehreren Gradienten unter Verwendung des von Amos und Kolter beschriebenen OptNet-Verfahrens ermittelt werden. Dabei kann eine Schicht des neuronalen Netzwerks das folgende Lagrange-Dualität lösen: $\begin{array}{l} min_{η, ω} & g (η, ω) \\ = η ε - ω β + η (- \frac{1}{2} q_{old}^{T} Λ_{old}^{- 1} q_{old} + \frac{1}{2} log det (Λ_{old}) - \frac{k}{2} log (2 π)) \\ + (η + 1 + ω) (\frac{1}{2} q^{T} Λ^{- 1} q - \frac{1}{2} log det (Λ) + \frac{k}{2} log (2 π)) \\ s . t . & - η \leq 0, \\ - ω \leq 0 \end{array}$
Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Gradienten mittels Ableitens der entsprechenden Karush-Kuhn-Tucker-(KKT)-Bedingungen ermittelt (z.B. berechnet) werden.
Die stationäre KKT-Bedingung kann beispielsweise mittels Gleichung (25) beschrieben werden: $\nabla g (η *, ω *) + (\begin{matrix} λ_{1} \\ λ_{2} \end{matrix}) \nabla (\begin{matrix} - η * \\ - ω * \end{matrix}) = (\begin{matrix} ε - KL (q (x) ‖ q_{old} (x)) - λ_{1} \\ H (q (x)) - β - λ_{2} \end{matrix}) = 0$
wobei λ₁ ein erster KKT-Multiplikator und λ₂ ein zweiter KKT-Multiplikator ist.
Die komplementäre Schlupfbedingung (engl.: complementary slackness) der KKT kann beispielsweise mittels Gleichung (26) beschrieben werden: $λ_{1} (- η *) = 0 λ_{2} (- ω *) = 0$
Gemäß verschiedenen Ausführungsformen können durch das Ableiten der Karush-Kuhn-Tucker-(KKT)-Bedingungen die ein oder mehreren Gradienten ermittelt werden. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks derart eingerichtet sein, dass die Projektion durchgeführt wird, falls eine der hierin beschriebenen Bedingungen (z.B. die Bedingung gemäß Gleichung (3), z.B. die Bedingung gemäß Gleichung (4)) für die aktualisierte Strategie π_θ nicht erfüllt ist. Zum Beispiel können die ein oder mehreren Gradienten für die folgenden Konstellationen ermittelt werden:

- Die Bedingung gemäß Gleichung (3) und die Bedingung gemäß Gleichung (4) sind erfüllt. Anschaulich kann in diesem Fall die aktualisierte Strategie für das Gradientenverfahren verwendet werden. Zum Beispiel ist ein Projizieren der Strategie und/oder ein Berechnen der Gradienten mittels der ein oder mehreren Schichten des neuronalen Netzwerks nicht erforderlich,
- Die Bedingung gemäß Gleichung (3) ist erfüllt und die Bedingung gemäß Gleichung (4) ist nicht erfüllt,
- Die Bedingung gemäß Gleichung (3) ist nicht erfüllt und die Bedingung gemäß Gleichung (4) ist erfüllt,
- Die Bedingung gemäß Gleichung (3) und die Bedingung gemäß Gleichung (4) sind nicht erfüllt.

Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks, wenn mindestens eine der Bedingungen nicht erfüllt ist, die Strategie wie hierin beschrieben projizieren. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks, wenn mindestens eine der Bedingungen nicht erfüllt ist und wenn das dritte Projektionsverfahren verwendet wird, die ein oder mehreren Gradienten ermitteln.
Anschaulich kann eines der drei Projektionsverfahren als ein oder mehrere differenzierbare Schichten in einem neuronalen Netzwerk implementiert sein, so dass das neuronale Netzwerk derart Ende-zu-Ende trainiert werden kann, dass die ein oder mehreren Bedingungen (z.B. die Bedingung des Vertrauensbereiches) während des Trainierens für jeden Zustand der Vielzahl von Zuständen sichergestellt (z.B. erfüllt) wird.
Gemäß verschiedenen Ausführungsformen kann Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 unter Verwendung des angepassten Roboter-Steuerungsmodells 112 zu steuern.
Die Steuervorrichtung 106 kann eingerichtet sein, den derzeitigen Zustand der Robotervorrichtung 101 zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, mittels des angepassten Roboter-Steuerungsmodells 112 unter Verwendung der projizierten Strategie eine durchzuführende Aktion für den derzeitigen Zustand zu ermitteln. Die durchzuführende Aktion kann zum Beispiel die durch die projizierte multivariate Normalverteilung beschriebene Aktion der Vielzahl von Aktionen mit der höchsten Wahrscheinlichkeit (z.B. die Aktion, die dem Erwartungswert des derzeitigen Zustands zugeordnet ist) sein. Die Steuervorrichtung 106 kann eingerichtet sein, die Robotervorrichtung 101 entsprechend der durchzuführenden Aktion zu steuern, so dass die Robotervorrichtung 101 die Aktion ausführt und/oder durchführt. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des angepassten Roboter-Steuerungsmodells 112 eine oder mehrere Aktionen durchführen.
Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 die Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen aktualisieren. Hierbei kann, wie hierin beschrieben, eine aktualisierte Strategie und unter Verwendung der aktualisierten Strategie eine projizierte Strategie ermittelt werden. Gemäß verschiedenen Ausführungsformen kann beispielsweise bei der Inferenz des Roboter-Steuerungsmodells 112 (z.B. des neuronalen Netzwerks) das Optimierungsproblem gemäß Gleichung (27) gelöst werden. $min_{θ} d (\tilde{π}, π_{θ})$
Hierbei kann das Roboter-Steuerungsmodell 112 mittels einer Regression (z.B. ein oder mehrere Regressionsschritte aufweisend) unter Verwendung der durchgeführten ein oder mehreren Aktionen angepasst werden.
Gemäß verschiedenen Ausführungsformen kann die projizierte Strategie gemäß der in Gleichung (28) gegebenen Zielfunktion ermittelt werden. Hierbei kann die projizierte Strategie derart ermittelt werden, dass eine Differenz aus der erwarteten Belohnung (siehe zum Beispiel Gleichung (2)) und dem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird. Der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie kann zum Beispiel durch den Abstand zwischen der projizierten Strategie und der aktualisierten Strategie d(π̃(a_t|s_t),π_θ(a_t|s_t)) ermittelt werden. Der Abstand zwischen der projizierten Strategie und der aktualisierten Strategie kann zum Beispiel unter Verwendung der hierin beschriebenen drei Projektionsverfahren ermittelt werden. $max_{θ} E_{(s_{t}, a_{t}) \sim π_{θ_{o l d}}} [\frac{\tilde{π} (a_{t} | s_{t}, π_{θ})}{π_{θ_{o l d}} (a_{t} | s_{t})} A^{π} (a_{t}, s_{t})] - d (\tilde{π} (a_{t} | s_{t}), π_{θ} (a_{t} | s_{t}))$
4 zeigt ein Verfahren 400 zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.
Das Verfahren 400 kann ein Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells aufweisen (in 402). Das Durchführen einer jeden Aktion der Abfolge von Aktionen kann aufweisen: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodell unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung. Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell ein bestärkendes-Lernen-basiertes Modell (z.B. ein bestärkendes-Lernen-basiertes neuronales Netzwerk) sein.
Das Verfahren 400 kann ein Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen aufweisen (in 404).
Das Verfahren 400 kann ein Projizieren der aktualisierten Strategie auf eine projizierte Strategie aufweisen (in 406). Das Projizieren der aktualisierten Strategie auf eine projizierte Strategie kann derart erfolgen, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist. Das Projizieren der aktualisierten Strategie auf eine projizierte Strategie kann derart erfolgen, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist.
Das Verfahren 400 kann ein Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie aufweisen (in 408).
Das Verfahren 400 kann ein Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweisen (in 410).
5 zeigt ein Verfahren 500 zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.
Das Verfahren 500 kann ein Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells aufweisen (in 502). Das Durchführen einer jeden Aktion der Abfolge von Aktionen kann aufweisen: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodell unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung. Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell ein bestärkendes-Lernen-basiertes Modell (z.B. ein bestärkendes-Lernen-basiertes neuronales Netzwerk) sein.
Das Verfahren 500 kann ein Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen aufweisen (in 504).
Das Verfahren 500 kann ein Ermitteln einer projizierten Strategie aufweisen, so dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird (in 506).
Das Verfahren 500 kann ein Steuern der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung der projizierten Strategie aufweisen (in 508).
Gemäß verschiedenen Ausführungsformen kann das Verfahren 500 ein Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie und ein Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweisen.

Claims

Verfahren zum Steuern einer Robotervorrichtung, aufweisend: • Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: ◯ Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, ◯ Durchführen der ermittelten Aktion durch die Robotervorrichtung, und ◯ Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; • Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; • Projizieren der aktualisierten Strategie auf eine projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist, • Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie; und • Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells.
Verfahren gemäß Anspruch 1, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und ◯ eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist.
Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die anfängliche Strategie eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei die aktualisierte Strategie eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei die projizierte Strategie eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist.
Verfahren gemäß den Ansprüchen 2 und 3, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, und ◯ eine Entropie der projizierten multivariaten Normalverteilung größer als oder gleich dem vordefinierten Entropie-Schwellenwert ist.
Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Mahalanobis-Abstands und der Frobeniusnorm.
Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Wasserstein-Abstands.
Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels eines numerischen Optimierers.
Verfahren gemäß Anspruch 7, wobei der numerische Optimierer die projizierte multivariate Normalverteilung unter Verwendung der Kullback-Leibler-Divergenz ermittelt.
Verfahren gemäß einem der Ansprüche 5 bis 8, wobei das Ermitteln der projizierten multivariaten Normalverteilung ein Lagrange-Multiplikatoren-Verfahren aufweist.
Verfahren gemäß einem der Ansprüche 1 bis 10, wobei das Roboter-Steuerungsmodell ein neuronales Netzwerk ist; und wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie als ein oder mehrere Schichten in dem neuronalen Netzwerk implementiert ist.
Verfahren gemäß einem der Ansprüche 1 bis 10, wobei das Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie ein Anpassen des Roboter-Steuerungsmodells mittels eines Gradientenverfahrens aufweist.
Verfahren gemäß einem der Ansprüche 1 bis 11, wobei das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweist: • Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; • Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen mittels einer Regression.
Verfahren gemäß einem der Ansprüche 1 bis 11, wobei das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweist: • Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; • Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen derart, dass eine Differenz aus einer erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird.
Vorrichtung, die eingerichtet ist, das Verfahren gemäß einem der Ansprüche 1 bis 13 auszuführen.
Nichtflüchtiges Speichermedium, das Programminstruktionen speichert, welche, falls sie ausgeführt werden, das Verfahren gemäß einem der Ansprüche 1 bis 13 ausführen.