DE102022210281A1

DE102022210281A1 - Vorrichtung und Verfahren zum Aktualisieren einer durch ein gaußsches Mischungsmodell gegebenen Steuerungsstrategie für einen Agenten

Info

Publication number: DE102022210281A1
Application number: DE102022210281.9A
Authority: DE
Inventors: Hanna Ziesche; Leonel Rozo
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2024-03-28

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Aktualisieren einer durch ein gaußsches Mischungsmodell (GMM) gegebenen Steuerungsstrategie für einen Agenten beschrieben, umfassend: Bestimmen von Anfangswerten von Komponentengewichten, Mittelwerten und Kovarianzen eines gaußschen Mischungsmodells, das eine Wahrscheinlichkeitsverteilung von Paaren von Zustand und Aktion spezifiziert, um eine Anfangsversion des GMMs zu bestimmen, Sammeln von Tupeln von Zustand, Aktion und Belohnung durch Steuern des Agenten gemäß der Anfangsversion des GMMs und Aktualisieren der Anfangsversion des GMMs unter Verwendung eines impliziten Euler-Schemas zum Aktualisieren der Anfangswerte der Komponentengewichte und unter Verwendung eines expliziten Euler-Schemas zum Aktualisieren der Anfangswerte der Mittelwerte und der Kovarianz durch riemannschen Gradientenabstieg der Zielfunktion in Bezug auf die Bures-Wasserstein-Metrik.

Description

Stand der Technik
Die vorliegende Offenbarung betrifft Vorrichtungen und Verfahren zum Aktualisieren einer durch ein gaußsches Mischungsmodell gegebenen Steuerungsstrategie für einen Agenten.
Bei vielen Anwendungen ist es wünschenswert, dass Roboter in möglicherweise dynamischen und unstrukturierten Umgebungen autonom arbeiten können. Dafür müssen sie lernen, sich in ihren Umgebungen zu bewegen und mit ihnen zu interagieren. Zu diesem Zweck können Roboter auf eine Bibliothek von Fähigkeiten zurückgreifen, die zur Ausführung einfacher Bewegungen oder komplizierter Aufgaben als Zusammensetzung mehrerer Fähigkeiten verwendet werden können. Ein Weg zum Lernen von Bewegungsfähigkeiten ist das Lernen anhand menschlicher Beispiele, das als Lernen anhand Demonstrationen (LfD) bekannt ist. Hierbei zeigt ein (typischerweise menschlicher) Experte einmal oder mehrere Male eine spezifische Fähigkeit (beispielsweise eine Bewegung), die durch einen Roboter zu imitieren ist.
Eine der wesentlichen Voraussetzungen für autonome Roboter ist ihre Fähigkeit, ein großes Repertoire an Aufgaben in unstrukturierten Umgebungen erfolgreich auszuführen. Dies bedeutet, dass Roboter ihre Aufgabenmodelle entsprechend Umgebungszustandsänderungen anpassen sollten und folglich ihre Aktionen anpassen sollten, um unter unbekannten Bedingungen erfolgreich zu arbeiten. Roboteraufgaben, beispielsweise das Aufnehmen oder Einsetzen eines Objekts, werden gewöhnlich durch Zusammensetzen zuvor erlernter Fähigkeiten, die jeweils durch eine Steuerungsstrategie (beispielsweise eine Bewegungsstrategie) repräsentiert sind, ausgeführt. Daher sollte ein Roboter (oder allgemein ein Agent), um erfolgreich in unbekannten Umgebungen arbeiten zu können, seine Steuerungsstrategie entsprechend den neuen Aufgabenanforderungen und -bedingungen anpassen. Dementsprechend sind Ansätze zur Anpassung einer Steuerungsstrategie an neue Aufgabenanforderungen und auch die Verfeinerung der Steuerungsstrategie (infolge unvollkommener Anfangsdaten, d. h. der Demonstrationen) wünschenswert.
Die Veröffentlichung „On Riemannian Optimization over Positive Definite Matrices with the Bures-Wasserstein Geometry“ von A. Han u. a., 1. Juni 2012, arXiv:2106.00286, hier als Entgegenhaltung 1 bezeichnet, beschreibt, wie eine riemannsche Optimierung an Bures-Wasserstein-Mannigfaltigkeiten ausgeführt werden kann.
Die Veröffentlichung „Sinkhorn Distances: Lightspeed Computation of Optimal Transport“ von M. Cuturi, 2013, https-//papers.nips.cc/paper/2013/file/af21d0c97db2e27e13572cbf59eb343d-Paper.pdf, beschreibt den Sinkhorn-Algorithmus für optimalen Transport.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Aktualisieren einer durch ein gaußsches Mischungsmodell (GMM) gegebenen Steuerungsstrategie für einen Agenten bereitgestellt, umfassend: Bestimmen von Anfangswerten von Komponentengewichten, Mittelwerten und Kovarianzen eines gaußschen Mischungsmodells, das eine Wahrscheinlichkeitsverteilung von Paaren von Zustand und Aktion spezifiziert, um eine Anfangsversion des GMMs zu bestimmen, Sammeln von Tupeln von Zustand, Aktion und Belohnung durch Steuern des Agenten gemäß der Anfangsversion des GMMs und Aktualisieren der Anfangsversion des GMMs durch

• Verwenden eines impliziten Euler-Schemas zur Aktualisierung der Anfangswerte der Komponentengewichte, wobei die Aktualisierung der Anfangswerte der Komponentengewichte vom Wasserstein-Abstand zwischen dem GMM gemäß den Anfangswerten der Komponentengewichte und dem GMM gemäß den aktualisierten Werten der Komponentengewichte und von einem Wert einer Zielfunktion für das GMM gemäß den aktualisierten Werten der Komponentengewichte abhängt, wobei die Zielfunktion von den gesammelten Stichproben abhängt,
• Verwenden eines expliziten Euler-Schemas zur Aktualisierung der Anfangswerte der Mittelwerte und der Kovarianz durch riemannschen Gradientenabstieg der Zielfunktion in Bezug auf die Bures-Wasserstein-Metrik.

Dieser Ansatz kann als auf der Beschreibung der Entwicklung der Steuerungsstrategie (nachstehend als π(a|s) bezeichnet, wobei π(a, s) die durch das GMM gegebene Wahrscheinlichkeit eines Paars von Aktion a und Zustand s ist) im Laufe der Optimierung als Fluss einer Wahrscheinlichkeitsverteilung im Wasserstein-Raum beruhend angesehen werden. Dies ermöglicht die Formulierung der Strategieoptimierung als Wasserstein-Gradientenfluss über den Raum von GMMs. Diese Formulierung ermöglicht

(i) ein direktes Einsetzen der Wasserstein-Metrikeigenschaften zur Beschreibung der Entwicklung von Wahrscheinlichkeitsverteilungen,
(ii) ein Ausnutzen des (beispielsweise L2-) Wasserstein-Abstands zum Beschränken der Strategieaktualisierungen, was wichtig ist, um die Stabilität der Strategieoptimierung zu garantieren, und
(iii) ein Beschränken der Optimierung auf spezifische Untermannigfaltigkeiten des Wasserstein-Raums, in diesem Fall GMMs, wodurch es ermöglicht wird, der Strategieoptimierung über die Bures-Wasserstein-Mannigfaltigkeit Struktureigenschaften der riemannschen Mannigfaltigkeit aufzuerlegen.

Nachfolgend werden verschiedene Beispiele beschrieben.
Beispiel 1 ist ein Verfahren zum Aktualisieren einer durch ein GMM gegebenen Steuerungsstrategie für einen Agenten, wie vorstehend beschrieben.
Beispiel 2 ist das Verfahren nach Beispiel 1, wobei der Wert der Zielfunktion vom GMM abhängt, für das sie beurteilt wird, und wobei der Wert, den die Zielfunktion für ein GMM hat, die Belohnungen der gesammelten Tupel aufweist, die mit durch das GMM gegebenen Wahrscheinlichkeiten, dass die Aktionen der Tupel in den Zuständen der Tupel gewählt werden, gewichtet sind.
Demgemäß kann erwartet werden, dass sich die aktualisierte Steuerungsstrategie (d. h. die Steuerungsstrategie, die in der Hinsicht durch das aktualisierte GMM gegeben ist, dass das GMM Wahrscheinlichkeiten von Paaren von Zustand und Aktion und damit von in einem bestimmten Zustand auszuführenden Aktionen spezifiziert) in Zuständen, die durch die anfängliche Steuerungsstrategie erreicht werden, besser verhält als die anfängliche Steuerungsstrategie. Ferner kann die Steuerungsstrategie auf diese Weise an geänderte Umgebungsbedingungen angepasst werden.
Beispiel 3 ist das Verfahren nach Beispiel 1 oder 2, wobei der riemannsche Gradientenabstieg der Zielfunktion an einem n-fachen Produkt der Bures-Wasserstein-Mannigfaltigkeit ausgeführt wird, wobei n die Dimension der Gauß-Komponenten des GMMs ist.
Demgemäß geschieht die Optimierung in Bezug auf Mittelwerte und Kovarianzen in einer Mannigfaltigkeit, die das wirksame Anwenden einer Riemann-Optimierung oder das Finden aktualisierter Werte für die Mittelwerte und Kovarianzen (d. h. Kovarianzmatrizen) der Komponenten des GMMs ermöglicht.
Beispiel 4 ist das Verfahren nach einem der Beispiele 1 bis 3, wobei der riemannsche Gradientenabstieg mit einer beschränkten Liniensuche ausgeführt wird, die durch den Abstand zwischen dem GMM gemäß den Anfangswerten der Mittelwerte und Kovarianzen und dem GMM gemäß den aktualisierten Werten der Mittelwerte und Kovarianzen gemäß der Wasserstein-Metrik beschränkt ist.
Mit anderen Worten wird gewährleistet, dass sich das aktualisierte GMM in Bezug auf einen Abstand gemäß der Wasserstein-Metrik nicht zu sehr vom anfänglichen GMM unterscheidet. Dies gewährleistet, dass der Prozess der Aktualisierung der Steuerungsstrategie (insbesondere wenn er mit mehreren Iterationen ausgeführt wird) stabil bleibt.
Beispiel 5 ist ein Verfahren zum Bestimmen einer durch ein GMM gegebenen Steuerungsstrategie für einen Agenten, wobei eine ursprüngliche Version des GMMs bestimmt wird und die ursprüngliche Version des GMMs in einer oder mehreren Iterationen zu einer endgültigen Version des GMMs aktualisiert wird (beispielsweise mehrfach, bis ein Beendigungskriterium erfüllt ist), wobei in jeder Iteration eine aktuelle Version des GMMs gemäß dem Verfahren nach einem der Beispiele 1 bis 4 zu einer aktualisierten Version des GMMs aktualisiert wird, wobei die aktuelle Version des GMMs als Anfangsversion des GMMs verwendet wird und die aktualisierte Anfangsversion des GMMs die aktualisierte Version des GMMs ist,

• wobei die Anfangsversion der ersten Iteration die ursprüngliche Version des GMMs ist,
• die Anfangsversion jeder Iteration abgesehen von der ersten Iteration die aktualisierte Version der der Iteration vorhergehenden Iteration ist und
• die aktualisierte Version der letzten Iteration die endgültige Version des GMMs ist.

Beispiel 6 ist das Verfahren nach Beispiel 5, wobei das ursprüngliche GMM durch Anpassen eines GMMs an einen anhand Demonstrationen gegebenen Trajektoriensatz bestimmt wird.
Dies ermöglicht das einfache Bestimmen eines Anfangspunkts für den Aktualisierungsprozess und gewährleistet (infolge des beschränkten Aktualisierungsprozesses), dass die bestimmte Steuerungsstrategie in Übereinstimmung mit Demonstrationen, beispielsweise von einem menschlichen Benutzer, steht.
Beispiel 7 ist ein Verfahren zum Steuern eines Agenten, wobei eine Steuerungsstrategie nach den Beispielen 5 und 6 bestimmt wird und der Agent gemäß der bestimmten Steuerungsstrategie gesteuert wird.
Beispiel 8 ist eine Steuereinrichtung, die dafür ausgelegt ist, ein Verfahren nach einem der Beispiele 1 bis 7 auszuführen.
Beispiel 9 ist ein Computerprogramm, das Befehle umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Beispiele 1 bis 7 auszuführen.
Beispiel 10 ist ein computerlesbares Medium, das Befehle umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Beispiele 1 bis 7 auszuführen.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen in den verschiedenen Ansichten im Allgemeinen auf die gleichen Teile. Die Zeichnungen sind nicht notwendigerweise maßstabsgerecht, und der Nachdruck wird vielmehr im Allgemeinen auf die Erläuterung der Grundgedanken der Erfindung gelegt. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben. Es zeigen:

1 einen Roboter 100 und
2 eine Strategieerzeugungspipeline gemäß einer Ausführungsform.

Die folgende detaillierte Beschreibung bezieht sich auf die anliegenden Zeichnungen, worin zur Veranschaulichung spezifische Einzelheiten und Aspekte dieser Offenbarung, worin die Erfindung verwirklicht werden kann, dargestellt sind. Es können andere Aspekte verwendet werden, und es können strukturelle, logische und elektrische Änderungen vorgenommen werden, ohne vom Schutzumfang der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen einander nicht notwendigerweise aus, weil einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Nachfolgend werden verschiedene Beispiele detaillierter beschrieben.
1 zeigt einen Roboter 100.
Der Roboter 100 weist einen Roboterarm 101, beispielsweise einen Industrieroboterarm zum Handhaben oder Montieren eines Werkstücks (oder eines oder mehrerer anderer Objekte), auf. Der Roboterarm 101 weist Manipulatoren 102, 103, 104 und einen Sockel (oder Träger) 105, von dem die Manipulatoren 102, 103 und 104 getragen werden, auf. Der Begriff „Manipulator“ bezieht sich auf die beweglichen Elemente des Roboterarms 101, deren Betätigung die physische Interaktion mit der Umgebung ermöglicht, beispielsweise zur Ausführung einer Aufgabe. Für die Steuerung weist der Roboter 100 eine (Roboter-) Steuereinrichtung 106 auf, die dafür ausgelegt ist, die Interaktion mit der Umgebung gemäß einem Steuerprogramm zu implementieren. Das letzte Element 104 (am weitesten vom Träger 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge in der Art eines Schweißbrenners, eines Greifinstruments, eines Lackiergeräts oder dergleichen einschließen.
Die anderen Manipulatoren 102, 103 (die dem Träger 105 näher liegen) können eine Positioniervorrichtung bilden, so dass zusammen mit dem Endeffektor 104 der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende bereitgestellt wird. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende) bereitstellen kann.
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 aufweisen, welche die Manipulatoren 102, 103, 104 miteinander und mit dem Träger 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, die jeweils assoziierten Manipulatoren eine Drehbewegung (d. h. Rotationsbewegung) und/oder Translationsbewegung (d. h. Verschiebung) in Bezug zueinander bereitstellen können. Die Bewegung der Manipulatoren 102, 103, 104 kann durch Aktoren eingeleitet werden, die von der Steuereinrichtung 106 gesteuert werden.
Der Begriff „Aktor“ kann als eine Komponente verstanden werden, die dafür eingerichtet ist, einen Mechanismus oder Prozess zu beeinflussen, wenn sie angetrieben wird. Der Aktor kann von der Steuereinrichtung 106 ausgegebene Befehle (sogenannte Aktivierung) in mechanische Bewegungen umsetzen. Der Aktor, beispielsweise ein elektromechanischer Wandler, kann dafür ausgelegt sein, elektrische Energie ansprechend auf eine Ansteuerung in mechanische Energie umzuwandeln.
Der Begriff „Steuereinrichtung“ kann als ein beliebiger Typ einer Logik implementierenden Einheit verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor einschließen kann, die oder der in der Lage ist, in einem Speichermedium gespeicherte Software, Firmware oder eine Kombination davon auszuführen und Befehle, im vorliegenden Beispiel an einen Aktor, auszugeben. Die Steuereinrichtung kann beispielsweise durch einen Programmcode (beispielsweise Software) dafür ausgelegt werden, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
Im vorliegenden Beispiel weist die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, auf deren Grundlage der Prozessor 110 den Roboterarm 101 steuert, auf. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf der Grundlage einer Steuerungsstrategie 112, deren Repräsentation (beispielsweise in der Spezifikation einer Wahrscheinlichkeitsverteilung von Zustands- und Aktionspaaren, wie nachstehend detaillierter beschrieben) im Speicher 111 gespeichert ist.
Eine Steuerungsstrategie (d. h. eine Bewegungsstrategie im Fall eines Roboterarms) 112 kann beispielsweise durch Anpassen einer Wahrscheinlichkeitsverteilung, beispielsweise eines gaußschen Mischungsmodells (GMMs) an einen Satz von Demonstrationen, die beispielsweise von einem menschlichen Benutzer ausgeführt werden (der den Roboterarm 101 manuell bewegt, um eine Aufgabe auszuführen), erzeugt werden. Weil die Anzahl der Demonstrationen jedoch begrenzt ist und sich die Bedingungen ändern können, ist es wünschenswert, die Steuerungsstrategie 112 zu aktualisieren, um eine hohe Steuerungswirkung zu erreichen, was bedeutet, dass eine anhand Demonstrationen erlernte Steuerungsstrategie häufig (infolge unvollkommener Daten) verfeinert oder angepasst werden muss, um neuen Aufgabenanforderungen zu entsprechen.
Angesichts des vorstehend Erwähnten wird gemäß verschiedenen Ausführungsformen ein Strategieoptimierungsverfahren (d. h. Strategieaktualisierungsverfahren) unter Verwendung von Reinforcement Learning bereitgestellt, das sich explizit auf eine bestimmte Strategiestruktur stützt. Insbesondere bezieht sich dies auf eine GMM-Strategie, d. h. eine als GMM repräsentierte Steuerungsstrategie 106. GMMs stellen eine einfache, jedoch ausreichend aussagekräftige Repräsentation für das Erlernen einer großen Vielzahl von Roboterfähigkeiten bereit, nämlich unter anderem stabile dynamische Bewegungen, kollaborative Verhaltensweisen und kontaktreiche Manipulation.
Daher wird gemäß verschiedenen Ausführungsformen ein Strategieaktualisierungsverfahren (als Teil eines Verfahrens zur Bestimmung einer Steuerungsstrategie für einen Agenten) bereitgestellt, das die zugrunde liegende GMM-Struktur explizit berücksichtigt. Zu diesem Zweck wird die Theorie des optimalen Transports ausgenutzt, die es ermöglicht, den Satz von GMM-Strategien als bestimmten Raum von Wahrscheinlichkeitsverteilungen GMM_d zu betrachten. Insbesondere wird ein GMM als Menge diskreter Maße (Dirac-Massen) im Raum von Gauß-Verteilungen $G (ℝ^{d}),$
der mit einem Wasserstein-Abstand versehen ist, angesehen. Dies ermöglicht das Formulieren der Strategieoptimierung als Wasserstein-Gradientenfluss (WGF) über den Raum von GMMs, wobei natürlich garantiert wird, dass die Strategieaktualisierungen GMMs sind (auch als Massenerhaltung bekannt). Überdies wird gemäß verschiedenen Ausführungsformen die Geometrie der Bures-Wasserstein-Mannigfaltigkeit genutzt, um die Gaußverteilungen einer GMM-Strategie durch riemannsche Optimierung zu optimieren (zu aktualisieren).
Im euklidischen Raum ist ein Gradientenfluss eine glatte Kurve x: ℝ → ℝ^d, welche die partielle Differenzialgleichung (PDE) x(t) = -VL(x(t)) für eine gegebene Verlustfunktion L: ℝ^d → ℝ und einen gegebenen Anfangspunkt x₀ bei 0 erfüllt. Eine Lösung kann auf einfache Weise durch Vorwärtsdiskretisierung gefunden werden, was zu einem expliziten eulerschen Aktualisierungsschema führt $x_{k + 1}^{τ} = x_{k} - λ \nabla L (x_{k}^{τ}),$
wobei λ die Lernrate bezeichnet und x^τ eine Diskretisierung der Kurve x(t) mit dem Diskretisierungsparameter τ angibt. Alternativ kann eine Rückwärtsdiskretisierung verwendet werden, die zum folgenden impliziten Euler-Schema führt: $x_{k + 1}^{τ} = \underset{x}{arg min} (\frac{{‖ x - x_{k}^{τ} ‖}^{2}}{2 τ} + L (x))$
Gleichung (2) wird manchmal als Minimizing-Movement-Schema bezeichnet und kann als alternative Charakterisierung eines Gradientenflusses verwendet werden.
Diese Charakterisierung ist insbesondere für die Erweiterung des Konzepts der Gradientenflüsse auf (nicht euklidische) allgemeine Metrikumgebungen interessant, weil es in diesen Fällen keinen Begriff von VL gibt. Gleichung (2) weist keine Gradienten auf und kann ausschließlich unter Verwendung metrischer Größen ausgedrückt werden. Gemäß verschiedenen Ausführungsformen werden Gradientenflüsse im L²-Wasserstein-Raum verwendet, die als Menge von Wahrscheinlichkeitsmaßen ℙ(X) auf einem separablen Banach-Raum X definiert und mit dem L²-Wasserstein-Abstand W₂ versehen sind, der als $W_{2} (μ, ν) = {(inf_{γ \in Π (μ, ν)} \int_{X \times X} {‖ x_{1} - x_{2} ‖}^{2} d γ (x_{1}, x_{2}))}^{\frac{1}{2}}$
definiert ist, wobei µ, ν ∈ ℙ(X) und γ ∈ ℙ(X²) so definiert sind, dass sie die beiden Randwerte µ und v aufweisen.
Ein verallgemeinertes Minimizing-Movement-Schema, das Gradientenflüsse im Wasserstein-Raum charakterisiert, kann analog zu Gleichung (2) als $π_{k + 1}^{τ} = \underset{π}{arg min} (\frac{W_{2}^{2} (π, π_{k}^{τ})}{2 τ} + L (π))$
geschrieben werden, wobei
ein im Wasserstein-Raum zu minimierendes Funktional ist und π_k ∈ ℙ(X) gilt. Nachfolgend wird im Interesse einer bequemen Schreibweise auf den hochgestellten Buchstaben τ verzichtet.
Reinforcement Learning kann als Wasserstein-Gradientenflüsse formuliert werden. Beispielsweise kann ein Funktional J der freien Energie der Form $J (π) = K_{r} (π) + β H (π) = \int_{A} d π (a | s) r (s | a) - β \int_{A} d π (a | s) log (π (s | a)),$
wobei K_r(π) die innere Energie des Systems, hier durch die Belohnung bestimmt, bezeichnet, während $H (π)$
die Entropie der Richtlinie π ist, als das gewöhnliche Ziel in 1-einstufigen RL-Umgebungen mit Entropieregularisierung erkannt werden. Die
Entwicklung von Wahrscheinlichkeitsdichten unter einer freien Energie dieser Form wird geeignet durch eine als Fokker-Planck-Gleichung bekannte PDE beschrieben. Diese Entwicklung kann als Gradientenfluss des Funktionals J im Wasserstein-Raum interpretiert werden. Dieser Fluss ist durch das folgende Minimizing-Movement-Schema $π_{k + 1} = \underset{π}{arg min} (\frac{W_{2}^{2} (π, π_{k})}{2 τ} - J (π))$
gekennzeichnet, das auf natürliche Weise iterative Aktualisierungen für die Strategie π bereitstellt. Gemäß verschiedenen Ausführungsformen lässt sich dieser Ansatz auf vollständige mehrstufige RL-Probleme zum Erlernen von Strategien für Aufgaben mit langem Zeithorizont erweitern.
Wie vorstehend erwähnt, werden gemäß verschiedenen Ausführungsformen Strategien π(x) mit einer GMM-Struktur betrachtet, d. h. $π (x) = \sum_{i = 1}^{N} ω_{i} N (x; μ_{i}, \sum_{i}),$
wobei
eine multivariate Gaußverteilung mit dem Mittelwert µ_i und der Kovarianzmatrix Σ_i bezeichnet und wobei ω_i die Gewichte der N individuellen Gauß-Komponenten (d. h. die Komponentengewichte) sind, die Σ_i ω_i = 1 unterliegen. Nachfolgend werden µ̂, Σ̂ und ω̂ verwendet, um die gestapelten (d. h. verketteten) Mittelwerte, Kovarianzmatrizen (d. h. geschrieben als Block-Diagonal-Matrix, wobei jeder Block eine Kovarianzmatrix umfasst) und Gewichte der N Komponenten zu bezeichnen. Daher werden WGFs nicht auf der vollständigen Mannigfaltigkeit von Wahrscheinlichkeitsverteilungen (Wasserstein-Raum) ℙ(ℝ^d) betrachtet, sondern vielmehr WGFs, die sich auf der Untermannigfaltigkeit von GMMs entwickeln, d. h. GMM_d ⊂ ℙ(ℝ^d). Diese Untermannigfaltigkeit kann näherungsweise als diskrete Verteilung über der mit der Wasserstein-Metrik versehenen Mannigfaltigkeit von Gaußverteilungen beschrieben werden. Diese kann wiederum mit der Bures-Wasserstein-Mannigfaltigkeit identifiziert werden, welche die Produktmannigfaltigkeit $ℝ^{d} \times S_{+ +}^{d}$
ist. Hier bezeichnet $S_{+ +}^{d}$
die riemannsche Mannigfaltigkeit d-dimensionaler symmetrischer positiv definiter Matrizen. Der entsprechende genäherte Wasserstein-Abstand zwischen zwei GMMs π₁, π₂ ist durch $W_{2}^{2} (π_{1} (x), π_{1} (x)) = min_{P \in U (ω_{1}, ω_{2})} \sum_{i, j}^{N} P_{ij} W_{2}^{2} (N_{1} (x; μ_{i}, \sum_{i}), N_{2} (x; μ_{j}, \sum_{j}))$
gegeben, wobei $U (ω_{1}, ω_{2}) = {P \in ℝ_{+}^{n \times n} | P 1_{N} = ω_{1}, P^{T} 1_{N} = ω_{2}}$
isi und 1_d einen n-dimensionalen Vektor von Einsen bezeichnet. Der Wasserstein-Abstand zwischen zwei Gauß-Verteilungen kann analytisch folgendermaßen berechnet werden: $W_{2}^{2} (N_{1} (x; μ_{i}, \sum_{i}), N_{2} (x; μ_{j}, \sum_{j})) = {‖ μ_{i} - μ_{j} ‖}^{2} + tr [\sum_{i} + \sum_{j} - 2 (\sum_{i}^{½} \sum_{j} \sum_{i}^{½})]$
Eine anfängliche Version der Steuerungsstrategie 112 (zum „Warmstarten“ der Steuerungsstrategie 112) kann durch Anpassen einer Wahrscheinlichkeitsverteilung (hier eines GMMs) an eine Menge von einem Experten bereitgestellter Demonstrationen erhalten werden. Demonstrationen können beispielsweise als Menge von Trajektorien τ, d. h. als Sequenzen von Zustand-Aktion-Paaren τ = {(s₀, a₀), (s₁, a₁), ... (s_T, a_T)}, bereitgestellt werden. Zur Initialisierung der Strategie 112 kann beispielsweise der Erwartung-Maximierung(EM)-Algorithmus verwendet werden, um ein GMM im gemeinsamen Zustand-Aktion-Raum an die Demonstrationen anzupassen. Dies führt zu einer Mischungsverteilung $π (s, a) = \sum_{i = 1}^{N} ω_{i} N ({[s a]}^{T}; μ_{i} \sum_{i}),$
anhand derer eine Strategie durch Konditionierung auf den Zustand folgendermaßen erhalten werden kann: $π (a | s) = \frac{π (s, a)}{\int π (s, a) d_{a}} .$
In Zusammenhang mit GMMs ist dies auch als Gaußsche-Mischung-Regression (GMR) bekannt. Die sich ergebende bedingte Verteilung ist ein anderes GMM im Aktionsraum mit zustandsabhängigen Parametern, die gegeben ist durch $π (a_{t} | s_{t}) = \sum_{i = 1}^{N} ω_{i} (s_{t}) N (a_{t}; μ_{i}^{a} (s_{t}), Σ_{i}^{a}), mit$
$μ_{i}^{a} (s_{t}) = μ_{i}^{a} + \sum_{i}^{a s} {(Σ_{i}^{s})}^{- 1} (s_{t} - μ_{i}^{s}),$
$\sum_{i}^{a} = \sum_{i}^{a} - \sum_{i}^{a s} {(Σ_{i}^{s})}^{- 1} Σ_{i}^{s a},$
$ω_{i} (s_{t}) = \frac{ω_{i} N (s_{t}; μ_{i}^{s}, Σ_{i}^{s})}{\sum_{k}^{n} ω_{k} N (s_{t}; μ_{k}^{s}, Σ_{k}^{s})} .$
Es sei bemerkt, dass die GMM-Parameter µ_i und Σ_i nach $\begin{matrix} μ_{i} = (\begin{array}{l} μ_{i}^{s} \\ μ_{i}^{a} \end{array}), & \sum_{i} = (\begin{matrix} Σ_{i}^{s} & Σ_{i}^{sa} \\ Σ_{i}^{as} & Σ_{i}^{a} \end{matrix}) \end{matrix}$
in ihre Zustands- und Aktionskomponenten unterteilt werden.
Gemäß verschiedenen Ausführungsformen wird für mehrstufige RL-Aufgaben zur Anpassung einer Anfangsversion der Steuerungsstrategie 112 ein Markov-Entscheidungsprozess (MDP) mit endlichem Horizont und kontinuierlichen Zustands- und Aktionsräumen $S \in ℝ^{n}$
und $A \in ℝ^{m},$
Übergangs-und Belohnungsfunktionen p(s_t+1|s_t, a_c) und r(s_t, a_t), einer Anfangszustandsverteilung ρ(s₀) und einem Discount-Faktor γ betrachtet. Die Anfangsversion der Steuerungsstrategie 112 wird als π(a_s|s_t) bezeichnet und ist durch Optimieren einer Zielfunktion K_r(π) anzupassen. Dieses Problem tritt beispielsweise in Roboterlernumgebungen auf, in denen eine durch Imitationslernen (beispielsweise LfD) erlernte Strategie an neue Ziele oder unbekannte Umgebungsbedingungen angepasst werden muss. Nachfolgend wird eine typische MDP-Umgebung mit unbekannter Übergangsdynamik und Belohnungsfunktion angenommen. Um die Exploration zu fördern und eine vorzeitige Konvergenz gegen suboptimale Strategien zu vermeiden, kann die maximale Entropie RL durch Addieren eines Entropieterms $H (π)$
zum Ziel verwendet werden. Demgemäß hat das Gesamtziel die Form eines Funktionals der freien Energie (ähnlich Gleichung (5)) und kann als $J (π) = K_{r} (π) + β H (π)$
geschrieben werden, wobei β einer Hyperparameter ist und K_r(π) dem gewöhnlichen kumulativen Return $K_{r} (π) = E_{τ} [\sum_{t} r (s_{t}, a_{t})]$
$= \int \prod_{t} {ds}_{t} {da}_{t} ρ (s_{0}) π (a_{t} | s_{t}) p (s_{t + 1} | s_{t}, a_{t}) \sum_{t} γ^{t} r (s_{t}, a_{t})$
entspricht.
Die Entwicklung der Strategie π(a|s) im Laufe der Optimierung kann als Fluss einer Wahrscheinlichkeitsverteilung im Wasserstein-Raum beschrieben werden.
Weil das Ziel (16) die Form des Funktionals der freien Energie hat, kann das iterative Aktualisierungsschema von Gleichung (6) verwendet werden, um die Entwicklung der Strategie 112 unter dem durch Gleichung (7) erzeugten Fluss zu formulieren. Weil die Steuerungsstrategie 112 eine GMM-Strategie ist, ist der Wasserstein-Gradientenfluss gemäß verschiedenen Ausführungsformen auf die Untermannigfaltigkeit von GMM-Verteilungen beschränkt. Das Ziel J(π) (aus Gleichung (16)) ist dann gegeben durch $\begin{matrix} J (π) = \int \prod_{t} d s_{t} d a_{t} ρ (s_{0}) \sum_{i = 1}^{n} ω_{i} (s_{t}) N (a_{t}; μ_{i} (s_{t}), Σ_{i} (s_{t})) p (s_{t + 1} | s_{t}, a_{t}) \sum_{t} γ^{t} r (s_{t}, a_{t}) \\ + β \int d a_{t} \sum_{i = 1}^{n} ω_{i} (s_{t}) N (a_{t}; μ_{i} (s_{t}), Σ_{i} (s_{t})) p (s_{t + 1} | s_{t}, a_{t}) \\ log (\sum_{i = 1}^{n} ω_{i} (s_{t}) N (a_{t}; μ_{i} (s_{t}), Σ_{i} (s_{t})) p (s_{t + 1} | s_{t}, a_{t})) . \end{matrix}$
Zur Optimierung (d. h. Aktualisierungen) der Steuerungsstrategie 112 wird die die GMM-Untermannigfaltigkeit als diskrete Verteilung über den mit der Wasserstein-Metrik versehenen Raum von Gaußverteilungen $G (ℝ^{d})$
beschreibende Näherung verwendet. Folglich lässt sich das Strategieoptimierungsproblem in einen diskreten Teil auf dem (N - 1)-dimensionalen Simplex und einen Teil auf dem N-fachen Produkt der Bures-Wasserstein-Mannigfaltigkeit (BW^N), d. h. der Produktmannigfaltigkeit $\begin{array}{l} (ℝ^{d} \times \\ {S_{+ +}^{d})}^{N} \end{array}$

zerlegen. Der Erstgenannte entspricht den GMM-Gewichten, während der Letztgenannte für den Parametersatz der Gaußverteilungen gilt.
Es sei bemerkt, dass die Identifizierung mit der BW^N -Mannigfaltigkeit die Optimierung direkt im Parameterraum ermöglicht. Dies ermöglicht

(i) das Ausnutzen der analytischen Lösung des Wasserstein-Abstands zwischen zwei Gaußverteilungen, wodurch die rechnerische Komplexität stark verringert wird,
(ii) das Gewährleisten, dass die Steuerungsstrategie 112 während des Optimierungsprozesses eine GMM-Strategie bleibt, und
(iii) das Ausnutzen der Mechanismen der riemannschen Optimierung, weil die sich ergebende Produktmannigfaltigkeit anders als der vollständige Wasserstein-Raum eine wahre riemannsche Mannigfaltigkeit ist. Insbesondere ermöglicht das Arbeiten im Parameterraum das Anwenden eines expliziten Euler-Schemas (für Mittelwert und Kovarianz) anstelle der impliziten Formulierung von Gleichung (4). Es sei bemerkt, dass der Wasserstein-Raum, auch wenn er keine wahre riemannsche Mannigfaltigkeit ist, mit einer formalen riemannschen Struktur und einer formalen Rechenvorschrift auf dieser Mannigfaltigkeit (Otto-Rechenvorschrift) versehen werden kann.

Entsprechend der vorstehend erwähnten Zerlegung wird die Strategieoptimierung gemäß verschiedenen Ausführungsformen als EM-artige zweistufige Prozedur formuliert, die zwischen den kontinuierlichen GMM-Parametern (d. h. Mittelwerten und Kovarianzmatrizen) und den GMM-Gewichten alterniert. Zur Optimierung der Parameter der GMM-Komponenten wird die riemannsche Struktur der BW-Mannigfaltigkeit ausgenutzt, um die Aktualisierungen als Vorwärtsdiskretisierung umzuformulieren. Dies ist möglich, weil die riemannschen Gradienten und exponentiellen Abbildungen der BW-Mannigfaltigkeiten gut untersucht und leicht implementierbar sind. Mit anderen Worten läuft die Optimierung auf einen riemannschen Gradientenabstieg hinaus, wobei der Gradient in Bezug auf die Bures-Wasserstein-Metrik definiert ist. Beispielsweise können der Ausdruck für den riemannschen Gradienten, die Metrik und die exponentielle Abbildung, wie in Entgegenhaltung 1 verwendet, verwendet werden. Formal folgen die resultierenden Aktualisierungen für die kontinuierlichen Parameter des GMMs dem durch ${\hat{μ}}_{k + 1} = R_{μ_{k}} (λ \cdot {grad}_{\hat{μ}} J (π_{k})),$
${\hat{Σ}}_{k + 1} = R_{Σ_{k}} (λ \cdot {grad}_{\hat{Σ}} J (π_{k}))$
gegebenen Schema des riemannschen Gradientenabstiegs, wobei „grad“ den riemannschen Gradienten in Bezug auf die Bures-Wasserstein-Metrik bezeichnet und $R_{x} : T_{x} M \to M$
den Retraktionsoperator bezeichnet, der einen Punkt im Tangentenraum $T_{x} M$
wieder auf die Mannigfaltigkeit $M \equiv BW$
abbildet. Überdies ist λ eine Lernrate und gilt $π_{k} \overset{def}{=} π ({\hat{μ}}_{k}, {\hat{Σ}}_{k}, \hat{ω}) .$
Die für die Berechnung von „grad“ benötigten euklidischen Gradienten von J(π) können unter Verwendung eines Likelihood-Ratio-Schätzers (auch als Score-Funktionsschätzer oder REINFORCE bekannt) erhalten werden.
In Bezug auf den „diskreten“ Teil, d. h. die GMM-Gewichte, sei bemerkt, dass sie zuerst als $ω_{j} = \frac{exp η_{j}}{\sum_{k = 1}^{N} exp η_{k}}$
parametrisiert werden und diese Parameter η_j, j = 1 ... N, die anders als ω̂ nicht eingeschränkt sind, für die Aktualisierung der Steuerungsstrategie 112 aktualisiert werden. Für diese Optimierung wird das implizite Euler-Schema verwendet: ${\hat{η}}_{k + 1} = \underset{\hat{η}}{arg min} (\frac{W_{2}^{2} (π_{k + 1} (\hat{η}), π_{k})}{2_{T}} - J (π_{k + 1} (\hat{η}))),$
wobei $π_{k + 1} (\hat{η}) \overset{def}{=} π ({\hat{μ}}_{k + 1}, {\hat{Σ}}_{k + 1}, \hat{η}) .$
Der Term aus Gleichung (22) kann durch Gradientenabstieg in Bezug auf η folgendermaßen minimiert werden: ${\hat{η}}_{k + 1} = {\hat{η}}_{k} + λ \nabla_{\hat{η}} (\frac{W_{2}^{2} (π_{k + 1} (η), π_{k})}{τ} + J (π_{k + 1} (\hat{η}))) .$
Der Gradient von J(π) kann unter Verwendung eines Likelihood-Ratio-Schätzers analytisch erhalten werden. Für den Wasserstein-Term wird der Gradient in Bezug auf die Gewichte zuerst durch den Sinkhorn-Algorithmus (wie beispielsweise in Entgegenhaltung 2 beschrieben) berechnet, anhand dessen der Gradient in Bezug auf η dann durch die Kettenregel erhalten werden kann. Es sei bemerkt, dass hier der Sinkhorn-Algorithmus verwendet wird, weil für den Wasserstein-Abstand zwischen diskreten Verteilungen zur Berechnung der entsprechenden Gradienten anders als im vorstehenden Fall der Gauß-Komponenten keine analytische Lösung verfügbar ist.
2 zeigt eine Strategieerzeugungspipeline gemäß einer Ausführungsform.
Zuerst werden Demonstrationen 201 erzeugt (beispielsweise durch einen menschlichen Benutzer) und wird die Anfangsversion der Strategie π₁ durch Anpassen eines GMMs an die Demonstrationen 201 erzeugt. Für eine iterative Aktualisierung der Anfangsversion der Strategie zu aktualisierten Strategien π₂, ..., π_K wird die aktuelle Version der Strategie π_k in der k-ten der Iterationen (k = 1, ..., K - 1) gemäß einem zweistufigen Reinforcement-Learning(RL)-Schema zu einer aktualisierten Version der Strategie π_k+1 aktualisiert: Die aktuelle Strategie wird ausgerollt (d. h. angewendet), um Stichproben von Zustand-Aktion-Belohnung-Tupeln, d. h. Trajektorien 202, zu sammeln. Dann werden die gesammelten Trajektorien 202 verwendet, um eine stichprobenbasierte Schätzung des Funktionals K_r(π_k) und seiner Gradienten und von dort aus J(π_k) in Bezug auf die Strategieparameter zu berechnen, wie in Zusammenhang mit den Gleichungen (20) bis (23) erklärt wurde, und es wird ein Optimierungsprozess ausgeführt, um die GMM-Parameter zur Bestimmung der aktualisierten Strategie π_k+1 zu aktualisieren.
Dieser Optimierungsprozess (innerhalb einer Iteration des Aktualisierungsprozesses) besteht aus dem Aktualisieren von Mittelwerten und Durchschnitten unter Verwendung der Gleichungen (20) und (21) und dem Aktualisieren der GMM-Komponentengewichte über die Gleichungen (22) und (23).
Für die Aktualisierung (203) der Mittelwerte und der Kovarianz innerhalb einer Iteration kann beispielsweise die Bibliothek pymanopt für die riemannsche Optimierung, erweitert durch Implementieren der Bures-Wasserstein-Mannigfaltigkeit, verwendet werden. Ferner kann eine benutzerdefinierte Liniensuchroutine verwendet werden, die eine Randbedingung für den Wasserstein-Abstand zwischen dem alten (d. h. dem aktuellen) und dem aktualisierten GMM berücksichtigt, siehe Algorithmus 1.
Der Aktualisierungsprozess von Mittelwerten, der Kovarianz und des Gewichts der aktuellen Iteration endet beispielsweise, wenn sich entweder das Ziel J(π_k) nicht weiter verbessert oder der Wasserstein-Abstand zwischen dem aktuellen und dem aktualisierten GMM eine vordefinierte Schwelle überschreitet, die experimentell gewählt werden kann.
In Bezug auf die Aktualisierung 204 der GMM-Gewichte innerhalb einer Iteration POT kann eine Python-Bibliothek für optimalen Transport verwendet werden, anhand derer die für die Berechnung der Gradienten des Wasserstein-Abstands in Bezug auf die Gewichte in (22) benötigten Größen erhalten werden können.
Danach beginnt eine nächste Iteration, d. h. es werden frische Rollouts mit der aktualisierten Strategie ausgeführt, und die vorstehend erwähnte zweistufige Prozedur beginnt von vorn. Diese Optimierungsschleife wird wiederholt, bis ein aufgabenabhängiges Erfolgskriterium erfüllt wurde und eine endgültige Version der Steuerungsstrategie π_K erhalten wird.
Algorithmus 2 gibt eine beispielhafte Implementation des Strategieaktualisierungsprozesses an.
Zusammenfassend wird gemäß verschiedenen Ausführungsformen ein in 3 dargestelltes Verfahren bereitgestellt.
3 zeigt ein Flussdiagramm 300 eines Verfahrens zur Aktualisierung einer Steuerungsstrategie für einen durch ein GMM gegebenen Agenten.
In 301 werden Anfangswerte von Komponentengewichten, Mittelwerten und Kovarianzen eines gaußschen Mischungsmodells (GMMs), das eine Wahrscheinlichkeitsverteilung von Paaren von Zustand und Aktion spezifiziert, zur Bestimmung einer Anfangsversion des GMMs bestimmt.
In 302 Sammeln von Tupel von Zustand, Aktion und Belohnung werden durch Steuern des Agenten gemäß der Anfangsversion des GMMs gesammelt (d. h. der Agent wird in Zuständen gesteuert, die er durch Aktionen erreicht, welche das GMM spezifiziert (d. h. eine Aktion wird aus π(a|s) ausgewählt, welche ausgeführt wird, um einen neuen Zustand zu erreichen), und die anhand des Zustandsübergangs erhaltenen Belohnungen werden zusammen mit den Zuständen und der Aktion gesammelt).
In 303 wird die Anfangsversion des GMMs aktualisiert durch

• Verwenden eines impliziten Euler-Schemas zur Aktualisierung der Anfangswerte der Komponentengewichte, wobei die Aktualisierung der Anfangswerte der Komponentengewichte vom Wasserstein-Abstand zwischen dem GMM gemäß den Anfangswerten der Komponentengewichte und dem GMM gemäß den aktualisierten Werten der Komponentengewichte und von einem Wert einer Zielfunktion für das GMM gemäß den aktualisierten Werten der Komponentengewichte abhängt, wobei die Zielfunktion von den gesammelten Stichproben abhängt, und
• Verwenden eines expliziten Euler-Schemas zur Aktualisierung der Anfangswerte der Mittelwerte und der Kovarianz durch riemannschen Gradientenabstieg der Zielfunktion in Bezug auf die Bures-Wasserstein-Metrik.

Mit anderen Worten wird die Aktualisierung der Strategie durch den Wasserstein-Abstand beschränkt (durch die Komponente, die der Term in Gleichung (22), der minimiert wird, enthält; es kann jedoch auch eine explizite Randbedingung wie in Algorithmus 1 geben).
Der Wert, den die Zielfunktion für ein GMM hat, kann ferner von der Entropie des GMMs für die Regularisierung abhängen.
Der Ansatz aus 3 kann zum Trainieren einer Steuerungsstrategie verwendet werden, die dann zur Bestimmung eines Steuersignals zum Steuern eines technischen Systems in der Art beispielsweise einer computergesteuerten Maschine in der Art eines Roboters (beispielsweise eines Roboterarms für Roboterfähigkeiten in der Art von Greifbewegungen, eines Kollisionsvermeidungsverhaltens und Umgebungen mit mehreren Zielen), eines Fahrzeugs, eines Haushaltsgeräts, eines Elektrowerkzeugs, einer Fertigungsmaschine, eines persönlichen Assistenten oder eines Zugangskontrollsystems verwendet wird. So kann gemäß verschiedenen Ausführungsformen eine Strategie zum Steuern des technischen Systems erlernt werden und kann das technische System dann entsprechend betrieben werden. Es sei bemerkt, dass gemäß verschiedenen Ausführungsformen auch ein in einer simulierten Umgebung wirkender Agent gesteuert werden kann.
Verschiedene Ausführungsformen können Bilddaten (d. h. Digitalbilder) von verschiedenen visuellen Sensoren (Kameras), beispielsweise Video-, Radar-, LiDAR-, Ultraschall-, Wärmebildgebungs-, Bewegungs-, Sonar-Sensoren usw., beispielsweise als Grundlage für die Bestimmung des aktuellen Zustands (beispielsweise des Roboters und seiner Umgebung) empfangen und verwenden.
Gemäß einer Ausführungsform ist das Verfahren Computer-implementiert.
Wenngleich hier spezifische Ausführungsformen erläutert und beschrieben wurden, werden Durchschnittsfachleute auf dem Gebiet verstehen, dass eine Vielzahl alternativer und/oder gleichwertiger Implementationen die dargestellten und beschriebenen spezifischen Ausführungsformen ersetzen können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll jegliche Anpassungen oder Variationen der hier erörterten spezifischen Ausführungsformen abdecken. Daher ist zu verstehen, dass diese Erfindung nur durch die Ansprüche und die gleichwertigen Ausgestaltungen eingeschränkt sein soll.

Claims

Verfahren zum Aktualisieren einer durch ein gaußsches Mischungsmodell gegebenen Steuerungsstrategie für einen Agenten, umfassend: Bestimmen von Anfangswerten von Komponentengewichten, Mittelwerten und Kovarianzen eines gaußschen Mischungsmodells, das eine Wahrscheinlichkeitsverteilung von Paaren von Zustand und Aktion spezifiziert, um eine Anfangsversion des gaußschen Mischungsmodells zu bestimmen, Sammeln von Tupeln von Zustand, Aktion und Belohnung durch Steuern des Agenten gemäß der Anfangsversion des gaußschen Mischungsmodells, Aktualisieren der Anfangsversion des gaußschen Mischungsmodells durch Verwenden eines impliziten Euler-Schemas zum Aktualisieren der Anfangswerte der Komponentengewichte, wobei die Aktualisierung der Anfangswerte der Komponentengewichte vom Wasserstein-Abstand zwischen dem gaußschen Mischungsmodell gemäß den Anfangswerten der Komponentengewichte und dem gaußschen Mischungsmodell gemäß den aktualisierten Werten der Komponentengewichte und von einem Wert einer Zielfunktion für das gaußsche Mischungsmodell gemäß den aktualisierten Werten der Komponentengewichte abhängt, wobei die Zielfunktion von den gesammelten Stichproben abhängt, und Verwenden eines expliziten Euler-Schemas zum Aktualisieren der Anfangswerte der Mittelwerte und der Kovarianz durch riemannschen Gradientenabstieg der Zielfunktion in Bezug auf die Bures-Wasserstein-Metrik.
Verfahren nach Anspruch 1, wobei der Wert der Zielfunktion vom gaußschen Mischungsmodell abhängt, für das sie beurteilt wird, und wobei der Wert, den die Zielfunktion für ein gaußsches Mischungsmodell hat, die Belohnungen der gesammelten Tupel aufweist, die mit durch das gaußsche Mischungsmodell gegebenen Wahrscheinlichkeiten, dass die Aktionen der Tupel in den Zuständen der Tupel gewählt werden, gewichtet sind.
Verfahren nach Anspruch 1 oder 2, wobei der riemannsche Gradientenabstieg der Zielfunktion an einem n-fachen Produkt der Bures-Wasserstein-Mannigfaltigkeit ausgeführt wird, wobei n die Dimension der Gauß-Komponenten des gaußschen Mischungsmodells ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der riemannsche Gradientenabstieg mit einer beschränkten Liniensuche ausgeführt wird, die durch den Abstand zwischen dem gaußschen Mischungsmodell gemäß den Anfangswerten der Mittelwerte und Kovarianzen und dem gaußschen Mischungsmodell gemäß den aktualisierten Werten der Mittelwerte und Kovarianzen gemäß der Wasserstein-Metrik beschränkt ist.
Verfahren zum Bestimmen einer durch ein gaußsches Mischungsmodell gegebenen Steuerungsstrategie für einen Agenten, wobei eine ursprüngliche Version des gaußschen Mischungsmodells bestimmt wird und die ursprüngliche Version des gaußschen Mischungsmodells in einer oder mehreren Iterationen zu einer endgültigen Version des gaußschen Mischungsmodells aktualisiert wird, wobei in jeder Iteration eine aktuelle Version des gaußschen Mischungsmodells gemäß dem Verfahren nach einem der Ansprüche 1 bis 4 zu einer aktualisierten Version des gaußschen Mischungsmodells aktualisiert wird, wobei die aktuelle Version des gaußschen Mischungsmodells als Anfangsversion des gaußschen Mischungsmodells verwendet wird und die aktualisierte Anfangsversion des gaußschen Mischungsmodells die aktualisierte Version des gaußschen Mischungsmodells ist, wobei die Anfangsversion der ersten Iteration die ursprüngliche Version des gaußschen Mischungsmodells ist, die Anfangsversion jeder Iteration abgesehen von der ersten Iteration die aktualisierte Version der der Iteration vorhergehenden Iteration ist und die aktualisierte Version der letzten Iteration die endgültige Version des gaußschen Mischungsmodells ist.
Verfahren nach Anspruch 5, wobei das ursprüngliche gaußsche Mischungsmodell durch Anpassen eines gaußschen Mischungsmodells an einen anhand Demonstrationen gegebenen Trajektoriensatz bestimmt wird.
Verfahren zum Steuern eines Agenten, wobei eine Steuerungsstrategie nach den Ansprüchen 5 und 6 bestimmt wird und der Agent gemäß der bestimmten Steuerungsstrategie gesteuert wird.
Steuereinrichtung, die dafür ausgelegt ist, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Computerprogramm, das Befehle umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Computerlesbares Medium, das Befehle umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.