DE102021209761A1

DE102021209761A1 - Verfahren zum Trainieren einer Steuerungsstrategie

Info

Publication number: DE102021209761A1
Application number: DE102021209761.8A
Authority: DE
Inventors: Christoph-Nikolas Straehle; Jens Stefan Buchner; Damian Boborzi
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2023-03-09
Also published as: US20230081738A1; CN115771139A

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerungsstrategie beschrieben, aufweisend Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Trainieren einer Steuerungsstrategie.
Ein effektives Verfahren, eine Robotervorrichtung (wie z.B. einen Roboterarm, aber auch ein autonomes Fahrzeug) derart zu trainieren, dass sie in der Lage ist auch in Situationen, mit denen sie im Training nicht explizit konfrontiert wurde, umzugehen, ist Imitationslernen.
Imitationslernen zielt darauf ab, eine Steuerungsstrategie unter Verwendung von Expertendaten, die Expertendemonstrationen enthalten, derart zu trainieren, dass sie sich wie ein „Experte“ (also die Instanz, von der die Expertendemonstrationen stammen) verhält. Vielversprechende Ansätze des Imitationslernens basieren auf kontroversen (engl. adversarial) Verfahren und zeigen eine gute Effizienz bei der Interaktion mit Beispielen und Simulatoren. Kontroverse Verfahren sind aber häufig instabil und schwierig zu optimieren.
Imitationslernen lässt sich danach unterteilen, welche Informationen in den Expertendaten verfügbar sind; Verfahren, bei denen die Expertendemonstrationen als Folgen von Paaren aus Zustand und ausgeführter Aktion vorliegen, werden mit Lernen aus Demonstrationen (LfD) bezeichnet. Lernen aus Beobachtungen (LfO) beschreibt Verfahren, bei denen nur Zustandsinformationen, also insbesondere Informationen über aufeinanderfolgende Zustände, in den Expertendatenverfügbar sind.
Lernen aus Beobachtungen ermöglicht eine einfachere Sammlung der Expertendaten, das Training dabei ist aufgrund der geringeren Informationen in den Expertendaten typischerweise aber schwieriger. Entsprechend sind effektive Trainingsverfahren für Lernen aus Beobachtungen wünschenswert.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerungsstrategie bereitgestellt, aufweisend Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslernen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.
Das oben beschriebene Verfahren ermöglicht effizientes nicht-kontroverses Lernen aus Beobachtungen. Es ermöglicht das Training einer erfolgreichen Steuerungsstrategie mit hoher Dateneffizienz. Die Zielfunktion (bzw. die entsprechende Verlustfunktion) entspricht dem Abweisungsmaß (z.B. einer Divergenz) zwischen zwei Verteilungen. Sie ist deshalb interpretierbar und der Verlust ist Null, falls die trainierte Steuerungsstrategie dieselben Zustandsübergänge liefert wie das demonstrierte Steuerungsverhalten (d.h. der „Experte“). Dann verhält sich die trainierte Steuerungsstrategie wie der Experte und das Abweichungsmaß liefert somit ein objektives Kriterium, wie gut die trainierte Steuerungsstrategie ist. Beim kontroversen Lernen ist ein solches Maß schwer zu berechnen.
Gemäß verschiedenen Ausführungsbeispielen wird die Minimierung einer Divergenz zwischen einer Trajektorienverteilung gemäß zu trainierender Steuerungsstrategie und einer Trajektorienverteilung gemäß Experten-Steuerungsstrategie (demonstriert in durch Expertendaten) so umformuliert, dass sie in der Form der (zu maximierenden) Zielfunktion eines Verfahrens zum verstärkenden Lernen mit Maximierung der Entropie ist. Dies beinhaltet insbesondere eine geeignete Formulierung des Belohnungsterms, der so gestaltet ist, dass er Terme (Wahrscheinlichkeiten) aufweist, für die Wahrscheinlichkeitsmodelle aus den Expertendaten bzw. aus Steuerungsdurchläufen (d.h. Interaktion mit der Umgebung) gelernt werden können.
Dieser Ansatz ermöglicht es, die Steuerungsstrategie unter Verwendung eines beliebigen Verfahrens zum verstärkenden Lernen mit Maximierung der Entropie zu trainieren und damit ein effektives Training für Lernen aus Beobachtungen zu erreichen.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Trainieren einer Steuerungsstrategie, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das Abweichungsmaß die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten oder die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und der Verteilung Zustandsübergängen gemäß der Steuerungsstrategie ist.
Die Verwendung der Kullback-Leibler-Divergenz für die zu optimierende Zielfunktion ermöglicht eine Verwendung der Zielfunktion als Zielfunktion eines Maximale-Entropie-RL-Verfahrens mit einem effizient schätzbaren Belohnungsterm.
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei das Abweichungsmaß dadurch minimiert wird, dass ein Maximale-Entropie-Verstärkendes-Lernen-Verfahren auf eine Belohnung angewendet wird, deren gemeinsame Maximierung mit der Entropie der Steuerungsstrategie der Minimierung des Abweichungsmaßes entspricht.
Dies ermöglicht ein effizientes Training mit einem vorhandenen Maximale-Entropie-Verstärkendes-Lernen-Verfahren, das je nach Anwendungsfall geeignet gewählt werden kann.
Ausführungsbeispiel ist ein Verfahren nach Ausführungsbeispiel 3, aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Übergangsverteilung und eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die inverse Aktionsverteilung und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird. Bedingte Normalisierungsflüsse sind eine Klasse von Normalisierungsflüssen, bei denen die Abbildung der Basis-Verteilung auf die resultierende Verteilung durch eine Eingabe bedingt ist (hier z.B. Zustände), um bedingte Wahrscheinlichkeiten zu modellieren.
Ausführungsbeispiel 5 ist ein Verfahren nach Ausführungsbeispiel 4, ferner aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
Bedingte Normalisierungsfluss-Wahrscheinlichkeitsmodelle ermöglichen eine exakte Approximation von gegebenen Verteilungen und könne effizient ausgewertet werden.
Die bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle können zumindest teilweise offline trainiert werden. Damit können Stabilitätsprobleme, wie sie beim kontroversen Lernen auftreten, vermieden werden.
Ausführungsbeispiel 6 ist ein Verfahren zum Erzeugen einer Steueraktion aufweisend: Trainieren einer Steuerungsstrategie gemäß einem der Ausführungsbeispiele 1 bis 5 und Erzeugen einer Steueraktion gemäß der trainierten Steuerungsstrategie.
Ausführungsbeispiel 7 ist eine Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchzuführen.
Ausführungsbeispiel 8 ist ein Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach Ausführungsbeispiel 6 ermittelt werden.
Das Imitationslemen ermöglicht es ein realistisches Verhalten der Robotervorrichtungen zu simulieren, z.B. das Verhalten wie bei realen Verkehrsteilnehmern. Damit kann das Steuerungsverfahren unter realistischen Bedingungen getestet werden.
Ausführungsbeispiel 9 ist eine Testeinrichtung, die eingerichtet ist, das Verfahren nach Ausführungsbeispiel 8 durchzuführen.
Ausführungsbeispiel 10 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
Ausführungsbeispiel 11 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt einen Roboter.
2 veranschaulicht das Training einer Steuerungsstrategie gemäß einer Ausführungsform.
3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Trainieren einer Steuerungsstrategie darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt einen Roboter 100.
Des Roboters 100 umfasst einen Roboterarm 101, beispielsweise einen Industrieroboterarm zum Handhaben oder Montieren eines Werkstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 umfasst Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, durch die die Manipulatoren 102, 103, 104 abgestützt sind. Der Begriff „Manipulator“ bezieht sich auf die beweglichen Elemente des Roboterarms 101, deren Betätigung eine physikalische Wechselwirkung mit der Umgebung ermöglicht, z. B. um eine Aufgabe auszuführen. Für die Steuerung des Roboterarms 101 umfasst der Roboter 100 eine (Roboter-) Steuereinrichtung 106, die dazu konfiguriert ist, die Wechselwirkung mit der Umgebung gemäß einem Steuerprogramm zu implementieren. Das letzte Element 104 (am weitesten von der Stütze 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie z. B. einen Schweißbrenner, ein Greifinstrument, ein Lackierwerkzeug oder dergleichen umfassen.
Die anderen Manipulatoren 102, 103 (näher an der Basis 105) können eine Positionierungsvorrichtung bilden, sodass zusammen mit dem Endeffektor 104 der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende) erfüllen kann.
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 umfassen, die die Manipulatoren 102, 103, 104 miteinander und mit der Basis 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine drehbare Bewegung (d.h. Drehbewegung) und/oder Translationsbewegung (d.h. Verschiebung) von zugehörigen Manipulatoren relativ zueinander bereitstellen kann. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktuatoren eingeleitet werden, die durch die Steuereinrichtung 106 gesteuert werden.
Der Begriff „Aktuator“ kann als Komponente verstanden werden, die dazu ausgelegt ist, einen Mechanismus oder Prozess in Reaktion darauf, dass sie angetrieben wird, zu beeinflussen. Der Aktuator kann Befehle, die durch die Steuereinrichtung 106 ausgegeben werden (die sogenannte Aktivierung), in mechanische Bewegungen implementieren. Der Aktuator, z. B. ein elektromechanischer Wandler, kann dazu konfiguriert sein, auf seine Aktivierung elektrische Energie in mechanische Energie in Reaktion umzuwandeln.
Der Begriff „Steuereinrichtung“ kann als irgendein Typ von Logik, die eine Entität implementiert, verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor, der in der Lage ist, eine Software auszuführen, die in einem Speichermedium gespeichert ist, Firmware oder eine Kombination davon umfassen kann, und die Befehle, z. B. an einen Aktuator im vorliegenden Beispiel, ausgeben kann. Die Steuereinrichtung kann beispielsweise durch einen Programmcode (z. B. Software) konfiguriert sein, um den Betrieb eines Roboters zu steuern.
Im vorliegenden Beispiel umfasst die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der einen Code und Daten speichert, auf deren Basis der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf der Basis einer Steuerungsstrategie 112, die im Speicher 111 gespeichert ist. Des Roboters 100 soll beispielsweise ein Objekt 113 aufnehmen. Beispielsweise ist der Endeffektor 104 ein Greifer und soll das Objekt 113 aufnehmen, aber der Endeffektor 104 kann auch beispielsweise eingerichtet sein, das Objekt 113 zum Aufnehmen anzusaugen.
Die im Folgenden beschriebene Herangehensweise kann nicht nur für Roboterarme, sondern auch zur Steuerung für verschiedene Robotervorrichtungen verwendet werden, wie z.B. Geh- und Laufroboter, autonome Fahrzeuge, Maschinen, etc.
In den folgenden Ausführungsbeispielen wird die Aufgabe des Steuerns einer Robotervorrichtung als Markov-Entscheidungsprozess modelliert, d.h. durch ein Tupel (S, A, p, r), wobei S den Zustand, A die Aktion, p(s_t+1|s_t,a_t) die Übergangsfunktion und r(s_t,a_t) die (beschränkte) Belohnungsfunktion bezeichnen. Der Zustandsraum S und der Aktionsraum A werden als kontinuierlich betrachtet.
In jedem Zeitschritt t interagiert ein Agent (der gemäß der Steuerungsstrategie handelt, z.B. ein der Roboter 100, der gemäß der Steuerungsstrategie 112 handelt) mit der Umgebung (d.h. dem gesteuerten System, z.B. der Roboter mit seinem Umfeld, z.B. dem Objekt 113), indem er einen Zustand s_t beobachtet und abhängig von diesem Zustand eine Aktion a_t vornimmt. Der Zustand (oder Konfiguration) enthält Informationen über die Robotervorrichtung (wie z.B. Gelenkpositionen) und auch ihrer Umgebung (wie z.B. der Pose des Objekts 113). Die Anwendung von Aktion a_t im Zustand s_t resultiert in einem neuen Zustand s_t+1 und einer Belohnung r_t+1 abhängig von der Übergangsfunktion (d.h. den Übergangswahrscheinlichkeiten) und der Belohnungsfunktion. Es wird eine stochastische Steuerungsstrategie π_θ(a_t|s_t) durch Anpassen ihrer Parameter θ so trainiert, dass die erhaltenen Belohnungen (im Mittel über die Trainingsdaten oder Trainings-Batches) möglichst groß werden.
Beim verstärkenden Lernen mit Maximierung der Entropie wird die Steuerungsstrategie nicht nur derart trainiert, dass der Gewinn (also die Belohnungen über das Training hinweg) möglichst groß wird, sondern auch die Entropie ℍ(π_θ(·|s_t) der (Wahrscheinlichkeit-)Verteilung, gemäß der die Steuerungsstrategie Steueraktionen auswählt, möglichst groß wird. Dies resultiert in der (zu maximierenden) Zielfunktion $J (π_{θ}) = \sum_{t = 0}^{T} E_{(s_{t}, a_{t}) ~ μ^{π_{θ}}} [r (s_{t}, a_{t}) + α ℍ (π_{θ} (\cdot | s))]$
Der Parameter α steuert der Zufälligkeit der optimalen Steuerungsstrategie, indem er festlegt, wie wichtig der Entropieterm im Vergleich zur Belohnung ist.
Beim Imitationslernen steht für das Training nicht die wahre Belohnungsfunktion r(s_t,a_t) zur Verfügung. Die Steuerungsstrategie wird hingegen so trainiert, dass sie das Verhalten einer Experten-Steuerungsstrategie (also einer Referenz-Steuerungsstrategie) π_E, das sich in einem Trainingsdatensatz $D_{E}$
zeigt, imitiert.
Lernen aus Beobachtungen (LfO) ist ein Teilgebiet des Imitationsiemens, bei dem der Fall betrachtet wird, dass die Expertenaktionen nicht bekannt sind. Dies bedeutet, dass die Expertendaten von der Form $D_{E}^{L f O} : = {s_{0}^{k}, s_{1}^{k}, \dots, s_{T}^{k}}_{k = 0}^{K}$
sind, d.h. mehrere Folgen von Übergängen von einem Zustand zum nächsten Zustand (d.h. Expertentrajektorien) enthalten. Es wird außerdem angenommen, dass beim Trainingsprozess eine Interaktion mit der Umgebung (d.h. dem gesteuerten System, was aber für das Training auch simuliert werden kann) möglich ist. Dies bedeutet, dass die Steuereinrichtung 106 beispielsweise den Roboterarm 101 steuern kann und dann über Sensoren (wie z.B. eine Kamera 114) den resultierenden Zustand der Umgebung (Roboterarm 101 plus Objekt 113 etc.) ermitteln kann.
Das Ziel ist somit das Training der Steuerungsstrategie, sodass sie die für jeweilige Zustände der Umgebung am besten geeigneten Aktionen auf der Grundlage des Verhaltens der Umgebung und der Übergänge aus den Expertendaten lernt.
Gemäß verschiedenen Ausführungsformen erfolgt dies durch Anpassen von Wahrscheinlichkeitsverteilungen. Es werden dazu Wahrscheinlichkeitsmodelle verwendet, um ein Wahrscheinlichkeitsanpassungsziel auf nicht-kontroverse Weise zu schätzen. Speziell werden beispielsweise Normalisierungsflüsse verwendet, um die Ähnlichkeit der Zustandsübergänge gemäß der trainierten Steuerungsstrategie mit der Experten-Steuerungsstrategie zu schätzen. Gemäß verschiedenen Ausführungsformen wird außerdem ein Vorwärts- und Rückwärts-Dynamikmodell verwendet, um die Werte der beim Training zu optimierende Zielfunktion zu schätzen.
Gemäß verschiedenen Ausführungsformen wird die Verteilung der Trajektorien µ^πθ, wie sie die Steuerungsstrategie erzeugt, an die Verteilung der Trajektorien µ^E, wie sie die Experten-Steuerungstrategie erzeugt, angepasst, in dem die Kullback-Leibler-Divergenz (KLD) zwischen ihnen minimiert wird. Die beiden Trajektorien-Verteilungen µ^πθ und µ^E sind durch die Startzustands-Verteilung p(s₀) und die jeweiligen bedingten Zustandsübergangsverteilungen definiert: $μ^{π_{θ}} = p (s_{0}) \prod_{i = 0 \dots T} μ^{π_{θ}} (s_{i + 1} | s_{i})$
$μ^{E} = p (s_{0}) \prod_{i = 0 \dots T} μ^{E} (s_{i + 1} | s_{i})$
Die Kullback-Leibler-Divergenz zwischen diesen beiden Verteilungen ist gegeben durch $D_{K L} (μ^{π_{θ}} ‖ μ^{E}) = E_{(s_{0} \dots s_{T}) ~ π_{θ}} [log μ^{π_{θ}} - log μ^{E}]$
und beschreibt, wie nah die Verteilung µ^πθ an der Verteilung µ^E liegt. Durch Minimieren der Kullback-Leibler-Divergenz (z.B. durch die Steuereinrichtung 106) wird erreicht, dass die Steuerungsstrategie (z.B. die Steuerungsstrategie 112) Trajektorien erzeugt, die den Trajektorien aus den Expertendaten möglichst ähnlich sind.
Es soll also die Steuerungsstrategie π_θ(a_t|s_t) derart trainiert werden, d.h. ihr Parametersatz θ (z.B. Gewichte eines neuronalen Netzes) gemäß dem Optimierungsproblem $min D_{K L} (μ^{π_{θ}} ‖ μ^{E}) = min E_{(s_{i}, s_{i + 1}) ~ π_{θ}} [log μ^{π_{θ}} (s_{i + 1} | s_{i}) - log μ^{E} (s_{i + 1} | s_{i})]$
gesetzt wird.
Umschreiben dieses Optimierungsproblems unter Verwendung von $μ^{π_{θ}} (s_{i + 1} | s_{i}) = \frac{p (s_{i + 1} | a_{i}, s_{i}) π_{θ} (a_{i} | s_{i})}{π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i})}$
liefert $min D_{K L} (μ^{π_{θ}} ‖ μ^{E}) = max E_{(s_{i}, s_{i + 1}) ~ π_{θ}} [r (s_{i}, a_{i}) + ℍ (π_{θ} (a_{i} | s_{i})]$
wobei der Belohnungsterm definiert ist durch $\begin{matrix} r (a_{i}, s_{i}) = \\ E_{(s_{i + 1}) ~ p (s_{i + 1} | s_{i}, a_{i})} [- log p (s_{i + 1} | s_{i}, a_{i}) + log π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i}) + log μ^{E} (s_{i + 1} | s_{i})] \end{matrix}$
und $π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i})$
die inverse Aktionsverteilung (oder auch Rückwärts-Verteilung der Umgebungsdynamik) ist.
Ein Modell für die inverse Aktionsverteilungsfunktion $π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i})$
und ein Modell für die Übergangsverteilung p(s_i+1|a_i,s_i) (oder auch Vorwärts-Verteilung der Umgebungsdynamik) werden gemäß verschiedenen Ausführungsformen durch Trainieren eines bedingten Normalisierungsflusses unter Verwendung von Daten ermittelt, die in einem Buffer (Wiederholungsbuffer, engl. replay buffer) gespeichert sind und basierend auf Steuerungs-Durchläufen (sogenannte Rollouts) gesammelt werden. Diese Daten enthalten Trajektorien mit zugehörigen Aktionen und Belohnungen und können durch eine reale Steuerung (z.B. des Roboterarms 101) aber auch durch Simulation von Steuerungs-Durchläufen erzeugt werden.
Die bedingte Experten-Zustandsübergangsverteilung µ^E(s_i+1|s_i) kann offline (d.h. außerhalb oder vor den Steuerungsdurchläufen) gelernt werden, z.B. durch Trainieren eines bedingten Normalisierungsflusses auf den durch die Expertendaten gegebenen Paaren aus Zustand und Folgezustand.
Mit den so trainierten Verteilungen kann die Steuerungsstrategie unter Verwendung der Zielfunktion gemäß (1), die als Maximale-Entropie-Zielfunktion gesehen werden kann, unter Verwendung eines Standard-Maximale-Entropie-Reinforcement Learning (verstärkendes Lernen)-Verfahrens trainiert werden, wie beispielsweise Soft Actor Critic (SAC), wobei die Belohnung (gemäß (2)) mittels der trainierten Wahrscheinlichkeitsmodelle (z.B. Normalisierungsflüsse) für µ^E(s_i+1|s_i), $π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i})$
und p(s_i+1|a_i,s_i) geschätzt wird.
2 veranschaulicht das Training einer Steuerungsstrategie gemäß einer Ausführungsform (z.B. durchgeführt von der Steuerungseinrichtung 106).
Aus Expertendaten 201 wird ein Wahrscheinlichkeitsmodell 202 für µ^E (s_i+1|s_i) trainiert.
Aus Daten aus einem Wiederholungsbuffer 204, die durch (ggf. simulierten) Steuerungsdurchläufen gewonnen werden, d.h. durch Interaktion mit der Umgebung 203 (z.B. Roboterarm 101 inklusive seinem Arbeitsbereich wie Objekt 113), werden Wahrscheinlichkeitsmodelle 205 p(s_i+1|a_i,s_i) und $π_{θ}^{'} (a_{i} | s_{i + 1}, s_{i})$
trainiert.
Ein RL-Trainingsverfahren 206 (z.B. ein Trainingsverfahren mit einem Actor 207 und einem Critic 208) verwendet die Wahrscheinlichkeitsmodelle 205 (zur Schätzung der Belohnung gemäß (2)) und ermittelt die Steuerungsstrategie. Dabei interagiert der Actor 207 für Trainingsdurchläufe mit der Umgebung 203.

Im Folgenden wird ein Beispiel für einen Trainingsalgorithmus in Pseudocode (mit den üblichen englischen Schlüsselwörtern wie „für“, „do“, „end“, „range“, „procedure“ etc.) angegeben.

1:	procedure SOIL-TDM(D_E)
2:	Trainiere µ^E (s_t+1\|s_t) mit $D_{E} : {s_{0}, s_{1}, \dots s_{T}}_{k = 0}^{K}$
3:	for Episoden do
4:	for range(T) do	Erzeuge Daten
5:	â_t ← sample(π_θ(â_t\|s_t))
6:	s_t+1 ← p_sim(s_t+1\|s_t,â_t)	Wende Aktion an (durch Interaktion mit Umgebung oder Simulation)
7:	speichere (s_t, â_t, s_t+1) in D_RB	Speichere im Wiederholungsbuffer
8:	end for
9:	for range(N) do	Aktualisiere Dynamik-Modell
10:	${(s_{t}, {\hat{a}}_{t}, s_{t + 1})}_{i = 1}^{B} ~ D_{R B}$	Sample Batch aus dem Wiederholungsbuffer
11:	trainiere µ_η (â_t\|s_t+1,s_t) und µ_ϕ (s_t+1\|â_t,s_t)
12:	end for
13:	for range(N) do	SAC-Optimierung
14:	${(s_{t}, {\hat{a}}_{t}, s_{t + 1})}_{i = 1}^{B} ~ D_{R B}$
15:	a_t ← sample(π_θ(a_t\|s_t))	Sample Aktion aus Steuerungsstrategie
16:	optimiere π_θ (a_t\|s_t) mit J_π(a_t,s_t)	Aktualisiere Steuerungsstrategie mit Q-Funktion
17:	r(s_t,â_t) ← - logµ_ϕ (s_t+1\|â_t,s_t) + logµ_η(a_t\|s_t+1,s_t) + logµ^E (s_t+1\|s_t)	Schätze Belohnung
18:	optimiere Q_ψ(â_t,s_t) mit J_Q(â_t,s_t)	Aktualisiere Q-Funktion
19:	end for
20:	end for
21:	end procedure

Hierbei sind $J_{π} (a_{t}, s_{t}) = E_{(s_{t}) ~ D_{R B}} [E_{(a_{t}) ~ π_{θ}} [α log π_{θ} (a_{t} | s_{t}) - Q_{Ψ} (s_{t}, a_{t})]]$
und $J_{Q} ({\hat{a}}_{t}, s_{t}) = E_{(s_{t}, {\hat{a}}_{t}) ~ D_{R B}} [\frac{1}{2} {(Q_{Ψ} (s_{t}, {\hat{a}}_{t}) - (r (s_{t}, {\hat{a}}_{t}) + γ E_{s_{t + 1}} [V_{\hat{Ψ}} (s_{t + 1})]))}^{2}]$
Q_Ψ ist die Q-Funktion_. Um die Stabilität zu erhöhen, wird eine Ziel-Q-Funktion Q_Ψ̂ mit Parametern Ψ̂ verwendet, die langsam der tatsächlichen Q-Funktion folgt. V_Ψ̂, ist die Wert-Funktion (engl. value function) entsprechend diesen Parametern. Der Parameter γ ist der Diskontierungsfaktor (engl. discount factor).
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 6 dargestellt.
3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Trainieren einer Steuerungsstrategie darstellt.
In 301 werden Trainingsdaten beschafft, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind.
In 302 wird die Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten trainiert.
Das Minimieren erfolgt über Suchraum von Parameterwerten der Steuerungsstrategie, beispielsweise Gewichte eines neuronalen Netzwerks.
Die Trainingsdaten werden beispielsweise durch das Aufnehmen von Demonstrationen beschafft. Beispielsweise kann ein Benutzer einen Roboterarm zur Ausführung einer bestimmten Aufgabe demonstrieren (z.B. für verschiedene Situationen wie etwa Anfangspositionen eins aufzunehmenden Objekts) oder es können, für den Fall einer Steuerungsstrategie für ein autonomes Fahrzeug, Aufnahmen von realen Fahrzeugen verwendet werden.
Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Die Herangehensweise von 3 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das physikalische System gelernt und das physikalische System dann entsprechend gesteuert.
Die Herangehensweise von 3 kann beispielsweise für Anwendungen eingesetzt werden, in denen Expertendemonstrationen als Videoaufnahmen ohne zusätzliche Sensorsignale vorliegen. Ein Beispiel ist das Training von Verkehrsagenten in einer Simulation, damit die Verkehrsagenten wie reale Verkehrsteilnehmer fahren, wobei die Expertendaten Aufnahmen von Straßenverkehr in der Vogelperspektive enthalten. Es sind dabei z.B. keine direkten Informationen über die Fahrzeugphysik, das Gaspedal und den Lenkwinkel verfügbar. Daher müssen diese Werte auf der Grundlage von manchmal unvollständigen Informationen geschätzt werden, um einen Agenten darauf zu trainieren, das beobachtete Verhalten zu imitieren. Methoden, die nicht auf Aktionen aus diesen Expertendaten angewiesen sind, haben somit einen Vorteil, da weniger Werte geschätzt werden müssen.
Gemäß verschiedenen Ausführungsformen wird eine Steuerungsstrategie für die Steuerung eines Fahrzeugs unter Verwendung von zuvor aufgezeichneten und gesammelten Experten-Demonstrationen als Trainingsdaten (z.B. dem HighD-Datensatz) trainiert. Die Steuerungsstrategie wird dabei derart optimiert, dass sie Steueraktionen auswählt (abhängig vom jeweiligen Zustand), die zu Zustandstrajektorien führt, wie sie in den Experten-Demonstrationen vorhanden sind. Das Optimieren der in Hinblick auf ähnliche Steueraktionen passiert dabei indirekt: Die Steuerungsstrategie wird darauf optimiert, zu den Experten-Zustandstrajektorien ähnliche Zustandstrajektorien zu erzeugen.
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Demonstrationen oder Zuständen des Systems (z.B. Roboter und Objekt oder Objekte) und Konfigurationen und Szenarios zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern einer Roboter, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Trainieren einer Steuerungsstrategie, aufweisend: Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.
Verfahren nach Anspruch 1, wobei das Abweichungsmaß die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten oder die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und der Verteilung Zustandsübergängen gemäß der Steuerungsstrategie ist.
Verfahren nach Anspruch 1 oder 2, wobei das Abweichungsmaß dadurch minimiert wird, dass ein Maximale-Entropie-Verstärkendes-Lernen-Verfahren auf eine Belohnung angewendet wird, deren gemeinsame Maximierung mit der Entropie der Steuerungsstrategie der Minimierung des Abweichungsmaßes entspricht.
Verfahren nach Anspruch 3, aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Übergangsverteilung und eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die inverse Aktionsverteilung und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
Verfahren nach Anspruch 4, ferner aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
Verfahren zum Erzeugen einer Steueraktion aufweisend: Trainieren einer Steuerungsstrategie gemäß einem der Ansprüche 1 bis 5 und Erzeugen einer Steueraktion gemäß der trainierten Steuerungsstrategie.
Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen.
Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend: Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach Anspruch 6 ermittelt werden.
Testeinrichtung, die eingerichtet ist, das Verfahren nach Anspruch 8 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.