DE102022208082B3

DE102022208082B3 - Verfahren zum Steuern eines technischen Systems

Info

Publication number: DE102022208082B3
Application number: DE102022208082.3A
Authority: DE
Inventors: Fabian Otto; Gerhard Neumann
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2023-11-02
Anticipated expiration: 2042-08-04
Also published as: CN117506887A; US20240046126A1

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern eines technischen Systems beschrieben, aufweisend Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems, Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den ersten Zustand, Ermitteln eines zweiten Zustands, in den das technische System durch Durchführung der ersten Aktion eingetreten ist, Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird, Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den zweiten Zustand.

Description

Verfahren zum Steuern eines technischen Systems
Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Steuern eines technischen Systems.
Eine Robotervorrichtung (z.B. einen Roboterarm aber auch ein Fahrzeug, das durch eine Umgebung können navigieren soll) kann durch verstärkendes Lernen (RL für engl. Reinforcement Learning) für die Ausführung einer bestimmten Aufgabe, z. B. in der Fertigung, trainiert werden.
Xi, Ao, et al. „Balance control of a biped robot on a rotating platform based on efficient reinforcement learning." IEEE/CAA Journal of Automatica Sinica 6.4 (2019): 938-951, schlagen ein hierarchisches Gauß'sches Prozessmodell vor, das zwei Schichten unabhängiger Gauß'scher Prozesse enthält, aus denen das physikalisch kontinuierliche Wahrscheinlichkeitsübergangsmodell des Roboters gewonnen wird.
Wang, Zhi, Chunlin Chen, and Daoyi Dong. „Lifelong incremental reinforcement learning with online Bayesian inference." IEEE Transactions on Neural Networks and Learning Systems 33.8 (2021): 4003-4016 schlagen lebenslanges inkrementelles Verstärkungslernen (LLIRL) vor, einen neuen inkrementellen Algorithmus für effiziente lebenslange Anpassung an dynamische Umgebungen.
Beim verstärkenden Lernen lernt ein Agent (z.B. eine Steuereinrichtung für eine Robotervorrichtung), allein durch Interaktion mit ihrer Umgebung optimal zu handeln. Um lohnende Verhaltensweisen zu entdecken, sollten Agenten daher ihre Umgebung effektiv erkunden. Bei kontinuierlichen Steuerungsaufgaben wird die Erkundung oft durch die Verwendung einer stochastischen Strategie erreicht, typischerweise eine Gauß-Verteilung über die nächste Aktion des Agenten, die vom aktuellen Zustand der Umgebung abhängt. Gaußsche Strategien erzeugen Handlungsmuster, indem sie unabhängiges Gaußsches Rauschen zur Ausgabe einer deterministischen Funktion, die auf Zustandsinformation der Umgebung angewendet wird, hinzufügen.
Folglich sind die Aktionen allein durch die Stochastizität der Zustandsübergangsdynamik der Umwelt stochastisch voneinander abhängig, was zu Aktionssequenzen mit geringer zeitlicher Kohärenz führt. Dieses Phänomen ist problematisch, da nicht kohärente Handlungsabläufe zu ineffizientem Random-Walk-Explorationsverhalten führen können, was die Dateneffizienz verringert oder die Entdeckung optimaler Verhaltensweisen gänzlich verhindert. Darüber hinaus führt eine inkohärente Exploration oft zu nichtglatten Aktionstrajektorien, die bei vielen physikalischen Systemen (z.B. Roboteraktoren) zu ruckartigem Verhalten oder sogar zu Hardware-Schäden führen können.
Es sind deshalb Herangehensweisen wünschenswert mit denen beim verstärkenden Lernen eine zeitlich kohärente Exploration im Aktionsraum erreicht werden kann.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern eines technischen Systems bereitgestellt, aufweisend Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems, Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den ersten Zustand, Ermitteln eines zweiten Zustands, in den das technische System durch Durchführung der ersten Aktion eingetreten ist, Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird, Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den zweiten Zustand.
Das oben beschriebene Verfahren ermöglicht durch die Verwendung von Wahrscheinlichkeitsverteilungen über Ketten (von zwei oder mehr, z. B. drei, vier, fünf oder mehr) Aktionen und deren Aktualisierung unter Verwendung von Bayesscher Inferenz eine zeitliche Korrelation (d.h. Korrelation über Zeitschritte, wobei jede Aktion einem Zeitschritt zugeordnet ist) der Aktionen und damit zeitlich kohärentes Verhalten der Steuerung über einen Steuerungsdurchlauf (von Angangszustand bis Endzustand, z.B. Zielzustand). Es wird somit über mehrere Aktionen geplant. Das Verfahren erfordert kein spezielles Domain-Wissen, kein trainiertes Umgebungsmodell und kann mit einem beliebigen Trainingsalgorithmus verwendet werden, der eine rekurrente Steuerungsrichtlinie erlaubt.
Die Bayessche Inferenz kann als ein Umplanen betrachtet werden, wenn ein neuer Zustand (hier der zweite Zustand) beobachtet wird, wobei das Verfahren iterativ weiter fortgeführt werden kann (d.h. der zweite Zustand tritt an die Stelle des ersten Zustands und ein dritter Zustand an die Stelle des zweiten Zustands usw.)
Das Wählen einer Aktion für einen Zustand gemäß einer jeweiligen Wahrscheinlichkeitsverteilung für eine Spezifikation einer Kette von Aktionen bedeutet, dass eine Spezifikation einer Kette gesampelt wird und die erste Aktion dieser Kette als die Aktion gewählt wird. Dies kann ein Dekodieren der gesampelten Spezifikation in die Kette von Aktionen (oder zumindest die erste Aktion der Kette, d.h. die Aktion an erster Stelle der Kette) aufweisen.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Steuern eines technischen Systems, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein nach Ausführungsbeispiel 1, wobei jede Aktion einem Zeitschritt zugeordnet ist, wobei die A-posteriori-Verteilung eine Verteilung einer Spezifikation einer dritten Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand ist, die bis zu einem Zeitschritt reicht, zu dem die erste Kette von Aktionen reicht, und wobei die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird durch Ausdehnen der A-posteriori-Verteilung auf eine Aktion eines weiteren Zeitschritts nach dem Zeitschritt, zu dem die erste Kette von Aktionen reicht.
In anderen Worten wird die A-posteriori-Verteilung, die zunächst für eine Kette ist, die um eine Aktion kürzer ist als die erste Kette (da sie bereits auf den zweiten Zustand konditioniert ist und somit die Aktion am Anfang der ersten Kette weggefallen ist) auf eine Wahrscheinlichkeitsverteilung für eine Kette (nämlich die zweite Kette) ausgedehnt, die genauso lang wie die zweite Kette ist (aber um einen Zeitschritt verschoben ist, sodass sie einen Zeitschritt weiter in die Zukunft reicht). Dadurch ist gewährleistet, dass die erste Verteilung und die zweite Verteilung Verteilungen von Aktionsketten mit gleicher Länge sind und insbesondere stets eine weitere Aktion gesampelt werden kann (da anschaulich vermieden wird, dass die Kette bei wiederholter Anwendung der Bayesschen Inferenz auf die Länge null schrumpft).
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei die A-posteriori-Verteilung ausgedehnt wird mittels eines linearen stochastischen Prädiktionsmodells, das durch die Ausgabe, die ein neuronales Prädiktions-Netzwerk für den zweiten Zustand ausgibt, spezifiziert ist.
Damit kann insbesondere eine Steuerungsrichtlinie durch Training des neuronalen Prädiktions-Netzwerks (in den unten stehenden Beispielen als zweites neuronales Netzwerk bezeichnet) trainiert werden, sodass, beispielsweise, ein RL-Verlust minimiert (bzw. reduziert) wird.
Ausführungsbeispiel 4 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei die erste Wahrscheinlichkeitsverteilung, die zweite Wahrscheinlichkeitsverteilung und die Plausibilitäts-Verteilung der Bayesschen Inferenz Gaußsche Verteilungen sind.
Dies ermöglicht eine einfache Durchführung der Bayesschen Inferenz.
Ausführungsbeispiel 5 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4, wobei die Spezifikationen latente Repräsentationen der jeweiligen Ketten sind, sodass die erste Wahrscheinlichkeitsverteilung und die zweite Wahrscheinlichkeitsverteilung faktorisierte Gauß-Verteilungen sind.
Dies vereinfacht die Durchführung der Bayesschen Inferenz weiter, was insbesondere die Rückwärtspropagation (Backpropagation) beim Training vereinfacht.
Ausführungsbeispiel 6 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5, wobei die Plausibilitäts-Verteilung (d.h. die Likelihood-Verteilung) bei der Bayesschen Inferenz eine Verteilung von Zustandsinformationen des zweiten Zustands ist, die mittels eines neuronalen Kodier-Netzwerks aus dem zweiten Zustand ermittelt wird.
Das neuronale Kodier-Netzwerk (in den unten stehenden Beispielen als erstes neuronales Netzwerk bezeichnet) schafft zusätzliche Freiheitsgrade beim Training (z.B. zusätzlich zu dem Prädiktions-Netzwerk) und wird beim Training so angepasst, dass es die relevanten Zustandsinformationen aus dem jeweiligen Zustand extrahiert.
Ausführungsbeispiel 7 ist ein Verfahren nach zum Trainieren eines Agenten zum Steuern eines technischen Systems durch, in mehreren Steuerungsdurchläufen, Steuern des technischen Systems gemäß dem Verfahren nach einem der Ausführungsbeispiele 1 bis 6 und Anpassen des Agenten gemäß einer Optimierung einer Trainings-Zielfunktion.
Hierbei kann die Anpassung über Parameter der Ermittlung der zweiten Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung (insbesondere durch Anpassung des Prädiktions-Netzwerks) und/oder über die Ermittlung der Plausibilitätsverteilung der Bayesschen Inferenz (insbesondere durch Anpassung des Plausibilitäts-Netzwerks) erfolgen. Das Anpassen des Agenten gemäß einer Optimierung ist als Suche nach einem Optimum (das nicht notwendig erreicht wird) zu verstehen, z.B. sodass die Trainings-Zielfunktion reduziert oder erhöht wird, je nachdem, wie sie formuliert ist.
Ausführungsbeispiel 8 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 7, wobei die Trainings-Zielfunktion mindestens eine Regularisierungsterm aufweist, der eine Korrelation zwischen den Aktionen in der zweiten Wahrscheinlichkeitsverteilung belohnt.
Auf diese Weise wird sichergestellt, dass bei einer langen Kette von Aktionen (in einem Steuerungsdurchlauf die Korrelation zwischen den Aktionen nicht verloren geht. Beispielsweise kann der Agent (mittels eines Regularisierungsterms) so trainiert werden, dass die Wahrscheinlichkeitsverteilungen einem autoregressiven Prozess erster Ordnung gleichen (und so eine hohe Korrelation zwischen aufeinanderfolgenden Zeitschritten erzwungen wird). Es kann beispielsweise außerdem ein Regularisierungsterm vorgesehen sein, der starke Aktualisierungen der Verteilung (also große Änderungen von der ersten zur zweiten Verteilung) bestraft, sodass der Agent dazu gezwungen wird, effektiv vorauszuplanen.
Ausführungsbeispiel 9 ist eine Steuerungseinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchzuführen.
Ausführungsbeispiel 10 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.
Ausführungsbeispiel 11 ist ein Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt einen Roboter.
2 veranschaulicht eine zeitlich kohärente Steuerrichtlinie gemäß einer Ausführungsform.
3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Steuern eines Roboters zum Aufnehmen und Inspizieren eines Objekts gemäß einer Ausführungsform darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt einen Roboter 100.
Der Roboter 100 beinhaltet einen Roboterarm 101, zum Beispiel einen Industrieroboterarm zum Handhaben oder Montieren eines Arbeitsstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 beinhaltet Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, mittels der die Manipulatoren 102, 103, 104 gestützt werden. Der Ausdruck „Manipulator“ bezieht sich auf die bewegbaren Bauteile des Roboterarms 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, um z. B. eine Aufgabe auszuführen. Zur Steuerung beinhaltet der Roboter 100 eine (Roboter-)Steuereinrichtung 106, die zum Implementieren der Interaktion mit der Umgebung gemäß einem Steuerprogramm ausgelegt ist. Das letzte Bauteil 104 (das am weitesten von der Stütze 105 entfernt ist) der Manipulatoren 102, 103, 104 wird auch als der Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge beinhalten, wie etwa einen Schweißbrenner, ein Greifinstrument, ein Lackiergerät oder dergleichen.
Die anderen Manipulatoren 102, 103 (die sich näher an der Stütze 105 befinden) können eine Positionierungsvorrichtung bilden, sodass, zusammen mit dem Endeffektor 104, der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende bereitgestellt ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm bereitstellen kann (möglicherweise mit einem Werkzeug an seinem Ende).
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 beinhalten, die die Manipulatoren 102, 103, 104 miteinander und mit der Stütze 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, die jeweils eine drehbare Bewegung (d. h. Drehbewegung) und/oder translatorische Bewegung (d. h. Verlagerung) für assoziierte Manipulatoren relativ zueinander bereitstellen können. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktoren initiiert werden, die durch die Steuereinrichtung 106 gesteuert werden.
Der Ausdruck „Aktor“ kann als eine Komponente verstanden werden, die als Reaktion auf ihren Antrieb zum Bewirken eines Mechanismus oder Prozesses ausgebildet ist. Der Aktor kann durch die Steuereinrichtung 106 erstellte Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen implementieren. Der Aktor, z. B. ein elektromechanischer Wandler, kann dazu ausgelegt sein, als Reaktion auf seine Aktivierung elektrische Energie in mechanische Energie umzuwandeln.
Der Ausdruck „Steuerungseinrichtung“ kann als ein beliebiger Typ von logikimplementierender Entität verstanden werden, die zum Beispiel eine Schaltung und/oder einen Prozessor beinhalten kann, die/der in der Lage ist, in einem Speicherungsmedium gespeicherte Software, Firmware oder eine Kombination davon auszuführen, und die/der Anweisungen, z. B. zu einem Aktor im vorliegenden Beispiel, ausstellen kann. Die Steuereinrichtung kann zum Beispiel durch Programmcode (z. B. Software) konfiguriert werden, um den Betrieb eines Systems, eines Roboters im vorliegenden Beispiel, zu steuern.
Im vorliegenden Beispiel beinhaltet die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, basierend auf denen der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf Basis eines maschinellen Lernmodells 112, das im Speicher 111 gespeichert ist und das eine Steuerungsrichtlinie implementiert.
Eine Möglichkeit, eine Steuerungsrichtlinie (engl. Policy) zu lernen, ist das verstärkende Lernen (engl. Reinforcement Learning, RL). Das Reinforcement Learning ist durch eine Versuch-und-Irrtum-Suche und eine verzögerte Belohnung gekennzeichnet. Im Gegensatz zum überwachten Lernen eines neuronalen Netzes, das Labels benötigt, um daraus zu lernen, verwendet das Verstärkungslernen einen Versuch-und-Irrtum-Mechanismus, um eine Zuordnung von Zuständen zu Aktionen so zu erlernen, dass eine Belohnung, die erhalten wird, maximiert wird. Durch Versuch und Irrtum versuchen RL-Algorithmen, die Aktionen zu entdecken, die zu höheren Belohnungen führen, indem sie verschiedene ausprobieren. Die Auswahl einer Aktion wirkt sich nicht nur auf die Belohnung des aktuellen Zustands aus, sondern auch auf die Belohnungen aller kommenden Zustände (des aktuellen Steuerungsdurchlaufs) und somit auf eine verzögerte (Gesamt-)Belohnung oder, in anderen Worten, eine kumulative Belohnung, aus.
Verstärkendes Lernen kann formal als Markov-Entscheidungsprozess (MDP für Markov Decision Process) ausgedrückt werden, der eine Menge von Zuständen S, eine Menge von Aktionen A, eine Verteilung über Startzustände p(s₀), eine Zustandsübergangsverteilung P (s_t+1|s_t, a_t), eine Belohnungsfunktion r(s_t, a_t, s_t+1) und einen Diskontierungsfaktor γ ∈ ℝ aufweist. In jedem Zeitschritt t beobachtet der Agent (der lernt, d.h. trainiert wird) den Zustand s_t ∈ S der jeweiligen Umgebung (z.B. Pose des Roboterarms 101 und den Ort von Objekten oder Hindernissen in seinem Arbeitsbereich) und wählt eine Aktion a_t ∈ A gemäß einer Steuerungsrichtlinienverteilung π(a_t |s_t) aus. Die Umgebung geht dann in einen neuen Zustand s_t+1 ~ p(s_t+1|s_t, a_t) über und der Agent erhält eine Belohnung r_t = r(s_t, a_t, s_t+1) Im Folgenden wird ein episodisches Szenario angenommen, bei dem das Lernziel es ist, eine optimale Steuerrichtlinie (engl. Policy) π* zu finden, die die erwartete Summe diskontierter Belohnungen über einen Zeithorizont T maximiert: $π * = \underset{π}{arg max E} [\sum_{t = 0}^{T - 1} γ^{t} r_{t}]$
Gaußsche Steuerrichtlinien parametrisieren eine Gauß-Verteilung über die als nächstes durchzuführende Aktion a_t gegeben den aktuellen Zustand s_t: $π (a_{t} | s_{t}) = N (a_{t}; μ (s_{t}), \sum (s_{t}))$
Hierbei sind der Mittelwert µ(s_t) und die Cholesky-Zerlegung L(s_t) der Kovarianzmatrix $\sum (s_{t}) = L (s_{t}) L^{T} (s_{t})$
durch eine deterministische Funktion f: s_t → (µ(s_t), L(s_t)) parametrisiert. Es folgt, dass das Sampeln von Aktionen aus der Steuerrichtlinie drauf hinausläuft, dass weißes Gaußsches Rauschen Et zu der Mittelwertfunktion µ(s_t) addiert wird: $a_{t} = μ (s_{t}) + L (s_{t}) ε_{t} ε_{t} ~ N (0, I)$
Da das Rauschen in jedem Zeitschritt unabhängig von dem Rauschen der anderen Zeitschritt ist, d.h. $ε_{t} ⊥ ε_{t + k} \forall k \neq 0,$
sind die Aktionen voneinander nur über die Dynamik der Zustandsübergänge voneinander abhängig, was in einer niedrigen zeitlichen Kohärenz zwischen den Aktionen resultiert. Das ist besonders in den frühen Stadien des Lernens problematisch: Da Gaußschen Richtlinien typischerweise initialisiert werden, sodass sie einen festen Mittelwert und eine feste Kovarianz haben, d.h. µ (s) ≈ µ₀, L(s) ≈ L₀ ∀s ∈ S, weisen die anfänglichen AktionsTrajektorien (d.h. die Folgen von Aktionen) vollständig unkorrelierte Aktionen auf: $ℂ [a_{t} + a_{t + k}] = ℂ [μ_{0} + L_{0} e_{t}, μ_{0} + L_{0} e_{t + k}] = L_{0} ℂ [e_{t}, e_{t + k}] L_{0}^{T} = 0 \forall k \neq 0$
Gemäß verschiedenen Ausführungsformen wird eine erhöhte zeitliche Kohärenz von Aktionen erreicht, indem eine (rekurrente) Steuerrichtlinie verwendet wird, die eine Verteilung der nächsten d+1 Aktionen a_t:t+d = {a_t, a_t+1,...,a_t+d} (statt nur eine einzige Aktion) parametrisiert: $π (a_{t : t + d} | s_{t}, τ_{t - 1}) = N (a_{t : t + d}; μ^{t}, \sum^{t})$
Hierbei bezeichnet T_t-1:= {s₁, a₁,..., s_t-1, a_t-1} die Zustands-Aktions-Trajektorie bis zum Zeitschritt t-1 und µ^t und Σ^t bezeichnen den Mittelwert und die Kovarianzmatrix der Verteilung zum Zeitschritt t. Die Aktion a_t wird aus der jeweiligen Randverteilung (Marginalverteilung) gesampelt: $a_{t} ~ N (a_{t}; μ_{1}^{t}, \sum_{11}^{t})$
Es sei angenommen, dass der Agent in der Lage ist, seine Aktionen im Voraus perfekt planen kann, so dass die Beobachtung von neuer Zustandsinformation die Verteilung der Steuerrichtlinie über zukünftige Aktionen nicht ändert: $π (a_{t : t + d} | τ_{t - 1}) = π (a_{t : t + d} | s_{t}, τ_{t - 1})$
Dann ist die Aktion a_t, die der Agent (z.B. die Steuereinrichtung 106) im Zeitschritt t auswählt, mit den nächsten d Aktionen (z.B. d = 5) gemäß der Kovarianzmatrix Σ^t korreliert: $ℂ [a_{t}, a_{t + k}] = \sum_{1 (k + 1)}^{t}, 1 \leq k \leq d$
Dadurch kann ein gegebener Korrelationsgrad zwischen Aktionen erreicht werden, indem eine geeignete Kovarianzmatrix Σ^t konstruiert wird. Gemäß verschiedenen Ausführungsformen wird eine Kovarianzmatrix Σ^t so konstruiert bzw. angestrebt, sodass sie einem autoregressiven Prozess erster Ordnung mit Parameter α ∈ (0, 1) gleicht, sodass die Blockelemente abseits der Diagonale gegeben sind durch $\sum_{m n} = α^{| m - n |} \sqrt{\sum_{m m} ⊙ \sum_{n n}} m \neq n$
wobei Σ_nn die Kovarianzmatrix der Randverteilung über a_t+n-1 bezeichnet, ⊙ das elementweise Produkt bezeichnet und die Quadratwurzel elementweise gezogen wird. Der Korrelationskoeffizient zwischen zwei Aktionen a_t und a_t+k ist dann $ρ_{a_{t}, a_{t + k}} = \frac{Cov [a_{t}, a_{t + k}]}{\sqrt{Var [a_{t}] Var [a_{t + k}]}} = \frac{α^{| k + 1 - 1 |} \sqrt{\sum_{11} ⊙ \sum_{(k + 1) (k + 1)}}}{\sqrt{\sum_{11} ⊙ \sum_{(k + 1) (k + 1)}}} = α^{| k |}$
für 1 ≤ k ≤ d. Folglich wird der Grad zeitlicher Kohärenz zwischen Aktionen durch den Parameter α bestimmt.
Die Annahme, dass der Agent seine Aktionen perfekt im Voraus plant, ist allerdings für die meisten nichttrivialen Fälle unrealistisch, da der Agent typischerweise seinen Aktionsplan gemäß der neuesten Zustandsinformation (d.h. der Zustandsinformation, die er aktuell als letztes erhalten hat) anpassen muss, um sich optimal zu verhalten. Deshalb wird gemäß verschiedenen Ausführungsformen die linke Seite von Gleichung (1) als Prior über zukünftige Aktionen (bevor der Zustand s_t+1 beobachtet wird) behandelt und die rechte Seite von Gleichung (1) wird als Posterior (nachdem der Zustand s_t+1 beobachtet wurde) betrachtet. Außerdem wird die Steuerrichtlinie während des Trainings regularisiert, sodass die Konsistenzannahme von Gleichung (1) näherungsweise gilt, wodurch der Agent anschaulich gesprochen dazu motiviert wird, effektiv vorauszuplanen, es ihm aber auch ermöglicht wird, seinen Aktionsplan abzuändern, wenn es nötig ist. Empirisch kann beobachtet werden, dass, wenn die Konsistenzannahme von Gleichung (1) näherungsweise gilt, Aktionen näherungsweise gemäß der Kovarianzmatrix Σ^t korreliert sind und folglich die resultierenden Aktionstrajektorien zeitlich kohärent sind.
Um eine zeitlich kohärente Exploration zu erzwingen, wird gemäß verschiedenen Ausführungsformen eine rekurrente Steuerrichtlinie (z.B. implementiert durch ein oder mehrere rekurrente neuronale Netzwerke) trainiert und verwendet, bei der der verborgene Zustand $z_{t} = (μ_{t}^{-}, \sum_{t}^{-})$
eine A-priori-Verteilung (d.h. einen Prior) $p (a_{t : t + d} | τ_{t - 1}) = N (a_{t : t + d}; μ_{t}^{-}, \sum_{t}^{-})$
über die nächsten d Aktionen a_t:t+d = {a_t, a_t+1 ,..., a_t+d} unter der Bedingung aller vorhergehenden Zustände und Aktionen (des aktuellen Steuerdurchlaufs) parametrisiert.
2 veranschaulicht eine zeitlich kohärente Steuerrichtlinie gemäß einer Ausführungsform.
Zunächst kodiert ein erstes neuronales Netzwerk 201 $ƒ_{θ} : s_{t} \to (w_{t}, \sum_{t}^{w})$
die Information des zuletzt erreichten (d.h. aktuellen) Zustands s_t und seine Unsicherheit. Es wird angenommen, dass eine solche Kodierung alle durch Beobachtung von s_t erhaltenen zusätzlichen Informationen erfasst, sodass $p (a_{t : t + d} | w_{t}, T_{t - 1}) = p (a_{t : t + d} | S_{t}, T_{t - 1}) .$
Das Beobachtungsmodell $p (w_{t} | a_{t : t + d}, T_{t - 1}) = N (w_{t}; a_{t : t + d}, \sum_{t}^{w})$
wird dann dazu verwendet, um in 202 eine A-posteriori-Verteilung (d.h. einen Posterior) über zukünftige Aktionen unter der Bedingung des zuletzt beobachteten Zustands s_t zu ermitteln: $\begin{array}{l} p (a_{t : t + d} | s_{t}, T_{t - 1}) \propto p (w_{t} | a_{t : t + d}, T_{t - 1}) p (a_{t : t + d} | T_{t - 1}) = N (a_{t : t + d}; μ_{t}^{+}, \sum_{t}^{+}) \\ μ_{t}^{+} = μ_{t}^{-} + {(\sum_{t}^{w} + \sum_{t}^{-})}^{- 1} \sum_{t}^{-} (w_{t} - μ_{t}^{-}) \\ \sum_{t}^{+} = \sum_{t}^{w} {(\sum_{t}^{w} + \sum_{t}^{-})}^{- 1} \sum_{t}^{-} \end{array}$
Der Agent sampelt dann in 203 die Aktion a_t aus der Randverteilung p(a_t|s_t, τ_t-1).
Der nächste verborgene Zustand z_t+1, der den neuen Prior p(a_t+1:t+d+1 |τ_t) definiert, wird dadurch erhalten, dass der Posterior von Gleichung (4) in 204 zunächst auf die gesampelte Aktion a_t konditioniert wird, was in der bedingten Verteilung $p (a_{t + 1 : t + d} | T_{t}) = N (a_{t + 1 : t + d}; μ_{t}^{c}, \sum_{t}^{c})$
resultiert.
Als Zweites wird in 205 das lineare stochastische Vorhersagemodell $p (a_{t + d + 1} | a_{t + 1 : t + d}) = N (K_{t} a_{t + 1 : t + d} + b_{t}, Λ_{t}),$
das durch ein zweites neuronales Netzwerk 206 g_ϕ : s_t → (K_t, b_t, Λ_t) parametrisiert wird, dazu verwendet die bedingte Wahrscheinlichkeit auf die Aktion a_t+d+1 auszudehnen.: $p (a_{t + 1 : t + d + 1} | T_{t}) = N (a_{t + 1 : t + d + 1} \cdot μ_{t + 1}^{-}, \sum_{t + 1}^{-})$
$μ_{t + 1}^{-} = (\begin{matrix} μ_{t}^{c} \\ K_{t} μ_{t}^{c} + b_{t} \end{matrix})$
$\sum_{t + 1}^{-} = (\begin{matrix} \sum_{t}^{c} & \sum_{t}^{c} K_{t}^{T} \\ K_{t} \sum_{t}^{c} d & K_{t} \sum_{t}^{c} K_{t}^{T} + Λ_{t} \end{matrix})$
Dies ist die A-priori-Verteilung über die zukünftigen Aktionen a_t+1:t+d+1, die durch den verborgenen Zustand z_t+1 gegeben ist.
Die oben beschriebene Steuerrichtlinie kann mittels jeglichem Steuerrichtlinien-Suchalgorithmus trainiert werden, der rekurrente Steuerrichtlinien akzeptiert (wie z.B. Proximal Policy Optimization oder Trust Region Layers). Gemäß verschiedenen Ausführungsformen wird die Steuerrichtlinie regularisiert, indem zwei Strafterme $P_{t}^{(1)}$
und $P_{t}^{(2)}$
zu der (Standard-)RL-Zielfunktion RL_loss des verwendeten Steuerrichtlinien-Suchalgorithmus hinzugefügt werden, sodass das Trainieren der Steuerrichtlinie dem Suchen einer Lösung des Optimierungsproblems $max_{θ, ϕ} {RL}_{loss} - E_{t} [λ_{1} P_{t}^{(1)} + λ_{2} P_{t}^{(2)}]$
entspricht, wobei in diesem Beispiel die RL-Zielfunktion RL_loss so gewählt ist, dass sie zu maximieren ist und $E_{t}$
das empirische Mittel über einen endlichen Batch von Samples ist und (θ, ϕ) die Gewichte des (Likelihood- oder Plausibilitäts-)Kodierers f_θ bzw. des Aktions-Vorhersagenetzwerks g_ϕ sind.
Der erste Regularisierungsterm $P_{t}^{(1)}$
ermutigt das Training des Agenten, so dass er nach der Beobachtung eines neuen Zustands nur eine kleine Aktualisierung des Priors über zukünftige Aktionen vorzunehmen, sodass der Agent lernt, effektiv im Voraus zu planen. Beispielsweise bestraft der erste Regularisierungsterm $P_{t}^{(1)}$
die Kullback-Leibler(KL)-Divergenz zwischen der A-priori-Verteilung und der A-posteriori-Verteilung: $\begin{matrix} P_{t}^{(1)} = KL (p (a_{t : t + d} | s_{t}, T_{t - 1}) ‖ p (a_{t : t + d} | T_{t - 1})) \\ = KL (N (μ_{t}^{+}, \sum_{t}^{+}) ‖ N (μ_{t}^{-}, \sum_{t}^{-})) \end{matrix}$
Dieser Strafterm erzwingt näherungsweise die Konsistenzannahme von Gleichung (1), sodass zukünftige Aktionen näherungsweise gemäß der Kovarianzmatrix $\sum_{t}^{+}$
der A-posteriori-Verteilung p(a_t:t+d|s_t, τ_t-1) korreliert sind.
Der zweie Regularisierungsterm ermutigt das Training derart, dass die Posterior-Kovarianzmatrix $\sum_{t}^{+}$
einem autoregressiven Prozess erster Ordnung mit Parameter α ∈ (0, 1) zu gleichen, was erzwingt, dass aufeinanderfolgende Aktionen ausreichend korreliert sind. Die Ziel-Kovarianzmatrix $\sum_{t}^{*}$
wird so konstruiert, dass sie der Kovarianzmatrix eines autoregressiven Prozesses erster Ordnung wie in Gleichung (3) beschrieben gleicht, sodass $P_{t}^{(2)} = KL (N (μ_{t}^{+}, \sum_{t}^{+}) ‖ N (μ_{t}^{+}, \sum_{t}^{*}))$
Der Korrelationskoeffizient zwischen zwei Aktionen, die k Schritte auseinanderliegen ist dann näherungsweise α^|k|.
Der erste Regularisierungsterm gewährleistet somit, dass Aktionen gemäß der Posterior-Kovarianzmatrix $\sum_{t}^{+}$
korreliert sind, während der zweite Regularisierungsterm es ermutigt, dass $\sum_{t}^{+}$
der Kovarianzmatrix eines autoregressiven Prozesses erster Ordnung gleicht.
Bei der oben beschriebenen Herangehensweise ist allerdings für die Anwendung des Satzes von Bayes auf Gauß-Verteilungen (siehe Gleichung (4)) zur Aktualisierung der Verteilung der Aktionen die Invertierung von Matrizen erforderlich. Für diese kann eine Rückwärts-Propagierung (für Anpassungen der Gewichte im Training) schwierig sein, insbesondere für hochdimensionale Aktionsräume. Gemäß verschiedenen Ausführungsformen wird die Aktualisierung deshalb in einem latenten Raum vorgenommen, wo die Verteilung als faktorisierte Gaußsche Verteilung dargestellt werden kann, d.h. es wird eine latente Variable z eingeführt mit $p (z) = N (μ_{z}, diag (σ_{z}^{2})) .$
Das Konditionieren auf neu beobachtete Zustandsinformation erfolgt dann im latenten Raum: $p (z | s_{1 : t}) \propto p (w (s_{t}) | z) p (z | s_{1 : t - 1})$
Ein Aktions-Dekodierer kann in diesem Fall dazu verwendet werden, die (prädiktive) Aktionsverteilung zu erhalten. Ein einfaches Beispiel ist ein linearer Dekodierer, der zu einer Gaußschen Verteilung der Aktionen führt: $a_{t : t + d} = W z_{t} + w_{0}$
wobei W wiederum parametrisiert werden kann, sodass nur die zeitliche Korrelation und nicht zwischen Komponenten der Aktionen modelliert wird. Die resultierende Aktions-Verteilung ist gegeben durch $p (a_{t : t + d} | s_{1 : t}) = \int p (z | s_{1 : t}) p (a_{t : t + d} | z) d z = N (a_{t : t + d} | W μ_{2} + w_{0}, W diag (σ_{z}^{2}) W^{T})$
Die Aktualisierung beinhaltet, wie auch im Beispiel von 2, zwei Schritte:

1. Konditionierung auf a_t und
2. Ausdehnen der Verteilung auf den nächsten Zeitschritt.

Schritt 1 ist in diesem Fall einfach und kann mittels Gaußscher Konditionierung erfolgen. Dies erfordert wieder eine Invertierung, aber es braucht nur die Aktionskovarianz für den aktuellen Zeitschritt invertiert zu werden, die faktorisiert werden kann).
Schritt 2 ist in diesem Fall komplizierter, da die latente Variable z_t nicht in einzelne Zeitschritte zerlegt werden kann, wie das beim Vektor zukünftiger Aktionen der Fall ist. Gemäß einer Ausführungsform wird deshalb ein zusätzlicher Regularisierungsterm eingeführt, der erzwingt, dass die Aktions-Verteilung p^-(a_t+1-t+d|s_1:t) (die aus dem Prior für Zeitschritt t+1 dekodiert wird) äquivalent zu der konditionieren Aktionsverteilung p⁺(a_t+1:t+d|s_1:t, a_t) (die aus dem Posterior des vorherigen Zeitschritts dekodiert wird) ist: $λ_{3} E_{p (s_{t})} [K L (p^{-} (a_{t + 1 : t + d} | s_{1 : t}) ‖ p^{+} (a_{t + 1 : t + d} | s_{1 : t}, a_{t}))]$
Für das Training (dies betrifft auch andere Ausführungsformen, z.B. die von 2) interagiert der Agent mit der Umgebung durch Auswahl und Anwendung von Aktionen (d.h. Steuerung des jeweiligen technischen Systems gemäß der ausgewählten Aktionen) und die dabei erzeugten Samples (inkl. der durch die ausgewählten Aktionen verursachten Zustandsübergänge) werden zum Training der Steuerrichtlinie (die insbesondere durch die beiden neuronalen Netzwerke implementiert wird) sowie, je nach verwendetem RL-Trainingsverfahren, z.B. einer V-Funktion (Wertfunktion) verwendet.
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 3 dargestellt.
3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Steuern eines Roboters zum Aufnehmen und Inspizieren eines Objekts gemäß einer Ausführungsform darstellt.
In 301 wird, als eine erste Wahrscheinlichkeitsverteilung, eine Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems ermittelt.
In 302 wird eine Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung ermittelt und das technische System gemäß der ausgewählten Aktion für den ersten Zustand gesteuert.
In 303 wird ein zweiter Zustands ermittelt (d.h. z.B. beobachtet), in den das technische System durch Durchführung der ersten Aktion eingetreten ist.
In 304 wird, als eine zweite Wahrscheinlichkeitsverteilung, eine Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz ermittelt, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird.
In 305 wird eine Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung ermittelt.
In 306 wird das technische System gemäß der ausgewählten Aktion für den zweiten Zustand gesteuert.
Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Das Verfahren ist also gemäß verschiedenen Ausführungen insbesondere computerimplementiert.
Die Herangehensweise von 3 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das technische System gelernt und das technische System dann entsprechend gesteuert. Beispielsweise besteht die Erzeugung einer Aktion (und eines entsprechenden Steuersignals) darin, dass ein kontinuierlicher Wert oder mehrere kontinuierliche Werte erzeugt werden (d.h. eine Regression durchgeführt wird), wie z.B. für einen Abstand, eine Geschwindigkeit oder eine Beschleunigung (gemäß dem oder denen dann eine Robotervorrichtung oder ein Teil davon z.B. bewegt wird).
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Zuständen des gesteuerten Systems (z.B. Roboter und Objekt oder Objekte in der Umgebung) Szenarien zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern eines Roboters, z.B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Steuern eines technischen Systems (101), aufweisend: Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung über eine erste Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems (101) zur Steuerung des technischen Systems (101); Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems (101) gemäß der ausgewählten Aktion für den ersten Zustand; Ermitteln eines zweiten Zustands, in den das technische System (101) durch Durchführung der ersten Aktion eingetreten ist; Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung über eine zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird; Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung; und Steuern des technischen Systems (101) gemäß der ausgewählten Aktion für den zweiten Zustand.
Verfahren nach Anspruch 1, wobei jede Aktion einem Zeitschritt zugeordnet ist, wobei die A-posteriori-Verteilung eine Verteilung über eine dritte Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand ist, die bis zu einem Zeitschritt reicht, zu dem die erste Kette von Aktionen reicht, und wobei die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird durch Ausdehnen der A-posteriori-Verteilung auf eine Aktion eines weiteren Zeitschritts nach dem Zeitschritt, zu dem die erste Kette von Aktionen reicht.
Verfahren nach Anspruch 1 oder 2, wobei die A-posteriori-Verteilung ausgedehnt wird mittels eines linearen stochastischen Prädiktionsmodells, das durch die Ausgabe, die ein neuronales Pädiktions-Netzwerk für den zweiten Zustand ausgibt, spezifiziert ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die erste Wahrscheinlichkeitsverteilung, die zweite Wahrscheinlichkeitsverteilung und die Plausibilitäts-Verteilung der Bayesschen Inferenz Gaußsche Verteilungen sind.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsverteilungen über latente Repräsentationen der jeweiligen Ketten sind, sodass die erste Wahrscheinlichkeitsverteilung und die zweite Wahrscheinlichkeitsverteilung faktorisierte Gauß-Verteilungen sind.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die Plausibilitäts-Verteilung bei der Bayesschen Inferenz eine Verteilung von Zustandsinformationen des zweiten Zustands ist, die mittels eines neuronalen Kodier-Netzwerks aus dem zweiten Zustand ermittelt wird.
Verfahren nach zum Trainieren eines Agenten zum Steuern eines technischen Systems (101) durch, in mehreren Steuerungsdurchläufen, Steuern des technischen Systems (101) gemäß dem Verfahren nach einem der Ansprüche 1 bis 6 und Anpassen des Agenten gemäß einer Optimierung einer Trainings-Zielfunktion.
Verfahren nach einem der Ansprüche 1 bis 7, wobei die Trainings-Zielfunktion mindestens eine Regularisierungsterm aufweist, der eine Korrelation zwischen den Aktionen in der zweiten Wahrscheinlichkeitsverteilung belohnt.
Steuerungseinrichtung (106), die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 8 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.