DE102022208082B3 - Verfahren zum Steuern eines technischen Systems - Google Patents

Verfahren zum Steuern eines technischen Systems Download PDF

Info

Publication number
DE102022208082B3
DE102022208082B3 DE102022208082.3A DE102022208082A DE102022208082B3 DE 102022208082 B3 DE102022208082 B3 DE 102022208082B3 DE 102022208082 A DE102022208082 A DE 102022208082A DE 102022208082 B3 DE102022208082 B3 DE 102022208082B3
Authority
DE
Germany
Prior art keywords
distribution
state
probability distribution
action
actions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102022208082.3A
Other languages
English (en)
Inventor
Fabian Otto
Gerhard Neumann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022208082.3A priority Critical patent/DE102022208082B3/de
Priority to US18/356,088 priority patent/US20240046126A1/en
Priority to CN202310969350.8A priority patent/CN117506887A/zh
Application granted granted Critical
Publication of DE102022208082B3 publication Critical patent/DE102022208082B3/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern eines technischen Systems beschrieben, aufweisend Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems, Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den ersten Zustand, Ermitteln eines zweiten Zustands, in den das technische System durch Durchführung der ersten Aktion eingetreten ist, Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird, Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den zweiten Zustand.

Description

  • Verfahren zum Steuern eines technischen Systems
  • Stand der Technik
  • Die vorliegende Offenbarung bezieht sich auf Verfahren zum Steuern eines technischen Systems.
  • Eine Robotervorrichtung (z.B. einen Roboterarm aber auch ein Fahrzeug, das durch eine Umgebung können navigieren soll) kann durch verstärkendes Lernen (RL für engl. Reinforcement Learning) für die Ausführung einer bestimmten Aufgabe, z. B. in der Fertigung, trainiert werden.
  • Xi, Ao, et al. „Balance control of a biped robot on a rotating platform based on efficient reinforcement learning." IEEE/CAA Journal of Automatica Sinica 6.4 (2019): 938-951, schlagen ein hierarchisches Gauß'sches Prozessmodell vor, das zwei Schichten unabhängiger Gauß'scher Prozesse enthält, aus denen das physikalisch kontinuierliche Wahrscheinlichkeitsübergangsmodell des Roboters gewonnen wird.
  • Wang, Zhi, Chunlin Chen, and Daoyi Dong. „Lifelong incremental reinforcement learning with online Bayesian inference." IEEE Transactions on Neural Networks and Learning Systems 33.8 (2021): 4003-4016 schlagen lebenslanges inkrementelles Verstärkungslernen (LLIRL) vor, einen neuen inkrementellen Algorithmus für effiziente lebenslange Anpassung an dynamische Umgebungen.
  • Beim verstärkenden Lernen lernt ein Agent (z.B. eine Steuereinrichtung für eine Robotervorrichtung), allein durch Interaktion mit ihrer Umgebung optimal zu handeln. Um lohnende Verhaltensweisen zu entdecken, sollten Agenten daher ihre Umgebung effektiv erkunden. Bei kontinuierlichen Steuerungsaufgaben wird die Erkundung oft durch die Verwendung einer stochastischen Strategie erreicht, typischerweise eine Gauß-Verteilung über die nächste Aktion des Agenten, die vom aktuellen Zustand der Umgebung abhängt. Gaußsche Strategien erzeugen Handlungsmuster, indem sie unabhängiges Gaußsches Rauschen zur Ausgabe einer deterministischen Funktion, die auf Zustandsinformation der Umgebung angewendet wird, hinzufügen.
  • Folglich sind die Aktionen allein durch die Stochastizität der Zustandsübergangsdynamik der Umwelt stochastisch voneinander abhängig, was zu Aktionssequenzen mit geringer zeitlicher Kohärenz führt. Dieses Phänomen ist problematisch, da nicht kohärente Handlungsabläufe zu ineffizientem Random-Walk-Explorationsverhalten führen können, was die Dateneffizienz verringert oder die Entdeckung optimaler Verhaltensweisen gänzlich verhindert. Darüber hinaus führt eine inkohärente Exploration oft zu nichtglatten Aktionstrajektorien, die bei vielen physikalischen Systemen (z.B. Roboteraktoren) zu ruckartigem Verhalten oder sogar zu Hardware-Schäden führen können.
  • Es sind deshalb Herangehensweisen wünschenswert mit denen beim verstärkenden Lernen eine zeitlich kohärente Exploration im Aktionsraum erreicht werden kann.
  • Offenbarung der Erfindung
  • Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern eines technischen Systems bereitgestellt, aufweisend Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems, Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den ersten Zustand, Ermitteln eines zweiten Zustands, in den das technische System durch Durchführung der ersten Aktion eingetreten ist, Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird, Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems gemäß der ausgewählten Aktion für den zweiten Zustand.
  • Das oben beschriebene Verfahren ermöglicht durch die Verwendung von Wahrscheinlichkeitsverteilungen über Ketten (von zwei oder mehr, z. B. drei, vier, fünf oder mehr) Aktionen und deren Aktualisierung unter Verwendung von Bayesscher Inferenz eine zeitliche Korrelation (d.h. Korrelation über Zeitschritte, wobei jede Aktion einem Zeitschritt zugeordnet ist) der Aktionen und damit zeitlich kohärentes Verhalten der Steuerung über einen Steuerungsdurchlauf (von Angangszustand bis Endzustand, z.B. Zielzustand). Es wird somit über mehrere Aktionen geplant. Das Verfahren erfordert kein spezielles Domain-Wissen, kein trainiertes Umgebungsmodell und kann mit einem beliebigen Trainingsalgorithmus verwendet werden, der eine rekurrente Steuerungsrichtlinie erlaubt.
  • Die Bayessche Inferenz kann als ein Umplanen betrachtet werden, wenn ein neuer Zustand (hier der zweite Zustand) beobachtet wird, wobei das Verfahren iterativ weiter fortgeführt werden kann (d.h. der zweite Zustand tritt an die Stelle des ersten Zustands und ein dritter Zustand an die Stelle des zweiten Zustands usw.)
  • Das Wählen einer Aktion für einen Zustand gemäß einer jeweiligen Wahrscheinlichkeitsverteilung für eine Spezifikation einer Kette von Aktionen bedeutet, dass eine Spezifikation einer Kette gesampelt wird und die erste Aktion dieser Kette als die Aktion gewählt wird. Dies kann ein Dekodieren der gesampelten Spezifikation in die Kette von Aktionen (oder zumindest die erste Aktion der Kette, d.h. die Aktion an erster Stelle der Kette) aufweisen.
  • Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
  • Ausführungsbeispiel 1 ist ein Verfahren zum Steuern eines technischen Systems, wie oben beschrieben.
  • Ausführungsbeispiel 2 ist ein nach Ausführungsbeispiel 1, wobei jede Aktion einem Zeitschritt zugeordnet ist, wobei die A-posteriori-Verteilung eine Verteilung einer Spezifikation einer dritten Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand ist, die bis zu einem Zeitschritt reicht, zu dem die erste Kette von Aktionen reicht, und wobei die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird durch Ausdehnen der A-posteriori-Verteilung auf eine Aktion eines weiteren Zeitschritts nach dem Zeitschritt, zu dem die erste Kette von Aktionen reicht.
  • In anderen Worten wird die A-posteriori-Verteilung, die zunächst für eine Kette ist, die um eine Aktion kürzer ist als die erste Kette (da sie bereits auf den zweiten Zustand konditioniert ist und somit die Aktion am Anfang der ersten Kette weggefallen ist) auf eine Wahrscheinlichkeitsverteilung für eine Kette (nämlich die zweite Kette) ausgedehnt, die genauso lang wie die zweite Kette ist (aber um einen Zeitschritt verschoben ist, sodass sie einen Zeitschritt weiter in die Zukunft reicht). Dadurch ist gewährleistet, dass die erste Verteilung und die zweite Verteilung Verteilungen von Aktionsketten mit gleicher Länge sind und insbesondere stets eine weitere Aktion gesampelt werden kann (da anschaulich vermieden wird, dass die Kette bei wiederholter Anwendung der Bayesschen Inferenz auf die Länge null schrumpft).
  • Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei die A-posteriori-Verteilung ausgedehnt wird mittels eines linearen stochastischen Prädiktionsmodells, das durch die Ausgabe, die ein neuronales Prädiktions-Netzwerk für den zweiten Zustand ausgibt, spezifiziert ist.
  • Damit kann insbesondere eine Steuerungsrichtlinie durch Training des neuronalen Prädiktions-Netzwerks (in den unten stehenden Beispielen als zweites neuronales Netzwerk bezeichnet) trainiert werden, sodass, beispielsweise, ein RL-Verlust minimiert (bzw. reduziert) wird.
  • Ausführungsbeispiel 4 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei die erste Wahrscheinlichkeitsverteilung, die zweite Wahrscheinlichkeitsverteilung und die Plausibilitäts-Verteilung der Bayesschen Inferenz Gaußsche Verteilungen sind.
  • Dies ermöglicht eine einfache Durchführung der Bayesschen Inferenz.
  • Ausführungsbeispiel 5 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4, wobei die Spezifikationen latente Repräsentationen der jeweiligen Ketten sind, sodass die erste Wahrscheinlichkeitsverteilung und die zweite Wahrscheinlichkeitsverteilung faktorisierte Gauß-Verteilungen sind.
  • Dies vereinfacht die Durchführung der Bayesschen Inferenz weiter, was insbesondere die Rückwärtspropagation (Backpropagation) beim Training vereinfacht.
  • Ausführungsbeispiel 6 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5, wobei die Plausibilitäts-Verteilung (d.h. die Likelihood-Verteilung) bei der Bayesschen Inferenz eine Verteilung von Zustandsinformationen des zweiten Zustands ist, die mittels eines neuronalen Kodier-Netzwerks aus dem zweiten Zustand ermittelt wird.
  • Das neuronale Kodier-Netzwerk (in den unten stehenden Beispielen als erstes neuronales Netzwerk bezeichnet) schafft zusätzliche Freiheitsgrade beim Training (z.B. zusätzlich zu dem Prädiktions-Netzwerk) und wird beim Training so angepasst, dass es die relevanten Zustandsinformationen aus dem jeweiligen Zustand extrahiert.
  • Ausführungsbeispiel 7 ist ein Verfahren nach zum Trainieren eines Agenten zum Steuern eines technischen Systems durch, in mehreren Steuerungsdurchläufen, Steuern des technischen Systems gemäß dem Verfahren nach einem der Ausführungsbeispiele 1 bis 6 und Anpassen des Agenten gemäß einer Optimierung einer Trainings-Zielfunktion.
  • Hierbei kann die Anpassung über Parameter der Ermittlung der zweiten Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung (insbesondere durch Anpassung des Prädiktions-Netzwerks) und/oder über die Ermittlung der Plausibilitätsverteilung der Bayesschen Inferenz (insbesondere durch Anpassung des Plausibilitäts-Netzwerks) erfolgen. Das Anpassen des Agenten gemäß einer Optimierung ist als Suche nach einem Optimum (das nicht notwendig erreicht wird) zu verstehen, z.B. sodass die Trainings-Zielfunktion reduziert oder erhöht wird, je nachdem, wie sie formuliert ist.
  • Ausführungsbeispiel 8 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 7, wobei die Trainings-Zielfunktion mindestens eine Regularisierungsterm aufweist, der eine Korrelation zwischen den Aktionen in der zweiten Wahrscheinlichkeitsverteilung belohnt.
  • Auf diese Weise wird sichergestellt, dass bei einer langen Kette von Aktionen (in einem Steuerungsdurchlauf die Korrelation zwischen den Aktionen nicht verloren geht. Beispielsweise kann der Agent (mittels eines Regularisierungsterms) so trainiert werden, dass die Wahrscheinlichkeitsverteilungen einem autoregressiven Prozess erster Ordnung gleichen (und so eine hohe Korrelation zwischen aufeinanderfolgenden Zeitschritten erzwungen wird). Es kann beispielsweise außerdem ein Regularisierungsterm vorgesehen sein, der starke Aktualisierungen der Verteilung (also große Änderungen von der ersten zur zweiten Verteilung) bestraft, sodass der Agent dazu gezwungen wird, effektiv vorauszuplanen.
  • Ausführungsbeispiel 9 ist eine Steuerungseinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchzuführen.
  • Ausführungsbeispiel 10 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.
  • Ausführungsbeispiel 11 ist ein Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.
  • In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.
    • 1 zeigt einen Roboter.
    • 2 veranschaulicht eine zeitlich kohärente Steuerrichtlinie gemäß einer Ausführungsform.
    • 3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Steuern eines Roboters zum Aufnehmen und Inspizieren eines Objekts gemäß einer Ausführungsform darstellt.
  • Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
  • Im Folgenden werden verschiedene Beispiele genauer beschrieben.
  • 1 zeigt einen Roboter 100.
  • Der Roboter 100 beinhaltet einen Roboterarm 101, zum Beispiel einen Industrieroboterarm zum Handhaben oder Montieren eines Arbeitsstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 beinhaltet Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, mittels der die Manipulatoren 102, 103, 104 gestützt werden. Der Ausdruck „Manipulator“ bezieht sich auf die bewegbaren Bauteile des Roboterarms 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, um z. B. eine Aufgabe auszuführen. Zur Steuerung beinhaltet der Roboter 100 eine (Roboter-)Steuereinrichtung 106, die zum Implementieren der Interaktion mit der Umgebung gemäß einem Steuerprogramm ausgelegt ist. Das letzte Bauteil 104 (das am weitesten von der Stütze 105 entfernt ist) der Manipulatoren 102, 103, 104 wird auch als der Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge beinhalten, wie etwa einen Schweißbrenner, ein Greifinstrument, ein Lackiergerät oder dergleichen.
  • Die anderen Manipulatoren 102, 103 (die sich näher an der Stütze 105 befinden) können eine Positionierungsvorrichtung bilden, sodass, zusammen mit dem Endeffektor 104, der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende bereitgestellt ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm bereitstellen kann (möglicherweise mit einem Werkzeug an seinem Ende).
  • Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 beinhalten, die die Manipulatoren 102, 103, 104 miteinander und mit der Stütze 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, die jeweils eine drehbare Bewegung (d. h. Drehbewegung) und/oder translatorische Bewegung (d. h. Verlagerung) für assoziierte Manipulatoren relativ zueinander bereitstellen können. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktoren initiiert werden, die durch die Steuereinrichtung 106 gesteuert werden.
  • Der Ausdruck „Aktor“ kann als eine Komponente verstanden werden, die als Reaktion auf ihren Antrieb zum Bewirken eines Mechanismus oder Prozesses ausgebildet ist. Der Aktor kann durch die Steuereinrichtung 106 erstellte Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen implementieren. Der Aktor, z. B. ein elektromechanischer Wandler, kann dazu ausgelegt sein, als Reaktion auf seine Aktivierung elektrische Energie in mechanische Energie umzuwandeln.
  • Der Ausdruck „Steuerungseinrichtung“ kann als ein beliebiger Typ von logikimplementierender Entität verstanden werden, die zum Beispiel eine Schaltung und/oder einen Prozessor beinhalten kann, die/der in der Lage ist, in einem Speicherungsmedium gespeicherte Software, Firmware oder eine Kombination davon auszuführen, und die/der Anweisungen, z. B. zu einem Aktor im vorliegenden Beispiel, ausstellen kann. Die Steuereinrichtung kann zum Beispiel durch Programmcode (z. B. Software) konfiguriert werden, um den Betrieb eines Systems, eines Roboters im vorliegenden Beispiel, zu steuern.
  • Im vorliegenden Beispiel beinhaltet die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, basierend auf denen der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf Basis eines maschinellen Lernmodells 112, das im Speicher 111 gespeichert ist und das eine Steuerungsrichtlinie implementiert.
  • Eine Möglichkeit, eine Steuerungsrichtlinie (engl. Policy) zu lernen, ist das verstärkende Lernen (engl. Reinforcement Learning, RL). Das Reinforcement Learning ist durch eine Versuch-und-Irrtum-Suche und eine verzögerte Belohnung gekennzeichnet. Im Gegensatz zum überwachten Lernen eines neuronalen Netzes, das Labels benötigt, um daraus zu lernen, verwendet das Verstärkungslernen einen Versuch-und-Irrtum-Mechanismus, um eine Zuordnung von Zuständen zu Aktionen so zu erlernen, dass eine Belohnung, die erhalten wird, maximiert wird. Durch Versuch und Irrtum versuchen RL-Algorithmen, die Aktionen zu entdecken, die zu höheren Belohnungen führen, indem sie verschiedene ausprobieren. Die Auswahl einer Aktion wirkt sich nicht nur auf die Belohnung des aktuellen Zustands aus, sondern auch auf die Belohnungen aller kommenden Zustände (des aktuellen Steuerungsdurchlaufs) und somit auf eine verzögerte (Gesamt-)Belohnung oder, in anderen Worten, eine kumulative Belohnung, aus.
  • Verstärkendes Lernen kann formal als Markov-Entscheidungsprozess (MDP für Markov Decision Process) ausgedrückt werden, der eine Menge von Zuständen S, eine Menge von Aktionen A, eine Verteilung über Startzustände p(s0), eine Zustandsübergangsverteilung P (st+1|st, at), eine Belohnungsfunktion r(st, at, st+1) und einen Diskontierungsfaktor γ ∈ ℝ aufweist. In jedem Zeitschritt t beobachtet der Agent (der lernt, d.h. trainiert wird) den Zustand st ∈ S der jeweiligen Umgebung (z.B. Pose des Roboterarms 101 und den Ort von Objekten oder Hindernissen in seinem Arbeitsbereich) und wählt eine Aktion at ∈ A gemäß einer Steuerungsrichtlinienverteilung π(at |st) aus. Die Umgebung geht dann in einen neuen Zustand st+1 ~ p(st+1|st, at) über und der Agent erhält eine Belohnung rt = r(st, at, st+1) Im Folgenden wird ein episodisches Szenario angenommen, bei dem das Lernziel es ist, eine optimale Steuerrichtlinie (engl. Policy) π* zu finden, die die erwartete Summe diskontierter Belohnungen über einen Zeithorizont T maximiert: π * = arg max E π [ t = 0 T 1 γ t r t ]
    Figure DE102022208082B3_0001
  • Gaußsche Steuerrichtlinien parametrisieren eine Gauß-Verteilung über die als nächstes durchzuführende Aktion at gegeben den aktuellen Zustand st: π ( a t | s t ) = N ( a t ;   μ ( s t ) ,   ( s t ) )
    Figure DE102022208082B3_0002
  • Hierbei sind der Mittelwert µ(st) und die Cholesky-Zerlegung L(st) der Kovarianzmatrix ( s t ) = L ( s t ) L T ( s t )
    Figure DE102022208082B3_0003
    durch eine deterministische Funktion f: st → (µ(st), L(st)) parametrisiert. Es folgt, dass das Sampeln von Aktionen aus der Steuerrichtlinie drauf hinausläuft, dass weißes Gaußsches Rauschen Et zu der Mittelwertfunktion µ(st) addiert wird: a t = μ ( s t ) + L ( s t ) ε t   ε t ~ N ( 0, I )
    Figure DE102022208082B3_0004
  • Da das Rauschen in jedem Zeitschritt unabhängig von dem Rauschen der anderen Zeitschritt ist, d.h. ε t ε t + k   k 0,
    Figure DE102022208082B3_0005
    sind die Aktionen voneinander nur über die Dynamik der Zustandsübergänge voneinander abhängig, was in einer niedrigen zeitlichen Kohärenz zwischen den Aktionen resultiert. Das ist besonders in den frühen Stadien des Lernens problematisch: Da Gaußschen Richtlinien typischerweise initialisiert werden, sodass sie einen festen Mittelwert und eine feste Kovarianz haben, d.h. µ (s) ≈ µ0, L(s) ≈ L0 ∀s ∈ S, weisen die anfänglichen AktionsTrajektorien (d.h. die Folgen von Aktionen) vollständig unkorrelierte Aktionen auf: [ a t + a t + k ] = [ μ 0 + L 0 e t ,   μ 0 + L 0 e t + k ] = L 0 [ e t , e t + k ] L 0 T = 0   k 0
    Figure DE102022208082B3_0006
  • Gemäß verschiedenen Ausführungsformen wird eine erhöhte zeitliche Kohärenz von Aktionen erreicht, indem eine (rekurrente) Steuerrichtlinie verwendet wird, die eine Verteilung der nächsten d+1 Aktionen at:t+d = {at, at+1,...,at+d} (statt nur eine einzige Aktion) parametrisiert: π ( a t : t + d | s t ,   τ t 1 ) = N ( a t : t + d ;   μ t , t )
    Figure DE102022208082B3_0007
  • Hierbei bezeichnet Tt-1:= {s1, a1,..., st-1, at-1} die Zustands-Aktions-Trajektorie bis zum Zeitschritt t-1 und µt und Σt bezeichnen den Mittelwert und die Kovarianzmatrix der Verteilung zum Zeitschritt t. Die Aktion at wird aus der jeweiligen Randverteilung (Marginalverteilung) gesampelt: a t ~ N ( a t ; μ 1 t ,   11 t )
    Figure DE102022208082B3_0008
  • Es sei angenommen, dass der Agent in der Lage ist, seine Aktionen im Voraus perfekt planen kann, so dass die Beobachtung von neuer Zustandsinformation die Verteilung der Steuerrichtlinie über zukünftige Aktionen nicht ändert: π ( a t : t + d | τ t 1 ) = π ( a t : t + d | s t ,   τ t 1 )
    Figure DE102022208082B3_0009
  • Dann ist die Aktion at, die der Agent (z.B. die Steuereinrichtung 106) im Zeitschritt t auswählt, mit den nächsten d Aktionen (z.B. d = 5) gemäß der Kovarianzmatrix Σt korreliert: [ a t , a t + k ] = 1 ( k + 1 ) t ,   1 k d
    Figure DE102022208082B3_0010
  • Dadurch kann ein gegebener Korrelationsgrad zwischen Aktionen erreicht werden, indem eine geeignete Kovarianzmatrix Σt konstruiert wird. Gemäß verschiedenen Ausführungsformen wird eine Kovarianzmatrix Σt so konstruiert bzw. angestrebt, sodass sie einem autoregressiven Prozess erster Ordnung mit Parameter α ∈ (0, 1) gleicht, sodass die Blockelemente abseits der Diagonale gegeben sind durch m n = α | m n | m m n n   m n
    Figure DE102022208082B3_0011
    wobei Σnn die Kovarianzmatrix der Randverteilung über at+n-1 bezeichnet, ⊙ das elementweise Produkt bezeichnet und die Quadratwurzel elementweise gezogen wird. Der Korrelationskoeffizient zwischen zwei Aktionen at und at+k ist dann ρ a t , a t + k = Cov [ a t , a t + k ] Var [ a t ] Var [ a t + k ] = α | k + 1 1 | 11 ( k + 1 ) ( k + 1 ) 11 ( k + 1 ) ( k + 1 ) = α | k |
    Figure DE102022208082B3_0012
    für 1 ≤ k ≤ d. Folglich wird der Grad zeitlicher Kohärenz zwischen Aktionen durch den Parameter α bestimmt.
  • Die Annahme, dass der Agent seine Aktionen perfekt im Voraus plant, ist allerdings für die meisten nichttrivialen Fälle unrealistisch, da der Agent typischerweise seinen Aktionsplan gemäß der neuesten Zustandsinformation (d.h. der Zustandsinformation, die er aktuell als letztes erhalten hat) anpassen muss, um sich optimal zu verhalten. Deshalb wird gemäß verschiedenen Ausführungsformen die linke Seite von Gleichung (1) als Prior über zukünftige Aktionen (bevor der Zustand st+1 beobachtet wird) behandelt und die rechte Seite von Gleichung (1) wird als Posterior (nachdem der Zustand st+1 beobachtet wurde) betrachtet. Außerdem wird die Steuerrichtlinie während des Trainings regularisiert, sodass die Konsistenzannahme von Gleichung (1) näherungsweise gilt, wodurch der Agent anschaulich gesprochen dazu motiviert wird, effektiv vorauszuplanen, es ihm aber auch ermöglicht wird, seinen Aktionsplan abzuändern, wenn es nötig ist. Empirisch kann beobachtet werden, dass, wenn die Konsistenzannahme von Gleichung (1) näherungsweise gilt, Aktionen näherungsweise gemäß der Kovarianzmatrix Σt korreliert sind und folglich die resultierenden Aktionstrajektorien zeitlich kohärent sind.
  • Um eine zeitlich kohärente Exploration zu erzwingen, wird gemäß verschiedenen Ausführungsformen eine rekurrente Steuerrichtlinie (z.B. implementiert durch ein oder mehrere rekurrente neuronale Netzwerke) trainiert und verwendet, bei der der verborgene Zustand z t = ( μ t , t )
    Figure DE102022208082B3_0013
    eine A-priori-Verteilung (d.h. einen Prior) p ( a t : t + d | τ t 1 ) = N ( a t : t + d ; μ t , t )
    Figure DE102022208082B3_0014
    über die nächsten d Aktionen at:t+d = {at, at+1 ,..., at+d} unter der Bedingung aller vorhergehenden Zustände und Aktionen (des aktuellen Steuerdurchlaufs) parametrisiert.
  • 2 veranschaulicht eine zeitlich kohärente Steuerrichtlinie gemäß einer Ausführungsform.
  • Zunächst kodiert ein erstes neuronales Netzwerk 201 ƒ θ : s t ( w t ,   t w )
    Figure DE102022208082B3_0015
    die Information des zuletzt erreichten (d.h. aktuellen) Zustands st und seine Unsicherheit. Es wird angenommen, dass eine solche Kodierung alle durch Beobachtung von st erhaltenen zusätzlichen Informationen erfasst, sodass p ( a t : t + d | w t , T t 1 ) = p ( a t : t + d | S t , T t 1 ) .
    Figure DE102022208082B3_0016
  • Das Beobachtungsmodell p ( w t | a t : t + d , T t 1 ) = N ( w t ; a t : t + d , t w )
    Figure DE102022208082B3_0017
    wird dann dazu verwendet, um in 202 eine A-posteriori-Verteilung (d.h. einen Posterior) über zukünftige Aktionen unter der Bedingung des zuletzt beobachteten Zustands st zu ermitteln: p ( a t : t + d | s t , T t 1 ) p ( w t | a t : t + d , T t 1 ) p ( a t : t + d | T t 1 ) = N ( a t : t + d ; μ t + , t + )   μ t + = μ t + ( t w + t ) 1 t ( w t μ t )   t + = t w ( t w + t ) 1 t
    Figure DE102022208082B3_0018
  • Der Agent sampelt dann in 203 die Aktion at aus der Randverteilung p(at|st, τt-1).
  • Der nächste verborgene Zustand zt+1, der den neuen Prior p(at+1:t+d+1t) definiert, wird dadurch erhalten, dass der Posterior von Gleichung (4) in 204 zunächst auf die gesampelte Aktion at konditioniert wird, was in der bedingten Verteilung p ( a t + 1 : t + d | T t ) = N ( a t + 1 : t + d ; μ t c , t c )
    Figure DE102022208082B3_0019
    resultiert.
  • Als Zweites wird in 205 das lineare stochastische Vorhersagemodell p ( a t + d + 1 | a t + 1 : t + d ) = N ( K t a t + 1 : t + d + b t , Λ t ) ,
    Figure DE102022208082B3_0020
    das durch ein zweites neuronales Netzwerk 206 gϕ : st → (Kt, bt, Λt) parametrisiert wird, dazu verwendet die bedingte Wahrscheinlichkeit auf die Aktion at+d+1 auszudehnen.: p ( a t + 1 : t + d + 1 | T t ) = N ( a t + 1 : t + d + 1 μ t + 1 , t + 1 )
    Figure DE102022208082B3_0021
    μ t + 1 = ( μ t c K t μ t c + b t )
    Figure DE102022208082B3_0022
    t + 1 = ( t c t c K t T K t t c d K t t c K t T + Λ t )
    Figure DE102022208082B3_0023
  • Dies ist die A-priori-Verteilung über die zukünftigen Aktionen at+1:t+d+1, die durch den verborgenen Zustand zt+1 gegeben ist.
  • Die oben beschriebene Steuerrichtlinie kann mittels jeglichem Steuerrichtlinien-Suchalgorithmus trainiert werden, der rekurrente Steuerrichtlinien akzeptiert (wie z.B. Proximal Policy Optimization oder Trust Region Layers). Gemäß verschiedenen Ausführungsformen wird die Steuerrichtlinie regularisiert, indem zwei Strafterme P t ( 1 )
    Figure DE102022208082B3_0024
    und P t ( 2 )
    Figure DE102022208082B3_0025
    zu der (Standard-)RL-Zielfunktion RLloss des verwendeten Steuerrichtlinien-Suchalgorithmus hinzugefügt werden, sodass das Trainieren der Steuerrichtlinie dem Suchen einer Lösung des Optimierungsproblems max θ , ϕ RL loss E t [ λ 1 P t ( 1 ) + λ 2 P t ( 2 ) ]
    Figure DE102022208082B3_0026
    entspricht, wobei in diesem Beispiel die RL-Zielfunktion RLloss so gewählt ist, dass sie zu maximieren ist und E t
    Figure DE102022208082B3_0027
    das empirische Mittel über einen endlichen Batch von Samples ist und (θ, ϕ) die Gewichte des (Likelihood- oder Plausibilitäts-)Kodierers fθ bzw. des Aktions-Vorhersagenetzwerks gϕ sind.
  • Der erste Regularisierungsterm P t ( 1 )
    Figure DE102022208082B3_0028
    ermutigt das Training des Agenten, so dass er nach der Beobachtung eines neuen Zustands nur eine kleine Aktualisierung des Priors über zukünftige Aktionen vorzunehmen, sodass der Agent lernt, effektiv im Voraus zu planen. Beispielsweise bestraft der erste Regularisierungsterm P t ( 1 )
    Figure DE102022208082B3_0029
    die Kullback-Leibler(KL)-Divergenz zwischen der A-priori-Verteilung und der A-posteriori-Verteilung: P t ( 1 ) = KL ( p ( a t : t + d | s t , T t 1 ) p ( a t : t + d | T t 1 ) ) = KL ( N ( μ t + , t + ) N ( μ t , t ) )
    Figure DE102022208082B3_0030
  • Dieser Strafterm erzwingt näherungsweise die Konsistenzannahme von Gleichung (1), sodass zukünftige Aktionen näherungsweise gemäß der Kovarianzmatrix t +
    Figure DE102022208082B3_0031
    der A-posteriori-Verteilung p(at:t+d|st, τt-1) korreliert sind.
  • Der zweie Regularisierungsterm ermutigt das Training derart, dass die Posterior-Kovarianzmatrix t +
    Figure DE102022208082B3_0032
    einem autoregressiven Prozess erster Ordnung mit Parameter α ∈ (0, 1) zu gleichen, was erzwingt, dass aufeinanderfolgende Aktionen ausreichend korreliert sind. Die Ziel-Kovarianzmatrix t *
    Figure DE102022208082B3_0033
    wird so konstruiert, dass sie der Kovarianzmatrix eines autoregressiven Prozesses erster Ordnung wie in Gleichung (3) beschrieben gleicht, sodass P t ( 2 ) = KL ( N ( μ t + ,   t + ) N ( μ t + ,   t * ) )
    Figure DE102022208082B3_0034
  • Der Korrelationskoeffizient zwischen zwei Aktionen, die k Schritte auseinanderliegen ist dann näherungsweise α|k|.
  • Der erste Regularisierungsterm gewährleistet somit, dass Aktionen gemäß der Posterior-Kovarianzmatrix t +
    Figure DE102022208082B3_0035
    korreliert sind, während der zweite Regularisierungsterm es ermutigt, dass t +
    Figure DE102022208082B3_0036
    der Kovarianzmatrix eines autoregressiven Prozesses erster Ordnung gleicht.
  • Bei der oben beschriebenen Herangehensweise ist allerdings für die Anwendung des Satzes von Bayes auf Gauß-Verteilungen (siehe Gleichung (4)) zur Aktualisierung der Verteilung der Aktionen die Invertierung von Matrizen erforderlich. Für diese kann eine Rückwärts-Propagierung (für Anpassungen der Gewichte im Training) schwierig sein, insbesondere für hochdimensionale Aktionsräume. Gemäß verschiedenen Ausführungsformen wird die Aktualisierung deshalb in einem latenten Raum vorgenommen, wo die Verteilung als faktorisierte Gaußsche Verteilung dargestellt werden kann, d.h. es wird eine latente Variable z eingeführt mit p ( z ) = N ( μ z ,  diag ( σ z 2 ) ) .
    Figure DE102022208082B3_0037
  • Das Konditionieren auf neu beobachtete Zustandsinformation erfolgt dann im latenten Raum: p ( z | s 1 : t ) p ( w ( s t ) | z ) p ( z | s 1 : t 1 )
    Figure DE102022208082B3_0038
  • Ein Aktions-Dekodierer kann in diesem Fall dazu verwendet werden, die (prädiktive) Aktionsverteilung zu erhalten. Ein einfaches Beispiel ist ein linearer Dekodierer, der zu einer Gaußschen Verteilung der Aktionen führt: a t : t + d = W z t + w 0
    Figure DE102022208082B3_0039
    wobei W wiederum parametrisiert werden kann, sodass nur die zeitliche Korrelation und nicht zwischen Komponenten der Aktionen modelliert wird. Die resultierende Aktions-Verteilung ist gegeben durch p ( a t : t + d | s 1 : t ) = p ( z | s 1 : t ) p ( a t : t + d | z ) d z = N ( a t : t + d | W μ 2 + w 0 ,   W  diag ( σ z 2 ) W T )
    Figure DE102022208082B3_0040
  • Die Aktualisierung beinhaltet, wie auch im Beispiel von 2, zwei Schritte:
    1. 1. Konditionierung auf at und
    2. 2. Ausdehnen der Verteilung auf den nächsten Zeitschritt.
  • Schritt 1 ist in diesem Fall einfach und kann mittels Gaußscher Konditionierung erfolgen. Dies erfordert wieder eine Invertierung, aber es braucht nur die Aktionskovarianz für den aktuellen Zeitschritt invertiert zu werden, die faktorisiert werden kann).
  • Schritt 2 ist in diesem Fall komplizierter, da die latente Variable zt nicht in einzelne Zeitschritte zerlegt werden kann, wie das beim Vektor zukünftiger Aktionen der Fall ist. Gemäß einer Ausführungsform wird deshalb ein zusätzlicher Regularisierungsterm eingeführt, der erzwingt, dass die Aktions-Verteilung p-(at+1-t+d|s1:t) (die aus dem Prior für Zeitschritt t+1 dekodiert wird) äquivalent zu der konditionieren Aktionsverteilung p+(at+1:t+d|s1:t, at) (die aus dem Posterior des vorherigen Zeitschritts dekodiert wird) ist: λ 3 E p ( s t ) [ K L ( p ( a t + 1 : t + d | s 1 : t ) p + ( a t + 1 : t + d | s 1 : t , a t ) ) ]
    Figure DE102022208082B3_0041
  • Für das Training (dies betrifft auch andere Ausführungsformen, z.B. die von 2) interagiert der Agent mit der Umgebung durch Auswahl und Anwendung von Aktionen (d.h. Steuerung des jeweiligen technischen Systems gemäß der ausgewählten Aktionen) und die dabei erzeugten Samples (inkl. der durch die ausgewählten Aktionen verursachten Zustandsübergänge) werden zum Training der Steuerrichtlinie (die insbesondere durch die beiden neuronalen Netzwerke implementiert wird) sowie, je nach verwendetem RL-Trainingsverfahren, z.B. einer V-Funktion (Wertfunktion) verwendet.
  • Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 3 dargestellt.
  • 3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Steuern eines Roboters zum Aufnehmen und Inspizieren eines Objekts gemäß einer Ausführungsform darstellt.
  • In 301 wird, als eine erste Wahrscheinlichkeitsverteilung, eine Wahrscheinlichkeitsverteilung für eine Spezifikation einer ersten Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems zur Steuerung des technischen Systems ermittelt.
  • In 302 wird eine Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung ermittelt und das technische System gemäß der ausgewählten Aktion für den ersten Zustand gesteuert.
  • In 303 wird ein zweiter Zustands ermittelt (d.h. z.B. beobachtet), in den das technische System durch Durchführung der ersten Aktion eingetreten ist.
  • In 304 wird, als eine zweite Wahrscheinlichkeitsverteilung, eine Wahrscheinlichkeitsverteilung für eine Spezifikation einer zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz ermittelt, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird.
  • In 305 wird eine Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung ermittelt.
  • In 306 wird das technische System gemäß der ausgewählten Aktion für den zweiten Zustand gesteuert.
  • Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
  • Das Verfahren ist also gemäß verschiedenen Ausführungen insbesondere computerimplementiert.
  • Die Herangehensweise von 3 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das technische System gelernt und das technische System dann entsprechend gesteuert. Beispielsweise besteht die Erzeugung einer Aktion (und eines entsprechenden Steuersignals) darin, dass ein kontinuierlicher Wert oder mehrere kontinuierliche Werte erzeugt werden (d.h. eine Regression durchgeführt wird), wie z.B. für einen Abstand, eine Geschwindigkeit oder eine Beschleunigung (gemäß dem oder denen dann eine Robotervorrichtung oder ein Teil davon z.B. bewegt wird).
  • Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Zuständen des gesteuerten Systems (z.B. Roboter und Objekt oder Objekte in der Umgebung) Szenarien zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern eines Roboters, z.B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.
  • Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims (11)

  1. Verfahren zum Steuern eines technischen Systems (101), aufweisend: Ermitteln, als eine erste Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung über eine erste Kette von Aktionen zur Durchführung ausgehend von einem ersten Zustand des technischen Systems (101) zur Steuerung des technischen Systems (101); Wählen einer Aktion für den ersten Zustand gemäß der ersten Wahrscheinlichkeitsverteilung und Steuern des technischen Systems (101) gemäß der ausgewählten Aktion für den ersten Zustand; Ermitteln eines zweiten Zustands, in den das technische System (101) durch Durchführung der ersten Aktion eingetreten ist; Ermitteln, als eine zweite Wahrscheinlichkeitsverteilung, einer Wahrscheinlichkeitsverteilung über eine zweite Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand durch Bayessche Inferenz, wobei die erste Wahrscheinlichkeitsverteilung als A-priori-Verteilung verwendet wird und die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird; Wählen einer Aktion für den zweiten Zustand gemäß der zweiten Wahrscheinlichkeitsverteilung; und Steuern des technischen Systems (101) gemäß der ausgewählten Aktion für den zweiten Zustand.
  2. Verfahren nach Anspruch 1, wobei jede Aktion einem Zeitschritt zugeordnet ist, wobei die A-posteriori-Verteilung eine Verteilung über eine dritte Kette von Aktionen zur Durchführung ausgehend von dem zweiten Zustand ist, die bis zu einem Zeitschritt reicht, zu dem die erste Kette von Aktionen reicht, und wobei die zweite Wahrscheinlichkeitsverteilung aus der A-posteriori-Verteilung ermittelt wird durch Ausdehnen der A-posteriori-Verteilung auf eine Aktion eines weiteren Zeitschritts nach dem Zeitschritt, zu dem die erste Kette von Aktionen reicht.
  3. Verfahren nach Anspruch 1 oder 2, wobei die A-posteriori-Verteilung ausgedehnt wird mittels eines linearen stochastischen Prädiktionsmodells, das durch die Ausgabe, die ein neuronales Pädiktions-Netzwerk für den zweiten Zustand ausgibt, spezifiziert ist.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die erste Wahrscheinlichkeitsverteilung, die zweite Wahrscheinlichkeitsverteilung und die Plausibilitäts-Verteilung der Bayesschen Inferenz Gaußsche Verteilungen sind.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsverteilungen über latente Repräsentationen der jeweiligen Ketten sind, sodass die erste Wahrscheinlichkeitsverteilung und die zweite Wahrscheinlichkeitsverteilung faktorisierte Gauß-Verteilungen sind.
  6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Plausibilitäts-Verteilung bei der Bayesschen Inferenz eine Verteilung von Zustandsinformationen des zweiten Zustands ist, die mittels eines neuronalen Kodier-Netzwerks aus dem zweiten Zustand ermittelt wird.
  7. Verfahren nach zum Trainieren eines Agenten zum Steuern eines technischen Systems (101) durch, in mehreren Steuerungsdurchläufen, Steuern des technischen Systems (101) gemäß dem Verfahren nach einem der Ansprüche 1 bis 6 und Anpassen des Agenten gemäß einer Optimierung einer Trainings-Zielfunktion.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die Trainings-Zielfunktion mindestens eine Regularisierungsterm aufweist, der eine Korrelation zwischen den Aktionen in der zweiten Wahrscheinlichkeitsverteilung belohnt.
  9. Steuerungseinrichtung (106), die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 8 durchzuführen.
  10. Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.
  11. Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.
DE102022208082.3A 2022-08-03 2022-08-03 Verfahren zum Steuern eines technischen Systems Active DE102022208082B3 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102022208082.3A DE102022208082B3 (de) 2022-08-03 2022-08-03 Verfahren zum Steuern eines technischen Systems
US18/356,088 US20240046126A1 (en) 2022-08-03 2023-07-20 Method for controlling a technical system
CN202310969350.8A CN117506887A (zh) 2022-08-03 2023-08-02 用于控制技术系统的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022208082.3A DE102022208082B3 (de) 2022-08-03 2022-08-03 Verfahren zum Steuern eines technischen Systems

Publications (1)

Publication Number Publication Date
DE102022208082B3 true DE102022208082B3 (de) 2023-11-02

Family

ID=88306946

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022208082.3A Active DE102022208082B3 (de) 2022-08-03 2022-08-03 Verfahren zum Steuern eines technischen Systems

Country Status (3)

Country Link
US (1) US20240046126A1 (de)
CN (1) CN117506887A (de)
DE (1) DE102022208082B3 (de)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Wang Z., Chen C., Dong D. : Lifelong Incremental Reinforcement Learning With Online Bayesian Inference. In: IEEE, 2021, 4003-4016. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9353402 [abgerufen am 13.04.2023]
Wang, Zhi, Chunlin Chen, and Daoyi Dong. „Lifelong incremental reinforcement learning with online Bayesian inference." IEEE Transactions on Neural Networks and Learning Systems 33.8 (2021): 4003-4016
Xi A., Mudiyanselage T. W., Tao D., Chen C.: Balance Control of a Biped Robot on a Rotating Platform Based on Efficient Reinforcement Learning. In: EEE/CAA JOURNAL OF AUTOMATICA SINICA, 6, 2019, 4, 938-951. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8753751&tag=1 [abgerufen am 13.04.2023]
Xi, Ao, et al. „Balance control of a biped robot on a rotating platform based on efficient reinforcement learning." IEEE/CAA Journal of Automatica Sinica 6.4 (2019): 938-951

Also Published As

Publication number Publication date
CN117506887A (zh) 2024-02-06
US20240046126A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
Nguyen-Tuong et al. Model learning for robot control: a survey
DE102020209685B4 (de) Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE112019002310T5 (de) Ausführen einer "peg in hole"-aufgabe mit unbekannter neigung
DE102014108287A1 (de) Schnelles Erlernen durch Nachahmung von Kraftdrehmoment-Aufgaben durch Roboter
DE102020207085A1 (de) Verfahren zum steuern eines roboters und robotersteuereinheit
DE102021204697B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102021204961A1 (de) Verfahren zur Steuerung einer Robotervorrichtung
DE102020214231A1 (de) Verfahren zum steuern einer robotervorrichtung und robotersteuereinrichtung
DE102021201918A1 (de) Vorrichtung und Verfahren zum Steuern ein oder mehrerer Roboter
DE102020214633A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102019205651B3 (de) Verfahren und System zum Ausführen von Roboterapplikationen
DE102021204846B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102020212658A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020209511B3 (de) Verfahren und System zur Bestimmung von optimierten Programmparametern für ein Roboterprogramm
DE102020200165B4 (de) Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020210823A1 (de) Maschinen-Steueranordnung
DE102020206916A1 (de) Steuereinrichtung und Verfahren zum Auswählen von Auswertungspunkten für ein Bayessches Optimierungsverfahren
DE102022201116A1 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
DE102020206913B4 (de) Verfahren und Vorrichtung zum Betreiben eines Roboters
DE102021209761A1 (de) Verfahren zum Trainieren einer Steuerungsstrategie

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R018 Grant decision by examination section/examining division