DE102021209761A1 - Verfahren zum Trainieren einer Steuerungsstrategie - Google Patents

Verfahren zum Trainieren einer Steuerungsstrategie Download PDF

Info

Publication number
DE102021209761A1
DE102021209761A1 DE102021209761.8A DE102021209761A DE102021209761A1 DE 102021209761 A1 DE102021209761 A1 DE 102021209761A1 DE 102021209761 A DE102021209761 A DE 102021209761A DE 102021209761 A1 DE102021209761 A1 DE 102021209761A1
Authority
DE
Germany
Prior art keywords
control
control strategy
distribution
training
state transitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021209761.8A
Other languages
English (en)
Inventor
Christoph-Nikolas Straehle
Jens Stefan Buchner
Damian Boborzi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021209761.8A priority Critical patent/DE102021209761A1/de
Priority to US17/902,258 priority patent/US20230081738A1/en
Priority to CN202211077498.2A priority patent/CN115771139A/zh
Publication of DE102021209761A1 publication Critical patent/DE102021209761A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40519Motion, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerungsstrategie beschrieben, aufweisend Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.

Description

  • Stand der Technik
  • Die vorliegende Offenbarung bezieht sich auf Verfahren zum Trainieren einer Steuerungsstrategie.
  • Ein effektives Verfahren, eine Robotervorrichtung (wie z.B. einen Roboterarm, aber auch ein autonomes Fahrzeug) derart zu trainieren, dass sie in der Lage ist auch in Situationen, mit denen sie im Training nicht explizit konfrontiert wurde, umzugehen, ist Imitationslernen.
  • Imitationslernen zielt darauf ab, eine Steuerungsstrategie unter Verwendung von Expertendaten, die Expertendemonstrationen enthalten, derart zu trainieren, dass sie sich wie ein „Experte“ (also die Instanz, von der die Expertendemonstrationen stammen) verhält. Vielversprechende Ansätze des Imitationslernens basieren auf kontroversen (engl. adversarial) Verfahren und zeigen eine gute Effizienz bei der Interaktion mit Beispielen und Simulatoren. Kontroverse Verfahren sind aber häufig instabil und schwierig zu optimieren.
  • Imitationslernen lässt sich danach unterteilen, welche Informationen in den Expertendaten verfügbar sind; Verfahren, bei denen die Expertendemonstrationen als Folgen von Paaren aus Zustand und ausgeführter Aktion vorliegen, werden mit Lernen aus Demonstrationen (LfD) bezeichnet. Lernen aus Beobachtungen (LfO) beschreibt Verfahren, bei denen nur Zustandsinformationen, also insbesondere Informationen über aufeinanderfolgende Zustände, in den Expertendatenverfügbar sind.
  • Lernen aus Beobachtungen ermöglicht eine einfachere Sammlung der Expertendaten, das Training dabei ist aufgrund der geringeren Informationen in den Expertendaten typischerweise aber schwieriger. Entsprechend sind effektive Trainingsverfahren für Lernen aus Beobachtungen wünschenswert.
  • Offenbarung der Erfindung
  • Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerungsstrategie bereitgestellt, aufweisend Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslernen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.
  • Das oben beschriebene Verfahren ermöglicht effizientes nicht-kontroverses Lernen aus Beobachtungen. Es ermöglicht das Training einer erfolgreichen Steuerungsstrategie mit hoher Dateneffizienz. Die Zielfunktion (bzw. die entsprechende Verlustfunktion) entspricht dem Abweisungsmaß (z.B. einer Divergenz) zwischen zwei Verteilungen. Sie ist deshalb interpretierbar und der Verlust ist Null, falls die trainierte Steuerungsstrategie dieselben Zustandsübergänge liefert wie das demonstrierte Steuerungsverhalten (d.h. der „Experte“). Dann verhält sich die trainierte Steuerungsstrategie wie der Experte und das Abweichungsmaß liefert somit ein objektives Kriterium, wie gut die trainierte Steuerungsstrategie ist. Beim kontroversen Lernen ist ein solches Maß schwer zu berechnen.
  • Gemäß verschiedenen Ausführungsbeispielen wird die Minimierung einer Divergenz zwischen einer Trajektorienverteilung gemäß zu trainierender Steuerungsstrategie und einer Trajektorienverteilung gemäß Experten-Steuerungsstrategie (demonstriert in durch Expertendaten) so umformuliert, dass sie in der Form der (zu maximierenden) Zielfunktion eines Verfahrens zum verstärkenden Lernen mit Maximierung der Entropie ist. Dies beinhaltet insbesondere eine geeignete Formulierung des Belohnungsterms, der so gestaltet ist, dass er Terme (Wahrscheinlichkeiten) aufweist, für die Wahrscheinlichkeitsmodelle aus den Expertendaten bzw. aus Steuerungsdurchläufen (d.h. Interaktion mit der Umgebung) gelernt werden können.
  • Dieser Ansatz ermöglicht es, die Steuerungsstrategie unter Verwendung eines beliebigen Verfahrens zum verstärkenden Lernen mit Maximierung der Entropie zu trainieren und damit ein effektives Training für Lernen aus Beobachtungen zu erreichen.
  • Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
  • Ausführungsbeispiel 1 ist ein Verfahren zum Trainieren einer Steuerungsstrategie, wie oben beschrieben.
  • Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das Abweichungsmaß die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten oder die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und der Verteilung Zustandsübergängen gemäß der Steuerungsstrategie ist.
  • Die Verwendung der Kullback-Leibler-Divergenz für die zu optimierende Zielfunktion ermöglicht eine Verwendung der Zielfunktion als Zielfunktion eines Maximale-Entropie-RL-Verfahrens mit einem effizient schätzbaren Belohnungsterm.
  • Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei das Abweichungsmaß dadurch minimiert wird, dass ein Maximale-Entropie-Verstärkendes-Lernen-Verfahren auf eine Belohnung angewendet wird, deren gemeinsame Maximierung mit der Entropie der Steuerungsstrategie der Minimierung des Abweichungsmaßes entspricht.
  • Dies ermöglicht ein effizientes Training mit einem vorhandenen Maximale-Entropie-Verstärkendes-Lernen-Verfahren, das je nach Anwendungsfall geeignet gewählt werden kann.
  • Ausführungsbeispiel ist ein Verfahren nach Ausführungsbeispiel 3, aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Übergangsverteilung und eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die inverse Aktionsverteilung und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird. Bedingte Normalisierungsflüsse sind eine Klasse von Normalisierungsflüssen, bei denen die Abbildung der Basis-Verteilung auf die resultierende Verteilung durch eine Eingabe bedingt ist (hier z.B. Zustände), um bedingte Wahrscheinlichkeiten zu modellieren.
  • Ausführungsbeispiel 5 ist ein Verfahren nach Ausführungsbeispiel 4, ferner aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
  • Bedingte Normalisierungsfluss-Wahrscheinlichkeitsmodelle ermöglichen eine exakte Approximation von gegebenen Verteilungen und könne effizient ausgewertet werden.
  • Die bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle können zumindest teilweise offline trainiert werden. Damit können Stabilitätsprobleme, wie sie beim kontroversen Lernen auftreten, vermieden werden.
  • Ausführungsbeispiel 6 ist ein Verfahren zum Erzeugen einer Steueraktion aufweisend: Trainieren einer Steuerungsstrategie gemäß einem der Ausführungsbeispiele 1 bis 5 und Erzeugen einer Steueraktion gemäß der trainierten Steuerungsstrategie.
  • Ausführungsbeispiel 7 ist eine Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchzuführen.
  • Ausführungsbeispiel 8 ist ein Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach Ausführungsbeispiel 6 ermittelt werden.
  • Das Imitationslemen ermöglicht es ein realistisches Verhalten der Robotervorrichtungen zu simulieren, z.B. das Verhalten wie bei realen Verkehrsteilnehmern. Damit kann das Steuerungsverfahren unter realistischen Bedingungen getestet werden.
  • Ausführungsbeispiel 9 ist eine Testeinrichtung, die eingerichtet ist, das Verfahren nach Ausführungsbeispiel 8 durchzuführen.
  • Ausführungsbeispiel 10 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
  • Ausführungsbeispiel 11 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
  • In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.
    • 1 zeigt einen Roboter.
    • 2 veranschaulicht das Training einer Steuerungsstrategie gemäß einer Ausführungsform.
    • 3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Trainieren einer Steuerungsstrategie darstellt.
  • Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
  • Im Folgenden werden verschiedene Beispiele genauer beschrieben.
  • 1 zeigt einen Roboter 100.
  • Des Roboters 100 umfasst einen Roboterarm 101, beispielsweise einen Industrieroboterarm zum Handhaben oder Montieren eines Werkstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 umfasst Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, durch die die Manipulatoren 102, 103, 104 abgestützt sind. Der Begriff „Manipulator“ bezieht sich auf die beweglichen Elemente des Roboterarms 101, deren Betätigung eine physikalische Wechselwirkung mit der Umgebung ermöglicht, z. B. um eine Aufgabe auszuführen. Für die Steuerung des Roboterarms 101 umfasst der Roboter 100 eine (Roboter-) Steuereinrichtung 106, die dazu konfiguriert ist, die Wechselwirkung mit der Umgebung gemäß einem Steuerprogramm zu implementieren. Das letzte Element 104 (am weitesten von der Stütze 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie z. B. einen Schweißbrenner, ein Greifinstrument, ein Lackierwerkzeug oder dergleichen umfassen.
  • Die anderen Manipulatoren 102, 103 (näher an der Basis 105) können eine Positionierungsvorrichtung bilden, sodass zusammen mit dem Endeffektor 104 der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende) erfüllen kann.
  • Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 umfassen, die die Manipulatoren 102, 103, 104 miteinander und mit der Basis 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine drehbare Bewegung (d.h. Drehbewegung) und/oder Translationsbewegung (d.h. Verschiebung) von zugehörigen Manipulatoren relativ zueinander bereitstellen kann. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktuatoren eingeleitet werden, die durch die Steuereinrichtung 106 gesteuert werden.
  • Der Begriff „Aktuator“ kann als Komponente verstanden werden, die dazu ausgelegt ist, einen Mechanismus oder Prozess in Reaktion darauf, dass sie angetrieben wird, zu beeinflussen. Der Aktuator kann Befehle, die durch die Steuereinrichtung 106 ausgegeben werden (die sogenannte Aktivierung), in mechanische Bewegungen implementieren. Der Aktuator, z. B. ein elektromechanischer Wandler, kann dazu konfiguriert sein, auf seine Aktivierung elektrische Energie in mechanische Energie in Reaktion umzuwandeln.
  • Der Begriff „Steuereinrichtung“ kann als irgendein Typ von Logik, die eine Entität implementiert, verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor, der in der Lage ist, eine Software auszuführen, die in einem Speichermedium gespeichert ist, Firmware oder eine Kombination davon umfassen kann, und die Befehle, z. B. an einen Aktuator im vorliegenden Beispiel, ausgeben kann. Die Steuereinrichtung kann beispielsweise durch einen Programmcode (z. B. Software) konfiguriert sein, um den Betrieb eines Roboters zu steuern.
  • Im vorliegenden Beispiel umfasst die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der einen Code und Daten speichert, auf deren Basis der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf der Basis einer Steuerungsstrategie 112, die im Speicher 111 gespeichert ist. Des Roboters 100 soll beispielsweise ein Objekt 113 aufnehmen. Beispielsweise ist der Endeffektor 104 ein Greifer und soll das Objekt 113 aufnehmen, aber der Endeffektor 104 kann auch beispielsweise eingerichtet sein, das Objekt 113 zum Aufnehmen anzusaugen.
  • Die im Folgenden beschriebene Herangehensweise kann nicht nur für Roboterarme, sondern auch zur Steuerung für verschiedene Robotervorrichtungen verwendet werden, wie z.B. Geh- und Laufroboter, autonome Fahrzeuge, Maschinen, etc.
  • In den folgenden Ausführungsbeispielen wird die Aufgabe des Steuerns einer Robotervorrichtung als Markov-Entscheidungsprozess modelliert, d.h. durch ein Tupel (S, A, p, r), wobei S den Zustand, A die Aktion, p(st+1|st,at) die Übergangsfunktion und r(st,at) die (beschränkte) Belohnungsfunktion bezeichnen. Der Zustandsraum S und der Aktionsraum A werden als kontinuierlich betrachtet.
  • In jedem Zeitschritt t interagiert ein Agent (der gemäß der Steuerungsstrategie handelt, z.B. ein der Roboter 100, der gemäß der Steuerungsstrategie 112 handelt) mit der Umgebung (d.h. dem gesteuerten System, z.B. der Roboter mit seinem Umfeld, z.B. dem Objekt 113), indem er einen Zustand st beobachtet und abhängig von diesem Zustand eine Aktion at vornimmt. Der Zustand (oder Konfiguration) enthält Informationen über die Robotervorrichtung (wie z.B. Gelenkpositionen) und auch ihrer Umgebung (wie z.B. der Pose des Objekts 113). Die Anwendung von Aktion at im Zustand st resultiert in einem neuen Zustand st+1 und einer Belohnung rt+1 abhängig von der Übergangsfunktion (d.h. den Übergangswahrscheinlichkeiten) und der Belohnungsfunktion. Es wird eine stochastische Steuerungsstrategie πθ(at|st) durch Anpassen ihrer Parameter θ so trainiert, dass die erhaltenen Belohnungen (im Mittel über die Trainingsdaten oder Trainings-Batches) möglichst groß werden.
  • Beim verstärkenden Lernen mit Maximierung der Entropie wird die Steuerungsstrategie nicht nur derart trainiert, dass der Gewinn (also die Belohnungen über das Training hinweg) möglichst groß wird, sondern auch die Entropie ℍ(πθ(·|st) der (Wahrscheinlichkeit-)Verteilung, gemäß der die Steuerungsstrategie Steueraktionen auswählt, möglichst groß wird. Dies resultiert in der (zu maximierenden) Zielfunktion J ( π θ ) = t = 0 T E ( s t , a t ) ~ μ π θ [ r ( s t , a t ) + α ( π θ ( | s ) ) ]
    Figure DE102021209761A1_0001
  • Der Parameter α steuert der Zufälligkeit der optimalen Steuerungsstrategie, indem er festlegt, wie wichtig der Entropieterm im Vergleich zur Belohnung ist.
  • Beim Imitationslernen steht für das Training nicht die wahre Belohnungsfunktion r(st,at) zur Verfügung. Die Steuerungsstrategie wird hingegen so trainiert, dass sie das Verhalten einer Experten-Steuerungsstrategie (also einer Referenz-Steuerungsstrategie) πE, das sich in einem Trainingsdatensatz D E
    Figure DE102021209761A1_0002
    zeigt, imitiert.
  • Lernen aus Beobachtungen (LfO) ist ein Teilgebiet des Imitationsiemens, bei dem der Fall betrachtet wird, dass die Expertenaktionen nicht bekannt sind. Dies bedeutet, dass die Expertendaten von der Form D E L f O : = { s 0 k , s 1 k , , s T k } k = 0 K
    Figure DE102021209761A1_0003
    sind, d.h. mehrere Folgen von Übergängen von einem Zustand zum nächsten Zustand (d.h. Expertentrajektorien) enthalten. Es wird außerdem angenommen, dass beim Trainingsprozess eine Interaktion mit der Umgebung (d.h. dem gesteuerten System, was aber für das Training auch simuliert werden kann) möglich ist. Dies bedeutet, dass die Steuereinrichtung 106 beispielsweise den Roboterarm 101 steuern kann und dann über Sensoren (wie z.B. eine Kamera 114) den resultierenden Zustand der Umgebung (Roboterarm 101 plus Objekt 113 etc.) ermitteln kann.
  • Das Ziel ist somit das Training der Steuerungsstrategie, sodass sie die für jeweilige Zustände der Umgebung am besten geeigneten Aktionen auf der Grundlage des Verhaltens der Umgebung und der Übergänge aus den Expertendaten lernt.
  • Gemäß verschiedenen Ausführungsformen erfolgt dies durch Anpassen von Wahrscheinlichkeitsverteilungen. Es werden dazu Wahrscheinlichkeitsmodelle verwendet, um ein Wahrscheinlichkeitsanpassungsziel auf nicht-kontroverse Weise zu schätzen. Speziell werden beispielsweise Normalisierungsflüsse verwendet, um die Ähnlichkeit der Zustandsübergänge gemäß der trainierten Steuerungsstrategie mit der Experten-Steuerungsstrategie zu schätzen. Gemäß verschiedenen Ausführungsformen wird außerdem ein Vorwärts- und Rückwärts-Dynamikmodell verwendet, um die Werte der beim Training zu optimierende Zielfunktion zu schätzen.
  • Gemäß verschiedenen Ausführungsformen wird die Verteilung der Trajektorien µπθ , wie sie die Steuerungsstrategie erzeugt, an die Verteilung der Trajektorien µE, wie sie die Experten-Steuerungstrategie erzeugt, angepasst, in dem die Kullback-Leibler-Divergenz (KLD) zwischen ihnen minimiert wird. Die beiden Trajektorien-Verteilungen µπθ und µE sind durch die Startzustands-Verteilung p(s0) und die jeweiligen bedingten Zustandsübergangsverteilungen definiert: μ π θ = p ( s 0 ) i = 0 T μ π θ ( s i + 1 | s i )
    Figure DE102021209761A1_0004
    μ E = p ( s 0 ) i = 0 T μ E ( s i + 1 | s i )
    Figure DE102021209761A1_0005
  • Die Kullback-Leibler-Divergenz zwischen diesen beiden Verteilungen ist gegeben durch D K L ( μ π θ μ E ) = E ( s 0 s T ) ~ π θ [ log μ π θ log μ E ]
    Figure DE102021209761A1_0006
    und beschreibt, wie nah die Verteilung µπθ an der Verteilung µE liegt. Durch Minimieren der Kullback-Leibler-Divergenz (z.B. durch die Steuereinrichtung 106) wird erreicht, dass die Steuerungsstrategie (z.B. die Steuerungsstrategie 112) Trajektorien erzeugt, die den Trajektorien aus den Expertendaten möglichst ähnlich sind.
  • Es soll also die Steuerungsstrategie πθ(at|st) derart trainiert werden, d.h. ihr Parametersatz θ (z.B. Gewichte eines neuronalen Netzes) gemäß dem Optimierungsproblem min D K L ( μ π θ μ E ) = min E ( s i , s i + 1 ) ~ π θ [ log μ π θ ( s i + 1 | s i ) log μ E ( s i + 1 | s i ) ]
    Figure DE102021209761A1_0007
    gesetzt wird.
  • Umschreiben dieses Optimierungsproblems unter Verwendung von μ π θ ( s i + 1 | s i ) = p ( s i + 1 | a i , s i ) π θ ( a i | s i ) π θ ' ( a i | s i + 1 , s i )
    Figure DE102021209761A1_0008
    liefert min D K L ( μ π θ μ E ) = max E ( s i , s i + 1 ) ~ π θ [ r ( s i , a i ) + ( π θ ( a i | s i ) ]
    Figure DE102021209761A1_0009
    wobei der Belohnungsterm definiert ist durch r ( a i , s i ) = E ( s i + 1 ) ~ p ( s i + 1 | s i , a i ) [ log p ( s i + 1 | s i , a i ) + log π θ ' ( a i | s i + 1 , s i ) + log μ E ( s i + 1 | s i ) ]
    Figure DE102021209761A1_0010
    und π θ ' ( a i | s i + 1 , s i )
    Figure DE102021209761A1_0011
    die inverse Aktionsverteilung (oder auch Rückwärts-Verteilung der Umgebungsdynamik) ist.
  • Ein Modell für die inverse Aktionsverteilungsfunktion π θ ' ( a i | s i + 1 , s i )
    Figure DE102021209761A1_0012
    und ein Modell für die Übergangsverteilung p(si+1|ai,si) (oder auch Vorwärts-Verteilung der Umgebungsdynamik) werden gemäß verschiedenen Ausführungsformen durch Trainieren eines bedingten Normalisierungsflusses unter Verwendung von Daten ermittelt, die in einem Buffer (Wiederholungsbuffer, engl. replay buffer) gespeichert sind und basierend auf Steuerungs-Durchläufen (sogenannte Rollouts) gesammelt werden. Diese Daten enthalten Trajektorien mit zugehörigen Aktionen und Belohnungen und können durch eine reale Steuerung (z.B. des Roboterarms 101) aber auch durch Simulation von Steuerungs-Durchläufen erzeugt werden.
  • Die bedingte Experten-Zustandsübergangsverteilung µE(si+1|si) kann offline (d.h. außerhalb oder vor den Steuerungsdurchläufen) gelernt werden, z.B. durch Trainieren eines bedingten Normalisierungsflusses auf den durch die Expertendaten gegebenen Paaren aus Zustand und Folgezustand.
  • Mit den so trainierten Verteilungen kann die Steuerungsstrategie unter Verwendung der Zielfunktion gemäß (1), die als Maximale-Entropie-Zielfunktion gesehen werden kann, unter Verwendung eines Standard-Maximale-Entropie-Reinforcement Learning (verstärkendes Lernen)-Verfahrens trainiert werden, wie beispielsweise Soft Actor Critic (SAC), wobei die Belohnung (gemäß (2)) mittels der trainierten Wahrscheinlichkeitsmodelle (z.B. Normalisierungsflüsse) für µE(si+1|si), π θ ' ( a i | s i + 1 , s i )
    Figure DE102021209761A1_0013
    und p(si+1|ai,si) geschätzt wird.
  • 2 veranschaulicht das Training einer Steuerungsstrategie gemäß einer Ausführungsform (z.B. durchgeführt von der Steuerungseinrichtung 106).
  • Aus Expertendaten 201 wird ein Wahrscheinlichkeitsmodell 202 für µE (si+1|si) trainiert.
  • Aus Daten aus einem Wiederholungsbuffer 204, die durch (ggf. simulierten) Steuerungsdurchläufen gewonnen werden, d.h. durch Interaktion mit der Umgebung 203 (z.B. Roboterarm 101 inklusive seinem Arbeitsbereich wie Objekt 113), werden Wahrscheinlichkeitsmodelle 205 p(si+1|ai,si) und π θ ' ( a i | s i + 1 , s i )
    Figure DE102021209761A1_0014
    trainiert.
  • Ein RL-Trainingsverfahren 206 (z.B. ein Trainingsverfahren mit einem Actor 207 und einem Critic 208) verwendet die Wahrscheinlichkeitsmodelle 205 (zur Schätzung der Belohnung gemäß (2)) und ermittelt die Steuerungsstrategie. Dabei interagiert der Actor 207 für Trainingsdurchläufe mit der Umgebung 203.
  • Im Folgenden wird ein Beispiel für einen Trainingsalgorithmus in Pseudocode (mit den üblichen englischen Schlüsselwörtern wie „für“, „do“, „end“, „range“, „procedure“ etc.) angegeben.
    1: procedure SOIL-TDM(DE)
    2: Trainiere µE (st+1|st) mit D E : { s 0 , s 1 , s T } k = 0 K
    Figure DE102021209761A1_0015
    3: for Episoden do
    4: for range(T) do Erzeuge Daten
    5: t ← sample(πθ(ât|st))
    6: st+1 ← psim(st+1|st,ât) Wende Aktion an (durch Interaktion mit Umgebung oder Simulation)
    7: speichere (st, ât, st+1) in DRB Speichere im Wiederholungsbuffer
    8: end for
    9: for range(N) do Aktualisiere Dynamik-Modell
    10: { ( s t , a ^ t , s t + 1 ) } i = 1 B ~ D R B
    Figure DE102021209761A1_0016
    Sample Batch aus dem Wiederholungsbuffer
    11: trainiere µη (ât|st+1,st) und µϕ (st+1|ât,st)
    12: end for
    13: for range(N) do SAC-Optimierung
    14: { ( s t , a ^ t , s t + 1 ) } i = 1 B ~ D R B
    Figure DE102021209761A1_0017
    15: at ← sample(πθ(at|st)) Sample Aktion aus Steuerungsstrategie
    16: optimiere πθ (at|st) mit Jπ(at,st) Aktualisiere Steuerungsstrategie mit Q-Funktion
    17: r(st,ât) ← - logµϕ (st+1|ât,st) + logµη(at|st+1,st) + logµE (st+1|st) Schätze Belohnung
    18: optimiere Qψ(ât,st) mit JQ(ât,st) Aktualisiere Q-Funktion
    19: end for
    20: end for
    21: end procedure
  • Hierbei sind J π ( a t , s t ) = E ( s t ) ~ D R B [ E ( a t ) ~ π θ [ α log π θ ( a t | s t ) Q Ψ ( s t , a t ) ] ]
    Figure DE102021209761A1_0018
    und J Q ( a ^ t , s t ) = E ( s t , a ^ t ) ~ D R B [ 1 2 ( Q Ψ ( s t , a ^ t ) ( r ( s t , a ^ t ) + γ E s t + 1 [ V Ψ ^ ( s t + 1 ) ] ) ) 2 ]
    Figure DE102021209761A1_0019
  • QΨ ist die Q-Funktion. Um die Stabilität zu erhöhen, wird eine Ziel-Q-Funktion QΨ̂ mit Parametern Ψ̂ verwendet, die langsam der tatsächlichen Q-Funktion folgt. VΨ̂, ist die Wert-Funktion (engl. value function) entsprechend diesen Parametern. Der Parameter γ ist der Diskontierungsfaktor (engl. discount factor).
  • Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 6 dargestellt.
  • 3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Trainieren einer Steuerungsstrategie darstellt.
  • In 301 werden Trainingsdaten beschafft, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind.
  • In 302 wird die Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten trainiert.
  • Das Minimieren erfolgt über Suchraum von Parameterwerten der Steuerungsstrategie, beispielsweise Gewichte eines neuronalen Netzwerks.
  • Die Trainingsdaten werden beispielsweise durch das Aufnehmen von Demonstrationen beschafft. Beispielsweise kann ein Benutzer einen Roboterarm zur Ausführung einer bestimmten Aufgabe demonstrieren (z.B. für verschiedene Situationen wie etwa Anfangspositionen eins aufzunehmenden Objekts) oder es können, für den Fall einer Steuerungsstrategie für ein autonomes Fahrzeug, Aufnahmen von realen Fahrzeugen verwendet werden.
  • Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
  • Die Herangehensweise von 3 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das physikalische System gelernt und das physikalische System dann entsprechend gesteuert.
  • Die Herangehensweise von 3 kann beispielsweise für Anwendungen eingesetzt werden, in denen Expertendemonstrationen als Videoaufnahmen ohne zusätzliche Sensorsignale vorliegen. Ein Beispiel ist das Training von Verkehrsagenten in einer Simulation, damit die Verkehrsagenten wie reale Verkehrsteilnehmer fahren, wobei die Expertendaten Aufnahmen von Straßenverkehr in der Vogelperspektive enthalten. Es sind dabei z.B. keine direkten Informationen über die Fahrzeugphysik, das Gaspedal und den Lenkwinkel verfügbar. Daher müssen diese Werte auf der Grundlage von manchmal unvollständigen Informationen geschätzt werden, um einen Agenten darauf zu trainieren, das beobachtete Verhalten zu imitieren. Methoden, die nicht auf Aktionen aus diesen Expertendaten angewiesen sind, haben somit einen Vorteil, da weniger Werte geschätzt werden müssen.
  • Gemäß verschiedenen Ausführungsformen wird eine Steuerungsstrategie für die Steuerung eines Fahrzeugs unter Verwendung von zuvor aufgezeichneten und gesammelten Experten-Demonstrationen als Trainingsdaten (z.B. dem HighD-Datensatz) trainiert. Die Steuerungsstrategie wird dabei derart optimiert, dass sie Steueraktionen auswählt (abhängig vom jeweiligen Zustand), die zu Zustandstrajektorien führt, wie sie in den Experten-Demonstrationen vorhanden sind. Das Optimieren der in Hinblick auf ähnliche Steueraktionen passiert dabei indirekt: Die Steuerungsstrategie wird darauf optimiert, zu den Experten-Zustandstrajektorien ähnliche Zustandstrajektorien zu erzeugen.
  • Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Demonstrationen oder Zuständen des Systems (z.B. Roboter und Objekt oder Objekte) und Konfigurationen und Szenarios zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern einer Roboter, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.
  • Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims (11)

  1. Verfahren zum Trainieren einer Steuerungsstrategie, aufweisend: Beschaffen von Trainingsdaten, die ein Steuerungsverhalten demonstrieren, gemäß dem Steueraktionen zu erzeugen sind, und Trainieren der Steuerungsstrategie mittels Imitationslemen durch Minimieren eines Abweichungsmaßes zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten unter Verwendung der Trainingsdaten.
  2. Verfahren nach Anspruch 1, wobei das Abweichungsmaß die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß der Steuerungsstrategie und der Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten oder die Kullback-Leibler-Divergenz zwischen der Verteilung von Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und der Verteilung Zustandsübergängen gemäß der Steuerungsstrategie ist.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Abweichungsmaß dadurch minimiert wird, dass ein Maximale-Entropie-Verstärkendes-Lernen-Verfahren auf eine Belohnung angewendet wird, deren gemeinsame Maximierung mit der Entropie der Steuerungsstrategie der Minimierung des Abweichungsmaßes entspricht.
  4. Verfahren nach Anspruch 3, aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Übergangsverteilung und eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die inverse Aktionsverteilung und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
  5. Verfahren nach Anspruch 4, ferner aufweisend Trainieren eines bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodells für die Verteilung Zustandsübergängen gemäß dem demonstrierten Steuerungsverhalten und Minimieren des Abweichungsmaßes unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle, wobei die Belohnung unter Verwendung der trainierten bedingten Normalisierungsfluss-Wahrscheinlichkeitsmodelle geschätzt wird.
  6. Verfahren zum Erzeugen einer Steueraktion aufweisend: Trainieren einer Steuerungsstrategie gemäß einem der Ansprüche 1 bis 5 und Erzeugen einer Steueraktion gemäß der trainierten Steuerungsstrategie.
  7. Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen.
  8. Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend: Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach Anspruch 6 ermittelt werden.
  9. Testeinrichtung, die eingerichtet ist, das Verfahren nach Anspruch 8 durchzuführen.
  10. Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.
  11. Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.
DE102021209761.8A 2021-09-06 2021-09-06 Verfahren zum Trainieren einer Steuerungsstrategie Pending DE102021209761A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102021209761.8A DE102021209761A1 (de) 2021-09-06 2021-09-06 Verfahren zum Trainieren einer Steuerungsstrategie
US17/902,258 US20230081738A1 (en) 2021-09-06 2022-09-02 Method for training a control strategy
CN202211077498.2A CN115771139A (zh) 2021-09-06 2022-09-05 用于训练控制策略的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021209761.8A DE102021209761A1 (de) 2021-09-06 2021-09-06 Verfahren zum Trainieren einer Steuerungsstrategie

Publications (1)

Publication Number Publication Date
DE102021209761A1 true DE102021209761A1 (de) 2023-03-09

Family

ID=85226399

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021209761.8A Pending DE102021209761A1 (de) 2021-09-06 2021-09-06 Verfahren zum Trainieren einer Steuerungsstrategie

Country Status (3)

Country Link
US (1) US20230081738A1 (de)
CN (1) CN115771139A (de)
DE (1) DE102021209761A1 (de)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Ghasemipour S.K.S., Zemel R., Gu S.: A Divergence Minimization Perspective on Imitation Learning Methods. In: 3rd Conference on Robot Learning, 2019, 1-19. https://arxiv.org/pdf/1911.02256.pdf [abgerufen am 03.05.2022]
Jaegle A., Sulsky Y., Ahuja A., Bruce J., Fergus R., Wayne G.: Imitation by Predicting Observations. In: Proceedings of the 38 th International Conference on Machine Learning, Juli 2021, 1-19. https://arxiv.org/pdf/2107.03851.pdf [abgerufen am 03.05.2022]
Liu M., He T., Xu M., Zhang W.: Energy-Based Imitation Learning. In: Proc. of the 20th International Conference on Autonomous Agents and Multiagent Systems, Mai 2021, 1-15. https://arxiv.org/pdf/2004.09395.pdf [abgerufen am 03.05.2022]
Zhu Z., Lin K., Dai B., Zhou J.: Off-Policy Imitation Learning from Observations. In: 34th Conference on Neural Information Processing Systems, 2020, 1-12. https://papers.nips.cc/paper/2020/file/92977ae4d2ba21425a59afb269c2a14e-Paper.pdf [abgerufen am 03.05.2022]

Also Published As

Publication number Publication date
US20230081738A1 (en) 2023-03-16
CN115771139A (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
DE102020209685B4 (de) Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
DE102014108287B4 (de) Schnelles Erlernen durch Nachahmung von Kraftdrehmoment-Aufgaben durch Roboter
DE102019216229B4 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102013202378B4 (de) Prozedurales Gedächtnislernen und Robotersteuerung
DE112019002310T5 (de) Ausführen einer "peg in hole"-aufgabe mit unbekannter neigung
DE102019001948A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102020207085A1 (de) Verfahren zum steuern eines roboters und robotersteuereinheit
DE102021204961B4 (de) Verfahren zur Steuerung einer Robotervorrichtung
DE102021204697B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102020214231A1 (de) Verfahren zum steuern einer robotervorrichtung und robotersteuereinrichtung
DE102020214633A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
EP3760390A1 (de) Durchführen einer vorgegebenen aufgabe mithilfe wenigstens eines roboters
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
EP3741518B1 (de) Verfahren und vorrichtung für eine automatisierte beeinflussung eines aktuators
DE102022201116B4 (de) Verfahren zum Steuern einer Robotervorrichtung
DE102021209761A1 (de) Verfahren zum Trainieren einer Steuerungsstrategie
DE102019210372A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter
DE102020210823A1 (de) Maschinen-Steueranordnung
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems
DE102021205037A1 (de) Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung
DE102020206913A1 (de) Verfahren und Vorrichtung zum Betreiben eines Roboters
DE102021212494B4 (de) Vorrichtung und Verfahren zur Steuerung einer Robotervorrichtung
DE102021205934A1 (de) Verfahren zum Trainieren einer Steuerungsstrategie
DE102022212638B3 (de) Vorrichtung und Verfahren zum Steuern eines Roboters

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed