DE102020211648A1 - Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung - Google Patents

Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung Download PDF

Info

Publication number
DE102020211648A1
DE102020211648A1 DE102020211648.2A DE102020211648A DE102020211648A1 DE 102020211648 A1 DE102020211648 A1 DE 102020211648A1 DE 102020211648 A DE102020211648 A DE 102020211648A DE 102020211648 A1 DE102020211648 A1 DE 102020211648A1
Authority
DE
Germany
Prior art keywords
strategy
projected
updated
multivariate
normal distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020211648.2A
Other languages
English (en)
Inventor
Fabian Otto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020211648.2A priority Critical patent/DE102020211648A1/de
Priority to US17/447,553 priority patent/US20220080586A1/en
Priority to CN202111086090.7A priority patent/CN114193443A/zh
Publication of DE102020211648A1 publication Critical patent/DE102020211648A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39001Robot, manipulator control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Abstract

Eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung werden offenbart, wobei das Verfahren (400) aufweist: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells (402); Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen (404); Projizieren der aktualisierten Strategie auf eine projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist (406); Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie (408); und Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells (410).

Description

  • Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung.
  • Robotervorrichtungen können unter Verwendung von Roboter-Steuerungsmodellen gesteuert werden. Dazu kann ein Roboter-Steuerungsmodell mittels maschinellen Lernens, wie beispielsweise bestärkendem Lernen (auch verstärkendes Lernen genannt, engl.: Reinforcement Learning), trainiert werden. Dabei kann das Roboter-Steuerungsmodell mittels einer auf ein Ziel gerichteten Strategie für einen derzeitigen Zustand der Robotervorrichtung eine durch die Robotervorrichtung durchzuführende Aktion auswählen. Anschaulich bildet die Strategie für einen jeweiligen Zustand von mehreren Zuständen auf eine Aktion von mehreren Aktionen ab. Während des Trainierens des Roboter-Steuerungsmodells und/oder während der Inferenz des trainierten Roboter-Steuerungsmodells kann die Strategie aktualisiert werden. Hierbei kann es erwünscht und/oder erforderlich sein, dass eine Ähnlichkeit zwischen der anfänglichen Strategie und der aktualisierten Strategie innerhalb eines vordefinierten Bereichs (z.B. eines Vertrauensbereichs) liegt.
  • In Schulman et al., Trust Region Policy Optimization, ICML, Proceedings of Machine Learning Research, 37, 2015, wird eine Vertrauensbereich-Strategie-Optimierung (TRPO) beschrieben, bei der eine Strategie-Aktualisierung unter einer Bedingung derart erfolgt, dass die aktualisierte Strategie innerhalb eines Vertrauensbereichs liegt. Hierbei ist die Bedingung eine heuristische Näherung der Kullback-Leibler-(KL)-Divergenz zwischen der anfänglichen Strategie und der aktualisierten Strategie unter Verwendung einer mittleren KL-Divergenz.
  • Allerdings ist bei bestärkendem Lernen der Exploration-Exploitation-Kompromiss (auch Exploration-Exploitation-Dilemma genannt) zu berücksichtigen.
  • In Abdolmaleki et al., Model-based relative entropy stochastic search, Advances in Neural Information Processing Systems, 2015, wird beschrieben, dass, falls bei der Aktualisierung der Strategie die Entropie der aktualisierten Strategie nicht berücksichtigt wird, dies aufgrund einer verstärkten Exploitation zu einer vorzeitigen Strategie-Konvergenz führen kann. Bei der Strategie-Aktualisierung innerhalb des Vertrauensbereichs kann die Entropie der Strategie als eine zusätzliche Bedingung berücksichtigt werden.
  • Akrour et al., Projections for Approximate Policy Iteration Algorithms, ICLR, 2019, baut auf das von Schulman et al. beschriebene TRPO-Verfahren und die von Abdolmaleki et al. beschriebene zusätzliche Bedingung der Strategie-Entropie auf, wobei eine aktualisierte bedingungs-beschränkte Strategie in eine bedingungs-unbeschränkte Strategie projiziert wird.
  • Allerdings basiert die bei TRPO verwendete Bedingung und damit auch die Projektion dieser auf der mittleren KL-Divergenz über alle Zustände. Daher könnten einzelne Zustände der projizierten Strategie die Bedingung des Vertrauensbereichs verletzten (z.B. außerhalb des Vertrauensbereichs liegen). Folglich könnte es erforderlich sein, ein Verfahren bereitzustellen, das imstande ist, bei der Aktualisierung der Strategie den Vertrauensbereich für jeden Zustand sicherzustellen.
  • Ferner sind die beschriebene Vertrauensbereich-Strategie-Optimierung und die Projektion der Strategie auf die gemittelte KL-Divergenz begrenzt. Daher könnte es hilfreich und/oder erforderlich sein, für die Projektion einer Strategie in einen Vertrauensbereich andere mathematische Methoden zu verwenden, wie beispielsweise mathematisch besser geeigneter Methoden (zum Beispiel mathematische Methoden, die einen geringeren rechentechnischen Aufwand erfordern, zum Beispiel mathematische Methoden, die in geschlossener Form gelöst werden können).
  • Ferner könnte es vorteilhaft und/oder für ein Ende-zu-Ende-Trainieren des Roboter-Steuerungsmodells erforderlich sein, ein Verfahren zur Projektion der Strategie in einen Vertrauensbereich bereitzustellen, mittels dessen die Strategie-Projektion als ein oder mehrere differenzierbare Schichten in einem neuronalen Netzwerk implementiert werden kann.
  • In Amos und Kolter, OptNet: Differentiable Optimization as a Layer in Neural Networks, 34th International Conference on Machine Learning, 2017 wird ein Verfahren beschrieben, das es ermöglicht, Optimierungsprobleme als differenzierbare Schichten in ein neuronales Netzwerk (OptNet) zu integrieren.
  • Das Verfahren und die Vorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 14 (achtzehntes Beispiel) ermöglichen, ein Roboter-Steuerungsmodell derart zu trainieren, dass bei einer Aktualisierung der Strategie des Roboter-Steuerungsmodells für jeden Zustand des Roboter-Steuerungsmodells ein Vertrauensbereich (z.B. ein jeweiliger Vertrauensbereich) sichergestellt wird.
  • Folglich sind die Vorrichtung und das Verfahren zum Steuern einer Robotervorrichtung imstande, das Roboter-Steuerungsmodell effizienter (z.B. schneller, z.B. mit einer höheren Genauigkeit, z.B. mit einem verbesserten Verhältnis von Exploration und Exploitation) zu trainieren.
  • Ein Roboter-Steuerungsmodell kann ein auf maschinellem Lernen basierendes Modell sein. Das Roboter-Steuerungsmodells kann beispielsweise einen bestärkendes-Lernen-Algorithmus aufweisen. Gemäß verschiedenen Ausführungsbeispielen kann zumindest ein Teil des Roboter-Steuerungsmodells mittels eines neuronalen Netzwerks implementiert werden.
  • Eine Robotervorrichtung kann jede Art von computergesteuerter Vorrichtung sein, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
  • Durch das Projizieren der aktualisierten Strategie des Roboter-Steuerungsmodells derart, dass der Vertrauensbereich für jeden Zustand des Roboter-Steuerungsmodells sichergestellt wird, kann beispielsweise der Exploration-Exploitation-Kompromiss beim bestärkenden Lernen kontrolliert (z.B. verbessert, z.B. optimiert) werden.
  • Das Ermitteln der aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen kann aufweisen: Ermitteln einer jeweiligen Belohnung für jede durchgeführte Aktion der durchgeführten Abfolge von Aktionen mittels Anwendens einer Belohnungsfunktion auf den jeweils resultierenden Zustand; und Ermitteln der aktualisierten Strategie unter Verwendung der anfänglichen Strategie und der ermittelten Belohnungen derart, dass eine erwartete Belohnung maximiert wird. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bilden ein drittes Beispiel.
  • Anschaulich kann die Bedingung, dass die Entropie für jeden Zustand der Vielzahl von Zuständen Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist, dazu führen, dass beim Aktualisieren der Strategie zum Beispiel nicht nur die Kovarianz, sondern auch der Erwartungswert der multivariaten Normalverteilung der Projizierten Strategie geändert wird.
  • Die anfängliche Strategie kann eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die aktualisierte Strategie kann eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die projizierte Strategie kann eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann aufweisen: Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist; und eine Entropie der projizierten multivariaten Normalverteilung größer als oder gleich dem vordefinierten Entropie-Schwellenwert ist. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem dritten Beispiel und dem vierten Beispiel bilden ein fünftes Beispiel.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Mahalanobis-Abstands und der Frobeniusnorm. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein sechstes Beispiel.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Wasserstein-Abstands. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein siebtes Beispiel.
  • Das Verwenden des Mahalanobis-Abstands und der Frobeniusnorm gemäß dem sechsten Beispiel oder des Wasserstein-Abstands gemäß dem siebten Beispiel hat den Effekt, dass die Projektion der aktualisierten Strategie in einer mathematisch geschlossenen Form ermittelt werden kann. Beispielsweise kann die derart ermittelte projizierte Strategie als eine Schicht (oder mehrere Schichten) in einem neuronalen Netzwerk integriert werden.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, kann aufweisen: Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels eines numerischen Optimierers. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel oder dem fünften Beispiel bilden ein achtes Beispiel.
  • Der numerische Optimierer kann die projizierte multivariate Normalverteilung unter Verwendung der Kullback-Leibler-Divergenz ermitteln. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem achten Beispiel bildet ein neuntes Beispiel.
  • Das Ermitteln der projizierten multivariaten Normalverteilung kann ein Lagrange-Multiplikatoren-Verfahren aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des sechsten Beispiels bis dem neunten Beispiel bildet ein zehntes Beispiel.
  • Das Roboter-Steuerungsmodell kann ein neuronales Netzwerk sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem zehnten Beispiel bildet ein elftes Beispiel.
  • Das Projizieren der aktualisierten Strategie auf die projizierte Strategie kann als ein oder mehrere Schichten (z.B. als differenzierbare Schichten) in dem neuronalen Netzwerk implementiert sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem elften Beispiel bildet ein zwölftes Beispiel.
  • Das Integrieren der Projektion der Strategie in einen zustandseigenen Vertrauensbereich als ein oder mehrere differenzierbaren Schichten in ein neuronales Netzwerk hat den Effekt, dass das neuronales Netzwerk unter Verwendung der Strategie-Projektion Ende-zu-Ende trainiert werden kann, wobei die Bedingung des Vertrauensbereiches während des Trainierens für jeden Zustand sichergestellt wird.
  • Das Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie kann ein Anpassen des Roboter-Steuerungsmodells mittels eines Gradientenverfahrens aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem zwölften Beispiel bildet ein dreizehntes Beispiel.
  • Das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells kann aufweisen: Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen mittels einer Regression. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreizehnten Beispiel bilden ein vierzehntes Beispiel.
  • Das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells kann aufweisen: Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen derart, dass eine Differenz aus einer erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreizehnten Beispiel bilden ein fünfzehntes Beispiel.
  • Ein Verfahren zum Steuern einer Robotervorrichtung kann aufweisen: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; Ermitteln einer projizierten Strategie derart, dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie maximiert wird; Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie; und Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein sechzehntes Beispiel.
  • Ein Verfahren zum Steuern einer Robotervorrichtung kann aufweisen: Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; Ermitteln einer projizierten Strategie derart, dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie maximiert wird; und Steuern der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung der projizierten Strategie. Das Verfahren mit den in diesem Absatz beschriebenen Merkmalen bildet ein siebzehntes Beispiel.
  • Ein Computerprogrammprodukt kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren nach einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das Computerprogrammprodukt mit den in diesem Absatz beschriebenen Merkmalen bildet ein neunzehntes Beispiel.
  • Ein nichtflüchtiges Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das nichtflüchtige Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein zwanzigstes Beispiel.
  • Ein nichtvolatiles Speichermedium kann Programminstruktionen speichern, welche, falls sie ausgeführt werden, das Verfahren einem oder mehreren des ersten Beispiels bis dem siebzehnten Beispiel ausführen. Das nichtvolatile Speichermedium mit den in diesem Absatz beschriebenen Merkmalen bildet ein einundzwanzigstes Beispiel.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.
  • Es zeigen
    • 1 eine beispielhafte Robotervorrichtungsanordnung gemäß verschiedenen Ausführungsformen,
    • 2 ein anschauliches Ablaufdiagramm zum Ermitteln einer Strategie gemäß verschiedenen Ausführungsformen;
    • 3 ein Schema, das ein Ermitteln einer projizierten Strategie unter Verwendung eines numerischen Optimierers gemäß verschiedenen Ausführungsformen darstellt;
    • 4 ein Verfahren zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen,
    • 5 ein Verfahren zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.
  • In einer Ausführungsform kann ein „Computer“ als jede Art von Logik-implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform ein „Computer“ eine hartverdrahtete Logikschaltung oder eine programmierbare Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Ein „Computer“ kann ein oder mehrere Prozessoren aufweisen. Ein „Computer“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als ein „Computer“ verstanden werden.
  • Robotervorrichtungen können unter Verwendung von bestärkendem-Lernen-basierten Roboter-Steuerungsmodellen gesteuert werden. Um bei dem Aktualisieren der Strategie des Roboter-Steuerungsmodells einen verbesserten (z.B. optimalen) Kompromiss von Exploration und Exploitation sicherzustellen, kann es erforderlich sein, die Strategie innerhalb eines Vertrauensbereichs zu aktualisieren. Verschiedene Ausführungsbeispiele betreffen eine Vorrichtung und ein Verfahren zum Steuern einer Robotervorrichtung, die imstande sind, ein Roboter-Steuerungsmodell derart zu trainieren, dass eine aktualisierte Strategie für jeden Zustand der Rotobervorrichtung innerhalb des Vertrauensbereichs liegt. Anschaulich kann beim Aktualisieren der Strategie des Roboter-Steuerungsmodels der Vertrauensbereich für jeden Zustand der Robotervorrichtung berücksichtigt und sichergestellt werden.
  • 1 zeigt eine Robotervorrichtungsanordnung 100. Die Robotervorrichtungsanordnung 100 kann eine Robotervorrichtung 101 aufweisen. Die in 1 gezeigte und im Folgenden beispielhaft beschriebene Robotervorrichtung 101 stellt zur Veranschaulichung eine beispielhafte Robotervorrichtung dar und kann zum Beispiel einen Industrieroboter in der Form eines Roboterarms zum Bewegen, Montieren oder Bearbeiten eines Werkstücks aufweisen. Es wird darauf hingewiesen, dass die Robotervorrichtung jede Art von computergesteuerter Vorrichtung sein kann, wie beispielsweise ein Roboter (z.B. ein Fertigungsroboter, ein Wartungsroboter, ein Haushaltsroboter, ein Medizinroboter, etc.), ein Fahrzeug (z.B. ein autonomes Fahrzeug), ein Haushaltsgerät, eine Produktionsmaschine, ein persönlicher Assistent, ein Zugangs-Steuerungs-System etc.
  • Die Robotervorrichtung 101 weist Roboterglieder 102, 103, 104 und einen Sockel (oder allgemein eine Halterung) 105 auf, durch die die Roboterglieder 102, 103, 104 getragen werden. Der Begriff „ Roboterglied“ bezieht sich auf die beweglichen Teile der Robotervorrichtung 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, z.B. um eine Aufgabe auszuführen, z.B. um eine Aktion durchzuführen.
  • Zur Steuerung beinhaltet die Robotervorrichtungsanordnung 100 eine Steuervorrichtung 106, die eingerichtet ist, die Interaktion mit der Umgebung gemäß einem Steuerungsprogramm zu realisieren. Das letzte Element 104 (von dem Sockel 105 aus gesehen) der Roboterglieder 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie einen Schweißbrenner, ein Greifwerkzeug, ein Lackiergerät oder dergleichen beinhalten.
  • Die anderen Roboterglieder 102, 103 (näher am Sockel 105) können eine Positionierungsvorrichtung bilden, so dass zusammen mit dem Endeffektor 104 ein Roboterarm (oder Gelenkarm) mit dem Endeffektor 104 an seinem Ende vorgesehen ist.
  • Der Roboterarm ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm erfüllen kann (möglicherweise mit einem Werkzeug an seinem Ende).
  • Die Robotervorrichtung 101 kann Verbindungselemente 107, 108, 109 beinhalten, die die Roboterglieder 102, 103, 104 miteinander und mit dem Sockel 105 verbinden. Ein Verbindungselement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine Drehbewegung und/oder eine Translationsbewegung (d.h. eine Verschiebung) für zugehörige Roboterglieder relativ zueinander bereitstellen kann. Die Bewegung der Roboterglieder 102, 103, 104 kann mit Hilfe von Stellgliedern eingeleitet werden, die von der Steuervorrichtung 106 gesteuert werden.
  • Der Begriff „Stellglied“ kann als eine Komponente verstanden werden, die geeignet ist, als Reaktion darauf, dass sie angetrieben wird, einen Mechanismus zu beeinflussen. Das Stellglied kann von der Steuervorrichtung 106 ausgegebene Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen umsetzen. Das Stellglied, z.B. ein elektromechanischer Wandler, kann eingerichtet werden, elektrische Energie als Reaktion auf seine Ansteuerung in mechanische Energie umzuwandeln.
  • Der Begriff „Steuervorrichtung“ (auch als „Steuereinrichtung bezeichnet“) kann als jede Art von logischer Implementierungseinheit verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor beinhalten kann, der in der Lage ist, in einem Speichermedium gespeicherte Software, Firmware oder eine Kombination derselben auszuführen, und die Anweisungen, z.B. an ein Stellglied im vorliegenden Beispiel, erteilen kann. Die Steuervorrichtung kann beispielsweise durch Programmcode (z.B. Software) eingerichtet werden, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
  • In dem vorliegenden Beispiel beinhaltet die Steuervorrichtung 106 einen Computer 110 und einen Speicher 111, der Code und Daten speichert, auf deren Grundlage der Computer 110 die Robotervorrichtung 101 steuert. Gemäß verschiedener Ausführungsformen steuert die Steuervorrichtung 106 die Robotervorrichtung 101 auf der Grundlage eines im Speicher 111 gespeicherten Roboter-Steuerungsmodells 112.
  • Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtungsanordnung 100 ein oder mehrere Sensoren 113 aufweisen. Die ein oder mehreren Sensoren 113 können eingerichtet sein, Sensordaten, die einen Zustand der Robotervorrichtung charakterisieren, bereitzustellen. Zum Beispiel können die ein oder mehreren Sensoren 113 einen Bildgebungssensor, wie beispielsweise eine Kamera (z.B. eine Standardkamera, eine Digitalkamera, eine Infrarotkamera, eine Stereokamera, etc.), einen Radar-Sensor, einen LIDAR-Sensor, einen Positionssensor, einen Geschwindigkeitssensor, einen Ultraschallsensor, einen Beschleunigungssensor, einen Drucksensor, etc. aufweisen.
  • Die Robotervorrichtung 101 kann in einem Zustand st einer Vielzahl von Zuständen sein. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 zu jedem Zeitpunkt in einem derzeitigen Zustand der Vielzahl von Zuständen sein. Der jeweilige Zustand der Vielzahl von Zuständen kann unter Verwendung der von den ein oder mehreren Sensoren 113 bereitgestellten Sensordaten ermittelt werden.
  • Die Robotervorrichtung 101 kann eingerichtet sein, eine Vielzahl von Aktionen auszuführen. Die Aktionen der Vielzahl von Aktionen können beispielsweise in dem Programmcode der Steuervorrichtung 106 vordefiniert sein. Ein oder mehrere Aktionen der Vielzahl von Aktionen können zum Beispiel eine mechanische Bewegung von ein oder mehreren Robotergliedern 102, 103, 104 aufweisen. Ein oder mehrere Aktionen der Vielzahl von Aktionen können zum Beispiel eine Aktion des Endeffektors (z.B. einem Greifen, z.B. einem Lösen, etc.) aufweisen. Gemäß verschiedenen Ausführungsformen kann eine in einem derzeitigen Zustand st der Robotervorrichtung 101 durchgeführte Aktion at zu einem resultierenden Zustand der Vielzahl von Zuständen der Robotervorrichtung 101 führen.
  • Das Roboter-Steuerungsmodell 112 kann ein bestärkendes-Lernen-basiertes Modell sein. Zum Beispiel kann das Roboter-Steuerungsmodell 112 einen bestärkendes-Lernen-Algorithmus implementieren.
  • Das Roboter-Steuerungsmodell 112 kann eingerichtet sein, für einen Zustand der Vielzahl von Zuständen eine Aktion der Vielzahl von Aktionen zu ermitteln. Zum Beispiel kann das Roboter-Steuerungsmodell 112 auf eine Eingabe eines Zustands der Vielzahl von Zuständen hin eine Aktion der Vielzahl von Aktionen ausgeben. Anschaulich kann das Roboter-Steuerungsmodell 112 von einem Zustand der Vielzahl von Zuständen auf eine Aktion der Vielzahl von Aktionen abbilden. Die Zustände der Vielzahl von Zuständen können einen Zustandsraum bilden. Die Aktionen der Vielzahl von Aktionen können einen Aktionsraum bilden. Anschaulich kann das Roboter-Steuerungsmodell 112 von dem Zustandsraum auf den Aktionsraum abbilden.
  • Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 eine Strategie (engl.: policy) π aufweisen. Zum Beispiel kann das Roboter-Steuerungsmodell 112 zu jedem Zeitpunkt eine Strategie verfolgen. Eine jeweilige Strategie kann einem Ziel und/oder einer Aufgabe zugeordnet sein. Zum Beispiel kann eine jeweilige Strategie eine Strategie zum Erreichen des Ziels bzw. zum Erfüllen der Aufgabe sein. Gemäß verschiedenen Ausführungsformen kann eine Strategie auf eine Eingabe eines Zustands der Vielzahl von Zuständen hin eine Aktion der Vielzahl von Aktionen ausgeben. Anschaulich kann die von dem Roboter-Steuerungsmodell 112 verwendete Strategie von dem Zustandsraum auf den Aktionsraum abbilden.
  • Jedem Zustand der Vielzahl von Zuständen kann eine jeweilige Wahrscheinlichkeitsverteilung (z.B. eine Normalverteilung) der Vielzahl von Aktionen zugeordnet sein. Gemäß verschiedenen Ausführungsformen kann eine Strategie eine multivariate Normalverteilung (auch als mehrdimensionale Normalverteilung und/oder als multivariate Gaußverteilung bezeichnet) aufweisen oder sein. Eine multivariate Normalverteilung kann durch einen Erwartungswertvektor und eine Kovarianzmatrix definiert sein. Der Erwartungswertvektor der multivariaten Normalverteilung einer Strategie kann einen Erwartungswert für jeden Zustand der Vielzahl von Zuständen aufweisen. Die Kovarianzmatrix (hierin auch als Kovarianz bezeichnet) der multivariaten Normalverteilung einer Strategie kann von der Vielzahl von Zuständen abhängig sind (z.B. eine Funktion dieser sein).
  • Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 derart zu steuern, dass die Robotervorrichtung 101 die für den derzeitigen Zustand der Robotervorrichtung 101 von dem Roboter-Steuerungsmodell 112 unter Verwendung der derzeitigen Strategie ermittelte Aktion ausführt und/oder durchführt.
  • Die Steuervorrichtung 106 kann eingerichtet sein, für den aus der durchgeführten Aktion resultierenden Zustand der Robotervorrichtung 101 eine Belohnung (engl.: reward) R zu ermitteln. Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 die Belohnung für einen resultierenden Zustand unter Verwendung einer Belohnungsfunktion ermitteln. Der Algorithmus zum Ausführen der Belohnungsfunktion kann zum Beispiel in dem Speicher 111 gespeichert sein. Zum Beispiel kann das Roboter-Steuerungsmodell 112 eingerichtet sein, die Belohnungsfunktion auszuführen. Die für den resultierenden Zustand ermittelte Belohnung kann beispielsweise der durchgeführten Aktion in Verbindung mit dem anfänglichen Zustand der Robotervorrichtung 101 zugeordnet sein oder werden.
  • Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des Roboter-Steuerungsmodell 112 eine Abfolge von Aktionen ausführen. Die Steuervorrichtung 106 kann eingerichtet sein, jede Aktion der Abfolge von Aktionen unter Verwendung einer anfänglichen Strategie πθold zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, für jede durchgeführte Aktion der durchgeführten Abfolge von Aktionen eine jeweilige Belohnung zu ermitteln.
  • Die Steuervorrichtung 106 (z.B. der Computer 110 der Steuervorrichtung 106) kann eingerichtet sein, unter Verwendung der durchgeführten Abfolge von Aktionen eine aktualisierte Strategie πθ zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ derart zu ermitteln, dass die für die in Gleichung (1) gegebene erwartete Belohnung erhöht (z.B. maximiert) wird: E τ [ t = 0 γ t R ( s t , a t ) ]
    Figure DE102020211648A1_0001
    wobei τ = s0 , a0, . . . die Trajektorie der Zustände st und der Aktionen at, die unter Verwendung der Strategie zum Erreichen des Ziels bzw. zum Erfüllen der Aufgabe durchlaufen werden, ist, wobei γ der Diskontierungsfaktor (engl.: discount factor) ist, und wobei s0 ∼ ρ(s0), at ∼ π(at|st) und st+1 ~ P(st+1|st,at) ist.
  • Eine Strategie πθ kann durch die Parameter θ des Roboter-Steuerungsmodells 112 definiert sein, zum Beispiel kann die πθ durch θ parametrisiert sein.
  • Gemäß verschiedenen Ausführungsformen kann eine aktualisierte Strategie πθ unter Verwendung von Gleichung (2) ermittelt werden: max θ E ( s t , a t ) π θ o l d [ π 0 ( a t | s t ) π θ o l d ( a t | s t ) A π ( s t , a t ) ]
    Figure DE102020211648A1_0002
    wobei πθold die anfängliche Strategie (z.B. die zuvor verwendete Strategie) ist, und wobei Aπ(at, st) die Vorteilsfunktion ist. Die Vorteilsfunktion kann beispielsweise durch Aπ(at, st) = Qπ(at, st) - Vπ(st) ermittelt werden, wobei Qπ(at, st) die Aktions-Wertigkeits-Funktion (engl.: action value function) und Vπ(st) die Wertigkeits-Funktion (engl.: value function) ist.
  • Gemäß verschiedenen Ausführungsformen kann die aktualisierte Strategie πθ unter Verwendung einer Stichprobenentnahme nach Wichtigkeit (engl.: importance sampling) ermittelt werden.
  • Gemäß verschiedenen Ausführungsformen kann die aktualisierte Strategie πθ ein oder mehreren Bedingungen (z.B. Randbedingungen, zum Beispiel Nebenbedingen) bezüglich der anfänglichen Strategie πθold unterliegen. Zum Beispiel kann eine Bedingung sein, dass die aktualisierte Strategie πθ innerhalb eines Vertrauensbereichs (engl.: Trust Region) bezüglich der anfänglichen Strategie πθold liegt (z.B. kann das Roboter-Steuerungsmodell 112 ein vertrauensbereich-basiertes bestärkendes Lernen implementieren). Zum Beispiel kann eine Bedingung sein, dass ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der aktualisierten Strategie πθ und der anfänglichen Strategie πθold für jeden Zustand st der Vielzahl von Zuständen größer als ein vordefinierter Schwellenwert ist. Zum Beispiel kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der zu verwenden Strategie und der anfänglichen Strategie πθold für jeden Zustand st der Vielzahl von Zuständen größer als ein vordefinierter Schwellenwert sein, falls ein Abstand d zwischen der aktualisierten Strategie πθ und der anfänglichen Strategie πθold kleiner oder gleich dem vordefinierten Schwellenwert ε ist. Gemäß verschiedenen Ausführungsformen kann jedem Zustand der Vielzahl von Zuständen eine jeweiliger vordefinierten Schwellenwert ε zugeordnet sein. Zum Beispiel kann bezüglich Gleichung (2) die Bedingung (s.t.), dass ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der aktualisierten Strategie πθ und der anfänglichen Strategie πθold für jeden Zustand st der Vielzahl von Zuständen größer als der vordefinierte Schwellenwert ε ist, gemäß Gleichung (3) beschrieben werden: d ( π θ o l d ( | s t ) ) , π θ ( | s t ) ) ε ( s t )
    Figure DE102020211648A1_0003
  • Anschaulich kann die aktualisierte Strategie für jeden Punkt (z.B. Zustand) im Zustandsraum beschränkt sein. Anschaulich hat das Aktualisieren der Strategie innerhalb des Vertrauensbereichs den Effekt, dass sich die Strategie der optimalen Strategie in nicht zu großen Schritten nähert (z.B. mit dieser konvergiert). Anschaulich kann ein Maß einer Änderung der verwendeten Strategie beschränkt werden.
  • Gemäß verschiedenen Ausführungsformen kann eine Bedingung sein, dass eine Entropie
    Figure DE102020211648A1_0004
    der aktualisierten Strategie πθ für jeden Zustand st der Vielzahl von Zuständen größer als oder gleich einem vordefinierten Entropie-Schwellenwert β ist. Zum Beispiel kann die Bedingung bezüglich Gleichung (2) gemäß Gleichung (4) beschrieben werden: H ( π ( | s t ) ) β ( s t )
    Figure DE102020211648A1_0005
  • Das Verwenden der Bedingungen bezüglich der aktualisierten Strategie πθ gemäß Gleichung (3) und optional ferner Gleichung (4) ermöglicht eine Kontrolle über Exploration (auch als Erkundung bezeichnet) und Exploitation (auch als Ausnutzung bezeichnet) des bestärkenden Lernens des Roboter-Steuerungsmodells 112.
  • Gemäß verschiedenen Ausführungsformen kann die Gleichung (2) mit den Bedingungen gemäß Gleichungen (3) und (4) mittels Gleichung (5) definiert werden: max π E x π o l d [ π ( x ) π o l d ( x ) R ( x ) ] s . t . d ( π ( x ) , π o l d ( x ) ) ε , H ( π ( x ) ) β
    Figure DE102020211648A1_0006
  • Mit Bezug auf 2 kann das Roboter-Steuerungsmodell 112 jede Aktion der Abfolge von Aktionen unter Verwendung der anfänglichen Strategie πθold ermitteln (in 202). Wie hierin beschrieben, kann die Steuervorrichtung 106 die aktualisierten Strategie πθ gemäß Gleichung (2) ermitteln (in 204), wobei die aktualisierte Strategie πθ durch die in Gleichung (3) und optional ferner die in Gleichung (4) definierten Bedingungen beschränkt sein kann. Anschaulich kann die aktualisierte Strategie πθ eine beschränkte aktualisierte Strategie πθ sein. Die aktualisierte Strategie πθ kann für jeden Zustand der Vielzahl von Zuständen beschränkt (z.B. der Bedingung gemäß Gleichung (3) unterliegen) sein. Anschaulich kann die aktualisierte Strategie πθ eine zustands-individuell beschränkte aktualisierte Strategie πθ sein. Zum Beispiel kann jeder Zustand der Vielzahl von Zuständen einen jeweiligen vordefinierten Schwellenwert ε aufweisen, so dass der vordefinierte Schwellenwert ε ein vordefinierter Schwellenwertvektor sein kann.
  • Die Steuervorrichtung 106 kann eingerichtet sein, eine projizierte Strategie π̃ ermitteln (in 206). Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf eine projizierte Strategie π̃ zu projizieren. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie πθ erhöht (z.B. maximiert) wird. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie πθ erhöht (z.B. maximiert) und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der anfänglichen Strategie πθold größer als der vordefinierte Schwellenwert ε ist. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der aktualisierten Strategie πθ erhöht (z.B. maximiert), dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie π̃ und der anfänglichen Strategie πθold größer als der vordefinierte Schwellenwert ε ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ die Entropie
    Figure DE102020211648A1_0004
    der aktualisierten Strategie πθ für jeden Zustand st der Vielzahl von Zuständen größer als oder gleich dem vordefinierten Entropie-Schwellenwert β ist.
  • Gemäß verschiedenen Ausführungsformen kann eine jeweilige Strategie mittels einer zugeordneten multivariaten Normalverteilung beschrieben werden. Zum Beispiel kann die anfängliche Strategie πθold eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die anfängliche multivariate Normalverteilung kann beschrieben werden durch: πθold (a|s) = N(a|µold(s), Σold(s)) wobei µold(s) der anfängliche Erwartungswertvektor und Σold die anfängliche Kovarianz der anfänglichen multivariaten Normalverteilung sind. Zum Beispiel kann die aktualisierte Strategie πθ eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die aktualisierte multivariate Normalverteilung kann beschrieben werden durch:
    πθ(a|s) = N(a|µ(s), Σ(s)), wobei µ der aktualisierte Erwartungswertvektor und Σ die aktualisierte Kovarianz der aktualisierten multivariaten Normalverteilung sind. Der anfängliche Erwartungswertvektor, die anfängliche Kovarianz, der aktualisierte Erwartungswertvektor und/oder die aktualisierte Kovarianz können eine Funktion der Vielzahl von Zuständen sein. Zum Beispiel kann die projizierten Strategie π̃ eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweisen. Die projizierte multivariate Normalverteilung kann beschrieben werden durch:
    π̃(a|s) = N(a|µ̃(µold, µ, Σold, Σ, ε(s)), Σ(µold, µ, Σold, Σ, ε(s), β(s))), wobei µ̃ der projizierte Erwartungswertvektor und Σ̃ die projizierte Kovarianz der projizierten multivariaten Normalverteilung sind. Der projizierte Erwartungswertvektor kann von dem anfänglichen Erwartungswertvektor, dem aktualisierten Erwartungswertvektor, der anfänglichen Kovarianz, der aktualisierten Kovarianz, dem vordefinierten Schwellenwert und/oder der Vielzahl von Zuständen abhängig sein. Die projizierte Kovarianz kann von dem anfänglichen Erwartungswertvektor, dem aktualisierten Erwartungswertvektor, der anfänglichen Kovarianz, der aktualisierten Kovarianz, dem vordefinierten Schwellenwert, der Vielzahl von Zuständen und/oder dem vordefinierten Entropie-Schwellenwert abhängig sein.
  • Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert) wird. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert) und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ε ist. Die Steuervorrichtung 106 kann eingerichtet sein, die aktualisierte Strategie πθ auf die projizierte Strategie π̃ derart zu projizieren, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung erhöht (z.B. maximiert), dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie π̃ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ε ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten multivariaten Normalverteilung die Entropie
    Figure DE102020211648A1_0004
    der aktualisierten St multivariaten Normalverteilung für jeden Zustand st der Vielzahl von Zuständen größer als oder gleich dem vordefinierten Entropie-Schwellenwert β ist.
  • Wie hierin beschrieben, kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik unter Verwendung eines Abstands d beschrieben werden. Gemäß verschiedenen Ausführungsformen kann der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der aktualisierten multivariaten Normalverteilung der aktualisierten Strategie πθ einen Abstand d zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der aktualisierten multivariaten Normalverteilung aufweisen. Gemäß verschiedenen Ausführungsformen kann der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der anfänglichen multivariaten Normalverteilung der anfänglichen Strategie πθold einen Abstand d zwischen der projizierten multivariaten Normalverteilung der projizierten Strategie π̃ und der anfänglichen multivariaten Normalverteilung der anfänglichen Strategie πθold aufweisen. Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem zum Ermitteln der projizierten Strategie π̃ gemäß Gleichungen (6) bis (8) beschrieben werden: max π ˜ d ( π ˜ , π 0 )
    Figure DE102020211648A1_0007
    s . t . d ( π ˜ , π θ o l d ) ε ,
    Figure DE102020211648A1_0008
    H ( π ˜ ) β
    Figure DE102020211648A1_0009
  • Gemäß verschiedenen Ausführungsformen kann das Projizieren der aktualisierten Strategie πθ auf die projizierte Strategie π̃ derart erfolgen, dass die projizierte Strategie π̃ eine unbeschränkte projizierte Strategie π̃ ist. Anschaulich kann die projizierte Strategie π̃ derart ermittelt werden, dass die Bedingungen (siehe zum Beispiel Gleichung (6)) erfüllt sind. Anschaulich wir die aktualisierte Strategie πθ derart auf die projizierte Strategie π̃ projiziert, dass die projizierte multivariate Normalverteilung so nah wie möglich zur aktualisierten multivariaten Normalverteilung liegt (zum Beispiel dass der Abstand zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung minimal ist) und dass die projizierte multivariate Normalverteilung (und damit die projizierte Strategie π̃) die Bedingungen erfüllt.
  • Die projizierte multivariate Normalverteilung kann mittels des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ beschrieben werden. Das Projizieren der aktualisierten Strategie πθ auf die projizierte Strategie π̃ kann das Ermitteln des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ aufweisen.
  • Anschaulich kann die aktualisierte multivariate Normalverteilung auf die projizierte multivariate Normalverteilung unter den hierin beschriebenen ein oder mehreren Bedingungen projiziert werden. Anschaulich kann die aktualisierte multivariate Normalverteilung auf die projizierte multivariate Normalverteilung projiziert werden, dass die hierin beschriebenen ein oder mehreren Bedingungen für jeden Zustand der Vielzahl von Zuständen erfüllt sind.
  • Im Folgenden werden drei beispielhafte Projektionsverfahren zum Ermitteln des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ beschrieben:
    1. (I) ein erstes Projektionsverfahren unter Verwendung des Mahalanobis-Abstands und der Frobeniusnorm;
    2. (II) ein zweites Projektionsverfahren unter Verwendung des Wasserstein-Abstands; und
    3. (III) ein drittes Projektionsverfahren unter Verwendung eines numerischen Optimierers.
  • (I) erstes Projektionsverfahren
  • Gemäß verschiedenen Ausführungsformen kann Gleichung (6) des Optimierungsproblems unter Verwendung des Mahalanobis-Abstands und der Frobeniusnorm bezüglich des projizierten Erwartungswertvektors µ̃ und der projizierten Kovarianz Σ̃ gemäß Gleichung (9) beschrieben werden: min μ ˜ , Σ ˜ ( μ μ ˜ ) T old 1 ( μ μ ˜ ) + Σ Σ ˜ F 2
    Figure DE102020211648A1_0010
  • Gemäß verschiedenen Ausführungsformen können der Erwartungswertvektor und die Kovarianz voneinander unabhängig sein. Zum Beispiel können der Erwartungswertvektor und die Kovarianz unabhängig betrachtet werden. Beispielsweise kann die Bedingung gemäß in Gleichung (7) für einen vordefinierten Schwellenwert εµ des Erwartungswertvektors gemäß Gleichung (10) und einen vordefinierten Schwellenwert εΣ der Kovarianz gemäß Gleichung (11) betrachtet werden: ( μ o l d μ ˜ ) T old 1 ( μ o l d μ ˜ ) ε μ
    Figure DE102020211648A1_0011
    Σ o l d Σ ˜ F 2 ε Σ
    Figure DE102020211648A1_0012
  • Anschaulich kann ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik bezüglich des Erwartungswertvektors und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik bezüglich der Kovarianz betrachtet werden. Gemäß verschiedenen Ausführungsformen kann das gemäß Gleichungen (9) bis (11) beschriebene Optimierungsproblem unter Verwendung eines Lagrange-Multiplikatoren-Verfahrens gelöst werden. Zum Beispiel kann die Lagrange-Dualität der Gleichungen (9) bis (11) gemäß der Lagrange-Funktion L ( μ ˜ , Σ ˜ , ω , η )
    Figure DE102020211648A1_0013
    von Gleichung (12) beschrieben werden: L ( μ ˜ , Σ ˜ , ω , η ) = ( μ μ ˜ ) T old 1 ( μ μ ˜ ) + Σ Σ ˜ F 2 + ω ( ( μ μ ˜ ) T old 1 ( μ μ ˜ ) ε μ ) + η ( Σ Σ ˜ F 2 ε Σ )
    Figure DE102020211648A1_0014
    wobei ω und η Lagrange-Multiplikatoren sind.
  • Mittels Lösens von Gleichung (12) ergibt sich der projizierte Erwartungswertvektor gemäß Gleichung (13) und die projizierte Kovarianz gemäß Gleichung (14): μ ˜ = μ + ω μ old 1 + ω
    Figure DE102020211648A1_0015
    Σ ˜ = Σ + η Σ old 1 + η
    Figure DE102020211648A1_0016
    wobei ω gemäß Gleichung (15) und η gemäß Gleichung (16) ermittelt werden können. ω = ( μ old μ ) T old 1 ( μ old μ ) ε μ 1
    Figure DE102020211648A1_0017
    η = Σ o l d Σ ˜ F 2 ε Σ 1
    Figure DE102020211648A1_0018
  • (11) zweites Projektionsverfahren
  • Gemäß verschiedenen Ausführungsformen kann Gleichung (6) des Optimierungsproblems unter Verwendung des Wasserstein-Abstands (z.B. skalierten Wasserstein-Abstands) bezüglich des projizierten Erwartungswertvektors Mund der projizierten Kovarianz ∑̃ gemäß Gleichung (17) beschrieben werden: min μ ˜ , Σ ˜ ( μ μ ˜ ) T old 1 ( μ μ ˜ ) + tr ( old 1 Σ + old 1 Σ ˜ 2 old 1 ( Σ 1 2 Σ ˜ Σ 1 2 ) 1 2 )
    Figure DE102020211648A1_0019
    wobei tr die Spur der Matrix ist.
  • Der Wasserstein-Abstand beinhaltet für zwei Normalverteilungen eine Euklidische Distanz der Erwartungswerte der beiden Normalverteilungen. Multiplizieren mit der anfänglichen Kovarianz Σold und Skalieren des Wasserstein-Abstands führt zu dem Mahalanobis-Abstand (siehe hierzu zum Beispiel Gleichung (17)).
  • Wie hierin beschrieben, können der Erwartungswertvektor und die Kovarianz unabhängig voneinander betrachtet werden. Beispielsweise kann die Bedingung gemäß in Gleichung (7) für den vordefinierten Schwellenwert εµ des Erwartungswertvektors gemäß Gleichung (18) und den vordefinierten Schwellenwert ε der Kovarianz gemäß Gleichung (19) betrachtet werden: ( μ o l d μ ˜ ) T old 1 ( μ o l d μ ˜ ) ε μ
    Figure DE102020211648A1_0020
    tr ( I + old 1 Σ ˜ 2 old 1 ( Σ old 1 2 Σ ˜ Σ old 1 2 ) 1 2 ) ε Σ
    Figure DE102020211648A1_0021
    wobei I
    Figure DE102020211648A1_0022
    die Identitätsmatrix (auch Informationsmatrix genannt) ist.
  • Gemäß verschiedenen Ausführungsformen kann das gemäß Gleichungen (17) bis (19) beschriebene Optimierungsproblem unter Verwendung eines Lagrange-Multiplikatoren-Verfahrens gelöst werden. Für die Lösung bezüglich des projizierten Erwartungswertvektors µ̃ wird auf die Gleichungen (13) und (15) verwiesen.
  • Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem bezüglich der Wurzel der projizierten Kovarianz gelöst werden. Zum Beispiel kann die Lagrange-Dualität der Gleichungen (17) und (19) gemäß der Lagrange-Funktion L ( Σ ˜ 1 2 , η )
    Figure DE102020211648A1_0023
    von Gleichung (20) beschrieben werden. L ( Σ ˜ 1 2 , η ) = tr ( old 1 Σ + Σ ˜ 1 2 old 1 Σ ˜ 1 2 2 Σ 1 2 old 1 Σ ˜ 1 2 ) + η ( tr ( I + Σ ˜ 1 2 old 1 Σ ˜ 1 2 2 old 1 2 Σ ˜ 1 2 ) ε Σ )
    Figure DE102020211648A1_0024
  • Mittels Lösens von Gleichung (20) ergibt sich die projizierte Kovarianz gemäß Gleichung (21): Σ ˜ 1 2 = Σ 1 2 + η Σ old 1 2 1 + η
    Figure DE102020211648A1_0025
    wobei η gemäß Gleichung (22) ermittelt werden kann. η = tr ( I + old 1 Σ 2 old 1 2 Σ 1 2 ) ε Σ 1
    Figure DE102020211648A1_0026
  • Somit können das erste Projektionsverfahren und das zweiten Projektionsverfahren in einer geschlossenen Form gelöst werden (die projizierte multivariate Normalverteilung kann in einer geschlossenen Form ermittelt werden).
  • (III) drittes Projektionsverfahren
  • Gemäß verschiedenen Ausführungsformen kann das Optimierungsproblem gemäß den Gleichungen (6) bis (8) mittels eines numerischen Optimierers gelöst werden.
  • 3 zeigt ein Schema, das ein Ermitteln einer projizierten Strategie π̃ unter Verwendung eines numerischen Optimierers 302 gemäß verschiedenen Ausführungsformen darstellt. Zum Beispiel kann die Steuervorrichtung 106 (z.B. der Computer 110 der Steuervorrichtung 106) eingerichtet sein, den numerischen Optimierer 302 zu implementieren.
  • Eine multivariate Normalverteilung kann mittels des kanonischen Parameters q (auch natürlicher Parameter genannt) und der Kumulanten-erzeugende Funktion Λ beschrieben werden.
  • Der numerische Optimierer 302 kann eingerichtet sein, für einen kanonischen Parameter q und einer Kumulanten-erzeugende Funktion Λ das Optimierungsproblem gemäß den Gleichungen (6) bis (8) zu lösen, indem der numerische Optimierer 302 für den kanonischen Parameter q und die Kumulanten-erzeugende Funktion Λ einen ersten optimierten Lagrange-Multiplikator η* und einen zweiten optimierten Lagrange-Multiplikator ω* ermittelt. Zum Beispiel kann der numerische Optimierer 302 den ersten optimierten Lagrange-Multiplikator η* und den zweiten optimierten Lagrange-Multiplikator ω* unter Verwendung der KL-Divergenz ermitteln.
  • Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 für die aktualisierte Kovarianz ∑ 304 die aktualisierte Kumulanten-erzeugende Funktion Λ 306 gemäß Λ = Σ-1 ermitteln. Zum Beispiel kann die Steuervorrichtung 106 für den aktualisierten Erwartungswertvektor µ 308 und die aktualisierte Kumulanten-erzeugende Funktion Λ 306 den aktualisierten kanonischen Parameter q 310 gemäß q = Λµ ermitteln.
  • Der numerische Optimierer 302 kann eingerichtet sein, unter Verwendung der aktualisierten Kumulanten-erzeugende Funktion Λ 306 und des aktualisierten kanonischen Parameters q 310 den ersten optimierten Lagrange-Multiplikator η* und den zweiten optimierten Lagrange-Multiplikator ω* zu ermitteln. Der numerische Optimierer 302 kann eingerichtet sein, unter Verwendung der aktualisierten Kumulanten-erzeugende Funktion Λ 306, des aktualisierten kanonischen Parameters q 310, eines ersten Lagrange-Multiplikators η 312 und eines zweiten Lagrange-Multiplikators ω 314 den ersten optimierten Lagrange-Multiplikator η* 316 und den zweiten optimierten Lagrange-Multiplikator ω* 318 zu ermitteln. Zum Beispiel können der erste Lagrange-Multiplikator η 312 und/oder der zweite Lagrange-Multiplikators W 314 vordefiniert (z.B. gesetzt) sein. Zum Beispiel kann der numerische Optimierer 302 eingerichtet sein, den ersten Lagrange-Multiplikator η 312 und/oder den zweiten Lagrange-Multiplikators ω 314 zu ermitteln.
  • Die anfängliche Kumulanten-erzeugende Funktion Λold kann unter Verwendung der anfänglichen Kovarianz Σold (z.B. basierend auf Λ = Σ-1) ermittelt werden. Der anfängliche kanonische Parameter qold kann unter Verwendung der anfänglichen Kumulanten-erzeugenden Funktion und des anfänglichen Erwartungswertvektors (z.B. basierend auf q = Λµ) ermittelt werden.
  • Der projizierte kanonische Parameter q̃ 320 kann gemäß Gleichung (23) ermittelt werden: q ˜ = η * q old + q η * + ω * + 1
    Figure DE102020211648A1_0027
  • Die projizierte Kumulanten-erzeugende Funktion Λ̃ 322 kann gemäß Gleichung (24) ermittelt werden: Λ ˜ = η * Λ old + Λ η * + ω * + 1
    Figure DE102020211648A1_0028
  • Der projizierte Kovarianz Σ̃ 324 kann unter Verwendung der projizierte Kumulanten-erzeugende Funktion Λ̃ 322 (z.B. basierend auf Λ = Σ-1) ermittelt werden. Der projizierte Erwartungswertvektor µ̃ kann unter Verwendung des projizierten kanonischen Parameters q̃ 320 und der projizierte Kumulanten-erzeugende Funktion Λ̃ 322 (z.B. basierend auf q = Λµ) ermittelt werden.
  • Es wird darauf hingewiesen, dass das Projizieren der aktualisierten Strategie πθ auf die projizierte Strategie π̃ auch mittels anderer als der hierin beschriebenen drei beispielhaften Projektionsverfahren erfolgen kann.
  • Gemäß verschiedenen Ausführungsformen ist die projizierte Strategie eine optimierte Strategie und mittels der projizierten Strategie kann eine optimale Abfolge (z.B. Sequenz) von Zuständen der Robotervorrichtung 101 und ausgeführten und/oder durchgeführten Aktionen der Robotervorrichtung 101 ermittelt und von der Robotervorrichtung 101 durchgeführt werden.
  • Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein neuronales Netzwerk aufweisen oder sein. Das Projizieren der aktualisierten Strategie πθ auf die projizierte Strategie π̃ kann als ein oder mehrere Schichten in dem neuronalen Netzwerk implementiert sein. Zum Beispiel kann das Projizieren der aktualisierten Strategie πθ auf die projizierte Strategie π̃ als ein oder mehrere differenzierbare Schichten in dem neuronalen Netzwerk implementiert sein. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten derart eingerichtet sein, dass die hierin beschriebene Projektion durchgeführt wird, falls eine der Bedingungen für die aktualisierte Strategie nicht erfüllt ist.
  • Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 eingerichtet sein, das Roboter-Steuerungsmodell 112 zur Implementierung der projizierten Strategie π̃ anzupassen (z.B. zu adaptieren).
  • Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell 112 ein neuronales Netzwerk aufweisen und das Anpassen des Roboter-Steuerungsmodells 112 kann ein Trainieren des neuronalen Netzwerks sein. Zum Beispiel kann das neuronale Netzwerk unter Verwendung eines Gradientenverfahrens (z.B. eines Strategie-Gradientenverfahrens) trainiert werden. Gemäß verschiedenen Ausführungsformen können unter Verwendung der projizierten Strategie π̃ und der anfänglichen Strategie πθold ein oder mehrere Gradienten ermittelt werden. Anschaulich kann das Anpassen des neuronalen Netzwerks unter Verwendung der projizierten Strategie π̃ eine Iteration des Trainierens des neuronalen Netzwerks sein. Gemäß verschiedenen Ausführungsformen können mehrere Iterationen durchgeführt werden. Zum Beispiel kann das hierin beschriebene Verfahren zum Anpassen des Roboter-Steuerungsmodell 112 mehrmals durchgeführt werden.
  • Zum Beispiel kann das neuronale Netzwerk des Roboter-Steuerungsmodells 112 mittels des Gradientenverfahrens unter Verwendung der ermittelten ein oder mehreren Gradienten angepasst (z.B. trainiert) werden.
  • Das erste Projektionsverfahren und das zweite Projektionsverfahren können in geschlossener Form gelöst werden. Hierbei können die ein oder mehreren Gradienten direkt ermittelt werden. Für das dritte Projektionsverfahren können die ein oder mehreren Gradienten unter Verwendung des von Amos und Kolter beschriebenen OptNet-Verfahrens ermittelt werden. Dabei kann eine Schicht des neuronalen Netzwerks das folgende Lagrange-Dualität lösen: min η , ω g ( η , ω ) = η ε ω β + η ( 1 2 q old T Λ old 1 q old + 1 2 log det ( Λ old ) k 2 log ( 2 π ) ) + ( η + 1 + ω ) ( 1 2 q T Λ 1 q 1 2 log det ( Λ ) + k 2 log ( 2 π ) ) s . t . η 0, ω 0
    Figure DE102020211648A1_0029
  • Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Gradienten mittels Ableitens der entsprechenden Karush-Kuhn-Tucker-(KKT)-Bedingungen ermittelt (z.B. berechnet) werden.
  • Die stationäre KKT-Bedingung kann beispielsweise mittels Gleichung (25) beschrieben werden: g ( η * , ω * ) + ( λ 1 λ 2 ) ( η * ω * ) = ( ε KL ( q ( x ) q old ( x ) ) λ 1 H ( q ( x ) ) β λ 2 ) = 0
    Figure DE102020211648A1_0030
    wobei λ1 ein erster KKT-Multiplikator und λ2 ein zweiter KKT-Multiplikator ist.
  • Die komplementäre Schlupfbedingung (engl.: complementary slackness) der KKT kann beispielsweise mittels Gleichung (26) beschrieben werden: λ 1 ( η * ) = 0 λ 2 ( ω * ) = 0
    Figure DE102020211648A1_0031
  • Gemäß verschiedenen Ausführungsformen können durch das Ableiten der Karush-Kuhn-Tucker-(KKT)-Bedingungen die ein oder mehreren Gradienten ermittelt werden. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks derart eingerichtet sein, dass die Projektion durchgeführt wird, falls eine der hierin beschriebenen Bedingungen (z.B. die Bedingung gemäß Gleichung (3), z.B. die Bedingung gemäß Gleichung (4)) für die aktualisierte Strategie πθ nicht erfüllt ist. Zum Beispiel können die ein oder mehreren Gradienten für die folgenden Konstellationen ermittelt werden:
    • - Die Bedingung gemäß Gleichung (3) und die Bedingung gemäß Gleichung (4) sind erfüllt. Anschaulich kann in diesem Fall die aktualisierte Strategie für das Gradientenverfahren verwendet werden. Zum Beispiel ist ein Projizieren der Strategie und/oder ein Berechnen der Gradienten mittels der ein oder mehreren Schichten des neuronalen Netzwerks nicht erforderlich,
    • - Die Bedingung gemäß Gleichung (3) ist erfüllt und die Bedingung gemäß Gleichung (4) ist nicht erfüllt,
    • - Die Bedingung gemäß Gleichung (3) ist nicht erfüllt und die Bedingung gemäß Gleichung (4) ist erfüllt,
    • - Die Bedingung gemäß Gleichung (3) und die Bedingung gemäß Gleichung (4) sind nicht erfüllt.
  • Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks, wenn mindestens eine der Bedingungen nicht erfüllt ist, die Strategie wie hierin beschrieben projizieren. Gemäß verschiedenen Ausführungsformen können die ein oder mehreren Schichten des neuronalen Netzwerks, wenn mindestens eine der Bedingungen nicht erfüllt ist und wenn das dritte Projektionsverfahren verwendet wird, die ein oder mehreren Gradienten ermitteln.
  • Anschaulich kann eines der drei Projektionsverfahren als ein oder mehrere differenzierbare Schichten in einem neuronalen Netzwerk implementiert sein, so dass das neuronale Netzwerk derart Ende-zu-Ende trainiert werden kann, dass die ein oder mehreren Bedingungen (z.B. die Bedingung des Vertrauensbereiches) während des Trainierens für jeden Zustand der Vielzahl von Zuständen sichergestellt (z.B. erfüllt) wird.
  • Gemäß verschiedenen Ausführungsformen kann Steuervorrichtung 106 eingerichtet sein, die Robotervorrichtung 101 unter Verwendung des angepassten Roboter-Steuerungsmodells 112 zu steuern.
  • Die Steuervorrichtung 106 kann eingerichtet sein, den derzeitigen Zustand der Robotervorrichtung 101 zu ermitteln. Die Steuervorrichtung 106 kann eingerichtet sein, mittels des angepassten Roboter-Steuerungsmodells 112 unter Verwendung der projizierten Strategie eine durchzuführende Aktion für den derzeitigen Zustand zu ermitteln. Die durchzuführende Aktion kann zum Beispiel die durch die projizierte multivariate Normalverteilung beschriebene Aktion der Vielzahl von Aktionen mit der höchsten Wahrscheinlichkeit (z.B. die Aktion, die dem Erwartungswert des derzeitigen Zustands zugeordnet ist) sein. Die Steuervorrichtung 106 kann eingerichtet sein, die Robotervorrichtung 101 entsprechend der durchzuführenden Aktion zu steuern, so dass die Robotervorrichtung 101 die Aktion ausführt und/oder durchführt. Gemäß verschiedenen Ausführungsformen kann die Robotervorrichtung 101 unter Verwendung des angepassten Roboter-Steuerungsmodells 112 eine oder mehrere Aktionen durchführen.
  • Gemäß verschiedenen Ausführungsformen kann die Steuervorrichtung 106 die Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen aktualisieren. Hierbei kann, wie hierin beschrieben, eine aktualisierte Strategie und unter Verwendung der aktualisierten Strategie eine projizierte Strategie ermittelt werden. Gemäß verschiedenen Ausführungsformen kann beispielsweise bei der Inferenz des Roboter-Steuerungsmodells 112 (z.B. des neuronalen Netzwerks) das Optimierungsproblem gemäß Gleichung (27) gelöst werden. min θ d ( π ˜ , π θ )
    Figure DE102020211648A1_0032
  • Hierbei kann das Roboter-Steuerungsmodell 112 mittels einer Regression (z.B. ein oder mehrere Regressionsschritte aufweisend) unter Verwendung der durchgeführten ein oder mehreren Aktionen angepasst werden.
  • Gemäß verschiedenen Ausführungsformen kann die projizierte Strategie gemäß der in Gleichung (28) gegebenen Zielfunktion ermittelt werden. Hierbei kann die projizierte Strategie derart ermittelt werden, dass eine Differenz aus der erwarteten Belohnung (siehe zum Beispiel Gleichung (2)) und dem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird. Der Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie kann zum Beispiel durch den Abstand zwischen der projizierten Strategie und der aktualisierten Strategie d(π̃(at|st),πθ(at|st)) ermittelt werden. Der Abstand zwischen der projizierten Strategie und der aktualisierten Strategie kann zum Beispiel unter Verwendung der hierin beschriebenen drei Projektionsverfahren ermittelt werden. max θ E ( s t , a t ) π θ o l d [ π ˜ ( a t | s t , π θ ) π θ o l d ( a t | s t ) A π ( a t , s t ) ] d ( π ˜ ( a t | s t ) , π θ ( a t | s t ) )
    Figure DE102020211648A1_0033
  • 4 zeigt ein Verfahren 400 zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.
  • Das Verfahren 400 kann ein Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells aufweisen (in 402). Das Durchführen einer jeden Aktion der Abfolge von Aktionen kann aufweisen: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodell unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung. Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell ein bestärkendes-Lernen-basiertes Modell (z.B. ein bestärkendes-Lernen-basiertes neuronales Netzwerk) sein.
  • Das Verfahren 400 kann ein Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen aufweisen (in 404).
  • Das Verfahren 400 kann ein Projizieren der aktualisierten Strategie auf eine projizierte Strategie aufweisen (in 406). Das Projizieren der aktualisierten Strategie auf eine projizierte Strategie kann derart erfolgen, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist. Das Projizieren der aktualisierten Strategie auf eine projizierte Strategie kann derart erfolgen, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist.
  • Das Verfahren 400 kann ein Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie aufweisen (in 408).
  • Das Verfahren 400 kann ein Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweisen (in 410).
  • 5 zeigt ein Verfahren 500 zum Steuern einer Robotervorrichtung gemäß verschiedenen Ausführungsformen.
  • Das Verfahren 500 kann ein Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells aufweisen (in 502). Das Durchführen einer jeden Aktion der Abfolge von Aktionen kann aufweisen: Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodell unter Verwendung einer anfänglichen Strategie, Durchführen der ermittelten Aktion durch die Robotervorrichtung, und Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung. Gemäß verschiedenen Ausführungsformen kann das Roboter-Steuerungsmodell ein bestärkendes-Lernen-basiertes Modell (z.B. ein bestärkendes-Lernen-basiertes neuronales Netzwerk) sein.
  • Das Verfahren 500 kann ein Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen aufweisen (in 504).
  • Das Verfahren 500 kann ein Ermitteln einer projizierten Strategie aufweisen, so dass eine Differenz aus einer für die projizierte Strategie erwarteten Belohnung und einem Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen jedem Zustand der Vielzahl von Zuständen der projizierten Strategie und der aktualisierten Strategie erhöht (z.B. maximiert) wird (in 506).
  • Das Verfahren 500 kann ein Steuern der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung der projizierten Strategie aufweisen (in 508).
  • Gemäß verschiedenen Ausführungsformen kann das Verfahren 500 ein Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie und ein Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweisen.

Claims (15)

  1. Verfahren zum Steuern einer Robotervorrichtung, aufweisend: • Durchführen einer Abfolge von Aktionen durch die Robotervorrichtung unter Verwendung eines Roboter-Steuerungsmodells, wobei das Durchführen einer jeden Aktion der Abfolge von Aktionen aufweist: ◯ Ermitteln einer Aktion für einen derzeitigen Zustand einer Vielzahl von Zuständen der Robotervorrichtung mittels des Roboter-Steuerungsmodells unter Verwendung einer anfänglichen Strategie, ◯ Durchführen der ermittelten Aktion durch die Robotervorrichtung, und ◯ Ermitteln des aus der durchgeführten Aktion resultierenden Zustands der Robotervorrichtung; • Ermitteln einer aktualisierten Strategie unter Verwendung der durchgeführten Abfolge von Aktionen; • Projizieren der aktualisierten Strategie auf eine projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß einer Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als ein vordefinierter Schwellenwert ist, • Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie; und • Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells.
  2. Verfahren gemäß Anspruch 1, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird, ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der anfänglichen Strategie größer als der vordefinierte Schwellenwert ist, und ◯ eine Entropie der projizierten Strategie größer als oder gleich einem vordefinierten Entropie-Schwellenwert ist.
  3. Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die anfängliche Strategie eine anfängliche multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei die aktualisierte Strategie eine aktualisierte multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei die projizierte Strategie eine projizierte multivariate Normalverteilung der Vielzahl von Aktionen aufweist; wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist.
  4. Verfahren gemäß den Ansprüchen 2 und 3, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie aufweist: • Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie: ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ◯ ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, und ◯ eine Entropie der projizierten multivariaten Normalverteilung größer als oder gleich dem vordefinierten Entropie-Schwellenwert ist.
  5. Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Mahalanobis-Abstands und der Frobeniusnorm.
  6. Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels des Wasserstein-Abstands.
  7. Verfahren gemäß einem der Ansprüche 3 oder 4, wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie derart, dass für jeden Zustand der Vielzahl von Zuständen der projizierten Strategie ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der aktualisierten multivariaten Normalverteilung maximiert wird, und ein Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten multivariaten Normalverteilung und der anfänglichen multivariaten Normalverteilung größer als der vordefinierte Schwellenwert ist, aufweist: • Ermitteln der projizierten multivariaten Normalverteilung unter Verwendung der anfänglichen multivariaten Normalverteilung, der aktualisierten multivariaten Normalverteilung und des vordefinierten Schwellenwerts mittels eines numerischen Optimierers.
  8. Verfahren gemäß Anspruch 7, wobei der numerische Optimierer die projizierte multivariate Normalverteilung unter Verwendung der Kullback-Leibler-Divergenz ermittelt.
  9. Verfahren gemäß einem der Ansprüche 5 bis 8, wobei das Ermitteln der projizierten multivariaten Normalverteilung ein Lagrange-Multiplikatoren-Verfahren aufweist.
  10. Verfahren gemäß einem der Ansprüche 1 bis 10, wobei das Roboter-Steuerungsmodell ein neuronales Netzwerk ist; und wobei das Projizieren der aktualisierten Strategie auf die projizierte Strategie als ein oder mehrere Schichten in dem neuronalen Netzwerk implementiert ist.
  11. Verfahren gemäß einem der Ansprüche 1 bis 10, wobei das Anpassen des Roboter-Steuerungsmodells zur Implementierung der projizierten Strategie ein Anpassen des Roboter-Steuerungsmodells mittels eines Gradientenverfahrens aufweist.
  12. Verfahren gemäß einem der Ansprüche 1 bis 11, wobei das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweist: • Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; • Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen mittels einer Regression.
  13. Verfahren gemäß einem der Ansprüche 1 bis 11, wobei das Steuern der Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells aufweist: • Durchführen ein oder mehrerer Aktionen durch die Robotervorrichtung unter Verwendung des angepassten Roboter-Steuerungsmodells; • Aktualisieren der Strategie unter Verwendung der durchgeführten ein oder mehreren Aktionen derart, dass eine Differenz aus einer erwarteten Belohnung und einem Ähnlichkeitswert gemäß der Ähnlichkeitsmetrik zwischen der projizierten Strategie und der aktualisierten Strategie maximiert wird.
  14. Vorrichtung, die eingerichtet ist, das Verfahren gemäß einem der Ansprüche 1 bis 13 auszuführen.
  15. Nichtflüchtiges Speichermedium, das Programminstruktionen speichert, welche, falls sie ausgeführt werden, das Verfahren gemäß einem der Ansprüche 1 bis 13 ausführen.
DE102020211648.2A 2020-09-17 2020-09-17 Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung Pending DE102020211648A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102020211648.2A DE102020211648A1 (de) 2020-09-17 2020-09-17 Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
US17/447,553 US20220080586A1 (en) 2020-09-17 2021-09-13 Device and method for controlling a robotic device
CN202111086090.7A CN114193443A (zh) 2020-09-17 2021-09-16 用于控制机器人设备的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020211648.2A DE102020211648A1 (de) 2020-09-17 2020-09-17 Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung

Publications (1)

Publication Number Publication Date
DE102020211648A1 true DE102020211648A1 (de) 2022-03-17

Family

ID=80351428

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020211648.2A Pending DE102020211648A1 (de) 2020-09-17 2020-09-17 Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung

Country Status (3)

Country Link
US (1) US20220080586A1 (de)
CN (1) CN114193443A (de)
DE (1) DE102020211648A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022203410A1 (de) 2022-04-06 2023-10-12 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823062B1 (en) * 2023-03-21 2023-11-21 Tsinghua University Unsupervised reinforcement learning method and apparatus based on Wasserstein distance

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319738A (en) 1990-07-25 1994-06-07 Kabushiki Kaisha Toshiba Neural network device
DE4440859C2 (de) 1994-11-15 1998-08-06 Alexander Kaske Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters
US20060184491A1 (en) 2005-01-28 2006-08-17 Rakesh Gupta Responding to situations using knowledge representation and inference
US8019713B2 (en) 2005-07-08 2011-09-13 Honda Motor Co., Ltd. Commonsense reasoning about task instructions
DE112010000775B4 (de) 2009-02-12 2016-03-17 Kyoto University Industrierobotersystem
US9707680B1 (en) 2015-05-28 2017-07-18 X Development Llc Suggesting, selecting, and applying task-level movement parameters to implementation of robot motion primitives
DE102017201949A1 (de) 2017-02-08 2018-08-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System zur Steuerung mindestens eines Betriebsmittels zur Herstellung und/oder Montage von Werkstücken
US20200130177A1 (en) 2018-10-29 2020-04-30 Hrl Laboratories, Llc Systems and methods for few-shot transfer learning
DE102019131385A1 (de) 2018-11-21 2020-05-28 Ford Global Technologies, Llc Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
US10751879B2 (en) 2017-06-05 2020-08-25 Autodesk, Inc. Adapting simulation data to real-world conditions encountered by physical processes

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9358685B2 (en) * 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US10786900B1 (en) * 2018-09-27 2020-09-29 Deepmind Technologies Limited Robot control policy determination through constrained optimization for smooth continuous control

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319738A (en) 1990-07-25 1994-06-07 Kabushiki Kaisha Toshiba Neural network device
DE4440859C2 (de) 1994-11-15 1998-08-06 Alexander Kaske Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters
US20060184491A1 (en) 2005-01-28 2006-08-17 Rakesh Gupta Responding to situations using knowledge representation and inference
US8019713B2 (en) 2005-07-08 2011-09-13 Honda Motor Co., Ltd. Commonsense reasoning about task instructions
DE112010000775B4 (de) 2009-02-12 2016-03-17 Kyoto University Industrierobotersystem
US9707680B1 (en) 2015-05-28 2017-07-18 X Development Llc Suggesting, selecting, and applying task-level movement parameters to implementation of robot motion primitives
DE102017201949A1 (de) 2017-02-08 2018-08-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System zur Steuerung mindestens eines Betriebsmittels zur Herstellung und/oder Montage von Werkstücken
US10751879B2 (en) 2017-06-05 2020-08-25 Autodesk, Inc. Adapting simulation data to real-world conditions encountered by physical processes
US20200130177A1 (en) 2018-10-29 2020-04-30 Hrl Laboratories, Llc Systems and methods for few-shot transfer learning
DE102019131385A1 (de) 2018-11-21 2020-05-28 Ford Global Technologies, Llc Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ABDOLMALEKI, Abbas [u.a.]: Model-based relative entropy stochastic search. In: Advances in neural information processing systems 28 : 29th Annual Conference on Neural Information Processing Systems 2015 : Montreal, Canada, 7-12 December 2015, S. 1-9. URL: http://papers.nips.cc/paper/5672-model-based-relative-entropy-stochastic-search.pdf [abgerufen am 2020-10-16]
AKROUR, Riad [u.a.]: Projections for approximate policy iteration algorithms. In: Proceedings of Machine Learning Research; 36th International Conference on Machine Learning, 9-15 June 2019, Vol. 97, 10 S. URL: http://proceedings.mlr.press/v97/akrour19a/akrour19a.pdf [abgerufen am 2020-10-19]
AMOS, Brandon ; KOLTER, J. Zico: OptNet: Differentiable optimization as a layer in neural networks. In: Proceedings of Machine Learning Research; 34th International Conference on Machine Learning, 06-11. August 2017, Vol. 70, 10 S. URL: http://proceedings.mlr.press/v70/amos17a/amos17a.pdf [abgerufen am 2020-10-19]
SCHULMAN, John [u.a.]: Trust region policy optimization. In: Proceedings of Machine Learning Research, International Conference on Machine Learning, 7-9 July 2015. Vol. 37, S. 1-9. URL: http://proceedings.mlr.press/v37/schulman15.html [abgerufen am 15.04.2020]

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022203410A1 (de) 2022-04-06 2023-10-12 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung

Also Published As

Publication number Publication date
US20220080586A1 (en) 2022-03-17
CN114193443A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
DE112019002310B4 (de) Ausführen einer "peg in hole"-aufgabe mit unbekannter neigung
DE102019001948B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102018004330B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102008020379A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102018109835A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes
DE102019208262A1 (de) Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
DE102019131385A1 (de) Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE102020207085A1 (de) Verfahren zum steuern eines roboters und robotersteuereinheit
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020214231A1 (de) Verfahren zum steuern einer robotervorrichtung und robotersteuereinrichtung
DE102019002644A1 (de) Steuerung und Steuerverfahren
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
DE102019216232A1 (de) Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE102020212658A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020206916A1 (de) Steuereinrichtung und Verfahren zum Auswählen von Auswertungspunkten für ein Bayessches Optimierungsverfahren
EP3748556A1 (de) Verfahren und vorrichtung zum ermitteln einer regelungsstrategie für ein techni-sches system
WO2020245218A1 (de) Verfahren und vorrichtung zum ermitteln einer regelungsstrategie für ein technisches system
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
WO2019206776A1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102018216561A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
DE102019201045B4 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Aktion oder Trajektorie eines Roboters
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
DE112019007488T5 (de) Verfahren und Vorrichtung zur Vereinfachung einer Trajektorie eines industriellen Roboters, Computerspeichermedium sowie Arbeitsplattform für industriellen Roboter
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication