DE202019103862U1 - Vorrichtung zum Erstellen einer Strategie für einen Roboter - Google Patents

Vorrichtung zum Erstellen einer Strategie für einen Roboter Download PDF

Info

Publication number
DE202019103862U1
DE202019103862U1 DE202019103862.4U DE202019103862U DE202019103862U1 DE 202019103862 U1 DE202019103862 U1 DE 202019103862U1 DE 202019103862 U DE202019103862 U DE 202019103862U DE 202019103862 U1 DE202019103862 U1 DE 202019103862U1
Authority
DE
Germany
Prior art keywords
strategy
computer
instructions
agent
episode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202019103862.4U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Albert Ludwigs Universitaet Freiburg
Original Assignee
Robert Bosch GmbH
Albert Ludwigs Universitaet Freiburg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH, Albert Ludwigs Universitaet Freiburg filed Critical Robert Bosch GmbH
Priority to DE202019103862.4U priority Critical patent/DE202019103862U1/de
Publication of DE202019103862U1 publication Critical patent/DE202019103862U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

Vorrichtung zum Erstellen einer Strategie (engl. policy) für einen Agenten, sodass dann, wenn der Agent, insbesondere ein Roboter (10), situativ anhand der Strategie Aktionen (a) ausführt, ein vorgebbares Ziel erreicht wird, wobei die Vorrichtung ein maschinenlesbares Speicherelement umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren mit den folgenden Schritten ausführt:
Initialisieren der Strategie θ0 und einer Episodenlänge (engl. episode length) E;
Mehrfaches Ausführen einer Schleife mit den Schritten:
Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ0;
Anwenden der Mehrzahl der weiteren Strategien für jeweils zumindest eine Episode mit der Episodenlänge E;
Ermitteln jeweils einer Gesamtbelohnung (engl. cumulative reward) si, die beim Anwenden der jeweiligen weiteren Strategie erzielt wird;
Aktualisieren der Strategie θ0 abhängig von einer vorgebbaren Anzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben;
dadurch gekennzeichnet, dass nach jedem Ausführen der Schleife die Episodenlänge E vergrößert wird.

Description

  • Technisches Gebiet
  • Die Erfindung betrifft eine Vorrichtung zum Erstellen einer Strategie, sodass dann, wenn ein Roboter situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht wird.
  • Stand der Technik
  • Die Autoren Chrabaszcz et al offenbaren in ihrer Veröffentlichung „Back to basics: Benchmarking canonical evolution strategies for playing atari.“ arXiv preprint arXiv:1802.08842 (2018) eine Entwicklungsstrategie (engl. Evolution Strategy, ES) als eine Alternative zu bestärkendem Lernen (engl. reinfocement learning).
  • Vorteile der Erfindung
  • Es wurde beobachtet, dass manche Strategien Agenten, insbesondere Roboter, befähigen, komplexe Aufgaben lösen können, jedoch bei einfachen Teilaufgaben versagen. Dass Roboter durchweg zuverlässig gesteuert werden, soll im Folgenden ein Verfahren vorgestellt werden, welches es ermöglicht auf eine einfache Weise eine Strategie zu erstellen, die für eine zuverlässige Steuerung von Robotern eingesetzt werden kann. Ferner lässt sich die Strategie einfach für komplexe Aufgaben erweitern.
  • Offenbarung der Erfindung
  • In einem ersten Aspekt wird ein, insbesondere computerimplementiertes, Verfahren zum Erstellen einer Strategie (engl. policy) vorgeschlagen, sodass dann, wenn ein Agent, insbesondere Roboter, situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht oder eine Aufgabe erledigt wird. Das Verfahren beginnt mit einem Initialisieren der Strategie θ0 und einer Episodenlänge (engl. episode length E). Daraufhin folgt ein mehrfaches Ausführen einer Schleife, zweckgemäß eine (Computer-)Programmschleife, mit den nachfolgend erläuterten Schritten. Eine Schleife ist eine Kontrollstruktur in einer Programmiersprache, die einen Anweisungsblock solange wiederholt, wie eine Schleifenbedingung gültig bleibt bzw. bis eine Abbruchbedingung erfüllt ist.
  • Die Schleife beginnt mit einem Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ0 . Die weiteren Strategien können durch ein beaufschlagen der Strategie mit einer zufällig gezogenen Größe erstellt werden. Daraufhin folgt ein Anwenden der Mehrzahl der weiteren Strategien für jeweils zumindest eine Episode mit der Episodenlänge E. Falls die Strategie oder die Umgebung des Agenten probabilistische Eigenschaften hat, dann können die weiteren Strategien für mehrere Episoden angewendet werden. Daraufhin folgt ein Ermitteln jeweils einer Gesamtbelohnung (engl. cumulative reward) FE , die beim Anwenden der jeweilgen weiteren Strategie erzielt wird und ein Aktualisieren der Strategie θ0 abhängig von einer zweiten Mehrzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben. Die zweite Mehrzahl ist eine vorgebbare Anzahl, wobei die vorgebbare Anzahl kleiner als die Anzahl aller weiteren Strategien ist. Nach jedem Ausführen aller Schritte der Schleife wird die Episodenlänge E vergrößert.
  • Unter Anwenden der Strategie kann verstanden werden, dass diese durch einen Agenten, insbesondere den Roboter, verwendet wird, der abhängig von der Strategie Aktionen ausführt, z.B. um seine Umgebung zu erkunden, oder sein Ziel zu erreichen. Beim Anwenden der Strategie wird abhängig von einem aktuellen Zustand der Umgebung des Agenten eine Aktion des Agenten anhand der Strategie ermittelt.
  • Beim Ausführen der Aktion durch den Agenten führt dies zu einer Veränderung der Umgebung. Diese Veränderung kann mit einer Belohnung verknüpft sein. Alternativ oder zusätzlich kann die Belohnung abhängig von der Aktion sein. Die Gesamtbelohnung ist dann die Summe über die Belohnungen aller Aktionen innerhalb einer Episode. Die Episode ist eine Folge von Aktionen und die Episodenlänge ist eine Anzahl der Aktionen dieser Episode.
  • Der Vorteil ist, dass zu erste gelernt wird, kurze und einfache Aufgaben zu lösen, woraus erstes Wissen für die Strategie bestimmt wird. Dann wird dieses Wissen verwendet, um bei steigender Episodenlänge anspruchsvollere Aufgaben zu lösen. Dadurch wird ferner ein Transfer des Wissens über das Lösen von leichten Aufgaben für komplexere Aufgaben erreicht. Ein weiterer Vorteil ist, dass durch das Fokussieren auf einfachere und kürzere Aufgaben zu Beginn des Verfahrens, eine stabilere und schnellere Optimierung der Strategie erzielt wird. Durch die zu Beginn verkürzten Episoden wird auch nur ein Ausschnitt der Umgebung exploriert. Dies erlaubt ein Erlernen einer simplen Strategie, welche auch auf die gesamte Umgebung erfolgsversprechend angewendet werden kann. Dies resultiert schlussendlich in einer besseren Generalisierung der Strategie. Ferner können durch die verkürzten Episoden mehrere Strategien innerhalb eines vorgebbaren Zeitbudget ausgewertet werden, wodurch schneller gelernt werden kann.
  • Es wird vorgeschlagen, dass die Episodenlänge E inital auf einen Wert kleiner als die erwartete Anzahl von Aktionen zum Erreichen des vorgebbaren Ziels gesetzt wird. Die Episodenlänge E kann ferner auf einen Wert gesetzt werden, sodass zum ersten Mal eine Belohnung empfangen werden kann oder ein Teilziel erreicht werden kann. Denkbar ist auch, dass die Anzahl von Aktionen abhängig von der max. erreichbaren Belohnung (engl. reward), und insbesondere von den einzelnen erreichbaren Belohnungen durch die Aktionen, gesetzt wird. Vorzugsweise wird die erwartete Anzahl von Aktionen durch eine vorgebbare Konstante dividiert, wodurch ein aggressiveres Erkunden eingestellt werden kann.
  • Weiterhin wird vorgeschlagen, dass die erwartete Anzahl der Aktionen durch eine Monte-Carlo Simulation ermittelt wird. Unter einer Monte Carlo Simulation ist zu verstehen, dass der Agent, jeweils anhand von mehreren zufällig initialisierten Strategien gesteuert wird. Es kann dann abhängig vom Erreichen des Ziels und/oder abhängig des Fortschrittes des Agenten und/oder abhängig von der dann erzielten Gesamtbelohnung die Episodenlänge ausgewählt werden.
  • Weiterhin wird vorgeschlagen, dass zusätzlich ein Zeitbudget (engl. time budget T) initalisiert wird. Die Schleifeniterationen werden nur solange berechnet, wie verbleibende Zeit des Zeitbudgets T vorhanden ist. Das Zeitbudget T kann entweder konstant über alle Schleifendurchgänge sein oder kann nach jedem Schleifendurchlauf vergrößert, insbesondere verdoppelt, werden. Das Zeitbudget ist die Zeit, die zur Verfügung steht, die weiteren Strategien anzuwenden und die initialisierte Strategie zu aktualisieren. Das Zeitbudget ist also eine mögliche Abbruchbedingung der Schleife. Das Zeitbudget ist eine physikalische Zeit, die z.B. durch eine Stoppuhr gemessen werden kann. Zusätzlich oder alternativ kann das Zeitbudget mittels eines Zeitgebers (engl. Timer), der vorzugsweise in einer Recheneinheit integriert ist, auf welcher das Verfahren ausgeführt wird, vorgegeben werden.
  • Weiterhin wird vorgeschlagen, dass mittels eines Sensors der aktuelle Zustand des Roboters und/oder ein aktueller Zustand der Umgebung des Roboters erfasst und abhängig von dem Sensorwert mittels der erstellten Strategie eine Steuergröße für den Roboter ermittelt wird.
  • Es sei angemerkt, dass die Strategie nicht nur zum Steuern des Roboters, sondern auch zum Steuern einer zumindest teilautonomen Maschine, eines zumindest teilautonomen Fahrzeuges, eines Werkzeuges, einer Werkmaschine oder eines Flugobjektes wie einer Drohne erstellt und verwendet werden kann.
  • In einem weiteren Aspekt der Erfindung wird eine Verwendung eines trainierten neuronalen Netzes vorgeschlagen, um abhängig von einem ermittelten Ausgangssignal eines neuronalen Netzes ein Ansteuersignal zur Ansteuerung für den Roboter bereitzustellen, wobei die erstellte Strategie nach dem ersten Aspekt durch das neuronale Netz implementiert ist. Das Ausgangssignal entspricht der Aktion, die die erstellte Strategie ermittelt. Vorzugsweise charakterisiert die erstellte Strategie die Parametrisierung des neuronalen Netzes.
  • In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen.
  • Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
  • Figurenliste
    • 1 eine schematische Darstellung eines Roboters;
    • 2 eine schematische Darstellung eines ersten Pseudocodes;
    • 3 eine schematische Darstellung eines zweiten Pseudocodes;
    • 4 eine schematische Darstellung einer Vorrichtung zum Ausführen der Pseudocodes.
  • 1 zeigt eine schematische Darstellung eines Roboters (10). Der Roboter (10) ist eingerichtet, selbständig durch Explorieren, zweckgemäß durch Interagieren mit, seiner Umwelt (11) eine Strategie (engl. policy) zu erlernen. Abhängig von der Strategie und einer erfassten Sensorgröße (x) ermittelt ein Entscheidungsmodul (14), umfassend die Strategie, eine optimale Aktion (a). In einem Ausführungsbeispiel ist die Strategie in Form von Parametern (θ) eines neuronalen Netzes in einem Speicher P hinterlegt. Das Entscheidungsmodul (14) umfasst dieses neuronale Netz, welches die Aktion (a) abhängig von der erfassten Sensorgröße (x) ermittelt. Die Architektur dieses neuronalen Netzes kann beispielsweise die Architektur sein, welche in dem eingangs zitierten Stand der Technik Dokument beschrieben wird. Die Sensorgröße (x) wird mittels eines Sensors (13) erfasst. Dieser erfasst hierzu einen Zustand (12) der Umwelt (11) des Roboters (10). Anhand der Aktion (a) kann ein Aktor (15) des Roboters (10) angesteuert werden. Durch Ausführen der Aktion (a) durch den Aktor (15) verändert sich der Zustand (16) der Umwelt (11). Das Ausführen der Aktion (a) kann zum Explorieren der Umwelt (11) oder zum Lösen der vorgebbaren Aufgabe oder Erreichen eines vorgebbaren Ziels dienen.
  • Der Roboter (10) umfasst ferner eine Recheneinheit (17) und ein maschinenlesbares Speicherelement (18). Auf dem Speicherelement (18) kann ein Computerprogramm gespeichert sein, welches Befehle umfasst, die beim Ausführen der Befehle auf der Recheneinheit (17) dazu führen, dass mittels der Recheneinheit (17) der Roboter (10) betrieben wird.
  • Es sei angemerkt, dass der Roboter (10) auch ein zumindest teilautonomes Fahrzeug, eine Drohne oder eine Produktions-/Werk-maschine sein kann.
  • 2 zeigt beispielhaft einen Pseudocode eines Verfahrens „Canonical Evolution Strategy (ES)“ zum Erstellen der Strategie für den Roboter (10).
  • Zu Beginn des Pseudocodes muss eine initiale Strategie θ0 , ein Zeitbudget T, eine maximale Episodenlänge E, eine Populationsgröße λ, eine Elternpopulationsgröße µ und eine Mutationsschrittgröße σ und eine Gesamtbelohnungsfunktion F(·) vorgegeben sein. Die initiale Strategie θ0 ist vorzugsweise eine Größe, die die Parameter des neuronalen Netzes sind. Die initiale Strategie kann zufällig initialisiert sein.
  • Zu Beginn des Pseudocodes wird in Zeile 1 und 2 über die Elternpopulationsgröße µ eine erste Schleife ausgeführt, um die Konstanten wj zu ermitteln.
  • Daraufhin wird die Optimierung der Strategie durch eine zweite Schleife in Zeile 4 bis 11 durchgeführt.
  • Die zweite Schleife wird solange ausgeführt, bis das Zeitbudget T aufgebraucht wurde. In der zweiten Schleife wird die initialisierte Strategie θ0 durch ein Beaufschlagen mit z.B. einem zufälligen Rauschen mutiert. Daraufhin wird in Zeile 7 die Performance der mutierten Strategien mittels der Gesamtbelohnungsfunktion F bewertet. Die Gesamtbelohnungsfunktion F kann eine kumulierte Belohnung (engl. cumulative reward) über eine Episode mit Episodenlänge E sein.
  • In Zeile 9 werden dann die Strategien in absteigender Reihenfolge nach ihrer erzielten Gesamtbelohnung si angeordnet. In der darauf folgenden Zeile 10 wird die Strategie abhängig von den top-µ Strategien, die jeweils mit der Konstane wj gewichtet werden, aktualisiert.
  • Die aktualisierte Strategie kann daraufhin als finale Strategie ausgegeben werden oder verwendet werden, um erneut die zweite Schleife auszuführen. Das erneute ausführen der zweiten Schleife kann beliebig oft wiederholt werden, bis ein vorgebbares Abbruchkriterium erfüllt wird. Das vorgebbare Abbruchkriterium kann zum Beispiel sein, dass eine Änderung der Strategie kleiner als ein vorgebbarer Schwellwert ist.
  • 2 zeigt beispielhaft einen Pseudocode eines Verfahrens, um das Zeitbudget T und die Episodenlänge E während des Ausführen des ES dynamisch anzupassen.
  • Hierzu wird initial ein Episodenplaner (episode scheduler), ein Zeitplaner (time scheduler) und eine Anzahl von Iterationen N vorgegeben.
  • In Zeile 1 des zweiten Pseudoalgorithmus wird die Strategie θ0 durch ein Sampeln aus einer Normalverteilung initialisiert. Daraufhin wird eine Schleife beginnend bei Zeile 2 bis Zeile 6 über die Anzahl der Iterationen N ausgeführt. Zuerst wird die maximale Episodenlänge E durch den Episodenplaner und optional das maximale Zeitbudget T durch den Zeitplaner abhängig von der aktuellen Iteration n ermittelt. Anschließend wird das Verfahren ES mit diesen beiden ermittelten Größen E und/oder T ausgeführt.
  • Der Episodenplaner kann nach jeden ausgeführten Schleifendurchläufen die Episodenlänge E verdoppeln: E(n) = 2n E(0). Die initiale Episodenlänge E(0) kann ein Wert kleiner als eine erwartete Anzahl von Schritten sein, die zum Erreichen des Zieles benötigt werden. Alternativ kann die initiale Episodenlänge E(0) durch einen vorgebbaren Wert dividiert werden, beispielsweise 2. Alternativ kann die initiale Episodenlänge E(0) durch eine Monte Carlo Simulation ermittelt werden.
  • Der Zeitplaner kann beispielsweise inkrementell mit zunehmender Anzahl von ausgeführten Schleifendurchläufe das Zeitbudget T erhöhen, zum Beispiel: T(n) = 2n κ. Der Wert κ kann zum Beispiel 20 Minuten entsprechen. Alternativ kann der Zeitplaner das Zeitbudget T konstant für jeden Schleifendurchlauf halten, zum Beispiel kann T gleich 1 Stunde sein.
  • Der Vorteil des Episodenplaners und/oder des Zeitplaners ist, dass zuerst auf kurzen Episoden eine Strategie erlernt wird, die daraufhin verwendet wird, um kompliziertere Aufgaben während längeren Episoden effektiver zu lösen. Denn das Wissen der Strategie, welche auf den kurzen Episoden erlernt wurde, kann für das Lösen der längeren Episoden wiederverwendet werden. Der Vorteil des Zeitplaners ist, dass ein gesamtverfügbares Budget von Zeit in Teilzeiten für die einzelnen Episodenlängen effizient zerlegt werden kann.
  • 4 zeigt eine schematische Darstellung einer Vorrichtung (40) zum Anlernen des Entscheidungsmoduls (14), insbesondere zum Ausführen des Pseudocodes nach 2 oder 3. Die Vorrichtung (40) umfasst ein Trainingsmodul (41), welches z.B. die Umwelt (11) simuliert und die Gesamtbelohnung F ausgibt. Das Anpassungsmodul (43) aktualisiert dann die Strategie und speichert die aktualisierte Strategie in dem Speicher P.

Claims (8)

  1. Vorrichtung zum Erstellen einer Strategie (engl. policy) für einen Agenten, sodass dann, wenn der Agent, insbesondere ein Roboter (10), situativ anhand der Strategie Aktionen (a) ausführt, ein vorgebbares Ziel erreicht wird, wobei die Vorrichtung ein maschinenlesbares Speicherelement umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren mit den folgenden Schritten ausführt: Initialisieren der Strategie θ0 und einer Episodenlänge (engl. episode length) E; Mehrfaches Ausführen einer Schleife mit den Schritten: Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ0; Anwenden der Mehrzahl der weiteren Strategien für jeweils zumindest eine Episode mit der Episodenlänge E; Ermitteln jeweils einer Gesamtbelohnung (engl. cumulative reward) si, die beim Anwenden der jeweiligen weiteren Strategie erzielt wird; Aktualisieren der Strategie θ0 abhängig von einer vorgebbaren Anzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben; dadurch gekennzeichnet, dass nach jedem Ausführen der Schleife die Episodenlänge E vergrößert wird.
  2. Vorrichtung nach einem der vorherigen Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass zusätzlich ein Zeitbudget (engl. time budget T) initialisiert wird, wobei die Schleife nur solange ausgeführt wird, wie verbleibende Zeit des Zeitbudgets T vorhanden ist.
  3. Vorrichtung nach Anspruch 2, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass das Zeitbudget T nach jedem Ausführen der Schleife vergrößert wird.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass die Episodenlänge E initial auf einen Wert kleiner als eine erwartete Anzahl von Aktionen zum Erreichen des vorgebbaren Ziels gesetzt wird.
  5. Vorrichtung nach Anspruch 4, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass die erwartete Anzahl der Aktionen durch eine Monte-Carlo Simulation ermittelt wird.
  6. Vorrichtung nach einem der vorherigen Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass die weiteren Strategien in absteigender Reihenfolge nach ihrer erzielten Gesamtbelohnung si sortiert werden und jeweils mittels einem der jeweiligen Position in der Reihenfolge zugeordneten zweiten vorgebbaren Wert w gewichtet werden.
  7. Vorrichtung nach einem der vorherigen Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass mittels eines Sensors der aktuelle Zustand des Agenten, insbesondere Roboters (10), und/oder ein aktueller Zustand der Umgebung des Agenten erfasst wird, wobei abhängig von dem Sensorwert mittels der nach einem der vorherigen Ansprüche erstellten Strategie eine Steuergröße für den Agenten, insbesondere eines Aktors des Agenten, bereitgestellt wird.
  8. Vorrichtung nach einem der vorherigen Ansprüche, umfassend ein trainiertes neuronales Netz, wobei das neuronale Netz eingerichtet ist, abhängig von einem ihm zugeführten aktuellen Zustand des Agenten und/oder einem aktuellen Zustand der Umgebung des Agenten eine der erstellten Strategie entsprechende Aktion (a) bereitzustellen, wobei die erstellte Strategie nach einem der Ansprüche 1 bis 6 durch das neuronale Netz implementiert ist, indem das neuronale Netz aus einem ihm zugeführten Zustand die der Strategie entsprechende Aktion (a) bereitstellt.
DE202019103862.4U 2019-07-12 2019-07-12 Vorrichtung zum Erstellen einer Strategie für einen Roboter Active DE202019103862U1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202019103862.4U DE202019103862U1 (de) 2019-07-12 2019-07-12 Vorrichtung zum Erstellen einer Strategie für einen Roboter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202019103862.4U DE202019103862U1 (de) 2019-07-12 2019-07-12 Vorrichtung zum Erstellen einer Strategie für einen Roboter

Publications (1)

Publication Number Publication Date
DE202019103862U1 true DE202019103862U1 (de) 2019-08-05

Family

ID=67701974

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202019103862.4U Active DE202019103862U1 (de) 2019-07-12 2019-07-12 Vorrichtung zum Erstellen einer Strategie für einen Roboter

Country Status (1)

Country Link
DE (1) DE202019103862U1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832921A (zh) * 2020-06-30 2020-10-27 佛山科学技术学院 基于机器学习的工业机器人性能指标评价设备及方法
WO2021249616A1 (de) * 2020-06-08 2021-12-16 Siemens Aktiengesellschaft Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021249616A1 (de) * 2020-06-08 2021-12-16 Siemens Aktiengesellschaft Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system
CN111832921A (zh) * 2020-06-30 2020-10-27 佛山科学技术学院 基于机器学习的工业机器人性能指标评价设备及方法
CN111832921B (zh) * 2020-06-30 2023-09-26 佛山科学技术学院 基于机器学习的工业机器人性能指标评价设备及方法

Similar Documents

Publication Publication Date Title
WO2013170843A1 (de) Verfahren zum trainieren eines künstlichen neuronalen netzes
EP2112568A2 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP3785177A1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neurona-len netzes
EP3701433A1 (de) Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes
DE202019103862U1 (de) Vorrichtung zum Erstellen einer Strategie für einen Roboter
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
DE102019210372A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter
DE102019214625A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Erstellen eines künstlichen neuronalen Netzes
DE102020213888A1 (de) Computerimplementiertes Verfahren zum Bestimmen von Kritikalitätswerten eines technischen Systems
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
EP3785178B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
WO2020207789A1 (de) Verfahren und vorrichtung zum ansteuern einer technischen einrichtung
DE102020207792A1 (de) Training eines künstlichen neuronalen Netzwerkes, künstliches neuronales Netzwerk, Verwendung, Computerprogramm, Speichermedium und Vorrichtung
DE102019000749B4 (de) Steuervorrichtung und maschinelle Lernvorrichtung
DE102013212889A1 (de) Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
DE102019208263A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System
DE102020206913B4 (de) Verfahren und Vorrichtung zum Betreiben eines Roboters
WO2020207786A1 (de) Verfahren, vorrichtung und computerprogramm zum betreiben eines tiefen neuronalen netzes
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
DE102019130484A1 (de) Verfahren und Vorrichtung zum Anlernen eines Ensembles von neuronalen Netzen
DE102020210376A1 (de) Vorrichtung und Verfahren zum Steuern eines Hardware-Agenten in einer Steuersituation mit mehreren Hardware-Agenten
DE202019103233U1 (de) Vorrichtung zum Einstellen eines Hyperparameters
DE202019103323U1 (de) Vorrichtung zum Erstellen eines maschinellen Lernsystems
DE102022112606B3 (de) Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems

Legal Events

Date Code Title Description
R207 Utility model specification
R150 Utility model maintained after payment of first maintenance fee after three years