DE102018216561A1 - Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten - Google Patents

Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten Download PDF

Info

Publication number
DE102018216561A1
DE102018216561A1 DE102018216561.0A DE102018216561A DE102018216561A1 DE 102018216561 A1 DE102018216561 A1 DE 102018216561A1 DE 102018216561 A DE102018216561 A DE 102018216561A DE 102018216561 A1 DE102018216561 A1 DE 102018216561A1
Authority
DE
Germany
Prior art keywords
depending
environment
actions
model
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018216561.0A
Other languages
English (en)
Inventor
Elise van der Pol
Frans A. Oliehoek
Max Welling
Christian Daniel
Michael Herman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Technische Universiteit Delft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH, Technische Universiteit Delft filed Critical Robert Bosch GmbH
Priority to DE102018216561.0A priority Critical patent/DE102018216561A1/de
Priority to CN201910927405.2A priority patent/CN110955466A/zh
Publication of DE102018216561A1 publication Critical patent/DE102018216561A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln einer Strategie eines Agenten. Der Agent führt situativ anhand der Strategie Aktionen aus, sodass der Agent mittels der ausgeführten Aktionen autonom ein vorgebbares Ziel erreicht. Das Verfahren umfasst folgende Schritte. Zuerst wird die Umwelt des Agenten exploriert. Daraufhin wird ein Modell der Umwelt anhand der Exploration erstellt. Das Modell weißt eine diskrete Zustandsgröße und eine kontinuierliche Zustandsgröße auf, die verwendet werden, um eine geschätzte Sensorgröße zu ermitteln. In einem weiteren Schritt wird die Strategie anhand des erstellten Modells ermittelt. Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des Verfahrens und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.

Description

  • Technisches Gebiet
  • Die Erfindung betrifft ein Verfahren zum Ermitteln einer Strategie eines Agenten mittels eines Modells einer Umwelt des Agenten. Ebenso betrifft die Erfindung eine Vorrichtung und ein Computerprogramm, die jeweils eingerichtet sind, das Verfahren auszuführen.
  • Stand der Technik
  • Es ist bekannt, dass mittels bestärkenden Lernens (engl. reinforcement learning) ein Agent eigenständig eine Strategie (engl. policy) erlernt, um eine vorgebbare Aufgabe zu lösen. Der Agent exploriert seine Umwelt und eignet sich hierdurch Wissen über seine Umwelt an. Anhand dieses Wissens kann der Agent situativ Aktionen (engl. actions) planen, um die vorgebbare Aufgabe zu lösen. Nachteilig hierbei ist, dass viele Daten durch die Exploration benötigt werden, um ein zuverlässiges Wissen über die Umwelt aufzubauen.
  • Die nicht-vorveröffentlichte DE 10 2017 218 811.1 offenbart ein Verfahren zum Betreiben eines Aktorregelungssystems, welches zum Regeln einer Regelungsgröße eines Aktors auf eine vorgebbare Sollgröße eingerichtet ist. Das Aktorregelungssystem ist ferner eingerichtet, abhängig von einer eine Regelungsstrategie charakterisierenden Größe, eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern.
  • Die nicht-vorveröffentlichte DE 10 2017 218 813.8 offenbart ein Verfahren zum automatischen Einstellen mindestens eines Parameters eines Aktorregelungssystems. Das Aktorregelungssystem ist unter anderem eingerichtet, abhängig von mindestens einem Parameter, einer Sollgröße und einer Regelungsgröße, eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern, wobei ein neuer Wert des mindestens eines Parameters abhängig von einer stationären Wahrscheinlichkeitsverteilung der Regelungsgröße ermittelt wird.
  • Offenbarung der Erfindung
  • In einem ersten Aspekt wird ein Verfahren zum Ermitteln einer Strategie eines Agenten, insbesondere eines Roboters vorgestellt. Der Agent kann situativ anhand der Strategie Aktionen ausführen, sodass der Agent mittels dieser ausgeführten Aktionen autonom ein vorgebbares Ziel erreicht. Das Verfahren gemäß Anspruch 1 umfasst unter anderem folgende Schritte: In einem ersten Schritt wird eine Umwelt des Agenten anhand vorgebbarer Aktionen, die der Agent ausführt, exploriert. Beim Explorieren wird jeweils nach den ausgeführten vorgebbaren Aktionen des Agenten die Umwelt mittels wenigstens eines Sensors erfasst und jeweils als eine Sensorgröße bereitgestellt. Die Sensorgrößen sind optional jeweils einer der ausgeführten vorgebbaren Aktionen zugeordnet. Eine Parametrisierung des Modells der Umwelt wird basierend auf den Sensorgrößen und den ausgeführten vorgebbaren Aktionen konfiguriert. Die Parametrisierung des Modells wird derart konfiguriert, dass sich jeweils geschätzte Sensorgrößen, die das Modell jeweils in Abhängigkeit der ausgeführten vorgebbaren Aktionen ermittelt, den jeweils bereitgestellten Sensorgrößen angleichen. Das Modell ist dann eingerichtet, jeweils abhängig von den ausgeführten vorgebbaren Aktionen des Agenten und insbesondere einer Sensorgröße, eine diskrete Zustandsgröße der Umwelt zu ermitteln und jeweils in Abhängigkeit der diskreten Zustandsgröße und insbesondere abhängig von Parametern einer kontinuierlichen Zustandsgröße, eine geschätzte Sensorgröße zu ermitteln. Das Ermitteln der Strategie erfolgt in Abhängigkeit zumindest einer Abfolge möglicher Aktionen und wenigstens einer Belohnung, wobei die möglichen Aktionen mittels des Modells ermittelt werden.
  • Unter situativ kann „in Abhängigkeit der mittels des Sensors erfassten Umwelt“ verstanden werden. Unter Angleichen kann verstanden werden, dass beim Konfigurieren des Modells der Umwelt im Wesentlichen unter Berücksichtigung einer Mächtigkeit des Modells und eines Aufwandes zum Auffinden einer geeigneten Parametrisierung des Modells, jeweils zu den bereitgestellten Sensorgrößen ähnliche geschätzte Sensorgrößen durch das Modell ermittelt werden.
  • Der Vorteil des Verfahrens ist, dass das Modell nur einen Zusammenhang zwischen Aktionen und daraus resultierenden diskreten Zustände erlernen muss, anstatt einen Zusammenhang zwischen den Aktionen und daraus resultierenden Auswirkungen auf die erfasste Umwelt. Dadurch kann gezielter Wissen über Zusammenhänge zwischen den Aktionen und der Umwelt erlernt werden. Ein weiterer Vorteil ist, dass weniger erfasste Sensorgrößen benötigt werden, um das Modell zu erstellen, da der Zusammenhang der Aktionen auf die diskretisierte Umwelt schneller bestimmt werden kann, als ein Zusammenhang der Aktionen auf eine kontinuierliche Umwelt, da die Aktionen signifikant mehr mögliche Auswirkungen auf die kontinuierliche Umwelt haben können. Dies wirkt sich auch vorteilhaft auf den Rechenaufwand aus, da dieser proportional zu den Sensorgrößen ist. Es kann daher gesagt werden, dass mittels der diskreten Zustandsgröße und insbesondere abhängig von Parametern einer kontinuierlichen Zustandsgröße, der Aufwand zum Erstellen des Modells reduziert und folglich auch eine Trainingsdauer reduziert werden kann.
  • Ferner lassen sich komplexe, hochdimensional Problem mit unbekannten Dynamiken der Umwelt gezielter durch die diskrete Zustandsgröße abbilden, wodurch ein genaueres Modell der Umwelt erstellt werden kann.
  • Vorteilhaft ist ferner, dass beim Betreiben des Modells, die Auswirkung der Aktionen des Agenten auf die Umwelt durch das Ermitteln der diskreten Zustandsgröße abhängig von den Aktionen ressourceneffizient ermittelt werden kann.
  • Weiterhin wird vorgeschlagen, dass das Modell abhängig von der diskreten Zustandsgröße eine Belohnung ermittelt. Vorteilhafterweise ist beim Ermitteln der Strategie das Erreichen des vorgebbaren Ziels mit einer hohen Belohnung verbunden.
  • Belohnungen sind schwer zu ermitteln, da diese meist in einem stark nichtlinearen Zusammenhang mit den Aktionen des Agenten stehen. Der Vorteil des Verfahrens hierbei ist, dass das Ermitteln der Belohnung aus der diskreten Zustandsgröße einfacher erlernt werden kann. Vorteilhaft ist ferner, dass bspw. auch ein sogenanntes Q-Lernen (engl. Q-Learning) angewendet werden kann.
  • Weiterhin wird vorgeschlagen, dass die kontinuierliche Zustandsgröße zusätzlich a-priori Wissen über die Umwelt charakterisiert.
  • Ferner wird vorgeschlagen, dass die kontinuierliche Zustandsgröße Informationen oder zusätzliches Wissen über die Umwelt aufweist, die zur Ermittlung der, insbesondere kontinuierlichen und höherdimensionalen, geschätzten Sensorgröße abhängig von der diskreten Zustandsgröße verwendet werden können, z.B. zusätzliche Größen, die die diskrete Zustandsgröße präzisieren. Zusätzlich oder alternativ kann die kontinuierliche Zustandsgröße einen Einfluss der diskreten Zustandsgröße auf die geschätzte Sensorgröße charakterisiert oder einen verborgenen Zustand der Umwelt charakterisieren.
  • Weiterhin wird vorgeschlagen, dass das Modell aus einem Autoencoder, insbesondere einem Variational Autoencoder, oder einem Verbund aus mehreren Autoencoder besteht.
  • Weiterhin wird vorgeschlagen, dass der Agent die Umwelt anhand der Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt exploriert, wobei das erstellte Modell abhängig von zumindest den bereitgestellten Sensorgrößen angepasst wird.
  • Zusätzlich oder alternativ kann die Strategie verwendet werden, um eine Steuergröße des Agenten oder eines Aktors zu ermitteln, wobei der Agent der Aktor sein kann. Der Aktor kann zum Beispiel eine zumindest teilautonome Maschine, ein zumindest teilautonomes Fahrzeug, ein Roboter, ein Werkzeug, eine Werkmaschine oder ein Flugobjekt, wie eine Drohne sein.
  • In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen.
  • Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
  • Figurenliste
    • 1 eine schematische Darstellung eines intelligenten Agentensystems, das mit seiner Umwelt interagieren kann;
    • 2 eine schematische Darstellung eines ersten Aufbaus eines Probabilistischen Graphischen Modells;
    • 3 eine schematische Darstellung eines zweiten Aufbaus des Probabilistischen Graphischen Modells;
    • 4 eine schematische Darstellung eines zumindest teilautonomen Fahrzeuges, welches das intelligente Agentensystem umfasst;
    • 5 eine schematische Darstellung einer Ausführungsform eines Verfahrens zum Ermitteln einer Strategie des intelligenten Agentensystems;
    • 6 eine schematische Darstellung einer Vorrichtung zum Anlernen des Probabilistischen Graphischen Modells.
  • 1 zeigt eine schematische Darstellung eines intelligenten Agentensystems (10). Das intelligente Agentensystem (10) ist eingerichtet, selbständig durch Explorieren, zweckgemäß durch Interagieren mit, einer Umwelt (11) eine Strategie (engl. policy) zu erlernen. Abhängig von der Strategie und einer erfassten Sensorgröße (x) ermittelt ein Entscheidungsmodul (12) eine optimale Aktion (a).
  • In einer weiteren Ausführungsform des intelligenten Agentensystems (10), weist das Entscheidungsmodul (12) ein Probabilistisches Graphisches Modell (engl. Probabilistic Graphic Model, PGM) auf, das vorzugsweise ein Markov-Entscheidungsprozess (engl. Markov Decision Process, MDP) modelliert. Das intelligente Agentensystem (10) exploriert in dieser Ausführungsform die Umwelt (11) und abhängig von der Exploration wird das Probabilistische Graphische Modell (PGM) erstellt. Das PGM modelliert die Umwelt (11) und Auswirkungen der Aktionen (a) auf die Umwelt (11). Daraufhin kann das intelligente Agentensystem (10) anhand des PGM die Strategie ermitteln, um die geeigneten Aktionen (a) für jeweils gegebene Sensorgrößen (x) zu ermitteln. Das PGM kann durch eine Mehrzahl von Parametern (P) konfiguriert sein, die in einem Speicher (13) hinterlegt sind.
  • Die ermittelte Aktion (a) des Entscheidungsmoduls (12) kann an einen Aktor (A) weitergeleitet werden. Der Aktor (A) führt daraufhin abhängig von der ermittelten Aktion (a) eine Interaktion mit der Umwelt (11) durch. Die Interaktion kann zum Explorieren der Umwelt (11) oder zum Lösen der vorgebbaren Aufgabe dienen.
  • Ferner umfasst das intelligente Agentensystem (10) eine Recheneinheit (14) und ein maschinenlesbares Speicherelement (15). Auf dem Speicherelement (15) kann ein Computerprogramm gespeichert sein, welches Befehle umfasst, die beim Ausführen der Befehle auf der Recheneinheit (14) dazu führen, dass mittels der Recheneinheit (14) das intelligente Agentensystem (10) betrieben wird.
  • 2 zeigt eine schematische Darstellung einer ersten zeitlichen Abwicklung (engl. rollout) (20) von Berechnungen des PGM.
  • Das PGM ist in dieser Ausführungsform eingerichtet, die Umwelt (11) des intelligenten Agentensystems (10), insbesondere die Auswirkungen und/oder Veränderungen der Umwelt (11) durch die Aktionen (a), zu beschreiben. Das PGM kann sowohl statische Eigenschaften (z.B. Anordnungen) der Umwelt (11) als auch Dynamiken, insbesondere Reaktionen der Umwelt (11) auf Aktionen (a) des intelligenten Agentensystems (10) und/oder der Objekte, beschreiben, zweckgemäß auch deren Veränderung nach einer Interaktion des intelligenten Agentensystems (10) mit der Umwelt (11).
  • Dass das PGM die Umwelt (11) möglichst genau und mit geringem Rechenaufwand beschreiben kann, werden zumindest zwei Hilfsgrößen, eine diskrete Zustandsgröße (B) und eine kontinuierliche Zustandsgröße (z), eingeführt. Die diskrete Zustandsgröße (B) wird verwendet, um mittels einer niederdimensionalen Darstellung, wie einer Mehrzahl von Klassen, die Umwelt (11) zu charakterisieren. Die kontinuierliche Zustandsgröße (z) wird benötigt, um die Informationen der diskreten Zustandsgröße (B) derart umzuwandeln, dass aus der diskreten Zustandsgröße eine detaillierte, zweckgemäß eine kontinuierliche und mehrdimensionale, Darstellung (s) der Umwelt (11) ermittelt wird, die einer erfassten Umwelt mittels des Sensors (S) entsprechen kann. Idealerweise ist die Darstellung (s) eine geschätzte Sensorgröße, die der Sensor (S) aufgrund der ausgeführten Aktion (a) erfassen würde.
  • Das PGM ermittelt zu einem jedem Zeitpunkt t eine diskrete Zustandsgröße (Bt ). Dies ist in 2 durch die Kreise mit Beschriftung (Bt-1 ,Bt ,Bt+1 ) und dem Zeitindex t - 1, t, t + 1 dargestellt. Jeweils abhängig von der diskreten Zustandsgröße (Bt ) und abhängig von einer kontinuierlichen Zustandsgröße (zt ) wird eine messbare Darstellung (st ) ermittelt. Abhängig von der messbaren Darstellung (st ) wird daraufhin eine Aktion (αt ) bestimmt. Anschließend wird eine neue diskrete Zustandsgröße (Bt+1 ) bestimmt, aus der wiederum eine neue messbare Darstellung (st+1 ) erzeugt werden kann.
  • Beispielsweise ermittelt das PGM zum Zeitpunkt t eine diskrete Zustandsgröße (Bt ), insbesondere abhängig von einer Aktion (αt-1 ) und einer messbaren Darstellung (st-1 ) oder der erfassten Sensorgröße (x). Dies ist in 2 durch den Pfeil von dem Kreis mit Beschriftung (st-1 ) zu dem Kreis mit der Beschriftung (αt-1 ) dargestellt. Abhängig von dieser eben ermittelten diskreten Zustandsgröße (Bt ) und abhängig von der kontinuierlichen Zustandsgröße (zt ) wird eine messbare Darstellung (st ) der Umwelt (11) ermittelt. Die kontinuierliche Zustandsgröße (zt ) wird dabei nach 2 abhängig von der diskreten Zustandsgröße (Bt ) ermittelt. Die messbare Darstellung (st ) kann eine geschätzte Sensorgröße der Umwelt (11) sein, die der Sensor zu diesem Zeitpunkt t, nachdem die Aktion (αt-1 ) ausgeführt wurde, erfasst hätte.
  • In Abhängigkeit der messbaren Darstellung (st ) kann das PGM Aktion (αt ) ermitteln. Dies ist in 2 durch den Pfeil von dem Kreis mit Beschriftung (st ) zu dem Kreis mit der Beschriftung (αt ) dargestellt. Wie durch den nachfolgenden Pfeil aus dem Kreis mit der Beschriftung (αt ) dargestellt, kann das PGM dann abhängig von der ermittelten optimalen Aktion (αt ), eine nachfolgende diskrete Zustandsgröße (Bt+1 ) zum Zeitpunkt t + 1 ermitteln.
  • Auf diese Weise kann mittels des PGM eine Abfolge von Aktionen und Reaktionen der Umwelt auf die jeweiligen Aktionen ermittelt werden, indem jeweils Aktionen abhängig von den messbaren Darstellungen (s) ermittelt werden. Daraus wird dann die diskrete Zustandsgröße (B) ermittelt, aus der wiederum eine messbare Darstellung ermittelt werden kann. Dies erlaubt es, mehrere Aktionen zu planen, vorteilhafterweise auch um zu beurteilen, ob die Aktionen zu einem gewünschten Ergebnis führen.
  • Vorteilhafterweise ermittelt das PGM abhängig von jeweils den diskreten Zustandsgrößen (Bt ) eine Belohnung (engl. reward). Die Belohnung (rt ) kann zum Ermitteln der Strategie verwendet werden, um die optimale Aktion (αt ) gegeben der jeweiligen messbaren Darstellung (st ) zu ermitteln. Beispielsweise kann die Strategie abhängig von der Belohnung (rt ) ermittelt werden, indem eine Summe von Belohnungen der Aktionen oder eine Gesamtbelohnung maximiert wird.
  • In einem weiteren Ausführungsbeispiel des PGM, kann, wie in 2 durch die Pfeile zwischen den diskreten Zuständen dargestellt, des Weiteren die diskreten Zustandsgrößen abhängig von jeweils zumindest einer vorhergehenden diskreten Zustandsgröße (Bt-1 ) ermittelt werden.
  • 3 zeigt eine schematische Darstellung, insbesondere einer zweiten zeitlichen Abwicklung (30), von Berechnungen des PGM. Die zweite zeitliche Abwicklung (30) unterscheidet sich zu der ersten zeitlichen Abwicklung (20) dahingehend, dass die kontinuierliche Zustandsgröße (z) nicht abhängig von der diskreten Zustandsgröße (B) ermittelt wird.
  • Eine Funktionsweise des PGM und eine mögliche Bedeutung der kontinuierlichen Zustandsgröße (z) und der diskreten Zustandsgröße (B) nach 2 und 3 soll beispielhaft im Folgenden näher erläutert werden. Das intelligente Agentensystem (10) soll in einem Fahrzeug verwendet werden, welches die Aufgabe hat, eine Autobahn zu verlassen. Das intelligente Agentensystem (10) exploriert hierfür zuerst die Umwelt (11). Anschließend wird das PGM erstellt. Dabei kann die diskrete Zustandsgröße (B) z.B. einen Zustand Geschwindigkeit (langsam, mittel, hoch) des Fahrzeugs und/oder die Fahrbahnspur (rechts, links, mittig) und/oder eine Entfernung (parallel zur Ausfahrt, kurz vor Ausfahrt, Ausfahrt weit entfernt) charakterisieren. Die kontinuierliche Zustandsgröße (z) kann die diskrete Zustandsgröße (B) genauer spezifizieren und/oder andere Merkmale hinzufügen, wie z.B. eine latente Geschwindigkeitsverteilung abhängig von der diskreten Zustandsgröße (B) (p(v|v_diskret=langsam)) und/oder eine Verteilung über Entfernungen innerhalb einer Entfernungsklasse (bspw.: p(dle=parallel zur Ausfahrt). Zusätzlich oder alternativ kann die kontinuierliche Zustandsgröße (z) eine Verteilung über Abstände zu benachbarten Fahrzeugen p(d_backlv=mittel, s=links, e=kurz vor Ausfahrt) charakterisieren. Die messbare Darstellung (s) kann eine observierbare kontinuierliche Größe p(slz, B) sein. Z.B. kann die messbare Darstellung (s) ein Bild einer Kamera des Fahrzeugs sein. Mittels dieses PGM kann eine Strategie ermittelt werden, sodass das Fahrzeug anhand von Aktionen (z.B. Spurwechsel, Geschwindigkeitsreduktion) die Autobahn verlässt.
  • 4 zeigt eine schematische Darstellung eines zumindest teilautonomen Roboters, welcher in einem ersten Ausführungsbeispiel durch ein zumindest teilautonomes Fahrzeug (40) gegeben ist. In einem weiteren Ausführungsbeispiel kann der zumindest teilautonome Roboter ein Service-, Montage- oder stationärer Produktionsroboter, alternativ ein autonomes Flugobjekt, wie eine Drohne, sein.
  • Das zumindest teilautonome Fahrzeug (40) weist eine Kamera (41) als Sensor (S) auf, welche die Umwelt (11) des Fahrzeugs (40) erfasst. Zusätzlich oder alternativ kann als Sensor (S) ein Radar verwendet werden. Die Kamera (11) ist mit dem intelligenten Agentensystem (10) verbunden. Das intelligente Agentensystem (10) ermittelt abhängig von einem bereitgestellten Bild der Kamera (11) eine Aktion (a). Diese Aktion (a) wird an den Aktor (A), in 4 durch eine Steuerungseinheit (43) gegeben, weitergeleitet.
  • Die Steuerungseinheit (43) steuert in Abhängigkeit der Aktion (a) zum Beispiel ein Motor oder ein Bremssystem des Fahrzeugs (40) derart, dass das Fahrzeug (40) ein Manöver, wie ein Spurwechsel, ausführt.
  • Zum Beispiel kann, wie oben erläutert, eine Aufgabe des Fahrzeugs sein, eine Autobahn zu verlassen. Das intelligente Agentensystem (10) steuert daraufhin das Fahrzeug und damit die Umwelt (11), in diesem Fall die Autobahn, zu erkunden. Nachdem das intelligente Agentensystem (11) seine Umwelt (11) kennt, kann es Aktionen ermitteln, um das Fahrzeug zu einer Ausfahrt zu steuern und über diese Ausfahrt die Autobahn zu verlassen. Nachdem das intelligente Agentensystem (11) weiß, wie es sich zu verhalten hat, kann das Fahrzeug beim nächsten Verlassen der Autobahn auf das Wissen zurückgreifen und die erforderlichen Aktionen anhand der erfassten Bilder ausführen.
  • In einem weiteren Ausführungsbeispiel des zumindest teilautonomen Roboters wird das Bild der Kamera (11) an einen Server übertragen. Das intelligente Agentensystem (10) wird auf dem Server betrieben und die ermittelte optimale Aktion (a) wird anschließend zurück übermittelt und der Steuerungseinheit (43) bereitgestellt.
  • In einem weiteren Ausführungsbeispiel kann der teilautonome Roboter ein Werkzeug, eine Werkmaschine oder ein Fertigungsroboter sein. Abhängig von dem gewünschten Einsatz, kann das intelligente Agentensystem (10) Aktionen (a) bestimmen, um bspw. das Werkstück optimal zu bearbeiten. Der Aktor kann hierbei z.B. ein Motor, der einen Schleifkopf betreibt, sein.
  • In einem alternativen Ausführungsbeispiel kann das intelligente Agentensystem (10), dass in diesem Ausführungsbeispiel mit einem Temperatursensor verbunden sein kann, für eine Gebäudesteuerung eingesetzt werden. Das intelligente Agentensystem (10) kann dann eingerichtet sein, abhängig von dem Temperatursensor eine Klimaanlage oder ein Heizungssystem zu steuern.
  • Es ist auch denkbar, dass das intelligente Agentensystem in der Medizintechnik eingesetzt wird. Beispielsweise kann das intelligente Agentensystem (10) abhängig von einer erfassten Vitalfunktion eines Patienten eine optimale Dosierung eines Medikamentes oder eine optimale Behandlungs-/Therapiemethode vorschlagen. Beispielsweise kann ein Bild eines menschlichen oder tierischen Körpers oder eines Teils davon erfasst und dem intelligenten Agentensystem (10) bereitgestellt werden. Z.B. kann dies mittels eines optischen Signals, mittels eines Ultraschallsignals, oder mittels eines MRT/CT-Verfahrens erfolgen. Alternativ oder zusätzlich kann eine gemessene Vitalfunktion, beispielsweise der Puls oder die Körpertemperatur dem intelligenten Agentensystem (10) zur Verfügung gestellt werden. Zusätzlich oder alternativ kann ein Arzt dem intelligenten Agentensystem (10) durch manuelle Eingabe von einer einen Patienten charakterisierenden Größe dem intelligenten Agentensystem (10) als Eingangsgröße bereitstellen. Vorzugsweise stellt das PGM hierbei den Einfluss der Behandlungsmaßnahmen auf den Patienten dar.
  • 5 zeigt eine schematische Darstellung eines Verfahrens (50) zum Ermitteln der Strategie und optional nachgelagerte Schritte zum Betreiben des intelligenten Agentensystems (10).
  • Das Verfahren beginnt mit Schritt 51. In Schritt 51 wird eine Exploration der Umwelt (11) ausgeführt. Die Exploration wird entweder zufällig oder anhand von Vorwissen oder anhand einer vorgebbaren Abfolge von Aktionen, die jeweils zu einem Zeitpunkt t aus einer Abfolge T von Zeitpunkten zugeordnet sein können, durchgeführt. Vorzugsweise werden die Aktionen und daraufhin erfassten Sensorgrößen gespeichert und als Trainingsdaten bereitgestellt. Vorteilhafterweise wird auch eine Belohnung zu jedem Zeitpunkt t ermittelt oder gemessen und ergänzend zu den Trainingsdaten hinterlegt.
  • Daraufhin wird Schritt 52 ausgeführt. Hierin wird eine Parametrisierung des PGM abhängig von den bereitgestellten Trainingsdaten aus Schritt 51 konfiguriert. Das PGM wird derart konfiguriert, dass es das Verhalten der Umwelt (11) auf die Aktionen (a) richtig vorhersagt, insbesondere, dass das PGM abhängig von den Aktionen die Sensorgrößen der Trainingsdaten richtig ermittelt.
  • Ein Aufbau des PGM kann in Schritt 52 gewählt werden, bevor die Parametrisierung konfiguriert wird. Entweder hat das PGM einen Aufbau nach 2 oder 3, bei der die kontinuierliche Zustandsgröße (z) jeweils un- oder abhängig von der diskreten Zustandsgröße (B) ist. Alternativ können zwei PGM, jeweils gemäß 2 und 3, erstellt werden. Es sei angemerkt, dass nach dem Erstellen der zwei PGM, eines der zwei PGM anhand vorgebbarer Kriterien (vgl. Schritt 52 „ELBO“) ausgewählt werden kann.
  • Abhängig von der Wahl des Aufbaus des PGM, kann das PGM mit nachfolgenden Gleichungen angelernt werden, um die jeweiligen Größen (B,z,s) zu ermitteln, insbesondere eine geeignete Konfiguration der Parameter des PGM zu bestimmen. Für den Aufbau des PGM nach 2 wird vorzugsweise eine Evidence Lower Bound (ELBO) verwendet: l o g   p ( τ ) B 0 q φ ( B 0 | s 0 ) l o g [ p θ ( B 0 ) q φ ( B 0 | s 0 ) ]      + t = 0 T B t 1 B t q φ ( B t 1 | s t 1 ) q φ ( B t | s t )  log [ p θ ( B t | B t 1 , a t 1 ) q φ ( B t | s t ) ]      + t = 0 T B t z t q φ ( B t | s t ) q φ ( z t | B t , s t ) log [ p θ ( z t | B t ) q φ ( z t | B t , s t ) ] d z t      + t = 0 T B t z t q φ ( B t | s t ) q φ ( z t | B t , s t ) [ log p θ ( r t | B t ) + log  p θ ( s t | B t , z t ) ] d z t      + t = 0 T log  p ( a t | s t )
    Figure DE102018216561A1_0001
  • Wobei pθ eine Wahrscheinlichkeitsverteilung ist und die Pfeile in 2 darstellt und durch θ parametrisiert wird und qφ ist eine Wahrscheinlichkeitsverteilung, die insbesondere entgegengesetzte Pfeile der abgebildeten Pfeile aus 2 darstellt. Der vorteilhafte Effekt der entgegengesetzten Pfeile ist, dass dadurch das PGM schneller erstellt werden kann.
  • Für den Aufbau des PGM nach 3, wird zum Erstellen des PGM ebenfalls die Evidence Lower Bound (ELBO) mit einer leichten Modifikation verwendet: l o g   p ( τ ) B 0 q φ ( B 0 | s 0 ) l o g [ p θ ( B 0 ) q φ ( B 0 | s 0 ) ] + t = 0 T B t 1 B t q φ ( B t 1 | s t 1 ) q φ ( B t | s t ) log [ p θ ( B t | B t 1 , a t 1 ) q φ ( B t | s t ) ] + t = 0 T B t z t q φ ( B t | s t ) q φ ( z t | B t , s t ) log [ p θ ( z t ) q φ ( z t | B t , s t ) ] d z t + t = 0 T B t z t q φ ( B t | s t ) q φ ( z t | B t , s t ) [ log p θ ( r t | B t ) + log  p θ ( s t | B t , z t ) ] d z t + t = 0 T log  p ( a t | s t )
    Figure DE102018216561A1_0002
  • Wenn in Schritt 52 zwei PGM jeweils nach 2 und 3 erstellt werden, kann anhand der ELBO verglichen werden, welches der PGMs besser geeignet ist, zweckgemäß dasjenige PGM mit der größeren ELBO.
  • Nachdem Schritt 52 abgeschlossen wurde, folgt Schritt 53. Hierin wird die Strategie anhand des erstellten PGM ermittelt. Hierfür wird zumindest eine Abfolge von möglichen Aktionen und zugehörigen geschätzten Sensorgrößen durch das PGM ermittelt.
  • In Schritt 53 kann abhängig von der Abfolge der möglichen Aktionen die Strategie durch eine sogenannte „Value-Iteration“ ermittelt werden.
  • Im nachfolgenden optionalen Schritt 54 wird die ermittelte Strategie aus Schritt 53 verwendet, um die Umwelt (11) erneut zu explorieren. Zusätzlich kann zum Explorieren eine zusätzliche Strategie verwendet werden. Wie in Schritt 51 kann das Explorieren der Umwelt (11) aufgezeichnet werden. Daraufhin kann das erstellte PGM abhängig von der aufgezeichneten erneuten Exploration, z.B. mit Schritt 52, angepasst werden, sodass das PGM die Umwelt (11) genauer abbildet.
  • Wenn keine Anpassung des PGM durchgeführt werden muss, da bspw. das PGM abhängig von den möglichen Aktionen die Umwelt ausreichend genau abbildet, wird eine finale Strategie ermittelt, die bspw. anschließend von dem Entscheidungsmodul (12) verwendet wird, um die vorgebbare Aufgabe zu lösen.
  • Nachdem das Verfahren (50) mit Schritt 54 beendet wurde, kann das Verfahren (50) beispielhaft zyklisch mit Schritt 52 wieder begonnen werden, wenn beispielsweise festgestellt wird, dass das PGM zu ungenau ist oder, wenn das PGM für eine weitere Anwendung und/oder Aufgabe angepasst werden soll.
  • Denkbar ist auch, dass die Exploration mittels des intelligenten Agentensystems (10), z.B. mittels des Fahrzeugs (40), aufgezeichnet und an einen Server übermittelt wird, der dann die Schritte 52, 53 und gegebenenfalls Teile des Schrittes 54 ausführt. Der Server sendet ein Ergebnis, z.B. das angelernte PGM oder die Strategie zurück.
  • Nachdem das Verfahren 50 abgeschlossen ist, wird optional das intelligente Agentensystem (10) mit der Strategie betrieben bspw. das Fahrzeug (40) abhängig von den Aktionen gesteuert.
  • 6 zeigt eine schematische Darstellung einer Vorrichtung (60) zum Erstellen des PGM, insbesondere zum Ausführen des Schrittes 52 des Verfahrens 50. Die Vorrichtung (60) umfasst ein Trainingsmodul (61) und das Entscheidungsmodul (12). Die Vorrichtung (60) lernt abhängig von bereitgestellten Trainingsdaten das PGM an. Zweckgemäß umfassen die Trainingsdaten eine Mehrzahl von erfassten Bildern und zugehörige ausgeführte Aktionen, denen vorteilhafterweise jeweils eine Belohnung zugeordnet ist. Während des Anlernens werden Parameter (P) des PGM, die in einem Speicher (13) hinterlegt sind, angepasst.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102017218811 [0003]
    • DE 102017218813 [0004]

Claims (14)

  1. Verfahren zum Ermitteln einer Strategie eines Agenten, insbesondere eines Roboters, sodass dann, wenn der Agent situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht wird, wobei die Strategie in Abhängigkeit zumindest einer Abfolge möglicher Aktionen (αt-1, αt, αt+1) und wenigstens einer Belohnung (rt) ermittelt wird, wobei jeweils die möglichen Aktionen (αt-1, αt, αt+1) mittels eines parametrisierbaren Modells (PGM), insbesondere des Agenten, ermittelt werden, wobei das besagte Modell (PGM) eingerichtet ist, in Abhängigkeit einer Parametrisierung und einer Aktion des Agenten eine diskrete Zustandsgröße (Bt) zu ermitteln, welche wenigstens einen Zustand der Umwelt und/oder des Agenten charakterisiert und für jede Klasse aus einer Mehrzahl vorgebbarer Klassen charakterisiert, ob der wenigstens eine Zustand der jeweiligen Klasse angehört, wobei das besagte Modell (PGM) des Weiteren eingerichtet ist, in Abhängigkeit der Parametrisierung und der diskreten Zustandsgröße (Bt) eine geschätzte Sensorgröße (st) zu ermitteln, umfassend folgende Schritte: - Explorieren der Umwelt (11) anhand vorgebbarer Aktionen, die der Agent ausführt, wobei beim Explorieren nach den jeweils ausgeführten vorgebbaren Aktionen des Agenten die Umwelt (11) mittels wenigstens eines Sensors erfasst und jeweils als eine Sensorgröße (x) bereitgestellt wird; - Konfigurieren der Parametrisierung des besagten Modells (PGM) abhängig von den ausgeführten vorgebbaren Aktionen und den bereitgestellten Sensorgrößen (x), wobei die Parametrisierung des besagten Modells (PGM) derart konfiguriert wird, dass sich die jeweils geschätzten Sensorgrößen (st), die das besagte Modell jeweils in Abhängigkeit der ausgeführten vorgebbaren Aktionen ermittelt, den jeweils bereitgestellten Sensorgrößen (x) angleichen.
  2. Verfahren nach Anspruch 1, wobei Aktionen anhand der ermittelten Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt ermittelt werden.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei das besagte Modell des Weiteren eingerichtet ist, die Belohnung (rt) abhängig von der diskreten Zustandsgröße (Bt) zu ermitteln.
  4. Verfahren nach Anspruch 3, wobei beim Konfigurieren der Parametrisierung die Parametrisierung derart konfiguriert wird, dass das besagte Modell in Abhängigkeit der diskreten Zustandsgröße (Bt) und vorgebbaren Soll-Belohnungen die Belohnung (rt) ermittelt, wobei insbesondere die vorgebbaren Soll-Belohnungen jeweils zu den ausgeführten Aktionen, die zur jeweiligen diskreten Zustandsgröße (Bt) geführt haben, zugeordnet sind.
  5. Verfahren nach einem der vorherigen Ansprüche, wobei das besagte Modell des Weiteren eingerichtet ist, in Abhängigkeit der Parametrisierung und der diskreten Zustandsgröße (Bt) und abhängig von Parametern einer kontinuierlichen Zustandsgröße (zt), die geschätzte Sensorgröße (st) zu ermitteln, wobei die Parametern der kontinuierlichen Zustandsgröße (zt) eine Wahrscheinlichkeitsverteilung der kontinuierlichen Zustandsgröße (zt) charakterisieren, welche den wenigstens einen Zustand der Umwelt und/oder des Agenten charakterisiert.
  6. Verfahren nach Anspruch 5, wobei die Parameter der kontinuierlichen Zustandsgröße (zt) abhängig von der diskreten Zustandsgröße (Bt) ermittelt werden.
  7. Verfahren nach Anspruch 6, wobei die diskrete Zustandsgröße (Bt) eine Mehrzahl von Werten umfasst, wobei jeder dieser Werte für genau eine Klasse der Mehrzahl vorgebbarer Klassen eine Wahrscheinlichkeit charakterisiert, dass der wenigstens eine Zustand dieser Klasse angehört.
  8. Verfahren nach einem der Ansprüche 5 bis 7, wobei die kontinuierliche Zustandsgröße (zt) eine präzisere Charakterisierung des Zustands der Umwelt und/oder des Agenten ist, der durch die diskrete Zustandsgröße (Bt) charakterisiert wird, als die Charakterisierung dieses Zustands mittels der diskreten Zustandsgröße (Bt).
  9. Verfahren nach einem der Ansprüche 2 bis 8, wobei der Agent die Umwelt anhand der Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt erneut exploriert, wobei das besagte Modell abhängig von zumindest den bereitgestellten Sensorgrößen erneut konfiguriert wird.
  10. Verfahren nach einem der vorherigen Ansprüche, wobei situativ anhand der Strategie eine Aktion ermittelt wird, wobei abhängig von der Aktion eine Steuergröße zum Ansteuern eines physikalischen Aktors mittels einer Steuereinheit (43) ermittelt wird.
  11. Verfahren nach Anspruch 10, wobei abhängig von der ermittelten Steuergröße ein wenigstens teilautonomer Roboter und/oder ein Fertigungssystem und/oder ein persönlicher Assistent und/oder ein Zugangssystem und/oder ein Überwachungssystem oder ein medizinisch bildgebendes System angesteuert wird.
  12. Vorrichtung, die eingerichtet ist, das Verfahren nach einem der vorherigen Ansprüche auszuführen.
  13. Computerprogramm, welches Befehle umfasst, die beim Ausführen dieser durch einen Computer, diesen veranlassen, das Verfahren nach einem der Anspruch 1 bis 11 auszuführen.
  14. Maschinenlesbares Speicherelement, auf welchem das Computerprogramm nach Anspruch 13 hinterlegt ist.
DE102018216561.0A 2018-09-27 2018-09-27 Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten Pending DE102018216561A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102018216561.0A DE102018216561A1 (de) 2018-09-27 2018-09-27 Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
CN201910927405.2A CN110955466A (zh) 2018-09-27 2019-09-27 用于测定智能体的策略的方法、装置和计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018216561.0A DE102018216561A1 (de) 2018-09-27 2018-09-27 Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten

Publications (1)

Publication Number Publication Date
DE102018216561A1 true DE102018216561A1 (de) 2020-04-02

Family

ID=69781509

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018216561.0A Pending DE102018216561A1 (de) 2018-09-27 2018-09-27 Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten

Country Status (2)

Country Link
CN (1) CN110955466A (de)
DE (1) DE102018216561A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021249616A1 (de) * 2020-06-08 2021-12-16 Siemens Aktiengesellschaft Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471731B (zh) * 2022-08-23 2024-04-09 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013244B2 (en) * 2003-02-10 2006-03-14 Dmitry Cherkassky Method and system for estimation of quantities corrupted by noise and use of estimates in decision making
GB0613955D0 (en) * 2006-07-13 2007-01-10 Bae Systems Plc Controller
DE102007017259B4 (de) * 2007-04-12 2009-04-09 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2249292A1 (de) * 2009-04-03 2010-11-10 Siemens Aktiengesellschaft Entscheidungsfindungsmechanismus, Verfahren, Modul und Roboter, der darauf konfiguriert ist, auf Grundlage mindestens einer perspektivischen Aktion des Roboters eine Entscheidung zu fällen
JP2011018245A (ja) * 2009-07-09 2011-01-27 Sony Corp 認識装置および方法、プログラム、並びに記録媒体
US8793119B2 (en) * 2009-07-13 2014-07-29 At&T Intellectual Property I, L.P. System and method for generating manually designed and automatically optimized spoken dialog systems
CN106096729B (zh) * 2016-06-06 2018-11-20 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN108255182B (zh) * 2018-01-30 2021-05-11 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
Bastian Bischoff, Duy Nguyen-Tuong, I-Hsuan Lee, Felix Streichert, Alois Knoll : Hierarchical Reinforcement Learning for Robot Navigation. In: ESANN 2013 proceedings, European Symposium on Artificial Neural Networks, Computational Intelligence, 2013, 227-232. http://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2013-19.pdf [abgerufen am 05.06.2019] *
Brechtel, Sebastian; Gindele, Tobias; Dillmann, Rüdiger: Solving Continuous POMDPs: Value Iteration with Incremental Learning of an Efficient Space Representation. In: ICML'13 Proceedings of the 30th International Conference on Machine Learning (ICML 2013), June 2013, 370-378. http://proceedings.mlr.press/v28/brechtel13.pdf [abgerufen am 05.06.2019] *
G. Agamennoni, J. I. Nieto and E. M. Nebot: Estimation of Multivehicle Dynamics by Considering Contextual Information. In: IEEE Transactions on Robotics, 28, Aug. 2012, 4, 855-870. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6196233&isnumber=6257464 [abgerufen am 05.06.2019] *
Meyer-Delius, D., Plagemann, C., Von Wichert, G., Feiten, W., Lawitzky, G., Burgard, W.: A probabilistic relational model for characterizing situations in dynamic multi-agent systems. In: Data analysis, machine learning and applications, 2008, 269-276. http://plagemann.net/bib/meyerdelius07gfkl.pdf [abgerufen am 05.06.2019] *
Peter Ondruska, Ingmar Posner:: Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks.. In: CoRR, 2016, 1-7. https://arxiv.org/abs/1602.00991v2 [abgerufen am 05.06.2019] *
S. Brechtel, T. Gindele and R. Dillmann: Probabilistic MDP-behavior planning for cars. In: 2011 14th International IEEE Conference on Intelligent Transportation Systems (ITSC), 2011, 1537-1542. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6082928&isnumber=6082792 [abgerufen am 05.06.2019] *
Sebastian Brechtel, Tobias Gindele, Rüdiger Dillmann: Probabilistic decision-making under uncertainty for autonomous driving using continuous POMDPs. In: 17th International IEEE Conference on Intelligent Transportation Systems (ITSC), 2014, 392-399. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6957722&isnumber=6957655 [abgerufen am 05.06.2019] *
T. Gindele, S. Brechtel and R. Dillmann: A probabilistic model for estimating driver behaviors and vehicle trajectories in traffic environments. In: 13th International IEEE Conference on Intelligent Transportation Systems, 2010, 1625-1631. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5625262&isnumber=5624963 [abgerufen am 05.06.2019] *
T. Gindele, S. Brechtel and R. Dillmann: Learning context sensitive behavior models from observations for predicting traffic situations. In: 16th International IEEE Conference on Intelligent Transportation Systems (ITSC 2013), 2013, 1764-1771. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6728484&isnumber=6728201 [abgerufen am 05.06.2019] *
T. Gindele, S. Brechtel and R. Dillmann: Learning Driver Behavior Models from Traffic Observations for Decision Making and Planning. In: IEEE Intelligent Transportation Systems Magazine, 7, 2015, 1, 69-79. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7014400&isnumber=7014394 [abgerufen am 05.06.2019] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021249616A1 (de) * 2020-06-08 2021-12-16 Siemens Aktiengesellschaft Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system

Also Published As

Publication number Publication date
CN110955466A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
WO2019063196A1 (de) Verfahren, vorrichtung und computerprogramm zum betreiben eines roboter-steuerungssystems
EP3523168A1 (de) Verfahren und vorrichtung zur fahrdynamikregelung für ein kraftfahrzeug
DE102019001948A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102018128289A1 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
EP3393875B1 (de) Verfahren zum verbesserten erkennen von objekten durch ein fahrerassistenzsystem
DE102018208763A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Betreiben eines maschinellen Lernsystems
DE102010013943A1 (de) Verfahren und Vorrichtung für eine Funktionsprüfung einer Objekt-Erkennungseinrichtung eines Kraftwagens
EP4212980A1 (de) Fahrassistenzeinrichtung und verfahren zum durchführen einer wenigstens teilautomatischen fahrzeugfunktion in abhängigkeit von einer zu bewertenden fahrstrecke
DE102018216561A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
DE102018128535B4 (de) Trainieren eines künstlichen neuronalen Netzwerks mit durch Sensoren eines Fahrzeugs erfassten Daten
DE102021203589A1 (de) Verfahren und Steuergerät zum Erkennen eines Fahrstils
DE102019209457A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm, maschinenlesbares Speichermedium und entsprechende Vorrichtung
DE102016120066A1 (de) Computer-implementiertes Verfahren zum Kontrollieren bzw. Testen eines Objekterkennungssystems
DE102021203587A1 (de) Verfahren und Vorrichtung zum Trainieren eines Stilencoders eines neuronalen Netzwerks und Verfahren zum Erzeugen einer einen Fahrstil eines Fahrers abbildenden Fahrstilrepräsentation
AT523834B1 (de) Verfahren und System zum Testen eines Fahrerassistenzsystems
DE112018006236T5 (de) Verwendung eines Hilfsmotors eines Servolenkungssystems zum Erzeugen von Testzyklen gemäß einem Positionsbestimmungszyklus
DE102017104357A1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur bewegungsplanung für ein kraftfahrzeug
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
DE102020205962B3 (de) Vorrichtung und Verfahren zum Betreiben eines Prüfstands
EP3650964B1 (de) Verfahren zum steuern oder regeln eines technischen systems
WO2021245151A1 (de) Unüberwachtes lernen einer gemeinsamen darstellung von daten von sensoren unterschiedlicher modalität
WO2021191120A1 (de) VERFAHREN ZUR BESTIMMUNG EINES WERTES EINER REGLERGRÖßE
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
DE102019217225A1 (de) Verfahren zum Trainieren eines maschinellen Lernsystems für eine Objekterkennungsvorrichtung
DE102019216184A1 (de) Verfahren zum Robustifizieren eines Neuronalen Netzes gegen adversariale Störungen

Legal Events

Date Code Title Description
R163 Identified publications notified
R082 Change of representative

Representative=s name: BANSE & STEGLICH PATENTANWAELTE PARTMBB, DE

R081 Change of applicant/patentee

Owner name: ROBERT BOSCH GMBH, DE

Free format text: FORMER OWNER: ROBERT BOSCH GMBH, 70469 STUTTGART, DE

R082 Change of representative

Representative=s name: BANSE & STEGLICH PATENTANWAELTE PARTMBB, DE

R081 Change of applicant/patentee

Owner name: ROBERT BOSCH GMBH, DE

Free format text: FORMER OWNERS: ROBERT BOSCH GMBH, 70469 STUTTGART, DE; TECHNISCHE UNIVERSITEIT DELFT, DELFT, NL

R082 Change of representative

Representative=s name: BANSE & STEGLICH PATENTANWAELTE PARTMBB, DE