DE102018216561A1

DE102018216561A1 - Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten

Info

Publication number: DE102018216561A1
Application number: DE102018216561.0A
Authority: DE
Inventors: Elise van der Pol; Frans A. Oliehoek; Max Welling; Christian Daniel; Michael Herman
Original assignee: Robert Bosch GmbH; Technische Universiteit Delft
Current assignee: Robert Bosch GmbH
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-02
Also published as: CN110955466A

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln einer Strategie eines Agenten. Der Agent führt situativ anhand der Strategie Aktionen aus, sodass der Agent mittels der ausgeführten Aktionen autonom ein vorgebbares Ziel erreicht. Das Verfahren umfasst folgende Schritte. Zuerst wird die Umwelt des Agenten exploriert. Daraufhin wird ein Modell der Umwelt anhand der Exploration erstellt. Das Modell weißt eine diskrete Zustandsgröße und eine kontinuierliche Zustandsgröße auf, die verwendet werden, um eine geschätzte Sensorgröße zu ermitteln. In einem weiteren Schritt wird die Strategie anhand des erstellten Modells ermittelt. Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des Verfahrens und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.

Description

Technisches Gebiet
Die Erfindung betrifft ein Verfahren zum Ermitteln einer Strategie eines Agenten mittels eines Modells einer Umwelt des Agenten. Ebenso betrifft die Erfindung eine Vorrichtung und ein Computerprogramm, die jeweils eingerichtet sind, das Verfahren auszuführen.
Stand der Technik
Es ist bekannt, dass mittels bestärkenden Lernens (engl. reinforcement learning) ein Agent eigenständig eine Strategie (engl. policy) erlernt, um eine vorgebbare Aufgabe zu lösen. Der Agent exploriert seine Umwelt und eignet sich hierdurch Wissen über seine Umwelt an. Anhand dieses Wissens kann der Agent situativ Aktionen (engl. actions) planen, um die vorgebbare Aufgabe zu lösen. Nachteilig hierbei ist, dass viele Daten durch die Exploration benötigt werden, um ein zuverlässiges Wissen über die Umwelt aufzubauen.
Die nicht-vorveröffentlichte DE 10 2017 218 811.1 offenbart ein Verfahren zum Betreiben eines Aktorregelungssystems, welches zum Regeln einer Regelungsgröße eines Aktors auf eine vorgebbare Sollgröße eingerichtet ist. Das Aktorregelungssystem ist ferner eingerichtet, abhängig von einer eine Regelungsstrategie charakterisierenden Größe, eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern.
Die nicht-vorveröffentlichte DE 10 2017 218 813.8 offenbart ein Verfahren zum automatischen Einstellen mindestens eines Parameters eines Aktorregelungssystems. Das Aktorregelungssystem ist unter anderem eingerichtet, abhängig von mindestens einem Parameter, einer Sollgröße und einer Regelungsgröße, eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern, wobei ein neuer Wert des mindestens eines Parameters abhängig von einer stationären Wahrscheinlichkeitsverteilung der Regelungsgröße ermittelt wird.
Offenbarung der Erfindung
In einem ersten Aspekt wird ein Verfahren zum Ermitteln einer Strategie eines Agenten, insbesondere eines Roboters vorgestellt. Der Agent kann situativ anhand der Strategie Aktionen ausführen, sodass der Agent mittels dieser ausgeführten Aktionen autonom ein vorgebbares Ziel erreicht. Das Verfahren gemäß Anspruch 1 umfasst unter anderem folgende Schritte: In einem ersten Schritt wird eine Umwelt des Agenten anhand vorgebbarer Aktionen, die der Agent ausführt, exploriert. Beim Explorieren wird jeweils nach den ausgeführten vorgebbaren Aktionen des Agenten die Umwelt mittels wenigstens eines Sensors erfasst und jeweils als eine Sensorgröße bereitgestellt. Die Sensorgrößen sind optional jeweils einer der ausgeführten vorgebbaren Aktionen zugeordnet. Eine Parametrisierung des Modells der Umwelt wird basierend auf den Sensorgrößen und den ausgeführten vorgebbaren Aktionen konfiguriert. Die Parametrisierung des Modells wird derart konfiguriert, dass sich jeweils geschätzte Sensorgrößen, die das Modell jeweils in Abhängigkeit der ausgeführten vorgebbaren Aktionen ermittelt, den jeweils bereitgestellten Sensorgrößen angleichen. Das Modell ist dann eingerichtet, jeweils abhängig von den ausgeführten vorgebbaren Aktionen des Agenten und insbesondere einer Sensorgröße, eine diskrete Zustandsgröße der Umwelt zu ermitteln und jeweils in Abhängigkeit der diskreten Zustandsgröße und insbesondere abhängig von Parametern einer kontinuierlichen Zustandsgröße, eine geschätzte Sensorgröße zu ermitteln. Das Ermitteln der Strategie erfolgt in Abhängigkeit zumindest einer Abfolge möglicher Aktionen und wenigstens einer Belohnung, wobei die möglichen Aktionen mittels des Modells ermittelt werden.
Unter situativ kann „in Abhängigkeit der mittels des Sensors erfassten Umwelt“ verstanden werden. Unter Angleichen kann verstanden werden, dass beim Konfigurieren des Modells der Umwelt im Wesentlichen unter Berücksichtigung einer Mächtigkeit des Modells und eines Aufwandes zum Auffinden einer geeigneten Parametrisierung des Modells, jeweils zu den bereitgestellten Sensorgrößen ähnliche geschätzte Sensorgrößen durch das Modell ermittelt werden.
Der Vorteil des Verfahrens ist, dass das Modell nur einen Zusammenhang zwischen Aktionen und daraus resultierenden diskreten Zustände erlernen muss, anstatt einen Zusammenhang zwischen den Aktionen und daraus resultierenden Auswirkungen auf die erfasste Umwelt. Dadurch kann gezielter Wissen über Zusammenhänge zwischen den Aktionen und der Umwelt erlernt werden. Ein weiterer Vorteil ist, dass weniger erfasste Sensorgrößen benötigt werden, um das Modell zu erstellen, da der Zusammenhang der Aktionen auf die diskretisierte Umwelt schneller bestimmt werden kann, als ein Zusammenhang der Aktionen auf eine kontinuierliche Umwelt, da die Aktionen signifikant mehr mögliche Auswirkungen auf die kontinuierliche Umwelt haben können. Dies wirkt sich auch vorteilhaft auf den Rechenaufwand aus, da dieser proportional zu den Sensorgrößen ist. Es kann daher gesagt werden, dass mittels der diskreten Zustandsgröße und insbesondere abhängig von Parametern einer kontinuierlichen Zustandsgröße, der Aufwand zum Erstellen des Modells reduziert und folglich auch eine Trainingsdauer reduziert werden kann.
Ferner lassen sich komplexe, hochdimensional Problem mit unbekannten Dynamiken der Umwelt gezielter durch die diskrete Zustandsgröße abbilden, wodurch ein genaueres Modell der Umwelt erstellt werden kann.
Vorteilhaft ist ferner, dass beim Betreiben des Modells, die Auswirkung der Aktionen des Agenten auf die Umwelt durch das Ermitteln der diskreten Zustandsgröße abhängig von den Aktionen ressourceneffizient ermittelt werden kann.
Weiterhin wird vorgeschlagen, dass das Modell abhängig von der diskreten Zustandsgröße eine Belohnung ermittelt. Vorteilhafterweise ist beim Ermitteln der Strategie das Erreichen des vorgebbaren Ziels mit einer hohen Belohnung verbunden.
Belohnungen sind schwer zu ermitteln, da diese meist in einem stark nichtlinearen Zusammenhang mit den Aktionen des Agenten stehen. Der Vorteil des Verfahrens hierbei ist, dass das Ermitteln der Belohnung aus der diskreten Zustandsgröße einfacher erlernt werden kann. Vorteilhaft ist ferner, dass bspw. auch ein sogenanntes Q-Lernen (engl. Q-Learning) angewendet werden kann.
Weiterhin wird vorgeschlagen, dass die kontinuierliche Zustandsgröße zusätzlich a-priori Wissen über die Umwelt charakterisiert.
Ferner wird vorgeschlagen, dass die kontinuierliche Zustandsgröße Informationen oder zusätzliches Wissen über die Umwelt aufweist, die zur Ermittlung der, insbesondere kontinuierlichen und höherdimensionalen, geschätzten Sensorgröße abhängig von der diskreten Zustandsgröße verwendet werden können, z.B. zusätzliche Größen, die die diskrete Zustandsgröße präzisieren. Zusätzlich oder alternativ kann die kontinuierliche Zustandsgröße einen Einfluss der diskreten Zustandsgröße auf die geschätzte Sensorgröße charakterisiert oder einen verborgenen Zustand der Umwelt charakterisieren.
Weiterhin wird vorgeschlagen, dass das Modell aus einem Autoencoder, insbesondere einem Variational Autoencoder, oder einem Verbund aus mehreren Autoencoder besteht.
Weiterhin wird vorgeschlagen, dass der Agent die Umwelt anhand der Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt exploriert, wobei das erstellte Modell abhängig von zumindest den bereitgestellten Sensorgrößen angepasst wird.
Zusätzlich oder alternativ kann die Strategie verwendet werden, um eine Steuergröße des Agenten oder eines Aktors zu ermitteln, wobei der Agent der Aktor sein kann. Der Aktor kann zum Beispiel eine zumindest teilautonome Maschine, ein zumindest teilautonomes Fahrzeug, ein Roboter, ein Werkzeug, eine Werkmaschine oder ein Flugobjekt, wie eine Drohne sein.
In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen.
Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
Figurenliste

1 eine schematische Darstellung eines intelligenten Agentensystems, das mit seiner Umwelt interagieren kann;
2 eine schematische Darstellung eines ersten Aufbaus eines Probabilistischen Graphischen Modells;
3 eine schematische Darstellung eines zweiten Aufbaus des Probabilistischen Graphischen Modells;
4 eine schematische Darstellung eines zumindest teilautonomen Fahrzeuges, welches das intelligente Agentensystem umfasst;
5 eine schematische Darstellung einer Ausführungsform eines Verfahrens zum Ermitteln einer Strategie des intelligenten Agentensystems;
6 eine schematische Darstellung einer Vorrichtung zum Anlernen des Probabilistischen Graphischen Modells.

1 zeigt eine schematische Darstellung eines intelligenten Agentensystems (10). Das intelligente Agentensystem (10) ist eingerichtet, selbständig durch Explorieren, zweckgemäß durch Interagieren mit, einer Umwelt (11) eine Strategie (engl. policy) zu erlernen. Abhängig von der Strategie und einer erfassten Sensorgröße (x) ermittelt ein Entscheidungsmodul (12) eine optimale Aktion (a).
In einer weiteren Ausführungsform des intelligenten Agentensystems (10), weist das Entscheidungsmodul (12) ein Probabilistisches Graphisches Modell (engl. Probabilistic Graphic Model, PGM) auf, das vorzugsweise ein Markov-Entscheidungsprozess (engl. Markov Decision Process, MDP) modelliert. Das intelligente Agentensystem (10) exploriert in dieser Ausführungsform die Umwelt (11) und abhängig von der Exploration wird das Probabilistische Graphische Modell (PGM) erstellt. Das PGM modelliert die Umwelt (11) und Auswirkungen der Aktionen (a) auf die Umwelt (11). Daraufhin kann das intelligente Agentensystem (10) anhand des PGM die Strategie ermitteln, um die geeigneten Aktionen (a) für jeweils gegebene Sensorgrößen (x) zu ermitteln. Das PGM kann durch eine Mehrzahl von Parametern (P) konfiguriert sein, die in einem Speicher (13) hinterlegt sind.
Die ermittelte Aktion (a) des Entscheidungsmoduls (12) kann an einen Aktor (A) weitergeleitet werden. Der Aktor (A) führt daraufhin abhängig von der ermittelten Aktion (a) eine Interaktion mit der Umwelt (11) durch. Die Interaktion kann zum Explorieren der Umwelt (11) oder zum Lösen der vorgebbaren Aufgabe dienen.
Ferner umfasst das intelligente Agentensystem (10) eine Recheneinheit (14) und ein maschinenlesbares Speicherelement (15). Auf dem Speicherelement (15) kann ein Computerprogramm gespeichert sein, welches Befehle umfasst, die beim Ausführen der Befehle auf der Recheneinheit (14) dazu führen, dass mittels der Recheneinheit (14) das intelligente Agentensystem (10) betrieben wird.
2 zeigt eine schematische Darstellung einer ersten zeitlichen Abwicklung (engl. rollout) (20) von Berechnungen des PGM.
Das PGM ist in dieser Ausführungsform eingerichtet, die Umwelt (11) des intelligenten Agentensystems (10), insbesondere die Auswirkungen und/oder Veränderungen der Umwelt (11) durch die Aktionen (a), zu beschreiben. Das PGM kann sowohl statische Eigenschaften (z.B. Anordnungen) der Umwelt (11) als auch Dynamiken, insbesondere Reaktionen der Umwelt (11) auf Aktionen (a) des intelligenten Agentensystems (10) und/oder der Objekte, beschreiben, zweckgemäß auch deren Veränderung nach einer Interaktion des intelligenten Agentensystems (10) mit der Umwelt (11).
Dass das PGM die Umwelt (11) möglichst genau und mit geringem Rechenaufwand beschreiben kann, werden zumindest zwei Hilfsgrößen, eine diskrete Zustandsgröße (B) und eine kontinuierliche Zustandsgröße (z), eingeführt. Die diskrete Zustandsgröße (B) wird verwendet, um mittels einer niederdimensionalen Darstellung, wie einer Mehrzahl von Klassen, die Umwelt (11) zu charakterisieren. Die kontinuierliche Zustandsgröße (z) wird benötigt, um die Informationen der diskreten Zustandsgröße (B) derart umzuwandeln, dass aus der diskreten Zustandsgröße eine detaillierte, zweckgemäß eine kontinuierliche und mehrdimensionale, Darstellung (s) der Umwelt (11) ermittelt wird, die einer erfassten Umwelt mittels des Sensors (S) entsprechen kann. Idealerweise ist die Darstellung (s) eine geschätzte Sensorgröße, die der Sensor (S) aufgrund der ausgeführten Aktion (a) erfassen würde.
Das PGM ermittelt zu einem jedem Zeitpunkt t eine diskrete Zustandsgröße (B_t ). Dies ist in 2 durch die Kreise mit Beschriftung (B_t-1 ,B_t ,B_t+1 ) und dem Zeitindex t - 1, t, t + 1 dargestellt. Jeweils abhängig von der diskreten Zustandsgröße (B_t ) und abhängig von einer kontinuierlichen Zustandsgröße (z_t ) wird eine messbare Darstellung (s_t ) ermittelt. Abhängig von der messbaren Darstellung (s_t ) wird daraufhin eine Aktion (α_t ) bestimmt. Anschließend wird eine neue diskrete Zustandsgröße (B_t+1 ) bestimmt, aus der wiederum eine neue messbare Darstellung (s_t+1 ) erzeugt werden kann.
Beispielsweise ermittelt das PGM zum Zeitpunkt t eine diskrete Zustandsgröße (B_t ), insbesondere abhängig von einer Aktion (α_t-1 ) und einer messbaren Darstellung (s_t-1 ) oder der erfassten Sensorgröße (x). Dies ist in 2 durch den Pfeil von dem Kreis mit Beschriftung (s_t-1 ) zu dem Kreis mit der Beschriftung (α_t-1 ) dargestellt. Abhängig von dieser eben ermittelten diskreten Zustandsgröße (B_t ) und abhängig von der kontinuierlichen Zustandsgröße (z_t ) wird eine messbare Darstellung (s_t ) der Umwelt (11) ermittelt. Die kontinuierliche Zustandsgröße (z_t ) wird dabei nach 2 abhängig von der diskreten Zustandsgröße (B_t ) ermittelt. Die messbare Darstellung (s_t ) kann eine geschätzte Sensorgröße der Umwelt (11) sein, die der Sensor zu diesem Zeitpunkt t, nachdem die Aktion (α_t-1 ) ausgeführt wurde, erfasst hätte.
In Abhängigkeit der messbaren Darstellung (s_t ) kann das PGM Aktion (α_t ) ermitteln. Dies ist in 2 durch den Pfeil von dem Kreis mit Beschriftung (s_t ) zu dem Kreis mit der Beschriftung (α_t ) dargestellt. Wie durch den nachfolgenden Pfeil aus dem Kreis mit der Beschriftung (α_t ) dargestellt, kann das PGM dann abhängig von der ermittelten optimalen Aktion (α_t ), eine nachfolgende diskrete Zustandsgröße (B_t+1 ) zum Zeitpunkt t + 1 ermitteln.
Auf diese Weise kann mittels des PGM eine Abfolge von Aktionen und Reaktionen der Umwelt auf die jeweiligen Aktionen ermittelt werden, indem jeweils Aktionen abhängig von den messbaren Darstellungen (s) ermittelt werden. Daraus wird dann die diskrete Zustandsgröße (B) ermittelt, aus der wiederum eine messbare Darstellung ermittelt werden kann. Dies erlaubt es, mehrere Aktionen zu planen, vorteilhafterweise auch um zu beurteilen, ob die Aktionen zu einem gewünschten Ergebnis führen.
Vorteilhafterweise ermittelt das PGM abhängig von jeweils den diskreten Zustandsgrößen (B_t ) eine Belohnung (engl. reward). Die Belohnung (r_t ) kann zum Ermitteln der Strategie verwendet werden, um die optimale Aktion (α_t ) gegeben der jeweiligen messbaren Darstellung (s_t ) zu ermitteln. Beispielsweise kann die Strategie abhängig von der Belohnung (r_t ) ermittelt werden, indem eine Summe von Belohnungen der Aktionen oder eine Gesamtbelohnung maximiert wird.
In einem weiteren Ausführungsbeispiel des PGM, kann, wie in 2 durch die Pfeile zwischen den diskreten Zuständen dargestellt, des Weiteren die diskreten Zustandsgrößen abhängig von jeweils zumindest einer vorhergehenden diskreten Zustandsgröße (B_t-1 ) ermittelt werden.
3 zeigt eine schematische Darstellung, insbesondere einer zweiten zeitlichen Abwicklung (30), von Berechnungen des PGM. Die zweite zeitliche Abwicklung (30) unterscheidet sich zu der ersten zeitlichen Abwicklung (20) dahingehend, dass die kontinuierliche Zustandsgröße (z) nicht abhängig von der diskreten Zustandsgröße (B) ermittelt wird.
Eine Funktionsweise des PGM und eine mögliche Bedeutung der kontinuierlichen Zustandsgröße (z) und der diskreten Zustandsgröße (B) nach 2 und 3 soll beispielhaft im Folgenden näher erläutert werden. Das intelligente Agentensystem (10) soll in einem Fahrzeug verwendet werden, welches die Aufgabe hat, eine Autobahn zu verlassen. Das intelligente Agentensystem (10) exploriert hierfür zuerst die Umwelt (11). Anschließend wird das PGM erstellt. Dabei kann die diskrete Zustandsgröße (B) z.B. einen Zustand Geschwindigkeit (langsam, mittel, hoch) des Fahrzeugs und/oder die Fahrbahnspur (rechts, links, mittig) und/oder eine Entfernung (parallel zur Ausfahrt, kurz vor Ausfahrt, Ausfahrt weit entfernt) charakterisieren. Die kontinuierliche Zustandsgröße (z) kann die diskrete Zustandsgröße (B) genauer spezifizieren und/oder andere Merkmale hinzufügen, wie z.B. eine latente Geschwindigkeitsverteilung abhängig von der diskreten Zustandsgröße (B) (p(v|v_diskret=langsam)) und/oder eine Verteilung über Entfernungen innerhalb einer Entfernungsklasse (bspw.: p(dle=parallel zur Ausfahrt). Zusätzlich oder alternativ kann die kontinuierliche Zustandsgröße (z) eine Verteilung über Abstände zu benachbarten Fahrzeugen p(d_backlv=mittel, s=links, e=kurz vor Ausfahrt) charakterisieren. Die messbare Darstellung (s) kann eine observierbare kontinuierliche Größe p(slz, B) sein. Z.B. kann die messbare Darstellung (s) ein Bild einer Kamera des Fahrzeugs sein. Mittels dieses PGM kann eine Strategie ermittelt werden, sodass das Fahrzeug anhand von Aktionen (z.B. Spurwechsel, Geschwindigkeitsreduktion) die Autobahn verlässt.
4 zeigt eine schematische Darstellung eines zumindest teilautonomen Roboters, welcher in einem ersten Ausführungsbeispiel durch ein zumindest teilautonomes Fahrzeug (40) gegeben ist. In einem weiteren Ausführungsbeispiel kann der zumindest teilautonome Roboter ein Service-, Montage- oder stationärer Produktionsroboter, alternativ ein autonomes Flugobjekt, wie eine Drohne, sein.
Das zumindest teilautonome Fahrzeug (40) weist eine Kamera (41) als Sensor (S) auf, welche die Umwelt (11) des Fahrzeugs (40) erfasst. Zusätzlich oder alternativ kann als Sensor (S) ein Radar verwendet werden. Die Kamera (11) ist mit dem intelligenten Agentensystem (10) verbunden. Das intelligente Agentensystem (10) ermittelt abhängig von einem bereitgestellten Bild der Kamera (11) eine Aktion (a). Diese Aktion (a) wird an den Aktor (A), in 4 durch eine Steuerungseinheit (43) gegeben, weitergeleitet.
Die Steuerungseinheit (43) steuert in Abhängigkeit der Aktion (a) zum Beispiel ein Motor oder ein Bremssystem des Fahrzeugs (40) derart, dass das Fahrzeug (40) ein Manöver, wie ein Spurwechsel, ausführt.
Zum Beispiel kann, wie oben erläutert, eine Aufgabe des Fahrzeugs sein, eine Autobahn zu verlassen. Das intelligente Agentensystem (10) steuert daraufhin das Fahrzeug und damit die Umwelt (11), in diesem Fall die Autobahn, zu erkunden. Nachdem das intelligente Agentensystem (11) seine Umwelt (11) kennt, kann es Aktionen ermitteln, um das Fahrzeug zu einer Ausfahrt zu steuern und über diese Ausfahrt die Autobahn zu verlassen. Nachdem das intelligente Agentensystem (11) weiß, wie es sich zu verhalten hat, kann das Fahrzeug beim nächsten Verlassen der Autobahn auf das Wissen zurückgreifen und die erforderlichen Aktionen anhand der erfassten Bilder ausführen.
In einem weiteren Ausführungsbeispiel des zumindest teilautonomen Roboters wird das Bild der Kamera (11) an einen Server übertragen. Das intelligente Agentensystem (10) wird auf dem Server betrieben und die ermittelte optimale Aktion (a) wird anschließend zurück übermittelt und der Steuerungseinheit (43) bereitgestellt.
In einem weiteren Ausführungsbeispiel kann der teilautonome Roboter ein Werkzeug, eine Werkmaschine oder ein Fertigungsroboter sein. Abhängig von dem gewünschten Einsatz, kann das intelligente Agentensystem (10) Aktionen (a) bestimmen, um bspw. das Werkstück optimal zu bearbeiten. Der Aktor kann hierbei z.B. ein Motor, der einen Schleifkopf betreibt, sein.
In einem alternativen Ausführungsbeispiel kann das intelligente Agentensystem (10), dass in diesem Ausführungsbeispiel mit einem Temperatursensor verbunden sein kann, für eine Gebäudesteuerung eingesetzt werden. Das intelligente Agentensystem (10) kann dann eingerichtet sein, abhängig von dem Temperatursensor eine Klimaanlage oder ein Heizungssystem zu steuern.
Es ist auch denkbar, dass das intelligente Agentensystem in der Medizintechnik eingesetzt wird. Beispielsweise kann das intelligente Agentensystem (10) abhängig von einer erfassten Vitalfunktion eines Patienten eine optimale Dosierung eines Medikamentes oder eine optimale Behandlungs-/Therapiemethode vorschlagen. Beispielsweise kann ein Bild eines menschlichen oder tierischen Körpers oder eines Teils davon erfasst und dem intelligenten Agentensystem (10) bereitgestellt werden. Z.B. kann dies mittels eines optischen Signals, mittels eines Ultraschallsignals, oder mittels eines MRT/CT-Verfahrens erfolgen. Alternativ oder zusätzlich kann eine gemessene Vitalfunktion, beispielsweise der Puls oder die Körpertemperatur dem intelligenten Agentensystem (10) zur Verfügung gestellt werden. Zusätzlich oder alternativ kann ein Arzt dem intelligenten Agentensystem (10) durch manuelle Eingabe von einer einen Patienten charakterisierenden Größe dem intelligenten Agentensystem (10) als Eingangsgröße bereitstellen. Vorzugsweise stellt das PGM hierbei den Einfluss der Behandlungsmaßnahmen auf den Patienten dar.
5 zeigt eine schematische Darstellung eines Verfahrens (50) zum Ermitteln der Strategie und optional nachgelagerte Schritte zum Betreiben des intelligenten Agentensystems (10).
Das Verfahren beginnt mit Schritt 51. In Schritt 51 wird eine Exploration der Umwelt (11) ausgeführt. Die Exploration wird entweder zufällig oder anhand von Vorwissen oder anhand einer vorgebbaren Abfolge von Aktionen, die jeweils zu einem Zeitpunkt t aus einer Abfolge T von Zeitpunkten zugeordnet sein können, durchgeführt. Vorzugsweise werden die Aktionen und daraufhin erfassten Sensorgrößen gespeichert und als Trainingsdaten bereitgestellt. Vorteilhafterweise wird auch eine Belohnung zu jedem Zeitpunkt t ermittelt oder gemessen und ergänzend zu den Trainingsdaten hinterlegt.
Daraufhin wird Schritt 52 ausgeführt. Hierin wird eine Parametrisierung des PGM abhängig von den bereitgestellten Trainingsdaten aus Schritt 51 konfiguriert. Das PGM wird derart konfiguriert, dass es das Verhalten der Umwelt (11) auf die Aktionen (a) richtig vorhersagt, insbesondere, dass das PGM abhängig von den Aktionen die Sensorgrößen der Trainingsdaten richtig ermittelt.
Ein Aufbau des PGM kann in Schritt 52 gewählt werden, bevor die Parametrisierung konfiguriert wird. Entweder hat das PGM einen Aufbau nach 2 oder 3, bei der die kontinuierliche Zustandsgröße (z) jeweils un- oder abhängig von der diskreten Zustandsgröße (B) ist. Alternativ können zwei PGM, jeweils gemäß 2 und 3, erstellt werden. Es sei angemerkt, dass nach dem Erstellen der zwei PGM, eines der zwei PGM anhand vorgebbarer Kriterien (vgl. Schritt 52 „ELBO“) ausgewählt werden kann.
Abhängig von der Wahl des Aufbaus des PGM, kann das PGM mit nachfolgenden Gleichungen angelernt werden, um die jeweiligen Größen (B,z,s) zu ermitteln, insbesondere eine geeignete Konfiguration der Parameter des PGM zu bestimmen. Für den Aufbau des PGM nach 2 wird vorzugsweise eine Evidence Lower Bound (ELBO) verwendet: $\begin{array}{l} l o g p (τ) \geq \sum_{B_{0}} q_{φ} (B_{0} | s_{0}) l o g [\frac{p_{θ} (B_{0})}{q_{φ} (B_{0} | s_{0})}] \\ + \sum_{t = 0}^{T} \sum_{B_{t - 1}} \sum_{B_{t}} q_{φ} (B_{t - 1} | s_{t - 1}) q_{φ} (B_{t} | s_{t}) log [\frac{p_{θ} (B_{t} | B_{t - 1}, a_{t - 1})}{q_{φ} (B_{t} | s_{t})}] \\ \begin{matrix} + \sum_{t = 0}^{T} \sum_{B_{t}} \int_{z_{t}} q_{φ} (B_{t} | s_{t}) q_{φ} (z_{t} | B_{t}, s_{t}) log [\frac{p_{θ} (z_{t} | B_{t})}{q_{φ} (z_{t} | B_{t}, s_{t})}] d z_{t} \\ + \sum_{t = 0}^{T} \sum_{B_{t}} \int_{z_{t}} q_{φ} (B_{t} | s_{t}) q_{φ} (z_{t} | B_{t}, s_{t}) [{log p}_{θ} (r_{t} | B_{t}) + log p_{θ} (s_{t} | B_{t}, z_{t})] d z_{t} \\ + \sum_{t = 0}^{T} log p (a_{t} | s_{t}) \end{matrix} \end{array}$
Wobei p_θ eine Wahrscheinlichkeitsverteilung ist und die Pfeile in 2 darstellt und durch θ parametrisiert wird und q_φ ist eine Wahrscheinlichkeitsverteilung, die insbesondere entgegengesetzte Pfeile der abgebildeten Pfeile aus 2 darstellt. Der vorteilhafte Effekt der entgegengesetzten Pfeile ist, dass dadurch das PGM schneller erstellt werden kann.
Für den Aufbau des PGM nach 3, wird zum Erstellen des PGM ebenfalls die Evidence Lower Bound (ELBO) mit einer leichten Modifikation verwendet: $\begin{matrix} l o g p (τ) \geq \sum_{B_{0}} q_{φ} (B_{0} | s_{0}) l o g [\frac{p_{θ} (B_{0})}{q_{φ} (B_{0} | s_{0})}] \\ + \sum_{t = 0}^{T} \sum_{B_{t - 1}} \sum_{B_{t}} q_{φ} (B_{t - 1} | s_{t - 1}) q_{φ} (B_{t} | s_{t}) log [\frac{p_{θ} (B_{t} | B_{t - 1}, a_{t - 1})}{q_{φ} (B_{t} | s_{t})}] \\ + \sum_{t = 0}^{T} \sum_{B_{t}} \int_{z_{t}} q_{φ} (B_{t} | s_{t}) q_{φ} (z_{t} | B_{t}, s_{t}) log [\frac{p_{θ} (z_{t})}{q_{φ} (z_{t} | B_{t}, s_{t})}] d z_{t} \\ + \sum_{t = 0}^{T} \sum_{B_{t}} \int_{z_{t}} q_{φ} (B_{t} | s_{t}) q_{φ} (z_{t} | B_{t}, s_{t}) [{log p}_{θ} (r_{t} | B_{t}) + log p_{θ} (s_{t} | B_{t}, z_{t})] d z_{t} \\ + \sum_{t = 0}^{T} log p (a_{t} | s_{t}) \end{matrix}$
Wenn in Schritt 52 zwei PGM jeweils nach 2 und 3 erstellt werden, kann anhand der ELBO verglichen werden, welches der PGMs besser geeignet ist, zweckgemäß dasjenige PGM mit der größeren ELBO.
Nachdem Schritt 52 abgeschlossen wurde, folgt Schritt 53. Hierin wird die Strategie anhand des erstellten PGM ermittelt. Hierfür wird zumindest eine Abfolge von möglichen Aktionen und zugehörigen geschätzten Sensorgrößen durch das PGM ermittelt.
In Schritt 53 kann abhängig von der Abfolge der möglichen Aktionen die Strategie durch eine sogenannte „Value-Iteration“ ermittelt werden.
Im nachfolgenden optionalen Schritt 54 wird die ermittelte Strategie aus Schritt 53 verwendet, um die Umwelt (11) erneut zu explorieren. Zusätzlich kann zum Explorieren eine zusätzliche Strategie verwendet werden. Wie in Schritt 51 kann das Explorieren der Umwelt (11) aufgezeichnet werden. Daraufhin kann das erstellte PGM abhängig von der aufgezeichneten erneuten Exploration, z.B. mit Schritt 52, angepasst werden, sodass das PGM die Umwelt (11) genauer abbildet.
Wenn keine Anpassung des PGM durchgeführt werden muss, da bspw. das PGM abhängig von den möglichen Aktionen die Umwelt ausreichend genau abbildet, wird eine finale Strategie ermittelt, die bspw. anschließend von dem Entscheidungsmodul (12) verwendet wird, um die vorgebbare Aufgabe zu lösen.
Nachdem das Verfahren (50) mit Schritt 54 beendet wurde, kann das Verfahren (50) beispielhaft zyklisch mit Schritt 52 wieder begonnen werden, wenn beispielsweise festgestellt wird, dass das PGM zu ungenau ist oder, wenn das PGM für eine weitere Anwendung und/oder Aufgabe angepasst werden soll.
Denkbar ist auch, dass die Exploration mittels des intelligenten Agentensystems (10), z.B. mittels des Fahrzeugs (40), aufgezeichnet und an einen Server übermittelt wird, der dann die Schritte 52, 53 und gegebenenfalls Teile des Schrittes 54 ausführt. Der Server sendet ein Ergebnis, z.B. das angelernte PGM oder die Strategie zurück.
Nachdem das Verfahren 50 abgeschlossen ist, wird optional das intelligente Agentensystem (10) mit der Strategie betrieben bspw. das Fahrzeug (40) abhängig von den Aktionen gesteuert.
6 zeigt eine schematische Darstellung einer Vorrichtung (60) zum Erstellen des PGM, insbesondere zum Ausführen des Schrittes 52 des Verfahrens 50. Die Vorrichtung (60) umfasst ein Trainingsmodul (61) und das Entscheidungsmodul (12). Die Vorrichtung (60) lernt abhängig von bereitgestellten Trainingsdaten das PGM an. Zweckgemäß umfassen die Trainingsdaten eine Mehrzahl von erfassten Bildern und zugehörige ausgeführte Aktionen, denen vorteilhafterweise jeweils eine Belohnung zugeordnet ist. Während des Anlernens werden Parameter (P) des PGM, die in einem Speicher (13) hinterlegt sind, angepasst.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017218811 [0003]
DE 102017218813 [0004]

Claims

Verfahren zum Ermitteln einer Strategie eines Agenten, insbesondere eines Roboters, sodass dann, wenn der Agent situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht wird, wobei die Strategie in Abhängigkeit zumindest einer Abfolge möglicher Aktionen (α_t-1, α_t, α_t+1) und wenigstens einer Belohnung (r_t) ermittelt wird, wobei jeweils die möglichen Aktionen (α_t-1, α_t, α_t+1) mittels eines parametrisierbaren Modells (PGM), insbesondere des Agenten, ermittelt werden, wobei das besagte Modell (PGM) eingerichtet ist, in Abhängigkeit einer Parametrisierung und einer Aktion des Agenten eine diskrete Zustandsgröße (B_t) zu ermitteln, welche wenigstens einen Zustand der Umwelt und/oder des Agenten charakterisiert und für jede Klasse aus einer Mehrzahl vorgebbarer Klassen charakterisiert, ob der wenigstens eine Zustand der jeweiligen Klasse angehört, wobei das besagte Modell (PGM) des Weiteren eingerichtet ist, in Abhängigkeit der Parametrisierung und der diskreten Zustandsgröße (B_t) eine geschätzte Sensorgröße (s_t) zu ermitteln, umfassend folgende Schritte: - Explorieren der Umwelt (11) anhand vorgebbarer Aktionen, die der Agent ausführt, wobei beim Explorieren nach den jeweils ausgeführten vorgebbaren Aktionen des Agenten die Umwelt (11) mittels wenigstens eines Sensors erfasst und jeweils als eine Sensorgröße (x) bereitgestellt wird; - Konfigurieren der Parametrisierung des besagten Modells (PGM) abhängig von den ausgeführten vorgebbaren Aktionen und den bereitgestellten Sensorgrößen (x), wobei die Parametrisierung des besagten Modells (PGM) derart konfiguriert wird, dass sich die jeweils geschätzten Sensorgrößen (s_t), die das besagte Modell jeweils in Abhängigkeit der ausgeführten vorgebbaren Aktionen ermittelt, den jeweils bereitgestellten Sensorgrößen (x) angleichen.
Verfahren nach Anspruch 1, wobei Aktionen anhand der ermittelten Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt ermittelt werden.
Verfahren nach einem der Ansprüche 1 oder 2, wobei das besagte Modell des Weiteren eingerichtet ist, die Belohnung (r_t) abhängig von der diskreten Zustandsgröße (B_t) zu ermitteln.
Verfahren nach Anspruch 3, wobei beim Konfigurieren der Parametrisierung die Parametrisierung derart konfiguriert wird, dass das besagte Modell in Abhängigkeit der diskreten Zustandsgröße (B_t) und vorgebbaren Soll-Belohnungen die Belohnung (r_t) ermittelt, wobei insbesondere die vorgebbaren Soll-Belohnungen jeweils zu den ausgeführten Aktionen, die zur jeweiligen diskreten Zustandsgröße (B_t) geführt haben, zugeordnet sind.
Verfahren nach einem der vorherigen Ansprüche, wobei das besagte Modell des Weiteren eingerichtet ist, in Abhängigkeit der Parametrisierung und der diskreten Zustandsgröße (B_t) und abhängig von Parametern einer kontinuierlichen Zustandsgröße (z_t), die geschätzte Sensorgröße (s_t) zu ermitteln, wobei die Parametern der kontinuierlichen Zustandsgröße (z_t) eine Wahrscheinlichkeitsverteilung der kontinuierlichen Zustandsgröße (z_t) charakterisieren, welche den wenigstens einen Zustand der Umwelt und/oder des Agenten charakterisiert.
Verfahren nach Anspruch 5, wobei die Parameter der kontinuierlichen Zustandsgröße (z_t) abhängig von der diskreten Zustandsgröße (B_t) ermittelt werden.
Verfahren nach Anspruch 6, wobei die diskrete Zustandsgröße (B_t) eine Mehrzahl von Werten umfasst, wobei jeder dieser Werte für genau eine Klasse der Mehrzahl vorgebbarer Klassen eine Wahrscheinlichkeit charakterisiert, dass der wenigstens eine Zustand dieser Klasse angehört.
Verfahren nach einem der Ansprüche 5 bis 7, wobei die kontinuierliche Zustandsgröße (z_t) eine präzisere Charakterisierung des Zustands der Umwelt und/oder des Agenten ist, der durch die diskrete Zustandsgröße (B_t) charakterisiert wird, als die Charakterisierung dieses Zustands mittels der diskreten Zustandsgröße (B_t).
Verfahren nach einem der Ansprüche 2 bis 8, wobei der Agent die Umwelt anhand der Strategie und in Abhängigkeit der mittels des Sensors erfassten Umwelt erneut exploriert, wobei das besagte Modell abhängig von zumindest den bereitgestellten Sensorgrößen erneut konfiguriert wird.
Verfahren nach einem der vorherigen Ansprüche, wobei situativ anhand der Strategie eine Aktion ermittelt wird, wobei abhängig von der Aktion eine Steuergröße zum Ansteuern eines physikalischen Aktors mittels einer Steuereinheit (43) ermittelt wird.
Verfahren nach Anspruch 10, wobei abhängig von der ermittelten Steuergröße ein wenigstens teilautonomer Roboter und/oder ein Fertigungssystem und/oder ein persönlicher Assistent und/oder ein Zugangssystem und/oder ein Überwachungssystem oder ein medizinisch bildgebendes System angesteuert wird.
Vorrichtung, die eingerichtet ist, das Verfahren nach einem der vorherigen Ansprüche auszuführen.
Computerprogramm, welches Befehle umfasst, die beim Ausführen dieser durch einen Computer, diesen veranlassen, das Verfahren nach einem der Anspruch 1 bis 11 auszuführen.
Maschinenlesbares Speicherelement, auf welchem das Computerprogramm nach Anspruch 13 hinterlegt ist.