DE102023101135A1

DE102023101135A1 - Multiagentenbasiertes bestärkendes-lernen-system und verfahren dafür

Info

Publication number: DE102023101135A1
Application number: DE102023101135.9A
Authority: DE
Inventors: Dong Hoon Jeong; Jung-Hwan Bang; Hyung Seuk Ohn; Won Seok JEON; Ki Sang Kim; Byeong Wook Jeon; Dong Hoon WON; Hee Yeon Nah
Original assignee: Hyundai Motor Co; Kia Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2022-08-08
Filing date: 2023-01-18
Publication date: 2024-02-08
Also published as: US20240046110A1; CN117540777A; KR20240020544A

Abstract

Offenbart sind ein multiagentenbasiertes Bestärkendes-Lernen-System und ein Verfahren dazu. Das multiagentenbasierte Bestärkendes-Lernen-System weist auf: einen Slave-Agenten (20), welcher dazu eingerichtet ist: einen in jedem Zustand einer ersten Umgebung gesammelten Datensatz in einem ersten Puffer (21) zu speichern, einen von einem Master-Agenten (10) empfangenen Datensatz in dem ersten Puffer (21) zu speichern, und eine Q-Funktion auf Grundlage des in dem ersten Puffer (21) gespeicherten Datensatzes zu lernen, und den Master-Agenten (10), welcher dazu eingerichtet ist: einen in jedem Zustand einer zweiten Umgebung gesammelten Datensatz in einem zweiten Puffer (11) zu speichern, den Datensatz an den Slave-Agenten (20) zu übertragen, eine mit dem Slave-Agenten (20) abgestimmte Q-Funktion unter einer Mehrzahl von Q-Funktionen zu aktualisieren, und ein bestärkendes Lernen auf Grundlage des im zweiten Puffer (11) gespeicherten Datensatzes durchzuführen.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft eine Technik zur Durchführung eines bestärkenden Lernens (auch verstärkendes Lernen genannt, Englisch „reinforcement learning“) basierend auf mehreren Agenten.
Hintergrund
Im Allgemeinen bedeutet bestärkendes Lernen das Lernen, welche auszuführende Aktion im aktuellen Zustand optimal ist. Jedes Mal, wenn eine Aktion ausgeführt wird, wird in der Umgebung eine Belohnung bereitgestellt, und das Lernen geht weiter, um die Belohnung zu maximieren.
In diesem Fall ist der Zustand ein Satz von Werten, welche angeben, wie die Situation zum aktuellen Zeitpunkt ist, wobei der Zustand zu einem bestimmten Zeitpunkt „t“ als s_t ausgedrückt wird. Eine Aktion (auch Handlung) ist eine Option, die in einem Zustand ausgeführt werden kann, wobei die im Zustand s_t zu einem bestimmten Zeitpunkt ausgeführte Aktion als at ausgedrückt wird. Eine Belohnung ist ein zu einer Aktion zugehöriger Gewinn, wobei die Belohnung für at als r_t ausgedrückt wird. In diesem Fall wird der durch at veränderte Zustand (neuer Zustand) als s_t+1 ausgedrückt.
Der Protagonist und das Subjekt (Computerprogramm) eines solchen bestärkenden Lernens (d.h. das Subjekt, das gleichzeitig lernt und in der Umgebung agiert) wird als Agent bezeichnet. Der Agent weist einen Akteur und einen Kritiker auf. Der Kritiker schätzt einen Zustands-Aktions-Wert (Q-Wert) für jede Aktion, und der Akteur wählt eine optimale Aktion auf Grundlage der Werte der Aktionen aus. Insbesondere aktualisiert der Kritiker einen Parameter einer Wertfunktion als bestärkendes Lernen, und der Akteur aktualisiert einen Parameter einer Strategiefunktion als bestärkendes Lernen.
Jüngst wurde das Konzept des bestärkenden Lernens weiter konkretisiert, wobei jedoch das bestärkende Lernen selbst die Eigenschaft hat, eine Handlungsstrategie durch Wiederholung von Versuch und Irrtum zu lernen. Bei Nutzung in einer Umgebung, in welcher es nicht gelernt hat, ist es daher schwierig, den Wert dieses Zustands genau zu bewerten, so dass eine erratische Handlungsstrategie gewählt werden kann. Beispielsweise kann ein Wert und eine Handlungsstrategie, welche in einer Umgebung, in welcher kein Rauschen / keine Störungen in einem Signal vorhanden sind, erstellt wurden, in einer Umgebung, in der Rauschen / Störungen vorhanden sind, nicht gut funktionieren oder in einem schlimmen Fall großen Schaden verursachen.
Daher besteht die Notwendigkeit, ein Verfahren bereitzustellen, welches die Leistung des modellfreien bestärkenden Lernens auch in einer Umgebung, in welcher Rauschen / Störungen vorliegen, verbessern kann.
Die in diesem Abschnitt über den Hintergrund der Offenbarung beschriebenen Sachverhalte sollen das Verständnis für den Hintergrund der Offenbarung fördern und können Sachverhalte umfassen, die dem Fachmann noch nicht bekannt sind.
Kurze Erläuterung
Die vorliegende Offenbarung dient dazu, die oben genannten Probleme des Standes der Technik zu lösen, wobei die durch den Stand der Technik erzielten Vorteile erhalten bleiben.
Ein Aspekt der vorliegenden Offenbarung stellt ein multiagentenbasiertes Bestärkendes-Lernen-System und Bestärkendes-Lernen-Verfahren bereit, welche dazu in der Lage sind, eine Handlungsstrategie, die gegenüber Störungen robust ist, zu erlernen, einen sehr stabilen Lernvorgang durchzuführen und die Lerneffizienz zu verbessern. Das multiagentenbasierte Bestärkendes-Lernen-System weist einen Master-Agenten, der bestärkendes Lernen in verschiedenen Umgebungen durchführt, und mindestens einen Slave-Agenten auf. Der Master-Agent stellt jedem Slave-Agenten seine eigenen Erfahrungen (s_t, a_t, r_t, s_t+1) zur Verfügung und verwendet die Wertfunktion (Q-Funktion) jedes Slave-Agenten für sein eigenes bestärkendes Lernen.
Die technischen Probleme, welche durch die vorliegende Offenbarung gelöst werden sollen, sind nicht auf die oben genannten Probleme beschränkt, und alle weiteren technischen Probleme, welche hier nicht erwähnt werden, sollten aus der nachfolgenden Beschreibung von den Fachleuten auf dem Gebiet, auf das sich die vorliegende Offenbarung bezieht, klar verstanden werden.
Gemäß einem Aspekt der vorliegenden Offenbarung weist ein multiagentenbasiertes Bestärkendes-Lernen-System auf: einen Slave-Agenten, welcher dazu eingerichtet ist: einen in jedem Zustand einer ersten Umgebung gesammelten Datensatz in einem ersten Puffer (z.B. ersten Pufferspeicher) zu speichern, einen von einem Master-Agenten empfangenen Datensatz in dem ersten Puffer zu speichern und eine Q-Funktion auf Grundlage des in dem ersten Puffer gespeicherten Datensatzes (z.B. des einen oder der mehreren Datensätze in dem ersten Puffer) zu lernen. Das multiagentenbasierte Bestärkendes-Lernen-System weist auch den Master-Agenten auf, welcher dazu eingerichtet ist: einen in jedem Zustand einer zweiten Umgebung gesammelten Datensatz in einem zweiten Puffer (z.B. zweiten Pufferspeicher) zu speichern, den Datensatz an den Slave-Agenten zu übertragen, eine mit dem Slave-Agenten abgestimmte Q-Funktion unter / aus einer Mehrzahl von Q-Funktionen zu aktualisieren und ein bestärkendes Lernen auf Grundlage des im zweiten Puffer gespeicherten Datensatzes durchzuführen.
Gemäß einer Ausführungsform kann der Master-Agent den Datensatz mit einer voreingestellten Wahrscheinlichkeit an den Slave-Agenten übertragen.
Gemäß einer Ausführungsform kann die Wahrscheinlichkeit proportional zu einer Anzahl von Slave-Agenten abnehmen.
Gemäß einer Ausführungsform kann der Master-Agent die mit dem Slave-Agenten abgestimmte Q-Funktion unter / aus der Mehrzahl von Q-Funktionen mit einer vom Slave-Agenten erlangten Q-Funktion aktualisieren.
Gemäß einer Ausführungsform kann der Master-Agent eine voreingestellte Anzahl von Q-Funktionen zufällig aus der Mehrzahl von Q-Funktionen extrahieren und die extrahierten Q-Funktionen lernen.
Gemäß einer Ausführungsform kann der Master-Agent dazu eingerichtet sein, ein randomisiertes gruppiertes Doppel-Q-Lernen (Englisch „randomized ensembled double Q-learning“) auf Grundlage des im zweiten Puffer gespeicherten Datensatzes durchzuführen.
Gemäß einer Ausführungsform kann der Master-Agent in einem Cloud-Server installiert sein.
Gemäß einer Ausführungsform kann der Slave-Agent dazu eingerichtet sein, Doppel-Q-Lernen auf Grundlage des im ersten Puffer gespeicherten Datensatzes durchzuführen.
Gemäß einer Ausführungsform kann der Slave-Agent in einem Fahrzeugendgerät installiert sein.
Gemäß einer Ausführungsform kann der Datensatz einen Zustand (s_t) zu einem Zeitpunkt (t), eine in dem Zustand (s_t) ausgewählte Aktion (a_t), eine Belohnung (r_t) für die Aktion (a_t) und einen durch die Aktion (a_t) geänderten neuen Zustand (s_t+1) aufweisen.
Gemäß einem Aspekt der vorliegenden Offenbarung weist ein multiagentenbasiertes Bestärkendes-Lernen-Verfahren auf: Speichern, durch einen Master-Agenten, eines in jedem Zustand einer zweiten Umgebung gesammelten Datensatzes in einem zweiten Puffer, Übertragen, durch den Master-Agenten, des Datensatzes an einen Slave-Agenten, Speichern, durch den Slave-Agenten, eines in jedem Zustand einer ersten Umgebung gesammelten Datensatzes und des vom Master-Agenten empfangenen Datensatzes in einem ersten Puffer, Lernen, durch den Slave-Agenten, einer Q-Funktion auf Grundlage des in dem ersten Puffer gespeicherten Datensatzes (z.B. des einen oder der mehreren Datensätze in dem ersten Puffer), Aktualisieren, durch den Master-Agenten, einer mit dem Slave-Agenten abgestimmten Q-Funktion unter / aus einer Mehrzahl von Q-Funktionen, und Durchführen, durch den Master-Agenten, von bestärkenden Lernen auf Grundlage des in dem zweiten Puffer gespeicherten Datensatzes.
Gemäß einer Ausführungsform kann das Übertragen des Datensatzes an den Slave-Agenten das Übertragen des Datensatzes an den Slave-Agenten mit einer voreingestellten Wahrscheinlichkeit aufweisen.
Gemäß einer Ausführungsform kann die Wahrscheinlichkeit proportional zu einer Anzahl von Slave-Agenten abnehmen.
Gemäß einer Ausführungsform kann das Aktualisieren der mit dem Slave-Agenten abgestimmten Q-Funktion aufweisen: Aktualisieren der mit dem Slave-Agenten abgestimmten Q-Funktion unter / aus der Mehrzahl von Q-Funktionen mit einer vom Slave-Agenten erlangten Q-Funktion.
Gemäß einer Ausführungsform kann das Durchführen des bestärkenden Lernens aufweisen: Extrahieren einer voreingestellten Anzahl von Q-Funktionen zufällig aus der Mehrzahl von Q-Funktionen, und Lernen der extrahierten Q-Funktionen.
Gemäß einer Ausführungsform kann das Durchführen des bestärkenden Lernens aufweisen: Durchführen eines randomisierten gruppierten Doppel-Q-Lernens (Englisch „randomized ensembled double Q-learning“) auf Grundlage des im zweiten Puffer gespeicherten Datensatzes.
Gemäß einer Ausführungsform kann das Lernen der Q-Funktion aufweisen: Durchführen eines Doppel-Q-Lernens auf Grundlage des im ersten Puffer gespeicherten Datensatzes.
Kurze Beschreibung der Zeichnungen
Die obigen und weitere Ziele, Eigenschaften und weitere Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung deutlicher verstanden, wenn diese in Verbindung mit den beigefügten Zeichnungen genommen wird, wobei:

1 ist eine Ansicht, die ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt,
2 ist eine Ansicht, welche eine detaillierte Konfiguration eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt,
3 ist eine Ansicht, welche ein Beispiel eines Bestärkendes-Lernen-Algorithmus zeigt, der von einem Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung ausgeführt wird,
4 ist eine Ansicht, welche ein Beispiel für einen Bestärkendes-Lernen-Algorithmus zeigt, der von einem Master-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung ausgeführt wird,
5 ist ein erstes Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung,
6A ist ein zweites Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung,
6B ist ein Graph eines durchschnittlichen Leistungsfähigkeitswertes in einem zweiten Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung,
7A ist ein Diagramm, welches die Leistungsfähigkeit eines Master-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt,
7B ist ein Diagramm, welches die Leistungsfähigkeit eines ersten Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt,
7C ist ein Diagramm, welches die Leistungsfähigkeit eines zweiten Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt,
8 ist ein Diagramm, welches die Leistungsfähigkeit jedes Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt,
9 ist eine Ansicht, welche ein Beispiel darstellt, in welchem ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen dreiphasigen PMSM (Permanentmagnet-Synchronmotor) angewendet wird,
10 ist ein Diagramm, welches ein Beispiel darstellt, in dem ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird,
11 ist ein erstes Leistungsanalysediagramm, wenn ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird,
12 ist ein zweites Leistungsanalysediagramm, wenn ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird,
13 ist ein Flussdiagramm, welches ein multiagentenbasiertes Bestärkendes-Lernen-Verfahren gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt, und
14 ist ein Blockdiagramm, welches ein Datenverarbeitungssystem zum Ausführen eines multiagentenbasierten Bestärkendes-Lernen-Verfahrens gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.

Detaillierte Beschreibung
Einige Ausführungsformen der vorliegenden Offenbarung werden unter Bezugnahme auf die Zeichnungen im Detail beschrieben. Beim Hinzufügen der Bezugszeichen zu den Komponenten jeder Zeichnung ist anzumerken, dass die identische oder äquivalente Komponente mit dem identischen Bezugszeichen bezeichnet wird, auch wenn sie in anderen Zeichnungen dargestellt sind. Ferner werden bei der Beschreibung von Ausführungsformen der vorliegenden Offenbarung detaillierte Beschreibungen der zugehörigen bekannten Struktur oder Funktion weggelassen, wenn festgestellt wird, dass sie das Verständnis von Ausführungsformen der vorliegenden Offenbarung beeinträchtigen.
Bei der Beschreibung der Komponenten von Ausführungsformen gemäß der vorliegenden Offenbarung können Begriffe wie zum Beispiel „erste/erster/erstes“, „zweite/zweiter/zweites“, „A“, „B“, „(a)“, „(b)“ und dergleichen verwendet werden. Diese Begriffe dienen lediglich dazu, die Komponenten von anderen Komponenten zu unterscheiden, und sie schränken die Art, Reihenfolge oder Abfolge der Komponenten nicht ein. Sofern nicht anders definiert, haben alle hierin verwendeten Begriffe, einschließlich technischer und wissenschaftlicher Begriffe, die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Offenbarung gehört, allgemein verstanden wird. Es ist ferner zu verstehen, dass Begriffe, wie sie in allgemein gebräuchlichen Wörterbüchern definiert sind, so ausgelegt werden sollten, dass sie eine Bedeutung, die mit ihrer Bedeutung im Kontext der relevanten Technik konsistent ist, haben, und nicht in einem idealisierten oder übermäßig formalen Sinn ausgelegt werden sollten, sofern dies hierin nicht ausdrücklich so definiert sind.
Wenn ein Bauteil, eine Vorrichtung, ein Element oder dergleichen der vorliegenden Offenbarung als einen Zweck verfolgend oder einen Vorgang, eine Funktion oder dergleichen ausführend beschrieben wird, sollte das Bauteil, die Vorrichtung oder das Element hierin als „dazu eingerichtet“ angesehen werden, diesen Zweck zu erfüllen oder diesen Vorgang oder diese Funktion auszuführen.
1 ist eine Ansicht, die ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt,
Wie in 1 gezeigt, kann ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung einen Cloud-Server 100 und mindestens ein Fahrzeugendgerät 200 aufweisen.
Ein Master-Agent 10 ist in dem Cloud-Server 100 installiert, und ein Slave-Agent 20 ist in dem Fahrzeugendgerät 200 installiert. In diesem Fall können sowohl der Master-Agent 10 als auch der Slave-Agent 20 als ein Prozessor oder eine Anwendung umgesetzt sein. Ferner, obwohl ein Beispiel beschrieben wird, in welchem der Slave-Agent 20 im Fahrzeugendgerät 200 installiert ist, kann der Slave-Agent 20 in diversen Geräten (PC, Smartphone und dergleichen), welche mit dem Cloud-Server 100 verbunden werden können, installiert sein.
Der Master-Agent 10 und jeder Slave-Agent 20 führen unabhängig voneinander bestärkendes Lernen (auch verstärkendes Lernen, Bestärkungslernen oder Belohnungslernen genannt, Englisch „reinforcement learning“) in verschiedenen Umgebungen durch. In diesem Fall kann der Master-Agent 10 jedem Slave-Agenten 20 seine eigene Erfahrung (s_t, a_t, r_t, s_t+1) zur Verfügung stellen, und jeder Slave-Agent 20 kann dem Master-Agenten 10 seine eigene Wertfunktion (Q-Funktion) zur Verfügung stellen. Dementsprechend kann der Master-Agent 10 die Wertfunktion (Q-Funktion) jedes Slave-Agenten 20 für sein eigenes bestärkendes Lernen verwenden.
Der Master-Agent 10 kann den Wert einer Aktion ermitteln, indem er zufällig eine Q-Funktion aus seiner eigenen Q-Funktion und der Q-Funktion jedes Slave-Agenten 20 auswählt und die Q-Funktion jedes Slave-Agenten 20 in einem Vorgang des Setzens eines Lernziels als der Durchschnitt aller Q-Funktionen verwendet.
Der Master-Agent 10 kann seine eigenen Erfahrungen (s_t, a_t, r_t, s_t+1) an jeden Slave-Agenten weitergeben. In diesem Fall steht s_t für den Zustand zu einem bestimmten Zeitpunkt „t“ in der Umgebung, steht at für die bei s_t gewählte Aktion, steht r_t für die Belohnung für at und steht s_t+1 für den durch at veränderten neuen Zustand.
2 ist eine Ansicht, welche eine detaillierte Konfiguration eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt. 2 zeigt die detaillierte Konfiguration der einzelnen Agenten.
Zunächst kann der Master-Agent 10 die Wertfunktion (Q-Funktion) eines Kritikers 12 und die Strategiefunktion (Englisch „policy function“) eines Akteurs 13 vor dem Lernen initialisieren.
Der Master-Agent 10 sammelt Datensätze s_t, a_t, r_t, s_t+1 in jedem Zustand der Umgebung #1 und speichert die gesammelten Datensätze in einem Wiederholungsgedächtnispuffer 11 (d.h. einem zweiten Puffer/ zweiten Pufferspeicher). Vorliegend überträgt der Master-Agent 10 den gesammelten Datensatz an jeden Slave-Agenten 20.
Der Master-Agent 10 kann den Datensatz an jeden Slave-Agenten 20 übertragen, immer wenn der Datensatz gesammelt wird, oder den Datensatz mit einer Wahrscheinlichkeit von 1/N übertragen. In diesem Fall ist „N“ eine natürliche Zahl, welche die Anzahl (N-1) der Slave-Agenten 20 festlegt. Wenn zum Beispiel N = 3 ist, beträgt die Anzahl der Slave-Agenten 20 zwei, und der Master-Agent 10 kann den gesammelten Datensatz mit einer Wahrscheinlichkeit von 1/3 an die beiden Slave-Agenten 20 übertragen.
Wenn der im Puffer 11 gespeicherte Datensatz eine bestimmte Kapazität (z.B. eine bestimmte Datenmenge) überschreitet, kann der Master-Agent 10 mit dem bestärkenden Lernen beginnen.
Der Master-Agent 10 kann eine Mehrzahl von Q-Funktionen aufweisen, wobei die erste Q-Funktion #1 und die zweite Q-Funktion #2 Funktionen sind, welche nicht mit der Q-Funktion des Slave-Agenten 20 aktualisiert werden, und die dritte Q-Funktion #3 und die vierte Q-Funktion #4 Funktionen sind, welche mit der Q-Funktion des Slave-Agenten 20 aktualisiert werden.
Dementsprechend aktualisiert der Master-Agent 10 seine dritte und vierte Q-Funktion #3 und #4 mit der dritten und der vierten Q-Funktion #3 und #4 des Slave-Agenten 20. In diesem Fall kann der Master-Agent 10 durch Nutzung der Q-Funktion des Slave-Agenten 20 eine Handlungsstrategie, welche robust gegenüber Störungen ist, erlernen.
Dann kann der Master-Agent 10 ein randomisiertes gruppiertes Doppel-Q-Lernen (auch z.B. randomisiertes ensembliertes Doppel-Q-Lernen, Englisch „randomized ensembled double Q-learning“) als eine Art von bestärkendem Lernen durchführen. Der Master-Agent 10 kann zufällig zwei Q-Funktionen aus der Mehrzahl von Q-Funktionen auswählen und randomisiertes gruppiertes Doppel-Q-Lernen durchführen, um die Q-Funktion und die Strategiefunktion basierend auf dem im Puffer 11 gespeicherten Datensatz zu lernen. In diesem Fall kann der Master-Agent 10 das Lernziel (Zielwert) als den Durchschnitt aller Q-Funktionen festlegen.
Der Slave-Agent 20 kann den vom Master-Agenten 10 empfangenen Datensatz in einem Wiederholungsgedächtnispuffer (z.B. auch Wiederholungsspeicher-Puffer, Englisch „replay memory buffer“) 21 speichern, und wenn der im Wiederholungsgedächtnispuffer 21 gespeicherte Datensatz eine bestimmte Kapazität (z.B. eine bestimmte Datenmenge) überschreitet, kann der Slave-Agent 20 mit dem bestärkenden Lernen beginnen. In diesem Fall kann der Slave-Agent 20 die Lerneffizienz verbessern, indem er den vom Master-Agenten 10 aus empfangenen Datensatz zum bestärkenden Lernen verwendet.
Der Slave-Agent 20 kann Doppel-Q-Lernen als eine Art von bestärkendem Lernen durchführen. Der Slave-Agent 20 kann eine dritte Q-Funktion #3 und eine vierte Q-Funktion #4 aufweisen. Basierend auf dem im Wiederholungsgedächtnispuffer 21 gespeicherten Datensatz kann der Slave-Agent 20 Doppel-Q-Lernen durchführen, um die Q-Funktion und die Strategiefunktion zu lernen. In diesem Fall speichert der Wiederholungsgedächtnispuffer 21 den vom Master-Agenten 10 empfangenen Datensatz.
3 ist eine Ansicht, welche ein Beispiel eines Bestärkendes-Lernen-Algorithmus darstellt, der von einem Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung ausgeführt wird. 3 stellt einen Doppel-Q-Lernalgorithmus dar, welcher einer von diversen Bestärkendes-Lernen-Algorithmen ist.
Wie in 3 gezeigt, stellt das Bezugszeichen 310 einen Vorgang dar, bei welchem der Slave-Agent 20 die Wertfunktion (Q-Funktion) erlernt, und stellt das Bezugszeichen 320 einen Vorgang dar, bei welchem der Slave-Agent 20 die Strategiefunktion erlernt.
Bei Bezugszeichen 310 repräsentiert „s“ den aktuellen Zustand, repräsentiert „a“ die in „s“ gewählte Aktion, repräsentiert „r“ eine Belohnung für „a“ und repräsentiert „s'" einen neuen, durch „a“ veränderten Zustand. Außerdem bezeichnet „y“ einen Zielwert der Q-Funktion, und bezeichnet „γ“ einen Diskontierungsfaktor (Englisch „discount factor“), welcher die Priorität kurzfristiger Belohnungen festlegt.
Der Slave-Agent 20 beobachtet den Zustand „s“ in der Umgebung, wählt eine Aktion „a“ gemäß der Strategie (Englisch „policy“) und führt eine Aktion in der Umgebung durch, um einen neuen Zustand „s'" und eine Belohnung „r“ zu beobachten.
Der Slave-Agent 20 extrahiert die voreingestellte Anzahl von Datensätzen aus dem Wiederholungsgedächtnispuffer 21, ermittelt darauf basierend den Wert der dritten Q-Funktion #3 und der vierten Q-Funktion #4 und ermittelt einen kleineren Wert unter den ermittelten Werten als den aktuellen Wert.
Der Slave-Agent 20 ermittelt den Zielwert der dritten Q-Funktion und den Zielwert der vierten Q-Funktion unter Verwendung des extrahierten Datensatzes und lernt die dritte Q-Funktion (z.B. trainiert mit der dritten Q-Funktion), so dass der aktuelle Wert der Zielwert der dritten Q-Funktion wird. Darüber hinaus lernt der Slave-Agent 20 die vierte Q-Funktion (z.B. trainiert mit der vierten Q-Funktion), so dass der aktuelle Wert zum Zielwert der vierten Q-Funktion wird. Darüber hinaus lernt der Slave-Agent 20 die Strategiefunktion (z.B. trainiert mit der Strategiefunktion), so dass der Zustands-Aktions-Wert (Q-Wert) zum Minimalwert wird.
4 ist eine Ansicht, welche ein Beispiel für einen Bestärkendes-Lernen-Algorithmus zeigt, der von einem Master-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung ausgeführt wird. 4 stellt einen randomisierten gruppierten Doppel-Q-Lernalgorithmus, der einer von verschiedenen Bestärkendes-Lernen-Algorithmen ist.
Wie in 4 gezeigt, stellt Bezugszeichen 410 einen Vorgang dar, bei welchem der Master-Agent 10 die Wertfunktion (Q-Funktion) lernt, und stellt Bezugszeichen 420 stellt einen Vorgang dar, bei dem der Master-Agent 10 die Richtlinienfunktion lernt.
Bei Bezugszeichen 410 ist M = 2, N = 10, G = 20, bezeichnet „y“ den Zielwert der Q-Funktion, und bezeichnet „γ“ einen Diskontierungsfaktor, welcher die Priorität der kurzfristigen Belohnungen festlegt.
Der randomisierte gruppierte Doppel-Q-Lernalgorithmus basiert auf dem Doppel-Q-Lernalgorithmus. Der Doppel-Q-Lernalgorithmus trainiert zwei Q-Funktionen, während der randomisierte gruppierte Doppel-Q-Lernalgorithmus N Q-Funktionen trainiert. Dementsprechend kann der Master-Agent 10 den Durchschnitt der N Q-Funktionen als die Zielwerte der beiden Q-Funktionen, die als Lernobjekt ausgewählt wurden, festlegen.
5 ist ein erstes Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung. 5 stellt ein Belohnungsergebnis im Verhältnis zur zurückgelegten Strecke ohne Sturz für eine bestimmte Zeit für einen humanoiden Robotersimulator (z.B. Mujoco) mit 17 Gelenken dar.
In 5 stellt die vertikale Achse den durchschnittlichen Gewinn (z.B., die durchschnittliche Rückgabe die durchschnittliche Belohnung) dar, und die horizontale Achse die Schritte. Das Bezugszeichen 510 gibt eine Strategiekurve (deterministisches Handeln) nach einem konventionellen Schema bzw. konventionellen Vorgehen (hierin kurz: „konventionellen Schema“) an. Das Bezugszeichen 511 gibt eine Lernkurve (stochastisches Handeln) nach einem konventionellen Schema an. Das Bezugszeichen 520 gibt eine Strategiekurve (deterministisches Handeln) nach einem Schema einer Ausführungsform bzw. Vorgehen gemäß einer Ausführungsform (hierin kurz: „Schema einer Ausführungsform“) an. Das Bezugszeichen 521 zeigt eine Lernkurve (stochastisches Handeln) nach einem Schema einer Ausführungsform an.
Ein konventionelles Schema kann so verstanden werden, dass die Strategiekurve 510, welche ein Ergebnis eines auf einem einzelnen Agenten basierenden bestärkenden Lernens ist, im Vergleich zu einem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung sehr volatil und instabil ist. Dies liegt daran, dass der herkömmliche einzelne Agent die Wertfunktion nur in Abhängigkeit von seiner eigenen Erfahrung erlernt, so dass eine neue Aktion mit hoher Wahrscheinlichkeit falsch ist. Im Gegensatz dazu erlernt der Master-Agent 10 in dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung die Wertfunktion, indem er sowohl seine eigene Erfahrung (Datensatz) als auch die Erfahrung (Q-Funktion) jedes Slave-Agenten 20 verwendet, so dass der Master-Agent 10 den Wert einer Aktion, die noch nicht erfahren wurde, im Vergleich zu einem einzelnen Agenten genau kennt, wodurch ein neuer Versuch unternommen wird, um nicht so häufig zu scheitern. In dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung kann verstanden werden, dass die Wertfunktion mit der Wertfunktion jedes Slave-Agenten 20 gemittelt wird, ohne dass die Aktion des Master-Agenten 10 überangepasst wird.
6A ist ein zweites Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung. 6A stellt ein Belohnungsergebnis im Verhältnis zur zurückgelegten Strecke ohne Sturz für eine bestimmte Zeit für einen humanoiden Robotersimulator (z.B. Mujoco) mit 17 Gelenken dar.
Wie in 6A gezeigt, werden in einer Tabelle zum Vergleich der Robustheit gegenüber Signalrauschen ein durchschnittlicher Leistungsfähigkeitswert (auch z.B. Performance-Wert oder Performanz-Wert), eine Leistungsfähigkeitswertabweichung, der minimale Leistungsfähigkeitswert und der maximale Leistungsfähigkeitswert für jede Rauschintensität gezeigt, wobei der Leistungsfähigkeitswert als Punktezahl (auch z.B. Score-Wert) ausgedrückt werden kann.
Wenn kein Rauschen vorhanden ist (0 %), kann verstanden werden, dass ein konventionelles Schema einen hohen durchschnittlichen Leistungsfähigkeitswert im Vergleich zu einem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung hat, aber eine große Abweichung aufweist. Dies bedeutet, dass selbst eine geringe Störung zu einer starken Leistungsverschlechterung führen kann.
Um dies zu bestätigen, wird ein Rauschen (Δx = ε × N(0,1) × x) in ein Eingangssignal „x“ eingespeist, und wurde die Veränderung des Ergebnisses (Leistungsfähigkeitswert) bei schrittweiser Erhöhung von ε, z. B. 0,02, 0,05, 0,1, beobachtet. In diesem Fall bedeutet N(0, 1) eine Gauß'sche Verteilung mit einem Mittelwert von „0 (Null)“ und einer Standardabweichung von „1“.
Beim konventionellen Schema stieg die Abweichung des Leistungsfähigkeitswerts bei einem Rauschen von 2 % bis 1973 an, und der minimale Leistungsfähigkeitswert fiel auf 772, wobei jedoch verstanden werden kann, dass die Abweichung des Leistungsfähigkeitswerts und die Veränderung des minimalen Leistungsfähigkeitswerts in dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung unbedeutend sind.
Insbesondere bei der Situation mit 10 % Rauschen kann verstanden werden, dass das konventionelle Schema den durchschnittlichen Leistungsfähigkeitswert auf das 1/4 Niveau im Vergleich zur 0 %-Lärmsituation reduzierte, aber das Schema gemäß einer Ausführungsform der vorliegenden Offenbarung den durchschnittlichen Leistungsfähigkeitswert, welcher auf das 1/2 Niveau im Vergleich zur 0 %-Lärmsituation reduziert wurde, aufweist. Es kann also verstanden werden, dass das Schema gemäß einer Ausführungsform der vorliegenden Offenbarung robuster gegenüber Signalrauschen ist als das konventionelle Schema. Wenn dies in einem Diagramm dargestellt wird, ist es wie in 6B gezeigt.
6B ist ein Graph eines durchschnittlichen Leistungsfähigkeitswertes in einem zweiten Leistungsanalysediagramm eines multiagentenbasierten Bestärkendes-Lernen-Systems gemäß einer Ausführungsform der vorliegenden Offenbarung.
Wie in 6B gezeigt, auch wenn bei Abwesenheit von Signalrauschen (0%) oder der Situation mit 2% Rauschen kein signifikanter Unterschied zwischen dem Leistungsfähigkeitswert nach dem konventionellen Schema und dem Leistungsfähigkeitswert nach dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung vorliegt, ist es jedoch zu verstehen, dass bei zunehmendem Signalrauschen die Abnahme des Leistungsfähigkeitswerts nach dem konventionellen Schema deutlich größer ist als die Abnahme des Leistungsfähigkeitswerts nach dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung. Dementsprechend ist erwiesen, dass das Schema gemäß einer Ausführungsform der vorliegenden Offenbarung im Vergleich zum konventionellen Schema robust gegenüber Signalrauschen ist.
7A bis 7C sind jeweilig ein Diagramm, welches die Leistungsfähigkeit (auch z.B. Performance oder Performanz genannt) eines Master-Agenten und jedes Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 7A bis 7C gezeigt, gibt das Bezugszeichen 710 das Leistungsfähigkeitsdiagramm des Master-Agenten 10 an, gibt das Bezugszeichen 720 das Leistungsfähigkeitsdiagramm des ersten Slave-Agenten 20 an und gibt das Bezugszeichen 730 das Leistungsfähigkeitsdiagramm eines zweiten Slave-Agenten 30 an.
Obwohl das Leistungsfähigkeitsdiagramm 720 des ersten Slave-Agenten 20 und das Leistungsfähigkeitsdiagramm 730 des zweiten Slave-Agenten 30 sehr volatil und nicht stabil sind, ähnlich dem konventionellen Schema, wie in 5 gezeigt, ist das Leistungsfähigkeitsdiagramm 710 des Master-Agenten 10 stabil mit geringer Volatilität, wie in 5 gezeigt.
8 ist ein Diagramm, welches die Leistungsfähigkeit jedes Slave-Agenten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 8 gezeigt, gibt die vertikale Achse jedes Diagramms Gewinne an, und gibt die horizontale Achse Episoden an. In diesem Fall stellt der Gewinn eine kumulative Belohnung dar, und die Episode stellt als Trajektorie eine Sequenz, die ein Agent von einem Anfangszustand zu einem Endzustand durchlaufen hat, dar.
Das konventionelle Schema zeigt das Ergebnis der Slave-Agenten #1 bis #4, welche unabhängig voneinander bestärkendes Lernen in einem Zustand, in welchem die Erfahrung (Datensatz) des Master-Agenten 10 überhaupt nicht geteilt wird, durchführen. Das Schema gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt das Ergebnis der Slave-Agenten #1 bis #4, welche bestärkendes Lernen in Abhängigkeit voneinander in einem Zustand, in dem die Erfahrung (der Datensatz) des Master-Agenten 10 teilweise geteilt wird, durchführen.
Es kann verstanden werden, dass die Leistungsfähigkeit 810 des Master-Agenten 10 in dem konventionellen Schema stagniert oder eher abnimmt, während in dem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung die Leistungsfähigkeit 820 des Master-Agenten 10 stabil verbessert wird.
Dies wird auch durch die Theorie der „Strategieiterationskonvergenz“ belegt, welche besagt, dass eine optimale Strategie gefunden werden kann, wenn die Strategie nach dem Lernen der Q-Funktion (Wertfunktion) als eine der Strategie folgende Aktion in einem Zustand, in welche die Strategie festgelegt ist, verbessert wird. Die Strategie wird nicht optimal verbessert, weil die Theorie der „Strategieiterationskonvergenz“ in dem konventionellen Schema, welches die Q-Funktion des Slave-Agenten, welche nicht die der Strategie des Master-Agenten 10 folgende Erfahrung widerspiegelt, verwendet, nicht verwirklicht wird.
9 ist eine Ansicht, welche ein Beispiel darstellt, in welchem ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen dreiphasigen PMSM (Permanentmagnet-Synchronmotor) angewendet wird.
Wie in 9 gezeigt, kann ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung die Funktion eines dq-Vorsteuerungskompensators ersetzen und kann die d-Achsen-Regelung und die q-Achsen-Regelung auf Grundlage der Ausgabe des dq-Vorsteuerungskompensators, eines d-Achsen-Befehls und eines q-Achsen-Befehls durchführen, um das d-Achsen-Regelungsergebnis und das q-Achsen-Regelungsergebnis auszugeben.
Ein solches Bestärkendes-Lernen-System kann eine optimale Steuerstrategie der Spannungstastgrade d und q erlernen, so dass das Motordrehmoment dem Zieldrehmoment für eine Strom-Phasen-Beziehung und eine Vektorsteuerung eines Permanentmagnet-Synchronmotors (PMSM) folgt.
10 ist ein Diagramm, welches ein Beispiel darstellt, in dem ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird.
Wie in 10 gezeigt, kann ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung fünf Variablen (eine Motordrehzahl (Umdrehungen pro Minute), ein Motor-Ist-Drehmoment, ein Soll-Drehmoment, iq und id), welche durch einen sog. „gym-electric-motor“, (zu Deutsch Gym-Elektromotor, kurz GEM) bestimmt werden, empfangen und eine Ausgabestrategie von Q-Spannungsbetrieb (z.B. q-Spannungstastgrad) und d-Spannungsbetrieb (z.B. d-Spannungstastgrad) erlernen, welche den Drehmomentfehler minimiert.
11 ist ein erstes Leistungsanalysediagramm, wenn ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird.
Wie in 11 gezeigt, weist ein auf einem einzelnen Agenten basierendes Bestärkendes-Lernen-System (d.h. ein konventionelles Schema) eine Strategie-Kurve (auch z.B. Policy-Kurve, Englisch „policy curve“) 1101, welche sehr volatil und instabil ist, auf, wohingegen ein Schema gemäß einer Ausführungsform der vorliegenden Offenbarung eine Strategie-Kurve 1102, die im Vergleich zu dem konventionellen Schema nicht volatil und stabil ist, aufweist.
12 ist ein zweites Leistungsanalysediagramm, wenn ein multiagentenbasiertes Bestärkendes-Lernen-System gemäß einer Ausführungsform der vorliegenden Offenbarung auf einen GEM angewendet wird.
Wie in 12 gezeigt, ist in einem Schema gemäß einer Ausführungsform der vorliegenden Offenbarung bei zunehmender Rauschintensität die Abnahme des durchschnittlichen Leistungsfähigkeitswerts gering und ist die Abweichung des Leistungsfähigkeitswerts im Vergleich zum konventionellen Schema ebenfalls gering. Somit kann verstanden werden, dass selbst bei Anwendung von Ausführungsformen der vorliegenden Offenbarung auf das GEM die Robustheit des Signals gegenüber Rauschen im Vergleich zum konventionellen Schema beibehalten wird.
13 ist ein Flussdiagramm, welches ein multiagentenbasiertes Bestärkendes-Lernen-Verfahren gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
Zuerst, bei 1311, sammelt der Master-Agent 10 den Datensatz in jedem Zustand der zweiten Umgebung.
Bei 1312 speichert der Master-Agent 10 den gesammelten Datensatz in dem zweiten Puffer (z.B. zweiten Pufferspeicher) 11.
Bei 1313 überträgt der Master-Agent 10 den gesammelten Datensatz an den Slave-Agent 20.
Bei 1321 sammelt der Slave-Agent 20 den Datensatz in jedem Zustand der ersten Umgebung.
Bei 1322 speichert der Slave-Agent 20 den gesammelten Datensatz im ersten Puffer (z.B. ersten Pufferspeicher) 21.
Bei 1323 speichert der Slave-Agent 20 den vom Master-Agenten 10 empfangenen Datensatz im ersten Puffer 21.
Bei 1324 lernt der Slave-Agent 20 die Q-Funktion auf Grundlage des im ersten Puffer 21 gespeicherten Datensatzes.
Bei 1325 überträgt der Slave-Agent 20 die Q-Funktion an den Master-Agenten 10.
Bei 1314 aktualisiert der Master-Agent 10 die mit dem Slave-Agenten abgestimmte Q-Funktion unter / aus einer Mehrzahl von Q-Funktionen als die vom Slave-Agenten 20 empfangene Q-Funktion. In diesem Fall kann der Master-Agent 10 eine Mehrzahl von Q-Funktionen aufweisen.
Bei 1315 führt der Master-Agent 10 ein bestärkendes Lernen auf Grundlage des im zweiten Puffer 11 gespeicherten Datensatzes durch.
14 ist ein Blockdiagramm, welches ein Datenverarbeitungssystem zum Ausführen eines multiagentenbasierten Bestärkendes-Lernen-Verfahrens gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
Bezugnehmend auf 14 kann das multiagentenbasierte Bestärkendes-Lernen-Verfahren gemäß einer Ausführungsform der vorliegenden Offenbarung, wie oben beschrieben, durch ein Datenverarbeitungssystem implementiert werden. Ein Datenverarbeitungssystem (z.B. Computersystem, Rechensystem) 1000 kann mindestens einen Prozessor 1100, einen Speicher 1300, eine Nutzerschnittstelle-Eingabevorrichtung 1400, eine Nutzerschnittstelle-Ausgabevorrichtung 1500, eine (Daten-)Speicherungseinrichtung (z.B. einen Massenspeicher) 1600 und eine Netzwerkschnittstelle 1700, welche über einen Bus 1200 miteinander verbunden sind, aufweisen.
Der Prozessor 1100 kann eine zentrale Prozessoreinheit (CPU) oder eine Halbleitervorrichtung sein, welche(r) Befehle, die in dem Speicher 1300 und/oder der Speicherungseinrichtung 1600 gespeichert sind, verarbeitet. Der Speicher (English „Memory“) 1300 und die Speicherungseinrichtung (English „Storage“) 1600 können jeweils zahlreiche Arten von flüchtigen oder nichtflüchtigen Speichermedien aufweisen. Beispielsweise kann der Speicher 1300 einen ROM (Nur-Lese-Speicher) 1310 und einen RAM (Direktzugriffsspeicher) 1320 aufweisen.
Die Schritte des Verfahrens oder des Algorithmus, welche in Verbindung mit den hierin offenbarten Ausführungsform beschrieben sind, können folglich direkt mittels Hardware oder eines durch den Prozessor 1100 ausgeführten Softwaremoduls oder durch eine Kombination der beiden realisiert sein. Das Softwaremodul kann sich auf einem Speichermedium (d.h. dem Speicher 1300 und/oder der Speicherungseinrichtung 1600) befinden, wie z.B. einem RAM, einem Flash-Speicher, einem ROM, einem EPROM (löschbaren und programmierbaren ROM), einem EEPROM (elektrisch löschbaren und programmierbaren ROM), einem Register, einer Festplatte, einer SSD (sog. Solid-State-Laufwerk oder Halbleiterlaufwerk), einer entfernbaren Platte und einer CD-ROM. Das beispielhafte Speichermedium kann mit dem Prozessor 1100 verbunden sein, welcher Informationen aus dem Speichermedium auslesen und Informationen in das Speichermedium schreiben kann. In einer weiteren Ausgestaltung kann das Speichermedium mit dem Prozessor 1100 integriert sein. Der Prozessor und das Speichermedium können sich in einer anwendungsspezifischen integrierten Schaltung (ASIC) befinden. Die ASIC kann sich in dem Nutzerendgerät befinden. In einer weiteren Ausgestaltung können sich der Prozessor und das Speichermedium als separate Komponenten innerhalb des Nutzerendgeräts befinden.
Gemäß Ausführungsformen werden ein Master-Agent und mindestens ein Slave-Agent bereitgestellt, welche das bestärkende Lernen in verschiedenen Umgebungen durchführen, wobei der Master-Agent seine eigenen Erfahrungen (s_t, a_t, r_t, s_t+1) jedem Slave-Agenten zur Verfügung stellt und die Wertfunktion (Q-Funktion) jedes Slave-Agenten für sein eigenes bestärkendes Lernen verwendet, wodurch eine Handlungsstrategie, die robust gegenüber Störungen ist, erlernt wird, der Lernvorgang stabilisiert wird und die Effizienz des Lernens verbessert wird.
Insbesondere kann der Master-Agent gemäß Ausführungsformen den Wert der Aktion ermitteln, indem er zufällig eine aus seiner eigenen Q-Funktion und den Q-Funktionen der Slave-Agenten auswählt, und die Erfahrung (Q-Funktion) jedes Slave-Agenten in dem Vorgang des Setzens des Lernziels als den Durchschnitt aller Q-Funktionen verwenden, so dass es möglich ist, eine Überanpassung der Q-Funktion zu verhindern. Darüber hinaus kann der Master-Agent bei mit Rauschen / Störungen behafteten Eingangssignalen eine robustere Handlungsstrategie anwenden als jeder Slave-Agent. Der Master-Agent kann gemäß Ausführungsformen eine Handlungsstrategie erlernen, die robust gegenüber Störungen ist.
Darüber hinaus können, indem die Erfahrung (Q-Funktion) jedes Slave-Agenten, welche der Master-Agent noch nicht gemacht hat, berücksichtigt wird, neue Versuche mit größerer Wahrscheinlichkeit ähnlich den Erfahrungen, die der Master-Agent kennt, sein, so dass der Master-Agent mit dem Lernen stabil fortfahren kann. Der Master-Agent kann gemäß Ausführungsformen den Lernvorgang stabil durchführen.
Ferner kann der Master-Agent gemäß Ausführungsformen die Lerneffizienz jedes Slave-Agenten verbessern, indem er jedem Slave-Agenten seine eigenen Erfahrungen (s_t, a_t, r_t, s_t+1) zur Verfügung stellt, wodurch (wiederum) die Lerneffizienz des Master-Agenten verbessert wird.
Obwohl die Ausführungsformen der vorliegenden Offenbarung zur Veranschaulichung beschrieben wurden, sollten die Fachleute erkennen, dass diverse Änderungen, Ergänzungen und Ersetzungen möglich sind, ohne vom Umfang und Wesen der Offenbarung abzuweichen.
Die in der vorliegenden Offenbarung offengelegten Ausführungsformen dienen der Beschreibung und schränken die technischen Konzepte der vorliegenden Offenbarung nicht ein, und es versteht sich, dass solche Ausführungsformen nicht dazu gedacht sind, den Umfang der technischen Konzepte der vorliegenden Offenbarung zu begrenzen. Der Schutzumfang der vorliegenden Offenbarung sollte durch die nachstehenden Ansprüche verstanden werden, und alle technischen Konzepte innerhalb der Äquivalenzbereiche sollten so ausgelegt werden, dass sie innerhalb des Schutzumfangs der vorliegenden Offenbarung liegen.

Claims

Multiagentenbasiertes Bestärkendes-Lernen-System, aufweisend: einen Slave-Agenten (20), welcher dazu eingerichtet ist: einen in jedem Zustand einer ersten Umgebung gesammelten Datensatz in einem ersten Puffer (21) zu speichern, einen von einem Master-Agenten (10) empfangenen Datensatz in dem ersten Puffer (21) zu speichern, und eine Q-Funktion auf Grundlage des in dem ersten Puffer (21) gespeicherten Datensatzes zu lernen, und den Master-Agenten (10), welcher dazu eingerichtet ist: einen in jedem Zustand einer zweiten Umgebung gesammelten Datensatz in einem zweiten Puffer (11) zu speichern, den Datensatz an den Slave-Agenten (20) zu übertragen, eine mit dem Slave-Agenten (20) abgestimmte Q-Funktion unter einer Mehrzahl von Q-Funktionen zu aktualisieren, und ein bestärkendes Lernen auf Grundlage des im zweiten Puffer (11) gespeicherten Datensatzes durchzuführen.
Multiagentenbasiertes Bestärkendes-Lernen-System nach Anspruch 1, wobei der Master-Agent (10) dazu eingerichtet ist, den Datensatz mit einer voreingestellten Wahrscheinlichkeit an den Slave-Agenten (10) zu übertragen.
Multiagentenbasiertes Bestärkendes-Lernen-System nach Anspruch 2, wobei die Wahrscheinlichkeit so ausgestaltet ist, dass sie proportional zu einer Anzahl von Slave-Agenten (20) abnimmt.
Multiagentenbasiertes Bestärkendes-Lernen-System nach Anspruch 2 oder 3, wobei der Master-Agent (10) dazu eingerichtet ist, die mit dem Slave-Agenten (20) abgestimmte Q-Funktion unter der Mehrzahl von Q-Funktionen mit einer vom Slave-Agenten (20) erlangten Q-Funktion zu aktualisieren.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 4, wobei der Master-Agent (10) dazu eingerichtet ist, eine voreingestellte Anzahl von Q-Funktionen zufällig aus der Mehrzahl von Q-Funktionen zu extrahieren und die extrahierten Q-Funktionen zu lernen.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 5, wobei der Master-Agent (10) dazu eingerichtet ist, ein randomisiertes gruppiertes Doppel-Q-Lernen auf Grundlage des im zweiten Puffer (11) gespeicherten Datensatzes durchzuführen.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 6, wobei der Master-Agent (10) dazu eingerichtet ist, in einem Cloud-Server (100) installiert zu sein.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 7, wobei der Slave-Agent (20) dazu eingerichtet ist, ein Doppel-Q-Lernen auf Grundlage des im ersten Puffer (21) gespeicherten Datensatzes durchzuführen.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 8, wobei der Slave-Agent (20) dazu eingerichtet ist, in einem Fahrzeugendgerät (200) installiert zu sein.
Multiagentenbasiertes Bestärkendes-Lernen-System nach einem der Ansprüche 1 bis 9, wobei der Datensatz einen Zustand zu einem Zeitpunkt (t), eine in dem Zustand ausgewählte Aktion (a_t), eine Belohnung (r_t) für die Aktion (a_t) und einen durch die Aktion (a_t) geänderten neuen Zustand (s_t+1) aufweist.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren, aufweisend: Speichern (1312), durch einen Master-Agenten (10), eines in jedem Zustand einer zweiten Umgebung gesammelten Datensatzes in einem zweiten Puffer (11), Übertragen (1313), durch den Master-Agenten (10), des Datensatzes an einen Slave-Agenten (20), Speichern (1323), durch den Slave-Agenten (20), eines in jedem Zustand einer ersten Umgebung gesammelten Datensatzes und des vom Master-Agenten (10) empfangenen Datensatzes in einem ersten Puffer (21), Lernen (1324), durch den Slave-Agenten (20), einer Q-Funktion auf Grundlage des in dem ersten Puffer (21) gespeicherten Datensatzes, Aktualisieren (1314), durch den Master-Agenten (10), einer mit dem Slave-Agenten (20) abgestimmten Q-Funktion unter einer Mehrzahl von Q-Funktionen, und Durchführen (1315), durch den Master-Agenten, von bestärkenden Lernen auf Grundlage des in dem zweiten Puffer (11) gespeicherten Datensatzes.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach Anspruch 11, wobei das Übertragen (1313) des Datensatzes an den Slave-Agenten (20) aufweist das Übertragen des Datensatzes an den Slave-Agenten (20) mit einer voreingestellten Wahrscheinlichkeit.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach Anspruch 11 oder 12, wobei die Wahrscheinlichkeit proportional zu einer Anzahl von Slave-Agenten (20) abnimmt.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach einem der Ansprüche 11 bis 13, wobei das Aktualisieren (1314) der mit dem Slave-Agenten (20) abgestimmten Q-Funktion aufweist Aktualisieren der mit dem Slave-Agenten (20) abgestimmten Q-Funktion unter der Mehrzahl von Q-Funktionen mit einer vom Slave-Agenten (20) erlangten Q-Funktion.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach einem der Ansprüche 11 bis 14, wobei das Durchführen des bestärkenden Lernens (1315) aufweist: Extrahieren einer voreingestellten Anzahl von Q-Funktionen zufällig aus der Mehrzahl von Q-Funktionen, und Lernen der extrahierten Q-Funktionen.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach einem der Ansprüche 11 bis 15, wobei das Durchführen (1315) des bestärkenden Lernens aufweist Durchführen eines randomisierten gruppierten Doppel-Q-Lernens auf Grundlage des im zweiten Puffer (11) gespeicherten Datensatzes.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach einem der Ansprüche 11 bis 15, wobei das Lernen (1324) der Q-Funktion aufweist Durchführen eines Doppel-Q-Lernens auf Grundlage des im ersten Puffer (21) gespeicherten Datensatzes.
Multiagentenbasiertes Bestärkendes-Lernen-Verfahren nach einem der Ansprüche 11 bis 17, wobei der Datensatz aufweist: einen Zustand zu einem Zeitpunkt (t), eine in dem Zustand ausgewählte Aktion (a_t), eine Belohnung (r_t) für die Aktion (a_t), und einen durch die Aktion (a_t) geänderten neuen Zustand (s_t+1).