DE102019105280A1

DE102019105280A1 - Autonomes selbstlernendes System

Info

Publication number: DE102019105280A1
Application number: DE102019105280.7A
Authority: DE
Inventors: Andreas Maier
Original assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-09-03
Also published as: WO2020178248A1; US20210390377A1; EP3931754A1; CN113711238A

Abstract

Bereitgestellt wird ein Verfahren zum Steuern eines technischen Systems mit einem ersten neuronalen Netz (NN1) eines Agenten (S), wobei ein erster Eingabevektor (x) und ein aktueller Zustand (h_t) des ersten Netzes (NN1) gemeinsam in einen neuen Zustand (h_t+1) des ersten Netzes (NN1) überführt werden, aus dem ein erster Ausgabevektor (y) des ersten Netzes (NN1) generiert wird, wobei der erste Ausgabevektor (y) des ersten Netzes (NN1) einem zweiten neuronalen Netz (NN2) zugeführt wird, wobei aus dem neuen Zustand (w_t+1) des zweiten Netzes (NN2) ein erster Ausgabevektor (x') des zweiten Netzes (NN2) generiert wird, der eine erwartete Reaktion des zweiten Netzes (NN2) auf den ersten Ausgabevektor (y) des ersten Netzes (NN1) repräsentiert, und wobei der erste Ausgabevektor (x') des zweiten Netzes (NN2) mit dem ersten Eingabevektor (x) des ersten Netzes (NN1) verglichen wird, um das erste Netz (NN1) zu trainieren.

Description

Gegenstand der Erfindung
Die Erfindung liegt auf dem Gebiet der automatischen autonom arbeitenden Systeme. Insbesondere betrifft die Erfindung ein Verfahren zum Steuern eines technischen Systems mit einem Agenten, der ein künstliches neuronales Netz implementiert.
Hintergrund der Erfindung
Aus dem Stand der Technik sind sogenannte tiefe neuronale Netze bekannt.
Die für die vorliegende Erfindung wesentlichen Technologien aus dem Gebiet der künstlichen neuronalen Netze sind hierbei die sogenannten rekurrenten neuronalen Netze (rückgekoppelte neuronale Netze) und das sogenannte Reinforcement Learning (bestärkendes Lernen oder verstärkendes Lernen). Beide sind zur Modellierung eines Agenten, mit dem ein technisches System gesteuert werden kann, geeignet.
Rekurrente neuronale Netze sind eine Technologie, die es ermöglicht, allgemeine Automaten als lernbare Systeme darzustellen. Beispiele hierfür sind in 1 und in 2 als vereinfachte Blockdiagramme gezeigt.
1 zeigt ein aus dem Stand der Technik bekanntes rekurrentes neuronales Netz. Es verfügt über eine Eingabe x, einen Zustand h_t , und eine Ausgabe y. Die Eingabe x und der aktuelle Zustand ht werden gemeinsam in einen neuen Zustand h_t+1 überführt, d.h. aus der Eingabe x und dem aktuellen Zustand ht wird der neue Zustand h_t+1 des neuronalen Netzes erzeugt. Aus diesem neuen Zustand h_t+1 wird dann die Ausgabe y generiert.
Die Übergänge, die in 1 und 2 durch gestrichelte Pfeile dargestellt sind, sind lernbar. Dabei handelt es sich bei jedem Pfeil um universelle Funktionsapproximatoren. Im einfachsten Fall können die Funktionsapproximatoren durch ein vollverbundenes Netz mit einer versteckten Schicht gebildet werden. Tiefere sog. Feed-Forward-Modelle können ebenfalls angewandt werden. Dazu ist es notwendig, das Netz zu trainieren.
Für das Training ist es zwingend notwendig, dass Paare umfassend einen Eingabevektor x und einen Referenzvektor y* bekannt sind. Damit kann ein so genanntes überwachtes Training durchgeführt werden, wofür verschiedene Optimierungs- bzw. Trainingsverfahren angewandt werden können, etwa das sogenannte Gradientenabstiegsverfahren oder das sogenannte Simulated Annealing. Andere Optimierungs- bzw. Trainingsverfahren können ebenso verwendet werden.
Eine aus dem Stand der Technik bekannte Alternative für ein rekurrentes neuronales Netz ist in 2 gezeigt, nämlich ein sogenanntes Long-Short-Term-Memory Netzwerk (LSTM). Diese Long-Short-Term-Memory Netzwerke verfügen zusätzlich über einen internen Speicher c_t. Das Vorsehen eines solchen internen Speichers c_t ermöglicht es auch lange zeitliche Abhängigkeiten zu modellieren.
Komplexere Speicherzugriffe lassen sich ebenfalls mittels künstlicher neuronaler Netze realisieren. Ein Beispiel dafür sind die sogenannten Memory-Augmented Neural Networks oder Neural Turing Machines.
Das Reinforcement Learning ermöglicht es, selbst handelnde Systeme zu trainieren, die versuchen eine maximale zukünftige Belohnung zu erreichen. Diese Systeme versuchen also ein gegebenes Problem bestmöglich zu lösen.
Nachteilig bei den aus dem Stand der Technik bekannten künstlichen neuronalen Netzen ist es, dass es unabhängig von der verwendeten Trainingsmethode eine Wesentliche Voraussetzung für das Training des neuronalen Netzes ist, dass die Problemstellung exakt formuliert werden muss und die Zielgröße, also die Belohnung, exakt vorgegeben werden muss. Damit können beispielsweise Spiele wie Schach oder Go gelöst werden, bei denen die Problemstellung exakt formuliert und die Zielgröße exakt vorgegeben werden können.
Ein wesentliches Problem der aus dem Stand der Technik bekannten Verfahren ist zudem, dass entweder eine Referenz y* zum Training notwendig ist, oder die komplette Welt inklusive der kompletten Spielregeln und Axiome für das Training modelliert werden muss.
Allgemeine, auf künstlichen neuronalen Netzen basierende Problemloser, die die Regeln, d.h. die Problemstellung und die Lösung selbst erlernen und damit neue unbekannte Probleme lösen können, sind im Stand der Technik nicht bekannt.
Aufgabe der Erfindung
Aufgabe der vorliegenden Erfindung ist es daher, Lösungen bereit zu stellen, mit denen ein technisches System gesteuert werden kann, wobei der für die Steuerung verwendete Agent vollständig autonom und selbstlernend ausgestaltet ist und sich das System bzw. der Agent autonom an völlig neue Umgebungen anpassen kann.
Erfindungsgemäße Lösung
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten nach dem unabhängigen Anspruch gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Bereitgestellt wird demnach ein Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten, wobei der erste Agent ein erstes künstliches neuronales Netz implementiert, wobei ein erster Eingabevektor des ersten neuronalen Netzes und ein aktueller Zustand des ersten neuronalen Netzes gemeinsam in einen neuen Zustand des ersten neuronalen Netzes überführt werden, wobei aus dem neuen Zustand des ersten neuronalen Netzes ein erster Ausgabevektor des ersten neuronalen Netzes generiert wird, und wobei

- der erste Ausgabevektor des ersten neuronalen Netzes einem zweiten künstlichen neuronalen Netz als erster Eingabevektor des zweiten neuronalen Netzes zugeführt wird, wobei das zweite neuronale Netz von einem zweiten Agenten implementiert wird,
- der erste Eingabevektor des zweiten neuronalen Netzes und ein aktueller Zustand des zweiten neuronalen Netzes gemeinsam in einen neuen Zustand des zweiten neuronalen Netzes überführt werden,
- aus dem neuen Zustand des zweiten neuronalen Netzes ein erster Ausgabevektor des zweiten neuronalen Netzes generiert wird, wobei der erste Ausgabevektor des zweiten neuronalen Netzes eine erwartete Reaktion des zweiten neuronalen Netzes auf den ersten Eingabevektor des zweiten neuronalen Netzes repräsentiert, und
- der erste Ausgabevektor des zweiten neuronalen Netzes mit dem ersten Eingabevektor des ersten neuronalen Netzes verglichen wird, um das erste neuronale Netz zu trainieren.

Damit kann das Gesamtsystem vollständig autonom seine Umgebung lernen.
Bei dem technischen System, das mit dem ersten Agenten gesteuert werden kann, kann es sich beispielsweise um einen Roboter oder um ein autonom fahrendes Fahrzeug.
Der zweite Agent kann ein drittes künstliches neuronales Netz implementieren, wobei

- dem dritten neuronalen Netz der erste Ausgabevektor des zweiten neuronalen Netzes als erster Eingabevektor des dritten neuronalen Netzes zugeführt wird,
- dem dritten neuronalen Netz ein zweiter Ausgabevektor des zweiten neuronalen Netzes als zweiter Eingabevektor des dritten neuronalen Netzes zugeführt wird, wobei der zweite Ausgabevektor des zweiten neuronalen Netzes eine erwartete

Emotion des neuen Zustandes des zweiten neuronalen Netzes repräsentiert,

- der erste Eingabevektor, der zweite Eingabevektor und der aktuelle Zustand des dritten neuronalen Netzes gemeinsam in einen neuen Zustand des dritten neuronalen Netzes überführt werden,
- aus dem neuen Zustand des dritten neuronalen Netzes ein zweiter Ausgabevektor des dritten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des dritten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert, und
- aus dem neuen Zustand des dritten neuronalen Netzes ein erster Ausgabevektor des dritten neuronalen Netzes generiert wird, der dem zweiten neuronalen Netz als weiterer Eingabevektor des zweiten neuronalen Netzes zugeführt wird.

Vorteilhaft ist es, wenn der zweite Ausgabevektor des dritten neuronalen Netzes zum Zwecke des Trainings des dritten neuronalen Netzes mit einer dritten Referenz verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors des dritten neuronalen Netzes mit der dritten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz einen Idealzustand des zweiten Ausgabevektors des dritten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des dritten neuronalen Netzes repräsentiert.
Vorteilhaft kann es ferner sein, wenn das erste neuronale Netz und das dritte neuronale Netz miteinander gekoppelt werden, insbesondere der neue Zustand des ersten neuronalen Netzes und der aktuelle Zustand des dritten neuronalen Netzes miteinander gekoppelt werden, um basierend auf dem ersten neuronalen Netz das dritte neuronale Netz zu trainieren oder basierend auf dem dritten neuronalen Netz das erste neuronale Netz zu trainieren.
Es hat sich als vorteilhaft herausgestellt, wenn

- dem ersten neuronalen Netze ein zweiter Eingabevektor zugeführt wird,
- der zweite Eingabevektor, der erste Eingabevektor und der aktuelle Zustand des ersten neuronalen Netzes gemeinsam in den neuen Zustand des ersten neuronalen Netzes überführt werden, wobei der zweite Eingabevektor des ersten neuronalen Netzes eine Emotion repräsentiert, und
- aus dem neuen Zustand des ersten neuronalen Netzes zusätzlich zum ersten Ausgabevektor des ersten neuronalen Netzes ein zweiter Ausgabevektor des ersten neuronalen Netzes generiert wird, wobei der zweite Ausgabevektor des ersten neuronalen Netzes eine erwartete Emotion des neuen Zustandes des ersten neuronalen Netzes repräsentiert.

Damit können Emotionen zum Training des Gesamtsystems bzw. des ersten neuronalen Netzes berücksichtigt werden, etwa Schmerz (vergleichbar mit einer Kollision), Hunger (vergleichbar mit einem Ladezustand eines Akkumulators), oder Freude (vergleichbar mit einer Zielerreichung, z.B. ein Lösen eines bestimmten Problems).
Der zweite Ausgabevektor des ersten neuronalen Netzes kann zum Zwecke des Trainings des ersten neuronalen Netzes mit einer zweiten Referenz verglichen werden, wobei das Vergleichen des zweiten Ausgabevektors des ersten neuronalen Netzes mit der zweiten Referenz ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die zweite Referenz einen Idealzustand des zweiten Ausgabevektors des ersten neuronalen Netzes und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes des ersten neuronalen Netzes repräsentiert.
Vorteilhaft ist es, wenn

- der zweite Ausgabevektor des ersten neuronalen Netzes mit dem zweiten Eingabevektor des ersten neuronalen Netzes verglichen wird, und/oder
- der zweite Ausgabevektor des ersten neuronalen Netzes aus dem neuen Zustand des ersten neuronalen Netzes und aus dem ersten Ausgabevektor des ersten neuronalen Netzes generiert wird.

Fern hat es sich als vorteilhaft herausgestellt, wenn

- aus dem neuen Zustand des zweiten neuronalen Netzes der zweite Ausgabevektor des zweiten neuronalen Netzes generiert wird, und
- der zweite Ausgabevektor des zweiten neuronalen Netzes mit dem zweiten Eingabevektor des ersten neuronalen Netzes verglichen wird, um das erste neuronale Netz zu trainieren.

Figurenliste
Einzelheiten und Merkmale der Erfindung sowie konkrete, insbesondere vorteilhafte Ausführungsbeispiele der Erfindung ergeben sich aus der nachfolgenden Beschreibung in Verbindung mit der Zeichnung. Es zeigt:

1 ein aus dem Stand der Technik bekanntes künstliches neuronales Netz als rekurrentes neuronales Netz;
2 ein weiteres aus dem Stand der Technik bekanntes künstliches neuronales Netz als Long-Short-Term-Memory Netz;
3 ein erfindungsgemäßes System als Erweiterung des in 1 gezeigten künstlichen neuronalen Netzes;
4 ein erfindungsgemäßes System als Erweiterung des in 2 gezeigten künstlichen neuronalen Netzes;
5 ein erfindungsgemäßes System als Erweiterung des in 1 gezeigten künstlichen neuronalen Netzes;
6 eine erfindungsgemäße Erweiterung des in 5 gezeigten Systems;
7 eine erfindungsgemäße Erweiterung des in 6 gezeigten Systems;
8 eine erfindungsgemäße Erweiterung des in 7 gezeigten Systems; und
9 eine erfindungsgemäße Erweiterung des in 8 gezeigten Systems.

Detaillierte Beschreibung der Erfindung
Bei den nachfolgend beschriebenen neuronalen Netzen handelt es sich jeweils um künstliche neuronale Netze.
Mit der Erfindung können autonom selbstlernende Agenten bereitgestellt werden, mit denen ein technisches System gesteuert werden kann. Die Agenten und damit auch die jeweils gesteuerten technischen Systeme können nicht nur autonom arbeiten, sondern sie können sich auch adaptiv und autonom an neue Umgebungen anpassen. Anwendungen sind beispielsweise Robotik, autonomes Fahren, Raumfahrt oder medizinische Anwendungen. So kann beispielsweise ein Roboter in unterschiedlichen Umgebungen eingesetzt werden, wobei der Roboter nach einem Wechsel der Umgebung die neue Umgebung autonom lernen kann und damit sein Verhalten an die neue Umgebung anpassen kann.
Zur Lösung der vorstehend genannten Aufgabe werden erfindungsgemäß zwei wesentliche Erweiterungen zum Stand der Technik vorgeschlagen.

- Die erste Erweiterung betrifft die Einführung einer intrinsischen Referenz des neuronalen Netzes (nachfolgend erstes neuronales Netz NN1), also ein Selbstbild des ersten neuronalen Netzes NN1. Die intrinsische Referenz wird nachfolgend Emotion genannt.
- Die zweite Erweiterung betrifft das Lernen eines Weltmodells als Teil des Gesamtsystems unter Verwendung eines weiteren neuronalen Netzes (nachfolgend zweites neuronales Netz NN2). Das Weltmodell wird nachfolgend auch Weltbild genannt.

Beide Erweiterungen können miteinander kombiniert werden.
3 zeigt eine erfindungsgemäße Erweiterung des in 1 gezeigten rekurrenten neuronalen Netzes NN1 anhand einer Emotion. Das neuronale Netz NN1 (erste neuronale Netz) wird von einem ersten Agenten S implementiert. Der Agent S wird nachfolgend auch Selbst genannt.
Im Stand der Technik werden ein erster Eingabevektor x des ersten neuronalen Netzes NN1 und ein aktueller Zustand h_t des ersten neuronalen Netzes NN1 gemeinsam in einen neuen Zustand h_t+1 des ersten neuronalen Netzes NN1 überführt. Aus dem neuen Zustand h_t+1 des ersten neuronalen Netzes NN1 wird dann ein erster Ausgabevektor y des ersten neuronalen Netzes NN1 generiert. Der erste Ausgabevektor y kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer ersten Referenz y* bzw. mit einem ersten Referenzvektor verglichen werden, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstandsfunktion.
Zusätzlich zu dem aus dem Stand der Technik bekannten ersten Eingabevektor x wird dem ersten neuronalen Netz NN1 ein zweiter Eingabevektor e zugeführt. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 repräsentiert hierbei eine Emotion des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.
Da sowohl x als auch e vektoriell sind, können mit beiden Eingabevektoren x, e beliebig viele skalare Eingaben und Emotionen modelliert werden. Die aktuelle Emotion des Systems kann also mehrere Größen enthalten, wie zum Beispiel Schmerz (wenn ein Roboter beispielsweise eine Kollision verursacht), Hunger (beispielsweise bei einem geringen Ladestand eines Akkumulators) oder Freude (etwa eine Belohnung, wenn das zu steuernde technische System eine Aufgabe gelöst hat).
Ferner wird zusätzlich zu dem aus dem Stand der Technik bekannten ersten Ausgabevektor y ein zweiter Ausgabevektor e' erzeugt. Der zweite Ausgabevektor e' repräsentiert die erwartete Emotion des nächsten Zustands h_t+1 des Selbst bzw. des ersten neuronalen Netzes NN1 bzw. des ersten Agenten S.
Der zweite Ausgabevektor e' wird erfindungsgemäß erzeugt, indem der zweite Eingabevektor e, der erste Eingabevektor x und der aktuelle Zustand ht des ersten neuronalen Netzes NN1 gemeinsam in den neuen Zustand h_t+1 des ersten neuronalen Netzes NN1 überführt werden. Im Unterschied zu dem aus dem Stand der Technik bekannten neuronalen Netzen wird aus dem so erzeugten neuen Zustand h_t+1 der erste Ausgabevektor y erzeugt, also unter Berücksichtigung des zweiten Eingabevektors e. Der zweite Ausgabevektor e' des ersten neuronalen Netzes NN1 wird ebenfalls aus dem so erzeugten neuen Zustand h_t+1 generiert
Die erwartete Emotion bzw. der zweite Ausgabevektor e' kann dann zum Zwecke des Trainings des ersten neuronalen Netzes NN1 mit einer zweiten Referenz e* bzw. mit einem zweiten Referenzvektor verglichen werden, beispielsweise unter Verwendung einer Abstandfunktion, vorzugsweise einer euklidischen Abstandsfunktion. Die zweite Referenz e* repräsentiert hierbei einen Idealzustand des zweiten Ausgabevektors e' des ersten neuronalen Netzes NN1 und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes h_t+1 des ersten neuronalen Netzes NN1.
Für den Vergleich zwischen e' und e* bzw. zwischen y und y* können beliebige, geeignete Abstandsfunktionen verwendet werden.
Der Idealzustand der erwarteten Emotion kann beispielsweise 0 (für nicht vorhanden) oder 1 (für vorhanden) sein, wobei auch Werte zwischen 0 und 1 möglich sind.
Anhand der in 3 gezeigten erfindungsgemäßen Erweiterung ist das System in der Lage, alle lernbaren Parameter, die mittels der gestrichelten Pfeile zum zweiten Ausgabevektor e' führen, zu trainieren. Für das Training selbst können auch Verfahren eingesetzt werden, die nicht nur die aktuelle Emotion optimieren, sondern auch vergleichbar zum so genannten Reinforcement Learning die erwartete Emotion in der Zukunft berücksichtigen.
Der gestrichelte Pfeil zum Ausgabevektor y ist allerdings mit Emotionen alleine nicht trainierbar, sodass die erste Referenz y* bzw. der erste Referenzvektor für dieses Training verwendet werden muss.
4 zeigt eine erfindungsgemäße Erweiterung des in 2 gezeigten Long-Short-Term-Memory Netz anhand einer Emotion. Bis auf das zugrundeliegende neuronale Netz entspricht die in 4 gezeigte Ausführungsform der in 3 gezeigten Ausführungsform.
Die in 3 und 4 gezeigte Erweiterung kann aber auch für andere Arten von neuronalen Netzwerken angewandt werden.
Für das emotionale Training, d.h. für das Training der vom neuen Zustand h_t+1 zum zweiten Ausgabevektor e' geführten Verbindung sind bei den in 3 und 4 gezeigten Erweiterungen zwei weitere Alternativen möglich, die aber auch zusammen mit dem Training basierend auf der zweiten Referenz e* verwendet werden können:

1) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur mit der zweiten Referenz e* verglichen, sondern auch mit dem zweiten Eingabevektor e. Dadurch kann sichergestellt werden, dass der zweite Ausgabevektor e' auch tatsächlich zum zweiten Eingabevektor e passt, d.h. zur Eingabeemotion passt.
2) Der zweite Ausgabevektor e' (Ausgabeemotion) wird nicht nur aus dem neuen Zustand h_t+1 des ersten neuronalen Netzes NN1 abgeleitet, sondern auch unter Berücksichtigung des ersten Ausgabevektors y, d.h. der zweite Ausgabevektor e' wird aus dem neuen Zustand h_t+1 und aus dem ersten Ausgabevektor y abgeleitet. Dadurch wird es möglich, alle Parameter im Netzwerk rein durch Emotionen zu trainieren.

Diese beiden Alternativen können auch kombiniert werden.
Ferner können diese beiden Alternativen auf für die in 6 bis 9 gezeigten erfindungsgemäßen Erweiterungen eines neuronalen Netzes angewandt werden.
5 zeigt ein erfindungsgemäßes System als Erweiterung des in 1 gezeigten künstlichen neuronalen Netzes;
Mit der in 5 gezeigten Erweiterung wird es möglich, auf die ideale Referenz, d.h. auf die erste Referenz y*, die zum Trainieren des ersten Ausgabevektors y verwendet wird, zu verzichten. Während im Stand der Technik eine exakt vorgegebene Zielgröße für das Training des neuronalen Netzes NN1 unbedingt notwendig ist, ist eine solche Zielgröße bei der in 5 gezeigten Erweiterung nicht mehr notwendig.
Bei der in 5 gezeigten Erweiterung ist neben dem ersten neuronalen Netz NN1 ein zweites neuronales Netz NN2 vorgesehen. Das erste neuronale Netz NN1 wird mit dem zweiten neuronalen Netz NN2 gekoppelt, wobei der der erste Ausgabevektor y des ersten neuronalen Netzes NN1 dem zweiten neuronalen Netz NN2 als erster Eingabevektor y des zweiten neuronalen Netzes NN2 zugeführt wird.
Das zweite neuronale Netz NN2 wird hierbei von einem zweiten Agenten W implementiert. Der zweite Agent W wird nachfolgend auch Weltbild genannt, da mit zweiten neuronalen Netz NN2 ein Weltmodell als Teil des Gesamtsystems gelernt werden kann. Mit dem zweiten neuronalen Netz NN2 wird also das Verhalten der Welt modelliert, beispielsweise eine Umgebung, in der sich ein Roboter befindet. Bei dem zweiten neuronalen Netz NN2 kann es sich beispielsweise um ein rekurrentes neuronale Netz handeln, wobei auch jede andere Art eines neuronalen Netzes verwendet werden kann.
Das zweite neuronale Netz NN2 generiert anhand des ersten Eingabevektors y (= erster Ausgabevektor y des ersten neuronalen Netzes NN1) eine erwartete Reaktion des zweiten Agenten W bzw. des Weltbildes auf den ersten Eingabevektor y des zweiten neuronalen Netzes NN2. Diese erwartete Reaktion wird als erster Ausgabevektor x' des zweiten neuronalen Netzes NN2 zur Verfügung gestellt. Zum Generieren des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 werden der erste Eingabevektor y des zweiten neuronalen Netzes NN2 und ein aktueller Zustand w_t des zweiten neuronalen Netzes NN2 gemeinsam in einen neuen Zustand w_t+1 des zweiten neuronalen Netzes NN2 überführt. Aus dem neuen Zustand w_t+1 des zweiten neuronalen Netzes NN2 wird dann der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 generiert,
Der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 wird mit dem ersten Eingabevektor x des ersten neuronalen Netzes NN1 verglichen, um das erste neuronale Netz NN1 zu trainieren. Das erste neuronale Netz NN1 wird also in Abhängigkeit vom Verhalten des zweiten neuronalen Netzes NN2 bzw. in Abhängigkeit des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 trainiert.
Anhand der tatsächlichen Ausgaben und der generierten Erwartung bzw. des ersten Ausgabevektors x' des zweiten neuronalen Netzes NN2 kann das in 5 gezeigte Gesamtsystem vollständig trainiert werden, sodass alle lernbaren Parameter geschätzt werden können.
6 zeigt eine erfindungsgemäße Erweiterung des in 5 gezeigten Systems, wobei das in 6 gezeigte System eine Kombination der in 3 und 5 gezeigten Systeme ist.
Das eigentliche Steuerungssystem, d.h. der Agent S, mit dem ein technisches System, etwas ein Roboter gesteuert wird, kann hier zum einen über die Emotionen (zweiter Eingabevektor e des ersten neuronalen Netzes NN1 bzw. zweiter Ausgabevektor e' des ersten neuronalen Netzes NN1) gesteuert bzw. trainiert werden. Hierdurch wird erreicht, dass das erste neuronale Netz NN1 bzw. der erste Agent S einen möglichst erstrebenswerten Zustand verfolgt.
Zum anderen wird die Ausgabe des ersten neuronalen Netzes NN1 (d.h. der erste Ausgabevektor y des ersten neuronalen Netzes NN1) über das Weltbild (d.h. über das zweite neuronale Netz NN2 bzw. über den zweiten Agenten W) mit der Eingabe des ersten neuronalen Netzes NN1 (d.h. mit dem ersten Eingabevektor x des ersten neuronalen Netzes NN1) verglichen, da das Weltbild eine erwartete Eingabe (d.h. einen ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2) produzieren kann, wobei mit dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 der erste Eingabevektor x des ersten neuronalen Netzes NN1 trainiert wird. Dies ermöglicht es, ein Training ohne Referenz durchzuführen.
Das System bzw. der erste Agent S ist also vollständig ohne annotierte Daten trainierbar und benötigt lediglich Anreize, die Zustände als erstrebenswert oder nicht erstrebenswert kennzeichnen. Diese Anreize können durch spärliche Annotation codiert werden, wie zum Beispiel extreme Ereignisse, etwa eine Kollision oder Parameter, die leicht erfassbar sind, wie sinkende Energiepegel.
Die beiden vorstehend genannten Varianten für das emotionale Training können auch bei dem in 6 gezeigten System angewandt werden.
7 zeigt eine erfindungsgemäße Erweiterung des in 6 gezeigten Systems.
Hierbei wird zusätzlich zu dem ersten Ausgabevektor x' des zweiten neuronalen Netzes NN2 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 generiert. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand w_t+1 des zweiten neuronalen Netzes NN2 abgeleitet. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes w_t+1 des zweiten neuronalen Netzes NN2.
Die erwartete Emotion könnte beispielsweise aus den Aktionen eines anderen Teilnehmers der Welt, also einem Gegenüber resultieren. Wird beispielsweise ein Gegenüber zum Lachen gebracht, kann auch eine positive Reaktion erwartet werden, oder kollidiert beispielsweise ein Roboter mit einem anderen Roboter kann ein Alarmsignal des anderen Roboters erwartet werden. Diese erwarteten Emotionen bzw. der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 können ebenfalls mit dem zweiten Eingabevektor e des ersten neuronalen Netzes NN1 verglichen werden, was ebenfalls ein Training des ersten neuronalen Netzes NN1 ermöglicht.
Das Training des ersten neuronalen Netzes NN1 mittels des zweiten Ausgabevektors e" des zweiten neuronalen Netzes NN2 kann im Sinne des so genannten Multi Task Learning zu einer Stabilisierung des Gesamttrainings des ersten neuronalen Netzes NN1 beitragen. Anhand der Verbindung des ersten neuronalen Netzes NN1 über den zweiten Agenten W bzw. über das zweite neuronale Netz NN2 können abstrakte Auswirkungen modelliert werden, wie zum Beispiel die Auswirkungen einer Ausgabe y des ersten neuronalen Netzes NN1 auf das Weltbild, die resultierende Zustandsänderung des Weltbildes und daraus folgend das emotionale Feedback auf das Selbst bzw. auf das erste neuronale Netz NN1.
8 zeigt eine erfindungsgemäße Erweiterung des in 7 gezeigten Systems.
Gemäß der in 8 gezeigten Erweiterung, implementiert der zweite Agent W ein drittes neuronalen Netzes NN3, sodass mit dem zweiten Agenten W bzw. mit dem zweiten neuronalen Netzes NN2 nicht nur der Zustand des Weltbildes kodiert werden kann, sondern auch ein Modell des Selbstbildes des Weltbildes geschätzt werden kann.
Dem dritten neuronalen Netz NN3 wird der erste Ausgabevektor x' des zweiten neuronalen Netzes NN2 als erster Eingabevektor x' des dritten neuronalen Netzes NN3 zugeführt wird. Zudem wird dem dritten neuronalen Netz NN3 ein zweiter Ausgabevektor e" des zweiten neuronalen Netzes NN2 als zweiter Eingabevektor e" des dritten neuronalen Netzes NN3 zugeführt. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 repräsentiert, wie oben bereits erläutert, eine erwartete Emotion des neuen Zustandes w_t+1 des zweiten neuronalen Netzes NN2. Der zweite Ausgabevektor e" des zweiten neuronalen Netzes NN2 wird hierbei aus dem neuen Zustand w_t+1 des zweiten neuronalen Netzes NN2 generiert.
Der erste Eingabevektor x', der zweite Eingabevektor e" und der aktuelle Zustand h'_t des dritten neuronalen Netzes NN3 werden gemeinsam verwendet, um das dritte neuronale Netz NN3 in einen neuen Zustand h'_t+1 zu überführen.
Aus dem neuen Zustand h'_t+1 des dritten neuronalen Netzes NN3 wird ein erster Ausgabevektor y' des dritten neuronalen Netzes NN3 generiert, der dem zweiten neuronalen Netz NN2 als weiterer Eingabevektor des zweiten neuronalen Netzes NN2 zugeführt wird. Durch diese Verbindung der beiden neuronalen Netze NN3 und NN2 über den ersten Ausgabevektor y' des dritten neuronalen Netzes NN3 werden das Weltbild und das Selbstbild des zweiten Agenten W gekoppelt. Dadurch wird es möglich, dass die beiden neuronalen Netze NN3 und NN2 auch ohne dem ersten neuronalen Netzes NN1 Interaktionen simulieren können.
Zudem wird aus dem neuen Zustand h'_t+1 des dritten neuronalen Netzes NN3 ein zweiter Ausgabevektor e'" des dritten neuronalen Netzes NN3 generiert wird. Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 repräsentiert hierbei eine erwartete Emotion des neuen Zustandes h'_t+1 des dritten neuronalen Netzes NN3.
Der zweite Ausgabevektor e'" des dritten neuronalen Netzes NN3 wird zum Zwecke des Trainings des dritten neuronalen Netzes NN3 mit einer dritten Referenz e** verglichen. Das Vergleichen des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 mit der dritten Referenz e** kann auch hier ein Berechnen einer Abstandfunktion umfassen, beispielsweise eine der oben genannten Abstandsfunktionen. Die dritte Referenz e** repräsentiert hierbei einen Idealzustand des zweiten Ausgabevektors e'" des dritten neuronalen Netzes NN3 und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes h'_t+1 des dritten neuronalen Netzes NN3.
Ferner können das erste neuronale Netz NN1 und das dritte neuronale Netz NN3 miteinander gekoppelt werden, etwa indem der neue Zustand h_t+1 des ersten neuronalen Netzes NN1 und der aktuelle Zustand h'_t des dritten neuronalen Netzes NN3 miteinander gekoppelt werden. Diese Kopplung ist in 8 (und in 9) durch den Pfeil P gekennzeichnet. Damit wird es in vorteilhafter Weise möglich, basierend auf dem ersten neuronalen Netz NN1 das dritte neuronale Netz NN3 zu trainieren oder basierend auf dem dritten neuronalen Netz NN3 das erste neuronale Netz NN1 zu trainieren.
Das Selbstbild bzw. das dritte neuronale Netz NN3 generiert keine Ausgaben bzw. Ausgabevektoren, die als Ausgaben bzw. Ausgabevektoren des zweiten Agenten W verfügbar sind. Allerdings kann das Selbstbild bzw. das dritte neuronale Netz NN3 genutzt werden, um anhand des ersten Ausgabevektors y' des dritten neuronalen Netzes NN3 (der außerhalb des zweiten Agenten W nicht verfügbar gemacht wird) Änderungen des Weltbildes basierend auf Änderungen des Selbstbildes zu erforschen.
Mit Hilfe der Kopplung P ist es ferner möglich, dass Gesamtsystem in zwei unterschiedlichen Zuständen zu betreiben, die hier als Wachphase und als Traumschlafphase bezeichnet werden.
In der Wachphase ist der erste Agent S bzw. das erste neuronale Netz NN1 mit dem zweiten Agenten W bzw. mit dem dritten neuronalen Netz NN3 gekoppelt (Pfeil P). Das Selbstbild bzw. das dritte neuronale Netz NN3 lernt aus jeder Aktion des ersten neuronalen Netzes NN1, wie die Aktion den eigenen Zustand und den Zustand des Weltbildes bzw. des zweiten Agenten W verändern.
In der Traumschlafphase ist der erste Agent S bzw. das erste neuronale Netz NN1 von dem zweiten Agenten W bzw. von dem dritten neuronalen Netz NN3 entkoppelt (kein Pfeil P). In dem entkoppelten Zustand wird der erste Ausgabevektor y des ersten neuronalen Netzes NN1 nicht dem zweiten neuronalen Netzes NN2 zugeführt. In diesem Zustand kann das Selbstbild bzw. das dritte neuronale Netz NN3 innerhalb des zweiten Agenten W frei agieren.
Da das Weltbild bzw. das zweite neuronale Netz NN2 sowohl erwartete Eingaben (erster Eingabevektor x' des dritten neuronalen Netzes NN3) als auch erwartete Emotionen (zweiter Eingabevektor e" des dritten neuronalen Netzes NN3) generieren kann und das dritte neuronale Netz NN3 die weitere Eingabe (weiterer Eingabevektor y' des zweiten neuronalen Netzes NN2) generieren kann, können das Weltbild bzw. das zweite neuronale Netz NN2 und Selbstbild bzw. das dritte neuronale Netz NN3 im Wechsel völlig frei agieren.
Ein Training ist des ersten Agenten S bzw. des ersten neuronalen Netzes NN1 ist trotzdem immer noch möglich, da der neue Zustand h_t+1 des Selbst bzw. des ersten neuronalen Netzes NN1 immer noch den zweiten Ausgabevektor e' des ersten neuronalen Netzes NN1 generiert, der mit der zweiten (idealen) Referenz e* verglichen werden kann.
Das Träumen kann also genutzt werden, um verbesserte Interaktion des Selbstbildes bzw. des dritten neuronalen Netzes NN3 mit dem erwarteten Weltbild zu generieren.
In einer alternativen Variante sind die internen Zustände nicht gekoppelt, sondern die gelernten Verbindungen (Pfeile) im ersten neuronalen Netzes NN1 und dritten neuronalen Netzes NN3 sind gekoppelt. Dadurch entsteht eine Konfiguration, in der ein Training des Selbstbildes (des dritten neuronalen Netzes NN3) auch eine Verbesserung des eigentlichen Selbst (des ersten neuronalen Netzes NN1) verursacht. Alternativ können Selbst und Selbstbild die Rollen tauschen, wenn Selbst von der Ein- und Ausgabe entkoppelt wird. Das bedeutet, dass statt beide Netze lose über Abstandsfunktionen zu trainieren, beide Netze den gleichen Speicher für die Gewichte verwenden können. Beide nehmen also immer den gleichen Wert für die Parameter des ersten neuronalen Netzes NN1 und des dritten neuronalen Netzes NN3 an.
9 zeigt eine erfindungsgemäße Erweiterung des in 8 gezeigten Systems. Gemäß der in 9 gezeigten Erweiterung kann das in 8 gezeigte Gesamtsystem mit erweiterten Funktionen gekoppelt werden. Diese erweiterten Funktionen könnten zum Beispiel ein erweitertes Gedächtnis (ausgestaltet als Speichereinrichtung) sein, dass den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zustand des dritten neuronalen Netzes NN3 speichern und laden kann. Weitere, lediglich beispielhaft aufgeführte Erweiterungen können sein:

- ein Sprachprozessor, der den Zustand des zweiten neuronalen Netzes NN2 und/oder den Zustand des dritten neuronalen Netzes NN3 in Symbolfolgen von Wörtern und Buchstaben umsetzen kann;
- erweiterte Eingabefunktionen, wie zum Beispiel der visuelle und auditive Kortex;
- ein Sprachsynthesemodul, das menschliche Sprache erzeugen kann;
- taktile und Bewegungsplanungsmodule, die komplexe motorische Pläne modellieren und ausführen können;
- Module zum Laden und Speichern von Graphen, die es ermöglichen, verschiedene Zustände der Welt und des Selbstbildes miteinander zu verketten, zu verarbeiten, zu speichern und zu laden (assoziatives Gedächtnis);
- Module zum Verarbeiten und Auswerten von Aussagenlogik und Arithmetik;
- Erweiterte Gefühlsfunktionen, die es ermöglichen komplexe soziale Handlungen zu erkennen und auf Gefühle abzubilden;

Darüber hinaus können beliebige weitere Module vorgesehen sein, die mit dem Zustand des zweiten neuronalen Netzes NN1 und dem Zustand des dritten neuronalen Netzes NN3 interagieren können.
Ein Beispiel eines technischen Systems, das mit der vorliegenden Erfindung gesteuert werden kann, ist ein Mars-Rover, der selbstständig Aufgaben erfüllt und nach und nach seine Umgebung erkundet.
Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 kann hierbei beispielsweise Vitalparameter (Ladestand des Akkumulators, Funktionsfähigkeit der Achsen, etc., wobei diese Parameter von geeigneten Sensoren bereitgestellt werden können) repräsentieren. Der zweite Eingabevektor e des ersten neuronalen Netzes NN1 kann aber auch Ziele repräsentieren bzw. beschreiben, etwa den Drang seine Umwelt zu erkunden (Neugier) oder das Abarbeiten von gestellten Aufgaben (Loyalität), wobei hierfür die in 9 gezeigten erweiterten Funktionen verwendet werden können.
Die erweiterten Funktionen können direkt im Selbstbild bzw. im dritten neuronalen Netzes NN3 Änderungen am Zustand des zweiten Agenten W bewirken. Ist beispielsweise die Liste an Arbeiten noch nicht erledigt, ändert sich der Zustand des zweiten Agenten W so, dass dieser eine Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) bewirkt, die wiederum beim ersten Agenten S den Wunsch weckt, die Liste abzuarbeiten. Hierzu können weitere erweiterte Funktionen notwendig sein. Beispielsweise kann ein Aufgabenplaner als erweiterte Funktion vorgesehen sein, der es dem ersten Agenten S ermöglicht, eine Sequenz von Aktionen abzuarbeiten.
Das Vorsehen von erweiterten Funktionen ermöglicht es, den Funktionsumfang des ersten Agenten S modular zu erweitern. Insbesondere können auch freie Funktionen vorgesehen werden, die erst im Bedarfsfall angelernt werden.
Die Erkundung der Umgebung des Mars-Rovers, also das Lernen des Weltbildes erfolgt analog. Hierbei kann eine erweiterte Funktion für das Kartographieren (beispielsweise mittels Simultaneous Localization and Mapping (SLAM), bei dem eine Karte und die Position des Mars-Rovers gleichzeitig geschätzt werden) bereitgestellt werden. Die hierzu relevanten Informationen können von geeigneten Sensoren bereitgestellt werden, etwa Ultraschallsensoren oder Lidar. Ein weiteres Modul kann die Karte auf Lücken und Fehler untersuchen. Werden solche Lücken oder Fehler gefunden, kann der Zustand des Selbstbildes bzw. des dritten neuronalen Netzes NN3 so verändert werden, dass eine entsprechende Emotion e' (repräsentiert durch den zweiten Ausgabevektor des ersten neuronalen Netzes NN1) erzeugt wird. Als Resultat versucht das System bzw. der erste Agent S diesen Zustand zu verlassen und die Fehler und/oder Lücken in der Karte zu beheben. Dies kann dann ebenfalls über einen Aufgabenplaner erledigt werden.
Für die erweiterten Funktionen können vortrainierte neuronale Netze oder auch direkt Algorithmen verwenden, wenn diese auf Basis der differenzierbaren Programmierung implementiert sind. Damit wird es in vorteilhafter Weise möglich, neuronale Netze und Programmierung zu mischen, wodurch die Entwicklung und das Training der neuronalen Netze erheblich beschleunigt werden.
Mit dem erfindungsgemäß Verfahren wird erstmals eine Gesamtlösung bereitgestellt, die vergleichbar zum menschlichen Wahrnehmungsprozess durch Emotionen und Interaktion mit der Welt trainiert werden kann. Dazu ist es nicht notwendig, ein festes Weltbild vorzugeben, wie es im Stand der Technik erforderlich ist.
Das Weltbild wird vielmehr autonom selbst gelernt. Erstrebenswerte Handlungen werden rein durch Emotionen durch schwache Kennzeichnung gelernt. Gemäß dem erfindungsgemäßen Verfahren kann der Agent S also vollständig autonom und selbstlernend agieren. Gemäß der in 8 gezeigten Weiterbildung wird sogar ein Selbstbild in der Welt bzw. des Weltbildes modelliert wird, mit dem das Weltbild trainiert werden kann. Das System gemäß 8 kann in Wach- und Schlafphasen selbst lernen, ohne dass eine Interaktion mit der echten Welt notwendig ist.
Darüber hinaus lassen sich bei dem System gemäß 8 beispielsweise viele neuroanatomische und neuropathologische Beobachtung wiederfinden:

- Das Ausschalten des Selbst bzw. des ersten Agenten S würde das Gesamtsystem in einen Zustand versetzen, in dem es nur noch mit sich selbst in Interaktion treten kann. Dieser Zustand wird in der Neuropathologie als Locked-In Syndrom beschrieben.
- Das komplette Bewusstsein könnte vollständig ausgeschalten werden. Dies könnte durch eine Entfernung des Weltbildes realisiert werden. Das Gesamtsystem könnte immer noch agieren, jedoch wäre es nicht mehr in der Lage, komplexe Pläne zu erstellen, da dazu das Weltbild benötigt wird. Dies entspricht den in der Neuropathologie beobachteten so genannten Automatismen. Auch der Zustand des Schlafwandelns ruft ähnliche Erscheinungen vor.
- Eine Entfernung des Blocks e' (zweiter Ausgabevektor des ersten neuronalen Netzes NN1) ist vergleichbar mit einer Einschränkung der Amygdala des Gehirns. Hier kann das komplette System die Emotionen nicht mehr korrekt verarbeiten. Ähnliche Einschränkungen können auch bei autistischen Störungen vorliegen.
- Einschränkung der erweiterten Funktionen, die in 9 dargestellt sind, können ebenfalls auf entsprechende neuropathologische Phänomene abgebildet werden. Dazu gehören zum Beispiel Amnesie, kortikale Taubheit oder kortikale Blindheit.
- Multiple Persönlichkeiten können durch das fehlerhafte Anlegen von mehreren Selbstbildern generiert werden.
- Schwer erklärbare normale neurologische Prozesse, wie die Interaktion von Selbst und Selbstbild, die vermutlich zum Gefühl des Bewusstseins führen, sind dadurch nachvollziehbar: Erlebt das Selbst tatsächlich eine Situation, die das Selbstbild bereits im Traum erlebt hat, entsteht ein deja-vu.
- Das System ist auch nützlich, um das Qualia-Problem nachzuvollziehen.

Jedes System hat potentiell ein anderes Selbst- und Weltbild. Daher sind gleiche Bilder (z.B. Empfindung der Farbe Rot) zwar wahrscheinlich, exakte Gleichheit aber extrem unwahrscheinlich. Die Erfindung kann also auch zur objektiven Erforschung solcher Phänomene dienen.
Zusammenfassend ist es mit der Erfindung möglich, das menschliche Bewusstsein in einem bisher unbekannten Detailgrad abzubilden. Zudem ist der erste Agent S in der Lage, sich an völlig neue Umgebungen anzupassen, da sowohl das Bild der Welt als auch das Bild von sich selbst vollständig neu gelernt und angepasst werden kann. Damit ist das System also in der Lage sowohl Veränderung in der Welt zu lernen und sich darauf einzustellen, als auch Veränderungen am Selbst zu beobachten und zu berücksichtigen. Zum Einsatz des Systems sind keinerlei Trainingsdaten notwendig. Lediglich das eigene Feedback anhand der Emotion ist ausreichend, um sich auf komplexe neue Situation einzustellen.
Bezugszeichenliste

e: zweiter Eingabevektor des ersten neuronalen Netzes NN1
e': zweiter Ausgabevektor des ersten neuronalen Netzes NN1
e": zweiter Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. zweiter Eingabevektor des dritten neuronalen Netzes NN3
e'": zweiter Ausgabevektor des dritten neuronalen Netzes NN3
e*: zweite Referenz
e**: dritte Referenz
h_t: aktueller Zustand des ersten neuronalen Netzes NN1
h'_t: aktueller Zustand des dritten neuronalen Netzes NN3
h_t+1: neuer Zustand des ersten neuronalen Netzes NN1
h'_t+1: neuer Zustand des ersten neuronalen Netzes NN3
NN1: erstes künstliches neuronales Netz
NN2: zweites künstliches neuronales Netz
NN3: drittes künstliches neuronales Netz
P: Koppelung / Pfeil
S: erster Agent (auch „Selbst“ genannt)
T: Training
W: zweiter Agent (auch „Weltbild“ genannt)
w_t: aktueller Zustand des zweiten neuronalen Netzes NN2
w_t+1: neuer Zustand des zweiten neuronalen Netzes NN2
x: erster Eingabevektor des ersten neuronalen Netzes NN1
x': erster Ausgabevektor des zweiten neuronalen Netzes NN2 bzw. erster Eingabevektor des dritten neuronalen Netzes NN3
y: erster Ausgabevektor des ersten neuronalen Netzes NN1
y': erster Ausgabevektor des dritten neuronalen Netzes NN3 bzw. weiterer Eingabevektor des zweiten neuronalen Netzes NN2
y*: erste Referenz

Claims

Verfahren zum Steuern eines technischen Systems mit einem ersten Agenten (S), wobei der erste Agent (S) ein erstes künstliches neuronales Netz (NN1) implementiert, wobei ein erster Eingabevektor (x) des ersten neuronalen Netzes (NN1) und ein aktueller Zustand (h_t) des ersten neuronalen Netzes (NN1) gemeinsam in einen neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) überführt werden und wobei aus dem neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) ein erster Ausgabevektor (y) des ersten neuronalen Netzes (NN1) generiert wird, dadurch gekennzeichnet, dass - der erste Ausgabevektor (y) des ersten neuronalen Netzes (NN1) einem zweiten künstlichen neuronalen Netz (NN2) als erster Eingabevektor (y) des zweiten neuronalen Netzes (NN2) zugeführt wird, wobei das zweite neuronale Netz (NN2) von einem zweiten Agenten (W) implementiert wird, - der erste Eingabevektor (y) des zweiten neuronalen Netzes (NN2) und ein aktueller Zustand (w_t) des zweiten neuronalen Netzes (NN2) gemeinsam in einen neuen Zustand (w_t+1) des zweiten neuronalen Netzes (NN2) überführt werden, - aus dem neuen Zustand (w_t+1) des zweiten neuronalen Netzes (NN2) ein erster Ausgabevektor (x') des zweiten neuronalen Netzes (NN2) generiert wird, wobei der erste Ausgabevektor (x') des zweiten neuronalen Netzes (NN2) eine erwartete Reaktion des zweiten neuronalen Netzes (NN2) auf den ersten Eingabevektor (y) des zweiten neuronalen Netzes (NN2) repräsentiert, und - der erste Ausgabevektor (x') des zweiten neuronalen Netzes (NN2) mit dem ersten Eingabevektor (x) des ersten neuronalen Netzes (NN1) verglichen wird, um das erste neuronale Netz (NN1) zu trainieren.
Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Agent (W) ein drittes künstliches neuronales Netz (NN3) implementiert, wobei - dem dritten neuronalen Netz (NN3) der erste Ausgabevektor (x') des zweiten neuronalen Netzes (NN2) als erster Eingabevektor (x') des dritten neuronalen Netzes (NN3) zugeführt wird, - dem dritten neuronalen Netz (NN3) ein zweiter Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) als zweiter Eingabevektor (e") des dritten neuronalen Netzes (NN3) zugeführt wird, wobei der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) eine erwartete Emotion des neuen Zustandes (w_t+1) des zweiten neuronalen Netzes (NN2) repräsentiert, - der erste Eingabevektor (x'), der zweite Eingabevektor (e") und der aktuelle Zustand (h'_t) des dritten neuronalen Netzes (NN3) gemeinsam in einen neuen Zustand (h'_t+1) des dritten neuronalen Netzes (NN3) überführt werden, - aus dem neuen Zustand (h'_t+1) des dritten neuronalen Netzes (NN3) ein zweiter Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) generiert wird, wobei der zweite Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) eine erwartete Emotion des neuen Zustandes (h'_t+1) des dritten neuronalen Netzes (NN3) repräsentiert, und - aus dem neuen Zustand (h'_t+1) des dritten neuronalen Netzes (NN3) ein erster Ausgabevektor (y') des dritten neuronalen Netzes (NN3) generiert wird, der dem zweiten neuronalen Netz (NN2) als weiterer Eingabevektor (y') des zweiten neuronalen Netzes (NN2) zugeführt wird.
Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabevektor (e'") des dritten neuronalen Netzes (NN3) zum Zwecke des Trainings des dritten neuronalen Netzes (NN3) mit einer dritten Referenz (e**) verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) mit der dritten Referenz (e**) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die dritte Referenz (e**) einen Idealzustand des zweiten Ausgabevektors (e'") des dritten neuronalen Netzes (NN3) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (h'_t+1) des dritten neuronalen Netzes (NN3) repräsentiert.
Verfahren nach einem der beiden vorhergehenden Ansprüche, wobei das erste neuronale Netz (NN1) und das dritte neuronale Netz (NN3) miteinander gekoppelt werden, insbesondere der neue Zustand (h_t+1) des ersten neuronalen Netzes (NN1) und der aktuelle Zustand (h't) des dritten neuronalen Netzes (NN3) miteinander gekoppelt werden, um basierend auf dem ersten neuronalen Netz (NN1) das dritte neuronale Netz (NN3) zu trainieren oder basierend auf dem dritten neuronalen Netz (NN3) das erste neuronale Netz (NN1) zu trainieren.
Verfahren nach einem der vorhergehenden Ansprüche, wobei - dem ersten neuronalen Netze (NN1) ein zweiter Eingabevektor (e) zugeführt wird, - der zweite Eingabevektor (e), der erste Eingabevektor (x) und der aktuelle Zustand (h_t) des ersten neuronalen Netzes (NN1) gemeinsam in den neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) überführt werden, wobei der zweite Eingabevektor (e) des ersten neuronalen Netzes (NN1) eine Emotion repräsentiert, und - aus dem neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) zusätzlich zum ersten Ausgabevektor (y) des ersten neuronalen Netzes (NN1) ein zweiter Ausgabevektor (e') des ersten neuronalen Netzes (NN1) generiert wird, wobei der zweite Ausgabevektor (e') des ersten neuronalen Netzes (NN1) eine erwartete Emotion des neuen Zustandes (h_t+1) des ersten neuronalen Netzes (NN1) repräsentiert.
Verfahren nach dem vorhergehenden Anspruch, wobei der zweite Ausgabevektor (e') des ersten neuronalen Netzes (NN1) zum Zwecke des Trainings des ersten neuronalen Netzes (NN1) mit einer zweiten Referenz (e*) verglichen wird, wobei das Vergleichen des zweiten Ausgabevektors (e') des ersten neuronalen Netzes (NN1) mit der zweiten Referenz (e*) ein Berechnen einer Abstandfunktion, vorzugsweise eines euklidischen Abstandes, umfasst, und wobei die zweite Referenz (e*) einen Idealzustand des zweiten Ausgabevektors (e') des ersten neuronalen Netzes (NN1) und damit einen Idealzustand der erwarteten Emotion des neuen Zustandes (h_t+1) des ersten neuronalen Netzes (NN1) repräsentiert.
Verfahren nach dem vorhergehenden Anspruch, wobei - der zweite Ausgabevektor (e') des ersten neuronalen Netzes (NN1) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, und/oder - der zweite Ausgabevektor (e') des ersten neuronalen Netzes (NN1) aus dem neuen Zustand (h_t+1) des ersten neuronalen Netzes (NN1) und aus dem ersten Ausgabevektor (y) des ersten neuronalen Netzes (NN1) generiert wird.
Verfahren nach einem der vorhergehenden Ansprüche 5 bis 7, wobei - aus dem neuen Zustand (w_t+1) des zweiten neuronalen Netzes (NN2) der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) generiert wird, und - der zweite Ausgabevektor (e") des zweiten neuronalen Netzes (NN2) mit dem zweiten Eingabevektor (e) des ersten neuronalen Netzes (NN1) verglichen wird, um das erste neuronale Netz (NN1) zu trainieren.