EP2543006A1

EP2543006A1 - Verfahren zum rechnergestützten lernen eines rekurrenten neuronalen netzes zur modellierung eines dynamischen systems

Info

Publication number: EP2543006A1
Application number: EP11714531A
Authority: EP
Inventors: Hans-Georg Zimmermann; Ralph Grothmann; Christoph Tietz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2010-04-14
Filing date: 2011-04-12
Publication date: 2013-01-09
Also published as: WO2011128313A1; US9235800B2; US20130204815A1; CN102934131A

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zur Modellierung eines dynamischen Systems, das zu jeweiligen Zeitpunkten durch einen Observablenvektor umfassend eine oder mehrere Observablen als Einträge charakterisiert wird. Erfindungsgemäß wird dabei ein neuronales Netz gelernt, welches sowohl ein kausales Netz mit einem zeitlich vorwärts gerichteten Infor- mationsfluss als auch ein retro-kausales Netz mit einem zeitlich rückwärts gerichteten Informationsfluss umfasst. Die Zustände des dynamischen Systems werden in dem kausalen Netz durch erste Zustandsvektoren und in dem retro-kausalen Netz durch zweite Zustandsvektoren charakterisiert, welche jeweils Observablen des dynamischen Systems sowie versteckte Zustände des dynamischen Systems enthalten. Beide Netze werden über die Kombination der Observablen der entsprechenden ersten und zweiten Zustandsvektoren miteinander verknüpft und basierend auf Trainingsdaten umfassend bekannte Observablenvektoren gelernt. Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass auch dynamische Systeme modelliert werden können, bei denen prognostizierte zukünftige Observablen einen Einfluss auf den aktuellen Wert der Observablen haben. Das Verfahren eignet sich insbesondere zur Modellierung der zeitlichen Entwicklung von Energiepreisen und/oder Rohstoffpreisen. Ebenso kann das Verfahren zur Modellierung von Observablen beliebiger technischer Systeme eingesetzt werden, wie z.B. Gasturbinen und/oder Windkraftanlagen.

Description

Beschreibung

Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zur Modellierung eines dynamischen Systems

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zur Modellierung eines dynamischen Systems sowie ein Verfahren zur Prädiktion der Observablen eines dynamischen Systems basierend auf einem gelernten rekurrenten neuronalen Netz und ein entsprechendes Computerprogrammprodukt .

Rekurrente neuronale Netze werden heutzutage in verschiedenen Anwendungsgebieten dazu verwendet, um die zeitliche Entwick- lung eines dynamischen Systems in geeigneter Weise derart zu modellieren, dass ein mit Trainingsdaten des dynamischen Systems gelerntes rekurrentes neuronales Netz gut die Obser^¬ vablen (beobachtbaren Zustände) des betrachteten Systems vorhersagen kann. Dabei werden durch das rekurrente neuronale Netz als Zustände des dynamischen Systems neben den Observablen auch unbekannte versteckte Zustände modelliert, wobei in der Regel lediglich ein kausaler, d.h. zeitlich vorwärts gerichteter, Informationsfluss zwischen zeitlich aufeinander folgenden Zuständen betrachtet wird. Häufig beruhen dynami- sehe Systeme jedoch darauf, dass bei der zeitlichen Entwick^¬ lung der Zustände des Systems auch zukünftige Prognosen über Observablen eine Rolle spielen. Solche dynamischen Systeme werden durch bekannte rekurrente neuronale Netze oftmals nur unzureichend beschrieben.

Aufgabe der Erfindung ist es deshalb, ein Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zu schaffen, mit dem dynamische Systeme besser modelliert werden können .

Diese Aufgabe wird durch die unabhängigen Patentansprüche ge^¬ löst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert. Das erfindungsgemäße Verfahren dient zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zur Modellierung eines dynamischen Systems, das zu jeweiligen Zeitpunkten durch einen Observablenvektor umfassend eine oder mehrere Ob- servablen (d.h. beobachtbare Zustände des dynamischen Sys^¬ tems) als Einträge charakterisiert ist. Das Verfahren ist da^¬ bei auf beliebige dynamische Systeme anwendbar, beispielswei^¬ se kann mit dem Verfahren die Entwicklung von Energiepreisen und/oder Rohstoffpreisen modelliert werden. Ebenso kann mit dem Verfahren jedes beliebige, sich dynamisch über die Zeit verändernde technische System basierend auf entsprechenden beobachtbaren Zustandsgrößen des technischen Systems modelliert werden, um hierdurch Observablen des technischen Sys- tems mit einem entsprechend gelernten Netz vorherzusagen. Beispielsweise kann mit dem Verfahren eine Gasturbine

und/oder eine Windkraftanlage geeignet modelliert werden.

Das in dem erfindungsgemäßen Verfahren verwendete rekurrente neuronale Netz umfasst ein erstes Teilnetz in der Form eines kausalen Netzes, das einen zeitlich vorwärts gerichteten In- formationsfluss zwischen ersten Zustandsvektoren des dynamischen Systems beschreibt, wobei ein erster Zustandsvektor zu einem jeweiligen Zeitpunkt einen oder mehrere erste Einträge umfasst, welche jeweils einem Eintrag des Observablenvektors zugeordnet sind, sowie einen oder mehrere versteckte (d.h. nicht beobachtbare) Zustände des dynamischen Systems. Um auch die zukünftige zeitliche Entwicklung des dynamischen Systems in dem rekurrenten neuronalen Netz zu berücksichtigen, ist ferner ein zweites Teilnetz in der Form eines retro-kausalen Netzes vorgesehen, wobei das retro-kausale Netz einen zeit^¬ lich rückwärts gerichteten Informationsfluss zwischen zweiten Zustandsvektoren des dynamischen Systems beschreibt, wobei ein zweiter Zustandsvektor zu einem jeweiligen Zeitpunkt ei- nen oder mehrere zweite Einträge umfasst, welche jeweils ei^¬ nem Eintrag des Observablenvektors zugeordnet sind, sowie ei^¬ nen oder mehrere versteckte Zustände des dynamischen Systems. In dem rekurrenten neuronalen Netz wird dabei zu einem jewei- ligen Zeitpunkt der Observablenvektor derart ermittelt, dass die ersten Einträge des ersten Zustandsvektors mit den zwei^¬ ten Einträgen des zweiten Zustandsvektors kombiniert werden. Schließlich werden das kausale und das retro-kausale Netz ba- sierend auf Trainingsdaten gelernt, welche eine Folge von zeitlich aufeinander folgenden bekannten Observablenvektoren enthalten .

Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass ein dynamisches System durch ein rekurrentes neuronales Netz beschrieben wird, welches sowohl ein Informationsfluss von der Vergangenheit in die Zukunft als auch einen Informa- tionsfluss von der Zukunft in die Vergangenheit berücksich^¬ tigt. Hierdurch können dynamische Systeme geeignet modelliert werden, bei denen die Observablen zu einem jeweiligen Zeitpunkt auch durch prognostizierte zukünftige Observablenwerte beeinflusst werden.

In einer besonders bevorzugten Ausführungsform werden beim Lernen des kausalen und retro-kausalen Netzes zu einem jeweiligen Zeitpunkt, für den ein bekannter Observablenvektor aus den Trainingsdaten existiert, die ersten und zweiten Einträge der ersten und zweiten Zustandsvektoren unter Verwendung des Unterschieds zwischen dem im rekurrenten neuronalen Netz er- mittelten Observablenvektor und dem bekannten Observablenvektor zu dem jeweiligen Zeitpunkt korrigiert. Die ersten und zweiten Zustandsvektoren mit den korrigierten ersten und zweiten Einträgen werden dann beim Lernen weiterverwendet. Auf diese Weise wird zu einem jeweiligen Zeitpunkt ein sog. Teacher-Forcing erreicht, bei dem in dem rekurrenten neuronalen Netz ermittelte Observablen immer an Observablen gemäß den Trainingsdaten angepasst werden.

In einer weiteren, besonders bevorzugten Ausführungsform wer- den das kausale und retro-kausale Netz basierend auf einer

Fehler-Rückpropagation mit geteilten Gewichten gelernt. Dieses auch unter dem englischen Begriff "error backpropagation with shared weights" bekannte Verfahren ist dem Fachmann hin- länglich geläufig und wird häufig in rekurrenten neuronalen Netzen beim Lernen eingesetzt. Durch die Verwendung dieses Verfahrens wird ein einfaches und effizientes Lernen des re^¬ kurrenten neuronalen Netzes erreicht.

In einer weiteren, bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens wird in dem rekurrenten neuronalen Netz zu einem jeweiligen Zeitpunkt der Observablenvektor derart ermittelt, dass die jeweiligen ersten und zweiten Einträ- ge, welche dem gleichen Eintrag des Observablenvektors zuge^¬ ordnet sind, addiert werden.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird beim Lernen des kausalen und retro-kausalen Netzes zu einem jeweiligen Zeitpunkt, für den ein bekannter Observablenvektor gemäß den Trainingsdaten existiert, ein Zielwert ermittelt, der den Differenzvektor zwischen dem im rekurrenten neuronalen Netz ermittelten Observablenvektor und dem bekannten Observablenvektor zu dem jeweiligen Zeitpunkt darstellt. Dabei ist als Lern-Optimierungsziel die Minimierung der Summe der Beträge oder quadrierte Beträge der Differenz^¬ vektoren zu den jeweiligen Zeitpunkten, für die ein bekannter Observablenvektor aus den Trainingsdaten existiert, vorgegeben. Hierdurch wird auf einfache Weise sichergestellt, dass das rekurrente neuronale Netz die Dynamik des betrachteten Systems richtig modelliert.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird in dem kausalen Netz ein erster Zustandsvektor zu einem jeweiligen Zeitpunkt in einen ersten Zustandsvektor zu einem nachfolgenden Zeitpunkt durch eine Multiplikation mit einer dem kausalen Netz zugeordneten Matrix und das Anwenden einer Aktivierungsfunktion überführt. In einer besonders bevorzugten Variante wird dabei zunächst die Aktivierungsfunk- tion auf den Zustandsvektor zu dem jeweiligen Zeitpunkt angewendet und erst anschließend erfolgt eine Multiplikation mit der dem kausalen Netz zugeordneten Matrix. Hierdurch wird sichergestellt, dass Observablen beschrieben werden können, welche nicht durch den Wertebereich der Aktivierungsfunktion beschränkt sind.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfah- rens wird in dem retro-kausalen Netz ein zweiter Zustandsvek- tor zu einem jeweiligen Zeitpunkt in einen zweiten Zustands- vektor zu einem vorhergehenden Zeitpunkt durch eine Multiplikation mit einer dem retro-kausalen Netz zugeordneten Matrix und das Anwenden einer Aktivierungsfunktion überführt. Vor- zugsweise wird wiederum zunächst die Aktivierungsfunktion auf den zweiten Zustandsvektor zu dem jeweiligen Zeitpunkt angewendet und erst anschließend erfolgt eine Multiplikation mit der dem retro-kausalen Netz zugeordneten Matrix. Hierdurch wird auch für das retro-kausale Netz sichergestellt, dass die Observablen nicht durch den Wertebereich der Aktivierungsfunktion beschränkt sind.

In einer besonders bevorzugten Variante sind die oben be^¬ schriebenen Aktivierungsfunktionen tanh-Funktionen (tangens hyperbolicus ) , welche häufig in rekurrenten neuronalen Netzen zum Einsatz kommen.

Neben dem oben beschriebenen Verfahren umfasst die Erfindung ein Verfahren zur Prädiktion von Observablen eines dynami- sehen Systems, bei dem die Prädiktion mit einem rekurrenten neuronalen Netz durchgeführt wird, welches mit dem erfin^¬ dungsgemäßen Lernverfahren basierend auf Trainingsdaten umfassend bekannte Observablenvektoren des dynamischen Systems gelernt ist.

Die Erfindung betrifft darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung der oben beschriebenen Verfahren, wenn das Programm auf einem Rechner abläuft.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben. Es zeigen:

Fig. 1 und Fig. 2 zwei Varianten von bekannten rekurrenten neuronalen Netzen zur Modellierung eines dynamischen Systems;

Fig. 3 eine auf Fig. 2 basierende Variante eines rekurrenten neuronalen Netzes, welches erfindungsgemäß als kausales Teilnetz zum Einsatz kommt;

Fig. 4 eine aus dem Stand der Technik bekannte

Variante des Lernens des kausalen Netzes gemäß Fig. 3;

Fig. 5 und Fig. 6 Varianten des Lernens des kausalen Netzes der Fig. 3, welche in Ausführungsformen des erfindungsgemäßen Verfahrens zum Einsatz kommen;

Fig. 7 ein retro-kausales Netz, welches in dem erfindungsgemäßen Verfahren in Kombination mit dem kausalen Netz der Fig. 3 zum Einsatz kommt;

Fig. 8 und Fig. 9 Varianten des Lernens des retro-kausalen

Netzes der Fig. 7, welche in Ausführungs^¬ formen des erfindungsgemäßen Verfahrens zum Einsatz kommen;

Fig. 10 eine Ausführungsform eines erfindungsge^¬ mäßen rekurrenten neuronalen Netzes, welches die Netze der Fig. 3 und Fig. 7 mit^¬ einander kombiniert; und

Fig. 11 und Fig. 12 Ausführungsformen des erfindungsgemäßen

Lernens des in Fig. 10 gezeigten rekurrenten neuronalen Netzes. Rekurrente neuronale Netze zur Modellierung des zeitlichen Verhaltens eines dynamischen Systems sind hinlänglich aus dem Stand der Technik bekannt. Diese Netze umfassen in der Regel mehrere Schichten, welche eine Mehrzahl von Neuronen beinhalten und in geeigneter Weise basierend auf Trainingsdaten aus bekannten Zuständen des dynamischen Systems derart gelernt werden können, dass zukünftige Zustände des dynamischen Sys^¬ tems prädiziert werden können.

Fig. 1 zeigt eine aus dem Stand der Technik bekannte Variante eines neuronalen Netzes, welches ein offenes dynamisches Sys^¬ tem modelliert. Das Netz umfasst dabei eine Eingangsschicht I mit zeitlich aufeinander folgenden Zustandsvektoren u_t-3, Ut-2, ut-i und u_t, welche entsprechende Eingangsgrößen des dynami^¬ schen Systems darstellen. Diese Eingangsgrößen können beispielsweise Stellgrößen eines mit dem neuronalen Netz modellierten technischen Systems sein. Die einzelnen Zustandsvektoren der Eingangsschicht I sind über Matrizen B mit entspre- chenden versteckten Zustandsvektoren s_t-2_r St-i, usw. einer versteckten Schicht verbunden. Die versteckten Zustandsvektoren umfassen eine Mehrzahl von versteckten Zuständen des dynamischen Systems und bilden den (nicht beobachtbaren) Zu- standsraum des dynamischen Systems. Die einzelnen versteckten Zustandsvektoren sind über Matrizen A miteinander verbunden. Das Netz umfasst ferner eine Ausgangsschicht 0 mit Ausgangs^¬ größen in der Form von Zustandsvektoren y_t-2_/ Yt-ir ···/ Yt+4r welche mit entsprechenden versteckten Zustandsvektoren s_t-2_r s_t-i, s_t+4 über die Matrix C gekoppelt sind. Die Zustände der Ausgangsschicht sind dabei Zustände des dynamischen Sys^¬ tems, welche sich aus den entsprechenden Eingangsgrößen der Eingangsschicht I ergeben. Basierend auf Trainingsdaten, wel^¬ che aus bekannten Eingangsgrößen und sich daraus ergebenden bekannten Ausgangsgrößen bestehen, kann das neuronale Netz der Fig. 1 in geeigneter Weise mit bekannten Verfahren, wie z.B. Fehler-Rückpropagation, gelernt werden und anschließend dazu eingesetzt werden, um basierend auf vergangenen Ein^¬ gangsgrößen Ut-3, Ut-2_/ ··· t-i sowie der gegenwärtigen Eingangs- große u_t in der Eingangsschicht I zukünftige Ausgangsgrößen Y_t+i, Y_t+2 _r usw. in der Ausgangsschicht 0 vorherzusagen. Das Netz der Fig. 1 beruht dabei auf einer Modellierung des betrachteten dynamischen Systems in der Form einer Überlagerung eines autonomen und eines extern getriebenen Teilsystems.

Fig. 2 zeigt eine weitere Variante eines rekurrenten neurona^¬ len Netzes, welches in den weiter unten beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens zum Einsatz kommt. Dieses Netz modelliert ein geschlossenes dynamisches System und unterscheidet sich von dem Netz der Fig. 1 darin, dass nicht mehr zwischen Eingangsgrößen u_T und Ausgangsgrößen y_T unterschieden wird, wobei τ im Folgenden einen beliebigen Zeitpunkt bezeichnet. Vielmehr werden sowohl die Eingangsgrö- ßen als auch die Ausgangsgrößen als Observablen, d.h. beobachtbare Zustände eines Observablenvektors des dynamischen Systems, betrachtet. Das Netz der Fig. 2 umfasst eine erste Schicht LI und eine zweite Schicht L2, wobei die erste

Schicht LI einen zeitlich vorwärts gerichteten Informations- fluss zwischen einzelnen Zustandsvektoren s _t-2 _r s_t-i, s_t+3 des modellierten dynamischen Systems darstellt. Im Unterschied zu Fig. 1 enthält in der Ausführungsform der Fig. 2 ein Zustandsvektor s_T zunächst als Einträge die beobachtbaren Observablen, welche den Zustandsvektoren y_t und u_t der Fig. 1 entsprechen, und anschließend die nicht beobachtbaren versteckten Zustände, wobei die Anzahl an versteckten Zuständen in der Regel wesentlich größer ist als die Anzahl der Observablen. Die einzelnen Zustandsvektoren in der Schicht LI werden durch Matrizen A ineinander überführt, welche basierend auf Trainingsdaten in geeigneter Weise gelernt werden. Zu Beginn des Lernens wird dabei ein geeigneter Bias in der

Schicht LI vorgegeben, der in Fig. 2 und auch in allen nachfolgenden Figuren mit So bezeichnet ist. Ein geeignet gelerntes rekurrentes neuronales Netz der Fig. 2 liefert in der zweiten Schicht die Observablen y_t-i, Ut-2, Y_t-ir Ut-i, ... usw. zu den jeweiligen Zeitpunkten. Dabei werden über die Matrix [Id, 0] diejenigen Einträge der entsprechenden Zu- Standsvektoren s_T erhalten, welche Observablen entsprechen. Die Matrix [Id, 0] weist für die Spalten die Dimension des Zustandsvektors s_T auf und für die Zeilen die Dimension gemäß der Anzahl von Observablen. Der linke Teil der Matrix bildet eine quadratische Identitätsmatrix und für die restlichen

Spalten enthält die Matrix nur Nullen, wodurch die Filterung der Observablen aus dem Zustandsvektor s_T erreicht wird. Mit dem Netz der Fig. 2 werden die Observablen in einem großen Zustandsvektor s_T eingebettet. Es wird dabei eine dynamisch konsistente und in allen Variablen symmetrische Modellierung eines dynamischen Systems erreicht, wobei die Zeit keine spe^¬ zielle Rolle spielt. Das Netz der Fig. 2 stellt ferner ein kausales Netz dar, da der Informationsfluss zwischen den Zu^¬ ständen der Schicht LI zeitlich vorwärts gerichtet von der Vergangenheit in die Zukunft erfolgt.

Fig. 3 zeigt ein auf der Fig. 2 basierendes rekurrentes neu^¬ ronales Netz, wobei nunmehr alle Observablen durchgängig als Observablenvektoren y_t-6, y_t-s, yt+3 bezeichnet werden. Die Notation y_T umfasst somit sowohl die Ausgangsgröße y_T als auch die Eingangsgröße u_T aus Fig. 2. Diese Notation wird im Folgenden auch bei allen weiteren beschriebenen Varianten von rekurrenten neuronalen Netzen verwendet. Darüber hinaus sind in Fig. 3 zur Verdeutlichung die mit dem Netz vorherzusagen- den Observablenvektoren y_t+i, y_t+2, und y_t+3 durch gestrichelte Kreise angedeutet. Das heißt, der gegenwärtige Zeitpunkt wird in Fig. 3 und auch in allen weiteren Figuren mit t bezeichnet. Vergangene Zeitpunkte sind somit die Zeitpunkte t-1, t-2 usw. und zukünftige Zeitpunkte sind die Zeitpunkte t+1, t+2, t+3 usw.

Fig. 4 zeigt eine bekannte Variante des Lernens des rekurren^¬ ten neuronalen Netzes der Fig. 3, wobei y^dt-3, y^dt-2, y^dt-i und y^d _t bekannte Observablenvektoren gemäß vorgegebenen Trai- ningsdaten des zu modellierenden dynamischen Systems darstellen. Die Matrix [Id, 0] entspricht der oben erläuterten Matrix zur Filterung der Observablen aus dem entsprechenden Zu- Id

Standsvektor sτ · Demgegenüber wird durch die Matrix eine

0

Umwandlung des bekannten Observablenvektors y _t in einen Ob- servablenvektor erreicht, der neben den Einträgen für die bekannten Observablen auch Einträge für die weiteren versteck- ten Zustände enthält, welche jedoch alle auf Null gesetzt

Id

sind. Die Matrix umfasst dabei eine der Anzahl der Ob-

0

servablen entsprechende Anzahl an Spalten und eine der Dimension des Zustandsvektors s_T entsprechende Anzahl an Zeilen. Im oberen Teil bildet die Matrix eine quadratische Identi- tätsmatrix und die restlichen Zeilen der Matrix enthalten ausschließlich Nullen. Das Netz der Fig. 4 enthält ferner die Matrix C, mit der ein Zustand s_T in einen Zustand r_T überführt wird. Der Zustand r_T stellt dabei einen gefilterten Zu^¬ stand dar, der nur die versteckten Zustände des Vektors s_T enthält. Demzufolge ist die Matrix C eine Matrix, welche an den Diagonalelementen, die den entsprechenden Zeilen bzw. Spalten der versteckten Zustände entsprechen, Einsen enthält und deren restliche Einträge auf Null gesetzt sind. Durch die in Fig. 4 gezeigte Kopplung der bekannten Zustände y^d _T mit dem Zustand r_T wird erreicht, dass die durch das neu^¬ ronale Netz ermittelten Werte der Observablen durch die Observablen y^d _T gemäß den Trainingsdaten ausgetauscht werden. Somit wird in jedem Zeitschritt τ < t ein Ersetzen der er- mittelten Observablen durch die tatsächlichen Observablen gemäß den Trainingsdaten erreicht. Ein derartiges Lernverfahren ist auch unter dem Begriff "Teacher-Forcing" bekannt. Gemäß der Darstellung der Fig. 4 werden mit dem rekurrenten neuronalen Netz die folgenden Zusammenhänge modelliert, wobei - wie oben erwähnt - der Zeitpunkt t dem aktuellen Gegenwarts^¬ zeitpunkt entspricht:

T>t: s_T+l=tm (As_T) (2)

Das Lernen beruht dabei auf dem folgenden Optimierungsziel:

Das heißt, es wird nach der Matrix A gesucht, welche den über die Zeitpunkte t-m < τ < t summierten quadratischen Fehler zwischen über das Netz ermittelten und bekannten Observablen- vektoren minimiert.

Auch in dem rekurrenten neuronalen Netz, welches in dem erfindungsgemäßen Verfahren verwendet wird, kommt das oben beschriebene Teacher-Forcing zum Einsatz, jedoch in abgewandelten Varianten, welche in Fig. 5 und 6 für das kausale Netz der Fig. 3 verdeutlicht sind. Es werden dabei die analogen

Notationen (bis auf etwaige Vorzeichen) wie in Fig. 4 beibehalten. Die zusätzlich in Fig. 5 hinzukommende Matrix Id bezeichnet eine entsprechende Identitätsabbildung für den Zu- standsvektor, an dem der mit der Matrix bezeichnete Pfeil be- ginnt. Im Unterschied zur Ausführungsform der Fig. 4 wird nunmehr in Fig. 5 eine Zielgröße bzw. ein Targetwert tar eingeführt, welcher den Differenzvektor zwischen dem durch das rekurrente neuronale Netz ermittelten Observablenvektor y_T innerhalb des Zustandsvektors s_T und dem bekannten Obser- vablenvektor y^d _T darstellt. Dieser Targetwert, der im Ideal^¬ fall Null ist, dient wiederum dazu, um die entsprechenden ermittelten Observablen in den Vektoren s_T durch die bekannten Observablen gemäß den Trainingsdaten zu ersetzen, was durch

Id

die Kopplung über die Matrix zum Ausdruck gebracht

0

wird . Mit der Struktur des Netzes gemäß Fig. 5 werden folgende Gleichungen modelliert:

T>t: s_T+l = tan (As_T) (6) für alle τ : y_T = [ld,0]s_T (7)

Das Optimierungsziel ist dabei analog zu dem Netz der Fig. 4 gegeben durch:

Mit der Architektur gemäß Fig. 5 können aufgrund der verwen- deten tanh-Funktion nur Observablen zwischen -1 und +1 modelliert werden, da zunächst die Matrixmultiplikation mit der Matrix A und erst anschließend das Anwenden der tanh-Funktion erfolgt, welche einen Wertebereich zwischen -1 und 1 aufweist. In einer abgewandelten Variante des Lernens gemäß Fig. 5 wird nunmehr zunächst die tanh-Funktion auf den entspre^¬ chenden Zustand r_T bzw. s_T angewendet, und erst anschließend erfolgt die Matrixmultiplikation mit der Matrix A. Eine solche Variante des Netzes ist in Fig. 6 verdeutlicht, wobei das Anwenden der tanh-Funktion vor der Matrixmultiplikation mit der Matrix A dadurch verdeutlicht wird, dass in den Kreisen, welche in Fig. 5 die Zustände r_T enthalten, sowie zwischen den Zuständen s_t+i und s_t+2 nunmehr die tanh-Funktion wiederge^¬ geben ist. Gemäß dieser Variante können auch Observablen außerhalb des Wertebereichs zwischen -1 und +1 modelliert wer^¬ den. Fig. 6 stellt dabei eine bevorzugte Variante eines Ler- nens dar, welche auch in der weiter unten beschriebenen erfindungsgemäßen neuronalen Netzstruktur eingesetzt wird. Mathematisch äußert sich der Unterschied zwischen dem rekurrenten neuronalen Netz der Fig. 6 gegenüber dem rekurrenten neuronalen Netz der Fig. 5 darin, dass in den obigen Gleichungen (5) und (6) die Position der Matrix A mit der Position der Funktion tanh vertauscht wird.

Im Vorangegangenen wurde ein geeignetes Lernen eines kausalen Netzes mit zeitlich vorwärts gerichtetem Informationsfluss beschrieben. Der Erfindung liegt dabei die Erkenntnis zu Grunde, dass ein kausales Modell nicht immer für die Be^¬ schreibung eines dynamischen Systems geeignet ist. Insbesondere gibt es dynamische Systeme, welche auch einen retro- kausalen Informationsfluss in zeitlich umgekehrter Richtung aus der Zukunft in die Gegenwart aufweisen. Es handelt sich hierbei um dynamische Systeme, bei deren zeitlicher Entwick^¬ lung auch eine Planung unter Einbeziehung der Prognose von zukünftigen Observablen einfließt. Es werden somit bei der zeitlichen Veränderung eines entsprechenden Zustandsvektors des dynamischen Systems nicht nur zeitlich vorhergehende Zu- standsvektoren, sondern auch prognostizierte zukünftige Zu- standsvektoren berücksichtigt. Betrachtet man beispielsweise die Entwicklung des Marktpreises von Energie oder Rohstoffen, so wird der Preis nicht nur durch Angebot und Nachfrage be- stimmt, sondern auch durch planerische Aspekte der Verkäufer bzw. Käufer beim Verkauf bzw. Kauf von Energie oder Rohstof^¬ fen .

Das erfindungsgemäße Verfahren beruht auf der Idee, ein dyna- misches System derart zu modellieren, dass ein Informations- fluss nicht nur in kausaler Richtung aus der Vergangenheit in die Zukunft betrachtet wird, sondern auch ein Informations- fluss in retro-kausaler Richtung aus der Zukunft in die Ver- gangenheit. Ein solcher Informationsfluss kann durch ein retro-kausales Netz realisiert werden. Ein solches Netz ist in Fig. 7 wiedergegeben. Das Netz der Fig. 7 unterscheidet sich von dem Netz der Fig. 3 darin, dass der Informations- fluss zwischen den Zuständen s_T in umgekehrter Richtung von der Zukunft in die Vergangenheit läuft, wobei das Verfahren wiederum mit einem Bias So initialisiert wird, der nunmehr jedoch ein Zustand in der Zukunft ist. Das Netz der Fig. 7 kann analog zu dem Netz der Fig. 3 über die Minimierung eines Zielwerts tar gelernt werden, wie in Fig. 8 angedeutet ist.

Die Fig. 8 entspricht dabei der Darstellung der Fig. 5, wobei nunmehr jedoch die Kausalitätsrichtung umgekehrt ist. Die Gleichungen (5) bis (8) können analog angewendet werden mit dem Unterschied, dass s_T+i in Gleichungen (5) und (6) ersetzt wird durch s_T-i. Es kann somit auch für das retro-kausale Netz das oben beschriebene Teacher-Forcing zum Lernen des Netzes verwendet werden. Ebenso kann für das retro-kausale Netz ana^¬ log das in Fig. 6 gezeigte Lernen eingesetzt werden, bei dem beim Übergang von einem Zustand in einen Folgezustand zu- nächst die tanh-Funktion und erst anschließend die Matrixmul^¬ tiplikation angewendet wird. Dies wird in der Darstellung der Fig. 9 verdeutlicht, welche der Darstellung der Fig. 6 mit dem Unterschied entspricht, dass der Informationsfluss von der Zukunft in die Gegenwart läuft.

Die Erfindung beruht nunmehr auf einer Kombination eines kausalen Netzes mit einem retro-kausalen Netz, wodurch ein rekurrentes neuronales Netz mit einem Informationsfluss von so^¬ wohl aus der Vergangenheit in die Zukunft als auch aus der Zukunft in die Vergangenheit ermöglicht wird. Hierdurch kön^¬ nen auch dynamische Systeme modelliert werden, bei denen bei der dynamischen Entwicklung der Zustände auch prognostizierte zukünftige Zustände eine Rolle spielen. Fig. 10 zeigt generisch eine erfindungsgemäße Kombination ei^¬ nes kausalen Netzes mit einem retro-kausalen Netz, wodurch ein rekurrentes neuronales Netz geschaffen wird, welches in geeigneter Weise gelernt werden kann. Das Netz setzt sich da- bei im unteren Teil aus einem kausalen Netz Nl und in dem oberen Teils aus einem retro-kausalen Netz N2 zusammen. Das Netz Nl entspricht dem kausalen Netz der Fig. 3 und das Netz N2 entspricht dem retro-kausalen Netz der Fig. 7, wobei im retro-kausalen Netz die Matrizen nunmehr mit A' und die Zustände mit s-u' bezeichnet sind, da Matrizen und Zustände für das kausale und das retro-kausale Netz unterschiedlich sein können. Beide Netze sind über den entsprechenden Observablen- vektor y_T miteinander gekoppelt.

Fig. 11 zeigt basierend auf dem Netz der Fig. 10 ein Lernen des Netzes mittels Teacher-Forcing . Dieses Teacher-Forcing wurde im Vorangegangenen getrennt für das kausale Netz in Fig. 6 und das retro-kausale Netz in Fig. 9 erläutert. In Fig. 11 sind beispielhaft für den Zeitpunkt t die im Zu- standsvektor s_t enthaltenen Observablen mit A_t und die im Zu- standsvektor s_t' enthaltenen Observablen mit A_t' bezeichnet. Die Summe von A_t und A_t' stellt dabei den durch das rekurren^¬ te Netz ermittelten Observablenvektor dar und der Targetwert ist die Differenz zwischen dieser Summe und dem tatsächlichen Observablenvektor y^d gemäß den Trainingsdaten. Durch die Kopplung der Targetwerte über die entsprechenden Matrizen

mit dem Zustandsvektor s_T bzw. s_T' wird wiederum für je-

den Zeitschritt τ < t ein Teacher-Forcing erreicht. In Fig. 11 ist dabei der entsprechende Zustand r_T bzw. r_T', der sich durch das Teacher-Forcing ergibt, beispielhaft nur für den Zeitpunkt τ = t angegeben. Auf diesen Zustand wird zunächst die tanh-Funktion und anschließend die Multiplikation mit der Matrix A bzw. A' angewendet.

Um ein Lernen gemäß Fig. 11 umzusetzen, wird die hinlänglich aus dem Stand der Technik bekannte Fehler-Rückpropagation mit geteilten Gewichten verwendet, was in Fig. 12 wiedergegeben ist. Die Fehler-Rückpropagation mit geteilten Gewichten wird dabei dadurch erreicht, dass in zwei Kopien des Netzes der Fig. 11 einmal die Fehler-Rückpropagation für das kausale Netz Nl und einmal die Fehler-Rückpropagation für das retro- kausale Netz N2 gerechnet wird, wobei gleichzeitig sicherge^¬ stellt wird, dass immer die gleiche Matrix A in beiden Kopien des Netzes und immer die gleiche Matrix A' in beiden Kopien des Netzes verwendet wird. Die Fehler-Rückpropagation mit ge- teilten Gewichten ist dem Fachmann hinlänglich bekannt und wird deshalb nicht weiter im Detail erläutert.

Das im Vorangegangenen beschriebene erfindungsgemäße Verfah^¬ ren weist eine Reihe von Vorteilen auf. Insbesondere können auch solche dynamischen Systeme gelernt werden, bei denen zu^¬ künftige prognostizierte Zustände des dynamischen Systems ei^¬ ne Rolle für den aktuellen Zustand spielen. Das Verfahren kann dabei für unterschiedliche dynamische Systeme eingesetzt werden. Beispielsweise kann das dynamische System die zeitli- che Entwicklung von Energiepreisen bzw. Strompreisen und/oder Rohstoffpreisen darstellen, wobei als Observablen verschiedene Arten von Energie (z.B. Gas, Öl) und/oder Rohstoffe sowie weitere wirtschaftliche Faktoren, wie z.B. die Umrechnung verschiedener Währungen und Aktienindizes, berücksichtigt werden können. Mit einem durch entsprechende Trainingsdaten gelernten rekurrenten neuronalen Netz können dann geeignete Vorhersage über zukünftige Preisentwicklungen für Energie und/oder Rohstoffe getroffen werden. Ein anderer Anwendungsbereich ist die Modellierung des dynamischen Verhaltens eines technischen Systems. Beispielsweise kann das erfindungsgemäße rekurrente neuronale Netz zur Prädiktion der beobachtbaren Zustände einer Gasturbine und/oder einer Windkraftanlage oder auch beliebiger anderer technischer Systeme eingesetzt werden .

Claims

Patentansprüche

1. Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes zur Modellierung eines dynamischen Systems, das zu jeweiligen Zeitpunkten durch einen Observablenvektor

(y_t_₆, y_t-5, y_t+3) umfassend eine oder mehrere Observablen als Einträge charakterisiert wird, bei dem

das rekurrente neuronale Netz ein kausales Netz (Nl) um- fasst, das einen zeitlich vorwärts gerichteten Informati- onsfluss zwischen ersten Zustandsvektoren (s_t-6, s_t-s,

St+3) des dynamischen Systems beschreibt, wobei ein erster Zustandsvektor (s_t-6, s_t-s, St+3) zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) einen oder mehrere erste Ein^¬ träge (A_t) umfasst, welche jeweils einem Eintrag des Ob- servablenvektors (yt-6, y_t-s, Yt+3 ) zugeordnet sind, sowie einen oder mehrere versteckte Zustände des dynamischen Systems ;

das rekurrente neuronale Netz ein retro-kausales Netz (N2) umfasst, welches einen zeitlich rückwärts gerichteten In- formationsfluss zwischen zweiten Zustandsvektoren (s'_t-6, s't-5_/ s't+3) des dynamischen Systems beschreibt, wobei ein zweiter Zustandsvektor (s'_t-6, s'_t-s, s't+3) zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) einen oder mehrere zweite Einträge (A'_t) umfasst, welche jeweils einem Ein- trag des Observablenvektors (yt-6, yt-s, yt+3) zugeordnet sind, sowie einen oder mehrere versteckte Zustände des dy^¬ namischen Systems;

in dem rekurrenten neuronalen Netz zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) der Observablenvektor (y_t-6, y_t-5_/ y_t+3) durch eine Kombination der ersten Einträge

( _t) des ersten Zustandsvektors (s_t-6, s_t-s, ···, s_t+3) mit den zweiten Einträgen (A'_t) des zweiten Zustandsvektors (s't-6_/ s't-5/ ■■·, s't+3) ermittelt wird;

das kausale Netz (Nl) und das retro-kausale Netz (N2) basierend auf Trainingsdaten gelernt werden, welche eine

Folge von zeitlich aufeinander folgenden bekannten Obser- vablenvektoren (y^d _t-3, y^dt-2, y^dt) enthalten.

2. Verfahren nach Anspruch 1, wobei beim Lernen des kausalen und retro-kausalen Netzes (Nl, N2) zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) , für den ein bekannter Observablen- vektor (y^d _t_₃, y^d _t-2, ■■·, y^d _t) aus den Trainingsdaten existiert, die ersten und zweiten Einträge (A_t, A'_t) der ersten und zweiten Zustandsvektoren (s_t-6, s_t-s, s_t+3, s'_t-6, s't-5_/ - r s'_t+3) unter Verwendung des Unterschieds zwischen dem in dem rekurrenten neuronalen Netz ermittelten Observablenvektor (y_t_₆, y_t-5, Y_t+3 ) und dem bekannten Observablenvektor (y^d _t_₃, y^d _t-2_/ y^d _t) zu dem jeweiligen Zeitpunkt korrigiert werden, wobei die ersten und zweiten Zustandsvektoren (s_t-₆, s_t-s, St+3/ s't-6/ s't-5/ ■■· , s't+3) mit den korrigierten ersten uns zweiten Einträgen zum Lernen weiterverwendet werden.

3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das kausale Netz (Nl) und das retro-kausale Netz (N2) basie^¬ rend auf einer Fehler-Rückpropagation mit geteilten Gewichten gelernt werden.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in dem rekurrenten neuronalen Netz zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) der Observablenvektor (y_t-6, y_t-s, -r y_t+3) derart ermittelt wird, dass die jeweiligen ersten und zweiten Einträge (A_t, A' ), welche dem gleichen Eintrag des Observablenvektors (yt-6, yt-s, -r yt₊3) zugeordnet sind, ad^¬ diert werden.

5. Verfahren nach einem der vorhergehenden Ansprüche, wobei beim Lernen des kausalen und retro-kausalen Netzes (Nl, N2) in einem jeweiligen Zeitpunkt (t-6, t-5, t+3), für den ein bekannter Observablenvektor (y^d _t_₃, y^d _t-2, ■■·, y^d _t) aus den Trai^¬ ningsdaten existiert, ein Zielwert (tar) ermittelt wird, der den Differenzvektor zwischen dem im rekurrenten neuronalen Netz ermittelten Observablenvektor (y_t-6, y_t-5_/ -r y_t+3) und dem bekannten Observablenvektor (y^d _t_₃, y^d _t-2, y^d _t) zu dem jewei^¬ ligen Zeitpunkt (t-6, t-5, t+3) darstellt, wobei als Lern- Optimierungsziel die Minimierung der Summe der Beträge oder quadrierte Beträge der Differenzvektoren zu den jeweiligen Zeitpunkten (t-6, t-5, t+3) , für die ein bekannter Obser- vablenvektor (y^d _t_₃, y^d _t-2, y^dt) aus den Trainingsdaten exis^¬ tiert, vorgegeben ist.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in dem kausalen Netz (Nl) ein erster Zustandsvektor (s_t-₆, s_t- ₅, St+₃) zu einem jeweiligen Zeitpunkt (t-6, t-5, t+3) in einen ersten Zustandsvektor (s_t-6, s_t-s, ···, s_t+3) zu einem nachfolgenden Zeitpunkt durch eine Multiplikation mit einer dem kausalen Netz (Nl) zugeordneten Matrix (A) und das Anwenden einer Aktivierungsfunktion überführt wird.

7. Verfahren nach Anspruch 6, wobei zunächst die Aktivie^¬ rungsfunktion auf den ersten Zustandsvektor (s_t-₆, s_t-s,

St+₃) zu dem jeweiligen Zeitpunkt angewendet wird und an^¬ schließend eine Multiplikation mit der dem kausalen Netz (Nl) zugeordneten Matrix (A) erfolgt.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in dem retro-kausalen Netz (N2) ein zweiter Zustandsvektor

(s't-6_/ s't-5_/ s't+3) zu einem jeweiligen Zeitpunkt (t-6, t- 5, t+3) in einen zweiten Zustandsvektor (s'_t-6, s'_t-s, ■■·, s't+₃) zu einem vorhergehenden Zeitpunkt durch eine Multipli^¬ kation mit einer dem retro-kausalen Netz (N2) zugeordneten Matrix (A' ) und das Anwenden einer Aktivierungsfunktion überführt wird.

9. Verfahren nach Anspruch 8, wobei zunächst die Aktivie^¬ rungsfunktion auf den zweiten Zustandsvektor (s'_t-6, s't-5_/ s't+₃) zu dem jeweiligen Zeitpunkt angewendet wird und an^¬ schließend eine Multiplikation mit der dem retro-kausalen Netz (N2) zugeordneten Matrix (A' ) erfolgt.

10. Verfahren nach einem der Ansprüche 6 bis 9, bei dem die Aktivierungsfunktion eine tanh-Funktion ist.

11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem mit dem rekurrenten neuronalen Netz die zeitliche Ent- wicklung von Energiepreisen und/oder Rohstoffpreisen modelliert wird.

12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem mit dem rekurrenten neuronalen Netz ein technisches System modelliert wird.

13. Verfahren nach Anspruch 12, bei dem das technische System eine Gasturbine und/oder eine Windkraftanlage ist.

14. Verfahren zur Prädiktion von Observablen eines dynamischen Systems, bei dem die Prädiktion mit einem rekurrenten neuronalen Netz durchgeführt wird, welches mit einem Verfah^¬ ren nach einem der vorhergehenden Ansprüche basierend auf Trainingsdaten umfassend bekannte Observablenvektoren (y^d _t_₃, y^d _t-2, y^dt ) des dynamischen Systems gelernt ist.

15. Computerprogrammprodukt mit einem auf einem maschinenles^¬ baren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.