DE102008014126B4

DE102008014126B4 - Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes

Info

Publication number: DE102008014126B4
Application number: DE102008014126A
Authority: DE
Inventors: Ralph Dr. Grothmann; Christoph Dr. Tietz; Hans-Georg Dr. Zimmermann
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2008-03-13
Filing date: 2008-03-13
Publication date: 2010-08-12
Anticipated expiration: 2028-03-14
Also published as: DE102008014126A1

Abstract

Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes (RNN) mit zeitlich aufeinander folgenden Zuständen (s_t-2, ..., s_t+4) in einem endlichen Zeitintervall, wobei die Zustände (s_t-2, ..., s_t+4) mit zeitlich aufeinander folgenden Eingaben (u_t-3, ..., u_t) und Ausgaben (y_t-2, ..., y_t+4) eines dynamischen Systems verbunden sind und wobei die Zustände (s_t-2, ..., s_t+4) untereinander und mit den Eingaben und Ausgaben über Konvektoren verbunden sind, welche zur Fehler-Rückpropagierung einen zeitlich vorwärts gerichteten und einen zeitlich rückwärts gerichteten Informationsfluss ermöglichen, dadurch gekennzeichnet, dass der Informationsfluss im rekurrenten neuronalen Netz (RNN) vor Beginn des Zeitintervalls und/oder nach Ende des Zeitintervalls mit Hilfe von zumindest einem retro-kausalen Netz (RC1, RC2) oder mit Hilfe von zumindest einem vorwärts gerichteten und/oder zumindest einem rückwärts gerichteten Konnektor (C1, ..., C6) berücksichtigt wird, wobei der zumindest eine vorwärts gerichtete Konnektor (C1, C2, C3) ausschließlich einen zeitlich vorwärts gerichteten Informationsfluss ermöglicht und wobei der zumindest eine rückwärts gerichtete Konnektor (C4,...

Description

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes sowie ein Verfahren zur Prädiktion der Ausgaben eines dynamischen Systems basierend auf einem gelernten rekurrenten neuronalen Netz sowie ein entsprechendes Computerprogrammprodukt.
Durch rekurrente neuronale Netze werden zeitlich aufeinander folgende interne Zustände eines dynamischen Systems modelliert, wobei zum Lernen der Netze ein endliches Zeitintervall von Zuständen betrachtet wird. Die internen Zustände stellen dabei eine sog. versteckte Schicht des rekurrenten neuronalen Netzes dar, und diese Zustände sind mit zeitlich aufeinander folgenden Eingaben und Ausgaben eines zu modellierenden dynamischen Systems verbunden. Die rekurrente Struktur des Netzes wird dadurch geschaffen, dass die Zustände in der versteckten Schicht untereinander sowie mit den Eingaben und Ausgaben über Konnektoren verbunden sind, welche zur Fehler-Rückpropagierung (englisch: Error Backpropagation) einen zeitlich vorwärts gerichteten und einen zeitlich rückwärts gerichteten Informationsfluss ermöglichen. Mit der Fehler-Rückpropagierung wird die Modellierung des dynamischen Systems dadurch erreicht, dass die Gewichte im neuronalen Netz dahingehend optimiert werden, dass der Fehler zwischen modellierter Ausgabe und vorgegebener Ausgabe minimal ist.
Bei rekurrenten neuronalen Netzen besteht das Problem, dass die Netze nur ein endliches Zeitintervall abdecken und keine geeigneten initialen internen Zustandswerte zur Initialisierung des Lernens des neuronalen Netzes vorliegen. Herkömmlicherweise wird die sich aus den fehlenden initialen Zustandswerten ergebende Inkonsistenz in dem neuronalen Netz vernachlässigt. Es ist jedoch auch eine Lösung bekannt, bei der ein Rausch-Generator in Abhängigkeit von dem rückpropa gierten Fehler ein Rauschen generiert, mit dem die Unsicherheit des unbekannten initialen Zustands abgeschätzt wird. Jedoch berücksichtigt die Lösung nicht ausreichend weit vom Anfang des Zeitintervalls entfernte vergangene Zustände. Darüber hinaus wird auch nicht das zukünftige Verhalten des dynamischen Systems berücksichtigt.
Die Druckschrift Holk Cruse: Neural Networks as Cybernetic Systems, 2nd and revised edition, Brains, Minds and Media, Auszug, publ. Oktober 2006, ”Table of Contents” (4 Seiten) und Seiten 103 bis 139, beschreibt das Konzept von rekurrenten neuronalen Netzen sowie entsprechende Lernverfahren für diese Netze.
In dem Dokument US 2007/0022062 A1 wird ein Verfahren zur Vorhersage des Verhaltens eines dynamischen Systems beschrieben, bei dem das zukünftige Verhalten basierend auf einer Ähnlichkeitsanalyse approximiert wird und mit Hilfe einer Kausalitätsanalyse basierend auf einem kausal-retro-kausalen neuronalen Netz das dynamische Verhalten des Systems vorhergesagt wird.
In der Druckschrift US 2004/0267684 A1 wird das Konzept von kausal-retro-kausalen neuronalen Netzen beschrieben.
Aufgabe der Erfindung ist es, ein Verfahren zum Lernen eines neuronalen Netzes zu schaffen, bei dem zur Verbesserung der Vorhersagegenauigkeit dieses Netzes der Informationsfluss aus der Vergangenheit bzw. aus der Zukunft geeignet berücksichtigt wird.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
Das erfindungsgemäße Verfahren zum Lernen eines rekurrenten neuronalen Netzes zeichnet sich dadurch aus, dass der Informationsfluss im rekurrenten neuronalen Netz vor Beginn des Zeitintervalls und/oder nach Beginn des Zeitintervalls mit Hilfe von zumindest einem retro-kausalen Netz oder mit Hilfe von zumindest einem vorwärts gerichteten und/oder zumindest einem rückwärts gerichteten Konnektor berücksichtigt wird. Ein vorwärts gerichteter Konnektor ermöglicht dabei ausschließlich einen zeitlich vorwärts gerichteten Informationsfluss, wohingegen ein rückwärts gerichteter Konnektor ausschließlich einen zeitlich rückwärts gerichteten Informationsfluss ermöglicht.
Erfindungsgemäß kann somit die Vergangenheit bzw. Zukunft durch entsprechende retro-kausale Netze bzw. entsprechende gerichtete Konnektoren berücksichtigt werden. In retro-kausalen Netzen ist die Kausalitätsrichtung umgekehrt, d. h. diese Netze laufen von der Gegenwart in die Vergangenheit bzw. von der Zukunft in die Gegenwart.
Bei der Verwendung von vorwärts bzw. rückwärts gerichteten Konnektoren kann ein Netzwerkmodell geschaffen werden, welches den Effekt der unbekannten Zukunft bzw. Vergangenheit in geeigneter Weise durch Rauschen in Bezug auf den initialen Zustand und auf den zukünftigen Fehler berücksichtigt. Das Netzwerkmodell wird dabei gegenüber diesem Rauschen versteift. Die Berücksichtigung des Informationsflusses vor Beginn des Zeitintervalls und nach Ende des Zeitintervalls erfolgt dabei insbesondere derart, dass:

– eine Zustandsverteilung am Ende des Zeitintervalls gemessen wird, wobei die gemessene Zustandsverteilung über einen vorwärts gerichteten Konnektor mit dem Zustand am Ende des Zeitintervalls verbunden ist;
– in Abhängigkeit von der gemessenen Zustandsverteilung ein Rauschen generiert wird, wobei das generierte Rauschen über einen rückwärts gerichteten Konnektor mit der gemessenen Zustandsverteilung am Ende des Zeitintervalls und über einen vorwärts gerichteten Konnektor mit dem Zustand am Anfang des Zeitintervalls verbunden ist;
– die Fehlerverteilung am Anfang des Zeitintervalls gemessen wird, wobei die gemessene Fehlerverteilung am Anfang des Zeitintervalls über einen rückwärts gerichteten Konnektor mit dem Zustand am Anfang des Zeitintervalls verbunden ist;
– in Abhängigkeit von der gemessenen Fehlerverteilung am Anfang des Zeitintervalls eine Fehlerverteilung am Ende des Zeitintervalls generiert wird, wobei die generierte Fehlerverteilung am Ende des Zeitintervalls über einen vorwärts gerichteten Konnektor mit der gemessenen Fehlerverteilung am Anfang des Zeitintervalls und über einen rückwärts gerichteten Konnektor mit dem Zustand am Ende des Zeitintervalls verbunden ist.

Unter Zustandsverteilung wird hierbei die über einen Zeitraum ermittelte Wahrscheinlichkeitsverteilung der Zustände verstanden. Mit der oben beschriebenen Struktur wird in geeigneter Weise durch Verwendung der vorwärts- bzw. rückwärts gerichteten Konnektoren eine Versteifung des Netzes gegenüber der Unsicherheit der Zustände in der fernen Zukunft bzw. der fernen Vergangenheit erreicht. Vorzugsweise werden dabei die gemessene Zustandsverteilung am Ende des Zeitintervalls und/oder die generierte Fehlerverteilung am Ende des Zeitintervalls jeweils durch einen Ziel-Cluster modelliert, wobei dessen Zielwert insbesondere auf Null gesetzt ist. Ebenso werden vorzugsweise die gemessene Fehlerverteilung am Anfang des Zeitintervalls und/oder das generierte Rauschen am Anfang des Zeitintervalls durch einen Eingabe-Cluster modelliert, dessen erwarteter Eingabewert ebenfalls vorzugsweise auf Null gesetzt ist.
Das zu lernende neuronale Netz beschreibt in einer bevorzugten Ausführungsform ein Zeitintervall, welches eine oder mehrere aufeinander folgende vergangene Zustände, einen gegenwärtigen Zustand sowie einen oder mehrere aufeinander folgende zukünftige Zustände umfasst. Bei der Verwendung von retro-kausalen Netzen zur Modellierung des Informationsflusses vor Beginn des Zeitintervalls wird hierbei vorzugsweise ein erstes retro-kausales Netz verwendet, wobei sich das erste retro-kausale Netz von einem gegenwärtigen Zustand zu dem Zustand am Anfang des Zeitintervalls erstreckt. Analog wird zur Modellierung des Informationsflusses nach dem Ende des Zeitintervalls vorzugsweise ein zweites retro-kausales Netz verwendet, wobei sich das zweite retro-kausale Netz von dem Zustand am Ende des Zeitintervalls zu einem gegenwärtigen Zustand erstreckt. Um das Lernen des neuronalen Netzes zu verbessern, wird dabei in einer bevorzugten Variante ein Fehler im zweiten retro-kausalen Netz durch Vergleich des gegenwärtigen Zustands im Zeitintervall mit dem gegenwärtigen Zustand des zweiten retro-kausalen Netzes ermittelt. Dieser Fehler wird in das rekurrente neuronale Netz rückpropagiert. Vorzugsweise ist dabei der ermittelte Fehler mit dem gegenwärtigen Zustand im Zeitintervall über einen vorwärts gerichteten Konnektor verbunden, um hierdurch einen Rückfluss des Fehlers direkt zu dem gegenwärtigen Zustand im Zeitintervall zu verhindern.
Das erfindungsgemäße Verfahren kann für beliebige Ausführungen von rekurrenten neuronalen Netzen verwendet werden. Insbesondere kann das Verfahren auch zum Lernen komplexer rekurrenter neuronaler Netze eingesetzt werden, wie z. B. sog. DCNN-Netzen (DCNN = Dynamical Consistent Neural Networks) bzw. NRNN-Netzen (NRNN = Normalized Recurrent Neural Network). Diese Netzwerkstrukturen sind hinlänglich aus dem Stand der Technik bekannt.
Vorzugsweise werden mit dem zu lernenden neuronalen Netz die Eingaben und Ausgaben eines technischen Systems modelliert, d. h. das neuronale Netz wird mit Eingabe- bzw. Ausgabedaten eines technischen Systems gelernt. Das technische System kann eine beliebige technische Vorrichtung sein, beispielsweise eine Gasturbine oder eine Windkraftanlage. Gegebenenfalls kann das erfindungsgemäße Verfahren jedoch auch für dynamische ökonomische Systeme eingesetzt werden, beispielsweise kann das rekurrente neuronale Netz die Eingaben und Ausgaben einer Energiehandelsbörse modellieren, um hierdurch beispielsweise einen Energiepreis vorherzusagen.
Neben dem oben beschriebenen Verfahren zum Lernen eines rekurrenten neuronalen Netzes umfasst die Erfindung ferner ein Verfahren zur Prädiktion der Ausgaben eines dynamischen Systems basierend auf Eingaben des dynamischen Systems, wobei die Prädiktion mit einem neuronalen Netz durchgeführt wird, welches mit dem oben beschriebenen Lernverfahren gelernt ist.
Die Erfindung betrifft darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung der oben beschriebenen erfindungsgemäßen Verfahren, wenn das Programm auf einem Rechner abläuft.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
Es zeigen:
1 bis 3 schematische Darstellungen von rekurrenten neuronalen Netzen und deren Lernverfahren gemäß dem Stand der Technik;
4 eine schematische Darstellung der Lösung der erfindungsgemäßen Problemstellung basierend auf einer ersten Ausführungsform der Erfindung;
5 eine schematische Darstellung eines rekurrenten neuronalen Netzes basierend auf einer ersten Ausführungsform der Erfindung;
6 eine schematische Darstellung eines rekurrenten neuronalen Netzes basierend auf einer zweiten Ausführungsform der Erfindung;
7 eine schematische Darstellung eines rekurrenten neuronalen Netzes basierend auf einer dritten Ausführungsform der Erfindung;
8 eine Ausführungsform eines DCNN-Netzes gemäß dem Stand der Technik;
9 eine schematische Darstellung eines DCNN-Netzes basierend auf einer vierten Ausführungsform der Erfindung;
10 eine schematische Darstellung eines DCNN-Netzes basierend auf einer fünften Ausführungsform der Erfindung; und
11 eine schematische Darstellung eines DCNN-Netzes basierend auf einer sechsten Ausführungsform der Erfindung.
1 zeigt schematisiert den prinzipiellen Ablauf des Lernens eines rekurrenten neuronalen Netzes mit dem sog. Error-Backpropagation-Algorithmus (deutsch: Fehler-Rückpropagations-Algorithmus). In der 1 ist schematisch ein rekurrentes neuronales Netz mit einer Eingangsschicht I, einer versteckten Schicht H sowie einer Ausgangsschicht O wiedergegeben. Über die Eingabeschicht I werden Eingaben x dem neuronalen Netz zugeführt, wobei diese Schicht mit der versteckten Schicht H verbunden ist. Die versteckte Schicht H ist wiederum mit Ausgaben y der Ausgabeschicht O verbunden. Durch entsprechende Pfeile P1 und P2 wird der Informationsfluss von der Eingangsschicht I über die versteckte Schicht H zur Ausgangsschicht O wiedergegeben. Die Eingangsschicht und die versteckte Schicht sind dabei über Gewichte W1 und die versteckte Schicht und die Ausgangsschicht über Gewichte W2 miteinander verknüpft. Die Nichtlinearität des Netzes wird durch die Funktion f(z) = tanh(z) in der versteckten Schicht H ausgedrückt und insgesamt ergibt sich gemäß 1 eine Multilayer-Perceptron-Architektur, in der die Ausgabe y wie folgt beschrieben ist: y = W₂f(W₁x).
Üblicherweise wird ein derartiges Netz mit dem Fehler-Rückpropagation-Algorithmus gelernt, der auf folgender lokalen Lösung beruht:
Hierbei bezeichnet E den gemittelten Fehler und E_t den Fehler zu den einzelnen Zeitschritten t in dem Zeitintervall [1, ..., T]. y_t ^d bezeichnet Ausgabedaten, auf deren Basis das Netz gelernt wird, und NN(x_t, w) die entsprechende Ausgabe des neuronalen Netzes. Die Gewichte werden in dem neuronalen Netz somit basierend auf dem rückpropagierten Fehler derart gelernt, dass der gemittelte Fehler E minimal ist. Die Rückpropagation des Fehlers wird dabei durch die nach unten gerichteten Pfeile P3 und P4 in 1 angedeutet.
2 verdeutlicht zum besseren Verständnis nochmals die prinzipielle Vorgehensweise zur Modellierung eines dynamischen Systems mit einem rekurrenten neuronalen Netzwerk. Das rekurrente neuronale Netzwerk beruht auf einer finiten Entfaltung in zeitlicher Richtung, wodurch die Zeit in eine räumliche Architektur transformiert wird. Gemäß 2 wird die prinzipielle neuronale Netzwerkstruktur NN beschrieben durch Eingaben u und Ausgaben y, wobei zwischen den Eingaben und Ausgaben eine Transformation erfolgt, bei der interne Zustände s berücksichtigt werden. Insbesondere wird zum Zeitpunkt t die Eingabe u_t des Systems mit Hilfe des internen Zustands s_t zu diesem Zeitpunkt auf den internen Zustand s_t+1 wie folgt transformiert: st+1 = f(st, ut)
Aus dem internen Zustand s_t zum Zeitpunkt t ergibt sich ferner die Ausgabe y_t zum Zeitpunkt t durch folgende Gleichung: yt = g(st)
Der interne Zustand s_t zum Zeitpunkt t wird somit zur Bestimmung des internen Zustands s_t+1 zu dem nachfolgenden Zeitpunkt t + 1 verwendet, was durch die Schleife L angedeutet ist. Wie durch den Pfeil A1 und die Gleichungen (1) und (2) wiedergegeben ist, können in einer speziellen Variante die Gleichungen zur Bestimmung von s_t+1 und y_t durch Matrizen A, B und C sowie den Parameter c beschrieben werden. Das Lernen erfolgt basierend auf der Gleichung (3), wonach der in dem Zeitintervall [1, ..., T] gemittelte quadratische Fehler zwischen berechneter y_t Ausgabe und der Ausgabe y_t ^d gemäß dem zum Lernen verwendeten Datensatz minimiert wird. Wie durch den Pfeil A2 angedeutet ist, kann die soeben erklärte Netzwerkstruktur durch eine entsprechende Darstellung als Netz RNN wiedergegeben werden. In dem Netz RNN werden durch entsprechende Kreise die Eingaben u_t-3, u_t-2, u_t-1 und u_t, die internen Zustände s_t-2, s_t-1, s_t, s_t+1, s_t+2, s_t+3, s_t+4 und die Ausgaben y_t-2, y_t-1, y_t, y_t+1, y_t+2, y_t+3 und y_t+4 des neuronalen Netzes dargestellt. Ebenso werden durch entsprechende Pfeile die Parameter A, B und C zur Berechnung der einzelnen Größen gemäß den Gleichungen (1) und (2) spezifiziert. Die Pfeile stellen dabei Konnektoren dar, welche sowohl einen zeitlich vorwärts gerichteten als auch einen zeitlich rückwärts gerichteten Informationsfluss ermöglichen, um hierdurch eine Fehler-Rückpropagierung sicherzustellen.
Ein Problem des anhand von 2 beschriebenen rekurrenten neuronalen Netzes besteht darin, dass das Netz nur einen finiten Zeitraum beschreibt, der in der Ausführungsform gemäß 2 die vergangenen Zeitschritte t – 2 und t – 1, den gegenwärtigen Zeitschritt t sowie die zukünftigen Zeitschritte t + 1, t + 2, t + 3 und t + 4 umfasst. Aufgrund dieser finiten Struktur fehlt ein geeigneter interner Zustand s_t-m zur Initialisierung des Netzes. Dieses Problem wird umso größer, je größer die Dimension des internen Zustandsraums ist. Üblicherweise wird das Problem des fehlenden initialen Zustands ignoriert, und es wird s_t-m = 0 gesetzt bzw. es wird die Unabhängigkeit vom initialen Zustand postuliert.
3 zeigt eine Lösung gemäß dem Stand der Technik zur Festlegung eines initialen Zustands. Die Lösung beruht auf dem sog. Cleaning-Kalkül, gemäß dem die Unsicherheit eines unbekannten initialen Zustands s_t-m in geeigneter Weise abgeschätzt wird. Diese Abschätzung erfolgt durch das Modellieren von Rauschen, welches über einen entsprechenden Konnektor id dem neuronalen Netz RNN der 3 zugeführt wird. Das Rauschen wird dabei mit n (n = noise) bezeichnet und zu dem ursprünglichen Zustand hinzuaddiert. Das Rauschen des initialen Zustands wird mit Hilfe von adaptivem Gaußschen Rauschen in Abhängigkeit von dem Restfehler berechnet, der sich durch die Fehler-Rückpropagierung ergibt. Die Rückpropagierung des Feh lers ist dabei in dem Diagramm EBP der 3 angedeutet. Gemäß dem Diagramm wird eine Eingabe x der Eingabeschicht I durch entsprechend nach oben gerichtete Pfeile über die versteckte Schicht H der Ausgabeschicht O zugeführt, welche eine entsprechende Ausgabe y_t liefert. Mit Hilfe der Ziel-Ausgabe y_t ^d gemäß dem zum Lernen verwendeten Datensatz wird dann der Fehler berechnet und rückpropagiert, wodurch die ursprünglichen Gewichte w zwischen den Schichten entsprechend angepasst werden und zu den Gewichten w₊ führen. Dies ist durch die entsprechenden mathematischen Formeln F1 und F2 angedeutet. Schließlich erhält man am Ende den rückpropagierten Fehler ∂. In Abhängigkeit von diesem Fehler wird die entsprechende Standardabweichung des Gaußschen Rauschens festgelegt, so dass sie insgesamt als initialer Zugstand s_t-m ergibt: st-m = 0 + AGN(0, σ(∂t)) (4)
Dabei bezeichnet AGN das adaptive Gaußsche Rauschen und σ dessen von ∂_t abhängige Standardabweichung. Mit Hilfe des adaptiven Gaußschen Rauschens wird dabei eine Versteifung des Modells gegenüber dem unbekannten und somit unsicheren initialen Zustand s_t-m erreicht. Dies wird durch das Diagramm D in 3 angedeutet, welches die Veränderung der Unsicherheit des Zustands s_t über die Zeit t verdeutlicht. Hierbei wird ersichtlich, dass die Trajektorie der zeitlichen Entwicklung des Zustands s_t als finiter Volumenschlauch beschrieben werden kann, wobei ein anfänglich sehr großer und unsicherer Zustand mit großem Volumen in einen Zustand mit kleinem Schlauchvolumen überführt wird. Die verwendete Matrix A wird somit eine Kontraktion, um die anfängliche Unsicherheit aus dem System herauszudrücken.
In der Lösung gemäß 3 wird zwar ein initialer Zustand berechnet, jedoch wird mit diesem initialen Zustand nicht ausreichend der fehlende Informationsfluss der Vergangenheit und der Zukunft berücksichtigt. Insbesondere wird keine geeignete Einbettung eines finiten zeitlich entfalteten rekur renten neuronalen Netzwerks in einem infiniten Zeitprozess erreicht. Die allgemeine Problemstellung besteht hierbei darin, dass in dem Netz RNN der 2 der Informationsfluss von der weit zurückliegenden Vergangenheit und der weit entfernten zukünftigen Entwicklung des Systems fehlt, so dass eine Unsicherheit im initialen Zustand der finiten Entfaltung besteht.
Zur Lösung der obigen Problemstellung wird die in 4 schematisch dargestellte Vorgehensweise gemäß einer ersten Ausführungsform der Erfindung vorgeschlagen. 4 zeigt ein rekurrentes neuronales Netz RNN basierend auf der Darstellung aus 2, wobei nunmehr jedoch die lang zurückliegende Vergangenheit und die weit entfernte Zukunft berücksichtigt wird, wie durch gestrichelte Pfeile PA (PA = Vergangenheit) und FU (FU = Zukunft) angedeutet ist. In dem Netz der 4 wird die Verteilung der initialen Zustände durch eine Verteilung der finalen Zustände des mit dem neuronalen Netz modellierten dynamischen Systems abgeschätzt, wobei die finale Verteilung als Rauschen in das Netz injiziert wird, um das neuronale Netz gegen die Unsicherheit des initialen Zustands zu versteifen. Die Abschätzung der Verteilung der initialen Zustände basierend auf der Verteilung der finalen Zustände wird durch den Pfeil A3 in 4 angedeutet. Darüber hinaus wird die Verteilung der zukünftigen Fehler durch eine Verteilung der rückpropagierten Fehler am Anfang des Zeitintervalls (d. h. zum Zeitpunkt t – 2) approximiert, wobei die Verteilung der zukünftigen Fehler als Rauschen in das Netz injiziert wird, um das Netz gegen die Unsicherheit von zukünftigen Fehlern zu versteifen. Die Abschätzung der Verteilung der zukünftigen Fehler durch die Verteilung der rückpropagierten Fehler ist dabei durch den Pfeil A4 in 4 angedeutet.
5 zeigt die technische Umsetzung der anhand von 4 allgemein beschriebenen Lösung. Die technische Realisierung erfolgt hierbei basierend auf vorwärts gerichteten und rückwärts gerichteten Konnektoren. Hierbei ist zunächst zu berücksichtigen, dass die ursprüngliche Netzstruktur RNN nur Konnektoren enthält, welche in beide Richtungen wirken, d. h. sowohl zeitlich vorwärts gerichtet als auch zeitlich rückwärts gerichtet sind, wobei über die zeitliche Rückwärts-Orientierung die Fehlerpropagation gewährleistet wird. Demgegenüber enthält die Ausführungsform des neuronalen Netzes gemäß 5 nunmehr neben den ursprünglichen Konnektoren des Netzes RNN, die mit den entsprechenden Matrizen A, B und C verknüpft sind, auch ausschließlich zeitlich vorwärts gerichtete bzw. ausschließlich zeitlich rückwärts gerichtete Konnektoren. Gemäß 5 sind hierbei die Konnektoren C1, C2 und C3 ausschließlich vorwärts gerichtete Konnektoren, wohingegen die Konnektoren C4, C5 und C6 ausschließlich rückwärts gerichtete Konnektoren sind. Alle Konnektoren beschreiben dabei eine entsprechende Identitätsabbildung Id. Das Netz gemäß 5 enthält ferner zwei Target-Cluster T1 und T2 sowie zwei Input-Cluster I1 und I2. Für die Target-Cluster wird als Target-Wert tar der Wert 0 vorgegeben. Für die Input-Cluster I1 und I2 wird ebenfalls von einem Input-Wert von 0 ausgegangen. Die Netzwerkstruktur gemäß 5 setzt sich insgesamt aus einem oberen Teilnetzwerk N1 und einem unteren Teilnetzwerk N2 zusammen, wobei durch die Target-Cluster T1 und T2 und die Input-Cluster I1 und I2 sowie die entsprechenden Konnektoren C1 bis C6 ein dynamisch konsistentes Lernen des rekurrenten neuronalen Netzwerks erfolgt.
Gemäß der Struktur nach 5 wird über den Target-Cluster T1, der über den vorwärts gerichteten Konnektor C1 mit dem Zustand s_t+4 am Ende des finiten Zeitintervalls verbunden ist, die Verteilung der Zustände am Ende des Zeitintervalls ermittelt. Es ergibt sich somit als Wert des Target-Clusters der Wert tar = 0 + s (s entspricht dem Wert des gemessenen Zustands). Da dieser Wert von der Target-Vorgabe von Null abweicht, wird die gemessene Zustandsverteilung als Fehler interpretiert und über den rückwärts gerichteten Konnektor C4 dem Input-Cluster I1 zugeführt. Das Input-Cluster I1 erhält somit als Eingabewert den Zustandswert s und generiert hieraus ein entsprechendes Rauschen. Die Generierung des Rauschens erfolgt mit Hilfe eines Rausch-Generators, wobei Rausch-Generatoren hinlänglich aus dem Stand der Technik bekannt sind und deshalb an dieser Stelle nicht näher erläutert werden. Das generierte Rauschen wird dann über den vorwärts gerichteten Konnektor C2 dem Zustand s_t-2 am Anfang des Zeitintervalls zugeführt. Darüber hinaus fließt der in dem Netzwerk rückpropagierte Fehler aus dem Zustand s_t-2 heraus und wird über den rückwärts gerichteten Konnektor C5 dem weiteren Input-Cluster I2 zugeführt, welches hieraus eine Fehlerverteilung ermittelt. Die Fehlerverteilung wird dann über den vorwärts gerichteten Konnektor C3 dem Target-Cluster T2 zugeführt, woraufhin wiederum mit einem entsprechenden Rausch-Generator ein Rauschen generiert wird, welches schließlich über den rückwärts gerichteten Konnektor C6 und den Zustand s_t+4 in das rekurrente neuronale Netz rückpropagiert wird.
Der Fehler E ergibt sich in der Ausführungsform gemäß 5 hierbei durch folgende Berechnung, wobei out den Ausgabewert und tar den Target-Wert bezeichnet: E = 12 (out – tar)2
Zusammenfassend erzeugt das obere Teilnetz N1 ein Eingangsrauschen in Abhängigkeit von der finalen Zustandsverteilung, wohingegen das untere Teilnetz N2 die Eingangsunsicherheit misst und einen zusätzlichen Fehlerfluss in das neuronale Netz injiziert. Das Prinzip des neuronalen Netzes gemäß 5 beruht darauf, dass davon ausgegangen wird, dass eine Vorhersage der fernen Zukunft und der fernen Vergangenheit nicht möglich ist. Aufgrund dieses Unwissens über die ferne Zukunft und die ferne Vergangenheit wird das Modell durch entsprechendes Rauschen gegenüber diesen fernen Zeitpunkten abgehärtet bzw. steif gemacht. In der Ausführungsform der 5 wird somit der Effekt der unbekannten Zeit in der Zukunft und der Vergangenheit auf die finite Modellierung innerhalb eines Zeitintervalls durch ein geeignetes Rauschen des initialen Zustands sowie des zukünftigen Fehlers begrenzt. Trajektorien sind keine Sequenz von Punkten mehr, sondern kontrahierende finite Volumenschläuche.
6 zeigt eine zweite Ausführungsform eines erfindungsgemäßen neuronalen Netzes. In der Ausführungsform der 6 wird der initiale Zustand des neuronalen Netzes durch ein sog. retro-kausales Netz modelliert, welches sich an den Zustand s_t-3 zu Beginn des Zeitintervalls des rekurrenten neuronalen Netzes RNN anschließt. Das retro-kausale neuronale Netz ist in 6 mit RC1 bezeichnet. Mit dem Netz werden ausgehend vom Zustand s_t-3 gegen die Kausalitätsrichtung mit entsprechenden Matrizen A ← die internen Zustände r_t-2, r_t-1 und r_t ermittelt, und dem rückgerechneten Zustand r_t wird ein Input-Cluster I' mit Rauschen zugeführt. Das Rauschen wird mit einem Rausch-Generator erzeugt, wobei das Rauschen – wie in 3 – in Abhängigkeit von dem Restfehler als Gaußsches Rauschen modelliert wird. Oberhalb des retro-kausalen Netzes RC1 sind die entsprechenden Gleichungen zur Beschreibung des Netzes RC1 wiedergegeben. Dabei bezeichnet s ←t den internen Zustand des retro-kausalen Netzes. s ←t entspricht dabei r_t. Ferner sind im rechten Teil oberhalb des ursprünglichen rekurrenten neuronalen Netzes RNN die Gleichungen zur Beschreibung dieses Netzes wiedergegeben.
Mit der Ausführungsform gemäß 6 wird eine kausal-retrokausale Einbettung zur Rückwärts-Formulierung des rekurrenten Modells geschaffen, wobei mit dem rekurrenten Netz RC1 ausgehend vom Input-Cluster I' zunächst von der Gegenwart in die Vergangenheit gegangen wird und schließlich mit dem sich daran anschließenden rekurrenten neuronalen Netz RNN von der Vergangenheit in die Gegenwart und von dort in die Zukunft gelaufen wird. In der Ausführungsform gemäß 6 sind die Matrizen B, C für das retro-kausale Netz RC1 identisch mit den Matrizen B, C des rekurrenten neuronalen Netzes RNN, dies ist jedoch nicht zwangsläufig immer der Fall. Das Modell gemäß 6 wurde in Kombination mit einem rekurrenten Netz RNN beschrieben, lässt sich jedoch auch anwenden auf NRNN-Netze (NRNN = Normalized Recurrent Neural Network) und DCNN- Netze (DCNN = Dynamical Consistent Neural Network), welche spezielle Ausführungsformen von rekurrenten neuronalen Netzen darstellen.
7 zeigt eine dritte Ausführungsform eines erfindungsgemäßen neuronalen Netzes. In der Ausführungsform gemäß 7 wird die finite kausale Entfaltung ebenfalls in ein retro-kausales Netzwerk eingebettet. Hierzu wird für die Vergangenheit das bereits anhand von 6 beschriebene retro-kausale Netz RC1 eingesetzt. Die ferne Zukunft wird mit einem weiteren retro-kausalen Netz RC2 modelliert, mit dem ausgehend von dem Zustand s_t+3 am Ende des finiten Zeitintervalls von der Zukunft zurück in die Gegenwart gerechnet wird. Es ergeben sich hierbei die internen Zustände r_t+2, r_t+1 und r_t'. Das Netzwerk der 7 weist ferner einen ausschließlich vorwärts gerichteten Konnektor C7 auf, der mit einem Target-Cluster T' verbunden ist. Dieser Konnektor ist optional und kann gegebenenfalls auch weggelassen werden. Insgesamt ergibt sich durch 7 ein Netzwerk, welches über den Identitätskonnektor Id von links mit der Gegenwart im Zustand r_t startet und über das retro-kausale Netz RC1 gegen die Kausalitätsrichtung zunächst in die Vergangenheit zum Zustand s_t-3 läuft. Anschließend wird das rekurrente neuronale Netz RNN in kausaler Richtung von der Vergangenheit über die Gegenwart (Zustand s_t) bis zur Zukunft (Zustand s_t+3) durchlaufen. Schließlich wird wiederum in retro-kausaler Richtung das zweite retro-kausale Netz RC2 von der Zukunft bis zum gegenwärtigen Zustand r_t' durchlaufen. Im Unterschied zu der Ausführungsform gemäß 5 verfolgt das Netzwerk gemäß 7 den Ansatz, die finite Modellierung gemäß dem Netz RNN als eine Expansion der bekannten Gegenwart in die Zukunft und die Vergangenheit zu beschreiben. Die Trajektorien der Zustände sind hierbei eine Sequenz von Punkten. Mit dem zusätzlichen Konnektor C7 erfolgt durch das Target-Cluster T' ein Vergleich des gegenwärtigen Zustands s_t mit dem rückgerechneten Zustand r_t', wobei diese Zustände übereinstimmen sollten. Die Abweichung dieser Zustände wird wiederum als Fehler in das Netz rückpropagiert. Auf diese Weise wird die logische Kon sistenz s_t = r_t' in dem Informationsfluss berücksichtigt. Da der Konnektor C7 nur vorwärts gerichtet ist, erfolgt kein Fehlerfluss in Rückwärtsrichtung über diesen Konnektor zum Zustand s_t.
Im Vorangegangenen wurde die Erfindung basierend auf einem herkömmlichen rekurrenten neuronalen Netz RNN beschrieben. Die Erfindung ist jedoch in einfacher Weise auch auf DCNN-Netze erweiterbar. DCNN-Netze sind hinlänglich aus dem Stand der Technik bekannt und ermöglichen eine dynamisch konsistente Beschreibung eines dynamischen Systems. Zwecks genauerer Beschreibung von DCNN-Netzen wird insbesondere auf die Druckschrift DE 10 2004 059 684 B3 verwiesen, deren gesamter Offenbarungsinhalt durch Verweis zum Inhalt der vorliegenden Anmeldung gemacht wird. 8 zeigt die herkömmliche Struktur eines DCNN-Netzes nach dem Stand der Technik. Man erkennt, dass in dem Netz zum Lernen verwendete Daten y_t-1 ^d und y_t ^d als Eingaben unter Verwendung der Vektoren V1 in das Netz einfließen. Ferner sind die zu modellierenden Ausgaben y_t-1 bzw. y_t mit den internen Zuständen s_t-1 bzw. s_t über entsprechende Vektoren V2 verbunden. Darüber hinaus findet sich neben den durch die Matrizen A, C_≤ bzw. C_> beschriebenen linearen Teil auch ein nicht-linearer Teil, welcher in 8 durch NL bezeichnet ist. Dieser Teil wird durch eine entsprechende tanh-Funktion beschrieben.
Das Netz gemäß 8 wird somit durch folgende Gleichungen beschrieben:

für alle τ: y_τ=[Id 0 0]s_τ
Aus Übersichtlichkeitsgründen wurde das DCNN-Netz der 8 lediglich für ein finites Zeitintervall bestehend aus den Zeitpunkten t – 1, t und t + 1 wiedergegeben. Üblicherweise umfasst ein DCNN-Netz eine viel größere Anzahl an Zeitschritten.
Die erste, anhand von 5 beschriebe Ausführungsform der Erfindung lässt sich analog auch auf DCNN-Netze übertragen, wie in 9 wiedergegeben ist. Hierbei bezeichnen gleiche Bezugszeichen die gleichen Komponenten. Analog zu 5 werden zur Modellierung der fernen Zukunft und der fernen Vergangenheit vorwärts gerichtete Konnektoren C1 bis C3 sowie rückwärts gerichtete Konnektoren C4 bis C6 eingesetzt.
Analog zu den Konnektoren C3 und C4 in 5 sind auch die Konnektoren C3 und C4 in 9 Identitäts-Konnektoren. Im Unterschied zu den Konnektoren C1, C2, C5 und C6, welche in 5 auch Identitäts-Konnektoren darstellen, sind diese Konnektoren in 9 nunmehr Konnektoren, welche durch folgende Matrix beschrieben werden:
In dem Netz der 9 fließt ferner der Target-Wert y_t-1 ^tar der Ausgabe zum Zeitpunkt t – 1 in den Zustand s_t-1 ein.
Analog zu dem Netzwerk gemäß 5 wird in der 9 mit dem oberen Teilnetzwerk N1 ein Eingangsrauschen in Abhängigkeit von der finalen Zustandsverteilung erzeugt, wohingegen durch das untere Teilnetzwerk N2 eine Eingangsunsicherheit gemessen wird und als zusätzlicher Fehlerfluss in das Netzwerk injiziert wird.
10 zeigt die Übertragung der zweiten Ausführungsform der Erfindung gemäß 6 auf ein DCNN-Netzwerk. Analog zu 6 umfasst das Netzwerk der 10 wiederum einen retro-kausalen Teil RC1, der aus Übersichtlichkeitsgründen nur aus einem Zeitschritt von der Vergangenheit (Zeitpunkt t – 1) zum gegenwärtigen Zeitpunkt t besteht. Der retro-kausale Teil rechnet wiederum einen vergangenen Systemzustand auf die Gegenwart zurück und dieser rückgerechnete Systemzustand wird als initialer Zustand der kausalen Netzwerkanalyse verwendet. In dem Beispiel der 10 wird im Teilnetz RC1 die gleiche Konsistenzmatrix C_≤ wie in dem restlichen DCNN-Netz DCNN verwendet. Das System wird wiederum mit Rauschen über einen Input-Cluster I' initialisiert. Das Netzwerk gemäß 10 eignet sich insbesondere, wenn kurze Zeitserien betrachtet werden.
11 zeigt eine Übertragung der dritten Ausführungsform der Erfindung gemäß 7 auf ein DCNN-Netz. Analog zu 7 schließt sich an den Zustand s_t-1 das retro-kausale Netz RC1 an, und nach dem Zustand s_t+1 des Netzes DCNN folgt das retro-kausale Netz RC2. Beide Netze RC1 und RC2 beinhalten zwecks übersichtlicher Darstellung wiederum nur einen Zeitschritt, mit dem von der Vergangenheit in die Gegenwart bzw. von der Zukunft in die Gegenwart rückgerechnet wird. Darüber hinaus wird durch einen entsprechenden Konnektor C7 wiederum der Fehler zwischen dem berechneten Zustand r_t' und s_t über den Target-Cluster T' in das Netz rückpropagiert. Analog zur Ausführungsform der 7 wird durch die Ausführungsform der 11 eine finite kausale Entfaltung in ein retro-kausales Netzwerk eingebettet. Das Netzwerk startet in der Gegenwart und endet wiederum in der Gegenwart. Sowohl im kausalen als auch in den retro-kausalen Teilen werden die gleichen Konsistenzmatrizen C_≤ verwendet.
Durch die im Vorangegangenen beschriebenen Ausführungsformen werden neuronale Netzstrukturen geschaffen, welche mit entsprechenden Eingaben und Ausgaben aus bekannten Datensätzen gelernt werden. Die Eingaben und Ausgaben stellen hierbei Messwerte eines dynamischen Systems dar. Es können mit dem Verfahren beliebige dynamische Systeme, insbesondere ökonomische Systeme und technische Systeme, modelliert werden. Das entsprechende Netz wird dabei zunächst mit bekannten Datensätzen gelernt, und anschließend wird das gelernte Netz zur Prädiktion von Ausgaben basierend auf Eingaben verwendet. Ein Anwendungsbereich des erfindungsgemäßen Verfahrens ist beispielsweise die Prädiktion von Energiepreisen einer Energiehandelsbörse. Ein weiterer bevorzugter Anwendungsbereich ist die Prädiktion des dynamischen Verhaltens von technischen Systemen. Beispielsweise kann basierend auf Einstellparametern des technischen Systems ein Ausgabeparameter des technischen Systems vorhergesagt werden. Eine mögliche Anwendung ist hierbei eine Gasturbine, bei der basierend auf Einstellparametern, wie z. B. zugeführte Treibstoffmenge, das Brummen bzw. die Energieausgabe der Gasturbine berechnet wird. Ebenso kann das Verfahren für Windkraftanlagen eingesetzt werden, bei denen basierend auf Einstellwerten der Windkraftanlage, wie z. B. der Stellung der Rotorblätter des Windgenerators, die sich daraus ergebende ausgegebene Energie berechnet wird.

Claims

Verfahren zum rechnergestützten Lernen eines rekurrenten neuronalen Netzes (RNN) mit zeitlich aufeinander folgenden Zuständen (s_t-2, ..., s_t+4) in einem endlichen Zeitintervall, wobei die Zustände (s_t-2, ..., s_t+4) mit zeitlich aufeinander folgenden Eingaben (u_t-3, ..., u_t) und Ausgaben (y_t-2, ..., y_t+4) eines dynamischen Systems verbunden sind und wobei die Zustände (s_t-2, ..., s_t+4) untereinander und mit den Eingaben und Ausgaben über Konvektoren verbunden sind, welche zur Fehler-Rückpropagierung einen zeitlich vorwärts gerichteten und einen zeitlich rückwärts gerichteten Informationsfluss ermöglichen, dadurch gekennzeichnet, dass der Informationsfluss im rekurrenten neuronalen Netz (RNN) vor Beginn des Zeitintervalls und/oder nach Ende des Zeitintervalls mit Hilfe von zumindest einem retro-kausalen Netz (RC1, RC2) oder mit Hilfe von zumindest einem vorwärts gerichteten und/oder zumindest einem rückwärts gerichteten Konnektor (C1, ..., C6) berücksichtigt wird, wobei der zumindest eine vorwärts gerichtete Konnektor (C1, C2, C3) ausschließlich einen zeitlich vorwärts gerichteten Informationsfluss ermöglicht und wobei der zumindest eine rückwärts gerichtete Konnektor (C4, C5, C6) ausschließlich einen zeitlich rückwärts gerichteten Informationsfluss ermöglicht.
Verfahren nach Anspruch 1, bei dem die Berücksichtigung des Informationsflusses im rekurrenten neuronalen Netz (RNN) vor Beginn des Zeitintervalls und nach Ende des Zeitintervalls derart erfolgt, dass – eine Zustandsverteilung am Ende des Zeitintervalls gemessen wird, wobei die gemessene Zustandsverteilung über einen vorwärts gerichteten Konnektor (C1) mit dem Zustand (s_t+4) am Ende des Zeitintervalls verbunden ist; – in Abhängigkeit von der gemessenen Zustandverteilung am Ende des Zeitintervalls ein Rauschen generiert wird, wobei das generierte Rauschen über einen rückwärts gerichteten Konnektor (C4) mit der gemessenen Zustandsvertei lung am Ende des Zeitintervalls und über einen vorwärts gerichteten Konnektor (C2) mit dem Zustand (s_t-2) am Anfang des Zeitintervalls verbunden ist; – die Fehlerverteilung am Anfang des Zeitintervalls gemessen wird, wobei die gemessene Fehlerverteilung am Anfang des Zeitintervalls über einen rückwärts gerichteten Konnektor (C5) mit dem Zustand (s_t-2) am Anfang des Zeitintervalls verbunden ist; – in Abhängigkeit von der gemessenen Fehlerverteilung am Anfang des Zeitintervalls eine Fehlerverteilung am Ende des Zeitintervalls generiert wird, wobei die generierte Fehlerverteilung am Ende des Zeitintervalls über einen vorwärts gerichteten Konnektor (C3) mit der gemessenen Fehlerverteilung am Anfang des Zeitintervalls und über einen rückwärts gerichteten Konnektor (C6) mit dem Zustand (s_t+4) am Ende des Zeitintervalls verbunden ist.
Verfahren nach Anspruch 2, bei dem die gemessene Zustandsverteilung am Ende des Zeitintervalls und/oder die generierte Fehlerverteilung am Ende des Zeitintervalls durch einen Ziel-Cluster (T1, T2) modelliert werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die gemessene Fehlerverteilung am Anfang des Zeitintervalls und/oder das generierte Rauschen am Anfang des Zeitintervalls durch einen Eingabe-Cluster (I1, I2) modelliert werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das endliche Zeitintervall einen oder mehrere aufeinander folgende vergangene Zustände (s_t-2, ..., s_t-1), einen gegenwärtigen Zustand (s_t) sowie einen oder mehrere aufeinander folgende zukünftige Zustände (s_t+1, s_t+4) umfasst.
Verfahren nach Anspruch 5, bei dem der Informationsfluss vor Beginn des Zeitintervalls durch ein erstes retro-kausales Netz (RC1) modelliert wird, wobei sich das erste retro-kausale Netz (RC1) von einem gegenwärtigen Zustand (r_t) zu dem Zustand (s_t-3) am Anfang des Zeitintervalls erstreckt.
Verfahren nach Anspruch 5 oder 6, bei dem der Informationsfluss nach dem Ende des Zeitintervalls durch ein zweites retro-kausales Netz (RC2) modelliert wird, wobei sich das zweite retro-kausale Netz (RC2) von dem Zustand am Ende des Zeitintervalls (s_t+3) zu einem gegenwärtigen Zustand (r_t') erstreckt.
Verfahren nach Anspruch 7, bei dem ein Fehler im zweiten retro-kausalen Netz (RC2) durch Vergleich des gegenwärtigen Zustands (s_t) im Zeitintervall mit dem gegenwärtigen Zustand (r_t') des zweiten retro-kausalen Netzes (RC2) ermittelt wird, wobei der Fehler in das rekurrente neuronale Netz (RNN) rückpropagiert wird.
Verfahren nach Anspruch 8, bei dem der ermittelte Fehler mit dem gegenwärtigen Zustand (s_t) im Zeitintervall über einen vorwärts gerichteten Konnektor (C7) verbunden ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das rekurrente neuronale Netz ein DCNN-Netz und/oder ein NRNN-Netz umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem mit dem rekurrenten neuronalen Netz (RNN) die Eingaben (u_t-3, ..., u_t) und Ausgaben (y_t-2, ..., y_t+4) eines technischen Systems modelliert werden.
Verfahren nach Anspruch 11, bei dem das technische System eine Gasturbine und/oder eine Windkraftanlage umfasst.
Verfahren nach einem der Ansprüche 1 bis 10, bei dem mit dem neuronalen Netz (RNN) die Eingaben (u_t-3, ..., u_t) und Ausgaben (y_t-2, ..., y_t+4) einer Energiehandelsbörse modelliert werden.
Verfahren zur Prädiktion der Ausgaben (y_t-2, ..., y_t+4) eines dynamischen Systems basierend auf Eingaben (u_t-3, ..., u_t) des dynamischen Systems, bei dem die Prädiktion mit einem neuronalen Netz durchgeführt wird, welches mit einem Verfahren nach einem der vorhergehenden Ansprüche gelernt ist.
Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einen Rechner abläuft.