DE102004059684B3

DE102004059684B3 - Verfahren und Anordnung sowie Computerprogramm mit Programmmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems

Info

Publication number: DE102004059684B3
Application number: DE102004059684A
Authority: DE
Inventors: Ralph Dr. Grothmann; Christoph Dr. Tietz; Hans-Georg Dr. Zimmermann
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-12-10
Filing date: 2004-12-10
Publication date: 2006-02-09
Anticipated expiration: 2024-12-11
Also published as: WO2006061320A2; WO2006061320A3

Abstract

Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechenelementen eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren, bei welcher Anordnung die Verknüpfung zwischen zwei Zustandsrechenelementen eine mittelbare Verknüpfung (Z2-Z1, Z1-Z3) ist, welche wenigstens eine Konsistenztransformation (C_≦, C_>, C) und die Zeittransformation (A) umfasst, und bei welcher die mittelbare Verknüpfung (Z2-Z2) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Z1) und die mittelbare Verknüpfung (Z1-Z3) zwischen dem ersten Zustandsrechenelement (Z1) und dem dritten Zustandsrechenelement (Z3) unterschiedlich sind.

Description

Die Erfindung betrifft eine neuronale Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, welche für eine Prognose eines Zustandes eines dynamischen Systems geeignet ist, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt und geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.

Aus [1] ist es bekannt, zur Beschreibung und Modellierung eines dynamischen Systems bzw. eines dynamischen Prozesses und dessen Prozessverhaltens eine neuronale Struktur, beispielsweise ein neuronales Netz, einzusetzen.

Allgemein wird ein dynamisches System bzw. ein dynamischer Prozess durch eine Zustandsübergangsbeschreibung, die für einen Beobachter des dynamischen Prozesses nicht sichtbar ist, und eine Ausgangsgleichung, die beobachtbare Größen des technischen dynamischen Prozesses beschreibt, beschrieben.

Ein solches Prozessverhalten eines dynamischen Prozesses ist in 8 dargestellt.

Der dynamische Prozess 800 bzw. ein dynamisches System 800, in dem der dynamische Prozess abläuft, unterliegt dem Einfluss einer externen Eingangsgröße u vorgebbarer Dimension, wobei eine Eingangsgröße u_t zu einem Zeitpunkt t mit u_t bezeichnet wird:

wobei mit 1 eine natürliche Zahl bezeichnet wird.

Die Eingangsgröße u_t zu einem Zeitpunkt t verursacht eine Veränderung des dynamischen Prozesses.

Ein innerer Zustand

vorgebbarer Dimension m zu einem Zeitpunkt t ist für einen Beobachter des dynamischen Systems 800 nicht beobachtbar.

In Abhängigkeit vom inneren Zustand s_t und der Eingangsgröße u_t wird ein Zustandsübergang des inneren Zustandes s_t des dynamischen Prozesses verursacht und der Zustand des dynamischen Prozesses geht über in einen Folgezustand s_t+1 zu einem folgenden Zeitpunkt t+1.

Dabei gilt: st+1 = f(st, ut). (1)wobei mit f(.) eine allgemeine Abbildungsvorschrift bezeichnet wird.

Eine von einem Beobachter des dynamischen Systems 800 beobachtbare Ausgangsgröße y_t zu einem Zeitpunkt t hängt ab von der Eingangsgröße u_t sowie dem inneren Zustand s_t.

Die Ausgangsgröße

ist vorgebbarer Dimension n.

Die Abhängigkeit der Ausgangsgröße y_t von der Eingangsgröße u_t und dem inneren Zustand s_t des dynamischen Prozesses ist durch folgende allgemeine Vorschrift gegeben: yt = g(st), (2) wobei mit g(.) eine allgemeine Abbildungsvorschrift bezeichnet wird.

Zur Beschreibung des dynamischen Systems 800 wird in [1] eine neuronale Struktur aus miteinander verbundenen Rechenelemente in Form eines neuronalen Netzes miteinander verbundener Neuronen eingesetzt. Die Verbindungen zwischen den Neuronen des neuronalen Netzes sind gewichtet. Die Gewichte des neuronalen Netzes sind in einem Parametervektor v zusammengefasst.

Somit hängt ein innerer Zustand eines dynamischen Systems, welches einem dynamischen Prozess unterliegt, gemäß folgender Vorschrift von der Eingangsgröße u_t und dem inneren Zustand des vorangegangenen Zeitpunktes s_t und dem Parametervektor v ab: st+1 = NN(v, st, ut), (3)wobei mit NN(.) eine durch das neuronale Netz vorgegebene Abbildungsvorschrift bezeichnet wird.

Diese Beschreibung des dynamischen Systems 800 gemäß Beziehung (3) wird auch als "Forward Approach" bezeichnet.

Alternativ dazu lässt sich das dynamische System auch durch: st = f(st-1, ut) (1')mit st = NN(v, st-1, ut) (3')beschreiben, was als "Backward Approach" bezeichnet wird.

"Forward Approach" und "Backward Approach" führen zu geringfügigen strukturellen Unterschieden in den jeweiligen Netzstrukturen, sind aber gleichwertige, alternativ verwendbare Beschreibungsformen für dynamische Systeme.

Aus [2] ist eine neuronale Struktur zur Beschreibung des dynamischen Systems 800 bekannt, welche als Time Delay Recurrent Neural Network (TDRNN/RNN) bezeichnet wird.

Das bekannte TDRNN ist in 5 als ein über eine endliche Anzahl von Zeitpunkten (dargestellt 5 Zeitpunkte: t-4, t-3, t-2, t-1, t) entfaltetes neuronales Netz 500 dargestellt.

Das in 5 dargestellte neuronale Netz 500 weist eine Eingangsschicht 501 mit fünf Teileingangsschichten 521, 522, 523, 524 und 525 auf, die jeweils eine vorgebbare Anzahl Eingangs-Rechenelemente enthalten, denen Eingangsgrößen u_t-4, u_t-3, u_t-2, u_t-1 und u_t zu vorgebbaren Zeitpunkten t-4, t-3, t-2, t-1 und t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.

Eingangs-Rechenelemente bzw. Eingangsneuronen oder Eingaberechenelemente, sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten 505 (dargestellt 5 verdeckte Schichten) verbunden.

Dabei sind Neuronen einer ersten 531, einer zweiten 532, einer dritten 533, einer vierten 534 und einer fünften 535 versteckten Schicht jeweils mit Neuronen der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht verbunden.

Die Verbindungen zwischen der ersten 531, der zweiten 532, der dritten 533, der vierten 534 und der fünften 535 versteckten Schicht mit jeweils der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht sind jeweils gleich. Die Gewichte aller Verbindungen sind jeweils in einer ersten Verbindungsmatrix B₁ enthalten.

Ferner sind die Neuronen der ersten versteckten Schicht 531 mit ihren Ausgängen mit Eingängen von Neuronen der zweiten versteckten Schicht 532 gemäß einer durch eine zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der zweiten versteckten Schicht 532 sind mit ihren Ausgängen mit Eingängen von Neuronen der dritten versteckten Schicht 533 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der dritten versteckten Schicht 533 sind mit ihren Ausgängen mit Eingängen von Neuronen der vierten versteckten Schicht 534 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der vierten versteckten Schicht 534 sind mit ihren Ausgängen mit Eingängen von Neuronen der fünften versteckten Schicht 535 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden.

In den versteckten Schichten, der ersten versteckten Schicht 531, der zweiten versteckten Schicht 532, der dritten versteckten Schicht 533, der vierten versteckten Schicht 534 und der fünften versteckten Schicht 535 werden jeweils "innere" Zustände oder "innere" Systemzustände s_t-4, s_t-3, s_t-2, s_t-1, und s_t eines durch das TDRNN beschriebenen dynamischen Prozesses an fünf aufeinander folgenden Zeitpunkten t-4, t-3, t-2, t-1 und t repräsentiert.

Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t-4, t-3, t-2, t-1 und t an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale beziehen (u_t-4, u_t-3, u_t-2, u_t-1, u_t).

Eine Ausgangsschicht 520 weist fünf Teilausgangsschichten oder Ausgaberechenelemente, eine erste Teilausgangsschicht 541, eine zweite Teilausgangsschicht 542, eine dritte Teilausgangsschicht 543, eine vierte Teilausgangsschicht 544 sowie eine fünfte Teilausgangsschicht 545 auf. Neuronen der ersten Teilausgangsschicht 541 sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C₁ gegebenen Struktur mit Neuronen der ersten versteckten Schicht 531 verbunden. Neuronen der zweiten Teilausgangsschicht 542 sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C₁ gegebenen Struktur mit Neuronen der zweiten versteckten Schicht 532 verbunden. Neuronen der dritten Teilausgangsschicht 543 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der dritten versteckten Schicht 533 verbunden. Neuronen der vierten Teilausgangsschicht 544 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der vierten versteckten Schicht 534 verbunden. Neuronen der fünften Teilausgangsschicht 545 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der fünften versteckten Schicht 535 verbunden. An den Neuronen der Teilausgangsschichten 541, 542, 543, 544 und 545 sind die Ausgangsgrößen für jeweils einen Zeitpunkt t-4, t-3, t-2, t-1, t abgreifbar (y_t-4, y_t-3, y_t-2, y_t-1, y_t).

Der Grundsatz, dass äquivalente Verbindungsmatrizen, in 5 sind dies die Matrizen A₁, B₁ und C₁, in einem neuronalen Netz zu einem jeweiligen Zeitpunkt die gleichen Werte aufweisen, wird als Prinzip der so genannten geteilten Gewichtswerte (Shared Weights) bezeichnet.

Die aus [2] bekannte und als Time Delay Recurrent Neural Network (TDRNN) bezeichnete Anordnung wird in einer Trainingsphase derart trainiert, dass zu einer Eingangsgröße u_t jeweils eine Zielgröße y d / t an einem realen dynamischen System ermittelt wird. Das Tupel (Eingangsgröße, ermittelte Zielgröße) wird als Trainingsdatum bezeichnet. Eine Vielzahl solcher Trainingsdaten bilden einen Trainingsdatensatz.

Dabei weisen zeitlich aufeinander folgende Tupel (u_t-4, y d / t-4) (u_t-3, y d / t-3), (u_t-2, y d / t-2) der Zeitpunkte (t-4, t-3, t-3, ...) des Trainingsdatensatzes jeweils einen vorgegeben Zeitschritt auf.

Mit dem Trainingsdatensatz wird das TDRNN trainiert. Eine Übersicht über verschiedene Trainingsverfahren ist ebenfalls in [1] und [4] zu finden.

Es ist an dieser Stelle zu betonen, dass lediglich die Ausgangsgrößen y_t-4, y_t-3, ..., y_t zu Zeitpunkten t-4, t-3, ..., t des dynamischen Systems 800 erkennbar sind. Die "inne ren" Systemzustände s_t-4, s_t-3, ..., s_t sind nicht beobachtbar.

In der Trainingsphase wird üblicherweise folgende Kostenfunktion E minimiert:

wobei mit T eine Anzahl berücksichtigter Zeitpunkte bezeichnet wird.

Aus [5] und [6] sind Weiterentwicklungen der aus [2] bekannten und als Time Delay Recurrent Neural Network (TDRNN) bezeichneten neuronalen Struktur bekannt.

Die Weiterentwicklungen aus [5] sind insbesondere geeignet zur Ermittlung zukünftiger Zustände eines dynamischen Prozesses, was als "overshooting" bezeichnet wird.

1a aus [5] zeigt eine Grundstruktur, die den aus [5] bekannten Weiterentwicklungen zugrunde liegt.

Die Grundstruktur ist ein über drei Zeitpunkte t, t+1, t+2 entfaltetes neuronales Netz.

Sie weist eine Eingangsschicht auf, die eine vorgebbare Anzahl von Eingangsneuronen enthält, denen Eingangsgrößen u_t zu vorgebbaren Zeitpunkten t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.

Die Eingangsneuronen sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten (dargestellt 5 verdeckte Schichten) verbunden.

Dabei sind insbesondere Neuronen einer ersten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+1 beschreibt oder repräsentiert, mit Neuronen der ersten Eingangsschicht verbunden.

Die Verbindung zwischen der ersten versteckten Schicht mit der ersten Eingangsschicht weist Gewichte auf, die in einer ersten Verbindungsmatrix B enthalten sind.

Ferner sind die Neuronen der ersten versteckten Schicht mit ihren Ausgängen mit Eingängen von Neuronen einer zweiten versteckten Schicht, welche den Systemzustand zum Zeitpunkt t+2 beschreibt oder repräsentiert, gemäß einer durch eine zweite Verbindungsmatrix A gegebene Struktur verbunden.

In den versteckten Schichten, der ersten versteckten Schicht und der zweiten versteckten Schicht werden jeweils "innere" Zustände oder "innere" Systemzustände s_t+1 und s_t+2 des beschriebenen dynamischen Prozesses an zwei aufeinander folgenden Zeitpunkten t+1 und t+2 repräsentiert.

Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t, t+1, t+2 an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale (u_t) beziehen.

Eine Ausgangsschicht weist zwei Teilausgangsschichten, eine erste Teilausgangsschicht für den Zeitpunkt t+1 und eine zweite Teilausgangsschicht für den Zeitpunkt t+2, auf. Neuronen der ersten Teilausgangsschicht sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der ersten versteckten Schicht verbunden. Neuronen der zweiten Teilausgangsschicht sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der zweiten versteckten Schicht verbunden.

An den Neuronen der Teilausgangsschichten sind die Ausgangsgrößen für jeweils einen Zeitpunkt t+1, t+2 abgreifbar (y_t+1, y_t+2).

Eine weitere Weiterentwicklung dieser Grundstruktur aus [5] ist in 6 dargestellt.

Weiterentwicklungen der TDRNN-Struktur aus [6], so genannte Error-Correction-Recurrent-Neural-Networks ECRNN), betreffen einen strukturell bedingten Fehler-Korrektur-Mechanismus, welcher als struktureller Bestandteil in eine neuronale Struktur integriert ist. 7 zeigt eine grundlegende Struktur mit entsprechenden funktionalen Beziehungen eines ECRNN.

In [3] ist ferner ein Überblick über Grundlagen neuronaler Netze und die Anwendungsmöglichkeiten neuronaler Netze im Bereich der Ökonomie zu finden.

Die bekannten Anordnungen und Verfahren, insbesondere die im obigen beschriebenen TDRNN (kurz RNN) und ECRNN, weisen verschiedene Nachteile auf.

So neigen insbesondere große Netze obiger rekurrenter Strukturen zu den bekannten Problemen eines "Overfitting" und einer "Überparametrisierung", was sich wiederum negativ auf eine Prognosefähigkeit solcher Strukturen bzw. Netze auswirkt.

Somit liegt der Erfindung die Aufgabe zugrunde eine, insbesondere neuronale, Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt, anzugeben, welche insbesondere bei großen Netzen bzw. bei Systemen mit einer Vielzahl von freien Parametern geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.

Diese Aufgabe wird durch die Anordnung, das Verfahren sowie durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustands eines dynamischen Systems mit den Merkmalen gemäß den unabhängigen Patentansprüchen 1, 12, 16 und 18 gelöst.

Die Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems basiert auf einer Grundstruktur miteinander verknüpfter Rechenelemente eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren.

Die Anordnung weist wenigstens ein erstes Eingaberechenelement, welchem Zustandsgrößen des Systems zu einem ersten Zeitpunkt in einem Zustandsraum zuführbar sind und wenigstens ein zweites Eingaberechenelement, welchem Zustandsgrößen des Systems zu einem früheren Zeitpunkt in einem Zustandsraum zuführbar sind, wobei der frühere Zeitpunkt vor dem ersten Zeitpunkt liegt. Die Eingaberechenelemente bilden, im Falle der Realisierung in Form eines neuronalen Netzes, die Eingangsschicht oder Eingabeneuronenschicht mit Eingangsneuronen des neuronalen Netzes.

Ferner weist die Anordnung wenigstens ein erstes Zustandsrechenelement, welches den Systemzustand zum ersten Zeitpunkt in einem Transformationsraum repräsentiert, wenigstens ein zweites Zustandsrechenelement, welches den Systemzustand zum früheren Zeitpunkt im Transformationsraum repräsentiert und wenigstens ein drittes Zustandsrechenelement, welches den Systemzustand zu einem auf den ersten Zeitpunkt folgenden späteren Zeitpunkt im Transformationsraum repräsentiert. Somit sind das erste Zustandsrechenelement und das erste Eingaberechenelement dem ersten Zeitpunkt zugeordnet und das zweite Zustandsrechenelement und das zweite Eingaberechenelement dem früheren Zeitpunkt.

Zwischen Zustandsrechenelementen, welche Systemzustände zu aufeinander folgenden Zeitpunkten repräsentieren, ist eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar. Im Falle der Realisierung der Anordnung durch ein neuronales Netz entspricht die Zeittransformation einer Verbindungsmatrix A, wobei geteilte bzw. gemeinsame Gewichtswerte (shared weights) verwendet werden.

Die Anordnung weist ferner wenigstens ein Ausgaberechenelement auf, an welchem Zustandsgrößen des Systems zum späteren Zeitpunkt im Zustandsraum abgreifbar sind. An den Ausgaberechenelementen werden Erwartungswerten (expectations) entsprechenden Werte ausgegeben.

Im Falle der Realisierung der Anordnung durch ein neuronales Netz ist an einem Zustandsrechenelement ein Zustandsvektor abgreifbar bzw. von diesem ausgebbar, bei welchem die oberen Elemente bzw. Werte des Vektors gleich den Erwartungswerten sind. Der mittlere Bereich des Zustandsvektors wird durch versteckte Zustandswerte gebildet, welche versteckte Zustände (hidden states) zum jeweiligen Zeitpunkt repräsentieren. Im unteren Bereich des Zustandsvektors stehen Beobachtungswerte oder Erwartungswerte, in Abhängigkeit des Zeitpunktes des jeweiligen Zustandsvektors. Für den Zustandsvektor zum ersten Zeitpunkt und zum früheren Zeitpunkt gilt, dass im unteren Teil des Zustandsvektors Beobachtungswerte (Observations) stehen. Für den Zustandsvektor des späteren Zeitpunkts gilt, dass im unteren Bereich des Zustandsvektors Erwartungswerte (Expectations) stehen. Somit ergibt sich der Zustandsvektor s_t wie folgt:

In einer anderen Ausführungsform wird der untere Teil des Zustandsvektors durch Fehlerkorrekturwerte oder Null gebildet. Der Zustandsvektor s_t ergibt sich somit wie folgt:

Bei der Anordnung ist das erste Eingaberechenelement mit dem ersten Zustandsrechenelement und das zweite Eingaberechenelement mit dem zweiten Zustandsrechenelement verknüpft, wobei durch die Verknüpfungen jeweils eine Raumtransformation aus dem Zustandsraum in den Transformationsraum durchführbar ist.

Ferner ist das Ausgaberechenelement mit dem dritten Zustandsrechenelement verknüpft, wobei durch die Verknüpfung eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar ist.

Die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen weisen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems auf. Dies ist ein wesentlicher Unterschied zum oben beschriebenen Stand der Technik, da dem System an den Eingaberechenelemente somit Einflussgrößen, welche im Zusammenhang mit der Beschreibung des Standes der Technik beispielsweise mit u_t bezeichnet wurden, und Zielgrößen bzw. Targets, welche oben im Zusammenhang mit dem Stand der Technik als y_t gekennzeichnet wurden, zugeführt werden. Bei der Erfindung wird also bei der Modellbildung nicht zwischen Einflussgrößen und Zielgrößen unterschieden, sondern nur noch zwischen beobachtbaren Werten bzw. Variablen und nicht-beobachtbaren Werten bzw. Variablen. Die beobachtbaren Werte (Observables) enthalten dabei die im Zusammenhang mit dem Stand der Technik beschriebenen Einflussgrößen u_t und Zielgrößen y_t. Die beobachtbaren Werte werden in der folgenden Beschreibung mit y_t gekennzeichnet. Dabei ist zu beachten, dass sich y_t somit wesentlich vom y_t, welches in der Beschreibung des Standes der Technik verwendet wurde, unterscheidet.

Eine solche Modellierung bei der der Anordnung sowohl Einflussgrößen als auch Zielgrößen zuführbar sind, ist aus [7] bekannt.

Die Transformationsparameter zur Durchführung der Zeittransformation sind variabel, wobei im Fall der Realisierung durch ein neuronales Netz geteilte Gewichtswerte für die Transformationsparameter verwendet werden.

Die Verknüpfung zwischen zwei Zustandsrechenelementen ist eine mittelbare Verknüpfung, welche wenigstens eine Konsistenztransformation und die Zeittransformation umfasst. Im Falle der Realisierung durch ein neuronales Netz bedeutet dies, dass die durch die Gewichtsmatrix A mit geteilten Gewichtswerten gebildete Zeittransformation zwischen zwei Zustandsrechenelementen eine weitere versteckte Schicht mit einer Nichtlinearität und einem Bias aufweist, wobei die Ausgabewerte dieser weiteren versteckten Schicht der Konsistenztransformation unterzogen werden.

Die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenelement und dem ersten Zustandsrechenelement und die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement sind dabei unterschiedlich. Durch die unterschiedliche Wahl der mittelbaren Verknüpfung ergibt sich der unterschiedliche untere Bereich des Zustandsvektors s_t in Gleichungen (5) und (6). Das heißt, je nach Wahl der mittelbaren Verknüpfung enthält der untere Bereich in Gleichung (5) entweder die Beobachtungswerte oder die Erwartungswerte. In Gleichung (6) enthält der Zustands vektor s_t je nach Wahl der mittelbaren Verknüpfung die Fehlerkorrekturwerte oder Null.

Die Transformation der Zustandsgrößen vom früheren auf den ersten Zeitpunkt wird dabei durch eine Multiplikation von Matrizen C • A • C_≤ durchgeführt, und die Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt durch eine Multiplikation von Matrizen C • A • C_>. Dabei ist A die Zeittransformation und es gilt:

wobei Id eine Identitätsmatrix ist.

Vorteilhaft sind zumindest ein Teil der Rechenelemente künstliche Neuronen. Das heißt, die Anordnung ist vorteilhaft mit einem neuronalen Netz realisierbar, wobei den Eingaberechenelementen Eingangsneuronen oder -schichten, den Zustandsrechenelementen versteckte bzw. Hidden Neuronen oder Schichten und den Ausgaberechenelementen Ausgangsneuronen oder -schichten entsprechen.

In den Figuren zur Beschreibung von Ausführungsformen der Erfindung entspricht die mittelbare Verknüpfung beispielsweise der Transformation durch die Matrizen A und C_< für die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenelement und dem ersten Zustandsrechenelement. Die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement entspricht beispielsweise der Verknüpfung durch die Matrizen A und C_>. Die mittelbare Verknüpfung kann jedoch auch durch drei Rechenschritte gebildet werden, beispielsweise durch eine Transformation mit drei Matrizen C, A, C_≤ bzw. C, A, C_> oder durch die Matrizenkombination C, A, C_E (siehe Beschreibung der Figuren).

In einer vorteilhaften Weiterbildung der Erfindung weist die Anordnung weitere Eingaberechenelemente, weitere Zustandsrechenelemente und weitere Ausgaberechenelemente auf, die jeweils einem bestimmten Zeitpunkt zugeordnet sind, wobei jeweils ein Eingaberechenelement mit einem Zustandsrechenelement und ein Zustandsrechenelement mit einem Ausgaberechenelement verknüpft sind und dadurch jeweils eine Raumtransformation durchführbar ist, wobei ein Zustandsrechenelement mit dem Zustandsrechenelement des vorangehenden Zeitpunktes und mit dem Zustandsrechenelement des folgenden Zeitpunktes verknüpft ist und dadurch jeweils eine Zeittransformation durchführbar ist.

In einer vorteilhaften Weiterbildung verbindet die mittelbare Verknüpfung zwischen dem zweiten Zustandsrechenelement und dem ersten Zustandsrechenelement die Zeittransformation und eine erste Konsistenztransformation. Ferner verbindet die mittelbare Verknüpfung zwischen dem ersten Zustandsrechenelement und dem dritten Zustandsrechenelement die Zeittransformation und eine zweite Konsistenztransformation. Dabei sind die erste Konsistenztransformation und die zweite Konsistenztransformation unterschiedlich.

Im Falle der Realisierung durch ein neuronales Netz (siehe auch Figurenbeschreibung) entspricht die erste Konsistenztransformation beispielsweise der Transformation mit der Matrix C_≤ und die zweite Konsistenztransformation der Transformation durch die Matrix C_>. In einer anderen Ausführungsform entspricht die erste Konsistenztransformation der durch die Matrizen C und C_≤ gebildeten Transformation und die zweite Konsistenztransformation der durch die Matrizen C und C_> gebildeten Transformation.

Es kann also vorteilhaft sein, wenn die erste Konsistenztransformation und die zweite Konsistenztransformation je eine erste Konsistenztransformationskomponente, beispielsweise gebildet durch die Matrix C, und eine zweite Konsistenztransformationskomponente, gebildet beispielsweise durch die Matrix C_≤ bzw. C_>, aufweisen, wobei die erste Konsistenztransformationskomponente der ersten Konsistenztransformation und die erste Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C, identisch und/oder unveränderlich sind. Dabei sind die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation, beispielsweise gebildet durch die Matrix C_≤, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation, beispielsweise gebildet durch die Matrix C_>, unterschiedlich.

Im Falle der Realisierung durch ein neuronales Netz lässt sich der Zustandsvektor s_t somit wie oben angegeben, in Abhängigkeit der Matrizen C_≤ (zweite Konsistenztransformationskomponente der ersten Konsistenztransformation) und der Matrix C_> (zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation) verändern.

In einer weiteren besonders vorteilhaften Weiterbildung der Erfindung ist die zweite Konsistenztransformationskomponente der ersten Konsistenztransformation in Abhängigkeit der dem System zum früheren Zeitpunkt zugeführten Zustandsgrößen veränderbar, und die zweite Konsistenztransformationskomponente der zweiten Konsistenztransformation ist in Abhängigkeit der dem System zum ersten Zeitpunkt zugeführten Zustandsgrößen veränderbar.

Im Falle der Realisierung durch ein neuronales Netz entspricht der zweiten Konsistenztransformationskomponente der ersten Konsistenztransformation beispielsweise die Matrix C_E. Auch der zweiten Konsistenztransformationskomponente der zweiten Konsistenztransformation entspricht die Matrix C_E. Dabei wird die Matrix C_E in Abhängigkeit der Eingabewerte zum jeweiligen Zeitpunkt verändert.

Vorteilhaft ist es, wenn zumindest ein Teil der Transformationsparameter zur Durchführung der Raumtransformation und/oder ein Teil der Konsistenzparameter zur Durchführung der Konsistenztransformation derart festgelegt sind, dass eine Identitätsabbildung durchführbar ist.

Eine derartige Identitätsabbildung angewendet auf Zustandsvektoren bewirkt, dass nur bestimmte Vektoreinträge gleichsam aus dem Vektor herausgeschnitten werden, wobei gleichzeitig der Vektor in seiner Dimension angepasst werden kann.

Im Falle der Realisierung durch ein neuronales Netz wird die Transformation zur Durchführung der Raumtransformation von einem Eingaberechenelement auf ein Zustandsrechenelement bevorzugt wie folgt definiert:

Die Raumtransformation zur Transformation der Ausgabewerte (Zustandsvektor) der Zustandsrechenelemente auf Ausgaberechenelemente wird vorteilhaft wie folgt definiert:

Vorteilhaft ist es weiterhin, wenn zumindest ein Teil der Ausgaberechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.

Außerdem ist es vorteilhaft, wenn dasjenige Zustandsrechenelement, welches den zeitlich frühesten Zustand repräsentiert, mit einem Startzustand initialisierbar ist, wobei der Startzustand unter Verwendung von Rauschen (noise) ermittelbar ist. Durch Verwendung von Rauschen werden über der Zeit Trajektorien in Form von Röhren gebildet. Die Zeittransformation, im Falle eines neuronalen Netzes gebildet durch die Matrix A wird so trainiert, dass die Unsicherheit des Startzustands bzw. Initialzustands über der Zeit herausgefiltert wird. Endliche Volumentrajektorien (finit volume trajectories) wirken als eine Regularisierung und Stabilisierung der Dynamik.

Vorteilhaft ist dem System auch zum späteren Zeitpunkt Rauschen zuführbar. Dies ist aus folgenden Gründen vorteilhaft: in der Vergangenheit ist der Einfluss von unbekannten externen Größen durch die Fehlerkorrekturwerte modelliert bzw. wird durch diese wiedergegeben. In der Zukunft wird das dyna mische System gegenüber der Unsicherheit der Umwelt stabilisiert. Für eine deterministische Vorhersage (forecast) wird die Anwendung bzw. Eingabe von Rauschen im Anwendungsfall des trainierten neuronalen Netzes bzw. der trainierten Anordnung für zukünftige Zustandsrechelemente ausgelassen. Es kann also vorteilhaft sein, beim Training der Anordnung oder des neuronalen Netzes den Zustandsrechenelementen der Zukunft, beispielsweise dem drittem Zustandsrechenelement, im Training Rauschen hinzuzufügen. Das System wird dadurch "steif" gegenüber den Eingangs- bzw. Eingabewerten. Bei der Anwendung der trainierten Anordnung bzw. des trainierten neuronalen Netzes wird den Zustandsrechenelementen der Zukunft, d.h. Zustandsrechenelementen, für welche gilt t > 0, kein Rauschen zugeführt. Somit wird eine deterministische Mittelwertlösung berechnet.

Die Anordnung umfasst ferner vorteilhaft eine Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen Systems beschrieben werden können.

Bei dem Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit Hilfe eines neuronalen Netzes werden Zustandsgrößen des Systems zu einem ersten Zeitpunkt und zu einem vor dem ersten Zeitpunkt liegenden früheren Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, die in den Transformationsraum transformierten Zustandsgrößen des früheren Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem früheren Zeitpunkt auf den ersten Zeitpunkt transformiert, die in den Transformationsraum transformierten Zustandsgrößen des ersten Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen auf den ersten Zeitpunkt folgenden späteren Zeitpunkt transformiert, und es werden die auf den späteren Zeitpunkt transformierten Zustandsgrößen einer Raumtransformation unterzogen werden, welche die auf den späteren Zeitpunkt transformierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert, wobei die Transformationen unter Verwendung von Transformationsparametern durchgeführt werden, die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformationsraum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei die Transformationsparameter zur Durchführung der Zeittransformation variabel sind. Bei der Transformation der Zustandsgrößen wird dabei vom früheren auf den ersten Zeitpunkt eine erste Konsistenztransformation und die Zeittransformation durchgeführt, und bei der Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt wird eine zweite Konsistenztransformation und die Zeittransformation durchgeführt. Dabei sind die erste Konsistenztransformation und die zweite Konsistenztransformation unterschiedlich.

Vorteilhaft ist es, wenn bei der ersten und zweiten Konsistenztransformation je ein erster Konsistenztransformationsschritt und ein zweiter Konsistenztransformationsschritt durchgeführt wird, wobei der erste Konsistenztransformationsschritt der ersten Konsistenztransformation und der erste Konsistenztransformationsschritt der zweiten Konsistenztransformation identisch sind, und dass der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation unterschiedlich sind.

Im Falle der Realisierung durch ein neuronales Netz wird der erste Konsistenztransformationsschritt jeweils durch die Matrix C gebildet. Der zweite Konsistenztransformationsschritt der ersten Konsistenztransformation wird gebildet durch die Matrix C_≤, und der zweite Konsistenztransformationsschritt der zweiten Konsistenztransformation wird gebildet durch die Matrix C_>.

Das Verfahren wird vorteilhaft eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.

Ferner wird das Verfahren vorteilhaft eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge, oder eines Energiepreises, insbesondere eines Strompreises, oder einer makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.

Andere Einsatzszenarien sind vorstellbar, wie bei ökonomischen Systemen (Finanzdienstleistungen, Banken, Versicherungen) oder Industriesystemen (Produktionssysteme, Industrieanlagen, Logistiksysteme), beispielsweise zu einer Prognose einer makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems, im speziellen zu einer Prognose eines Wechselkursverlaufes oder eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung.

Das Computerprogramm weist Programmcode-Mittel auf, um alle Schritte und/oder Teilschnitte gemäß des oben definierten Verfahrens durchzuführen, wenn das Programm auf einem Computer oder Teile des Programms auf mehreren Computern ausgeführt wird bzw. werden.

Das Computerprogramm weist die oben definierten Programmcodemittel auf, welche auf einem oder mehreren computerlesbaren Datenträgern gespeichert sind.

Das Computerprogrammprodukt weist auf einem maschinenlesbaren Träger gespeicherte Programmcodemittel auf, um alle Schritte und/oder Teilschritte des oben definierten Verfahrens durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

In Anwendungen im industriellen Umfeld können Messanordnungen vorgesehen werden zur Erfassung physikalischer Signale. Mit diesen können Zustände des dynamischen System beschrieben werden. Diese werden dann – gegebenenfalls nach einer Vorverarbeitung – der Anordnung und dem Verfahren als Input zugeführt.

Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
Es zeigen
1a, 1b und 1c Skizzen, die die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik beschreiben (1a: zwei Alternativen des bekannten RNN; 1b: LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCRNN);
2a, 2b und 2c Skizzen, die die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik beschreiben (1a: zwei Alternativen des bekannten ECRNN; 1b: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCECRNN);
3a und 3b Skizzen eines DCRNN (3a) und eines DCECRNN (3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur;
4 Skizze eines DCNN, welches aus dem DCRNN und dem DCECRNN weiterentwickelt ist;
5 eine Skizze einer Anordnung eines TDRNN, welche mit endlich vielen Zuständen über die Zeit entfaltet ist, gemäß dem Stand der Technik;
6 eine Skizze einer zum "overshooting" geeigneten Weiterbildung eines TDRNN gemäß dem Stand der Technik;
7 eine Skizze eines ECRNN mit grundlegenden funktionalen Beziehungen gemäß dem Stand der Technik;
8 eine Skizze einer allgemeinen Beschreibung eines dynamischen Systems;
9 Skizze eines modifizierten DCNN mit einer modifizierten "Consistency Matrix", bei welchem bekannte zukünftige Informationen berücksichtigbar sind;
10 Skizze eines modifizierten DCNN mit akkumulierten Ausgangsneuronen;
11a und 11b zeigen die Herleitung eines neuronalen Netzes zur Modellierung der Dynamik von beobachtbaren Größen bzw. Beobachtbaren;
12 zeigt ein dynamisch konsistentes rekurrentes neuronales Netzwerk (DCRNN) mit unterschiedlichen Konsistenztransformationen;
13 zeigt ein dynamisch konsistentes fehlerkorrigierendes neuronales Netzwerk (DCECNN) mit unterschiedlichen Konsistenztransformationen;
14 zeigt ein dynamisch konsistentes rekurrentes fehlerkorrigierendes neuronales Netzwerk (DRECNN) gemäß einem ersten Realisierungsbeispiel;
15 zeigt ein dynamisch konsistentes rekurrentes fehlerkorrigierendes neuronales Netzwerk (DCRECNN) gemäß einem zweiten Realisierungsbeispiel;
16 zeigt eine allgemeine Struktur eines dynamisch konsistenten neuronalen Netzwerks in Übereinstimmung mit dem ersten Realisierungsbeispiel;
17 zeigt ein dynamisch konsistentes neuronales Netzwerk mit teilweise bekannten beobachtbaren Größen;
18 zeigt ein dynamisch konsistentes neuronales Netzwerk mit einem initialisierten Startzustand;
19A zeigt die Initialisierung mit Rauschen und
19B zeigt eine röhrenförmige Trajektorie, welche sich auf Grund der Initialisierung in 19A ergibt;
20 zeigt ein dynamisch konsistentes neuronales Netzwerk, bei dem zukünftigen Zustandsrechenelementen bzw. Zuständen Rauschen hinzugefügt wird;
21 verdeutlicht, wie die Dimension der Zustandsrechenelemente bzw. Zustandsvektoren dimensionierbar ist;
22 zeigt Simulationsergebnisse zur Dimensionierung des Zustandsvektors gemäß 21;
23a, 23b und 23c zeigen Skizzen, welche Beispiele von DCNN für eine Prognose eines US-Dollar/Brit. Pfund – Wechselkursverlaufes (23a), einer Bargeld-Zu- bzw. Abflussentwicklung (23b), einer Stromlastentwicklung (23c) zeigen.
Bei den im folgenden beschriebenen Figuren sowie den im folgenden anhand der Figuren beschriebenen Ausführungsbeispielen werden allgemein übliche und für den Fachmann verständliche Bezeichnungen und Symbole aus dem Gebiet der Neuroinformatik und Neurostatistik verwendet. Weitere Bezeichnungen ergeben sich aus dem im obigen beschriebenen Standes der Technik.
Wie bereits oben erwähnt, handelt es sich bei der Erfindung um eine Weiterentwicklung bzw. Veränderung von aus [7] bekannten Strukturausführungsbeispielen oder Architekturen neuronaler Netze. Die 1a bis 10 entsprechen den Figuren gleicher Nummerierung aus [7]. Es werden nun zunächst die aus [7] bekannten Strukturen und Ausführungsbeispiele beschrieben und im Anschluss daran die 11 bis 23.
Struktur-Ausführungsbeispiele: "Dynamical Consistent Recurrent Neural Networks" (1, 3a), "Dynamical Consistent Error Correction (Recurrent) Neural Networks" (2, 3b), "Dynamical Consistent Neural Networks (DCNN) (4).
In den 1a, 1b und 1c ist die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik dargestellt (1a: zwei Alternativen des bekannten RNN; 1b; LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCRNN).
1a, Alternative 1 (Forward Approach/Forward Formulation) und Alternative 2 (Backward Approach/Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen gemäß einem über 5 Zeitpunkte t-2, t-1, t, t+1, t+2 entfalteten TDRNN bzw. RNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: st+1 = f(st, ydt , udt ) und yt = g(st)
Für Alternative 2 gilt: st = f(st-1, udt ) und yt = g(st)
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
1b zeigt eine verbesserte Struktur, ein so genanntes "Large Recurrent Neural Network" (LRNN), welches aus den alternativen Strukturen aus 1a entwickelbar ist.
So werden im Übergang der Strukturen aus 1a zu der Struktur aus 1b die ursprünglichen drei anpassbaren Verbindungsmatrizen A, B, und C durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s. Diese weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und C sind in 1b angegeben. Die sich dabei ergebenden neuen Verbindungsmatrizen [Id, 0] bzw. [Id, 0]^T weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in 1b gezeigte Struktur gilt: st = f(st-1, ydt , udt ) und yt = [Id, 0]st
Indem die Matrix B durch
ersetzt wird, wird die Verarbeitung der Eingabegröße auf die Matrix A übertragen. Für lineare Systeme s_t = As_t-1 + Bu_t kann durch eine Zustandsraum-Transformation (Ts_t) = TAT^-1(Ts_t-1) + TBu_t die Matrix B mit B = [B_r, B_q]^T in [0, Id]^T umgewandelt werden. Unter der Annahme, dass für die Matrix B dim(s) > dim(u) gegeben ist, kann T so gewählt werden, dass:
Indem die Matrix C durch
ersetzt wird, werden die Ausgabegrößen mit den versteckten Schichten s für die ersten Zeitpunkte identifiziert. Wenn dims) > dim(u) + dim(y) gilt, so beeinflussen die externen Eingabegrößen u die Ausgabegrößen y nur indirekt an dem nächsten Zeitpunkt s. Wenn s_τ ∊(-1, + 1) gilt, so kann es nötig sein C = [c·Id, 0] zu verwenden, um die Aufgabegrößen zu skalieren. Adaptive Parameter sind nur in der Matrix A enthalten, welche als schwach besetzte Matrix gewählt werden kann. Analoge Überlegungen lassen sich zu den Ausführungsformen in den 11 bis 22 anstellen.
1c zeigt die aus 1b entwickelte weiter verbesserte Struktur, ein so genanntes "Dynamical Consistent Recurrent Neural Network" (DCRNN).
Das dargestellte DCRNN ist entsprechend vorheriger Strukturen ein über die 5 Zeitpunkte t-2, t-1, t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Matrizen [Id, 0]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t-2, s_t-1, s_t, s_t+1 und s_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Ferner weist das DCRNN zwei Rechenschichten "tanh" auf, welche in dargestellter Weise mit jeweils zwei aufeinander folgenden versteckten Schichten, in diesem Fall s_t und s_t+1 bzw. s_t+1 und s_t+2, verbunden sind.
Der für die Vergangenheit zuständige Teil des Netzes wird durch alle Eingabegrößen angeregt. Durch die Ausgestaltung der Ausgabe liegen Prognosen für alle Eingabegrößen vor, wodurch es möglich wird, diese Prognosen dem Netz als zukünftige Eingabegrößen zuzuführen. Da es sich um mehrere Prognosen handelt, ist dieses Vorgehen nur in großen Netzen möglich. In dieser Ausgestaltung erfüllt die Matrix A immer den gleichen Zweck: sie moduliert die Dynamik.
In den 2a, 2b und 2c ist – entsprechend zum DCRNN bzw. RNN und den 1a, b und 1c – die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik dargestellt (1a: zwei Alternativen des bekannten ECRNN; 1b: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCECRNN).
2a, Alternative 1 (Forward Formulation) und Alternative 2 (Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen gemäß einem über 4 Zeitpunkte t-1, t, t+1, t+2 entfalteten ECRNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: s_t+1 = f(s_t, u d / t, y_t – y d / t) und y_t = g(s_t). Für Alternative 2 gilt: s_t = f(s_t-1, u d / t, y_t-1 – y d / t-1) und y_t = g(s_t).
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
2b zeigt eine verbesserte Struktur, ein so genanntes "Large Error Correction Recurrent Neural Network" (LECRNN), welches aus den alternativen Strukturen aus 2a entwickelbar ist.
So werden im Übergang der Strukturen aus 2a zu der Struktur aus 2b die ursprünglichen vier anpassbaren Verbindungsmatrizen A, B, C und D durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s in unmittelbarer Weise wie auch im Fall der Zeitpunkte t und t+1 in mittelbarer Weise. Hierbei ist nach Durchführung der Zeittransformation von t auf t+1 ein innerer Zustand Id(t+1) zwischengeschaltet, welcher nachfolgend durch eine Matrix, einer Konsistenzmatrix, welche eine Identitätsmatrix Id beinhaltet, auf den Zustand s(t+1) transformiert wird. Die Zeittransformation allerdings wurde aber bereits mit der Transformation durch die Matrix A im ersten Schritt durchgeführt, so dass der Zustand Id(t+1) schon dem nächsten Zeitschritt t+1 gegenüber t zugehörig ist.
Die Zeittransformationsmatrix A weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und D sind in 2b angegeben. Die sich dabei ergebenden neuen Verbindungsmatrizen [Id, 0] bzw. [-Id, 0]^T weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in 2b gezeigte Struktur gilt s_t = f(s_t-1, u d / t, y_t – y d / t) und y_t = [Id, 0]s_t. Durch Wahl der Matrix C mit
werden die Ausgabegrößen mit den Versteckten Schichten s für die ersten Zeitpunkte identifiziert. Im Gegensatz zum RNN wird hier die Anpassung zur Skalierung der Ausgabe intern vorgenommen. Durch Wahl der Matrix B mit
wird die Verarbeitung der Eingabe zu einem Teil der Matrix A. Eine Fehlerkorrektur ist implizit in dieser Struktur realisiert durch die Interaktion der spezialisierten Matrixen A, B und C sowie durch das Training der Zero-Neuronen mit dem Ziel z_t → 0. Für die Zukunft ist keine Fehlerkorrektur verfügbar, weshalb die Fehlerkorrektur gefiltert wird. Der zwischengeschaltete Filter setzt die Annahme um, dass die Prognosen richtig sind (Fehler = 0).
2c zeigt die aus 2b entwickelte, weiter verbesserte Struktur, ein so genanntes "Dynamical Consistent Error Correction Recurrent Neural Network" (DCECRNN).
Das dargestellte DCECRNN ist entsprechend vorheriger Strukturen ein über die 4 Zeitpunkte t-1, t, t+1 und t+2 entwickeltes RNN. Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Matrizen [-Id, 0]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t-2, s_t-1, s_t, s_t+1 und s_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z_t-1 und z_t mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)_t+1, (y, u)_t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwischenschichten Id_t+1 und Id_t+2.
Für die in 2c gezeigte Struktur gilt s_t = f(s_t-1, u_t – u d / t, y_t – y d / t) und
In dieser Struktur findet eine Erweiterung gemäß dim(z) = dim(y) + dim(u) statt. Die Konsistenzmatrix hat die gleiche Anzahl an Nullen in der ersten Hälfte ihrer Diagonale. Dadurch wird eine dynamisch konsistente Modellierung aller Eingabevariablen erreicht. In dieser Ausführung erfüllt die Matrix A immer den gleichen Zweck: sie modelliert die Dynamik. Eine Besonderheit dieser Struktur besteht darin, dass das Netz intern von den vorgegebenen Eingabegrößen abweichen kann – dies ist eine rekurrente Umsetzung des "Cleaning"-Prinzips.
In den 3a und 3b sind das DCRNN (3a) und das DCECRNN (3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur dargestellt.
Die Grundstruktur umfasst in beiden Fällen die Eingangschicht (y, u)^d _t, welche mit der versteckten Schicht s_t verbunden ist, sowie die Ausgangsschicht (y, u)_t+1, welche mit der versteckten Schicht s_t bzw. versteckten Zwischenschicht Id_t+1 verbunden ist.
Die beiden versteckten Schichten sind über die Verbindungsmatrix A, welche insbesondere geeignet ist die innere Dynamik des modellierten Systems zu beschreiben und welche die Zeittransformation vom Zeitpunkt t auf den Zeitpunkt t+1 ausführt, verbunden.
RNNs beschreiben die fragliche Dynamik auf Grundlage der beobachtbaren Variablen und eignen sich somit besonders gut für eine Dynamik mit glattem Verlauf.
ECNNs beschreiben eine Dynamik durch eine interne Erwartung und die Abweichung zu den beobachtbaren Variablen. Sie eignen sich besonders gut für Dynamiken für einen unruhigen Verlauf. Beide Ansätze sind dynamisch konsistent. Es stellt sich die Aufgabe, eine Struktur zu finden, welche beide Aspekte vereint.
In 4 ist eine Weiterentwicklung des DCRNN und des DCECRNN, ein so genanntes "Dynamical Consistent Neural Network" (DCNN), dargestellt.
Das dargestellte DCNN ist ein über die 5 Zeitpunkte t-2, t-1,t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t-2, t-1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über Matrizen [-Id, 0, Id]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t-2, s_t-1, s_t, Id_t+1, s_t+1 und Id_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t-1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z_t-1 und z_t mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)_t+1, (y, u)_t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwischenschichten Id_t+1 und Id_t+2.
Die Verbindungen zwischen den versteckten Schichten entsprechen im wesentlichen denen aus 3b. Allerdings ist die Konsistenzmatrix zwischen den versteckten Schichten Id_t+1 und s_t+2 wie in 4 angegeben verändert.
Die in 4 gezeigte Struktur vereint die beiden Arten der Prognose, die den 3a und 3b zugrunde liegen und die entsprechend für RNNs und ECNNs angesprochen wurden. Die Eingabegrößen werden den versteckten Schichten s mit den ersten Zeitpunkten zur Durchführung der Fehlerkorrektur zugeführt. Sie werden ebenfalls den versteckten Schichten s mit den letzten Zeitpunkten zugeführt, um die Rolle regulärer Eingabegrößen zu übernehmen, wie dies in einem RNN stattfindet. Die Konsistenzmatrix garantiert dynamische Konsistenz für beide Strukturen. Die den versteckten Schichten s (in der Zukunft der versteckten Zwischenschicht Id) vorgeschalteten, durch einen Pfeil angezeigten Verbindungen regeln alle Offsets.
Weiterführende Struktur-Ausführungsbeispiele: "DCNN mit modifizierter Consistency Matrix" (9), "DCNN mit akkumulierten Ausgangsneuronen" (10).
In 9 ist ein modifiziertes DCNN dargestellt, bei welchem verfügbare zukünftige Information, hier u^d _t+1 und u^d _t+2, beispielsweise bekannte Kalenderinformation, berücksichtigbar ist.
Diese modifizierte Struktur weist Änderungen (gegenüber dem DCNN) bei der Konsistenzmatrix auf.
Weiter weist die modifizierte Struktur zwei weitere Teileingangsschichten auf, (0, u^d _t+1) und (0, u^d _t+2), welche mit den versteckten Zwischenschichten Id_t+1 und Id_t+2 in obiger beschriebener Weise verbunden sind.
Die zukünftigen Eingabevektoren enthalten Elemente mit der verfügbaren Information. Alle unbekannten Komponenten werden auf 0 gesetzt. Die Matrizen, welche die Eingangsteilschichten mit den jeweils zeitpunktgleichen versteckten Schichten s verbinden, sind unveränderlich und für alle Zeitpunkte gleich.
Aus 9 geht hervor, dass die geänderte Konsistenzmatrix Teilmatrixen D aufweist. Für diese Diagonalen Teilmatrixen gilt:
In 10 ist ein weiteres modifiziertes DCNN dargestellt, bei welchem die Ausgangsschichten miteinander verbunden sind, wodurch die Ausgangsgrößen akkumulierbar sind.
Um längerfristige Prognosen durchführen zu können ist das in 10 dargestellte modifizierte DCNN über die Zeitpunkt t-1 bis t+4 entfaltet.
Diese modifizierte Struktur weist insgesamt vier Ausgangschichten auf, die über die Identitätsmatrix Id miteinander wie dargestellt verbunden sind.
An den Ausgangsschichten, die wie obig beschrieben über die Verbindungsmatrizen [Id, 0] mit den zugehörigen versteckten Schichten verbunden sind, sind Zustände ln(y_t+1/y_t), ln(y_t+2/y_t), ln(y_t+3/y_t) und ln(y_t+4/y_t) abgreifbar.
Ferner weist diese Struktur zwei Eingangsschichten auf, an welchen die Zustände (u^d _t-1, ln(y^d _t-1/y^d _t-2)) und (u^d _t, ln(y^d _t/y^d _t-1)) anlegbar sind.
Die in 10 gezeigte Struktur verzichtet darauf, Langzeitprognosen durch wiederholte Bündel von Verbindungen zu unterstützen. Statt dessen wurde eine unveränderliche Identität zwischen den unterschiedlichen Prognose-Horizonten hinzugefügt.
Im Folgenden wird die Weiterentwicklung der oben beschriebenen dynamisch konsistenten rekurrenten neuronalen Netze anhand der 11 bis 23 beschrieben. Es sei an dieser Stelle darauf hingewiesen, dass Prinzipien oder Elemente einzelner Ausführungsformen, welche oben beschrieben wurden, mit Elementen oder Ausführungsformen, wie sie im Folgenden beschrieben werden, kombinierbar sind. Ebenso sind Elemente einzelner im Folgenden beschriebenen Ausführungsformen miteinander kombinierbar. Insbesondere lassen sich auch oben genannte Vorteile in analoger Art auf die folgenden Ausführungsformen übertragen.
11a zeigt eine ähnliche Weiterbildung wie 1b von der neuronalen Struktur aus 1a. Dabei sind jedoch die Raumtransformationen von Eingaberechenelementen zu der Eingangsschicht zu Zustandsrechenelementen der versteckten Schicht gemäß oben definierter Gleichung (7) festgelegt. Ferner ist die Raumtransformation von Zustandsrechenelementen der versteckten Schicht zu Ausgaberechenelementen der Ausgabeschicht gemäß der oben definierten Gleichung (8) festgelegt. Dadurch werden die Ausgänge des neuronalen Netzes jeweils mit den ersten Zustandsvariablen des Zustandsvektors s_t identifiziert. Somit werden alle Parameter bei dem Back Propagation (Lernalgorithmus zum Training des neuronalen Netzes) gleich behandelt. Die oberen oder ersten Elemente des Zustandsvektors s_t entsprechen jeweils den Ausgabewerten, die von den Ausgaberechenelementen y_t ausgegeben werden.
In Gleichung (7) und (8) bezeichnet "Id" eine Identitätsabbildung bzw. Identitätsmatrix. Die Dimension der Identitätsmatrix in Gleichung (7) entspricht dabei der Dimension des Eingangsvektors u_t. Die Dimension der Identitätsmatrix in Gleichung (8) entspricht der Dimension des Ausgabevektors bzw. Ausgangsvektors bzw. der Dimension der Ausgaberechenelemente y_t.
Mit u_t werden in 11a Einflussgrößen gekennzeichnet und mit y_t Zielgrößen. y d / t kennzeichnet beobachtbare Werte bzw. "Beobachtbare" (observables). In 11b sind in y d / t die beobachtbaren Größen zusammengefasst, das heißt die bekannten Einflussgrößen und die bekannten Zielgrößen (Trainingswerte). An den Ausgangsneuronen bzw. Ausgaberechenelementen y_t werden die Erwartungswerte bzw. Vorhersagen für die Zielgrößen und/oder Einflussgrößen ausgegeben.
Die folgenden Gleichungen (9) bis (11) beschreiben die Netzwerkarchitektur aus 11a:
t > 0: st = tanh(Ast-1 + c) (10)
Das folgende Gleichungssystem (12) bis (14) beschreibt die Netzwerkarchitektur aus 11b:
t > 0: st = tanh(Ast-1 + c) (13)
12 zeigt eine erste Eingabeneuronenschicht E1 als erstes Eingaberechenelement, eine zweite Eingabeneuronenschicht E2 als zweites Eingaberechenelement, eine erste Zustandsneuronenschicht Z1 als erstes Zustandsrechenelement, eine zweite Zustandsneuronenschicht Z2 als zweites Zustandsrechenelement, eine dritte Zustandsneuronenschicht Z3 als drittes Zustandsrechenelement und erste bis dritte Ausgabeneuronenschichten A1, A2 bzw. A3. Dabei bildet die dritte Ausgabeneuronenschicht A3 das dritte Zustandsrechenelement im Sinne obiger Definition.
Dabei ist die zweite Zustandsneuronenschicht Z2 mit der ersten Zustandsneuronenschicht Z1 über eine erste mittelbare Verbindung Z2-Z1 verbunden. Die erste Zustandsneuronenschicht Z1 ist mit der dritten Zustandsneuronenschicht Z3 über eine zweite mittelbare Verbindung Z1-Z3 verbunden.
Dabei wird die erste mittelbare Verbindung Z2-Z1 durch eine Zeittransformation mittels der Matrix A und eine erste Konsistenztransformation C_≤ gebildet. Die zweite mittelbare Verbindung Z1-Z3 wird durch die Zeittransformation mittels der Matrix A, im Folgenden bezeichnet als Zeittransformation A, und eine zweite Konsistenztransformation C_> gebildet.
Bei der in 12 gezeigten Ausführungsform gilt:
Die erste mittelbare Verbindung Z2-Z1 für t ≤ 0 ist somit unterschiedlich zu der zweiten mittelbaren Verbindung Z1-Z3 für t > 0. Durch die Wahl der Matrizen C_≤ und C_> wie in den Gleichungen (15) und (16) angegeben, wird sichergestellt, dass die Rekursion in der Vergangenheit für t ≤ 0 und in der Zukunft für t > 0 im gleichen Bereich bzw. der gleichen Partition des Zustandsvektors wirkt. Durch die unterschiedliche Wahl der Matrizen C_≤ und C_> ergibt sich insbesondere eine Vereinfachung der in 1c gezeigten Architektur. Wie man bei einem Vergleich der 12 und 1c erkennen kann, entfallen für t > 0 zusätzliche Neuronenschichten (in 1c mit "tanh" gezeichnet).
Der Zustandsvektor s_t ist gegeben durch Gleichung (5).
Die Netzwerkarchitektur aus 12 kann durch das folgende Gleichungssystem beschrieben werden:
13 zeigt eine weitere Ausführungsform der Erfindung, bei der gegenüber der Ausführungsform in 12 eine Fehlerkorrektur gemäß dem Prinzip der fehlerkorrigierenden neuronalen Netze möglich ist. Dabei ist die erste Konsistenztransformation C_≤ wie folgt definiert:
Die zweite Konsistenztransformation C_> ist wie folgt definiert:
Der Zustandsvektor s_t ist gegeben durch Gleichung (6).
Die Netzwerkarchitektur gemäß der Ausführungsform von 13 kann durch folgendes Gleichungssystem beschrieben werden:
Bei der Ausführungsform aus 13 ist sichergestellt, dass die gebildete Rekursion sowohl in der Vergangenheit, das heißt für t ≤ 0, als auch in der Zukunft, das heißt für t > 0 auf dem gleichen Bereich des Zustandsvektors s_t wirkt.
Die Fehlerkorrektur wird in 13 sichergestellt durch das untere linke Element in der Matrix C_≤ "-Id". Da im Zustandsvektor im unteren Bereich jeweils die Eingangswerte zum jeweiligen Zeitpunkt liegen, werden diese mit "-1" auf Grund der Matrix "-Id" (unteres linkes Element der Matrix C_< multipliziert. Wie Gleichung (22) zeigt, wird auf den unteren Bereich des Zustandsvektors s_t für t≤ die Eingangsgröße y d / t addiert. Somit ergibt sich das Prinzip der Fehlerkorrektur.
14 zeigt eine weitere Ausführungsform der Erfindung gemäß einem ersten Realisierungsbeispiel. Dabei ist ein dyna misch konsistentes rekurrentes fehlerkorrigierendes neuronales Netz gezeigt, das mit folgendem Gleichungssystem beschrieben werden kann:
Die erste Konsistenztransformation C_≤ ist gegeben durch Gleichung (15) und die zweite Konsistenztransformation C_> ist gegeben durch Gleichung (16).
Bei der in 14 gezeigten Ausführungsform ist der Zustandsvektor s_t gegeben durch Gleichung (5).
15 zeigt eine weitere Ausführungsform der Erfindung gemäß einem zweiten Realisierungsbeispiel. Bei dem zweiten Realisierungsbeispiel handelt es sich um eine alternative Architektur zu der Architektur des ersten Realisierungsbeispiels aus 14.
Die Architektur aus 15 kann beschrieben werden durch folgendes Gleichungssystem:
Der Zustandsvektor s_t ist bei der in 15 gezeigten Ausführungsform gegeben durch Gleichung (6). Die erste Konsistenztransformation C_≤ ist gegeben durch Gleichung (20) und die zweite Konsistenztransformation C_> ist gegeben durch Gleichung (21).
Bei den jeweils gezeigten Architekturen ist zu beachten, dass die Berechnung eines Folgezustandes des Systems jeweils von den durch den Zustandsvektor s_t gegebenen Größen abhängt. Dabei ist die Abhängigkeit für Zeitpunkte für die t ≤ 0 gilt unterschiedlich als für Zeitpunkte für die t > 0 gilt. Dies ergibt sich auch anhand der Gleichungen (5) und (6). Für t ≤ 0 werden im unteren Bereich des Zustandsvektors s_t gemäß Gleichung (5) Beobachtungswerte bzw. Observations und gemäß Gleichung (6) Fehlerkorrekturwerte bzw. Error Correction Werte verwendet. Für t > 0 werden in Gleichung (5) im unteren Bereich Erwartungswerte bzw. Expectations verwendet und gemäß Gleichung (6) Null bzw. Zero (vgl. geschweifte Klammer in Gleichungen (5) und (6)).
16 zeigt eine allgemeine Struktur gemäß der vorliegenden Erfindung. Die gezeigte Struktur in 16 kann mit folgenden Gleichungssystem beschrieben werden:
Bei der Struktur bzw. Architektur in 16 ist die erste Konsistenztransformation C_≤ gegeben durch Gleichung (15) und die zweite Konsistenztransformation C_> durch Gleichung (16).
Bei den Ausführungsformen der 14, 15 und 16 wird die erste Konsistenztransformation und zweite Konsistenztransformation durch je zwei Konsistenztransformationskomponenten gebildet.
Die erste mittelbare Verbindung Z2-Z1 und die zweite mittelbare Verbindung Z1-Z3 bestehen somit jeweils aus drei Transformationen. Zunächst erfolgt jeweils eine Transformation mit einer Matrix C und anschließend die Zeittransformation mit der Matrix A. Darauf folgt für t ≤ 0 eine Transformation mit der Matrix C_≤ und für t > 0 eine Transformation mit der Matrix C_>. Die Matrix C_≤ und die Matrix C_> sind dabei unterschiedlich und je nach Ausführungsform wie oben angegeben definiert.
Je nach Ausführungsform verändert sich die Matrix C. Für die Ausführungsformen in den 14 und 16 ist die Matrix C gegeben durch:
Für die Ausführungsform aus 15 ist die Matrix C gegeben durch:
Bei der Matrix C handelt es sich um die erste Konsistenztransformationskomponente im Sinne der Erfindung und C_≤ bzw. C_> bildet jeweils die zweite Konsistenztransformationskomponente. Bei dem erfindungsgemäßen Verfahren ist mittels der Matrix C der erste Konsistenztransformationsschritt durchführbar und mittels der Matrix C_≤ bzw. C_> jeweils der zweite Konsistenztransformationsschritt.
17 zeigt eine weitere Ausführungsform der Erfindung, bei der die erste und zweite Konsistenztransformation jeweils gebildet wird durch eine Matrix C_E. Die Matrix C_E ist gegeben durch folgende Gleichung:
Die Architektur aus 17 lässt sich somit mittels folgendem Gleichungssystem beschreiben:
In 17 wird somit zwischen der Vergangenheit (t ≤ 0) und der Zukunft (t > 0) nicht mehr unterschieden. Statt dessen wird modelliert, ob ein Eingang bzw. Eingangswert vorhanden ist oder nicht. Die Transformation mit der Matrix C in 17 ist definiert durch Gleichung (35). Das heißt, der erste Teil der Konsistenztransformation, gebildet durch die erste Konsistenztransformationskomponente C ist unabhängig von dem Vorhandensein bzw. Vorliegen eines Eingangs. Dagegen ist die zweite Konsistenztransformationskomponente, im Falle der Ausführungsform von 17 gegeben durch die Matrix C_E, abhängig vom Vorliegen eines Eingangswerts und damit im Allgemeinen für jeden Zeitpunkt unterschiedlich.
18 zeigt eine Ausführungsform der Erfindung, mit einem Startzustand S die Initialisierung des Startzustands S erfolgt dabei so, dass die Interpretation der Zustandsrekursion über der Zeit konsistent ist. Das Prinzip des Zustandsinitialisierungsverfahrens ist für alle Typen bzw. Arten von dynamisch konsistenten neuronalen Netzwerken identisch.
Die Architektur in 18 kann beschrieben werden durch folgendes Gleichungssystem:
19a zeigt eine Ausführungsform, bei der der Startzustand S unter Verwendung von Rauschen erzeugt wird. Durch das Rauschen werden die in 19b gezeigten Trajektorien in Form von Röhren erzeugt. Die Matrix A wird dabei so trainiert, dass die Unsicherheit des Start- bzw. Initialzustands über die Zeit herausgefiltert wird. Endliche Volumentrajektorien wirken als eine Regularisierung und Stabilisierung der Dynamik des Systems.
20 zeigt ein Ausführungsbeispiel der Erfindung, bei welchem dem System Rauschen in Zustandsneuronenschichten bzw. Zustandsrechenelementen zugefügt wird, welche Zeitpunkte repräsentieren, für die t > 0 gilt. Die Architektur in 20 ist vorteilhaft, da für die Vergangenheit, das heißt für t ≤ 0, der Einfluss von unbekannten externen Größen durch den Fehlerkorrekturmechanismus modelliert wird. In der Zukunft wird die Dynamik des Systems gegenüber der Unsicherheit der Umwelt durch das hinzugefügte Rauschen stabilisiert. Für eine deterministische Vorhersage wird die Anwendung von Rauschen ausgelassen.
21 zeigt ein Beispiel zur Bestimmung der Dimension des Zustandsvektors s_t. In dem Beispiel von 21 sind drei Zustandsneuronenschichten vorhanden, so dass sich eine Gedächtnislänge μ von 3 ergibt, das heißt es gilt μ = 3. Allgemein ist die Gedächtnislänge μ bestimmt durch die Fehler entlang des Entfaltens (unfolding).
Eine maximale Konnektivität con ist gegeben durch die Dimension des Zustandsvektors s_t einer vollständig vernetzten Matrix A.
Es gilt somit con = dim(s), wobei die Dimension dim(s) von s_t als Schätzung bestimmt wird. Sie kann auch während des Trainings oder Prunings (Ausdünnen) des Netzes gemessen werden.
Anstatt der Optimierung des Spärlichkeitsniveaus bzw. Sparse-Niveaus der Matrix A wird das dynamische System neu festgelegt durch Vergrößern der Dimensionalität. Die neue Dimension für die Zustandsvektoren ergibt sich mittels folgender Gleichung: dim(snew) = μ·con (42)
Dabei wird die neue Matrix A_neu mittels folgender Gleichung initialisiert:
Das Vergrößern der Dimension überwindet das Dilemma zwischen Gedächtnis und Rechenleistung, da das resultierende große Netz beide Merkmale kombinieren kann.
Die 22a bis 22c zeigen Simulationsergebnisse hinsichtlich der Optimierung der Dimension der Zustandsvektoren. Dabei gelten folgende Test- bzw. Trainingsbedingungen: st = tanh(A·st-μ) + εt (44) mit: dim(s) = con = 5, μ = 3, εt = noise 20 % (45)
Anwendungs-Ausführungsbeispiele: "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund)" (23a), "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung" (23b), "Prognose einer Stromlastentwicklung" (23c).
In den 23a, 23b und 23c sind Beispiele für die Anwendung der erfindungsgemäßen neuronalen Strukturen und deren Ergebnisse angegeben. Es ist darauf hinzuweisen, dass die angegebene Beispiele nicht einschränkend zu verstehen sind. Die Erfindung kann unbeschränkt dort eingesetzt werden, wo dynamische System beschrieben werden sollen, beispielsweise zu einer Prognose.
Die Beispiele wurden mit dem Programm SENN, Version 2.3 durchgeführt.
23a zeigt ein DCNN mit akkumulierten Ausgängen (s. Struktur 23) für eine "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund). 23b zeigt ein DCNN für eine "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung". 23c zeigt ein DCNN für eine "Prognose einer Stromlastentwicklung".
Dargestellt sind in den 23a, 23b und 23c jeweils die verwendete neuronale Struktur sowie Zeitverläufe der jeweiligen Prognosegröße.
Es sei noch angemerkt, dass sämtliche beschriebenen Ausführungsformen sowohl gemäß dem oben beschriebenen Forward- als auch gemäß dem Backward-Approach realisierbar sind.
Im folgenden werden Aspekte und Vorteile der Erfindung noch einmal zusammengefasst:
Konventionelle Prognoseverfahren gehen davon aus, dass die Umweltbedingungen des zu beschreibenden Systems in der Zukunft konstant bleiben. Diese Prämisse ist gerade in der heutigen Zeit durch Fortschritte im Bereich der Informations- und Kommunikationstechnologie bei der Modellierung von offenen technischen oder ökonomischen dynamischen Systemen immer fragwürdiger und führt zu schlechten Prognosen. Eine Modellierung die dieser Tatsache Rechnung trägt führt zu großen rekurrenten neuronalen Netzwerken. Um Instabilitäten in der Modellierung zu vermeiden, ist auf räumliche und zeitliche Konsistenz zu achten, d. h., die einzelnen beschreibenden Variablen müssen in Vergangenheit, Gegenwart und Zukunft stets die gleiche Bedeutung haben.
Bisher wurde in der Zeitreihenanalyse bei der Prognose die Annahme einer konstanten Umwelt unterstellt.
In obiger Beschreibung wurden mehrere Architekturen von neuronalen Netzen vorgestellt, die die oben genannten Kriterien erfüllen. Der konsistente Informationsfluss wird durch die so genannten Konsistenzmatrizen erreicht.
Die großen rekurrenten neuronal Netze (Netze mit periodischem Aufbau zu verschiedenen Zeitschritten) erlauben es, technische und ökonomische Zusammenhänge mit 400 Zustandsvariablen oder mehr zu beschreiben. So können nicht nur präzisere Analysen dynamischer Systeme durchgeführt werden, sondern es wird auch die Prognose der weiteren Systementwicklung verbessert.

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall, Second Edition, ISBN 0-13-273350-1, S. 732-789, 1999.
[2] David E. Rumelhart et al., Parallel Distributed Processing, Explorations in the Microstructure of Cognition, Vol. 1: Foundations, A Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England, 1987
[3] H. Rehkugler und H. G. Zimmermann, Neuronale Netze in der Ökonomie, Grundlagen und finanzwirtschaftliche Anwendungen, Verlag Franz Vahlen München, ISBN 3-8006-1871-0, S. 3-90, 1994.
[4] WO00/08599.
[5] WO00/55809 und WO02/27654.
[6] Zimmermann H.G., Neuneier R., Grothmann R., Modelling of Dynamic Systems by Error-Correction-Neural-Networks, in Soofe and Cao (Eds.), Forecasting Financial Data, Kluwer Verlag, ISBN 0792376803, 2002.
[7] DE 10356655.4

Claims

Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechenelementen eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren, mit: – wenigstens einem ersten Eingaberechenelement (E1), welchem Zustandsgrößen (y d / t) des Systems zu einem ersten Zeitpunkt (t) in einem Zustandsraum zuführbar sind, – wenigstens einem zweiten Eingaberechenelement (E2), welchem Zustandsgrößen (y d / t) des Systems zu einem früheren Zeitpunkt (t-1) in einem Zustandsraum zuführbar sind, wobei der frühere Zeitpunkt (t-1) vor dem ersten Zeitpunkt (t) liegt, – wenigstens einem ersten Zustandsrechenelement (Z1), welches den Systemzustand zum ersten Zeitpunkt (t) in einem Transformationsraum repräsentiert, – wenigstens einem zweiten Zustandsrechenelement (Z2), welches den Systemzustand zum früheren Zeitpunkt (t-1) im Transformationsraum repräsentiert, – wenigstens einem dritten Zustandsrechenelement (Z3), welches den Systemzustand zu einem auf den ersten Zeitpunkt (t) folgenden späteren Zeitpunkt (t+1) im Transformationsraum repräsentiert, – wobei zwischen Zustandsrechenelementen, welche Systemzustände zu aufeinander folgenden Zeitpunkten repräsentieren, eine Zeittransformation (A) von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar ist, – und mit wenigstens einem Aungaberechenelement (A3), an welchem Zustandsgrößen (y_t) des Systems zum späteren Zeitpunkt im Zustandsraum abgreifbar sind, wobei – das erste Eingaberechenelement (E1) mit dem ersten Zustandsrechenelement (Z1) und das zweite Eingaberechenele ment (E2) mit dem zweiten Zustandsrechenelement (Z2) verknüpft sind, wobei durch die Verknüpfungen jeweils eine Raumtransformation aus dem Zustandsraum in den Transformationsraum durchführbar ist, – das Ausgaberechenelement (A3) mit dem dritten Zustandsrechenelement (Z3) verknüpft ist, wobei durch die Verknüpfung eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar ist, – die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, – die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei – die Transformationsparameter zur Durchführung der Zeittransformation variabel sind, dadurch gekennzeichnet, dass – die Verknüpfung zwischen zwei Zustandsrechenelementen eine mittelbare Verknüpfung (Z2-Z1, Z1-Z3) ist, welche wenigstens eine Konsistenztransformation (C_≤, C_>, C) und die Zeittransformation (A) umfasst, und dass – die mittelbare Verknüpfung (Z2-Z1) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Z1), und die mittelbare Verknüpfung (Z1-Z3) zwischen dem ersten Zustandsrechenelement (Z1) und dem dritten Zustandsrechenelement (Z3) unterschiedlich sind, wobei – die Zeittransformation durch eine Matrix A, – die mittelbare Verknüpfung (Z2-Z1) zwischen dem zweiten Zustandsrechenelement (Z2) und dem ersten Zustandsrechenelement (Z1) als Produkt von Matrizen C • A • C_≤, und – die mittelbare Verknüpfung (Z1-Z3) zwischen dem ersten Zustandsrechenelement (Z1) und dem dritten Zustandsrechenelement (Z3) als Produkt von Matrizen C • A • C_> gebildet werden, mit:
wobei Id eine Identitätsmatrix ist.
Anordnung nach dem vorangehenden Anspruch, dadurch gekennzeichnet, dass zumindest ein Teil der Rechenelemente künstliche Neuronen sind.
Anordnung nach einem der vorangehenden Ansprüche, gekennzeichnet durch – weitere Eingaberechenelemente, weitere Zustandsrechenelemente und weitere Ausgaberechenelemente, die jeweils einem bestimmten Zeitpunkt zugeordnet sind, – wobei jeweils ein Eingaberechenelement mit einem Zustandsrechenelement und ein Zustandsrechenelement mit einem Ausgaberechenelement verknüpft sind und dadurch jeweils eine Raumtransformation durchführbar ist, und wobei – ein Zustandsrechenelement mit dem Zustandsrechenelement des vorangehenden Zeitpunktes und mit dem Zustandsrechenelement des folgenden Zeitpunktes verknüpft ist und dadurch jeweils eine Zeittransformation durchführbar ist.
Anordnung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet dass – die Matrix C_≤ in Abhängigkeit der dem System zum früheren Zeitpunkt zugeführten Zustandsgrößen veränderbar ist, und dass – die Matrix C_> in Abhängigkeit der dem System zum ersten Zeitpunkt zugeführten Zustandsgrößen veränderbar ist.
Anordnung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass zumindest ein Teil der Ausgaberechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.
Anordnung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass dasjenige Zustandsrechenelement, welches den zeitlich frühesten Zustand repräsentiert, mit einem Startzustand (S) initialisierbar ist, wobei der Startzustand unter Verwendung von Rauschen (Noise) ermittelbar ist.
Anordnung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass dem System zum späteren Zeitpunkt Rauschen (ε) zuführbar ist.
Anordnung nach einem der vorangehenden Ansprüche, gekennzeichnet durch eine Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen System beschrieben werden.
Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit Hilfe eines neuronalen Netzes, bei dem – Zustandsgrößen des Systems zu einem ersten Zeitpunkt und zu einem vor dem ersten Zeitpunkt liegenden früheren Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, – die in den Transformationsraum transformierten Zustandsgrößen des früheren Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem früheren Zeitpunkt auf den ersten Zeitpunkt transformiert, – die in den Transformationsraum transformierten Zustandsgrößen des ersten Zeitpunkts einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen auf den ersten Zeitpunkt folgenden späteren Zeitpunkt transformiert, und bei dem – die auf den späteren Zeitpunkt transformierten Zustandsgrößen einer Raumtransformation unterzogen werden, welche die auf den späteren Zeitpunkt transformierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert, wobei – die Transformationen unter Verwendung von Transformationsparametern durchgeführt werden, – die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformationsraum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch wenigstens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, – die Transformationsparameter zur Durchführung der Raumtransformationen fest sind, und wobei – die Transformationsparameter zur Durchführung der Zeittransformation variabel sind, dadurch gekennzeichnet, dass – die Transformation der Zustandsgrößen vom früheren auf den ersten Zeitpunkt durch eine Multiplikation von Matrizen C • A • C_≤ durchgeführt wird, und dass – die Transformation der Zustandsgrößen vom ersten auf den späteren Zeitpunkt durch eine Multiplikation von Matrizen C • A • C_> durchgeführt wird, wobei – A die Zeittransformation ist, und
wobei Id eine Identitätsmatrix ist.
Verfahren nach Anspruch 9, eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.
Verfahren nach einem Ansprüche 9 bis 10, eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge, oder eines Energiepreises, insbesondere eines Strompreises, oder einer makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.
Computerprogramm mit Programmcode-Mitteln, um alle und/oder Teile der Schritte gemäß einem der Ansprüche 9 bis 11 durchzuführen, wenn das Programm auf einem Computer oder Teile des Programms auf mehreren Computern ausgeführt wird bzw. werden.
Computerprogramm mit Programmcode-Mitteln gemäß Anspruch 12, die auf einem oder mehreren computerlesbaren Datenträger gespeichert sind.
Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle und/oder Teile der Schritte gemäß einem der Ansprüche 9 bis 11 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.