DE10356655B4

DE10356655B4 - Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems

Info

Publication number: DE10356655B4
Application number: DE10356655A
Authority: DE
Inventors: Christoph Dr. Tietz; Hans-Georg Dr. Zimmermann
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-12-04
Filing date: 2003-12-04
Publication date: 2006-04-20
Anticipated expiration: 2023-12-05
Also published as: DE10356655A1; WO2005055133A3; WO2005055133A2

Abstract

Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechenelementen eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren,
– mit mindestens einem ersten Rechenelement, welchem Zustandsgrößen des Systems zu einem ersten Zeitpunkt in einem Zustandsraum zuführbar sind,
– mit mindestens zwei miteinander verknüpften, zweiten Rechenelemente, welche Zustände des Systems zu dem ersten und zu einem auf den ersten folgenden, zukünftigen zweiten Zeitpunkt in einem Transformationsraum repräsentieren, wobei zwischen den zwei zweiten Rechenelemente eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar ist,
– mit mindestens einem dritten Rechenelement, an welchem Zustandsgrößen des Systems zu dem zukünftigen, zweiten Zeitpunkt im Zustandsraum abgreifbar sind,
– wobei das mindestens eine erste Rechenelement mit dem ersten der zwei zweiten Rechenelemente und das dritte Rechenelement mit...

Description

Die Erfindung betrifft eine neuronale Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, welche für eine Prognose eines Zustandes eines dynamischen Systems geeignet ist, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt und geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.

Aus [1] ist es bekannt, zur Beschreibung und Modellierung eines dynamischen Systems bzw. eines dynamischen Prozesses und dessen Prozessverhaltens eine neuronale Struktur, beispielsweise ein neuronales Netz, einzusetzen.

Allgemein wird ein dynamisches System bzw. ein dynamischer Prozess durch eine Zustandsübergangsbeschreibung, die für einen Beobachter des dynamischen Prozesses nicht sichtbar ist, und eine Ausgangsgleichung, die beobachtbare Größen des technischen dynamischen Prozesses beschreibt, beschrieben.

Ein solches Prozessverhalten eines dynamischen Prozesses ist in 8 dargestellt.

Der dynamische Prozess 800 bzw. ein dynamisches System 800, in dem der dynamische Prozess abläuft, unterliegt dem Einfluss einer externen Eingangsgröße u vorgebbarer Dimension, wobei eine Eingangsgröße u_t zu einem Zeitpunkt t mit u_t bezeichnet wird: ut ∊ Rl wobei mit l eine natürliche Zahl bezeichnet wird.

Die Eingangsgröße u_t zu einem Zeitpunkt t verursacht eine Veränderung des dynamischen Prozesses.

Ein innerer Zustand s_t (s_t ∊ R^m) vorgebbarer Dimension m zu einem Zeitpunkt t ist für einen Beobachter des dynamischen Systems 800 nicht beobachtbar.

In Abhängigkeit vom inneren Zustand s_t und der Eingangsgröße u_t wird ein Zustandsübergang des inneren Zustandes s_t des dynamischen Prozesses verursacht und der Zustand des dynamischen Prozesses geht über in einen Folgezustand s_t+1 zu einem folgenden Zeitpunkt t + 1.

Dabei gilt: st+1 = f(st, ut). (1)wobei mit f(.) eine allgemeine Abbildungsvorschrift bezeichnet wird.

Eine von einem Beobachter des dynamischen Systems 800 beobachtbare Ausgangsgröße y_t zu einem Zeitpunkt t hängt ab von der Eingangsgröße u_t sowie dem inneren Zustand s_t.

Die Ausgangsgröße y_t (y_t ∊ Rⁿ) ist vorgebbarer Dimension n.

Die Abhängigkeit der Ausgangsgröße y_t von der Eingangsgröße u_t und dem inneren Zustand s_t des dynamischen Prozesses ist durch folgende allgemeine Vorschrift gegeben: yt = g(st), (2)wobei mit g(.) eine allgemeine Abbildungsvorschrift bezeichnet wird.

Zur Beschreibung des dynamischen Systems 800 wird in [1] eine neuronale Struktur aus miteinander verbundenen Rechenelemente in Form eines neuronalen Netzes miteinander verbundener Neuronen eingesetzt. Die Verbindungen zwischen den Neuronen des neuronalen Netzes sind gewichtet. Die Gewichte des neuronalen Netzes sind in einem Parametervektor v zusammengefasst.

Somit hängt ein innerer Zustand eines dynamischen Systems, welches einem dynamischen Prozess unterliegt, gemäß folgender Vorschrift von der Eingangsgröße u_t und dem inneren Zustand des vorangegangenen Zeitpunktes s_t und dem Parametervektor v ab: st+1 = NN(v, st, ut), (3)wobei mit NN(.) eine durch das neuronale Netz vorgegebene Abbildungsvorschrift bezeichnet wird.

Diese Beschreibung des dynamischen Systems 800 gemäß Beziehung (3) wird auch als "Forward Approach" bezeichnet.

Alternativ dazu lässt sich das dynamische System auch durch: st = f(st–1, u) (1')mit st = NN(v, st–1, ut) (3')beschreiben, was als "Backward Approach" bezeichnet wird.

"Forward Approach" und "Backward Approach" führen zu geringfügigen strukturellen Unterschieden in den jeweiligen Netzstrukturen, sind aber gleichwertige, alternativ verwendbare Beschreibungsformen für dynamische Systeme.

Aus [2] ist eine neuronale Struktur zur Beschreibung des dynamischen Systems 800 bekannt, welche als Time Delay Recurrent Neural Network (TDRNN/RNN) bezeichnet wird.

Das bekannte TDRNN ist in 5 als ein über eine endliche Anzahl von Zeitpunkten (dargestellt 5 Zeitpunkte: t–4, t–3, t–2, t–1, t) entfaltetes neuronales Netz 500 dargestellt.

Das in 5 dargestellte neuronale Netz 500 weist eine Eingangsschicht 501 mit fünf Teileingangsschichten 521, 522, 523, 524 und 525 auf, die jeweils eine vorgebbare Anzahl Eingangs-Rechenelemente enthalten, denen Eingangsgrößen u_t–4 u_t–3, u_t–2, u_t–1 und u_t zu vorgebbaren Zeitpunkten t–4, t–3, t–2, t–1 und t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.

Eingangs-Rechenelemente, d.h. Eingangsneuronen, sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten 505 (dargestellt 5 verdeckte Schichten) verbunden.

Dabei sind Neuronen einer ersten 531, einer zweiten 532, einer dritten 533, einer vierten 534 und einer fünften 535 versteckten Schicht jeweils mit Neuronen der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht verbunden.

Die Verbindungen zwischen der ersten 531, der zweiten 532, der dritten 533, der vierten 534 und der fünften 535 versteckten Schicht mit jeweils der ersten 521, der zweiten 522, der dritten 523, der vierten 524 und der fünften 525 Teileingangsschicht sind jeweils gleich. Die Gewichte aller Verbindungen sind jeweils in einer ersten Verbindungsmatrix B₁ enthalten.

Ferner sind die Neuronen der ersten versteckten Schicht 531 mit ihren Ausgängen mit Eingängen von Neuronen der zweiten versteckten Schicht 532 gemäß einer durch eine zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der zweiten versteckten Schicht 532 sind mit ihren Ausgängen mit Eingängen von Neuronen der dritten versteckten Schicht 533 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der dritten versteckten Schicht 533 sind mit ihren Ausgängen mit Eingängen von Neuronen der vierten versteckten Schicht 534 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden. Die Neuronen der vierten versteckten Schicht 534 sind mit ihren Ausgängen mit Eingängen von Neuronen der fünften versteckten Schicht 535 gemäß einer durch die zweite Verbindungsmatrix A₁ gegebene Struktur verbunden.

In den versteckten Schichten, der ersten versteckten Schicht 531, der zweiten versteckten Schicht 532, der dritten versteckten Schicht 533, der vierten versteckten Schicht 534 und der fünften versteckten Schicht 535 werden jeweils "innere" Zustände oder "innere" Systemzustände s_t–4, s_t–3, s_t–2, s_t–1, und s_t eines durch das TDRNN beschriebenen dynamischen Prozesses an fünf aufeinanderfolgenden Zeitpunkten t–4, t–3, t–2, t–1 und t repräsentiert.

Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t–4, t–3, t–2, t–1 und t an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale beziehen (u_t–4, u_t–3, u_t–2, u_t–1, u_t).

Eine Ausgangsschicht 520 weist fünf Teilausgangsschichten, eine erste Teilausgangsschicht 541, eine zweite Teilausgangsschicht 542, eine dritte Teilausgangsschicht 543, eine vierte Teilausgangsschicht 544 sowie eine fünfte Teilausgangsschicht 545 auf. Neuronen der ersten Teilausgangsschicht 541 sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C₁ gegebenen Struktur mit Neuronen der ersten versteckten Schicht 531 verbunden. Neuronen der zweiten Teilausgangsschicht 542 sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C₁ gegebenen Struktur mit Neuronen der zweiten versteckten Schicht 532 verbunden. Neuronen der dritten Teilausgangsschicht 543 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der dritten versteckten Schicht 533 verbunden. Neuronen der vierten Teilausgangsschicht 544 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der vierten versteckten Schicht 534 verbunden. Neuronen der fünften Teilausgangsschicht 545 sind gemäß der Ausgangs-Verbindungsmatrix C₁ mit Neuronen der fünften versteckten Schicht 535 verbunden. An den Neuronen der Teilausgangsschichten 541, 542, 543, 544 und 545 sind die Ausgangsgrößen für jeweils einen Zeitpunkt t–4, t–3, t–2, t–1, t abgreifbar (y_t–4, y_t–3, y_t–2, y_t–1, y_t).

Der Grundsatz, dass äquivalente Verbindungsmatrizen in einem neuronalen Netz zu einem jeweiligen Zeitpunkt die gleichen Werte aufweisen, wird als Prinzip der sogenannten geteilten Gewichtswerte (Shared Weights) bezeichnet.

Die aus [2] bekannte und als Time Delay Recurrent Neural Network (TDRNN) bezeichnete Anordnung wird in einer Trainingsphase derart trainiert, dass zu einer Eingangsgröße u_t jeweils eine Zielgröße y d / t an einem realen dynamischen System ermittelt wird. Das Tupel (Eingangsgröße, ermittelte Zielgröße) wird als Trainingsdatum bezeichnet. Eine Vielzahl solcher Trainingsdaten bilden einen Trainingsdatensatz.

Dabei weisen zeitlich aufeinanderfolgende Tupel (u_t–4, y d / t–4) (u_t–3, y d / t–3), (u_t–2, y d / t–2) der Zeitpunkte (t–4, t–3, t–3, ...) des Trainingsdatensatzes jeweils einen vorgegeben Zeitschritt auf.

Mit dem Trainingsdatensatz wird das TDRNN trainiert. Eine übersicht über verschiedene Trainingsverfahren ist ebenfalls in [1] und [4] zu finden.

Es ist an dieser Stelle zu betonen, dass lediglich die Ausgangsgrößen y_t–4, y_t–3, ... y_t zu Zeitpunkten t–4, t–3, ..., t des dynamischen Systems 800 erkennbar sind. Die "inneren" Systemzustände s_t–4, s_t–3, ..., s_t sind nicht beobachtbar.

In der Trainingsphase wird üblicherweise folgende Kostenfunktion E minimiert:

wobei mit T eine Anzahl berücksichtigter Zeitpunkte bezeichnet wird.

Aus [5] und [6] sind Weiterentwicklungen der aus [2] bekannten und als Time Delay Recurrent Neural Network (TDRNN) bezeichneten neuronalen Struktur bekannt.

Die Weiterentwicklungen aus [5] sind insbesondere geeignet zur Ermittlung zukünftiger Zustände eines dynamischen Prozesses, was als "overshooting" bezeichnet wird.

1a aus [5] zeigt eine Grundstruktur, die den aus [5] bekannten Weiterentwicklungen zugrunde liegt.

Die Grundstruktur ist ein über drei Zeitpunkte t, t+1, t+2 entfaltetes neuronales Netz.

Sie weist eine Eingangsschicht auf, die eine vorgebbare Anzahl von Eingangsneuronen enthält, denen Eingangsgrößen u_t zu vorgebbaren Zeitpunkten t, d.h. im weiteren beschriebene Zeitreihenwerte mit vorgegebenen Zeitschritten, anlegbar sind.

Die Eingangsneuronen, sind über variable Verbindungen mit Neuronen einer vorgebbaren Anzahl versteckter Schichten (dargestellt 3 verdeckte Schichten) verbunden.

Dabei sind Neuronen einer ersten versteckten Schicht mit Neuronen der ersten Eingangsschicht verbunden.

Die Verbindung zwischen der ersten versteckten Schicht mit der ersten Eingangsschicht weist Gewichte auf, die in einer ersten Verbindungsmatrix B enthalten sind.

Ferner sind die Neuronen der ersten versteckten Schicht mit ihren Ausgängen mit Eingängen von Neuronen einer zweiten versteckten Schicht gemäß einer durch eine zweite Verbindungsmatrix A gegebene Struktur verbunden. Die Neuronen der zweiten versteckten Schicht sind mit ihren Ausgängen mit Eingängen von Neuronen einer dritten versteckten Schicht gemäß einer durch die zweite Verbindungsmatrix A gegebene Struktur verbunden.

In den versteckten Schichten, der ersten versteckten Schicht, der zweiten versteckten Schicht und der dritten versteckten Schicht werden jeweils "innere" Zustände oder "innere" Systemzustände s_t, s_t+1 und s_t+2 des beschriebenen dynamischen Prozesses an drei aufeinanderfolgenden Zeitpunkten t, t+1 und t+2 repräsentiert.

Die Angaben in den Indizes in den jeweiligen Schichten geben jeweils den Zeitpunkt t, t+1, t+2 an, auf die sich jeweils die an den Ausgängen der jeweiligen Schicht abgreifbaren bzw. zuführbaren Signale (u_t) beziehen.

Eine Ausgangsschicht 120 weist zwei Teilausgangsschichten, eine erste Teilausgangsschicht und eine zweite Teilausgangsschicht, auf. Neuronen der ersten Teilausgangsschicht sind gemäß einer durch eine Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der ersten versteckten Schicht verbunden. Neuronen der zweiten Teilausgangsschicht sind ebenfalls gemäß der durch die Ausgangs-Verbindungsmatrix C gegebenen Struktur mit Neuronen der zweiten versteckten Schicht verbunden.

An den Neuronen der Teilausgangsschichten sind die Ausgangsgrößen für jeweils einen Zeitpunkt t+1, t+2 abgreifbar (y_t+1, y_t+2).

Eine weitere Weiterentwicklung dieser Grundstruktur aus [5] ist in 6 dargestellt.

Weiterentwicklungen der TDRNN-Struktur aus [6], sogenannte Error-Correction-Recurrent-Neural-Networks ECRNN), betreffen einen strukturell bedingten Fehler-Korrektur-Mechanismus, welcher als struktureller Bestandteil in eine neuronale Struktur integriert ist. 7 zeigt eine grundlegende Struktur mit entsprechenden funktionalen Beziehungen eines ECRNN.

In [3] ist ferner ein Überblick über Grundlagen neuronaler Netze und die Anwendungsmöglichkeiten neuronaler Netze im Bereich der Ökonomie zu finden.

Die bekannten Anordnungen und Verfahren, insbesondere die im obigen beschriebenen TDRNN (kurz RNN) und ECRNN, weisen verschiedene Nachteile auf.

So neigen insbesondere große Netze obiger rekurrenter Strukturen zu den bekannten Problemen eines "Overfitting" und einer "Überparametrisierung", was sich wiederum negativ auf eine Prognosefähigkeit solcher Strukturen bzw. Netze auswirkt.

Somit liegt der Erfindung die Aufgabe zugrunde, eine neuronale Anordnung, d.h. eine Netzstruktur eines rekurrenten neuronalen Netzes, sowie eine Abbildung, welche ein Systemverhalten eines dynamischen Systems beschreibt, anzugeben, welche insbesondere bei großen Netze bzw. bei Systemen mit einen Vielzahl von freien Parametern geeignet ist, einen Zustand des dynamischen Systems zu prognostizieren.

Diese Aufgabe wird durch das Verfahren, die Anordnung sowie durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustands eines dynamischen Systems mit den Merkmalen gemäß dem jeweiligen unabhängigen Patentanspruch gelöst.

Die Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems basiert auf einer Grundstruktur miteinander verknüpfter Rechenelemente eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren.

Die Anordnung weist mindestens ein erstes Rechenelement auf, welchem Zustandsgrößen des Systems zu einem ersten Zeitpunkt in einem Zustandsraum zuführbar sind.

Weiter weist die Anordnung mindestens zwei miteinander verknüpfte, zweite Rechenelemente auf, welche Zustände des Systems zu dem ersten und zu einem auf den ersten folgenden, zukünftigen zweiten Zeitpunkt in einem Transformationsraum repräsentieren, wobei zwischen den zwei zweiten Rechenelemente eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar ist.

Ferner weist die Anordnung mindestens ein drittes Rechenelement auf, an welchem Zustandsgrößen des Systems zu dem zukünftigen, zweiten Zeitpunkt im Zustandsraum abgreifbar sind.

Das mindestens eine erste Rechenelement ist mit dem ersten der zwei zweiten Rechenelemente und das dritte Rechenelement ist mit dem zweiten der mindestens zwei zweiten Rechenelemente verknüpft, wobei eine Raumtransformation aus dem Zustandsraum in den Transformationsraum und eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar sind.

Weiter ist die Anordnung gekennzeichnet dadurch, dass die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen jeweils sowohl Einflussgrößen als auch mindestens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen.

Ferner sind die Transformationsparameter zur Durchführung der Raumtransformationen fest; die Transformationsparameter zur Durchführung der Zeittransformation sind dagegen variabel.

Anzumerken ist, dass bei der Erfindung unter dem Begriff "Rechelemente" ohne Beschränkung der Allgemeinheit Neuronen oder Neuronenschichten bzw. Neuronenteilschichten zu verstehen sind.

Bei dem Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mithilfe eines neuronalen Netzes werden Zustandsgrößen des Systems zu einem ersten Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert.

Die in den Transformationsraum transformierten Zustandsgrößen werden einer Zeittransformation unterzogen, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen zukünftigen, zweiten Zeitpunkt transformiert.

Die auf den zukünftigen, zweiten Zeitpunkt transformierten Zustandsgrößen werden weiter einer Raumtransformation unterzogen, welche die auf den zukünftigen, zweiten Zeitpunkt transformierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert.

Die Transformationen werden unter Verwendung von Transformationsparametern durchgeführt, wobei diese dadurch gekennzeichnet sind, dass

– die Transformationsparameter zur Durchführung der Raumtransformationen fest sind und
– die Transformationsparameter zur Durchführung der Zeittransformation variabel sind.

Weiter wiesen die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformationsraum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch mindestens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems auf.

Anschaulich weist die Erfindung die Besonderheit auf, dass anstelle der bei im obigen, aus dem Stand der Technik bekannten RNN und ECRNN mindesten drei anpassbaren Verbindungsmatrizen A, B, C bzw. mindestens vier anpassbaren Verbindungsmatrizen A, B, C und D nur mehr eine anpassbare Verbindungsmatrix A auftritt.

Diese alleinige Verbindungsmatrix A tritt auf bei der Erfindung bei den Verknüpfungen bzw. Transformationen zwischen den inneren, versteckten Schichten, die die Abbildung der inneren Systemzustände s auf den jeweils nächsten Zeitschritt durchführen.

Ferner ist diese Matrix A insbesondere geeignet, um eine innere Dynamik des durch die Anordnung und Verfahren abgebildeten Systems zu modellieren.

Weiter unterscheidet sich die Erfindung anschaulich von den im obigen, aus dem Stand der Technik bekannten RNN und ECRNN dadurch, dass bei der Erfindung sowohl an Eingangsneuronen bzw. Eingangsneuronenschichten als auch an den Ausgangsneuronen bzw. Ausgangsneuronenschichten die Eingangsgrößen u und die Zielgröße y anlegbar und abgreifbar sind.

Bei den bekannten, im obigen beschrieben RNN und ECRNN sind an den Eingangneuronen die Eingangsgrößen u anlegbar und an den Ausgangsneuronen die Zielgröße y abgreifbar.

Damit wird bei dem erfindungsgemäßen Ansatz zum einen mitberücksichtig, dass die Zielgröße y aus einem vorherigen Zeitschritt neben den Eingangsgrößen u das Systemverhalten zu einem nachfolgenden Zeitschritt mitbeeinflusst. Zum anderen liefert die Erfindung dadurch Informationen über die Entwicklung der Eingangsgrößen und lässt damit auch Prognosen dieser zu.

Das Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

Die Anordnung sowie das Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.

Dabei können die beschriebenen Softwarelösungen auch dezentral bzw. verteilt realisiert sein, d.h. dass Teile des Computerprogramms oder Teile des Computerprogramm-Produkts – auch als eigenständige Teillösungen – auf verschiedenen (verteilten) Computern ablaufen bzw. von diesen ausgeführt werden oder auf verschiedenen Speichermedien gespeichert sind.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf das Verfahren und die Anordnung als auch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm-Produkt.

Die Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl in Software als auch in Hardware, beispielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.

Ferner ist eine Realisierung der Erfindung oder einer im weiteren beschriebenen Weiterbildung möglich durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

Auch kann die Erfindung oder jede im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

So kann die Anordnung als neuronales Netz realisiert sein, bei welchen die ersten Rechenelemente Eingangsneuronen oder Eingangsneuronenschichten bzw. Eingangneuronenteilschichten, die dritten Rechenelemente Ausgangsneuronen oder Ausgangsneuronenschichten bzw. Ausgangsneuronenteilschichten und/oder die zweiten Rechenelemente innere, versteckte Neuronen bzw. Neuronenschichten bzw. Neuronenteilschichten.

Eine bevorzugte Weiterbildung weist mehrere erste und/oder mehrere dritte Rechenelemente sowie mehrere zweite Rechenelemente auf, wobei jedes von den mehreren ersten und/oder mehreren dritten Rechenelementen mit einem von den mehreren zweiten Rechenelementen verknüpft ist und dadurch eine Raumtransformation durchführbar ist. Jedes zweite Rechenelement ist mit einem anderen zweiten Rechenelement verknüpft, wobei dadurch eine Zeittransformation durchführbar ist.

Weiter können zumindest ein Teil der Verknüpfungen zwischen zwei zweiten Rechenelementen mittelbare Verknüpfungen sein.

Eine solche mittelbare Verknüpfung zischen zwei zweiten Rechenelementen kann die Zeittransformation in einem ersten Transformationsschritt mit einer Konsistenztransformation in einem zweiten Transformationsschritt, welche Konsistenztransformation unter Verwendung von Konsistenzparametern durchführbar ist, verbinden. Erster und zweiter Schritt können auch in ihrer Reihenfolge vertauscht sein.

Weiter können auch die Konsistenzparameter fest, d.h. nicht variabel, sein.

In einer weiteren bevorzugten Ausgestaltung sind zumindest ein Teil der Transformationsparameter zur Durchführung der Raumtransformation und/oder ein Teil der Konsistenzparameter zur Durchführung der Konsistenztransformation derart festgelegt sind, dass eine Identitätsabbildung durchführbar ist.

Eine derartige Identitätsabbildung angewendet auf Zustandsvektoren bewirkt, dass nur bestimmte Vektoreinträge gleichsam aus dem Vektor herausgeschnitten werden, wobei gleichzeitig der Vektor in seiner Dimension angepasst werden kann.

In einer bevorzugten Weiterbildung sind zumindest ein Teil der dritten Rechenelemente, beispielweise Ausgangsneuronen bzw. Ausgangsneuronenschichten, derart verknüpft sind, dass dort repräsentierte Zustände, in diesem Fall zukünftige Zustände, akkumulierbar sind.

Weiter kann vorgesehen werden, dass dasjenige zweite Rechenelement, welches den zeitlich frühesten (inneren) Zustand repräsentiert, mit einem Startzustand initialisiert wird.

Verschiedene Methoden für ein solche Initialisierung sind bekannt, beispielsweise eine sogenanntes Cleaning-Verfahren.

In Anwendungen im industriellen Umfeld können Messanordnungen vorgesehen werden zur Erfassung physikalischer Signale. Mit diesen können Zustände des dynamischen System beschrieben werden. Diese werden dann – gegebenenfalls nach einer Vorverarbeitung – der Anordnung und dem Verfahren als Input zugeführt.

In einer weiteren bevorzugten Ausgestaltung wird die Erfindung eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.

In einer Weiterbildung wird die Erfindung eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge. Entsprechend kann die Erfindung auch für eine Stromverbrauchsprognose eingesetzt werden.

Andere Einsatzszenarien sind vorstellbar, wie bei ökonomischen Systemen (Finanzdienstleistungen, Banken, Versicherungen) oder Industriesystemen (Produktionssysteme, Industrieanlagen, Logistiksysteme), beispielsweise zu einer Prognose einer makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems, im speziellen zu einer Prognose eines Wechselkursverlaufes oder eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung.

Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
Es zeigen
1a, 1b und 1c Skizzen, die die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik beschreiben (1a: zwei Alternativen des bekannten RNN; 1b: LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCRNN);
2a, 2b und 2c Skizzen, die die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik beschreiben (1a: zwei Alternativen des bekannten ECRNN; 1b: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCECRNN);
3a und 3b Skizzen eines DCRNN (3a) und eines DCECRNN (3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur;
4 Skizze eines DCNN, welches aus dem DCRNN und dem DCECRNN weiterentwickelt ist;
5 eine Skizze einer Anordnung eines TDRNN, welche mit endlich vielen Zuständen über die Zeit entfaltet ist, gemäß dem Stand der Technik;
6 eine Skizze einer zum "overshooting" geeigneten Weiterbildung eines TDRNN gemäß dem Stand der Technik;
7 eine Skizze eines ECRNN mit grundlegenden funktionalen Beziehungen gemäß dem Stand der Technik;
8 eine Skizze einer allgemeinen Beschreibung eines dynamischen Systems;
9 Skizze eines modifizierten DCNN mit einer modifizierten "Consistency Matrix", bei welchem bekannte zukünftige Informationen berücksichtigbar sind;
10 Skizze eines modifizierten DCNN mit akkumulierten Ausgangsneuronen;
11a, 11b und 11c Skizzen, welche Beispiele von DCNN für eine Prognose eines US-Dollar/Brit. Pfund – Wechselkursverlaufes (11a), einer Bargeld-Zu- bzw. Abflussentwicklung (11b), einer Stromlastentwicklung (11c) zeigen.
Bei den im folgenden beschriebenen Figuren sowie den im folgenden anhand der Figuren beschriebenen Ausführungsbeispielen werden allgemein übliche und für den Fachmann verständliche Bezeichnungen und Symbole aus dem Gebiet der Neuroinformatik und Neurostatistik verwendet. Weitere Bezeichnungen ergeben sich aus dem im obigen beschriebenen Standes der Technik.
Struktur-Ausführungsbeispiele: "Dynamical Consistent Recurrent Neural Networks" (1, 3a), "Dynamical Consistent Error Correction (Recurrent) Neural Networks" (2, 3b), "Dynamical Consistent Neural Networks (DCNN) (4)
In den 1a, 1b und 1c ist die Entwicklung eines DCRNN aus einem RNN gemäß dem Stand der Technik dargestellt (1a: zwei Alternativen des bekannten RNN; 1b: LRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCRNN).
1a, Alternative 1 (Forward Approach/Forward Formulation) und Alternative 2 (Backward Approach/Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen ge mäß einem über 5 Zeitpunkte t–2, t–1, t, t+1, t+2 entfalteten TDRNN bzw. RNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt: st+1 = f(st, ydt , udt ) und yt = g(st)
Für Alternative 2 gilt: st = f(st–1, udt ) und yt = g(st)
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
1b zeigt eine verbesserte Struktur, ein sogenanntes "Large Recurrent Neural Network" (LRNN), welches aus den alternativen Strukturen aus 1a entwickelbar ist.
So werden im Übergang der Strukturen aus 1a zu der Struktur aus 1b die ursprünglichen drei anpassbaren Verbindungsmatrizen A, B, und C durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s. Diese weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und C sind in 1b angegeben. Die sich dabei ergebenden neuen Verbindungsmatrizen [Id, 0] bz. [Id, 0]^T weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in 1b gezeigte Struktur gilt: st = f(st–1, ydt , udt ) und yt = [Id, 0]st
Indem die Matrix B durch [0, Id]^T ∊ R(dim(s) × dim(u)) ersetzt wird, wird die Verarbeitung der Eingabegröße auf die Matrix A übertragen. Für lineare Systeme s_t = As_t–1 + Bu_t kann durch eine Zu standsraum-Transformation (Ts_t) = TAT^–1(Ts_t–1) + TBu_t die Matrix B mit B = [B_r, B_q]^T in [0, Id]^T umgewandelt werden. Unter der Annahme, dass für die Matrix B dim(s) > dim(u) gegeben ist, kann T so gewählt werden, dass:
Indem die Matrix C durch [Id, 0] ∊ R(dim(y) × dim(s)) ersetzt wird, werden die Ausgabegrößen mit den versteckten Schichten s für die ersten Zeitpunkte identifiziert. Wenn dim(s) > dim(u) + dim(y) gilt, so beeinflussen die externen Eingabegrößen u die Ausgabegrößen y nur indirekt an dem nächsten Zeitpunkt s. Wenn s_τ ∊ (–1, +1) gilt, so kann es nötig sein C = [c·Id, 0] zu verwenden, um die Aufgabegrößen zu skalieren. Adaptive Parameter sind nur in der Matrix A enthalten, welche als schwach besetzte Matrix gewählt werden kann.
1c zeigt die aus 1b entwickelte weiter verbesserte Struktur, ein sogenanntes "Dynamical Consistent Recurrent Neural Network" (DCRNN).
Das dargestellte DCRNN ist entsprechend vorheriger Strukturen ein über die 5 Zeitpunkte t–2, t–1, t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t–2, t–1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Matrizen [Id, 0]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t–2, s_t–1, s_t, s_t+1 und s_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t–1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Ferner weist das DCRNN zwei Rechenschichten "tanh" auf, welche in dargestellter Weise mit jeweils zwei aufeinanderfolgenden versteckten Schichten, in diesem Fall s_t und s_t+1 bzw. s_t+1 und s_t+2, verbunden sind.
Der für die Vergangenheit zuständige Teil des Netzes wird durch alle Eingabegrößen angeregt. Durch die Ausgestaltung der Ausgabe liegen Prognosen für alle Eingabegrößen vor, wodurch es möglich wird, diese Prognosen dem Netz als zukünftige Eingabegrößen zuzuführen. Da es sich um mehrere Prognosen handelt, ist dieses Vorgehen nur in großen Netzen möglich. In dieser Ausgestaltung erfüllt die Matrix A immer den gleichen Zweck: sie moduliert die Dynamik.
In den 2a, 2b und 2c ist – entsprechend zum DCRNN bzw. RNN und den 1a, b und 1c – die Entwicklung eines DCECRNN aus einem ECRNN gemäß dem Stand der Technik dargestellt (1a: zwei Alternativen des bekannten ECRNN; 1b: LECRNN mit der alleinigen anpassbaren Verbindungsmatrix A; 1c: DCECRNN).
2a, Alternative 1 (Forward Formulation) und Alternative 2 (Backward Formulation) zeigt zwei bekannte, alternative neuronale Strukturen gemäß einem über 4 Zeitpunkte t–1, t, t+1, t+2 entfalteten ECRNN gemäß obig beschrieben Standes der Technik.
Für Alternative 1 gilt : s_t+1 = f(s_t, u d / t, y_t – y d / t) und y_t = g(s_t). Für Alternative 2 gilt: s_t = f(s_t–1, u d / t, y_t–1, – y d / t–1) und y_t = g(s_t).
Beide Alternativen weisen die im obigen beschrieben Nachteile auf.
2b zeigt eine verbesserte Struktur, ein sogenanntes "Zarge Error Correction Recurrent Neural Network" (LECRNN), welches aus den alternativen Strukturen aus 2a entwickelbar ist.
So werden im Übergang der Strukturen aus 2a zu der Struktur aus 2b die ursprünglichen vier anpassbaren Verbindungsmatrizen A, B, C und D durch eine einzige anpassbare Verbindungsmatrix A ersetzt.
Diese neue Verbindungsmatrix A verbindet die inneren Schichten bzw. Neuronen s in unmittelbarer Weise wie auch im Fall der Zeitpunkte t und t+1 in mittelbarer Weise. Hierbei ist nach Durchführung der Zeittransformation von t auf t+1 ein innerer Zustand Id(t+1) zwischengeschaltet, welcher nachfolgend durch eine Matrix, einer Konsistenzmatrix, welche eine Identitätsmatrix Id beinhaltet, auf den Zustand s(t+1) transformiert wird. Die Zeittransformation allerdings wurde aber bereits mit der Transformation durch die Matrix A im ersten Schritt durchgeführt, so dass der Zustand Id(t+1) schon dem nächsten Zeitschritt t+1 gegenüber t zugehörig ist. Die Zeittransformationsmatrix A weist alleinig anpassbare Parameter auf, die im Training der Struktur einstellbar sind.
Die Ersetzungen der ursprünglichen Verbindungsmatrizen B und D sind in 2b angegeben. Die sich dabei ergebenden neuen Verbindungsmatrizen [Id, 0] bzw. [–Id, 0]^T weisen "nicht anpassbare bzw. nicht im Training veränderbare" Parameter auf.
Für die in 2b gezeigte Struktur gilt s_t = f(s_t–1,u d / t, y_t – y d / t) und y_t = [Id, 0]s_t. Durch Wahl der Matrix C mit C = [Id, 0] ∊ R(dim(y) × dim(s)) werden die Ausgabegrößen mit den Versteckten Schichten s für die ersten Zeitpunkte identifiziert. Im Gegensatz zum RNN wird hier die Anpassung zur Skalierung der Ausgabe intern vorgenommen. Durch Wahl der Matrix B mit B = [–Id, 0]^T ∊ R(dim(s) × dim(u) + dim(y)) wird die Verarbeitung der Eingabe zu einem Teil der Matrix A. Eine Fehlerkorrektur ist implizit in dieser Struktur realisiert durch die Interaktion der spezialisierten Matrixen A, B und C sowie durch das Training der Zero-Neuronen mit dem Ziel z_t → 0. Für die Zukunft ist keine Fehlerkorrektur verfügbar, weshalb die Fehlerkorrektur gefiltert wird. Der zwischengeschaltete Filter setzt die Annahme um, dass die Prognosen richtig sind (Fehler = 0).
2c zeigt die aus 2b entwickelte, weiter verbesserte Struktur, ein sogenanntes "Dynamical Consistent Error Correction Recurrent Neural Network" (DCECRNN).
Das dargestellte DCECRNN ist entsprechend vorheriger Strukturen ein über die 4 Zeitpunkte t–1, t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t–2, t–1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über obige beschrieben Matrizen [–Id, 0]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t–2, s_t–1, s_t, s_t+1 und s_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t–1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z_t–1 und z_t mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)_t+1, (y, u)_t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwischenschichten Id_t+1 und Id_t+2.
Für die in 2c gezeigte Struktur gilt s_t = f(s_t–1, u_t – u d / t, y_t – y d / t) und
In dieser Struktur findet eine Erweiterung gemäß dim(z) = dim(y) + dim(u) statt. Die Konsistenzmatrix hat die gleiche Anzahl an Nullen in der ersten Hälfte ihrer Diagonale. Dadurch wird eine dynamisch konsistente Modellierung aller Eingabevariablen erreicht. In dieser Ausführung erfüllt die Matrix A immer den gleichen Zweck: sie modelliert die Dynamik. Eine Besonderheit dieser Struktur besteht darin, dass das Netz intern von den vorgegebenen Eingabegrößen abweichen kann – dies ist eine rekurrente Umsetzung des "Cleaning"-Prinzips.
In den 3a und 3b sind das DCRNN (3a) und das DCECRNN (3b) mit jeweils einer gekennzeichneten erfindungsgemäßen Grundstruktur dargestellt.
Die Grundstruktur umfasst in beiden Fällen die Eingangschicht (y, u)^d _t, welche mit der versteckten Schicht s_t verbunden ist, sowie die Ausgangsschicht (y, u)_t+1, welche mit der versteckten Schicht s_t bzw. versteckten Zwischenschicht Id_t+1 verbunden ist.
Die beiden versteckten Schichten sind über die Verbindungsmatrix A, welche insbesondere geeignet ist die innere Dynamik des modellierten Systems zu beschreiben und welche die Zeittransformation vom Zeitpunkt t auf den Zeitpunkt t+1 ausführt, verbunden.
RNNs beschreiben die fragliche Dynamik auf Grundlage der beobachtbaren Variablen und eignen sich somit besonders gut für eine Dynamik mit glattem Verlauf.
ECNNs beschreiben eine Dynamik durch eine interne Erwartung und die Abweichung zu den beobachtbaren Variablen. Sie eignen sich besonders gut für Dynamiken für einen unruhigen Verlauf. Beide Ansätze sind dynamisch konsistent. Es stellt sich die Aufgabe, eine Struktur zu finden, welche beide Aspekte vereint.
In 4 ist eine Weiterentwicklung des DCRNN und des DCECRNN, ein sogenanntes "Dynamical Consistent Neural Network" (DCNN), dargestellt.
Das dargestellte DCNN ist ein über die 5 Zeitpunkte t–2, t–1, t, t+1 und t+2 entwickeltes RNN.
Es weist eine Eingangschicht mit drei Eingangsteilschichten für die Zeitpunkte t–2, t–1 und t auf, an welchen die Eingangsgrößen y und u für die jeweiligen Zeitpunkte anlegbar sind.
Diese Eingangsteilschichten sind über Matrizen [–Id, 0, Id]^T mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden.
Insgesamt weist die Struktur die über die 5 Zeitpunkte entfalteten versteckten Schichten s_t–2, s_t–1, s_t, Id_t+1, s_t+1 und Id_t+2 auf.
Weiter ist eine Ausgangschicht mit 4 Ausgangsteilschichten für die Zeitpunkte t–1, t, t+1, t+2 vorhanden, an welchen die Ausgangsgrößen für die jeweiligen Zeitpunkte abgreifbar sind.
Diese Ausgangsteilschichten sind über obige beschriebenen Matrizen [Id, 0] im Fall der Ausgangsteilschichten z_t–1 und z_t mit den jeweiligen zeitpunktgleichen versteckten Schichten s verbunden, im Fall der Ausgangsteilschichten (y, u)_t+1, (y, u)_t+2 mit den jeweiligen zeitpunktgleichen versteckten Zwischenschichten Id_t+1 und Id_t+2.
Die Verbindungen zwischen den versteckten Schichten entsprechen im wesentlichen denen aus 3b. Allerdings ist die Konsistenzmatrix zwischen den versteckten Schichten Id_t+1 und s_t+2 wie in 4 angegeben verändert.
Die in 4 gezeigte Struktur vereint die beiden Arten der Prognose, die den 3a und 3b zugrunde liegen und die entsprechend für RNNs und ECNNs angesprochen wurden. Die Eingabegrößen werden den versteckten Schichten s mit den ersten Zeitpunkten zur Durchführung der Fehlerkorrektur zugeführt. Sie werden ebenfalls den versteckten Schichten s mit den letzten Zeitpunkten zugeführt, um die Rolle regulärer Eingabegrößen zu übernehmen, wie dies in einem RNN stattfindet. Die Konsistenzmatrix garantiert dynamische Konsistenz für beide Strukturen. Die den versteckten Schichten s (in der Zukunft der versteckten Zwischenschicht Id) vorgeschalteten, durch einen Pfeil angezeigten Verbindungen regeln alle Offsets.
Weiterführende Struktur-Ausführungsbeispiele: "DCNN mit modifizierter Consistency Matrix" (9), "DCNN mit akkumulierten Ausgangsneuronen" (10)
In 9 ist ein modifiziertes DCNN dargestellt, bei welchem verfügbare zukünftige Information, hier u^d _t+1 und u^d _t+2, beispielsweise bekannte Kalenderinformation, berücksichtigbar ist.
Diese modifizierte Struktur weist Änderungen (gegenüber dem DCNN) bei der Konsistenzmatrix auf.
Weiter weist die modifizierte Struktur zwei weitere Teileingangsschichten auf, (0, u^d _t+1) und (0, u^d _t+2), welche mit den versteckten Zwischenschichten Id_t+1 und Id_t+2 in obiger beschriebener Weise verbunden sind.
Die zukünftigen Eingabevektoren enthalten Elemente mit der verfügbaren Information. Alle unbekannten Komponenten werden auf 0 gesetzt. Die Matrizen, welche die Eingangsteilschichten mit den jeweils zeitpunktgleichen versteckten Schichten s verbinden, sind unveränderlich und für alle Zeitpunkte gleich.
Aus 9 geht hervor, dass die geänderte Konsistenzmatrix Teilmatrixen D aufweist. Für diese Diagonalen Teilmatrixen gilt:
In 10 ist ein weiteres modifiziertes DCNN dargestellt, bei welchem die Ausgangsschichten miteinander verbunden sind, wodurch die Ausgangsgrößen akkumulierbar sind.
Um längerfristige Prognosen durchführen zu können ist das in 10 dargestellte modifizierte DCNN über die Zeitpunkt t–1 bis t+4 entfaltet.
Diese modifizierte Struktur weist insgesamt vier Ausgangschichten auf, die über die Identitätsmatrix Id miteinander wie dargestellt verbunden sind.
An den Ausgangsschichten, die wie obig beschrieben über die Verbindungsmatrizen [Id, 0) mit den zugehörigen versteckten Schichten verbunden sind, sind Zustände ln(y_t+1/y_t), ln(y_t+2/y_t), ln(y_t+3/y_t) und ln(y_t+4/y_t) abgreifbar.
Ferner weist diese Struktur zwei Eingangsschichten auf, an welchen die Zustände (u^d _t–1, ln(y^d _t–1/y^d _t–2)) und (u^d _t, ln(y^d _t/y^d _t–1)) anlegbar sind.
Die in 10 gezeigte Struktur verzichtet darauf, Langzeitprognosen durch wiederholte Bündel von Verbindungen zu unterstützen. Statt dessen wurde eine unveränderliche Identität zwischen den unterschiedlichen Prognose-Horizonten hinzugefügt.
Anwendungs-Ausführungsbeispiele: "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund)" (11a), "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/-entwicklung" (11b), "Prognose einer Stromlastentwicklung" (11c)
In den 11a, 11b und 11c sind Beispiele für die Anwendung der erfindungsgemäßen neuronalen Strukturen und deren Ergebnisse angegeben. Ist darauf hinzuweisen, dass die angegebene Beispiele nicht einschränkend zu verstehen sind. Die Erfindung kann unbeschränkt dort eingesetzt, beispielsweise zu einer Prognose, werden, wo dynamische System beschrieben werden sollen.
Die Beispiele wurden mit dem Programm SENN, Version 2.3 durchgeführt.
11a zeigt ein DCNN mit akkumulierten Ausgängen (s. Struktur 11) für eine "Prognose eines Wechselkursverlaufes (US-$/Brit. Pfund). 11b zeigt ein DCNN für eine "Prognose eines Bargeld-Aus- oder Einzahlungsverhaltens/entwicklung". 11c zeigt ein DCNN für eine "Prognose einer Stromlastentwicklung".
Dargestellt sind in den 11a, 11b und 11c jeweils die verwendete neuronale Struktur sowie Zeitverläufe der jeweiligen Prognosegröße.
In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall, Second Edition, ISBN 0-13-273350-1, S. 732–789, 1999.
[2] David E. Rumelhart et al., Parallel Distributed Processing, Explorations in the Microstructure of Cognition, Vol. 1: Foundations, A Bradford Book, The MIT Press, Cambrigde, Massachusetts, London, England, 1987
[3] H. Rehkugler und H. G. Zimmermann, Neuronale Netze in der Ökonomie, Grundlagen und finanzwirtschaftliche Anwendungen, Verlag Franz Vahlen München, ISBN 3-8006-1871-0, S. 3–90, 1994.
[4] WO00/08599.
[5] WO00/55809 und WO02/27654.
[6] Zimmermann H. G., Neuneier R., Grothmann R., Modelling of Dynamic Systems by Error-Correction-Neural-Networks, in Soofe and Cao (Eds.), Forecasting Financial Data, Kluwer Verlag, ISBN 0792376803, 2002.

Claims

Anordnung zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mit miteinander verknüpften Rechenelementen eines neuronalen Netzes, welche Rechenelemente jeweils einen Zustand des Systems und welche Verknüpfungen jeweils eine Transformation, welche unter Verwendung von Transformationsparametern durchführbar ist, zwischen zwei Zuständen des Systems repräsentieren, – mit mindestens einem ersten Rechenelement, welchem Zustandsgrößen des Systems zu einem ersten Zeitpunkt in einem Zustandsraum zuführbar sind, – mit mindestens zwei miteinander verknüpften, zweiten Rechenelemente, welche Zustände des Systems zu dem ersten und zu einem auf den ersten folgenden, zukünftigen zweiten Zeitpunkt in einem Transformationsraum repräsentieren, wobei zwischen den zwei zweiten Rechenelemente eine Zeittransformation von einem vorhergehenden auf einen nachfolgenden Zeitpunkt durchführbar ist, – mit mindestens einem dritten Rechenelement, an welchem Zustandsgrößen des Systems zu dem zukünftigen, zweiten Zeitpunkt im Zustandsraum abgreifbar sind, – wobei das mindestens eine erste Rechenelement mit dem ersten der zwei zweiten Rechenelemente und das dritte Rechenelement mit dem zweiten der mindestens zwei zweiten Rechenelemente verknüpft sind, wobei eine Raumtransformation aus dem Zustandsraum in den Transformationsraum und eine Raumtransformation aus dem Transformationsraum in den Zustandsraum durchführbar sind, dadurch gekennzeichnet, dass – die der Anordnung im Zustandsraum zuführbaren und abgreifbaren Zustandsgrößen jeweils sowohl Einflussgrößen als auch mindestens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, – die Transformationsparameter zur Durchführung der Raumtransformationen fest sind und – die Transformationsparameter zur Durchführung der Zeittransformation variabel sind.
Anordnung nach dem vorangehenden Anspruch, bei der zumindest ein Teil der Rechenelemente künstliche Neuronen sind.
Anordnung nach einem der vorangehenden Ansprüche, mit mehreren ersten und/oder mit mehreren dritten Rechenelemente sowie mehreren zweiten Rechenelemente, wobei jedes von den mehreren ersten und/oder mehreren dritten Rechenelementen mit einem von den mehreren zweiten Rechenelementen verknüpft ist und dadurch eine Raumtransformation durchführbar ist, und wobei jedes zweite Rechenelement mit einem anderen zweiten Rechenelement verknüpft ist und dadurch eine Zeittransformation durchführbar ist.
Anordnung nach einem der vorangehenden Ansprüche, wobei zumindest ein Teil der Verknüpfungen zwischen zwei zweiten Rechenelementen mittelbare Verknüpfungen sind.
Anordnung nach dem vorangehenden Anspruch, bei der die mittelbare Verknüpfung die Zeittransformation und eine Konsistenztransformation, welche unter Verwendung von Konsistenzparametern durchführbar ist, verbindet.
Anordnung nach dem vorangehenden Anspruch, bei der die Konsistenzparameter fest sind.
Anordnung nach einem der vorangehenden Ansprüche, bei der zumindest ein Teil der Transformationsparameter zur Durchführung der Raumtransformation und/oder ein Teil der Konsistenzparameter zur Durchführung der Konsistenztransformation derart festgelegt sind, dass eine Identitätsabbildung durchführbar ist.
Anordnung nach einem der vorangehenden Ansprüche, bei der zumindest ein Teil der dritten Rechenelemente derart verknüpft sind, dass zukünftige Zustände akkumulierbar sind.
Anordnung nach einem der vorangehenden Ansprüche, bei der dasjenige zweite Rechenelement, welches den zeitlich frühesten Zustand repräsentiert, mit einem Startzustand initialisiert wird.
Anordnung nach dem vorangehenden Anspruch, bei der der Startzustand unter Verwendung eines Cleaning-Verfahrens ermittelt wird.
Anordnung nach einem der vorangehenden Ansprüche, mit einer Messanordnung zur Erfassung physikalischer Signale, mit denen Zustände des dynamischen System beschrieben werden.
Verfahren zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems mithilfe eines neuronalen Netzes, – bei dem Zustandsgrößen des Systems zu einem ersten Zeitpunkt einer Raumtransformation unterzogen werden, welche die Zustandsgrößen von einem Zustandsraum in einen Transformationsraum transformiert, – bei dem die in den Transformationsraum transformierten Zustandsgrößen einer Zeittransformation unterzogen werden, welche die in den Transformationsraum transformierten Zustandsgrößen von dem ersten Zeitpunkt auf einen zukünftigen, zweiten Zeitpunkt transformiert, – bei dem die auf den zukünftigen, zweiten Zeitpunkt transformierten Zustandsgrößen einer Raumtransformation unterzogen werden, welche die auf den zukünftigen, zweiten Zeitpunkt transformierten Zustandsgrößen von dem Transformationsraum in den Zustandsraum transformiert, – wobei die Transformationen unter Verwendung von Transformationsparametern durchgeführt werden, dadurch gekennzeichnet, dass – die von dem Zustandraum in den Transformationsraum transformierten Zustandsgrößen als auch die von dem Transformationsraum in den Zustandsraum transformierten Zustandsgrößen jeweils sowohl Einflussgrößen als auch mindestens eine durch die Einflussgrößen beeinflusste Zielgröße des dynamischen Systems aufweisen, – die Transformationsparameter zur Durchführung der Raumtransformationen fest sind und – die Transformationsparameter zur Durchführung der Zeittransformation variabel sind.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Prognose eines zukünftigen Systemverhaltens des dynamischen Systems derart, dass das ermittelte zukünftige Systemverhalten als die Prognose verwendet wird.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Prognose eines Energieverbrauchs, insbesondere eines Verbrauchs von einer Gasmenge, oder einer makro- oder mikroökonomischen Kennzahl oder einer Steuergröße zur Steuerung des dynamischen Systems.
Computerprogramm mit Programmcode-Mitteln, um alle Schritte gemäß Anspruch 12 durchzuführen, wenn das Programm auf einem Computer oder Teile des Programms auf mehreren Computern ausgeführt wird bzw. werden.
Computerprogramm mit Programmcode-Mitteln gemäß Anspruch 15, die auf einem oder mehreren computerlesbaren Datenträger gespeichert sind.
Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle Schritte gemäß Anspruch 12 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.