EP0995156A2

EP0995156A2 - Verfahren und struktur zur neuronalen modellierung eines dynamischen systems auf einem rechner

Info

Publication number: EP0995156A2
Application number: EP98943653A
Authority: EP
Inventors: Hans-Georg Zimmermann; Ralf Neuneier
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 1997-07-09
Filing date: 1998-07-08
Publication date: 2000-04-26
Also published as: WO1999003043A2; JP2001509623A; WO1999003043A3

Abstract

Die Erfindung beschreibt ein Verfahren und eine Neuronenschichtenanordnung zur neuronalen Modellierung von dynamischen Systemen. Hierzu werden trägheitsbeschreibende und beschleunigungsbeschreibende Parameter der Zeitreihen des Systems separat im Netz trainiert und verarbeitet. Die so erhaltenen Prognosewerte werden zu einer gewünschten Prognosegröße zusammengefaßt. Durch Definition verschiedener Indikatoren je Dynamikparameter können unterschiedliche Targetgrößen in Form von Mittelwerten mit unterschiedlich breiter Basis erhalten werden, durch deren Training ein größerer Fehlerstrom zur Rückmeldung im Netz erzeugt wird, wodurch eine genaue Nachbildung der jeweiligen Dynamikparameter erreicht wird. Die Anordnung und das Verfahren sind bevorzugt für Börsendatenprognosen und andere dynamische Systeme einsetzbar.

Description

Beschreibung

Verfahren und Struktur zur Neuronalen Modellierung eines dynamischen Systems auf einem Rechner

Die Erfindung bezieht sich auf ein Verfahren und eine Schichtenanordnung für ein Neuronales Netz, womit insbesondere dynamische Systeme gut modelliert werden können, wie dieses beispielsweise technische Systeme oder ökonomische Systeme sein können.

Bei der Modellierung von dynamischen Systemen durch Neuronale Netze besteht allgemein das Problem, daß die Information, über die Dynamik des Systems in der zeitlichen /Abhängigkeit benachbarter Muster von Zeitreihen enthalten ist. Meistens werden bei gängigen Lernverfahren von Neuronalen Netzen die Muster den Neuronalen Netzen in einer zufälligen Anordnung präsentiert, um lokale Minima zu vermeiden und die Lerngeschwindigkeit zu erhöhen. Auf diese Weise erhält das Netz sein Wissen über die Kopplung der einzelnen zeitlichen Muster lediglich implizit durch die sich langsam ändernden Neuronengewichte. Besonders schwierig ist ein dynamisches System zu modellieren, wenn viele Eingangsgrößen, d.h. in der Größenordnung von z.B. 30 Eingangsgrößen (es können aber auch meh- rere hundert sein) zu wenigen, d.h. einer einzigen Ausgangsgröße oder wahlweise auch zwei Ausgangsgrößen verarbeitet werden sollen. Um eine gute Abbildung des Systemverhaltens durch das Neuronale Netz zu erhalten, müssen dem Netz sehr viele Zeitreihen präsentiert werden, die oft in der Realität und insbesondere bei ökonomischen Daten nicht vorliegen.

Um diese Problematik in den Griff zu bekommen, gibt es im Stand der Technik Lösungsansätze, bei dynamischen Systemen zu deren neuronalen Modellierung deren inhärente Struktur heran- zuziehen. Bei den zu modellierenden dynamischen Systemen wird insbesondere auf der Targetseite darauf Wert gelegt, daß eine genügende Anzahl von Ausgangsgrößen in Form von verschiedenen Targets zur Verfügung steht, um aufeinanderfolgende Zustände des Systems beschreiben zu können. Auf diese Weise fließt mehr Fehlerinformation von der Targetseite auf die Eingangsseite des Netzes zurück und das System wird so genauer be- schreibbar. Näheres dazu ergibt sich aus Hans Georg Zimmermann und Andreas S. Weigend, "How To Represent Dynamical Systems In Feed Forward Networks: A Six Layer Architectuie" Proceedings of the Fourth International Conference on Neural Networks in the Capital Market (NNCM-96) , Seite^" 1-18, veröf- fentlicht in Decision Technologies for Financial Engineering. In dieser Druckschrift wird ein sechslagiges Schichtenmodell für ein Neuronales Netz vorgeschlagen, um die Dynamik eines technischen Systems, bzw. eines Systems das der Vorhersage von Aktiendaten mittels einer Dynamik-Charakterisierung der Einflußgrößen vornimmt, zu beschreiben. Zum Zwecke einer besseren Modellierung einer Zeitreihe, werden dort mehrere benachbarte Werte der Zeitreihe separat in unterschiedlichen Zweigen des Neuronalen Netzes als Target trainiert und später durch Mittelwertbildung zur gesuchten Ausgangsgröße zusammen- gefaßt. Die Abhängigkeiten zwischen benachbarten Mustern werden dem Neuronalen Netz am Ausgang durch einen sogenannten Interaction Layer aufgeprägt.

Unter einem Zweig ist in diesem Zusammenhang ein Teil des Neuronalen Netzes zu verstehen, welches selbst ein künstliches Neuronales Netz ist mit Eingängen, mindestens einem Ausgang und adaptierbaren Gewichten bei Kopplungen einzelner Neuronen.

Aus DE 195 37 010 AI ist ein Lernverfahren und eine Lernanordnung zur Nachbildung eines dynamischen Prozesses durch gemeinsames Erlernen von mindestens zwei Zeitreihen bekannt. Für jede Zeitreihe wird eine eigene lernfähige Komponente bereitgestellt, der Vergangenheitswerte der verwendeten Zeit- reihen zugeführt werden. Eine Gegenwartskomponente einer

Zeitreihe wird von ihren Vergangenheitswerten und den Vergangenheitswerten der anderen Zeitreihen dekorreliert . Aus US 5 479 571 A ist ein Neuronales Netz mit zwei versteckten Schichten bekannt.

Die der Erfindung zu Grunde liegende Aufgabe besteht darin, ein weiteres Verfahren und eines weitere Struktur anzugeben, womit dynamische Systeme neuronal auf einem Rechner modelliert werden können.

Diese Aufgabe wird gemäß den Merkmalen des Patentanspruches 1 für das Verfahren und gemäß den Merkmalen des Anspruches 8 für die Struktur gelöst.

Das Verfahren zur neuronalen Modellierung eines dynamischen Systems auf einem Rechner umfaßt folgende Merkmale: a) Einflußgrößen des dynamischen Systems werden zur Nachbildung mindestens einer ersten Ausgangsgröße in mindestens eine erste Einflußgröße, welche die Trägheit des dynamischen Systems bestimmt und in mindestens eine zweite Ein- flußgröße, welche die Beschleunigung des dynamischen Systems bestimmt, gruppiert; b) in einem neuronalen Netzwerk (NN) werden mindestens ein erster (ZI) und ein zweiter (Z2) parallel zueinander verlaufender Zweig des neuronalen Netzwerks (NN) des separat mit dem Verhalten jeweils der ersten Einflußgröße bzw. zweiten Einflußgröße trainiert; c) zur Bildung einer ersten Ausgangsgröße (AD) in Abhängigkeit der Einflußgrößen (ED) werden die bzw. alle Ausgänge der parallelen Zweige (ZI, Z2) des neuronalen Netzwerks (NN) kombiniert.

Die Schichtenanordnung für ein neuronales Netzwerk zur Nachbildung eines dynamischen Systems weist folgende Merkmale auf: a) zur Nachbildung mindestens je einer ersten Einflußgröße, welche die Trägheit des dynamischen Systems bestimmt und einer zweiten Einflußgröße, welche die Beschleunigung des dynamischen Systems bestimmt, sind mindestens jeweils eine versteckte erste (4000) bzw. zweite (4500) Neuronen- schicht, sowie eine erste (5000) bzw. zweite (5500) Ausgangsschicht vorhanden; b) es ist eine Kombinationsschicht (6000) vorhanden zur Kombination der nachgebildeten ersten Einflußgröße (610) und zweiten Einflußgröße (620) zu Ausgangsgrößen.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Besonders vorteilhaft werden in einer Weiterbildung unterschiedliche dynamische Einflußgrößen des Dynamischen Systems unterschieden, die die Trägheit und die Beschleunigung des Systems charakterisieren. Durch separate Modellierung in verschiedenen Unterzweigen eines Neuronalen Netzes nach dem erfindungsgemäßen Verfahren wird das Neuronale Netz gezwungen die Targetgröße anhand von unterschiedlichen Dynamik- Charakteristika zu lernen, wobei die selben Eingangszeitrei- hen Verwendung finden können. Die nachzubildende Ausgangsgröße wird erst im Anschluß durch Überlagerung der modellierten Targetgrößen dieser beiden unterschiedlichen Dynamikparameter gebildet.

Vorteilhaft können dem Neuronalen Netz Zeitreihen in Form von Zeitreihenvektoren verschiedener Einflußgrößen zugeführt werden und die gebildete Ausgangsgröße wird zu einer einzigen Ausgangsgröße durch eventuell gewichtete Mittelwertbildung zusammengefaßt werden, da so der Rauschanteil in den Ein- gangsgrößen reduziert wird und durch die Modellierung verschiedener Eingangsgrößen eine genauere Nachbildung der Ausgangsgröße möglich ist.

Besonders vorteilhaft ist es in einer weiteren Ausgestaltung vorgesehen, eine Vorverarbeitung der eingehenden Signale durchzuführen, indem diese neuronal gewichtet werden, wobei diese Neuronengewichte durch nachgeordnete Lagen des Neurona- len Netzes eingestellt werden, um unerwünschte Einflußgrößen, die mit dem zu modellierenden Dynamischen System nichts zu tun haben, ausfiltern zu können.

Die Zweige des Neuronalen Netzes können nicht nur mit linearen Einflußgrößen, sondern auch mit quadratisch gewichteten Einflußgrößen versorgt werden, da somit dem Neuronalen Netz zusätzlich zur Durchführung von Fallunterscheidungen auch die Möglichkeit gegeben wird, durch Implementierung^' radialer Ba- sisfunktionen Ähnlichkeiten innerhalb der Muster festzustellen.

Weiterhin können für die dem jeweiligen Neuronalen Netz zuzuführende dynamische Kenngröße, d.h. also Trägheitsparameter oder Beschleunigungsparameter, eine Mehrzahl von Indikatoren gebildet werden, damit durch eine Mehrzahl von Targetgrößen ein größerer Fehlerrückfluß innerhalb des Netzes erzeugt wird und somit eine genauere Nachbildung der jeweiligen Dynamikgröße möglich ist. Hierzu wird vorzugsweise der Mittelwert bzw. die Krümmung mit mehreren definierten Intervallabständen um den Zielwert herum modelliert.

Ferner können schon die Eingangsgrößen für das Verfahren in Form der gewählten Indikatoren aufbereitet werden, um dem Netzwerk ein klares Bild des internen Zustandes des zu modellierenden dynamischen Systems zu zeigen. Ein dynamisches System wird durch die momentan wirkenden Trägheiten und beeinflussenden Kräfte charakterisiert. Aus den angebotenen Input- zeitreihen kann man nun auf die wirkende Trägheit und die Kräfte zurückschließen indem man die ersten und zweiten Differenzen der Zeitreihen benutzt. Zur Normierung der Größenordnung der Inputindikatoren wird zusätzlich durch die Zeitreihe dividiert, wodurch wir zu relativen Änderungen kommen.

In einer weiteren Ausgestaltung wird ein Teil der Kräfte nicht nur einfach als zweite Ableitungen dargestellt. In vielen Prozessen wird das dynamische System durch eine Pendelbe- wegung um ein Gleichgewicht charakterisiert. Hier ist der Abstand zwischen einem Punkt der Zeitreihe und dem Equilibrium eine bessere Charakterisierung der wirkenden Kraft als die Beschreibung in Form einer Beschleunigung. Als einfache Nähe- rung zur Beschreibung des momentan gültigen Gleichgewichtspunktes bietet sich der Mittelwert der letzten Werte der Zeitreihe an. Wählt man nun die Differenz des gegenwärtigen Wertes der Zeitreihe und des Mittelwertes als Equilibrium, so hat man die neueste Punktinformation genutzt aber einer ver- alteten Schätzung des Equilibriums gegenübergestellt. Es erweist sich als vorteilhafter in der Differenz einen vergangenen Wert der Zeitreihe dergestalt zu wählen, das die Mittelwertbildung zur Schätzung des Equilibriums symmetrisch um diesen Punkt angeordnet ist. So erhält man eine bessere Cha- rakterisierung der Spannung zwischen Punkt und Gleichgewicht des zu charakterisierenden dynamischen Systems.

Ferner kann eine Schichtanordnung für ein Neuronales Netzwerk zur Nachbildung eines Dynamischen Systems vorgesehen sein, weil dort für jede nachzubildende dynamische Kenngröße ein separater Zweig im Neuronalen Netz vorgesehen ist und durch die Kontrolle der versteckten Lagen mit einer Ausgangsschicht ein erhöhter Fehlerrückfluß erzeugt wird, durch den dem Neuronalen Netz die Information über die Abhängigkeit benachbar- ter Zeitreihenwerte aufgeprägt wird.

In einer Weiterbildung der erfindungsgemäßen Schichtenanordnung ist eine Vorverarbeitungsschicht vorgesehen, welche beide bzw. die jeweiligen Netzwerkzweige gemeinsam bedient, da beispielsweise keine zwei verschiedenen Vorverarbeitungsstufen vorgesehen werden müssen und da die Gewichte in der Vorverarbeitungsschicht durch die Fehlerrückführung aus den jeweiligen Zweigen des Neuronalen Netzwerkes eingestellt werden, um unerwünschte Einflußgrößen auszufiltern und somit ei- ne genauere Ausfilterung von Störgrößen erfolgen kann. Besonders vorteilhaft ist bei einer Weiterbildung der Schichtenanordnung eine Quadratschicht vorgesehen, welche die Eingangswerte bzw. die von der Vorverarbeitungsschicht angelieferten Werte quadratisch gewichtet. Hierdurch wird den nach- folgenden Schichten die Nachbildung radialer Basisfunktionen und somit die Herstellung von Ähnlichkeitsbezügen und nicht nur von Fallunterscheidungen eingehender Muster ermöglicht.

Auch kann der Kombinationsschicht, der einzelnen Zweige der Schichtenanordnung eine, eventuell gewichtete, Mittelwertschicht nachgeordnet sein, um aus den Vektoren der Vorhersagegröße einen Mittelwert zu bilden und damit das Rauschen innerhalb der einzelnen Werte zu minimieren.

Besonders vorteilhaft werden bei der Schichtenanordnung den jeweiligen Zweigen des Neuronalen Netzes als Ausgangsschichten Kontrollschichten nachgeordnet, welche die Intervallabstände der einzelnen Indikatoren von der jeweiligen nachzubildenenden dynamischen Kenngröße modellieren und durch Feh- lerrückführung verhindern, daß das Neuronale Netz bzw. der jeweilige Zweig des Neuronalen Netzes anstatt unterschiedlicher Indikatoren lediglich einen modelliert.

Im folgenden wird ein Ausführungsbeispiel der Erfindung an- hand von Figuren weiter erläutert.

Figur 1 zeigt als Beispiel ein Blockdiagramm eines erfindungsgemäßen Verfahrens Figur 2 zeigt als Beispiel ein Neuronales Netz mit einer erfindungsgemäßen Neuronenschichtenanordnung.

Wie Figur 1 zeigt, weist ein Verfahren EV beispielsweise Verarbeitungsblöcke, einen ersten Verarbeitungsblock ZI und einen zweiten Verarbeitungsblock Z2, sowie einen weiteren Ver- arbeitungsblock 3000 auf. Mit den Verarbeitungsblöcken ZI und Z2 sind zwei separate Zweige, ein erster Zweig ZI und ein zweiter Zweig Z2 eines Neuronalen Netzes NN bezeichnet.

Der erste Verarbeitungsblock ZI und der zweite Verarbeitungsblock Z2 erhalten Eingangsdaten in Form von Zeitreihen, die einem realen System abgenommen, d.h. gemessen wurden.

In dem ersten bzw. zweiten Verarbeitungsblock ZI und Z2 sind beim Neuronalen Netz NN jeweils mehrere Verarbeitungsschichten, eine erste Verarbeitungsschicht 1000 und eine zweite Verarbeitungsschicht 2000 des ersten Verarbeitungsblocks ZI bzw. eine erste Verarbeitungsschicht 1500 und eine zweite Verarbeitungsschicht 2500 des zweiten Verarbeitungsblocks Z2 vorgesehen, welche durch Signalleitungen 110 und 120 miteinander verbunden sind.

In dem ersten Verarbeitungsblock ZI des werden Beschleunigungskenngrößen, wie die Kraft, welche eine Rückstellung bzw. eine Dynamik im System bewirkt, beschrieben.

In dem zweiten Verarbeitungsblock Z2 werden Trägheitskenngrößen des Dynamischen Systems nachgebildet. Die Eingangsdaten der Zeitreihen, mit welchen diese jeweiligen Verarbeitungs- blocke nach dem Verfahren identisch versorgt werden, werden in Bezug auf identische Indikatoren für diese jeweiligen dynamischen Kenngrößen aufbereitet.

Für den zweiten Verarbeitungsblock Z2 ist es vorgesehen, ei- nen Mittelwert um einen Vorhersagewert herum nachzubilden, indem ausgehend von diesem Vorhersagewert Zeitreihenwerte in verschiedenen Abständen um diesen Wert herum zur Mittelwertbildung herausgezogen werden.

Analog gilt dies für den ersten Verarbeitungsblock ZI, bei dem die Krümmung der Zeitreihe für verschiedene Kurvenabschnitte um den Vorhersagewert herum zugeführt werden kann. Nach der internen Verarbeitung in den verschiedenen Zweigen des Neuronalen Netzes, bzw. den Verarbeitungsblöcken ZI und Z2 werden die Ausgangsgrößen über Verbindungsleitungen 210 und 220 einem Kombinationsbaustein 3000 zugeführt, der daraus Ausgangsdaten, d.h. den Vorhersagewert erzeugt. Durch das Verfahren wird erreicht, daß für eine jeweilige dynamische Kenngröße separate Targetgrößen definiert werden und diese in unterschiedlichen Zweigen eines Neuronalen Netzes nachgebil- det werden. Hierdurch wird eine strikte Trennung dieser Dynamik charakterisierenden Größen bei der Modellierung erreicht, indem auch beim Training separate Indikatoren durch das Neuronale Netz gelernt werden. Durch die Bildung einer Mehrzahl von Indikatoren je Verarbeitungsblock ZI, Z2 wird erreicht, daß eine Mehrzahl von Targetgrößen gelernt werden muß und damit die jeweilige Dynamikgröße die durch den Verarbeitungsblock nachzubilden ist, durch eine erhöhte Fehlerrückführung innerhalb des Verarbeitungszweiges besser nachgebildet wird, weil die Fehlerrückführung zu einer genaueren Einstellung der Gewichte im Neuronalen Netz führt.

Wie Figur 2 zeigt, weist ein Neuronales Schichtenmodell für die Neuronale Modellierung eines dynamischen Systems mehrere Schichten 1000, 2000, 3000, 4000, 4500, 5000, 5500, 6000, 7000, 75000 auf, wobei die jeweilige Tausender-Ziffer die Numerierung der Schichten angibt.

Die Verbindungen der einzelnen Schichten miteinander sind durch dicke und dünne Pfeile beschrieben, wobei die dicken Pfeile anzeigen, daß eine Gewichtseinstellung durchgeführt werden kann, während die dünnen Pfeile anzeigen, daß vordefinierte Gewichte eingestellt sind.

Obwohl in diesem Ausführungsbeispiel sieben Schichten darge- stellt sind, ist es für die Erfindung nicht erforderlich, daß alle Schichten für die Durchführung der Erfindung vorhanden sind. Das Grundprinzip der Erfindung, läßt sich auch schon durch die Schichten 4000 bis 6000 darstellen.

Vor der Eingangsneuronenschicht 1000 des Neuronalen Netzes NN wird eine Vorverarbeitung der Zeitreihendaten des Dynamischen Systems durchgeführt. In Bezug auf ökonomische Daten zeigt die Vorverarbeitung dem Netzwerk ein Bild der zum gegenwärtigen Zeitpunkt wirksamen Impulse und Kräfte in den Märkten.

Insbesondere sollten einzelne Teildynamiken, ausgedrückt durch die verschiedenen Eingangsgrößen, durch ihre Trägheit und die mit ihnen verbundenen Kräfte, charakterisiert werden. Bevorzugt bietet sich als Maß für die Trägheit die relative Änderung einer Eingangsgröße an. Hierdurch wird die Geschwin- digkeit in der Veränderung dieser Eingangsgröße repräsentiert und die Größenordnung der Eingangsgröße herausnormiert.

Zur Charakterisierung einer Kraft wird die zweite Ableitung der Eingangsgröße herangezogen. Wahlweise kann es sich bei Eingangsgrößen jedoch um Gleichgewichtsgrößen handeln, deren rückstellende Kraft von einem Abstand des aktuellen Zustands vom jeweiligen Gleichgewichtszustand abhängig ist. Bei einem mechanischen System ist dies die Auslenkung eines Federpendels aus dem Ruhezustand. Bei einem ökonomischen System ist diese Beobachtungsgröße beispielsweise ein Preis, der aus einem Gleichgewichtsprozeß zwischen Angebot und Nachfrage abgeleitet wird.

Für dessen Charakterisierung bietet sich zur Beschreibung der rücktreibenden Kraft eine andere Vorgehensweise an. Bei solchen Dynamiken stellt der Abstand vom gegenwärtigen Wert zum Gleichgewichtswert ein besseres Maß für die Kraft dar, welche das System in Richtung auf den Gleichgewichtszustand zurückzieht. Dabei läßt sich eine einfache Schätzung der Gleichge- wichtslage durch die Mittelwertbildung der letzten Werte in der Zeitreihe errechnen. Diese Vorgehensweise hat allerdings den Nachteil, daß der gegenwertige Wert der Zeitreihe einer veralteten Schätzung des Gleichgewichtswerts gegenübersteht .

Deshalb wird folgender Weg bevorzugt den vorherzusagenden Punktwert soweit in der Zeit zurücksetzen, daß es möglich wird einen zentralen Mittelwert der Punktinformation gegenüberzustellen. Dieses Konzept kann anhand folgender Beispiele nachvollzogen werden, wobei der Index t den aktuellen Zeit- räum bezeichnet, t-6 z.B. den Zeitpunkt 6 Schritte früher und aver (x(t), 12) die Mittelwertbildung über die aktuellsten 12 Daten angibt.

1. x = Inflationsindikator (Bsp. einer Zeitreihe, die nicht aus einem Gleichgewichtsprozeß stammt) INPUT = (x(t) - x(t-6)) / x(t-6) INPUT = (x(t) - 2*x(t-6) + x(t-12) )/x(t-6) y = US-$ (Beispiel einer Zeitreihe, die durch ein Angebot - Nachfragegleichgewicht definiert wird) INPUT = (y(t) - y(t-6)) / y(t-6)

INPUT = (y(t-6) - aver (y(t) ,12) )/y(t-6)

Diese externe Vorverarbeitung vor der Eingangsschicht 1000 kann jedoch ein dringendes Problem, welches sich beispiels- weise bei Ökonomischen Analysen stellt, nicht vollständig lösen. Dabei handelt es sich um die Begrenzung von Ausreißern, oder besser das Filtern größerer Bewegungen Ökonomischer Zeitreihen, welche nicht durch die Ökonomie, sondern durch politische Willensentscheidung herbeigeführt worden sind. Hier stellt sich jedoch das Problem, die unbekannte Größe, ab welcher die Dämpfung der Eingangsvariablen vorgenommen werden soll, anzugeben.

Hierzu ist Neuronalen Schichtenanordnung eine Vorverarbei- tungsschicht 2000 vorgesehen, mit welcher durch die Netzwerkarchitektur das Problem durch das Neuronale Netz NN interna- lisiert wird, indem die unbekannten Dämpfungskonstanten als lernbarer Parameter im Netz erscheinen.

Die interne Vorverarbeitung der dem Neuronalen Netz NN ange- botenen Signale erfolgt durch eine Gewichtsmatrix zwischen der Eingangsschicht 1000 und der Vorverarbeitungsschicht 2000, welche aus einer Diagonalmatrix besteht, welche Diagonalmatrix mit 200 bezeichnet ist.

Für die Aktivierungsfunktion der ersten inneren Schicht wird der Tangens hyperbolicus (tanh) eingesetzt. Durch diese Vorgehensweise und Schichtenanordnung werden Ausreißer in den Werten beschränkt. Ebenfalls wird vorteilhaft auch gewichtsbasiertes Prunen von Eingängen durch diese Gewichtsmatrix un- terstützt. Bevorzugt sollte die Initialisierung der Gewichte in der Vorverarbeitungsschicht 2000 mit 1 erfolgen und bevorzugt sollten die Gewichte auf Werte zwischen 0 und 1 beschränkt werden.

In der Neuronenschichtenanordnung werden die Ausgangssignale der Vorverarbeitungsschicht 2000 zu drei weiteren Neuronen- schichten 3000, 4000 und 4500 weitergeleitet. Während an die Schicht 3000 eine reine Kopie der Signale weitergeleitet wird, so daß mit 300 eine Identitätsabbildung bezeichnet wird, erhalten die weiter folgenden Schichten 4000 und 5000 bzw. 4500 und 5500 die von der Vorverarbeitungsschicht 2000 abgeleiteten Signale linear und quadriert transformiert, was durch Pfeile 400 bis 450 angedeutet ist.

Durch die Anwendung einer quadratischen Aktivierungsfunktion auf die von der Vorverarbeitungsschicht 2000 abgegebenen Daten in der Neuronenschicht 3000 wird erreicht, daß das Neuronale Netz auch radiale Basisfunktionen implementieren kann und somit nicht lediglich Fallunterscheidungen durchführen kann, sondern auch Ähnlichkeiten in den angebotenen Mustern lernen kann. Die so erzeugten Signale 400, 410 bzw. 420 und 450 werden im Anschluß noch mit Gewichten in den Neuronen- schichten 4000 und 5000 bzw. 4500 und 5500 multipliziert, wobei die Schichten 5500 und 5000 Ausgangsschichten des Neuronalen Netzes NN darstellen, während die Schichten 4000 und 4500 versteckte Neuronenschichten darstellen.

Dieser Teil der neuronalen Schichtenanordnung verbindet die klassischen Konzepte eines Multilayerperzeptron mit einer sigmoiden inneren Schicht von Neuronen und eines klassischen radialen Basisfunktionennetzes. Damit werden die globalen und lokalen Ansätze dieser Aproximationsansätze verbunden. Als

Aktivierungsfunktion für die Vorverarbeitungsschicht 2000 und die versteckte Schicht 4500 wird der Tangens hyperbolicus gewählt. Unter Umständen kann es hilfreich sein, die Aktivierungsfunktion um eine Softmax-Funktion zu erweitern.

Die Schichten 5000 bzw. 5500 identifizieren das zu Grunde liegende dynamische System. Hierzu sind diese beiden Schichten als erste Ausgangsschichten in der Neuronalen Schichtenanordnung vorgesehen und besitzen Zielwerte, die es zu lernen gilt. Hierbei sind die Gewichte, wie zuvor bereits bei der Erläuterung der Pfeilstärken angedeutet, der Schichten 4000 bis 5500 adaptierbar. Bevorzugt werden für die Schicht 5500, welche hierbei beispielsweise den Trägheitsanteil des Dynamischen Systems modellieren soll, als Targetwerte 3-Punkt Mit- telungen und Gleichgewichtsinformationen der zu aproximieren- den Zeitreihe angeboten. Im folgenden sind einige Beispiele solcher Target- bzw. Zielwerte angegeben.

TARGET = ( x(t+5) + x(t+6) + x(t+7)) / (3 * x(t)) - 1) TARGET = ( x(t+4) + x(t+6) + x(t+8)) / (3 * x(t)) - 1) oder

TARGET = (aver(x(t+7) ,3) - x(t)) / x(t)

TARGET = (aver(x(t+8) ,5) - x(t)) / x(t)

Bevorzugt sind diese Einbettungen symmetrisch um den vorherzusagenden Wert hier beispielsweise x(t)+6 herum angeordnet. Als Mittelwertbildungen weisen sie zusätzlich die vorteilhaf- te Eigenschaft auf, das Rauschen in den Daten zu dämpfen. Der Schicht 5000, welche Beschleunigungseigenschaften des Systems lernen soll, werden dagegen sogenannte Kräfte bzw. meanrever- ting Informationen angeboten. Für die Kräfte, welche als Tar- get- bzw. Zielwerte der AusgangsSchicht 5000 angeboten werden, bieten sich folgende Charakterisierungen an:

1. TARGET = (-x(t+5) + 2 * x(t+6) - x(t+7)) / (3 * x(t)))

TARGET = (-x(t+4) + 2 * x(t+6) - x(t+8)) /^' (3 * x(t))) oder

TARGET = (x(t+6) - aver(x(t+7) ,3) ) / x(t)

TARGET = (x(t+6) - aver(x(t+8) ,5) ) / x(t)

Hierbei handelt es sich um Kräftecharakterisierungen in Form von Beschleunigungen, oder in Form von Umkehrkräften in

Gleichgewichtssituationen. Ein entscheidender Punkt ist nun, daß sich die Einbettungen und die zugehörigen Kräfte durch einfache paarweise Addition zu dem am Ende erwünschten Zielwert

TARGET = (x(t+6) - x(t)) / x(t)

ergänzen. Dies kann man nachvollziehen, indem einfach die beiden Formeln die untereinander stehen und benachbart sind, aufaddiert werden. Selbstverständlich soll hier nicht angedeutet werden, daß diese Vorgehensweise die einzige Möglichkeit darstellt, die Erfindung zu realisieren. Mit der angegebenen Lehre kann jeder Durchschnittsfachmann andere Mittelwertbildungen bzw. andere Targetgrößen auswählen und entspre- chend miteinander kombinieren, um einen vorherzusagenden Zielwert nachzubilden, ohne dadurch erfinderisch tätig zu werden, bzw. ohne dadurch nicht im Sinne der Erfindung vorzugehen. Da bevorzugt durch verschiedene Einbettungen und verschiedene Spannweiten der zugehörigen Kräfte viele Charakte- risierungen der Dynamik dargestellt und damit gelernt werden können, werden bei der Nachbildung des dynamischen Systems in den einzelnen Zweigen d.h. 4500, 5500 bzw. 4000 und 5000 ent- co co M M I-¹ P¹

Cπ o cπ O Cπ o cn tr φ Φ 52 O CL 3 52 UI- ^{1 y}Q P" < ^Q CΛ 3 DJ g IS⁾ CΛ ιQ S yQ i^- P CL CL cπ p- 52 tt CΛ

N P P- φ P d φ φ φ φ DJ DJ φ φ Φ Φ Φ Di 3 3 Z rt Φ φ Ci DJ Φ Φ d P CL Dl Hi CL Ό z 3 rt CL 3 rt tr Z P 3 P P rt P rt n CL Φ P- CΛ P- P" 3 3 P d Φ rt Φ CL P

• DJ Φ N 3 yQ er Φ Φ P P" ιQ 3 er ιQ CΛ N er Φ CL P- ω rt CΛ rt 3 n 3 3 d: P- P- φ d 3 DJ d cn DJ 3 P- = φ rt P- P n rt ^yQ P P- o DJ Φ P- P- tr et rt P " rt n

CΛ tr P 3 ιQ 3 O tr 3 O: er ^ φ Φ Z er rt Q P- DJ φ ^yQ p- P- Φ P- er

^•< rt P O yQ Φ P- CL P- fr P- φ d α εo P- o Φ Φ rt P- Φ 3 tr P d Φ CΛ P- O Φ ω φ er 3 cn Φ vQ Hi 3 1-1 3 Φ Φ φ d P tr P- P Φ 3 3 ^yQ φ 3 et O o σ> 3 rt t DJ tr er P> v

Ct P- P- D : O P Φ : et P 3 α 3 CL N 3 rt rt φ 3 r CL φ P- n rt P- So er P er tsi O 3 Φ 3 z rt Φ α Φ tt & Z Φ 3 Φ o P-

3 φ er Φ cn Φ Φ Φ p d ^ 3 _^ Hi 3 CL φ • Φ P 3 CL P- P cn P- d P ^ CΛ 3 < cn Φ W rt P X •-3 d cn cn P- d= Φ d rt P Φ CΛ P- 3 O rt n 3 cn φ s P- d P-

52 3 rt <J ^•o DJ 3 DJ p- n CL P 3 P Φ CL cn P- Φ φ »Q er 3- CL n 3 3 3 Φ φ

Φ P- d Φ Φ tr P ιQ a n er DJ O 3 Φ O > n CΛ P 3 Φ er tr CL CL P- P"

P- o tt P cn P N P- ιQ p er rt G> ^ H er P er d tr O d 3 DJ P- CL P- 3 φ

3 er Φ Hi z N Φ Φ Φ rt P 3 CΛ P- CΛ Φ CJ 52 CΛ tP 3 Φ Φ P¹ φ σ» Φ

N rt er CL Φ DJ • P- rt P 3 p- DJ CL ß^: rt Φ n φ »Q P tr Φ Φ Z cn CL P CL tr NJ P N d P* φ P- tT rt Z P er vQ P¹ DJ a Φ P- er P CL DJ er Φ d P- n P- d Φ o Z

Hi P- φ 3 3 H Ό φ φ Φ DJ rt cn 3 P 3 P- Di: φ 3 Φ P P N d P er P- tt 3 3 Z P-

DJ 3 P Φ er 3 P P- 3 . φ d Φ n Hi ^yQ P- o d P et * n P ιQ H) er φ cn

3 Φ cn t-< Z 3 • rt n ^yQ 52 3 DJ er rt CL cn rt DJ 3 CΛ n P- er Pi DJ φ P- n ^yQ DJ rt Φ φ cn S Φ e ö < Φ ιQ £ rt Φ φ cn Φ ^yQ φ DJ er φ Φ P- cn P- a rt er

Φ H H P cn tr P- O rt 3 d φ d P^J o Φ P n 3 Φ 3 a σ tP 3 rt Φ Φ φ

3 P- O 3 φ N f ιQ - p- P P P d ιQ CL 3 d er • P CΛ a φ P- φ IS! CL DJ CΛ d P 3

• rt 3 φ 3 z DJ Φ Φ rt o cn o 3 P φ 3 < P- d n Φ P- Φ 3 z d rt rt Φ Ό

DJ: 3 rt P" P" α er O 3 et O: P¹ ^] rt φ o 3 er 3 3 cn CL φ 3 rt tt Φ 3 P ec rt N P¹ P- P¹ Φ DJ CL er DJ EP P" o Φ P er ^yQ P- ιQ φ φ P- ^yQ Hi DJ: 3 o

P- d CL P- CL cn P- ι-f EP Φ et P- P- s Φ P- o P cn rt o Φ N iQ p- P" 2 iQ φ CL P d n P- n φ 3 3 DJ Φ φ P- 3 φ o Φ rt Φ N er CΛ £ < d Φ < 3 P¹ P- Φ 3

P Φ P er Φ er P rt Φ cn CL rt P P- er 3 d rt φ P- P- Φ CL Φ 3 d o tr CΛ < n Φ Φ d P- ι-3 φ 52 rt d 3 P- CΛ rt rt φ Φ P- P Φ P CΛ

Φ φ er cn Φ P 3 ∑: 3 DJ tz 3 Φ Φ et 3 -J Di φ DJ: s N rt }-^• P- 3 cn rt CL et o Φ

P- N P P ^yQ P- H Φ φ rt P- ιQ cπ 3 CL o rt _§ rt Φ N 3 rt - Φ P- 3 3 d Hi s Hi σ H CL ιQ P 3 N s: Φ o CL φ o N tt P^J DJ Φ Φ tr 3 Φ Φ

CΛ P- *< o- CL φ Φ 3 Φ CL o Φ 3 o Z S er 3 P- P- o f cn Cn d: P- φ 3 Φ o d vQ φ P 3 3 fr • 3 rt Φ P tr φ P Φ P- CΛ Φ Φ P¹ 3 Φ er tr φ cn P

P^> 3 d CL

B^* DJ o iQ 3 3 Φ rt Φ P Z 3 d n rt P P H Φ Ct 3 DJ 3 n 3^{^}

P^J rt 3 <J d 3 3 H CL CL P- Φ N 3 er DJ CL rt D> 3 Φ φ P er DJ rt Φ ^yQ P- DJ 3 P- O 3 O: et P- P- Φ P d W CL rt φ tr O P 3 _^ W P- P"

Φ P φ P- yQ fr 3 rt ϊ > Φ ^yQ P- CL 3 CL P- Φ rt 3 P- 3 uq 52 Φ CL Φ n rt

CΛ N P¹ cn Φ P- Φ Φ P DJ 3 φ rt φ ?^ 3 -J P- Hi φ Φ DJ P- P- er Φ tr d d φ ^yQ 3 cn P 3 rt P- Φ P Φ 3 o tr Cπ 3 P- Ct CS3 rt d σ tP 3 cn rt 3

Φ π 3 φ rt < UI- O Cl P 3 φ o Φ 3 z d Z Z P Ό ^

<! er cn Φ 3 CL er DJ Z Φ P er *> w CΛ tr rt rt o 3 α φ 3 P- Φ o et CL P- σι o Φ rt >^■ P DJ: d φ P¹ P- £ Φ O P- rt Φ P rt Φ P^« iQ CΛ P 3 DJ D» Φ φ o Z

P 3 Φ d S> P. P P^J P Φ 3 φ P* er <! O d ω rt rt n rt DJ 3 tr 3 o Φ

N CL P" CΛ <5 Φ n Φ t p- P- P¹ Ct P- o 3 P- d • er N er P- P- Φ Φ o P" d φ P^J ιQ o er σ 3 P" tr 3 Φ d φ P P^{1 y}Q 3 CΛ φ d Φ - N φ fr P- 3 et n vq 3 Φ Dl P CΛ tr p- φ φ 3 CL N P- Φ CL ιQ <5 3 d 3 T P- φ rt er

3 3 iQ n CL N Φ ^yQ P- 3 cn ^yQ φ d Φ 3 H o tr φ Ό DJ UI. tr Φ P φ

3 iQ Φ er J DJ d P- Φ 3 TJ yQ P <1 Φ P Φ P- P fr 52 P φ P- yQ tr DJ cn cn P- cn 3 iQ 3 S P- Ct CL rt Φ d O P- rt P- 3 O o Φ DJ et Φ Φ cn

Φ p et 3 o n P- Φ tr¹ P- φ φ • 3 3 P n Φ cn Φ »Q rt 3 o P CL σ P- J fr Φ Φ er er φ ^- o Φ M Φ rt P er Φ • rt iQ er P- τ P 3 & N φ n Φ Φ o n rt P d P^J rt H φ P P 3 P rt φ • P- Φ Φ P- P- O P- rt er i 3 3 er er φ P DJ Φ Hi 3 CL rt 3 Φ 3 t-3 3 σ P cn Λ er φ Φ Cn 3 N Φ φ rt • rt cn Φ O ιQ 3 P- 3 tt Φ <! - DJ CL vQ P- Φ φ rt DJ P¹ 3 Φ P- d < P- P- C

Φ cn 3 Φ DJ 3 d φ Φ P O s: N P Φ Φ Φ P- er DJ Hi CΛ CL 3 φ o 3 rt ö d rt Φ 3 3 1 3 rt er 1 P Φ d 1 P 1 CΛ 3 Φ rt rt 1 1 3 3 Φ D : P- P 3 Φ 1 et Φ 1 1 P Φ 1 3 P- o rt φ 3 P rt 1 1 • o er

Cπ

Claims

Patentansprüche :

1. Verfahren zur neuronalen Modellierung eines dynamischen Systems auf einem Rechner mit folgenden Merkmalen: a) Einflußgrößen des dynamischen Systems werden zur Nachbildung mindestens einer ersten Ausgangsgröße in mindestens eine erste Einflußgröße, welche die Trägheit des dynamischen Systems bestimmt und in mindestens eine zweite Einflußgröße, welche die Beschleunigung des dynamischen Sy- stems bestimmt, gruppiert; b) in einem neuronalen Netzwerk (NN) werden mindestens ein erster (ZI) und ein zweiter (Z2) parallel zueinander verlaufender Zweig des neuronalen Netzwerks (NN) des separat mit dem Verhalten jeweils der ersten Einflußgröße bzw. zweiten Einflußgröße trainiert; c) zur Bildung einer ersten Ausgangsgröße (AD) in Abhängigkeit der Einflußgrößen (ED) werden die bzw. alle Ausgänge der parallelen Zweige (ZI, Z2) des neuronalen Netzwerks (NN) kombiniert.

2. Verfahren nach Anspruch 1, bei dem die Einflußgrößen des dynamischen Systems zur Nachbildung mindestens einer ersten Ausgangsgröße in mehrere erste Einflußgrößen, welche die Trägheit und in mehrere zweite Einflußgrößen, welche die Beschleunigung des dynamischen Systems bestimmen, gruppiert werden.

3. Verfahren nach Anspruch 1 oder 2 a) bei dem die Einflußgrößen (ED) dem neuronalen Netz (NN) in Form von Zeitreihenvektoren zugeführt werden und somit ein

Ausgangsgrößenvektor aus ersten Ausgangsgrößen (AD) gebildet wird, b) und bei dem zur Bildung der ersten Ausgangsgröße der Mittelwert seiner Vektorkomponenten gebildet wird.

Verfahren nach einem der Ansprüche 1 bis 3, bei dem eine netzinterne Vorverarbeitung der den Zweigen zugeführten Größen (ED) zur Dämpfung von in den Einflußgrößen (ED) enthaltenen Störungen durchgeführt wird.

5. Verfahren nach einem der Ansprüche 1 bis 4,^' bei dem die parallelen Zweige (ZI, Z2) parallel mit linearen und quadratisch gewichteten Einflußgrößen (ED) versorgt werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem mindestens aus der oder den ersten und/oder der oder den zwei- ten Einflußgröße oder Einflußgrößen mindestens zwei Indikatoren gebildet werden, mit denen die Zweige als separate Targets trainiert werden.

7. Verfahren nach einem der Ansprüche 3 bis 6, bei dem die erste Einflußgröße als die Einbettung eines Wertes in die

Zeitreihe und die zweite Einflußgröße als die Krümmung der Zeitreihe verwendet wird..

8. Verfahren nach einem der Ansprüche 3 bis 6, bei dem die Zeitreihen gemäß den Indikatoren aufbereitet werden.

9. Schichtenanordnung für ein neuronales Netzwerk zur Nachbildung eines dynamischen Systems mit folgenden Merkmalen: a) zur Nachbildung mindestens je einer ersten Einflußgröße, welche die Trägheit des dynamischen Systems bestimmt und einer zweiten Einflußgröße, welche die Beschleunigung des dynamischen Systems bestimmt, sind mindestens jeweils eine versteckte erste (4000) bzw. zweite (4500) Neuronen- schicht, sowie eine erste (5000) bzw. zweite (5500) Aus- gangsschicht vorhanden; b) es ist eine Kombinationsschicht (6000) vorhanden zur Kombination der nachgebildeten ersten Einflußgröße (610) und zweiten Einflußgröße (620) zu Ausgangsgrößen.

10. Schichtanordnung nach Anspruch 9, bei der eine den ersten (4000) und zweiten (4500) versteckten Neuronenschichten vorgelagerte Vorverarbeitungsschicht (2000) zur Ausfilte- rung einer Störgröße und Erzeugung von Filterdaten zur Versorgung der ersten und zweiten versteckten Neuronen- schicht (4000, 4500), vorhanden ist.

11. Schichtanordnung nach einem der Ansprüche 9 bis 10, bei der zwischen der ersten und zweiten versteckten Neuronen- schicht (4000, 4500) und der Vorverarbeitungsschicht (2000) eine Quadrierungsschicht zur Erzeugung von quadratisch gewichteten Filterdaten bzw. Eingangsdaten, vorgese- hen ist.

12. Schichtanordnung nach einem der Ansprüche 9 bis 11, bei der der Kombinationsschicht (6000) eine Mittelwertbildungsschicht (MWF) nachgeordnet ist, zur Erzeugung von ge- mittelten Ausgangsgrößen.

13. Schichtanordnung nach einem der Ansprüche 9 bis 11, bei der der ersten bzw. zweiten Ausgangsschicht (5000, 5500) jeweils eine Ausgangsschicht (7000, 7500) in Form einer Kontrollschicht nachgeordnet ist, zur Kontrolle von Eigenschaften von jeweils mehreren jeweils aus den ersten und zweiten Einflußgrößen gebildeten Indikatoren.