DE19537010C2

DE19537010C2 - Lernverfahren und -anordnung zur Nachbildung eines dynamischen Prozesses

Info

Publication number: DE19537010C2
Application number: DE1995137010
Authority: DE
Inventors: Jan Storck; Gustavo Dr Deco
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1995-10-04
Filing date: 1995-10-04
Publication date: 1997-10-02
Anticipated expiration: 2015-10-05
Also published as: JPH09134207A; DE19537010A1

Description

Die Erfindung bezieht sich auf ein Lernverfahren und eine Anordnung zur Durchführung dieses Lernverfahrens zur Nachbildung technischer Prozesse.

Zur Nachahmung komplexer technischer Systeme werden häufig lernfähige Komponenten eingesetzt, um die Prozesse oder Sy steme nachbilden zu können. Diesen Systemen ist dabei zu eigen, daß sie selbsttätig die Prozeßeigenschaften erlernen können und sich an das Verhalten des nachzubildenden Prozes ses anpassen. Insbesondere werden solche Systeme für Prozesse eingesetzt, welche in hohem Maße nicht deterministisch sind, oder die im hohen Grad stochastisch verlaufen. Häufig werden für Steuer- und Regelprobleme in diesem Zusammenhang neuronale Netze oder Fuzzy-Regler eingesetzt.

Bei bisher gängigen Trainingsverfahren für beispielsweise neu ronale Netze, werden dem neuronalen Netz Eingangszeitreihen zugeführt und die ausgegebenen Werte des Netzes mit den Ein gangswerten verglichen. Der Lernerfolg wird daran gemessen, inwieweit sich die Ausgangswerte den Eingangswerten annähern. Durch gängige Methoden werden die Gewichte an den einzelnen Neuronen eines neuronalen Netzes verändert werden, um eine An passung, also ein Training des Netzes, durchführen zu können. Aus der Zeitschrift ATP automatisierungstechnische Praxis (1955) 4, Seiten 55-61, ist bekannt, ein neuronales Netz mit Hilfe von zwei Zeitreihen, nämlich den in Bild 4 dieser Druckschrift gezeigten, zu trainieren. Weiter ist dort be kannt, aus den Zeitreihen jeweils die Werte in fünf aufein anderfolgenden Abtastschritten als Eingang des neuronalen Netzes zu wählen. Dort ist also ein Lernverfahren zur Nachbildung eines dynamischen Prozesses durch gemeinsames Erlernen von mindestens zwei Zeitreihen, welche jeweils verschiedene Prozeßobservable darstellen, offenbart.

Aus der US 51 59 660 und aus der US 53 96 415 ist jeweils bekannt, zwei Prozeßobservable eines Prozesses verschiedenen neuronalen Netzen zuzuführen.

Die der Erfindung zugrunde liegende Aufgabe besteht darin, ein Lernverfahren und eine Lernanordnung anzugeben, womit mehrere verschiedene Observablen eines Prozesses gemeinsam zur Be stimmung einer Ausgangsgröße dieses Lernverfahrens bzw. die ser Lernanordnung beitragen. Insbesondere soll durch das er findungsgemäße Verfahren sichergestellt werden, daß nicht eine Ausgangsgröße selbst zur Messung des Lernerfolges herangezogen wird.

Diese Aufgabe wird für das Lernverfahren gemäß den Merkmalen des Patentanspruchs 1 und für die Lernanordnung gemäß den Merkmalen des Patentanspruches 7 gelöst.

Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Ein besonderer Vorteil des erfindungsgemäßen Verfahrens be steht darin, daß zur Bildung einer Gegenwartskomponente alle Vergangenheitskomponenten von Zeitreihen der verschiedensten Observablen herangezogen werden. Besonders vorteilhaft wird durch die optimale Dekorrelation der Gegenwartswerte von allen Vergangenheitswerten sichergestellt, daß der maximal mögliche Lernerfolg eingestellt werden kann.

Um den Rechenaufwand beim erfindungsgemäßen Verfahren und bei der Anordnung vereinfachen zu können, werden lediglich die Gegenwartskomponenten durch die Funktionsapproximatoren ver ändert und die Vergangenheitskomponenten im wesentlichen un verändert an die Ausgänge weitergegeben.

Vorteilhaft werden beim erfindungsgemäßen Verfahren zur ein facheren Weiterverarbeitung und Normierung die auszugebenden Werte mit einer zwischen 0 und 1 beschränkten differenzierbaren Funktion, beispielsweise einer sigmoiden Funktion, bearbeitet.

Besonders vorteilhaft können nach dem erfindungsgemäßen Ver fahren Observable danach ausgewählt werden, inwieweit sie nützliche Informationen zum Lernprozeß des jeweiligen Funktions approximators beitragen. Ein Maß für diese Nützlichkeit einer solchen Observablen ist das Korrelationsmaß, das zwi schen ihr und den anderen Observablen gebildet werden kann. Je weiter diese Observable dekorrellierbar ist, desto nütz licher ist sie für den Lernprozeß des erfindungsgemäßen Verfah rens und einer erfindungsgemäßen Anordnung.

Besonders vorteilhaft wird das erfindungsgemäße Verfahren mit der angegebenen Kostenfunktion durchgeführt, da sie sowohl das Infomax-Prinzip beinhaltet als auch die Korrelation be wertet. Mit dem Infomax-Prinzip wird in diesem Zusammenhang sichergestellt, daß ein Maximum an Information von den Ein gängen des Verfahrens, bzw. der Anordnung an die Ausgänge weitergeleitet wird.

Besonders vorteilhaft zur Durchführung des erfindungsgemäßen Verfahrens eignet sich eine Lernanordnung, welche für jede Observable Funktionsapproximationsmittel zur Verfügung stellt. Dadurch, daß diesen Funktionsapproximationsmitteln lediglich die Vergangenheitswerte aller Observablen zugeführt werden, wird schon anordnungsseitig sichergestellt, daß die Gegenwartswerte und Vergangenheitswerte dekorreliert werden können.

Besonders vorteilhaft wird ein solcher Funktionsapproximator in Form eines neuronalen Netzes realisiert, da diese weitest gehend untersucht sind und in beliebiger Vielfalt auch als Emulationsprogramme zur Verfügung stehen.

Im folgenden wird die Erfindung anhand von Figuren weiter er läutert.

Fig. 1 gibt ein Beispiel einer erfindungsgemäßen Anordnung an.

Fig. 2 gibt ein Beispiel für einen technischen Prozeß an.

Fig. 3 zeigt Beispiele der Auswirkungen des erfindungsgemä ßen Verfahrens nach Anwendung auf den Prozeß in Fig. 2.

In Fig. 1 ist ein Beispiel einer Lernanordnung nach der Er findung dargestellt. Ein vorrangiges Ziel der Anordnung nach der Erfindung und des Verfahrens nach der Erfindung besteht in der multivariaten Modellierung von Zeitreihen. Beispielsweise werden die zeitlichen Entwicklungen von Systemgrößen eines dynamischen Systems mit Hilfe eines multivariaten Modells auf unüberwachte Weise gelernt. Eingabewerte des Systems sind beispielsweise die Meßwerte mehrerer Observablen des betrachteten Systems. Es wird daraus extrahiert, auf welche Weise ein Zeitreihenwert einer Observablen von der eigenen Vergangenheit und von der Vergangenheit weiterer Observabler abhängt. Resultat der Vorgehensweise ist eine Dekorrelation zwischen der Gegenwart und der Vergangenheit der betrachteten Zeitreihen.

Korrelationen höherer Ordnung, also sowohl lineare als auch nichtlineare Abhängigkeiten zwischen den gemessenen Obser vablen können dabei extrahiert werden. Diese Korrelationsana lyse gibt beispielsweise Aufschluß darüber, ob weitere Meß größen eines Systems gegenüber schon gegebenen Observablen auch tatsächlich neue Information über das betrachtete System liefern. Weiterhin kann nach dem Lernvorgang die extrahierte Abhängigkeit zwischen Gegenwart und Vergangenheit zur Vorher sage durch die der Zeitreihenwerte und somit zukünftiger Sy stemzustände verwendet werden. Diese Prognose gestaltet sich besonders einfach, denn die Funktionsapproximatoren repräsen tieren Abbildungen, nach denen sich die Zeitreihen der Obser vablen zeitlich fortentwickeln. Besonders vorteilhaft kann man das Verfahren und die Anordnung zur Durchführung des Ver fahrens also dafür verwenden, daß die zeitliche Entwicklung einer ganz bestimmten Systemgröße erlernt wird, in dem gelernt wird, wie diese Größe von der eigenen Vergangenheit als auch von der zusätzlicher anderer Observablen abhängt. Zum anderen können Abhängigkeiten zwischen den verschiedenen Größen erkannt werden.

Besonders vorteilhaft wird durch das Verfahren und eine An ordnung zu dessen Durchführung die Verbindung von unüberwachtem Lernen und multivariater Zeitreihenanalyse hergestellt. Damit gestaltet sich die Simultanmodellierung mehrerer System größen besonders einfach. Insbesondere weist das Verfahren keine Beschränkung auf lineare oder normal verteilte Ab hängigkeiten zwischen den Zeitreihenwerten auf. Weiterhin wird durch das Verfahren eine besonders einfache Kostenfunktion zur Verfügung gestellt, welche bezüglich ihrer Anwendung aber eine große Allgemeinheit aufweist.

Die Vorteile des Verfahrens bestehen insbesondere darin, daß es fähig ist, Korrelationen beliebiger Art und Ordnung zu ex trahieren. Weiterhin weist es eine besonders niedrige Einbet tungsdimension auf, das heißt weniger vergangene Zeitreihenwerte je verwendeter Observabler, als bei univariater Modellierung sind nötig. Besonders günstig wird durch das Verfahren der negative Einfluß von Meßrauschen vermindert. Weiterhin wird durch das Verfahren alle vorhandene Information optimal genutzt, indem sowohl alle zur Verfügung stehenden Observablen als auch beliebig viele zeitverzögerte Werte dieser Observablen bei der Modellierung Verwendung finden.

Im Stand der Technik sind die Grundlagen der univariaten Zeitreihenmodellierung mit unüberwachtem Lernen in [D595) an gegeben. Beispiele zur Phasenraumrekonstruktion mit zeitver zögerten Variablen geben [SYC91] an. Die Grundlagen zur Her leitung der angewandten Kostenfunktion ergeben sich aus [NP94] und dem mathematischen Erklärungsteil. Fig. 1 zeigt das multivariate Modell zur Zeitreihenanalyse am Beispiel zweier Observabler und einer jeweils zweidimensionalen Ein bettung (es wird zwei Zeitschritte in die Vergangenheit ge schaut). Die Zeitreihe der ersten Observablen ist mit x und die der zweiten Observablen mit y bezeichnet. Die entsprechenden Werte der Zeit reihen werden der Anordnung an den Eingängen zugeführt. Dabei ist zu beachten, daß das Verfahren und die Anordnung sowohl was die Anzahl der simultan eingespeisten Observablen, als auch was die Höhe der Einbettungsdimensionen in jeder Observablen (Anzahl der zeitlich zurückliegenden Werte), welche nicht für alle Observablen gleich sein müssen, beliebig erweitert wer den kann. Es werden beispielsweise Vektoren eingegeben, wel che sich aus Elementen der Meßreihen der verwendeten Obser vablen zusammensetzen. Dieses Prinzip ist als Methode der zeitverzögerten Koordinaten (delay coordinates) oder auch als Takens-Methode bekannt. Die Takens-Methode ist dabei eine Me thode, die Trajektorien des Phasenraums, bzw. deren Dynamik in einem Einbettungsraum mittels zeitverzögerter Koordinaten zu rekonstruieren. Die Anzahl der dazu benötigten Werte je Rekonstruktionsvektor ist durch die Einbettungsdimension ge geben, die wiederum von der Dimension des Phasenraums bzw. des Attraktors auf dem sich das System bewegt, bestimmt wird. Im Falle zweier Zeitreihen entsteht der Gesamtvektor also beispielsweise aus zwei zeitlich aufeinanderfolgenden Werten einer x- und einer y-Zeitreihe. Jede einzelne Observable trägt dabei d+1 Komponenten zum Eingabevektor bei, wenn d ihre Einbettungsdimension bezeichnet. Weiterhin steuert jede Observable eine relativ zu den anderen Werten neueste Kompo nente zum Eingabevektor bei, die im folgenden als Gegenwarts komponente oder -wert bezeichnet wird. Die übrigen, weiter zurückliegenden Werte werden im folgenden Vergangenheitskom ponenten oder -werte genannt. Wie aus Fig. 1 erkannt werden kann, besteht der Eingabevektor also aus x_t, x_t-1, x_t-2 und y_t, Y_t-1 sowie Y_t-2. Dabei bezeichnen x_t und y_t die Gegenwartswerte, während x_t-1, x_t-2 und y_t-1, Y_t-2 die Vergangenheitswerte repräsentieren. Die für die Anwendung des Verfahrens nötige Vielzahl solcher Eingabevektoren (Lern-/Trainingsdaten) er hält man durch schrittweises Durchwandern jeweils gesamter Zeitreihen. Sind beispielsweise die Zeitreihenelemente auf steigend mit 1, 2, 3, . . . numeriert, dann besteht der erste Beitrag dieser Zeitreihe zum Gesamteingabevektor aus den Ele menten 1, 2, 3, der zweite Beitrag beispielsweise aus den Elementen 2, 3, 4, der dritte aus 3, 4, 5 usw. Es ist bei spielsweise ebenfalls möglich bei Anwendung des Verfahrens die Sprungweite innerhalb der Zeitreihe grö ßer als Eins zu wählen. Beispielsweise werden alle Eingabe werte, bis auf die jeweils zeitlich neuesten jeder Obser vablen, das heißt genau die Vergangenheitswerte mit einer beispielsweise sigmoiden Übertragungsfunktion

auf den Bereich zwischen Null und Eins beschränkt, ansonsten aber unverändert ausgegeben. Es kann dafür aber auch jede be liebige andere zwischen 0 und 1 beschränkte differenzierbare Funktion verwendet werden. Die Gegenwartskomponenten werden zu den Funktionswerten von Funktionsapproximatoren F₁, F₂ ad diert, die sowohl von den Vergangenheitswerten der jeweils eigenen Zeitreihe, als auch von denjenigen der übrigen Zeit reihen abhängen. Dabei wird durch das Verfahren und die Anordnung sichergestellt, daß kein Zeitreihenwert Einfluß hat auf die von ihm aus gesehen zeitlich zurück liegenden Werte. Besonders die Kausalität des modellierten Prozesses bleibt damit auch im Modell erhalten. Die Funkti onsapproximatoren approximieren die Abbildungsvorschriften, welche den zeitlichen Entwicklungen der Zeitreihen zugrunde liegen. Für jede Zeitreihe gibt es beispielsweise einen sol chen Approximator. Hier ist für die x-Zeitreihe in Fig. 1 der Funktionsapproximator mit F₁ und für die y-Zeitreihe der Funktionsapproximator mit F₂ bezeichnet. Beispielsweise kann für jeden dieser Funktionsapproximatoren ein eigenes neurona les Netz verwendet werden. Es sind aber auch durchaus andere lernfähige Komponenten in diesem Zusammenhang denkbar. Nach dem erfindungsgemäßen Verfahren werden die freien Parameter dieser lernfähigen Komponenten, welche die approximierten Funktionen bestimmen, iterativ infolge der Minimierung einer Kostenfunktion immer besser angepaßt. Es liegt also ein Lern vorgang vor. Dieser Lernvorgang wird im folgenden anhand ei nes Beispiels weiter erläutert.

Nach der Summation der Gegenwartskomponente mit der Ausgabe des zugehörigen Funktionsapproximators, in Fig. 1 mit einem + gekennzeichnet, erfolgt auch hier beispielsweise die nicht lineare Transformation mit der beispielsweise sigmoiden Über tragungsfunktion, welche nun jedoch einen variablen Parameter α enthält:

Beim Verfahren werden die verschiedenen Eingabevektoren beispielsweise als Realisierungen eines sto chastischen Prozesses aufgefaßt und produzieren als solche auch eine Wahrscheinlichkeitsverteilung am Ausgang, welche durch die Eingangsverteilung induziert wird. In Fig. 1 sind die Ausgänge mit z bezeichnet. Der Vektor, der die Ausgaben vor der abschließenden nichtlinearen Transformation durch die sigmoide Übertragungsfunktion enthält, heißt im folgenden postsynaptisches Potential. In den Formeln im mathematischen Erklärungsteil und in Fig. 1 wird es mit dem mathematischen Symbol bezeichnet. Seine Komponenten lauten h_i. Diejenigen Komponenten des postsynaptischen Potentials, die von den Ver gangenheitswerten abhängen, reproduzieren die Eingangsvertei lung. Nur die Verteilung derjenigen Komponenten des post synaptischen Potentials, welche von den Gegenwartskomponenten der Zeitreihe herrühren, werden nach dem erfindungsgemäßen Verfahren durch ihren jeweiligen Funktionsapproximator beein flußt. Falls den zeitlichen Entwicklungen der untersuchten Zeitreihen Abbildungsvorschriften zugrunde liegen, so äußern sich diese in Form statistischer Abhängigkeit zwischen den einzelnen Zeitreihenwerten einer Zeitreihe und auch in Form von Abhängigkeiten zwischen den verschiedenen Zeitreihen. Ein Maß für die statistische Abhängigkeit ist die Redundanz der gemeinsamen (multidimensionalen) Verteilung. Diese Abhängig keiten liegen auch in der Ausgabeverteilung vor. Eine minima le Redundanz ist erreicht, wenn die Einzelkomponenten vonein ander statistisch unabhängig sind. Durch statistische Dekor relation der zu den Gegenwartskomponenten gehörenden post synaptischen Potentiale von den übrigen Komponenten des post synaptischen Potentials, welche die Eingabeverteilung repro duzieren, kann unter den gegebenen Bedingungen das Minimum in der Ausgaberedundanz erreicht werden. Durch das erfindungsge mäße Verfahren wird so sichergestellt, daß ein maximaler Ler nerfolg beim Training erzielt werden kann. Dieses Redundanz minimum ist erreicht, wenn die postsynaptischen Potentiale der Gegenwartskomponenten konstante Werte liefern, also sta tistisch unabhängig von den übrigen postsynaptischen Poten tialen sind. Die entsprechenden Verteilungen müssen also δ- peak darstellen. Für diesen Fall gilt

x_t + F₁ (x_t-1, x_t-2, y_t-1, y_t-2) = c₁ (3)

y_t + F₂ (x_t-1, x_t-2, y_t-1, y_t-2) = c₂ (4)

und damit

x_t = -F₁ (x_t-1, x_t-2, y_t-1, y_t-2) + c₁ (5)

y_t = -F₂ (x_t-1, x_t-2, y_t-1, y_t-2) + c₂ (6)

Die Kostenfunktion für das unüberwachte Lernverfahren muß also zu Redundanzminimierung führen. Denn aus Formel 3 wird deutlich, daß die Funktionsapproximatoren zur Erlangung minimaler Redundanz die funktionalen Abhängig keiten repräsentieren müssen. Infolge des Dekorrelationsvor ganges werden folglich Funktionen erhalten, welche die zeit liche Entwicklung der untersuchten Zeitreihen beschreiben. Im betrachteten Beispiel in Fig. 1 also F₁ und F₂. Mit diesen Funktionen wird die anschließende Vorhersage zukünftiger Zeitreihenwerte ermöglicht. Zusätzlich muß beispielsweise die im Modell übertragene Information maximiert werden (Linsker′s Infomax-Prinzip [Lin88]). Als zu maximierende Funktion, welche beide Anforderungen gleichzeitig erfüllt wird beim Verfahren vorzugsweise folgender Term. verwendet:

Dieser Term. stellt die Kullback-Leibler-Distanz zwischen multidimensionaler postsynaptischer Potentialverteilung und dem Produkt der Ableitung der Übertragungsfunktionen am Aus gang, beispielsweise als sigmoide Funktion, gegeben durch

f′(x) = αf (x) (1-f(x)) (8)

dar. Zur Maximierung der Gleichung 7 bzw. Minimierung der Gleichung 9, also sowohl zur Gewichtsadaption beispielsweise der neuronalen Netze, welche die einzelnen Funktionsapproxi matoren bilden, als auch für die Optimierung der Parameter α₁ und α₂ der Übertragungsfunktionen für die mit dem Gegenwarts komponenten korrespondierenden Ausgaben, kann beispielsweise Alopex [UV94], ein Standardoptimierungsverfahren für neuronale Netze verwendet werden. Bei der Implementierung läßt sich als Approximation für das Integral aus Gleichung 7 die Summe

verwenden, die dann als Kostanfunktion im erfindungsgemäßen Verfahren minimiert wird. Darin bedeutet p die Anzahl der Ausgabewerte, hier in diesem Beispiel p = 6, M die Anzahl der Eingabemuster und h^m bzw. h_i ^m das multi- bzw. eindimensionale postsynaptische Potential, welches vom m-ten Muster erzeugt wurde. Die multidimensionale Dichte Ψ wird beispielsweise mit Histogrammen durch Boxcounting geschätzt:

wobei M wieder die Anzahl der Eingabemuster ist, das post synaptische Potential, das vom m-ten Eingabemuster erzeugt wird, und ZZ die Anzahl der Punkte im Würfel bezeichnet, der den Wert enthält. Mit l ist darin die Kantenlänge des Würfels benannt. Die sigmoiden Funktionen, welche auf die postsynaptischen Potentiale angewendet werden sind in Fig. 1 am Beispiel von z₁ mit SI bezeichnet. Die Wirkung der Anwen dung des Verfahrens und der erfindungsgemäßen Lernanordnung wird in Fig. 2 und 3 verdeutlicht.

Als technischer Prozeß wird beispielsweise ein Beispiel aus der Strömungsdynamik, das Taylor-Couette-System gezeigt. Das Taylor-Couette-System besteht aus zwei koaxialen Kreiszylin dern Z1 und Z2, deren Zwischenraum mit einer Flüssigkeit ge füllt ist. Der innere Zylinder Z1 rotiert um die gemeinsame Achse in Fig. 2 mit GA bezeichnet und verursacht damit ab einer bestimmten Drehzahl, die Rotation ist durch einen Pfeil R symbolisiert, die Bildung stationärer gegensinnig rotieren der Taylor-Wirbel. In Fig. 2 sind diese Taylor-Wirbel als KS gekennzeichnet. Der äußere Zylinder ist zur Veranschaulichung des Zusammenhanges hier durchsichtig dargestellt. Bei diesem Beispiel wird von einem Zustand stationärer Taylor-Wirbel mit leicht ausgebildeter Turbulenz ausgegangen. Das Beispiel ver deutlicht die Überlegenheit multivariater Modellierung, hier am Beispiel der Verwendung einer zweiten Zeitreihe, gegenüber univariater Modellierung. Für diesen experimentellen Befund werden zwei Zeitreihen durch Messung axialer Geschwindig keitskomponenten an den Wirbeln A und B gewonnen. Diese bei den Observablen führen zu zwei verschiedenen Zeitreihen im folgenden ebenfalls mit A bzw. B bezeichnet. Der Ergebnisse des erfindungsgemäßen Verfahrens sind für die zwei verschie denen Observablen in Fig. 3 untereinander dargestellt. Zur Darstellung der Ergebnisse wurden die Zeitreihen sowohl ein zeln als auch simultan dekorreliert. Die Modellierung mit einer Zeitreihe, univariat bedeutet, daß dem zur jeweiligen Zeitreihe gehörenden Funktionsapproximator nur die Vergangen heitswerte der eigenen Zeitreihe zur Verfügung gestellt wur den. Überkreuzkorrelationen können im univariaten Fall nicht genützt werden.

Dargestellt sind in Fig. 3 die postsynaptischen Potentiale der Gegenwartskomponenten der Zeitreihen A (links) und B (rechts) für jedes Eingabemuster. Unter a, das heißt in den obersten beiden Diagrammen, werden die Werte vor dem Dekor relationsvorgang, das heißt bei zufälliger Wahl der Modellpara meter in den Funktionsapproximatoren dargestellt. Da, wie zu vor bereits erwähnt wurde, im Idealfall die Funktionen einen δ-peak repräsentieren sollen, ist die Blickrichtung auf die Diagramme vorgegeben. Sie ist hier mit P bezeichnet. Es kann erkannt werden, daß unter a sowohl die Zeitreihe A und B sehr weit streuen. Unter b sind die Ergebnisse für univariate De korrelation dargestellt. Diese univariate Dekorrelation ist nicht Gegenstand der erfindungsgemäßen Anordnung und des er findungsgemäßen Lernverfahrens. Sie dient lediglich zur Ver anschaulichung des durch die Erfindung gegebenen technischen Fortschritts. Unter c sind letztlich die Ergebnisse für De korrelation mit zwei Zeitreihen, also bivariate Dekorrelation dargestellt. Deutlich kann hier erkannt werden, daß aus der Blickrichtung P betrachtet nahezu ein δ-peaks vorliegen. Deutlich können auch gegenüber b die schmaleren Streubereiche der Kurven erkannt werden. Falls nun als Gedankenbeispiel un ter c eine Kurve mit ähnlicher Streubreite vorläge, wie die unter b für die Zeitreihe A, so würde dies bedeuten, daß die zusätzlich zur besseren Dekorrelation von Zeitreihe A gewählte Observable B, aus welcher die Zeitreihe B gebildet wurde, keine zusätzliche Information für das Lernen des Funktions approximators von A liefert. Es sollte also vorzugsweise eine andere Observable gewählt werden, welche zu einer Verbesse rung des Dekorrelationsergebnisses führt. Die detaillierten Zusammenhänge sind im nun folgenden mathematischen Erläute rungsteil weiter dargestellt.

Mathematischer Erklärungsteil

Im folgenden fassen wir auch das Gesamtmodell als Netz auf und bezeich nen entsprechend Ein- und Ausgabewerte als Neuronen. Falls nichts anderes erwähnt wird, sind alle verwendeten Größen vektoriell zu verstehen.

Jedes einzelne Neuron eines Netzes errechnet aus seiner mehrdimensionalen Eingabe ν seine Aktivierung (Ausgabe) in zwei Schritten. Zunächst wird ν mit einem Gewichtsvektor ω skalarmultipliziert und nach diesem ersten Verarbei tungsschritt entsteht das postsynaptische Potential h:

Das postsynaptische Potential h ist also eine deterministische Funktion des Eingangssignals des Neurons. Mit der nichtlinearen Transferfunktion f wird es auf das Ausgangspotential V (Aktivierung des Neurons) abgebildet:

V = f (h) . ()

Hierbei ist f eine beliebige nichtlineare Funktion, die aber zwischen 0 und 1 beschränkt und invertierbar sein soll. In Betracht kommt z. B. die sigmoide Funktion

mit der Ableitung

f′ (x) = αf (x) (1-f(x)) , ()

wobei der Parameter α die Steigung und damit den Bereich nahezu linearer Abbildung gegenüber nichtlinearer Übertragung bestimmt.

Wir betrachten nun speziell die Neuronen der Ausgabeschicht. Die Dimension der Ausgabeschicht sei p. Erweitert auf den allgemeinen Fall mehrerer Neuro nen sind h und V als vektorielle Größen zu verstehen. Das mehrdimensionale Eingangssignal des Netzes ξ induziert das postsynaptische Potential h mit Ver teilung Ψ(h) am Ausgang. Daher ist h eine deterministische Funktion des Zu fallsvektors ξ, wobei h beliebige nichtlineare Transformationen enthalten kann. Liegen nämlich eine oder mehrere nichtlineare Schichten zwischen Eingabe- und Ausgabeschicht, dann stellt das Netz einen allgemeinen Funktionsapproximator dar. Derartige Transformationen zwischen Eingabe ξ und postsynaptischem Potential h sind nicht notwendigerweise bÿektiv. Es kann also etwas von der Eingangsinformation bei der Übertragung durch das Netz verlorengehen. Unser Ziel ist es nun, die Transinformation I(ξ, V) zwischen Eingabe und Ausgabe des Netzes zu maximieren, um so eine möglichst verlustfreie Übertragung zu gewährleisten. Da informationstheoretische Größen nur für Zufallsvariablen de finiert sind, müssen wir zusätzlich künstliches Rauschen z mit Verteilung ν(z) am Ausgangspotential V hinzufügen. Wir erhalten die Aktivierungen der Aus gangsneuronen V als einen zweiten Zufallsvektor

V = f(h)+z, ()

wobei f eine invertierbare Transferfunktion mit 0<f_i<1 für alle Komponenten i = 1, . . ., p ist. Für die einzelnen Ausgangsaktivierungen haben wir also

V_i = f_i(hi) + z_i, für i = 1, . . ., p . ()

Neben den durch die jeweiligen Gewichte vorgegebenen Potentialen h_i können sich auch die Transferfunktionen f_i von Neuron zu Neuron unterscheiden. Auf grund des lediglich theoretischen Zwecks ist die Wahrscheinlichkeitsverteilung ν(z) des additiven Rauschens z hierbei beliebig, wobei z jedoch als unabhängig von h angenommen wird (die z_i′s müssen keine untereinander unabhängigen Zufallsvariablen sein). Die Rauschstärke sei dabei wie folgt definiert:

wobei Δ die Rauschstärke eines einzelnen Ausgabeneurons bezeichnet und < < Mittelung über die ν(z_i)-Verteilung bedeutet.

Zusätzlich zur Transinformation I(ξ, V) zwischen Eingabe und Ausgabe be trachten wir nun die Transinformation I(h, V) zwischen dem Potential h und der Ausgabe. Unter der Voraussetzung, daß kein Eingangsrauschen vorhanden ist, sind I(ξ, V) und I(h, V) gleich. Daher können wir die weitaus handlichere Größe I(h, V) betrachten, um den Informationstransfer des Netzwerkes zu maximieren. Im folgenden wollen wir deshalb einen analytischen Ausdruck für I(h, V) herleiten, der nur von den adaptierbaren Netzparametern abhängt (vgl. [NP94]). Die Transinformation zwischen den Zufallsvektoren h und V ist gegeben durch

Hierbei ist Q (V|h) die bedingte Wahrscheinlichkeit von V bei bekanntem h und ergibt sich gemäß () zu:

Q (V|h) = ν (V - f (h)) . ()

Als resultierende Ausgangsverteilung erhält man:

q (V) = ∫ Ψ (h) Q (V|h) dh. ()

Aufgrund der Additivität des Rauschens läßt sich die Transinformation I auch als Differenz zwischen den Entropien der Ausgangs- und Rauschverteilungen darstellen:

I = H (q) - H (ν). ()

Der erste Term in () ist die differentielle Entropie der Wahrscheinlichkeits verteilung q:

H (q) = -∫ q (V) ln q (V) dV. ()

Der zweite Term in () hängt nur von der Verteilung des Rauschens ab:

H (ν) = -∫ v (z) ln (ν(z)) dz. ()

Im Fall, daß ν_i (i=1, . . ., p) eine Gaußverteilung ist, ist H(ν_i) gleich ln (2πeΔ). Da die Gaußverteilung die größte Entropie unter allen Verteilungen gegebener Varianz hat, gilt

Wenn also Δ gegen Null geht, streben die Einzelentropien H(ν_i) gegen minus unendlich. Es folgt dann, daß damit auch die gemeinsame Entropie gegen minus unendlich geht. Der zweite Term aus (11) strebt also gegen unendlich. Von den beiden Größen aus () ist für uns aber lediglich H(q) von Interesse, da sich nur H(q) durch die Adaption von f bzw. der Gewichte beeinflussen läßt. Um die Transinformation I zu maximieren, gilt es also, die Ausgangsentropie H(q) zu maximieren. Für eine gegebene Rauschstärke erzwingt diese Maximie rung der Entropie die Bÿektivität der Transformation von ξ nach h, was ja genau unser Ziel war. Dies folgt aus der Tatsache, daß Nichtbÿektivität eine niedrigere Entropie nach sich zieht. Werden mehrere Eingabewerte auf gleiche Ausgabewerte abgebildet, dann nimmt die Unsicherheit im Ausgabecode und damit auch die Entropie ab. Diese Argumentation gilt allerdings nur, weil die Ausgangstransferfunktionen beschränkt sind. Diese Einschränkung sichert zu, daß die Ausgangsentropie nicht ad infinitum erhöht werden kann, indem der Bildbereich der erzeugten Ausgabe gestreckt wird. Ab einem bestimmten Sta dium bleibt dem Netz folglich zu einer weiteren Erhöhung der Entropie lediglich das Mittel der Bÿektivität übrig.

Im Limes verschwindenden Rauschens hat die Größe H(q) einen endlichen Grenzwert. Für Δ → 0 wird q zu

Eingesetzt in () ergibt sich H(q) zu

Um die restlichen Delta-Integrationen ausführen zu können, machen wir die Substitutionen

und

y_i = f_i (h_i) (y_i nimmt den festen Wert f_i (h_i) an) ()

und wir erhalten schließlich

Für die Entropie H(q) und damit für den relevanten Teil der Transinformation I erhalten wir somit den Ausdruck

wobei

Da wir 0 < f_i < 1 für alle i = 1, . . ., p angenommen haben, erfüllt jedes f_i′ die Voraussetzung einer Wahrscheinlichkeitsverteilung (Integration von -∞ bis +∞ ergibt sich zu eins). Damit kann man dann D(Ψ||Π_kf_k′) als Kullback- Leibler-Distanz zwischen der Potentialverteilung Ψ und der Wahrscheinlichkeit auffassen, die durch das Produkt der f_i′ definiert ist. Ihr Wert ist immer größer oder gleich Null, wobei Null genau dann angenommen wird, wenn die beiden Verteilungen (bis auf Nullmengen) identisch sind.

Wir halten fest: die Transinformation ist bis auf eine Konstante (gegeben durch die Rauschentropie) gleich minus der Kullback-Leibler-Distanz zwischen der Potentialverteilung und der Produktverteilung, die durch die Ableitungen der Transferfunktionen dargestellt wird. Maximierung der Transinformation ist äquivalent zur Minimierung der Kullback-Leibler-Distanz. Der optimale Fall von D≡0 wird genau dann erreicht, wenn

gilt. Damit wird außerdem klar: ein faktorieller Code von Ψ(h), d. h.

ermöglicht eine Maximierung der übertragenen Information. Die optimalen Transferfunktionen ergeben sich dann einfach zu

f_i′ (h_i) = Ψ_i (h_i), für i = 1, . . ., p ()

und können für jedes Neuron unabhängig von den anderen adjustiert werden.

Faktorisierung der Verteilung des postsynaptischen Ausgangspotentials ist aber gleichbedeutend mit Redundanzminimierung. Als Ergebnis dieses Abschnitts erhalten wir damit:

unter der Voraussetzung, daß die Transferfunktionen gemäß () optimal ange paßt werden.

Einige Bemerkungen: da wir von f_i zunächst nur Invertierbarkeit gefordert haben, käme auch eine streng monoton fallende Funktion mit negativer Ableitung als Transferfunktion in Frage. In den Gleichungen () bis () wäre dann die allgemeinere Form mit |f_i′(h_i)| anstelle von f_i′(h_i) zu verwenden und man erhielte als alternative Lösung für () f_i′ = -Ψ_i. Wir wollen uns aber im fol genden auf die sigmoide Funktion aus () beschränken, so daß wir diesen Fall ausschließen können.

In der Bildverarbeitung ist das Resultat () unter dem Namen "Samp ling/Histogram Equalization" bekannt. Es besagt, daß maximale Informations übertragung bei uniformer Ausgangsverteilung - also bei der Verteilung ma ximaler Entropie - erreicht werden kann.

Physikalisch gesehen läßt sich dieses Ergebnis leicht plausibel machen: Eine große Menge an Information wird dann übertragen, wenn das Eingangssignal am Ausgang wieder fein aufgelöst werden kann. Bei Stichproben der empirisch er mittelten Verteilung Ψ_i(h_i) beobachtet man die meisten Stichprobenwerte in der Nähe der h_i-Werte, für die Ψ_i(h_i) groß ist. Um diese gut voneinander trennen zu können, muß dort auch die Steigung der Transferfunktion möglichst groß sein. Verschiedene Ausgangswerte liegen somit weit auseinander und können trotz Rauschens noch unterschieden werden. Eine untere Schranke für die Auflösung ist dabei durch die vom Rauschen bedingte Skalierung am Ausgang gegeben. Die Rauschstärke, unendlich klein, aber ungleich null, setzt also ein Maß für die Trennschärfe der Informationsübertragung.

Nachdem wir im letzten Abschnitt gesehen haben, daß ein faktorieller Code bei entsprechender Wahl der Transferfunktionen maximalen Informationstrans fer garantiert, wollen wir nun auch noch die entgegengesetzte Richtung zeigen: Maximierung der Transinformation führt zu einem faktoriellen Code, falls ein solcher existiert. Die Redundanz R im Ausgabe-Code, bedingt durch Korrela tionen zwischen den einzelnen Ausgabewerten, ist definiert als

Für die eindimensionalen Entropien H(q_i) und die multidimensionale Entropie H(q) setzen wir jetzt den im letzten Abschnitt hergeleiteten Ausdruck () für die einzelne und für die gemeinsame Entropie ein:

Da die Redundanz R immer nichtnegativ ist, gilt mit

und damit auch

Bei den einzelnen Summanden von Σ_jD_j handelt es sich aber lediglich um Kullback-Leibler-Distanzen, so daß auch diese die Bedingung der Nichtnegati vität erfüllen. Man erhält schließlich die Ungleichungskette

d. h.

Eine Maximierung der Transinformation I und die damit verbundene Mini mierung der Kullback-Leibler-Distanz D Transferfunktionen gegebenen Dichten führt also zwangsläufig zur Minimierung der Redundanz, falls ein faktorieller Code existiert. In unserem speziellen Fall invertierbarer und beschränkter Transferfunktionen, nicht vorhandenem Eingangsrauschen und verschwindend geringem, d. h. infinitesimal kleinem, aber positivem Ausgangsrauschen erhal ten wir zusammen mit () das Hauptergebnis dieses gesamten Kapitels über Informationsverarbeitung in neuronalen Netzen:

unter der Voraussetzung, daß ein faktorieller Code existiert (ist dies nicht der Fall, dann soll die Potentialverteilung wenigstens so weit wie möglich faktori siert werden). Es ist allerdings zu beachten, daß es genaugenommen nur die Informationsmaximierung ist, die sowohl die Parameter für die Transformation T und damit die Potentialverteilung Ψ als auch die Transferfunktionen f_i vorschreibt.

Dieses Ergebnis hat eine fundamentale Bedeutung für unüberwachte Lernver fahren: Die Kostenfunktion reduziert sich auf den Infomax-Term, d. h. die Kullback-Leibler-Distanz (), die das neuronale Netz minimieren soll. Es ist wichtig zu bemerken, daß das Minimum D = 0 nur erreicht werden kann, falls die Transformation T und die Transferfunktionen f_i allgemein bzw. flexibel genug sind.

Literatur

[DS95] Deco, G.; Schürmann, B.: "Learning time series evolution by unsupervised extraction of corre lations". - In: Phys. Rev. E 51 (1995), S. 1780-1785.
[Lin88] Linsker, R.: "Self-organization in a perceptual network". - In: IEEE Computer 21 (1988), S. 105-117.
[NP94] Nadal, J.-P.; Parga, N.: "Non-linear neurons in the low noise limit: a factorial code maximizes information transfer". - In: Network 5 (1994), S. 565-572.
[SYC91] Sauer, T.; Yorke, J.; Casdagli, M.: "Embedology". - In: J. Stat. Phys. 65 (1991), S. 579-617.
[UV94] Unnikrishnan, K. P.; Venugopal, K. P.: "Alopex: A correlation-based learning algo rithm for feedforward and recurrent neural networks". - In: Neural Computation 6 (1994), S. 469-473.

Claims

1. Lernverfahren zur Nachbildung eines dynamischen Prozesses durch gemeinsames Erlernen von mindestens zwei Zeitreihen, welche jeweils verschiedene Prozeßobservable darstellen,

a) bei dem jede Prozeßobservable durch einen Funktions approximator nachgebildet wird,
b) bei dem jedem Funktionsapproximator lediglich in der Ver gangenheit liegenden Werte aller Zeitreihen zur Verfügung ge stellt werden,
c) bei dem die einzelnen Werte einer jeweiligen Zeitreihe aufgefaßt werden als mit einer je Wert spezifischen Wahr scheinlichkeitsverteilung auftretende Realisierungen eines stochastischen Prozesses,
d) und bei dem zum Training des Funktionsapproximators, der von ihm erzeugte Wert zum jeweiligen Gegenwartswert der Zeit reihe in Form eines Ausgabewertes addiert wird und vom Funk tionsapproximator als Ausführungsfunktion eine solche Funktion erzeugt wird, die sicherstellt, daß die Wahrscheinlich keitsverteilung dieses Ausgabewertes von der Wahrscheinlich keitsverteilung aller zugeführten Werte optimal dekorreliert ist.

2. Verfahren nach Anspruch 1, bei dem alle Vergangenheitswerte der Zeitreihen identisch ausgegeben werden.

3. Verfahren nach einem der vorangehenden Ansprüche, bei dem auf alle auszugebenden Werte eine differenzierbare Übertra gungsfunktion angewendet wird, welche ihnen einen Wert zwischen 0 und 1 zuweist.

4. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Zeitreihe einer bisher nicht verwendeten Prozeßobservablen zugeführt wird, falls mit den aktuell verwendeten Zeitreihen keine Dekorrelation möglich ist.

5. Verfahren nach einem der vorangehenden Ansprüche, bei dem zur Einstellung der Ausführungsfunktion am jeweiligen Funktions approximator folgende Funktion maximiert wird: mit:f′: Ableitung der Übertragungsfunktion (8): multidimensionales postsynaptisches Potential, be stehend aus allen Vergangenheitswerten und den Sum men von Gegenwartswerten mit den Ausgaben der Funktionsapproximatoren
Ψ: multidimensionale Wahrscheinlichkeitsverteilung am Ausgang
D: Kullback-Leibler Distanz

6. Verfahren nach Anspruch 5, bei dem das Integral in Glei chung (7) durch folgenden, als Kostenfunktion zu minimierenden Term angenähert wird: mit:M: Anzahl der Eingabemuster
multidimensionales postsynaptisches Potential
h_i ^m: eindimensionales postsynaptisches Potentialund bei dem folgende Näherung benutzt wird: mit:
: Würfel, der den Wert enthältZZ: Anzahl der Punkte im Würfel
p: Anzahl der Ausgabewerte
l: Kantenlänge des Würfels

7. Lernanordnung zur Nachbildung eines dynamischen Prozesses durch gemeinsames Erlernen von mindestens zwei Zeitreihen, welche jeweils verschiedene Prozeßobservable darstellen,

a) bei der mindestens erste und zweite Funktionsapproximatoren zur Nachbildung des Zeitverhaltens der jeweiligen Prozeßobservablen vorgesehen sind,
b) bei dem jedem Funktionsapproximator lediglich in der Ver gangenheit liegende Werte aller Zeitreihen zugeführt werden,
c) und bei der im jeweiligen Funktionsapproximator eine Aus führungsfunktion aus einem der Ansprüche 1 bis 5 ausgeführt wird.

8. Lernanordnung nach Anspruch 6, bei der als Funktions approximator ein neuronales Netz vorgesehen ist.