DE69029538T2

DE69029538T2 - Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes

Info

Publication number: DE69029538T2
Application number: DE69029538T
Authority: DE
Inventors: Sherif Societe Ci Makram-Ebeid
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1989-06-09
Filing date: 1990-06-05
Publication date: 1997-06-19
Anticipated expiration: 2010-06-06
Also published as: EP0401927A1; FR2648251A1; JPH0363870A; DE69029538D1; FR2648251B1; US5630020A; EP0401927B1

Description

Die Erfindung betrifft ein in einem neuronalen Netzwerk umgesetztes Lernverfahren, das Lernphasen vornimmt, um seine synaptischen Koeffizienten anhand von Beispielen mit Hilfe des Algorithmus der Rückübertragung des Fehlergradienten anzugleichen. Sie betrifft zugleich ein neuronales Netzwerk und einen für die Simulation eines solchen Netzwerks programmierten Rechner.
Neuronale Netzwerke finden ihre Anwendung in der Bild-, der Sprachverarbeitung usw.
Neuronale Netzwerke werden aus Automaten gebildet, die untereinander mit Synapsen in Kontakt stehen, denen synaptische Koeffizienten zugeteilt sind. Sie ermöglichen die Verarbeitung von Problemen, die mit herkömmlichen sequentiellen Rechnern schwierig sind.
Zur Durchführung einer bestimmten Verarbeitung müssen die neuronalen Netzwerke erst lernen, sie auszuführen. Diese sogenannte Lernphase beruft sich auf Beispiele, für die anhand von Eingangsdaten die am Ausgang zu erhaltenden Ergebnisse im voraus bekannt sind. Über einen ersten Zeitraum wird das neuronale Netzwerk, das noch nicht an die vorgesehene Aufgabe angepaßt ist, fehlerhafte Ergebnisse liefern. Dann bestimmt man einen Fehler Ep zwischen den erhaltenen Ergebnissen und denen, die man hätte erhalten müssen, und ändert die synaptischen Koeffizienten auf der Grundlage eines Angleichungskriteriums, um es dem neuronalen Netzwerk zu ermöglichen, das gewählte Beispiel zu erlernen. Dieser Schritt wird mit der Menge an Beispielen wiederholt, die für eine zufriedenstellende Erlernung des neuronalen Netzwerks als erforderlich betrachtet wird.
Eine weitverbreitete Methode zur Durchführung dieser Angleichung besteht in der Rückübertragung des Gradienten. Dazu werden die Bestandteile des Gradienten gj,L des vorherigen Fehlers Ep (berechnet auf der letzten Schicht L) in bezug auf jeden Neuronenzustand xj,L bestimmt. Diese Bestandteile werden daraufhin von seinen Ausgängen in das neuronale Netzwerk rückübertragen, um zuerst die internen Bestandteile gj,l (l≠L) zu bestimmen, und dann an den synaptischen Koeffizient Wij,l der betroffenen Neuronen die Korrekturen vorzunehmen. Diese Methode wird z.B. in dem Dokument beschrieben:
- D.E. Rumelhart, D.E. Hinton und R.J. Williams "Learning Internal Representation by Error Propagation", in D.E. Rumelhart und J.L. McClelland (Eds) "Parallel Distributed Processing : Exploration in the Microstructure of Cognition", Band 1, Foundations, MIT Press (1986).
- "Experiments on neural net recognition of spoken and written text". D.J. Burr, IEEE Trans. on Acoustic, speech and signal processing, Band 36, Nr. 7, Juli 1988, S. 1162.
Wenn so eine Methode jedoch in einem neuronalen Netzwerk umgesetzt wird, kann es vorkommen, daß für einige Anwendungen die Lemzeiten sehr lange werden. So wurde diese Schwierigkeit z.B. bei einem Fall eines Paritätsproblems beobachtet. Das Paritätsproblem stellt sich z.B. im Falle eines neuronalen Netzwerks, dessen Eingänge an binäre Signale 1/0 verbunden sind und der Ausgang einen Zustand 1 liefern muß, wenn die Anzahl Eingänge mit 1 ungerade ist, und einen Zustand 0 im umgekehrten Fall. Die Schwierigkeit des Lernverfahrens ist hier durch die Tatsache bedingt, daß der Zustand des Ausgangs wechseln muß, wenn der Zustand eines einzigen der Ausgänge wechselt, wenn sich dagegen eine gerade Anzahl Zustandsänderungen der Eingänge ereignet, muß der Ausgang unverändert bleiben
Oder wenn das neuronale Netzwerk z.B. bei Klassifikationsproblemen verwendet wird, kann es sehr schwer sein, die Trennung der Klassen vorzunehmen, zwischen denen die euklidische Mindestdistanz gering ist, denn das neuronale Netzwerk benötigt sehr viel Zeit, um die Unterscheidung dieser verschiedenen Klassen zu lernen. Dies behindert die Trennung der fortlaufend codierten Eingangsdaten insbesondere dann, wenn einige dieser Beispiele, die verschiedenen Klassen angehören, Eingänge haben, die sich sehr wenig voneinander unterscheiden.
Das gestellte Problem besteht folglich in der Verminderung der Lernzeit des neuronalen Netzwerks und gleichzeitig möglichster Geringhaltung des zusätzlich erforderlichen Materials.
Die Lösung besteht in einer Lernmethode, die in einem aus L Schichten gebildeten neuronalen Netzwerk folgende Schritte enthält :
. Bestimmung der Zustände xj,l der Neuronen einer Schicht 1 anhand der Ausgangspotentiale yi,l-1 von Neuronen der vorherigen Schicht abgegeben und mit ihnen über synaptische Koeffizienten Wij,l verbunden, oder anhand von Dateneingängen yi,o für die Schicht l=1, wie
. Bestimmung der Potentiale yj,l der Ausgangsneuronen durch Anwendung einer nichtlinearen Funktion F wie :
yj,l = F(xj,l),
wobei :
l: Index der betreffenden Schicht 1≤l≤L,
j: Index des Neurons der Ausgangsschicht l,
i: Index des Neurons der Eingangsschicht l-1,
die Methode enthält Iterations-Lernphasen unter Zuhilfenahme von P Beispielen, die nacheinander in die Eingänge des neuronalen Netzwerks eingegeben werden, mit :
. Initialisierung der synaptischen Koeffizientenmatrix Wij,l des neuronalen Netzwerks,
. Einleitung der Eingangsdaten y ,o jedes für die Erlernung bestimmten Beispiels p,
. Vergleich der erhaltenen Ergebnisse yj,L auf der Ausgangsschicht L mit dem für dieses Beispiel p vorgesehenen, am Eingang aufgetretenen Ausgang y , um einen Teilfehler E zu definieren,
Bestimmung der Summe Ep aller Teilfehler E , die für jedes Ausgangsneuron und für jedes Beispiel p beobachtet wurden,
. Bestimmung der verschiedenen Bestandteile des Gradienten gj,L = ∂Ep/∂x,jL des Fehlers Ep in bezug auf die Zustände xj,L für die Ausgangsschicht L,
. Umsetzung der Rückübertragungsmethode der Bestandteile gj,L des Gradienten, damit das neuronale Netzwerk die Bestandteile gj,l des Gradienten für die anderen Schichten anhand der Matrix der transponierten synaptischen Koeffizienten bestimmt,
. Bestimmung der darauffolgenden Variationen die ein umgekehrtes Zeichen der entsprechenden Komponente gj,l sind, um das neuronalen Netzwerk anzupassen,
. Aktualisierung der synaptischen Koeffizienten anhand dieser Variationen Δxj,l, mit dem Merkmal, daß für die Bestimmung der darauffolgenden Variationen Δxj,l der Neuronenzustände die Methode einen Multiplikationsschritt der Bestandteile gj,l des Gradienten mit den Parametern θj,l enthält, um die Variationen Δxj,l zu berechnen, proportional zu -θj,l.gj,l, wobei θj,l vom Zustand des Neurons j der Schicht l abhängt, mit θj,l=1, wenn -gj,l und xj,l verschiedenen Zeichens sind und θj,l=θ&sub1;&spplus;, wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θ&sub1;&spplus;≤1.
Während der Erlernung zeigt man ein gegebenes Beispiel p. Die dem Beispiel eigenen, in die Eingänge des neuronalen Netzwerks eingegebenen Daten werden auf der letzten Schicht L des Netzwerks ein Ergebnis yj,L für ein gegebenes Ausgangsneuron j. Dabei kennt man zu Beginn das Ergebnis y , das man hätte erhalten sollen. So kann man für ein Beispiel einen Fehler berechnen wie :
Das ist der Ausdruck einer durchschnittlichen quadratischen Fehlerberechnung. Es kann ein anderes Vergleichskriterium verwendet werden.
Nach der bekannten Methode der Rückübertragung des Gradienten bestimmt man die Bestandteile des Fehlergradienten für jeden Beitrag eines Zustands xj,l eines Neurons wie :
gj,l = ∂Ep/∂xj,l
wobei xj,l den Zustand des Neurons vor der Aktion der nichtlinearen Funktion darstellt. Dafür berechnet man die Bestandteile gj,L = ∂Ep/∂xj,L, die sich auf die Ausgangsschicht L beziehen, wie gj,L = (yj,L-y ). , wobei die Ableitung der nichtlinearen Ausgangsfunktionen ist.
Dann wird das neuronale Netzwerk mit der Matrix der transponierten synaptischen Koeffizienten Wji,l geladen, und die Bestandteile gj,L werden vom Ausgang in das Netz rückübertragen. Das Netz bestimmt so die anderen Bestandteile gj,l des Gradieriten, mit l≠L. Die Bestandteile gj,l werden zur Bestimmung der Variationen Δxj,l verwendet, die der Korrektur der synaptischen Koeffizienten Wij,l dienen, damit sich das Netz an das betreffende Beispiel anpaßt.
Im allgemeinen wird diese Korrektur nach der bekannten Methode durchgeführt, wie
Wij,l(neu)=Wij,l(alt)+k.Δxj,l.yi,l-1.
Gemäß der Erfindung werden die Bestandteile gj,l nicht so verwendet, sondern werden zuvor jeweils mit einem eigenen Parameter θj,l multipliziert, der für ein gegebenes Neuron j vom Zeichen abhängt :
- vom Zustand dieses Neurons, und
- vom Zeichen des Bestandteils des Gradienten gj,l.
Diese Parameter sind θj,l = 1, wenn -g,i und verschiedenen Zeichens sind,
und θj,l = θ&sub1;&spplus;, wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θ&sub1;&spplus;≤1.
Um die Erlernung jedoch zu beschleunigen wird vorzugsweise im Laufe der ersten Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; entweder nahe bei oder gleich Null gewählt.
Es ist zusätzlich im Laufe der späteren Iterationen der Erlernung für jedes gegebene Beispiel möglich, den Wert θ&sub1;&spplus; auf den Wert 1 ansteigen zu lassen.
Die Strategie des Zeichens gemäß der Erfindung ermöglicht es auf vorteilhafte Weise, am Anfang der Erlernung zu bewirken, daß die durchgeführten Korrekturen das beobachtete Fehlerzeichen berücksichtigen, und nach und nach bei fortschreitender Erlernung ermöglicht es diese Strategie, stufenweise weniger grobe Korrekturen mit einer größeren Genauigkeit zu bewirken.
Die nichtlinearen Funktionen, die der Bestimmung der Ausgangspotentiale dienen, können schwach oder stark nichtlinear gewählt werden. Für eine gesteigerte Wirkung der Strategie des Zeichens gemäß der Erfindung ist es möglich, im Laufe der Erlernung die Wahl dieser nichtlinearen Funktionen zu ändern. Doch die Variationen Δxj,l die von der Methode der Rückübertragung des Gradienten abgeleitet werden, dürfen nicht zu übermäßigen Variationen der synaptischen Koeffizienten führen. Daher wird gemäß einem zusätzlichen Modus der Erfindung eine Normalisierung vorgenommen, damit die Summe der Quadrate der synaptischen Koeffizienten quasikonstant bleibt.
So werden die nichtlinearen Funktionen am Anfang der Erlernung schwach nichtlinear gewählt, und nähern sich dann den Funktionen vom Typ Zeichen am Ende der Erlernung, und um diese Wahl zu ermöglichen behalten die synaptischen Koeffizienten, die zu einem gegebenen Neuron j konvergieren, eine quasi konstante Norm (Wij,l)² bei.
Diese nichtlinearen Funktionen F sind z.B. vom Typ yj,l=tanh(xj,l/T&sub1;), wobei T&sub1; ein Parameter relativ zur Schicht 1 mit der Bezeichnung Temperatur der Schicht 1 ist.
Die im Laufe der Erlernung auf dem Niveau der Nichtlinearität der nichtlinearen Funktionen eingebrachten Variationen werden erhalten, indem für jede Schicht die Parameter T&sub1; variiert werden.
Die Strategie des Zeichens gemäß der Erfindung, das darin besteht, zuerst die groben Korrekturen (θ&spplus; klein und positiv) auf der Grundlage des Fehlerzeichens zu bevorzugen, und dann die Parameter θ&spplus; benachbart zur Einheit abzuschwächen, um Korrekturen mit größerer Präzision vorzunehmen, kann auf dem Niveau der Globalstruktur eine ähnliche Aktion bewirken. Dafür wird für jedes Beispiel jedes Bestandteils E des Fehlers Ep selbst mit einem Parameter ηj,L multipliziert. Somit können die Korrekturen (Parameter ηj,L), die zugleich die Gesamtheit der neuronalen Zustände betreffen, jeder der individuellen, für jeden Zustand vorgenommenen Korrektur übergeordnet werden (Parameter θ&spplus;).
Zur Begünstigung der Strategie des zuvor aufgetretenen Zeichens gibt man einen Korrekturfaktor ηj,L ein, der von jedem Ausgangsneuron j der letzten Schicht L abhängt. Der Fehler Ep wird dann folgendermaßen bestimmt :
Dieser Fehler ist eine quadratische Funktion.
Im allgemeinen Fall ist dieser Fehler E für jedes Ausgangsneuron j der Schicht L (für ein gegebenes Beispiel p) :
E = H (y - yj,L)
wobei H die Funktion des Abstandes zwischen dem erhaltenen Ergebnis yj,L und dem vorhersehbaren Ergebnis yjP ist.
Dieser so bestimmte Fehler Ep wird verwendet, um die Bestandteile gj,L und gj,l (mit l≠L) des Gradients zu bestimmen, wie dies zuvor veranschaulicht wurde.
Somit enthält die Methode zur Bestimmung des Gradienten einen Fehlerbestimmungsschritt Ep, unter zuvoriger Anwendung eines Korrekturfaktors ηj,L der vom Neuron j der letzten Schicht L wie
abhängt, um den Beginn der Erlernung zu begünstigen, wobei ηj,L=1, wenn y und yj,L verschiedenen Zeichens sind, und ηj,L=η&spplus; wenn y und yj,L gleichen Zeichens sind, mit 0≤η&spplus;≤1.
Im aktuellen Fall ηj,L = θj,L.
Vorzugsweise ist jeder partielle Fehler E der quadratische Fehler ½ (y - yj,L)².
In einem zusätzlichen Modus kann die Strategie auf dem Niveau jeder Schicht des neuronalen Netzwerks entwickelt werden. Unter Berücksichtigung der den Eingangsschichten zugeteilten Hauptrollen ist es angebracht, die Erlernung der Eingangsschichten zu beschleunigen und die Erlernung der Ausgangsschichten zu verlangsamen.
In der klassischen Methode der Rückübertragung des Gradienten wird der Zustand des Neurons xj,l um eine Menge -Δxj,l verändert, die den Bestandteil des entsprechenden Gradienten gj,l berücksichtigt. Dies wird vorgenommen, indem jeder Bestandteil des Gradienten gj,l mit einer Proportionalitätskonstante multipliziert wird, die für alle Schichten des neuronalen Netzwerks gleich ist.
Gemäß dem zusätzlichen Modus schlägt die Erfindung vor, die Korrektur vorzunehmen, indem jedem Neuron jeder Schicht ein Proportionalitätskoeffizient βj,l zugeteilt wird, damit jede Korrektur -Δxj,l proportional zu βj,l.gj,l ist.
Der Parameter βj,l ist mit der Strategie des zuvor beschriebenen Zeichens verbunden, indem er proportional zum Parameter θj,l genommen wird, der zur Bestimmung der Korrekturen Δxj,l dient.
Somit ist βj,l proportional zu βl.θj,l, wobei βl ein identischer Parameter für eine gesamte gegebene Schicht 1 ist. Gemäß diesem Zusatzmodus wird jeder Schicht 1 ein Parameter βl zugeteilt, der ihr eigen ist und der die Kontrolle der Lerngeschwindigkeit der beiden Eingangsschichten in bezug auf die der Ausgangsschichten ermöglicht. Dafür nimmt der Parameter βl ab, wenn l von der Eingangsschicht zur Ausgangsschicht zunimmt.
Somit enthält die Erfindung einen Multiplikationsschritt der Bestandteile θj,l.g,l mit den Konstanten βl, die von jeder Schicht abhängen, damit -Δxj,l dann proportional ist zu βl.θj,l.gl,. mit βl strikt abnehmend gemäß der Nummer der Schicht, wenn man von den Eingangs- zu den Ausgangsschichten geht, damit die an den Neuronenzuständen vorgenommenen Korrekturen eine Beschleunigung der Erlernung der Eingangsschichten und eine Verlangsamung der Erlernung der Ausgangsschichten ermöglichen.
Die Erfindung kann anhand der folgenden, als nicht begrenzendes Beispiel gegebenen Abbildungen leichter verstanden werden, die folgendes darstellen :
Abbildung 1 : einen Plan, der die von einer Struktur mit einer Schicht Eingangsneuronen und Ausgangsneuronen vorgenommenen Verarbeitungsmechanismen zeigt.
Abbildung 2 : einen Plan, der eine Struktur mit mehreren Schichten zeigt : Eingangsschicht, versteckte Schichten, Ausgangsschicht.
Abbildung 3 : einen Plan, der eine neuronale Netzwerkstruktur zeigt, die die Methode gemäß der Erfindung umsetzt.
Abbildung 1 zeigt einen herkömmlichen Plan einer Verarbeitung, vorgenommen auf einem elementaren neuronalen Netzwerk, das aus einer Eingangsschicht mit mehreren Neuronen 10&sub1;...10I(l-1) gebildet wird, die jeweils die Eingangssignale y1,l-1, y2,l-1,...yI(l-1),l-1 an ein einziges Ausgangsneuron abgibt, dessen Zustand xj,l ist. Dieser Zustand wird über die Berechnungsmittel 11 bestimmt, wie :
Dieser Zustand xj,l unterliegt der Wirkung einer nichtlinearen Funktion (Block 12), um nach Anwendung dieser Funktion F das Ausgangspotential yj,l zu liefern.
yj,l = F(xj,l)
Dieses Ausgangspotential yj,l kann dann als Eingangszustand für eine folgende Schicht dienen. Man erreicht somit eine Stapelung von Schichten wie in Abbildung 2 dargestellt, mit einer Eingangsschicht l=1, versteckten Schichten l=2, 3 und einer Ausgangsschicht l=L. Die Neuronen einer Schicht sind nur mit denen der darauffolgenden Schicht verbunden, nach den synaptischen Koeffizienten Wij,l. Jeder Zustand der Neuronen wird nach den vorhergehenden Ausdrücken bestimmt, beginnend mit der Schicht l=1.
Zur Durchführung der Erlernung, d.h. der Angleichung der synaptischen Koeffizienten Wij,l an eine gegebene Aufgabe, werden am Eingang Beispiele gezeigt, für die die Ergebnisse yjP auf der Ausgangsschicht im voraus bekannt sind. Der Fehler Ep wird für jedes Beispiel über alle Ausgangszustände berechnet, dann werden seine Variationen in bezug auf die schwachen Variationen ∂xj,l jedes Zwischenzustands bestimmt. Die Bestandteile gj,l des Gradienten sind entsprechend :
gj,l = ∂Ep/∂xj,l
Dafür werden die Bestandteile gj,L auf der Ausgangsschicht berechnet, und dann in das neuronale Netzwerk Rückübertragen, das die anderen Bestandteile gj,l des Fehlergradienten wiederherstellt. Diese Bestandteile ermöglichen die Bestimmung der Variationen Δxj,l, die von den Zuständen xj,l abgeleitet werden, damit sich des neuronale Netzwerk an die vorgesehene Aufgabe anpaßt. Dies geht der Aktualisierung der synaptischen Koeffizienten Wij,l voran, so wie zuvor angegeben.
Diese Schritte werden in einer gemäß Abbildung 3 zugeschnittenen neuronalen Netzwerkstruktur oder in einem für die Aktualisierung der Methode programmierten Rechner vorgenommen.
Der Speicher 30 speichert die Matrix der synaptischen Koeffizienten Wji,l und die ursprünglich aus den Eingangsmitteln 29 stammende transponierte Matrix Wji,l. Die synaptischen Koeffizienten werden an Rechenmittel 31 übertragen, die die aus der vorherigen Schicht kommenden Eingangspotentiale yi,l-1 erhalten. Diese Mittel 31 bestimmen :
xj,l = Σ Wij,l . yil-1
Zu Beginn sind die Zustände der Eingangsneuronen yi,l-1 am Netzwerkeingang angewandte Beispiele yi,0. Diese Beispiele kommen aus einem Beispielspeicher 32. Ein Selektor 33 ermöglicht die Vornahme dieser Wahl. Auch der Beispielspeicher 32 speichert auch die Ergebnisse yjP, die man für jedes Beispiel p und jedes Ausgangspotential j erhalten muß.
Die Zustände xj,l der Ausgangsneuronen werden der Wirkung einer nichtlinearen Funktion in der Einheit 34 unterworfen, die für jedes Beispiel die Ausgangspotentiale yj,L der letzten Schicht L gibt, wie sie vom System ausgegeben werden. Zur Durchführung der Zwischenberechnungsschritte von Schicht zu Schicht werden die Ausgangspotentiale yj,l einer Schicht l in einem Zustandsspeicher 37 zwischengespeichert und als Eingangszustände für die folgende Schicht verwendet. Jedes Potential yj,L wird im Komparator 35 mit dem vorgesehenen Zustand yjP verglichen, der dazu alle erfaßten Fehler Epj, speichert und addiert, um einen Fehler Ep in bezug auf jedes Beispiel zu liefern.
Die Bestandteile des Gradienten gj,L werden von dem Zwischenrechner 36 bestimmt. Er erhält dafür den Fehler Ep, die Ausgangspotentiale yj,L und die vorgesehenen Zustände y . Der Zwischenrechner 36 bestimmt die Bestandteile gj,L, wie :
mit 1 ≤j≤I(L).
F'i,L sind die Ableitungen jeder nichtlinearen Funktion der Ausgangsschicht.
Die Bestandteile gj,L werden in die Rechenmittel 31 eingegeben, die die Durchführung der Methode der Rückübertragung des Gradienten ermöglichen, d.h., daß die Bestandteile gj,L auf die Ausgangsschichten gegeben und ihre Wirkung auf die Eingangsschichten rückübertragen wird.
Die Bestandteile des Gradienten gj,l=∂Ep/∂xj,l (mit l≠L) werden so über die Rechenmittel 31 durch Rückübertragung des Fehlergradienten Ep bestimmt. Die Bestandteile gj,l werden an den Zwischenrechner 36 abgegeben, der für jeden Neuronenzustand die darauffolgenden Variationen Δxj,l bestimmt. Dafür multipliziert er jeden Bestandteil gj,l mit seinem Parameter θj,l gemäß der Erfindung.
Alle Variationen Δxj,l werden an die Aktualisierungseinheit 38 übertragen, die die neuen synaptischen Koeffizienten Wij,l bestimmt und sie an den Speicher 30 abgibt.
Dieses Verfahren wird wiederholt, um die Gesamtheit der Lernphasen durchzuführen. In deren Verlauf wird der Zwischenrechner 36 einen Korrekturparameter θl&spplus; nahe oder gleich Null für die ersten Wiederholungen anwenden können, den er im Verlauf der weiteren Wiederholungen dem Wert 1 annähern wird. Dazu wird der Zwischenrechner 36 die Multiplikation von E mit den Parametern ηj,L vornehmen, bevor er die Bestandteile gj,L berechnet, um die Rückübertragung des Gradienten in die Rechenmittel 31 vorzunehmen.
Wenn die jeder Schicht eigenen Konstanten βl für die Korrekturen θj,l.gj,l zur Bestimmung der zu βl.θj,l.gj,l proportionalen Variationen -Δxj,l angewandt werden, wird dies vom Zwischenrechner 36 vorgenommen, vor der Aktualisierung der synaptischen Koeffizienten Wij,l von der Aktualisierungseinheit 38.
Somit enthält die Struktur des neuronalen Netzwerks in Schichten gemäß der Erfindung Mittel für die Durchführung der beschriebenen Lernmethode und ist dafür versehen mit :
- Mitteln zur Speicherung der synaptischen Koeffizienten,
- Mitteln zur Speicherung der zu lehrenden Beispiele und ihre darauffolgende Einführung in des neuronale Netzwerk,
- Mittel für den Vergleich am Ausgang der für jedes Beispiel vorgesehenen Ergebnisse und für die Abgabe eines Fehlers gemäß den beobachteten Abweichungen,
- Mitteln für die Berechnung der Zustände der Ausgangsneuronen anhand der Potentiale der Eingangsneuronen und für die Vornahme der Rückübertragung des Gradienten des besagten Fehlers und der Abgabe der Bestandteile gj,l des besagten Gradienten,
- Mitteln für die Anwendung nichtlinearer Funktionen am Ausgang,
- Mitteln für die Berechnung der neuen synaptischen Koeffizienten unter Berücksichtigung der Bestandteile gj,l des Gradienten und der der Methode eigenen Multiplikationsparameter, die es ermöglichen, die Bedeutung gewisser Wiederholungen der Wiederholungszyklen oder die gewissen Schichten oder gewissen Neuronen des neuronalen Netzwerks zugeteilte Bedeutung zu kontrollieren.
Der Plan von Abbildung 3 ist in der Form einer neuronalen Netzwerkstruktur, gebildet aus Funktionsblöcken dargestellt, die von einem Zwischenrechner kontrolliert werden. Es ist möglich, daß die Gesamtheit der durchzuführenden Funktionen in den Rechner integriert werden. In diesem Fall betrifft die Erfindung einen Rechner, der programmiert ist, um die Schritte der beschriebenen Methode umzusetzen.
Tabelle 1 zeigt ein Organigramm der hauptsächlichen Schritte gemäß der Erfindung.

- Schritt 1

initialisiert η&spplus; und θ&spplus; mit schwachen positiven Werten und legt die Temperaturen T&sub1; fest. Für die Schicht l=1 liegt der Wert Tl nahe dem Durchschnitt der absoluten Werte in bezug auf das Beispiel p, und für l≠1 hat der Wert Tl einen Wert von 1 (Schleife auf 1).
Die synaptischen Koeffizienten Wij,l werden mit zufällig gewählten oder bekannten Werten initialisiert (Schleife auf i und j).

- Schritt 2

führt in das neuronale Netzwerk die Werte der Eingänge yi,o für ein Beispiel p ein.

- Schritt 3

berechnet Zustände xj,l und Potentiale yj,l am Ausgang. Die Berechnung der Zustände kann den Einbezug einer Schwelle sj,l berücksichtigen, die auch in die nichtlineare Funktion F eingeführt werden kann.

- Schritt 4

wendet die Strategie des Zeichens auf dem Ausgangsfehler an. Dafür wird das Produkt y .yj,L berechnet und sein Zeichen betrachtet. Wenn das Produkt negativ oder Null ist : nimmt ηj,L den Wert 1. Im umgekehrten Fall nimmt ηj,L den Wert η&spplus;.
Der Fehler Ep auf der Ausgangsschicht wird bestimmt, und die Bestandteile des Gradienten berechnet.

- Schritt 5.

Die Ableitungen F'j,l der nichtlinearen Funktionen werden berechnet. Die Bestandteile des Gradienten gj,l-1 werden daraufhin durch Rückübertragung des Gradienten berechnet. Man testet das Produkt -gj,l.xj,l. Wenn dieses Produkt negativ oder Null ist, wird θj,L gleich 1 gesetzt. Wenn dieses Produkt positiv ist, ist θj,L gleich θ&spplus;, mit 0≤θ&spplus;≤1. Dann wird βj,l berechnet.

- Schritt 6.

Die Bestandteile des Gradienten gj,l werden für die Bestimmung der darauffolgenden Variationen Δxj,l verwendet. Dieser Schritt gibt eine Wahl an Beispielen selbstangleichender Funktion, was es ermöglicht, die Bestandteile gj,l auf die Variationen Δxj,l zu reflektieren. Diese Funktion läßt das Modul G² des Gradienten gj,l, die Faktoren v, zur Regelung der Amplitude der Korrektur und den mittleren Wert der Ausdrücke βj,l in Verbindung mit den verschiedenen Neuronen eingreifen.

- Schritt 7.

Er ermöglicht die Verteilung der für das Beispiel p berechneten Variationen Δxj,l, zugleich auf die synaptischen Koeffizienten Wij,l und die Schwellen sj,l. Das Verteilungsverhältnis wird von einem Parameter &sub1; kontrolliert, der die Norm y²i,l-1 eingreifen läßt.
Dieser Schritt 7 stellt ein Beispiel eines Verteilungsverhältnisses dar, das es ermöglicht, die Norm der synaptischen Koeffizienten für ein gegebenes Ausgangsneuron quasi konstant zu halten. Man setzt voraus, daß die Veränderungen mit geringstmöglichen Werten und Schwellen durchgeführt werden.

- Schritt 8.

Wenn der kumulierte Wert
für alle Beispiele kleiner oder gleich einem vorbestimmten Wert 8 ist, ist die Erlernung abgeschlossen. Wenn dieser Fehler größer als &epsi; ist, fährt man mit den folgenden Schritten fort.
- Schritt 9. Die Temperaturen T&sub1; werden leicht verringert, und dafür wird der ursprüngliche Wert mit einem zwischen 0 und 1 liegenden Parameter multipliziert.

- Schritt 10.

Die Werte von η&spplus; und θ&spplus; werden neu angeglichen.

- Schritt 11.

Es wird ein anderes Beispiel p' gewählt, und die Verarbeitung bei Schritt 2 neu begonnen. Tabelle 1

Claims

1. Ein in einem neuronalen Netzwerk umgesetztes Lernverfahren, das in einem aus L Schichten gebildeten neuronalen Netzwerk folgende Schritte enthält :

. Bestimmung der Zustande xj,l der Neuronen einer Schicht 1 anhand der Ausgangspotentiale yj,l-1, von Neuronen der vorherigen Schicht abgegeben und mit ihnen über synaptische Koeffizienten Wij,l verbunden, oder anhand von Dateneingängen yi,o für die Schicht l=1, wie :

xj,l = Wij,l.yl-1

. Bestimmung der Potentiale der Ausgangsneuronen durch Anwendung einer nichtlinearen Funktion F wie :

yj,l = F(xj,l)

wobei

l: Index der betreffenden Schicht 1≤l≤L,

j: Index des Neurons der Ausgangsschicht l,

i: Index des Neurons der Eingangsschicht l-1,

die Methode enthält Iterations-Lernphasen unter Zuhilfenahme von P Beispielen, die nacheinander in die Eingänge des neuronalen Netzwerks eingegeben werden, mit :

. Initialisierung der synaptischen Koeffizientenmatrix Wij,l des neuronalen Netzwerks,

. Einleitung der Eingangsdaten y ,o jedes für die Erlernung bestimmten Beispiels p,

. Vergleich der erhaltenen Ergebnisse yj,L auf der Ausgangsschicht L mit dem für dieses Beispiel p vorgesehenen, am Eingang aufgetretenen Ausgang y , um einen Teilfehler E zu definieren,

. Bestimmung der Summe Ep aller Teilfehler E , die für jedes Ausgangsneuron und für jedes Beispiel p beobachtet wurden,

. Bestimmung der verschiedenen Bestandteile des Gradienten gj,L = ∂Ep/∂xj,L des Fehlers Ep in bezug auf die Zustände xj,L für die Ausgangsschicht L,

. Umsetzung der Rückübertragungsmethode der Bestandteile gj,L des Gradienten, damit das neuronale Netzwerk die Bestandteile gj,l des Gradienten für die anderen Schichten anhand der Matrix der transponierten synaptischen Koeffizienten bestimmt,

. Bestimmung der darauffolgenden Variationen Δxj,l, die ein umgekehrtes Zeichen der entsprechenden Komponente gj,l sind, um das neuronalen Netzwerk anzupassen,

. Aktualisierung der synaptischen Koeffizienten anhand dieser Variationen Δxj,l, mit dem Merkmal, daß für die Bestimmung der darauffolgenden Variationen Δxj,l der Neuronenzustände die Methode einen Multiplikationsschritt der Bestandteile gj,l des Gradienten mit den Parametern θj,l enthält, um die Variationen Δxj,l zu berechnen, proportional zu -θj,l.gj,l, wobei θj,l vom Zustand des Neurons j der Schicht l abhängt, mit θj,l=l, wenn -gj,l und xj,l verschiedenen Zeichens sind und θj,l=θl+l wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θl&spplus;≤1.

2. Methode laut Anspruch 1, mit dem Merkmal, daß im Laufe der ersten Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; entweder nahe bei oder gleich Null gewählt wird.

3. Methode laut Anspruch 2, mit dem Merkmal, daß im Laufe der späteren Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; auf den Wert 1 ansteigt.

4. Methode laut einem der Ansprüche 1 bis 3, mit dem Merkmal, daß die nichtlinearen Funktionen am Anfang der Erlernung schwach nichtlinear gewählt werden, und sich dann den Funktionen vom Typ Zeichen am Ende der Erlernung nähern, und um diese Wahl zu ermöglichen behalten die synaptischen Koeffizienten, die zu einem gegebenen Neuron j konvergieren, eine quasi konstante Norm (Wij,l)² bei.

5. Methode laut Anspruch 4, mit dem Merkmal, daß diese nichtlinearen Funktionen F vom Typ yj,l=tanh(xj,l/T&sub1;) sind, wobei T&sub1; ein Parameter relativ zur Schicht l mit der Bezeichnung Temperatur der Schicht l ist.

6. Methode laut Anspruch 5, mit dem Merkmal, daß die im Laufe der Erlernung auf dem Niveau der Nichtlinearität der nichtlinearen Funktionen eingebrachten Variationen erhalten werden, indem für jede Schicht die Parameter T&sub1; variiert werden.

7. Methode laut einem der Ansprüche 1 bis 6, mit dem Merkmal, daß sie zur Bestimmung der Bestandteile des Gradienten gj,L einen Fehlerbestimmungsschritt Ep enthält, unter zuvoriger Anwendung eines Korrekturfaktors ηj,L, der vom Neuron j der letzten Schicht L wie

abhängt, um den Beginn der Erlernung zu begünstigen, mit ηj,L=1 wenn y und yj,L verschiedenen Zeichens sind, und ηj,L=η&spplus; wenn y und yj,L gleichen Zeichens sind, mit 0≤η&spplus;≤1.

8. Methode laut Anspruch 7, mit dem Merkmal, daß ηj,L = θj,L.

9. Methode laut einem der Ansprüche 1 bis 8, mit dem Merkmal, daß der partielle Fehler E der quadratische Fehler ½ (y - yj,L)² ist.

10. Methode laut einem der Ansprüche 1 bis 9, mit dem Merkmal, daß die Erfindung einen Multiplikationsschritt der Bestandteile θj,l.gj,l mit den Konstanten βl enthält, die von jeder Schicht abhängen, damit -Δxj,l dann proportional ist zu βl.θj,l.gj,l, mit βl strikt abnehmend gemäß der Nummer der Schicht, wenn man von den Eingangs- zu den Ausgangsschichten geht, damit die an den Neuronenzuständen vorgenommenen Korrekturen eine Beschleunigung der Erlernung der Eingangsschichten und eine Verlangsamung der Erlernung der Ausgangsschichten ermöglichen.

11. Ein neuronales Netzwerks für die Durchführung der Lemmethode laut einem der Ansprüche 1 bis 10, das versehen ist mit

- Mitteln zur Speicherung der synaptischen Koeffizienten,

- Mitteln zur Speicherung der zu lehrenden Beispiele und ihre darauffolgende Einführung in des neuronale Netzwerk,

- Mittel für den Vergleich am Ausgang der für jedes Beispiel vorgesehenen Ergebnisse und für die Abgabe eines Fehlers gemäß den beobachteten Abweichungen,

- Mitteln für die Berechnung der Zustände der Ausgangsneuronen anhand der Potentiale der Eingangsneuronen und für die Vornahme der Rückübertragung des Gradienten des besagten Fehlers und der Abgabe der Bestandteile gj,l des besagten Gradienten,

- Mitteln für die Anwendung nichtlinearer Funktionen am Ausgang, mit dem Merkmal, daß es folgendes enthält

- Mittel für die Berechnung der neuen synaptischen Koeffizienten unter Berücksichtigung der Bestandteile gj,l des Gradienten und der der Methode eigenen Multiplikationsparameter, die es ermöglichen, die Bedeutung gewisser Wiederholungen der Wiederholungszyklen oder die gewissen Schichten oder gewissen Neuronen des neuronalen Netzwerks zugeteilte Bedeutung zu kontrollieren.

12. Programmierter Rechnier für die Simulation eines neuronales Netzwerks für die Durchführung der Lemmethode laut einem der Ansprüche 1 bis 10, das versehen ist mit :

- Mitteln zur Speicherung der synaptischen Koeffizienten,