DE69029538T2 - Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes - Google Patents

Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes

Info

Publication number
DE69029538T2
DE69029538T2 DE69029538T DE69029538T DE69029538T2 DE 69029538 T2 DE69029538 T2 DE 69029538T2 DE 69029538 T DE69029538 T DE 69029538T DE 69029538 T DE69029538 T DE 69029538T DE 69029538 T2 DE69029538 T2 DE 69029538T2
Authority
DE
Germany
Prior art keywords
layer
output
neural network
learning
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69029538T
Other languages
English (en)
Other versions
DE69029538D1 (de
Inventor
Sherif Societe Ci Makram-Ebeid
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Application granted granted Critical
Publication of DE69029538D1 publication Critical patent/DE69029538D1/de
Publication of DE69029538T2 publication Critical patent/DE69029538T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)

Description

  • Die Erfindung betrifft ein in einem neuronalen Netzwerk umgesetztes Lernverfahren, das Lernphasen vornimmt, um seine synaptischen Koeffizienten anhand von Beispielen mit Hilfe des Algorithmus der Rückübertragung des Fehlergradienten anzugleichen. Sie betrifft zugleich ein neuronales Netzwerk und einen für die Simulation eines solchen Netzwerks programmierten Rechner.
  • Neuronale Netzwerke finden ihre Anwendung in der Bild-, der Sprachverarbeitung usw.
  • Neuronale Netzwerke werden aus Automaten gebildet, die untereinander mit Synapsen in Kontakt stehen, denen synaptische Koeffizienten zugeteilt sind. Sie ermöglichen die Verarbeitung von Problemen, die mit herkömmlichen sequentiellen Rechnern schwierig sind.
  • Zur Durchführung einer bestimmten Verarbeitung müssen die neuronalen Netzwerke erst lernen, sie auszuführen. Diese sogenannte Lernphase beruft sich auf Beispiele, für die anhand von Eingangsdaten die am Ausgang zu erhaltenden Ergebnisse im voraus bekannt sind. Über einen ersten Zeitraum wird das neuronale Netzwerk, das noch nicht an die vorgesehene Aufgabe angepaßt ist, fehlerhafte Ergebnisse liefern. Dann bestimmt man einen Fehler Ep zwischen den erhaltenen Ergebnissen und denen, die man hätte erhalten müssen, und ändert die synaptischen Koeffizienten auf der Grundlage eines Angleichungskriteriums, um es dem neuronalen Netzwerk zu ermöglichen, das gewählte Beispiel zu erlernen. Dieser Schritt wird mit der Menge an Beispielen wiederholt, die für eine zufriedenstellende Erlernung des neuronalen Netzwerks als erforderlich betrachtet wird.
  • Eine weitverbreitete Methode zur Durchführung dieser Angleichung besteht in der Rückübertragung des Gradienten. Dazu werden die Bestandteile des Gradienten gj,L des vorherigen Fehlers Ep (berechnet auf der letzten Schicht L) in bezug auf jeden Neuronenzustand xj,L bestimmt. Diese Bestandteile werden daraufhin von seinen Ausgängen in das neuronale Netzwerk rückübertragen, um zuerst die internen Bestandteile gj,l (l≠L) zu bestimmen, und dann an den synaptischen Koeffizient Wij,l der betroffenen Neuronen die Korrekturen vorzunehmen. Diese Methode wird z.B. in dem Dokument beschrieben:
  • - D.E. Rumelhart, D.E. Hinton und R.J. Williams "Learning Internal Representation by Error Propagation", in D.E. Rumelhart und J.L. McClelland (Eds) "Parallel Distributed Processing : Exploration in the Microstructure of Cognition", Band 1, Foundations, MIT Press (1986).
  • - "Experiments on neural net recognition of spoken and written text". D.J. Burr, IEEE Trans. on Acoustic, speech and signal processing, Band 36, Nr. 7, Juli 1988, S. 1162.
  • Wenn so eine Methode jedoch in einem neuronalen Netzwerk umgesetzt wird, kann es vorkommen, daß für einige Anwendungen die Lemzeiten sehr lange werden. So wurde diese Schwierigkeit z.B. bei einem Fall eines Paritätsproblems beobachtet. Das Paritätsproblem stellt sich z.B. im Falle eines neuronalen Netzwerks, dessen Eingänge an binäre Signale 1/0 verbunden sind und der Ausgang einen Zustand 1 liefern muß, wenn die Anzahl Eingänge mit 1 ungerade ist, und einen Zustand 0 im umgekehrten Fall. Die Schwierigkeit des Lernverfahrens ist hier durch die Tatsache bedingt, daß der Zustand des Ausgangs wechseln muß, wenn der Zustand eines einzigen der Ausgänge wechselt, wenn sich dagegen eine gerade Anzahl Zustandsänderungen der Eingänge ereignet, muß der Ausgang unverändert bleiben
  • Oder wenn das neuronale Netzwerk z.B. bei Klassifikationsproblemen verwendet wird, kann es sehr schwer sein, die Trennung der Klassen vorzunehmen, zwischen denen die euklidische Mindestdistanz gering ist, denn das neuronale Netzwerk benötigt sehr viel Zeit, um die Unterscheidung dieser verschiedenen Klassen zu lernen. Dies behindert die Trennung der fortlaufend codierten Eingangsdaten insbesondere dann, wenn einige dieser Beispiele, die verschiedenen Klassen angehören, Eingänge haben, die sich sehr wenig voneinander unterscheiden.
  • Das gestellte Problem besteht folglich in der Verminderung der Lernzeit des neuronalen Netzwerks und gleichzeitig möglichster Geringhaltung des zusätzlich erforderlichen Materials.
  • Die Lösung besteht in einer Lernmethode, die in einem aus L Schichten gebildeten neuronalen Netzwerk folgende Schritte enthält :
  • . Bestimmung der Zustände xj,l der Neuronen einer Schicht 1 anhand der Ausgangspotentiale yi,l-1 von Neuronen der vorherigen Schicht abgegeben und mit ihnen über synaptische Koeffizienten Wij,l verbunden, oder anhand von Dateneingängen yi,o für die Schicht l=1, wie
  • . Bestimmung der Potentiale yj,l der Ausgangsneuronen durch Anwendung einer nichtlinearen Funktion F wie :
  • yj,l = F(xj,l),
  • wobei :
  • l: Index der betreffenden Schicht 1≤l≤L,
  • j: Index des Neurons der Ausgangsschicht l,
  • i: Index des Neurons der Eingangsschicht l-1,
  • die Methode enthält Iterations-Lernphasen unter Zuhilfenahme von P Beispielen, die nacheinander in die Eingänge des neuronalen Netzwerks eingegeben werden, mit :
  • . Initialisierung der synaptischen Koeffizientenmatrix Wij,l des neuronalen Netzwerks,
  • . Einleitung der Eingangsdaten y ,o jedes für die Erlernung bestimmten Beispiels p,
  • . Vergleich der erhaltenen Ergebnisse yj,L auf der Ausgangsschicht L mit dem für dieses Beispiel p vorgesehenen, am Eingang aufgetretenen Ausgang y , um einen Teilfehler E zu definieren,
  • Bestimmung der Summe Ep aller Teilfehler E , die für jedes Ausgangsneuron und für jedes Beispiel p beobachtet wurden,
  • . Bestimmung der verschiedenen Bestandteile des Gradienten gj,L = ∂Ep/∂x,jL des Fehlers Ep in bezug auf die Zustände xj,L für die Ausgangsschicht L,
  • . Umsetzung der Rückübertragungsmethode der Bestandteile gj,L des Gradienten, damit das neuronale Netzwerk die Bestandteile gj,l des Gradienten für die anderen Schichten anhand der Matrix der transponierten synaptischen Koeffizienten bestimmt,
  • . Bestimmung der darauffolgenden Variationen die ein umgekehrtes Zeichen der entsprechenden Komponente gj,l sind, um das neuronalen Netzwerk anzupassen,
  • . Aktualisierung der synaptischen Koeffizienten anhand dieser Variationen Δxj,l, mit dem Merkmal, daß für die Bestimmung der darauffolgenden Variationen Δxj,l der Neuronenzustände die Methode einen Multiplikationsschritt der Bestandteile gj,l des Gradienten mit den Parametern θj,l enthält, um die Variationen Δxj,l zu berechnen, proportional zu -θj,l.gj,l, wobei θj,l vom Zustand des Neurons j der Schicht l abhängt, mit θj,l=1, wenn -gj,l und xj,l verschiedenen Zeichens sind und θj,l=θ&sub1;&spplus;, wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θ&sub1;&spplus;≤1.
  • Während der Erlernung zeigt man ein gegebenes Beispiel p. Die dem Beispiel eigenen, in die Eingänge des neuronalen Netzwerks eingegebenen Daten werden auf der letzten Schicht L des Netzwerks ein Ergebnis yj,L für ein gegebenes Ausgangsneuron j. Dabei kennt man zu Beginn das Ergebnis y , das man hätte erhalten sollen. So kann man für ein Beispiel einen Fehler berechnen wie :
  • Das ist der Ausdruck einer durchschnittlichen quadratischen Fehlerberechnung. Es kann ein anderes Vergleichskriterium verwendet werden.
  • Nach der bekannten Methode der Rückübertragung des Gradienten bestimmt man die Bestandteile des Fehlergradienten für jeden Beitrag eines Zustands xj,l eines Neurons wie :
  • gj,l = ∂Ep/∂xj,l
  • wobei xj,l den Zustand des Neurons vor der Aktion der nichtlinearen Funktion darstellt. Dafür berechnet man die Bestandteile gj,L = ∂Ep/∂xj,L, die sich auf die Ausgangsschicht L beziehen, wie gj,L = (yj,L-y ). , wobei die Ableitung der nichtlinearen Ausgangsfunktionen ist.
  • Dann wird das neuronale Netzwerk mit der Matrix der transponierten synaptischen Koeffizienten Wji,l geladen, und die Bestandteile gj,L werden vom Ausgang in das Netz rückübertragen. Das Netz bestimmt so die anderen Bestandteile gj,l des Gradieriten, mit l≠L. Die Bestandteile gj,l werden zur Bestimmung der Variationen Δxj,l verwendet, die der Korrektur der synaptischen Koeffizienten Wij,l dienen, damit sich das Netz an das betreffende Beispiel anpaßt.
  • Im allgemeinen wird diese Korrektur nach der bekannten Methode durchgeführt, wie
  • Wij,l(neu)=Wij,l(alt)+k.Δxj,l.yi,l-1.
  • Gemäß der Erfindung werden die Bestandteile gj,l nicht so verwendet, sondern werden zuvor jeweils mit einem eigenen Parameter θj,l multipliziert, der für ein gegebenes Neuron j vom Zeichen abhängt :
  • - vom Zustand dieses Neurons, und
  • - vom Zeichen des Bestandteils des Gradienten gj,l.
  • Diese Parameter sind θj,l = 1, wenn -g,i und verschiedenen Zeichens sind,
  • und θj,l = θ&sub1;&spplus;, wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θ&sub1;&spplus;≤1.
  • Um die Erlernung jedoch zu beschleunigen wird vorzugsweise im Laufe der ersten Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; entweder nahe bei oder gleich Null gewählt.
  • Es ist zusätzlich im Laufe der späteren Iterationen der Erlernung für jedes gegebene Beispiel möglich, den Wert θ&sub1;&spplus; auf den Wert 1 ansteigen zu lassen.
  • Die Strategie des Zeichens gemäß der Erfindung ermöglicht es auf vorteilhafte Weise, am Anfang der Erlernung zu bewirken, daß die durchgeführten Korrekturen das beobachtete Fehlerzeichen berücksichtigen, und nach und nach bei fortschreitender Erlernung ermöglicht es diese Strategie, stufenweise weniger grobe Korrekturen mit einer größeren Genauigkeit zu bewirken.
  • Die nichtlinearen Funktionen, die der Bestimmung der Ausgangspotentiale dienen, können schwach oder stark nichtlinear gewählt werden. Für eine gesteigerte Wirkung der Strategie des Zeichens gemäß der Erfindung ist es möglich, im Laufe der Erlernung die Wahl dieser nichtlinearen Funktionen zu ändern. Doch die Variationen Δxj,l die von der Methode der Rückübertragung des Gradienten abgeleitet werden, dürfen nicht zu übermäßigen Variationen der synaptischen Koeffizienten führen. Daher wird gemäß einem zusätzlichen Modus der Erfindung eine Normalisierung vorgenommen, damit die Summe der Quadrate der synaptischen Koeffizienten quasikonstant bleibt.
  • So werden die nichtlinearen Funktionen am Anfang der Erlernung schwach nichtlinear gewählt, und nähern sich dann den Funktionen vom Typ Zeichen am Ende der Erlernung, und um diese Wahl zu ermöglichen behalten die synaptischen Koeffizienten, die zu einem gegebenen Neuron j konvergieren, eine quasi konstante Norm (Wij,l)² bei.
  • Diese nichtlinearen Funktionen F sind z.B. vom Typ yj,l=tanh(xj,l/T&sub1;), wobei T&sub1; ein Parameter relativ zur Schicht 1 mit der Bezeichnung Temperatur der Schicht 1 ist.
  • Die im Laufe der Erlernung auf dem Niveau der Nichtlinearität der nichtlinearen Funktionen eingebrachten Variationen werden erhalten, indem für jede Schicht die Parameter T&sub1; variiert werden.
  • Die Strategie des Zeichens gemäß der Erfindung, das darin besteht, zuerst die groben Korrekturen (θ&spplus; klein und positiv) auf der Grundlage des Fehlerzeichens zu bevorzugen, und dann die Parameter θ&spplus; benachbart zur Einheit abzuschwächen, um Korrekturen mit größerer Präzision vorzunehmen, kann auf dem Niveau der Globalstruktur eine ähnliche Aktion bewirken. Dafür wird für jedes Beispiel jedes Bestandteils E des Fehlers Ep selbst mit einem Parameter ηj,L multipliziert. Somit können die Korrekturen (Parameter ηj,L), die zugleich die Gesamtheit der neuronalen Zustände betreffen, jeder der individuellen, für jeden Zustand vorgenommenen Korrektur übergeordnet werden (Parameter θ&spplus;).
  • Zur Begünstigung der Strategie des zuvor aufgetretenen Zeichens gibt man einen Korrekturfaktor ηj,L ein, der von jedem Ausgangsneuron j der letzten Schicht L abhängt. Der Fehler Ep wird dann folgendermaßen bestimmt :
  • Dieser Fehler ist eine quadratische Funktion.
  • Im allgemeinen Fall ist dieser Fehler E für jedes Ausgangsneuron j der Schicht L (für ein gegebenes Beispiel p) :
  • E = H (y - yj,L)
  • wobei H die Funktion des Abstandes zwischen dem erhaltenen Ergebnis yj,L und dem vorhersehbaren Ergebnis yjP ist.
  • Dieser so bestimmte Fehler Ep wird verwendet, um die Bestandteile gj,L und gj,l (mit l≠L) des Gradients zu bestimmen, wie dies zuvor veranschaulicht wurde.
  • Somit enthält die Methode zur Bestimmung des Gradienten einen Fehlerbestimmungsschritt Ep, unter zuvoriger Anwendung eines Korrekturfaktors ηj,L der vom Neuron j der letzten Schicht L wie
  • abhängt, um den Beginn der Erlernung zu begünstigen, wobei ηj,L=1, wenn y und yj,L verschiedenen Zeichens sind, und ηj,L=η&spplus; wenn y und yj,L gleichen Zeichens sind, mit 0≤η&spplus;≤1.
  • Im aktuellen Fall ηj,L = θj,L.
  • Vorzugsweise ist jeder partielle Fehler E der quadratische Fehler ½ (y - yj,L)².
  • In einem zusätzlichen Modus kann die Strategie auf dem Niveau jeder Schicht des neuronalen Netzwerks entwickelt werden. Unter Berücksichtigung der den Eingangsschichten zugeteilten Hauptrollen ist es angebracht, die Erlernung der Eingangsschichten zu beschleunigen und die Erlernung der Ausgangsschichten zu verlangsamen.
  • In der klassischen Methode der Rückübertragung des Gradienten wird der Zustand des Neurons xj,l um eine Menge -Δxj,l verändert, die den Bestandteil des entsprechenden Gradienten gj,l berücksichtigt. Dies wird vorgenommen, indem jeder Bestandteil des Gradienten gj,l mit einer Proportionalitätskonstante multipliziert wird, die für alle Schichten des neuronalen Netzwerks gleich ist.
  • Gemäß dem zusätzlichen Modus schlägt die Erfindung vor, die Korrektur vorzunehmen, indem jedem Neuron jeder Schicht ein Proportionalitätskoeffizient βj,l zugeteilt wird, damit jede Korrektur -Δxj,l proportional zu βj,l.gj,l ist.
  • Der Parameter βj,l ist mit der Strategie des zuvor beschriebenen Zeichens verbunden, indem er proportional zum Parameter θj,l genommen wird, der zur Bestimmung der Korrekturen Δxj,l dient.
  • Somit ist βj,l proportional zu βl.θj,l, wobei βl ein identischer Parameter für eine gesamte gegebene Schicht 1 ist. Gemäß diesem Zusatzmodus wird jeder Schicht 1 ein Parameter βl zugeteilt, der ihr eigen ist und der die Kontrolle der Lerngeschwindigkeit der beiden Eingangsschichten in bezug auf die der Ausgangsschichten ermöglicht. Dafür nimmt der Parameter βl ab, wenn l von der Eingangsschicht zur Ausgangsschicht zunimmt.
  • Somit enthält die Erfindung einen Multiplikationsschritt der Bestandteile θj,l.g,l mit den Konstanten βl, die von jeder Schicht abhängen, damit -Δxj,l dann proportional ist zu βl.θj,l.gl,. mit βl strikt abnehmend gemäß der Nummer der Schicht, wenn man von den Eingangs- zu den Ausgangsschichten geht, damit die an den Neuronenzuständen vorgenommenen Korrekturen eine Beschleunigung der Erlernung der Eingangsschichten und eine Verlangsamung der Erlernung der Ausgangsschichten ermöglichen.
  • Die Erfindung kann anhand der folgenden, als nicht begrenzendes Beispiel gegebenen Abbildungen leichter verstanden werden, die folgendes darstellen :
  • Abbildung 1 : einen Plan, der die von einer Struktur mit einer Schicht Eingangsneuronen und Ausgangsneuronen vorgenommenen Verarbeitungsmechanismen zeigt.
  • Abbildung 2 : einen Plan, der eine Struktur mit mehreren Schichten zeigt : Eingangsschicht, versteckte Schichten, Ausgangsschicht.
  • Abbildung 3 : einen Plan, der eine neuronale Netzwerkstruktur zeigt, die die Methode gemäß der Erfindung umsetzt.
  • Abbildung 1 zeigt einen herkömmlichen Plan einer Verarbeitung, vorgenommen auf einem elementaren neuronalen Netzwerk, das aus einer Eingangsschicht mit mehreren Neuronen 10&sub1;...10I(l-1) gebildet wird, die jeweils die Eingangssignale y1,l-1, y2,l-1,...yI(l-1),l-1 an ein einziges Ausgangsneuron abgibt, dessen Zustand xj,l ist. Dieser Zustand wird über die Berechnungsmittel 11 bestimmt, wie :
  • Dieser Zustand xj,l unterliegt der Wirkung einer nichtlinearen Funktion (Block 12), um nach Anwendung dieser Funktion F das Ausgangspotential yj,l zu liefern.
  • yj,l = F(xj,l)
  • Dieses Ausgangspotential yj,l kann dann als Eingangszustand für eine folgende Schicht dienen. Man erreicht somit eine Stapelung von Schichten wie in Abbildung 2 dargestellt, mit einer Eingangsschicht l=1, versteckten Schichten l=2, 3 und einer Ausgangsschicht l=L. Die Neuronen einer Schicht sind nur mit denen der darauffolgenden Schicht verbunden, nach den synaptischen Koeffizienten Wij,l. Jeder Zustand der Neuronen wird nach den vorhergehenden Ausdrücken bestimmt, beginnend mit der Schicht l=1.
  • Zur Durchführung der Erlernung, d.h. der Angleichung der synaptischen Koeffizienten Wij,l an eine gegebene Aufgabe, werden am Eingang Beispiele gezeigt, für die die Ergebnisse yjP auf der Ausgangsschicht im voraus bekannt sind. Der Fehler Ep wird für jedes Beispiel über alle Ausgangszustände berechnet, dann werden seine Variationen in bezug auf die schwachen Variationen ∂xj,l jedes Zwischenzustands bestimmt. Die Bestandteile gj,l des Gradienten sind entsprechend :
  • gj,l = ∂Ep/∂xj,l
  • Dafür werden die Bestandteile gj,L auf der Ausgangsschicht berechnet, und dann in das neuronale Netzwerk Rückübertragen, das die anderen Bestandteile gj,l des Fehlergradienten wiederherstellt. Diese Bestandteile ermöglichen die Bestimmung der Variationen Δxj,l, die von den Zuständen xj,l abgeleitet werden, damit sich des neuronale Netzwerk an die vorgesehene Aufgabe anpaßt. Dies geht der Aktualisierung der synaptischen Koeffizienten Wij,l voran, so wie zuvor angegeben.
  • Diese Schritte werden in einer gemäß Abbildung 3 zugeschnittenen neuronalen Netzwerkstruktur oder in einem für die Aktualisierung der Methode programmierten Rechner vorgenommen.
  • Der Speicher 30 speichert die Matrix der synaptischen Koeffizienten Wji,l und die ursprünglich aus den Eingangsmitteln 29 stammende transponierte Matrix Wji,l. Die synaptischen Koeffizienten werden an Rechenmittel 31 übertragen, die die aus der vorherigen Schicht kommenden Eingangspotentiale yi,l-1 erhalten. Diese Mittel 31 bestimmen :
  • xj,l = Σ Wij,l . yil-1
  • Zu Beginn sind die Zustände der Eingangsneuronen yi,l-1 am Netzwerkeingang angewandte Beispiele yi,0. Diese Beispiele kommen aus einem Beispielspeicher 32. Ein Selektor 33 ermöglicht die Vornahme dieser Wahl. Auch der Beispielspeicher 32 speichert auch die Ergebnisse yjP, die man für jedes Beispiel p und jedes Ausgangspotential j erhalten muß.
  • Die Zustände xj,l der Ausgangsneuronen werden der Wirkung einer nichtlinearen Funktion in der Einheit 34 unterworfen, die für jedes Beispiel die Ausgangspotentiale yj,L der letzten Schicht L gibt, wie sie vom System ausgegeben werden. Zur Durchführung der Zwischenberechnungsschritte von Schicht zu Schicht werden die Ausgangspotentiale yj,l einer Schicht l in einem Zustandsspeicher 37 zwischengespeichert und als Eingangszustände für die folgende Schicht verwendet. Jedes Potential yj,L wird im Komparator 35 mit dem vorgesehenen Zustand yjP verglichen, der dazu alle erfaßten Fehler Epj, speichert und addiert, um einen Fehler Ep in bezug auf jedes Beispiel zu liefern.
  • Die Bestandteile des Gradienten gj,L werden von dem Zwischenrechner 36 bestimmt. Er erhält dafür den Fehler Ep, die Ausgangspotentiale yj,L und die vorgesehenen Zustände y . Der Zwischenrechner 36 bestimmt die Bestandteile gj,L, wie :
  • mit 1 ≤j≤I(L).
  • F'i,L sind die Ableitungen jeder nichtlinearen Funktion der Ausgangsschicht.
  • Die Bestandteile gj,L werden in die Rechenmittel 31 eingegeben, die die Durchführung der Methode der Rückübertragung des Gradienten ermöglichen, d.h., daß die Bestandteile gj,L auf die Ausgangsschichten gegeben und ihre Wirkung auf die Eingangsschichten rückübertragen wird.
  • Die Bestandteile des Gradienten gj,l=∂Ep/∂xj,l (mit l≠L) werden so über die Rechenmittel 31 durch Rückübertragung des Fehlergradienten Ep bestimmt. Die Bestandteile gj,l werden an den Zwischenrechner 36 abgegeben, der für jeden Neuronenzustand die darauffolgenden Variationen Δxj,l bestimmt. Dafür multipliziert er jeden Bestandteil gj,l mit seinem Parameter θj,l gemäß der Erfindung.
  • Alle Variationen Δxj,l werden an die Aktualisierungseinheit 38 übertragen, die die neuen synaptischen Koeffizienten Wij,l bestimmt und sie an den Speicher 30 abgibt.
  • Dieses Verfahren wird wiederholt, um die Gesamtheit der Lernphasen durchzuführen. In deren Verlauf wird der Zwischenrechner 36 einen Korrekturparameter θl&spplus; nahe oder gleich Null für die ersten Wiederholungen anwenden können, den er im Verlauf der weiteren Wiederholungen dem Wert 1 annähern wird. Dazu wird der Zwischenrechner 36 die Multiplikation von E mit den Parametern ηj,L vornehmen, bevor er die Bestandteile gj,L berechnet, um die Rückübertragung des Gradienten in die Rechenmittel 31 vorzunehmen.
  • Wenn die jeder Schicht eigenen Konstanten βl für die Korrekturen θj,l.gj,l zur Bestimmung der zu βl.θj,l.gj,l proportionalen Variationen -Δxj,l angewandt werden, wird dies vom Zwischenrechner 36 vorgenommen, vor der Aktualisierung der synaptischen Koeffizienten Wij,l von der Aktualisierungseinheit 38.
  • Somit enthält die Struktur des neuronalen Netzwerks in Schichten gemäß der Erfindung Mittel für die Durchführung der beschriebenen Lernmethode und ist dafür versehen mit :
  • - Mitteln zur Speicherung der synaptischen Koeffizienten,
  • - Mitteln zur Speicherung der zu lehrenden Beispiele und ihre darauffolgende Einführung in des neuronale Netzwerk,
  • - Mittel für den Vergleich am Ausgang der für jedes Beispiel vorgesehenen Ergebnisse und für die Abgabe eines Fehlers gemäß den beobachteten Abweichungen,
  • - Mitteln für die Berechnung der Zustände der Ausgangsneuronen anhand der Potentiale der Eingangsneuronen und für die Vornahme der Rückübertragung des Gradienten des besagten Fehlers und der Abgabe der Bestandteile gj,l des besagten Gradienten,
  • - Mitteln für die Anwendung nichtlinearer Funktionen am Ausgang,
  • - Mitteln für die Berechnung der neuen synaptischen Koeffizienten unter Berücksichtigung der Bestandteile gj,l des Gradienten und der der Methode eigenen Multiplikationsparameter, die es ermöglichen, die Bedeutung gewisser Wiederholungen der Wiederholungszyklen oder die gewissen Schichten oder gewissen Neuronen des neuronalen Netzwerks zugeteilte Bedeutung zu kontrollieren.
  • Der Plan von Abbildung 3 ist in der Form einer neuronalen Netzwerkstruktur, gebildet aus Funktionsblöcken dargestellt, die von einem Zwischenrechner kontrolliert werden. Es ist möglich, daß die Gesamtheit der durchzuführenden Funktionen in den Rechner integriert werden. In diesem Fall betrifft die Erfindung einen Rechner, der programmiert ist, um die Schritte der beschriebenen Methode umzusetzen.
  • Tabelle 1 zeigt ein Organigramm der hauptsächlichen Schritte gemäß der Erfindung.
  • - Schritt 1
  • initialisiert η&spplus; und θ&spplus; mit schwachen positiven Werten und legt die Temperaturen T&sub1; fest. Für die Schicht l=1 liegt der Wert Tl nahe dem Durchschnitt der absoluten Werte in bezug auf das Beispiel p, und für l≠1 hat der Wert Tl einen Wert von 1 (Schleife auf 1).
  • Die synaptischen Koeffizienten Wij,l werden mit zufällig gewählten oder bekannten Werten initialisiert (Schleife auf i und j).
  • - Schritt 2
  • führt in das neuronale Netzwerk die Werte der Eingänge yi,o für ein Beispiel p ein.
  • - Schritt 3
  • berechnet Zustände xj,l und Potentiale yj,l am Ausgang. Die Berechnung der Zustände kann den Einbezug einer Schwelle sj,l berücksichtigen, die auch in die nichtlineare Funktion F eingeführt werden kann.
  • - Schritt 4
  • wendet die Strategie des Zeichens auf dem Ausgangsfehler an. Dafür wird das Produkt y .yj,L berechnet und sein Zeichen betrachtet. Wenn das Produkt negativ oder Null ist : nimmt ηj,L den Wert 1. Im umgekehrten Fall nimmt ηj,L den Wert η&spplus;.
  • Der Fehler Ep auf der Ausgangsschicht wird bestimmt, und die Bestandteile des Gradienten berechnet.
  • - Schritt 5.
  • Die Ableitungen F'j,l der nichtlinearen Funktionen werden berechnet. Die Bestandteile des Gradienten gj,l-1 werden daraufhin durch Rückübertragung des Gradienten berechnet. Man testet das Produkt -gj,l.xj,l. Wenn dieses Produkt negativ oder Null ist, wird θj,L gleich 1 gesetzt. Wenn dieses Produkt positiv ist, ist θj,L gleich θ&spplus;, mit 0≤θ&spplus;≤1. Dann wird βj,l berechnet.
  • - Schritt 6.
  • Die Bestandteile des Gradienten gj,l werden für die Bestimmung der darauffolgenden Variationen Δxj,l verwendet. Dieser Schritt gibt eine Wahl an Beispielen selbstangleichender Funktion, was es ermöglicht, die Bestandteile gj,l auf die Variationen Δxj,l zu reflektieren. Diese Funktion läßt das Modul G² des Gradienten gj,l, die Faktoren v, zur Regelung der Amplitude der Korrektur und den mittleren Wert der Ausdrücke βj,l in Verbindung mit den verschiedenen Neuronen eingreifen.
  • - Schritt 7.
  • Er ermöglicht die Verteilung der für das Beispiel p berechneten Variationen Δxj,l, zugleich auf die synaptischen Koeffizienten Wij,l und die Schwellen sj,l. Das Verteilungsverhältnis wird von einem Parameter &sub1; kontrolliert, der die Norm y²i,l-1 eingreifen läßt.
  • Dieser Schritt 7 stellt ein Beispiel eines Verteilungsverhältnisses dar, das es ermöglicht, die Norm der synaptischen Koeffizienten für ein gegebenes Ausgangsneuron quasi konstant zu halten. Man setzt voraus, daß die Veränderungen mit geringstmöglichen Werten und Schwellen durchgeführt werden.
  • - Schritt 8.
  • Wenn der kumulierte Wert
  • für alle Beispiele kleiner oder gleich einem vorbestimmten Wert 8 ist, ist die Erlernung abgeschlossen. Wenn dieser Fehler größer als ε ist, fährt man mit den folgenden Schritten fort.
  • - Schritt 9. Die Temperaturen T&sub1; werden leicht verringert, und dafür wird der ursprüngliche Wert mit einem zwischen 0 und 1 liegenden Parameter multipliziert.
  • - Schritt 10.
  • Die Werte von η&spplus; und θ&spplus; werden neu angeglichen.
  • - Schritt 11.
  • Es wird ein anderes Beispiel p' gewählt, und die Verarbeitung bei Schritt 2 neu begonnen. Tabelle 1

Claims (12)

1. Ein in einem neuronalen Netzwerk umgesetztes Lernverfahren, das in einem aus L Schichten gebildeten neuronalen Netzwerk folgende Schritte enthält :
. Bestimmung der Zustande xj,l der Neuronen einer Schicht 1 anhand der Ausgangspotentiale yj,l-1, von Neuronen der vorherigen Schicht abgegeben und mit ihnen über synaptische Koeffizienten Wij,l verbunden, oder anhand von Dateneingängen yi,o für die Schicht l=1, wie :
xj,l = Wij,l.yl-1
. Bestimmung der Potentiale der Ausgangsneuronen durch Anwendung einer nichtlinearen Funktion F wie :
yj,l = F(xj,l)
wobei
l: Index der betreffenden Schicht 1≤l≤L,
j: Index des Neurons der Ausgangsschicht l,
i: Index des Neurons der Eingangsschicht l-1,
die Methode enthält Iterations-Lernphasen unter Zuhilfenahme von P Beispielen, die nacheinander in die Eingänge des neuronalen Netzwerks eingegeben werden, mit :
. Initialisierung der synaptischen Koeffizientenmatrix Wij,l des neuronalen Netzwerks,
. Einleitung der Eingangsdaten y ,o jedes für die Erlernung bestimmten Beispiels p,
. Vergleich der erhaltenen Ergebnisse yj,L auf der Ausgangsschicht L mit dem für dieses Beispiel p vorgesehenen, am Eingang aufgetretenen Ausgang y , um einen Teilfehler E zu definieren,
. Bestimmung der Summe Ep aller Teilfehler E , die für jedes Ausgangsneuron und für jedes Beispiel p beobachtet wurden,
. Bestimmung der verschiedenen Bestandteile des Gradienten gj,L = ∂Ep/∂xj,L des Fehlers Ep in bezug auf die Zustände xj,L für die Ausgangsschicht L,
. Umsetzung der Rückübertragungsmethode der Bestandteile gj,L des Gradienten, damit das neuronale Netzwerk die Bestandteile gj,l des Gradienten für die anderen Schichten anhand der Matrix der transponierten synaptischen Koeffizienten bestimmt,
. Bestimmung der darauffolgenden Variationen Δxj,l, die ein umgekehrtes Zeichen der entsprechenden Komponente gj,l sind, um das neuronalen Netzwerk anzupassen,
. Aktualisierung der synaptischen Koeffizienten anhand dieser Variationen Δxj,l, mit dem Merkmal, daß für die Bestimmung der darauffolgenden Variationen Δxj,l der Neuronenzustände die Methode einen Multiplikationsschritt der Bestandteile gj,l des Gradienten mit den Parametern θj,l enthält, um die Variationen Δxj,l zu berechnen, proportional zu -θj,l.gj,l, wobei θj,l vom Zustand des Neurons j der Schicht l abhängt, mit θj,l=l, wenn -gj,l und xj,l verschiedenen Zeichens sind und θj,l=θl+l wenn -gj,l und xj,l gleichen Zeichens sind, mit 0≤θl&spplus;≤1.
2. Methode laut Anspruch 1, mit dem Merkmal, daß im Laufe der ersten Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; entweder nahe bei oder gleich Null gewählt wird.
3. Methode laut Anspruch 2, mit dem Merkmal, daß im Laufe der späteren Iterationen der Erlernung für jedes gegebene Beispiel θ&sub1;&spplus; auf den Wert 1 ansteigt.
4. Methode laut einem der Ansprüche 1 bis 3, mit dem Merkmal, daß die nichtlinearen Funktionen am Anfang der Erlernung schwach nichtlinear gewählt werden, und sich dann den Funktionen vom Typ Zeichen am Ende der Erlernung nähern, und um diese Wahl zu ermöglichen behalten die synaptischen Koeffizienten, die zu einem gegebenen Neuron j konvergieren, eine quasi konstante Norm (Wij,l)² bei.
5. Methode laut Anspruch 4, mit dem Merkmal, daß diese nichtlinearen Funktionen F vom Typ yj,l=tanh(xj,l/T&sub1;) sind, wobei T&sub1; ein Parameter relativ zur Schicht l mit der Bezeichnung Temperatur der Schicht l ist.
6. Methode laut Anspruch 5, mit dem Merkmal, daß die im Laufe der Erlernung auf dem Niveau der Nichtlinearität der nichtlinearen Funktionen eingebrachten Variationen erhalten werden, indem für jede Schicht die Parameter T&sub1; variiert werden.
7. Methode laut einem der Ansprüche 1 bis 6, mit dem Merkmal, daß sie zur Bestimmung der Bestandteile des Gradienten gj,L einen Fehlerbestimmungsschritt Ep enthält, unter zuvoriger Anwendung eines Korrekturfaktors ηj,L, der vom Neuron j der letzten Schicht L wie
abhängt, um den Beginn der Erlernung zu begünstigen, mit ηj,L=1 wenn y und yj,L verschiedenen Zeichens sind, und ηj,L=η&spplus; wenn y und yj,L gleichen Zeichens sind, mit 0≤η&spplus;≤1.
8. Methode laut Anspruch 7, mit dem Merkmal, daß ηj,L = θj,L.
9. Methode laut einem der Ansprüche 1 bis 8, mit dem Merkmal, daß der partielle Fehler E der quadratische Fehler ½ (y - yj,L)² ist.
10. Methode laut einem der Ansprüche 1 bis 9, mit dem Merkmal, daß die Erfindung einen Multiplikationsschritt der Bestandteile θj,l.gj,l mit den Konstanten βl enthält, die von jeder Schicht abhängen, damit -Δxj,l dann proportional ist zu βl.θj,l.gj,l, mit βl strikt abnehmend gemäß der Nummer der Schicht, wenn man von den Eingangs- zu den Ausgangsschichten geht, damit die an den Neuronenzuständen vorgenommenen Korrekturen eine Beschleunigung der Erlernung der Eingangsschichten und eine Verlangsamung der Erlernung der Ausgangsschichten ermöglichen.
11. Ein neuronales Netzwerks für die Durchführung der Lemmethode laut einem der Ansprüche 1 bis 10, das versehen ist mit
- Mitteln zur Speicherung der synaptischen Koeffizienten,
- Mitteln zur Speicherung der zu lehrenden Beispiele und ihre darauffolgende Einführung in des neuronale Netzwerk,
- Mittel für den Vergleich am Ausgang der für jedes Beispiel vorgesehenen Ergebnisse und für die Abgabe eines Fehlers gemäß den beobachteten Abweichungen,
- Mitteln für die Berechnung der Zustände der Ausgangsneuronen anhand der Potentiale der Eingangsneuronen und für die Vornahme der Rückübertragung des Gradienten des besagten Fehlers und der Abgabe der Bestandteile gj,l des besagten Gradienten,
- Mitteln für die Anwendung nichtlinearer Funktionen am Ausgang, mit dem Merkmal, daß es folgendes enthält
- Mittel für die Berechnung der neuen synaptischen Koeffizienten unter Berücksichtigung der Bestandteile gj,l des Gradienten und der der Methode eigenen Multiplikationsparameter, die es ermöglichen, die Bedeutung gewisser Wiederholungen der Wiederholungszyklen oder die gewissen Schichten oder gewissen Neuronen des neuronalen Netzwerks zugeteilte Bedeutung zu kontrollieren.
12. Programmierter Rechnier für die Simulation eines neuronales Netzwerks für die Durchführung der Lemmethode laut einem der Ansprüche 1 bis 10, das versehen ist mit :
- Mitteln zur Speicherung der synaptischen Koeffizienten,
- Mitteln zur Speicherung der zu lehrenden Beispiele und ihre darauffolgende Einführung in des neuronale Netzwerk,
- Mittel für den Vergleich am Ausgang der für jedes Beispiel vorgesehenen Ergebnisse und für die Abgabe eines Fehlers gemäß den beobachteten Abweichungen,
- Mitteln für die Berechnung der Zustände der Ausgangsneuronen anhand der Potentiale der Eingangsneuronen und für die Vornahme der Rückübertragung des Gradienten des besagten Fehlers und der Abgabe der Bestandteile gj,l des besagten Gradienten,
- Mitteln für die Anwendung nichtlinearer Funktionen am Ausgang, mit dem Merkmal, daß es folgendes enthält
- Mittel für die Berechnung der neuen synaptischen Koeffizienten unter Berücksichtigung der Bestandteile gj,l des Gradienten und der der Methode eigenen Multiplikationsparameter, die es ermöglichen, die Bedeutung gewisser Wiederholungen der Wiederholungszyklen oder die gewissen Schichten oder gewissen Neuronen des neuronalen Netzwerks zugeteilte Bedeutung zu kontrollieren.
DE69029538T 1989-06-09 1990-06-05 Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes Expired - Fee Related DE69029538T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR8907662A FR2648251B1 (fr) 1989-06-09 1989-06-09 Methode d'apprentissage et structure de reseau de neurones

Publications (2)

Publication Number Publication Date
DE69029538D1 DE69029538D1 (de) 1997-02-13
DE69029538T2 true DE69029538T2 (de) 1997-06-19

Family

ID=9382564

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69029538T Expired - Fee Related DE69029538T2 (de) 1989-06-09 1990-06-05 Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes

Country Status (5)

Country Link
US (1) US5630020A (de)
EP (1) EP0401927B1 (de)
JP (1) JPH0363870A (de)
DE (1) DE69029538T2 (de)
FR (1) FR2648251B1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0466022A3 (en) * 1990-07-12 1993-08-25 Allen-Bradley Company, Inc. Teaching method for recurrent neural networks
JP3515267B2 (ja) * 1996-02-29 2004-04-05 株式会社東芝 多層神経回路網学習装置
US6871195B2 (en) * 2000-09-13 2005-03-22 E-Promentor Method and system for remote electronic monitoring and mentoring of computer assisted performance support
US6981958B1 (en) * 2001-05-02 2006-01-03 Glaukos Corporation Implant with pressure sensor for glaucoma treatment
US7814038B1 (en) 2007-12-06 2010-10-12 Dominic John Repici Feedback-tolerant method and device producing weight-adjustment factors for pre-synaptic neurons in artificial neural networks
DE102012009502A1 (de) * 2012-05-14 2013-11-14 Kisters Ag Verfahren zum Trainieren eines künstlichen neuronalen Netzes
US11037054B2 (en) * 2016-12-20 2021-06-15 Intel Corporation Trace-based neuromorphic architecture for advanced learning
CN109165275B (zh) * 2018-07-24 2021-03-02 国网浙江省电力有限公司电力科学研究院 基于深度学习的智能变电站操作票信息智能搜索匹配方法
CN109814389A (zh) * 2019-02-01 2019-05-28 浙江大学 参数自整定的mimo异因子紧格式无模型控制方法
CN113515043B (zh) * 2021-06-18 2024-04-19 上海源矩技术有限公司 一种基于bp神经网络的干熄焦烧损率实时计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1287175C (en) * 1987-03-12 1991-07-30 Analog Intelligence Corporation Back propagation system
FR2625347B1 (fr) * 1987-12-23 1990-05-04 Labo Electronique Physique Structure de reseau de neurones et circuit et arrangement de reseaux de neurones
US4933872A (en) * 1988-11-15 1990-06-12 Eastman Kodak Company Method and system for wavefront reconstruction

Also Published As

Publication number Publication date
EP0401927A1 (de) 1990-12-12
FR2648251A1 (fr) 1990-12-14
JPH0363870A (ja) 1991-03-19
DE69029538D1 (de) 1997-02-13
FR2648251B1 (fr) 1991-09-13
US5630020A (en) 1997-05-13
EP0401927B1 (de) 1997-01-02

Similar Documents

Publication Publication Date Title
DE68922624T2 (de) Verteiltes parallelverarbeitungsnetzwerk, worin die verbindungsgewichte mit hilfe von starren differentialgleichungen erzeugt werden.
DE68924822T2 (de) Signalverarbeitungssystem und Lernverarbeitungssystem.
DE3855035T2 (de) Mehrschichtiges Neuronalnetzwerk mit dynamischer Programmierung
DE102019116305A1 (de) Pipelining zur verbesserung der inferenzgenauigkeit neuronaler netze
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE68925625T2 (de) Verfahren zur Rückführung von Fehlern und neuronale Netzstruktur
DE3938645C1 (de)
DE112020002186B4 (de) Dnn-training mit asymmetrischen rpu-einheiten
DE69029538T2 (de) Lernverfahren, neuronales Netz und Rechner zur Simulation eines solchen neuronalen Netzes
DE10296704T5 (de) Fuzzy-Inferenznetzwerk zur Klassifizierung von hochdimensionalen Daten
DE102012009502A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes
DE102021200012A1 (de) Optimierte quantisierung für neuronale netze mit verringerter auflösung
DE69033358T2 (de) Neuronale netzwerke
WO2019081241A1 (de) Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes
DE4215179A1 (de) Prozessor und verarbeitendes element zum gebrauch in einem neural- oder nervennetzwerk
EP0901658B1 (de) Verfahren zur optimierung eines fuzzy-regelsatzes durch einen rechner
EP0925541B1 (de) Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz
DE69315250T2 (de) Neuronaler Prozessor mit Datennormalisierungsanlage
DE112021001968T5 (de) Driftregularisierung zum entgegenwirken einer variation in driftkoeffizienten für analoge beschleuniger
DE112020005613T5 (de) Neuromorphe Einheit mit Kreuzschienen-Array-Struktur
DE19504664A1 (de) Chaotisches rekurrentes neuronales Netz und Lernverfahren dafür
DE69602662T2 (de) Verfahren zur Beschleunigung der Ausführungsgeschwindigkeit von Neuronalnetzwerken für korrelierte Signalverarbeitung
DE4417932B4 (de) Verfahren und ein System zum Erhalten von Zieleinstellbeträgen für Ausführungsparameter durch Lernen einer Mehrzahl von Sätzen von Muster-Eingabedaten und Muster-Ausgabedaten
EP3785178B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE69230422T2 (de) Neuronales Netzwerk und Lernverfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N

8339 Ceased/non-payment of the annual fee