DE19653553C1 - Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens - Google Patents

Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens

Info

Publication number
DE19653553C1
DE19653553C1 DE19653553A DE19653553A DE19653553C1 DE 19653553 C1 DE19653553 C1 DE 19653553C1 DE 19653553 A DE19653553 A DE 19653553A DE 19653553 A DE19653553 A DE 19653553A DE 19653553 C1 DE19653553 C1 DE 19653553C1
Authority
DE
Germany
Prior art keywords
target value
layer
training
input
zzw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19653553A
Other languages
English (en)
Inventor
Juergen Herr
Hans-Georg Dr Zimmermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wincor Nixdorf International GmbH
Original Assignee
Siemens Nixdorf Advanced Technologies GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Nixdorf Advanced Technologies GmbH filed Critical Siemens Nixdorf Advanced Technologies GmbH
Priority to DE19653553A priority Critical patent/DE19653553C1/de
Application granted granted Critical
Publication of DE19653553C1 publication Critical patent/DE19653553C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

Technischer Hintergrund
Aus dem Dokument [1] ist sowohl eine übliche Anordnung eines künstlichen neuronalen Netzes als auch eine Übersicht über verschiedene Trainingsverfahren zum Training eines neuronalen Netzes bekannt.
Die aus [1] bekannte Anordnung eines künstlichen neuronalen Netzes NN weist eine Eingangsschicht ES, eine beliebige An­ zahl verdeckter Schichten VS und eine Ausgangsschicht AS auf (vgl. Fig. 2). Jede Schicht ES, VS, AS enthält allgemein ei­ ne beliebige Anzahl von Neuronen NE. Üblicherweise sind die Neuronen NVS der verdeckten Schicht VS, für den Fall daß nur eine verdeckte Schicht existiert, mit Ausgängen ANES der Neu­ ronen NES der Eingangsschicht ES gekoppelt. Neuronen NAS der Ausgangsschicht AS sind üblicherweise mit Ausgängen ANVS der Neuronen der verdeckten Schicht VS gekoppelt.
Zum Trainieren des neuronalen Netzes NN ist es bekannt, Trai­ ningsdaten dem neuronalen Netz NN zuzuführen. Ein Trainings­ datum enthält üblicherweise eine beliebige Anzahl Eingangs­ werte EWi (i = 1 . . . n) und einen dem jeweiligen Trainingsdatum zugeordneten Zielwert ZW. In der Trainingsphase wird unter Verwendung bekannter Trainingsverfahren, beispielsweise dem sog. Gradientenabstiegsverfahren die durch die Trainingsdaten implizit gegebene Funktion durch das neuronale Netz NN approximiert.
Bei dem bekannten Verfahren ist es von Nachteil, daß wichtige Zusammenhänge von Informationen, die in den Trainingsdaten enthalten sind, nicht von dem neuronalen Netz in der Trai­ ningsphase gelernt werden können. Es stehen üblicherweise nur eine geringe Zahl von Ausgangsneuronen, oftmals nur ein Aus­ gangsneuron zur Verfügung zur Steuerung der Gewichtsanpassung beim Training des neuronalen Netzes.
Eine Übersicht über verschiedene Anwendungsbereiche neurona­ ler Netze NN ist in dem Dokument [2] zu finden.
Aus US 5 276 771 ist für ein mehrschichtiges neuronales Netz bekannt, zur Buchstabenerkennung in der Vorwärtsausbreitung zuerst Teilmerkmale eines Buchstaben zu klassifizieren und anschließend die Teilmerkmale als Buchstaben zu klassifizie­ ren.
Aus DE 43 17 372 A1 ist bekannt, daß mit Ausgangssignalen ei­ nes neuronalen Netzes eine Wahrscheinlichkeit für das Auftre­ ten eines vorgebbaren Ereignisses beschrieben werden kann.
Kurzbeschreibung der Erfindung
Der Erfindung liegt das Problem zugrunde, ein Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes sowie eine Anordnung zur Durchführung des Verfahrens anzugeben, mit dem bzw. mit der in den Trainingsdaten enthaltene Informationen im nahmen des Trainings mit Rückwärtsausbreitung verglichen mit bekannten Verfahren besser berücksichtigt werden.
Das Problem wird durch das Verfahren gemäß Patentanspruch 1 sowie die Anordnung gemäß Patentanspruch 6 gelöst.
Bei dem Verfahren werden Trainingsdaten verwendet, wobei je­ des Trainingsdatum mindestens einen Eingangswert und minde­ stens einen dem Eingangswert zugeordneten Zielwert aufweisen. Ferner enthalten die Trainingsdaten jeweils mindestens einen Zwischenzielwert, aus dem der Zielwert gebildet wird. In dem Training wird der mindestens eine Zielwert einer Ausgangs­ schicht zugeführt und der mindestens eine Zwischenzielwert wird einer Zwischenausgangsschicht zusätzlich zugeführt.
Unter einem Zwischenzielwert sind in der Trainingsphase ent­ haltene zusätzliche Informationen, d. h. Sollwerte zu verste­ hen, die im Rahmen des üblichen Trainings bisher noch nicht berücksichtigt wurden.
Durch dieses Verfahren wird in der Trainingsphase das neuro­ nale Netz an zusätzliche, zwar zuvor bekannte, aber noch nicht im Trainingsverfahren berücksichtigte Zusammenhänge in den Daten approximiert. Durch die Berücksichtigung der Zwi­ schenzielwerte werden somit zusätzliche Informationen zur Steuerung der Gewichtsanpassung zur Verfügung gestellt. An­ stelle weniger Ausgangsneuronen, die Fehlersignale zur Anpas­ sung oftmals mehrerer 1000 Gewichte produzieren, steht durch dieses Verfahren nunmehr ein Vielfaches an differenzierter Information über das Verhalten der eigentlichen Zielwerte zur Verfügung. Damit wird die Approximation des neuronalen Netzes an die Trainingsdaten erheblich verbessert.
Die Anordnung zur Durchführung des Verfahrens weist eine Zwi­ schenausgangsschicht mit mindestens einem Neuron auf. Der Zwischenausgangsschicht ist zusätzlich der Zwischenzielwert zuführbar.
Sowohl das Verfahren als auch die Anordnung können sowohl in Software als auch in Hardware realisiert werden.
Die Vorteile, die oben im Zusammenhang mit dem Verfahren er­ läutert wurden, sind ebenso für die Anordnung gegeben.
Allgemein ist die Struktur des neuronalen Netzes NN völlig beliebig. Zwischen den Neuronen jeweils zweier Schichten sind beliebig viele Kopplungen vorgesehen, denen jeweils ein Ge­ wicht zugeordnet ist. Mit dem Gewicht werden jeweils Aus­ gangssignale eines Neurons gewichtet, d. h. multipliziert, und dann dem Neuron der nächstfolgenden Schicht, mit dem jeweils der Ausgang des vorangegangenen Neurons gekoppelt ist, zuge­ führt.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Bei dem bekannten Verfahren ist es weiterhin nachteilig, daß während des Trainings Trainingsdaten, die weit außerhalb des üblichen Wertebereichs der Trainingsdaten liegen, vollständig im Rahmen des Trainings berücksichtigt werden. Dies führt zu Veränderungen der Gewichte, mit denen die einzelnen Kopplun­ gen zwischen Neuronen des neuronalen Netzes NN zugeordnet sind, die unerwünscht sind. Dieses Problem wird als Ausrei­ ßerproblematik bezeichnet.
In einer Weiterbildung weist die Anordnung eine Zwischenein­ gangsschicht zusätzlich zu der Eingangsschicht, den verdeck­ ten Schichten sowie der Ausgangsschicht auf. Die Zwischenein­ gangsschicht weist genauso viele Neuronen auf wie die Ein­ gangsschicht. Genau ein Neuron der Zwischeneingangsschicht ist hierbei mit genau einem Neuron der Eingangsschicht gekop­ pelt.
Diese zusätzliche Zwischeneingangsschicht vermindert erheb­ lich die Ausreißerproblematik und wirkt als Fokus auf einen wichtigen Wertebereich der Indikatordatenreihe, d. h. der Trainingsdaten.
Sowohl das Verfahren als auch die Anordnung können in ver­ schiedensten Gebieten vorteilhaft Anwendung finden.
Beispiele möglicher Anwendungen sind zum einen die Analyse des Verhalten, z. B. das Kaufverhalten, potentieller oder tat­ sächlicher Kunden eines gewerblichen Betriebes, die Analyse eines technischen Sensors oder auch die Analyse der Bonität von Kreditnehmern.
Bei der Analyse des Kaufverhaltens wird beispielsweise mit dem Zielwert die Kaufwahrscheinlichkeit eines potentiellen Kunden angegeben. Mögliche Zwischenzielwerte sind beispiels­ weise in diesem Fall Wahrscheinlichkeiten dafür, daß ein männlicher Käufer tatsächlich einen Kauf tätigt bzw. daß ein weiblicher Käufer die Ware kauft. Die Zielgröße ergibt sich somit aus der Summe der Wahrscheinlichkeiten, daß männliche Kunden, bzw. weibliche Kunden einen Kauf tätigen.
Eine andere Möglichkeit wäre, daß als Zwischenzielwert die Wahrscheinlichkeit dafür, daß eine junge Käufergruppe einen Kauf tätigt verwendet wird und als eine zweite Zwischenziel­ größe die Wahrscheinlichkeit dafür, daß ein älterer Kunden­ kreis einen Kauf tätigt. Wiederum ergibt sich die Zielgröße der Kaufwahrscheinlichkeit aus der Summe der einzelnen, oben beschriebenen Wahrscheinlichkeiten.
Allgemein kann eine beliebige Kombination von Zwischenziel­ werten verwendet werden. Die einzelnen Wahrscheinlichkeiten der Zwischenzielwerte sind im Rahmen der Trainingsdaten be­ kannt, beispielsweise implizit aus Meßdaten oder auch aus Um­ frageergebnissen, d. h. gespeicherten statistischen Informa­ tionen über verschiedenste Arten von Daten.
Ein weiteres Anwendungsgebiet ist in dem Bereich Versicherun­ gen zu sehen, bei der beispielsweise die Stornowahrschein­ lichkeit, d. h. die Wahrscheinlichkeit dafür, ob ein Kunde seine Versicherung kündigt, bestimmt wird.
Eine weitere Anwendung ist im Bereich von Banken oder auch im Versandhandel zu sehen, bei der sich die Frage stellt, ob ein Kunde seinen Kredit zurückzahlen kann oder nicht. Die Antwor­ ten auf die jeweiligen oben beschriebenen Fragen stellen in diesem Fall jeweils den Zielwert dar.
Bei der Analyse technischer Sensoren können beispielsweise die Signale eines Brandmelders oder auch Signale einer Alarm­ anlage oder eines Staumelders, etc. sein, mit dem neuronalen Netz beispielsweise daraufhin untersucht werden, ob es brennt, ob ein Alarm vorliegt, ob ein Stau vorliegt, etc.
Kurzbeschreibung der Figuren
In den Figuren ist ein Ausführungsbeispiel der Erfindung dar­ gestellt, welches im weiteren näher erläutert wird.
Es zeigen
Fig. 1 eine Skizze, in der ein neuronales Netz mit einer zusätlichen Ausgangsschicht, der Zwischenausgangs­ schicht, dargestellt ist;
Fig. 2 ein neuronales Netz mit einer bisher bekannten Struktur;
Fig. 3 eine Skizze, in der das neuronale Netz sowohl mit einer zusätzlichen Eingangsschicht als auch mit einer zusätzlichen Ausgangsschicht, der Zwischen­ ausgangsschicht, dargestellt ist;
Fig. 4 eine Rechneranordnung, mit der das Trainingsver­ fahren für das neuronale Netz durchgeführt wird.
Figurenbeschreibung
In Fig. 1 ist das neuronale Netz NN mit einer zusätzlichen Ausgangsschicht, die im weiteren als Zwischenausgangsschicht ZAS bezeichnet wird, dargestellt.
Für den Fall, daß die Trainingsdaten zusätzliche Information enthalten, die im Rahmen üblicher Trainingsverfahren nicht zu berücksichtigen waren, weist diese Art der Anordnung eines künstlichen neuronalen Netzes NN erhebliche Vorteile auf.
Der Zielwert ZW ist beispielsweise eine Kaufwahrscheinlich­ keit PK(x). Das neuronale Netz NN dient in diesem Fall dazu, die Wahrscheinlichkeitsverteilung der Kaufwahrscheinlichkeit PK(x), die implizit durch die Trainingsdaten gegeben ist, zu approximieren. Ist beispielsweise in den Trainingsdaten je­ weils angegeben, ob es sich für das jeweiligen Trainingsdatum um einen männlichen oder um einen weiblichen Käufer handelt bzw. um einen jungen oder alten Käufer, so ergibt sich bei­ spielsweise die Kaufwahrscheinlichkeit PK(x) nach folgender Vorschrift:
PK(x) = PMK(x) + PWK(x), (1)
bzw.
PK(x) = PJK(x) + PAK(x) (2).
Mit
  • - PMK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x männlich ist und kauft,
  • - PWK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x weiblich ist und kauft,
  • - PJK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x jung ist und kauft, und
  • - PWK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x alt ist und kauft.
Die Kaufwahrscheinlichkeit PK(x) kann auch nach folgender Vorschrift gebildet werden:
PK(x) = 1 - PMNK(x) + PWNK(x), (3)
bzw.
PK(x) = 1 - PJNK(x) + PANK(x) (4).
Mit
  • - PMNK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x männlich ist und nicht kauft,
  • - PWNK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x weiblich ist und nicht kauft,
  • - PJNK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x jung ist und nicht kauft, und
  • - PANK(x) wird eine Wahrscheinlichkeit dafür bezeichnet, daß x alt ist und nicht kauft.
Die jeweiligen Zwischenzielwerte ZZW für das Trainingsdatum werden in der Trainingsphase jeweils einem Neuron NZAS der Zwischenausgangsschicht ZAS, welches für den entsprechenden Zwischenzielwert ZZW vorgesehen ist, zugeführt, das die je­ weilige Wahrscheinlichkeit (PMK(x), PWK(x), PJK(x), PAK(x), PMNK(x), PWNK(x), PJNK(x), PANK(x)) abbildet.
Als Eingangswerte EWi können beispielsweise in diesem Zusam­ menhang folgende Informationen verwendet werden:
  • - Geschlecht,
  • - Familienstand,
  • - Information, ob es sich um einen neuen Kunden oder um einen "Altkunden" handelt,
  • - Art der Kundenwerbung (z. B. geworben über Zeitungsanzeige, Empfehlung, Fernsehwerbung, Radiowerbung),
  • - Information, ob der Kunde zuvor bereits das Produkt gekauft hat,
  • - Schufa-Auskunft,
  • - Information, ob der Kunde eine Eigentumswohnung oder ein eigenes Haus besitzt,
  • - Kfz-Typenklasse, etc.
Die Art der Information, die als Eingangswerte EWi verwendet wird, ist stark abhängig von der jeweiligen Anwendung.
Anschaulich bedeutet diese Vorgehensweise, daß der hochdimen­ sionale Raum der Wahrscheinlichkeitsverteilung der Kaufwahr­ scheinlichkeit PK(x) um mindestens eine Dimension verringert wird, d. h. daß jeweils nur eine Schnittebene des jeweiligen Zwischenzielwerts ZZW im Rahmen des Trainings des neuronalen Netzes NN betrachtet wird.
Die Wahrscheinlichkeitsverteilung der Kaufwahrscheinlichkeit PK(x) ergibt sich jeweils entsprechend der Anwendung, in die­ sem Fall durch Summenbildung der einzelnen Wahrscheinlichkei­ ten, wie es in obigen Gleichungen dargestellt ist.
Mit dem Zielwert ZW wird allgemein somit eine Wahrscheinlich­ keit für das Auftreten eines vorgebbaren Ereignisses, jeweils abhängig von der speziellen Anwendung, beschrieben. Mit dem Zwischenzielwert ZZW wird beispielsweise jeweils eine Wahr­ scheinlichkeit für das Auftreten eines Teilereignisses des Ereignisses beschrieben.
Die Ausgangssignale der Neuronen NZAS der Zwischenausgangs­ schicht ZAS werden, eventuell gewichtet, den Neuronen NAS der Ausgangsschicht AS zugeführt. In den Neuronen NAS der Aus­ gangsschicht AS werden die Zielwerte ZW bestimmt. Im Rahmen des Trainings des neuronalen Netzes NN wird der mindestens eine Zwischenzielwert ZZW berücksichtigt.
Das in Fig. 3 dargestellte neuronale Netz NN weist zusätz­ lich eine Zwischeneingangsschicht ZES auf. Die Zwischenein­ gangsschicht enthält so viele Neuronen NZES wie die Eingangs­ schicht ES. Jeweils ein Neuron NZES der Zwischeneingangs­ schicht ZES ist mit einem Neuron NES der Eingangsschicht ES gekoppelt.
Ein Neuron weist üblicherweise eine sigmoide Aktivierungs­ funktion auf. Ein Neuron wird üblicherweise aktiviert, wenn die Summe der an dem jeweiligen Neuron anliegenden Eingangs­ signale größer ist als eine vorgebbare Schwelle, der sog. Bi­ as. Wird das jeweilige Neuron aktiviert, so wird das Aus­ gangssignal des jeweiligen Neurons üblicherweise auf einen logischen Wert 1 gesetzt. In nicht aktiviertem Zustand weist das Ausgangssignal einen logischen Wert 0 auf.
Die Neuronen NVS der mindestens einen verdeckten Schicht VS sind mit den Ausgängen ANZS der Neuronen NZS der Zwischenein­ gangsschicht ZES in der Weise verbunden, wie sie ohne Exi­ stenz der Zwischeneingangsschicht ZES mit den Ausgängen ANES der Neuronen NES der Eingangsschicht ES verbunden wären. Die restliche Struktur des neuronalen Netzes NN bleibt unverän­ dert.
Es wird bei der Anordnung demnach anschaulich lediglich eine zusätzliche Schicht, die Zwischeneingangsschicht ZES einge­ fügt. Die Neuronen NZES der Zwischeneingangsschicht ZES sind über variabel ausgestaltete Gewichte, mit denen die Ausgangs­ signale der Neuronen NES der Eingangsschicht ES multipliziert werden und dann den Neuronen NZES der Zwischeneingangsschicht ZES zugeführt zu werden, mit jeweils genau einem Ausgang ANES eines Neurons NES der Eingangsschicht ES gekoppelt.
Die Kopplungen zwischen den Neuronen weisen den üblichen Auf­ bau auf wie bei bekannten neuronalen Netzen.
Bei dem Trainingsverfahren werden jeweils Trainingsdaten mit Eingangswerten EW1, EW2, EWi, . . . EWn mit dem dem jeweiligen Trainingsdatum zugeordneten mindestens einen Zielwert ZW trainiert. Als Trainingsverfahren kann beispielsweise das Gradientenabstiegsverfahren oder auch andere bekannte Verfah­ ren zum Trainieren neuronaler Netze NN eingesetzt werden.
Die Eingangswerte EWi werden den Neuronen NES der Eingangs­ schicht ES zugeführt. Die von den Neuronen NES der Eingangs­ schicht ES gebildeten Ausgangssignale werden jeweils genau einem Eingang ENZES eines Neurons NZES der Zwischeneingangs­ schicht ZES zugeführt, gewichtet mit dem der jeweiligen Kopp­ lung zugeordneten Gewicht.
Die von den Neuronen NZES der Zwischeneingangsschicht ZES ge­ bildeten Ausgangssignale werden, ggf. gewichtet, den Neuronen NVS der mindestens einen verdeckten Schicht VS zugeführt. Die Ausgangssignale der Neuronen NVS der verdeckten Schicht VS werden dem mindestens einen Neuron NAS der Ausgangsschicht AS zugeführt. In dem Neuron NAS der Ausgangsschicht AS wird der Zielwert ZW in der Anwendungsphase ermittelt.
In der Trainingsphase wird der dem jeweiligen Trainingsdatum zugeordnete, bekannte Zielwert ZW eingesetzt, um beispiels­ weise das Gradientenabstiegsverfahren durchzuführen. Die Ge­ wichte der Kopplungen zwischen den Neuronen NES der Eingangs­ schicht ES und den Neuronen NZES der Zwischeneingangsschicht ZES werden im Rahmen des Trainingsverfahrens genauso behan­ delt wie alle andere Gewichte des neuronalen Netzes NN.
Anschaulich bedeuten größere Gewichtswerte in den Kopplungen zwischen der Eingangschicht ES und der Zwischeneingangs­ schicht ZES, daß eine Konzentration auf die Werte im linearen Bereich der Aktivierungsfunktion, und somit auf einen kleinen Bereich der möglichen Eingangswerte EWi erfolgt. Andererseits bedeuten kleine Gewichtswerte der Kopplungen zwischen der Eingangsschicht ES und der Zwischeneingangsschicht ZES, daß der gesamte Wertebereich der Eingangswerte EWi auf den linea­ ren Bereich der Aktivierungsfunktion abgebildet wird.
Durch die zusätzliche Zwischeneingangsschicht ZES erfolgt verglichen mit den üblichen Anordnungen künstlicher neurona­ ler Netze eine starke Einschränkung der Freiheitsgrade zwi­ schen Neuronen NZES der Zwischeneingangsschicht ZES und Neu­ ronen NES der Eingangsschicht ES.
Anschaulich bedeutet die Kopplung jeweils genau eines Neurons NZES der Zwischeneingangsschicht ZES mit genau einem Neuron NES der Eingangsschicht ES, daß jeder Eingangswert EWi in ei­ ner Art Vorverarbeitung für sich behandelt wird. Erst in der mindestens einen verdeckten Schicht VS werden Wechselwirkun­ gen zwischen den Eingangswerten EWi berücksichtigt. Auf diese Weise wird die Ausreißerproblematik im Training neuronaler Netze erheblich reduziert.
Im Rahmen dieses Verfahrens können beliebige Verfahren zur Merkmalsextraktion zur Ermittlung anwendungsspezifischer Ein­ gangswerte EWi verwendet werden.
In Fig. 4 ist eine Rechneranordnung dargestellt, mit der das Trainingsverfahren üblicherweise durchgeführt wird.
Ein Rechner R ist mit einer Tastatur TA, einer Maus MA sowie einem Bildschirm BS gekoppelt. Der Rechner R weist einen Speicher SP auf, in dem die Trainingsdaten gespeichert sind. In einem Prozessor P, der über einen Bus BU mit dem Speicher SP gekoppelt ist, wird das Trainingsverfahren durchgeführt.
Das neuronale Netz NN kann auch direkt in Hardware realisiert werden, z. B. in Form einer elektrischen Schaltung.
In diesem Dokument wurden folgende Veröffentlichungen zi­ tiert:
[1] A. Zell, Simulation neuronaler Netze, Addison Wesley Deutschland GmbH, 1. Auflage, ISBN 3-89319-554-8, S. 97-136, 1994
[2] M. Kerling und T. Poddig, Klassifikation von Unter­ nehmen mittels KNN, in Rehkugler, Zimmermann: Neuro­ nale Netze in der Ökonomie, München, Verlag Vahlen, S. 64-75, 1994

Claims (7)

1. Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes (NN) mit Trainingsdaten durch Rückwärtsausbreitung,
  • - bei dem ein Trainingsdatum der Trainingsdaten mindestens einen Eingangswert (EWi, i = 1 . . . n), mindestens einen dem Ein­ gangswert (EWi) zugeordneten Zielwert (ZW), und mindestens einen Zwischenzielwert (ZZW) enthält, aus dem der Zielwert (ZW) gebildet wird, und
  • - bei dem in dem Training der mindestens eine Zielwert (ZW) einer Ausgangsschicht (AS) zugeführt wird und der mindestens eine Zwischenzielwert (ZZW) einer Zwischenausgangsschicht (ZAS) zusätzlich zugeführt wird.
2. Verfahren nach Anspruch 1, bei dem mindestens zwei Zwischenzielwerte (ZZW) in dem Trai­ ningsdatum enthalten sind, aus denen der Zielwert (ZW) gebil­ det wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem mit dem Zielwert (ZW) eine Wahrscheinlichkeit für das Auftreten eines vorgebbaren Ereignisses beschrieben wird.
4. Verfahren nach Anspruch 3, bei dem mit dem mindestens einen Zwischenzielwert (ZZW) eine Wahrscheinlichkeit für das Auftreten mindestens eines Tei­ lereignisses des Ereignisses beschrieben wird.
5. Verfahren nach einem der Ansprüche 2 bis 4, bei dem sich der Zielwert (ZW) aus einer gewichteten Summe der Zwischenzielwerte (ZZW) ergibt.
6. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5, bei der eine Zwischenausgangsschicht (ZAS) mit mindestens ei­ nem Neuron (NZAS) vorgesehen ist, der zusätzlich der mindestens eine Zwi­ schenzielwert (ZZW) zuführbar ist.
7. Anordnung nach Anspruch 6, bei der eine Zwischeneingangsschicht (ZES) vorgesehen ist, wobei die Anzahl Neuronen (NZES) der Zwischeneingangsschicht (ZES) gleich ist der Anzahl Neuronen (NES) der Eingangs­ schicht (ES) und wobei jeweils ein Neuron (NZES) der Zwi­ scheneingangsschicht (ZES) mit einem Ausgang genau eines Neu­ rons (NES) der Eingangsschicht (ES) gekoppelt ist.
DE19653553A 1996-12-20 1996-12-20 Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens Expired - Fee Related DE19653553C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19653553A DE19653553C1 (de) 1996-12-20 1996-12-20 Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19653553A DE19653553C1 (de) 1996-12-20 1996-12-20 Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens

Publications (1)

Publication Number Publication Date
DE19653553C1 true DE19653553C1 (de) 1998-04-30

Family

ID=7815703

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19653553A Expired - Fee Related DE19653553C1 (de) 1996-12-20 1996-12-20 Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens

Country Status (1)

Country Link
DE (1) DE19653553C1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4317372A1 (de) * 1992-05-26 1993-12-02 Ricoh Kk Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
US5276771A (en) * 1991-12-27 1994-01-04 R & D Associates Rapidly converging projective neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276771A (en) * 1991-12-27 1994-01-04 R & D Associates Rapidly converging projective neural network
DE4317372A1 (de) * 1992-05-26 1993-12-02 Ricoh Kk Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes

Similar Documents

Publication Publication Date Title
Stiny et al. Design machines
DE10296704T5 (de) Fuzzy-Inferenznetzwerk zur Klassifizierung von hochdimensionalen Daten
DE112016001796T5 (de) Feinkörnige bildklassifizierung durch erforschen von etiketten von einem bipartiten graphen
EP1145192B1 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
DE102020120479A1 (de) Fusion von Strassenkarten
DE112020005663T5 (de) Objekterkennung mit training aus mehreren datensätzen
EP1384199A2 (de) Verfahren zur ermittlung konkurrierender risiken
DE19530646C1 (de) Lernverfahren für ein rekurrentes neuronales Netz
WO2000008599A2 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
EP1252566B1 (de) Anordnung miteinander verbundener rechenelemente und verfahren zur rechnergestützten ermittlung eines zweiten zustands eines systems in einem ersten zustandsraum aus einem ersten zustand des systems in dem ersten zustandsraum
DE102019105850A1 (de) Verfahren zur Erzeugung eines reduzierten neuronalen Netzes für ein Steuergerät eines Fahrzeuges mithilfe von Eigenvektoren
EP1327959A2 (de) Neuronales Netz zur Modellierung eines physikalischen Systems sowie Verfahren zur Bildung eines solchen neuronalen Netzes
DE112021003761T5 (de) Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen
EP1627263B1 (de) Verfahren sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung eines zukünftigen systemverhaltens eines dynamischen systems
EP0890153B1 (de) Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
DE19653553C1 (de) Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens
DE19653554A1 (de) Verfahren zum Trainieren eines neuronalen Netzes mit Trainingsdaten und Anordnung eines künstlichen neuronalen Netzes
EP0956531B1 (de) Verfahren und vorrichtung zur transformation einer zur nachbildung eines technischen prozesses dienenden fuzzy-logik in ein neuronales netz
DE102019204118A1 (de) Verfahren zum Übertragen eines Merkmals eines ersten Bilds an ein zweites Bild
EP0978052B1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
WO2003025851A2 (de) Verfahren und anordnung zur ermittlung eines aktuellen ertsten zustands einer ersten zeitlichen abfolge von jeweils ersten zuständen eines dynamisch veränderlichen systems
Kelemen Model of Evaluation and Output Rating of Start-Up Projects Development Teams
CN114118779A (zh) 一种基于kgann的面向互联网舆情事件的企业风险识别方法
DE10047172C1 (de) Verfahren zur Sprachverarbeitung
WO2000062250A2 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SIEMENS NIXDORF INFORMATIONSSYSTEME AG, 33106 PADE

8339 Ceased/non-payment of the annual fee