DE68928484T2

DE68928484T2 - Verfahren zum erkennen von bildstrukturen

Info

Publication number: DE68928484T2
Application number: DE68928484T
Authority: DE
Inventors: Ikuo Matsuba; Keiko Minami
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-03-25
Filing date: 1989-03-24
Publication date: 1998-07-23
Anticipated expiration: 2009-03-25
Also published as: EP0366804B1; WO1989009457A1; EP0366804A1; DE68928484D1; EP0366804A4; US5153923A

Description

TITEL DER ERFINDUNG

Verfahren zum Verarbeiten von Informationen höherer Ordnung mit Hilfe eines neuralen Netzwerks und Verfahren zum Suchen des Minimums und Maximums davon.

TECHNISCHER BEREICH

Die vorliegende Erfindung betrifft ein Verfahren zum Aufbauen eines neuralen Netzwerks, das in der Lage ist, Probleme, wie etwa eine Erkennung, die mittels eines Computers des Standes der Technik schwer zu lösen sind, zu lösen, sowie dessen Anwendung auf eine Mustererkennung, eine anfangliche visuelle Wahrnehmungsverarbeitung, eine Bewegungssteuerung, eine numerische Analyse etc.

HINTERGRUND DER TECHNIK

Bis jetzt wurde in "Parallel Distributed Processing I und II" von Mcclelland und Rumelhart (MIT Press, 1986) das Lernen, Speichern, die Identifizierung etc. erörtert. Darin ist jedoch weder eine Kenntnis über die Gehirnphysiologie eines lebenden Körpers, die im höchsten Grade entwickelt ist, beinhaltet, noch werden die Struktur des Netzwerks, die Rechengeschwindigkeit etc. erörtert, die dann, wenn eine praktische Anwendung davon im Vordergrund steht, Probleme darstellen. Ferner ist darin kein Verfahren zum Aufbau des Netzwerks für einen Gegenstand in Abhängigkeit von der Zeit beschrieben.
Hingegen ist ein Verfahren zum Losen emes neuralen Netzwerks als Verfahren zum Minimieren von Energie in "Hopfield & Tank" (Science, Vol 233, Seiten 625-633 (1986)) beschrieben. Das darin behandelte neurale Netzwerk ist jedoch auf eine Einfachschicht beschränkt, und eine beliebige Lösung läßt sich innerhalb einer praktischen Rechenzeit nicht erhalten.
In ihrer Abhandlung "Modification Systems for a Robot", veröffentlicht in IEEE Transactions on Systems, Man and Cybernetics, Nr.4, Juli 1973, Seiten 425428, beschreiben J. Koplowitz et al. ein Modell einer intelligenten Maschine und ihr Lernverfahren. Ein lineares Polynom ist als Einrichtung zum Bewerten von Wahlen auf der Grundlage von Motivationen vorgeschlagen, und es sind Verfahren zum Anpassen des Polynoms offenbart.
In einer Abhandlung mit dem Titel "Discrimination of Natural Textures: A Neural Network Archltecture", veröffentlicht in IEEE First International Conference on Neural Networks, San Diego, California, 21.-24. Juni, 1987, Seiten IV-247-258, betrachten E. Mesrobian et al. Verfahren zum Erkennen lokaler Differenzen in Texturelementen eines gewebten Tuchs. Die vorgeschlagene Architektur umfaßt eine Merkmal-Extraktion, eine Lokalgrenzen-Erfassung und Netzwerke zur Unterscheidung von Texturen höherer Ordnung.

OFFENBARUNG DER ERFINDUNG

Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Verarbeiten von Informationen höherer Ordnung zu schaffen, das mit einem neuralen Netzwerk arbeitet, das in der Lage ist, die optimale Struktur des neuralen Netzwerks zu bestimmen, wobei eine Synapsenstruktur, die auf der physiologischen Kenntnis über den lebenden Körper beruht bzw. von dieser abgeleitet ist, einbewgen wird, um eine Funktion zur Verarbeitung von Informationen höheren Grades, wie etwa eine Merkmal-Extraktion, eine Merkmal-Vereinheitlichung, eine Speicherung etc., zu realisieren, wobei Anwendungen auf eine Mustererkennung, eine Bewegungssteuerung etc. unter wirksamer Ausnutzung der robusten Erkennungsleistung davon sowie Anwendungen auf ein Optimierungsproblem, eine umfangreiche numerische Analyse etc. unter wirksamer Ausnutzung der Parallelverarbeitungsleistung davon ermöglicht werden.
Das Problem zum Lösen der oben genannten Aufgabe besteht im konkreten Aufbau eines neuralen Netzwerks zum Durchführen einer:
1. Merkmal-Extraktion,
2. Merkmal-Vereinheitlichung und
3. Speicherung
Beim Gehirn werden die oben genannten Prozesse nacheinander ausgeführt. Als physiologische Kenntnis sind das System zur Informationsverarbeitung für die visuelle Wahrnehmung bezüglich 1. und die Plastizität der Synapsenkopplung bezüglich 3. nur geringfügig bekannt.
2. stellt einen derzeit aktiven Forschungsbereich dar, jedoch gelang es noch nicht, zu einem einheitlichen Verständnis zu gelangen. Das Verfahren zur Verarbeitung von Informationen höherer Ordnung mit Hilfe des neuralen Netzwerks gemäß der vorliegenden Erfindung ist ein ein Gehirn simulierendes Verfahren zur Informationsverarbeitung. Was den Prozeß 1. betrifft, so ist ein neurales Netzwerk auf der Grundlage der physiologischen Kenntnis über das System zur Informationsverarbeitung bezüglich der visuellen Wahrnehmung aufgebaut, und was den Prozeß 3. betrifft, so ist eine mit der Plastizität der Synapsenkopplung arbeitende Speicherschaltung aufgebaut. Obwohl sämtliche Prozesse 1. bis 3. durch neurale Elemente mit grundsätzlich gleichen Funktionen aufgebaut sind, haben sie verschiedene den Zustand der neuralen Elemente darstellende Bedeutungen. Ein konkretes Verfahren zu deren Aufbau ist unter Punkt "Geeignetste Weise der Ausführung der Erfindung" beschrieben.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Schema, das den Grundaufban eines Ausführungsbeispiels der vorliegenden Erfindung darstellt; Fig. 2 ist ein Schema, das ein Verfahren zum Aufbau eines neuralen Netzwerks darstellt; Fig. 3 ist ein Schema, das ein Netzwerk für die Merkmal- Extraktion darstellt; Fig. 4 ist ein Schema, das ein Netzwerk für die Merkmal-Vereinheitlichung darstellt; Fig. 5 ist ein Schema, das ein Netzwerk für die Speicherung darstellt; Fig. 6 ist ein Schema, das ein Beispiel einer Anwendung auf die Bilderkennung erläutert; Fig. 7 ist ein Schema, das ein Beispiel einer Anwendung auf die Bewegungssteuerung erläutert; Fig. 8 ist ein Schema, das ein Beispiel einer Anwendung auf die Optimumsteuerung erläutert; Fig. 9 ist ein Schema, das ein Beispiel einer Anwendung auf eine nicht-stationäre partielle Differentialgleichung erläutert; Fig. 10 ist ein Beispiel, das den Grundaufbau des Gesamtalgorithmus einer Vorrichtung zum Suchen des Minimums und Maximums darstellt, wobei es sich hierbei um ein weiteres Ausführungsbeispiel der vorliegenden Erfindung handelt; Fig. 11 ist ein Schema, das ein Berechnungsverfahren des simulierten Glühens darstellt; Fign. 12 und 13 sind Schemata, die Beispiele einer Anwendung der vorliegenden Erfindung erläutern, Fig. 14 ist ein Schema eines Bildver&beitungssystems bei Verwendung der vorliegenden Erfindung für eine Bildverarbeitung darstellt.

GEEIGNETSTE WEISE DER AUSFÜHRUNG DER ERFINDUNG

Zunächst wird das Prinzip des neuralen Netzwerks auf der Grundlage der vorliegenden Erfindung erläutert.
Ein neurales Netzwerk für die Merkmal-Extraktion ist, wie in Fig. 3(c) dargestellt, ein hierarchisch aufgebautes Netzwerk. Es sei angenommen, daß neurale Elemente 331 auf jeder der Schichten 332 zweidimensional angeordnet sind, und daß Kopplungen 333 zwischen verschiedenen neuralen Elementen lediglich zwischen zwei benachbarten Schichten existieren.
Wird ein konkreter Schaltungsaufbau bestinnnt, so wird auf die physiologische Kenntnis verwiesen. Was heute bekannt ist, ist der den visuellen Wahrnehmungsbereich und die Bewegung betreffende MT-Bereich. Es sei hier eine Abhandlung mit dem Titel "Receptive fields, binocular interaction and functional architecture in the cat's visual cortex" (J. Physiol, London, Vol 160, Seiten 106-154, 1962) von Hubel und Wiesel genannt, die sich mit der Extraktion des Merkmals des ersteren befaßt.
Fig. 3(a) stellt ein experimentelles Ergebnis dar, das die Orientierung selektiv im visuellen Wahrnehmungsbereich (NL-Bereich) der Hirnrinde angibt. Wird ausgehend von der Fläche 31 eine Elektrode 32 schräg in ein Gehirn eingeführt, so ist bekannt, daß eine Gruppe von Zellen, die bei einem bestimmten Wert (bei einem 10º-Intervall im Experiment) der Neigung eines den Aufhahmebereich der Netzhaut durchquerenden Lichtschlitzes reagieren, eine Schicht bildet. In der zu der Fläche senkrechten Richtung sind Zellen konzentriert, die sowohl mit dem linken als auch mit dem rechten Auge verbunden sind. Daher ist erkennbar, daß die Zellen in einer Modulstruktur (Fig. 3(b)) angeordnet sind. Abgesehen davon, daß Informationen vom linken Auge und Informationen vom rechten Auge abwechselnd auftreten, werden die primitiven Merkmale im visuellen Wahrnehmungsbereich durch diese Modulstruktur hierarchisch extrahiert. Es reagiert beispielsweise auf jede der Seiten einer Figur eine dieser entsprechende Schicht, um sie zu extrahieren. Obwohl die Schichten keine Inhomogenität aufweisen und aus einer völlig gleichen Art neuraler Elemente aufgebaut sind, extrahieren sie ferner, wenn Informationen übertragen werden, sequentiell verschiedene Informationen als Ergebnis der Eigenorganisation.
Mathematisch läßt sich dieses Verfahren wie folgt beschreiben:
wobei l die Nummer der Schicht im Netzwerk; G(q) die Eingangsinformation (Figur) mit einer Fourierwellennummer q, die Rotationssymmetrisch bezüglich der Orientierung des optischen Schlitzes ist bzw. dieser Orientierung entspricht; Kl(q,ql) eine eine Orientierung ql in einer Schicht l extrahierende Kernfünktion; S eine im Netzwerk ausgeführte mathematische Operation; und F(l) eine Funktion ist, die, außer für die extrahierte Schicht, 0 ist. ql (l =1, 2, ---) gibt Winkel mit einem Intervall von 10º bei dem oben beschriebenen Beispiel an.
Auf der Grundlage der oben beschriebenen physiologischen Kenntnis wird ein künstliches neurales Netzwerk, das die durch Gl. (1) beschriebene Funktion realisieren kann, aufgebaut. Ein Beispiel der Kopplungsstruktur zwischen neuralen Elementen ist in Fig. 3(d) dargestellt. Der Zustand von Elementen in einer Schicht höheren Rangs ist als Funktion bestimmt, die den Zustand von 4 benachbarten neuralen Elementen in einer Schicht niedrigeren Rangs darstellt. Nachfolgend wird ein konkretes Verfahren zum Bestimmen des Zustands von Elementen beschrieben. Hierbei ist der Zustand von Elementen an einer zweidimensionalen Position r (x,y) auf einer Schicht l durch fl(r) dargestellt. Die Kopplung zwischen Elementen auf benachbarten Schichten ist also durch die folgende Zustandsgleichung dargestellt:
wobei {fl-1} die Elemente auf der Schicht l-1 alle zusammen; ξe zusätzliches Rauschen; und Fl eine allgemeine Funktion darstellt, die die Kopplung zwischen Elementen ausdrückt. Es sei angenommen, daß f&sub1;(r) für die Eingangsschicht (l = 1) gegeben ist. Bei einem neuralen Netzwerk des Standes der Technik ist eine nichtlineare Sättigungsfünktion, wie etwa eine S- förmige Funktion, als Funktion Fl gegeben. Bei der Informationsverarbeitung im Gehirn sollte jedoch infolge einer zusammenwirkenden und konkurrierenden Operation einer von Elementen eine von mikroskopischen Elementfünktionen unabhängige Universalverarbeitung durchgeführt werden. Daher wird bei diesem Schritt keine besondere Funktionsform für Fl angenommen.
Gl. (2) läßt sich wie folgt umformen:
wobei H({fl-1}) eine Funktion ist, die dann bestimmt ist, wenn Fl gegeben ist; und Tl-1 eine positive Konstante ist. Ferner stellt δ/δfl-1 eine Differentiation der Funktion nach fl-1 dar. Obwohl, wie später deutlich wird, die Funktion H die Energie eines Systems in Analogie zu einem physischen System darstellt, existiert H nicht immer, wenn Fl gegeben ist. Nachfolgend wird die Formel unter der Annahme, daß Gl. (3) gegeben ist, aufgestellt. Gl. (3) ist eine Differenzengleichung nach der Nummer der Schicht e, aus der sich eine sogenannte Fokker-Plank-Wahrscheinlichkeit-Differentialgleichung ableiten läßt, wenn l groß ist. Stellt Pl(fl(r)) die Wahrscheinlichkeit dar, daß der Zustand von Elementen an einer Position r auf einer Schicht lfl(r) ist, so gilt die folgende Gleichung:
wobei D eine Dispersion des zusätzlichen Gaußschen Rauschens ξ darstellt, im weiteren jedoch um der Vereinfachung willen auf 1 gesetzt ist.
Die stationäre Lösung Pls von Gl. (4) läßt sich, wenn l ausreichend groß ist, wie folgt angeben:
Dies bedeutet, daß dann, wenn eine eingegebene Information (Signal) eine ausreichend große Anzahl von Schichten durchlaufen hat, sich deren Verteilung der durch Gl. (5) beschriebenen annähert. Die durch die obige Gleichung ausgedrückte Verteilung wird Bolzmann- oder Gibbs-Verteilung genannt, wobei H der Energie des Systems und T der Temperatur entspricht.
Unter Verwendung der durch Gl. (5) ausgedruckten Wahrscheinlichkeitsverteilung wird die Beziehung in dem durch Gl. (2) ausgedrückten Zustand von Elementen zwischen verschiedenen Schichten wie folgt definiert:
wobei F ein unten definierter und durch das neurale Netzwerk ausgeführter Operator ist. Die durch den Operator F belastete Grundoperation besteht im grobkörnigen Aufrauhen in einer Schaltung 21 zum Extrahieren von Merkmalen. Dies bedeutet, daß der Mittelwert des Zustands von in unteren Schichten befindlichen Elementen an obere Schichten weitergegebenwird.
Die Summierung beim linken Glied wird über die um die Position r vorhandenen Elemente ausgeführt. Infolge eines derartigen Visualisierungsaufrauhens werden lokale Schwanküngen bei fl-1 kleiner. F sollte jedoch so definiert sein, daß das in H({fl-1)} liegende Merkmal nicht verloren ist. Die intuitive Interpretation der Transformationsformel (6) der Wahrscheinlichkeitsverteilung führt zu der Forderung, daß sich die aus Merkmalkomponenten bestehende Wahrscheinlichkeitsverteilung nicht ändert, selbst wenn Rauschkomponenten beseitigt werden. Da der Schichtraum einmal durch das Visualisierungsaufrauhen (Fig. 3(e)) verkleinert ist, sollte die Aktion des Rückführens der Größe zur anfanglichen Größe ebenfalls in F enthalten sein.
Das oben beschriebene Verfahren ist ein Wiederspeicherungs-Gruppentransformation genannter Prozeß. Geeigneter als Gl. (6) ist der Ausdruck der Beziehung unter Verwendung des Frequenzbereichs g:
wobei fl ein durch die Fourier-Transformation von fl(r) erhaltener Wert ist und 2q eine Transformation zur Vergrößerung um den Faktor 2 im Frequenzraum darstellt, da die Summierung in Gl. (7) lediglich in der nächstliegenden Umgebung durchgeführt wird. Ferner ist λl-1 eine Konstante, und durch die Operation fl-1(q) T λl-1f(2q) werden keine Rauschkomponenten gemischt. Ist eine konkrete Energie H gegeben, so erfüllt der Operator F die oben beschriebene Forderung, das heißt, die Beziehung zwischen der Konstanten λl-1f, Tl und Tl-1 kann definiert werden.
Die Energie H({fl}) stellt die Kopplungsbeziehung zwischen Elementen in der Schicht l dar. Im allgemeinen laßt sich H wie folgt ausdrucken: wobei Ω&sub1;, Ω&sub2;, r und u Konstanten sind. Nun enthält H, wenn der Zustand von Elementen durch +1 (Zündung) und -1 (Pause) ausgedrückt ist, aufgrund der Tatsache, daß H bezuglich der Inversion samtlicher Zustände von Elementen {fl} T -{ff} invariant ist, lediglich Ausdrücke geradzahliger Ordnung von {fl}. Dies bedeutet, daß der Grund hierfür darin liegt, daß die Definition durch ±1 ledigiich um der Bequemlichkeit willen vorgenommen ist. Der erste Ausdruck von Gl. (9) stellt das Kopplungsverhäitnis zwischen den am engsten benachbarten Elementen dar. Er stellt die wichtigsten lokalen Merkmale der Kopplung zwischen Elementen als Ausdruck der Energie dar. Folglich ist es nicht erwünscht, daß dieser Ausdruck für sämtliche Schichten unverändert bleibt.
Gemäß der oben beschriebenen Forderung kann durch Einsetzen der Fourier-Transformation von Gl. (9) für H in Gl. (8) und Ausführen der Transformation des rechten Glieds
erhalten werden.
Aus Gl. 10 ist ersichtlich, daß sich der durch Tl = 4Tl-1 ausgedrückte Temperaturplan an einem bestimmten kritischen Wert befindet. Der Grund hierfür liegt darin, daß aufgrund der Tatsache, daß diesmal λl-1 = 1 gilt, was einer einfachen Mittelungsoperation entspricht, dann, wenn sich das Signal in den Schichten ausbreitet, die Raumverteilung davon immer gleichmaßiger wird und sich schließlich lediglich ein Signal mit einer gleichmäßigen Verteilung erhalten läßt. Dies ist eine extreme Glättungsverarbeitung, die bedeutet, daß die gesamten Informationen verloren sind. Daher werden durch Einführen einer extrem kleinen Größe &epsi; 4 - (Tl/Tl-1) die nichtlinearen Ausdrücke in Gl. (a) gelassen. Auf diese Weise werden durch Berechnen von Gl. (8) zwei die Beziehung zwischen den Koefzzienten ausdrückende Gleichungen erhalten, wobei h&sub1;, h&sub2;, --- nichtlineare Funktionen sind. Nachfolgend wird das Verhalten der Lösung von Gl. (11) beschrieben, wenn l groß ist und rl = O(&epsi;) < O, ul = O(&epsi;) > O gilt, wobei O(&epsi;) einen Wert in der Größenordnung von &epsi; darstellt. Sämtliche Ausdrücke, wie etwa Ω&sub2; die in Gl. (11) nicht erscheinen, sind extrem kleine Größen in der Größenordnung von O(&epsi;²), die vernachlässigbar sind. Im Ergebnis nähert sich H, wenn der Temperaturplan von Tl 4Tl-1 zugrundegelegt wird, für die Schichten, deren l groß ist, einer Universalenergie an, die wie folgt gegeben ist:
Ein konkreter Koeffizient ist im Falle eines großen e wie folgt gegeben:
wobei Λ die Maximalfrequenz (= 2π/ , wobei die Raumauflösung ist) und C eine Kon stante ist. Da die Temperatur Tl mit Tl 4l zunimmt, ist ul bei großem l extrem klein. Unter Berücksichtigung dieser Tatsache läßt sich die durch Gl. (12) gegebene Energie unter Verwendung von Fourier-Komponenten Fl-1(q) wie folgt ausdrücken:
Hierbei ist das Verfahen um einer Vereinfachung willen mit Ω&sub1; normalisiert. Die wesentliche Merkmal-Extrahierfünktion ändert sich niemals.
Aus der die Wahrscheinlichkeitsverteilung darstellenden Gl. (5) und dem durch Gl. (13) angegebenen H ist ersichtlich, daß die Komponente Fl-1( - rl-1 ) der Fourier-Frequenz, die q = - rl-1 ist, das Maximum der Wahrscheinlichkeit liefert. Dies bedeutet, daß in der Schicht l-1 lediglich die Komponente Fl-1( - rl-1 ) extrahiert wird. Nun nähert sich r, wenn der Anfangswert r&sub1; von rl bestimmt ist, auf der Grundlage der Maximalfrequenz Λ dem durch Gl. (13) gegebenen Wert an, wobei folgende Reihenfolge gilt:
Dies bedeutet, daß es möglich ist, Hochfrequenzkomponenten in den unteren Schichten (im Falle eines kleinen l) und Niederfrequenzkomponenten in den oberen Schichten (im Falle eines großen l) zu extrahieren (Fig. 3(f)).
Es ist bestätigt, daß sich die oben beschriebenen physiologischen, experimentellen Tatsachen mit dem wie oben beschrieben aufgebauten Netzwerk zum Extrahieren von Netzwerken simulieren lassen. Der Lichtschlitz ist ein betrachteter Wahrnehmungsgegenstand, der bezüglich eines bestimmten Punkts symmetrisch ist. Eine Kopie 372 des Lichtschlitzes 371, die eine gegebene Richtung bezüglich einer bestimmten Richtung (zum Beispiel Vertikalrichtung) aufweist, wird wie in Fig. 3(q) dargestellt vorbereitet. Anschließend kann eine Gruppe von Schlitzen mit dem Schlitz eindeutig als periodische Funktion in Umfangsrichtung definiert werden. Der auf diese Weise vorbereitete Schlitz wird in das oben dargelegte Netzwerk eingegeben. Wird davon ausgegangen, daß die Frequenz q in Gl. (13) die Frequenz in Umfangsrichtung ist, so ist es möglich, nacheinander bestimmte Frequenzen herauszunehmen.
2. Netzwerk zur Vereinheitlichung von Merkmalen
Durch das Netzwerk 414 zum Extrahieren von Merkmalen extrahierte primitive Informationen, zum Beispiel die Kontur einer Figur etc., werden in ein Netzwerk zum Vereinheitlichen von Merkmalen eingegeben (Fig. 4(a)). Fig. 4(a) stellt den Prozeß zum Vereinheitlichen von Informationen durch 3 Schichten als Beispiel des Netzwerks zum Vereinheitlichen von Merkmalen dar.
Jedes in einer ersten Schicht 413 befindliche neurale Element 417 trägt jeweilige primitive Informationen. Da jede Informationsgruppe exklusiv ist, sind sämtliche neuralen Elemente in der ersten Schicht mit negativen Werten miteinander gekoppelt. Dies bedeutet, daß, wenn sich ein einer bestimmten Gruppe primitiver Informationen entsprechendes Element im Zündungszustand befindet, sich die anderen Elemente im Pausezustand befinden sollten. Selbstverständlich ist dann, wenn eine Anzahl von Gruppen primitiver Informationen gleichzeitig eingegeben wird, aufgrund der Tatsache, daß die entsprechenden Elemente in den Zündungszustand versetzt werden, zwischen diesen Elemente keine negative Kopplung erforderlich. Generell ist die Kopplung zwischen den Elementen in der ersten Schicht nicht immer erforderlich.
Die in einer zweiten Schicht 412 befindlichen neuralen Elemente 416 werden in Entsprechung mit aus den primitiven Informationen von der ersten Schicht aufgebauten Informationen gebracht; es kann sich hierbei zum Beispiel um Figuren handeln. Folglich werden sie mit den Elementen im ersten Element entsprechend den jede der Figuren mit einem positiven Wert 418 aulbauenden Seiten und mit den anderen Elementen mit einem negativen Wert 419 verbunden. Da jede der Figuren exklusiv ist, werden die Elemente in der zweiten Schicht negativ gekoppelt.
Die in einer dritten Schicht 411 befindlichen neuralen Elemente 415 werden in Entsprechung mit aus den Informationen von der zweiten Schicht aufgebauten Informationen höherer Ordnung gebracht; es kann sich hierbei zum Beispiel um zusammengesetzte Figuren handeln. Folglich werden sie mit den Elementen in der zweiten Schicht entsprechend einer jede der zusammengesetzten Figuren aufbauenden Figur positiv und mit den anderen Elementen negativ verbunden.
Der oben beschriebene Merkmal-Vereinheitlichungsprozeß ist physiologisch nicht bestätigt, jedoch sind zahlreiche andere Vorschläge denkbar. Es kann beispielsweise, obwohl bei diesem Beispiel ein aus 3 Schichten bestehendes neurales Netzwerk verwendet wird, dieses Netzwerk je nach Aufgabe aus 2 bzw. 4 Schichten bestehen. Ferner kann der durch jedes der neuralen Elemente dargestellte Zustand 1 Informationsgruppe entsprechen, und 1 Informationgruppe kann ebenfalls in einer Anzahl von Elementen verteilt sein.
Fig. 4(b) ist ein Konzeptschema zum konkreten Berechnen des Zustands der neuralen Elemente in jeder Schicht. Der Zustand eines markierten Elements i in einer Schicht 421 ist durch Xi 422 dargestellt. Die Variable xi (i =1, 2, ---, N) ist entweder +1 (Zündungszustand) oder -1 (Pausezustand). Der Eingang in das markierte Element ist eine Summe aus einem Signal von einem Element j 423 in der gleichen Schicht und einem Signal von einem Element k 424 in einer anderen Schicht. Da ersteres generell eine negative Wirkung hat, weist es eine Kopplung -Wij1 (< 0) 425 auf, und letzteres weist eine Kopplung Wik2 426 auf, die entweder positiv oder negativ sein kann. Dies bedeutet, daß sich der Gesamteingang wie folgt beschreiben läßt:
Ist der Gesamteingang größer als ein bestimmter Schwellenwert, so ist das Element in Zün dung oder befindet sich im Pausezustand. Obwohl es möglich ist, den Zustand jedes Elements in jeder Schicht durch dieses Verfahren zu bestimmen, wird unten ein etwas eleganteres Verfahren beschrieben. Unter Bildung eines Produkts aus Gl. (15) und xi ist es aufgrund der Tatsache, daß dieses Produkt in den beiden Zuständen, Zündung und Pause, maximal ist, ausreichend, den Zustand zu erhalten, in dem
minimal ist, wobei
wobei θ ein Schwellenwert ist.
Das Verfahren, durch das der Zustand von Elementen auf diese Weise als deijenige Zustand angegeben wird, bei dem die Energiefunktionsgleichung (16) minimal ist, ist in "Computing with neural curcuits" von Hopfield & Tank (Science Vol 233, Seiten 625-633, 1986) offenbart. Darin werden jedoch in einer Anzahl von Schichten vorhandene neurale Elemente, wie dies bei der vorliegenden Erfindung der Fall ist, nicht behandelt, sondern es berücksichtigt lediglich Elemente in einer einzelnen Schicht. Durch dieses Verfahren werden Berechnungen nicht nacheinander, ausgehend von der untersten Schicht, wie zuvor dargestellt, durchgeführt, sondern der Zustand von Elementen in samtlichen Schichten kann parallel auf einmal berechnet werden. Folglich stellt die Formel gemäß Gl. (16) einen für parallele Berechnungen geeigneten Algorithmus dar.
Es ist tatsächlich sehr schwierig, den Minimalwert der durch Gl. (16) dargestellten Energie zu erhalten, da aufgrund der Tatsache, daß der Zustand x zweiw das heißt ±1 ist, eine Anzahl von Minimalwerten auftreten und der echte kleinste Wert nicht gut erhalten werden kann. Auf der Grundlage eines solchen Hintergrunds erfanden Kirkpatrick, Gelatt und Vecchi ein in "Optimization by simulated annealing" (Science Vol 220, Seiten 671-680, 1983) veröffentlichtes simuliertes Glühverfahren, bei dem es sich um ein Verfahren zum Wiederauffinden des kleinsten Werts durch Wiederholung unter Verwendung der Wahrscheinlichkeit handelt. Der wesentliche Punkt der vorliegenden Erfindung besteht darin, daß es möglich ist, sich von einem Minimalwert infolge von Schwankungen zu entfernen, die dem Zustand durch Einführen eines Parameters, der die Temperatur ist, aufgepragt sind. Hopfleld und Tank stellten weiter fest, daß sie eine niedrigere Energie erhalten konnten, wenn das Problem der diskreten Größe von x&sub1; = ±1 durch eine durch xi = tan h (yi/Konstante) ausgedrückte Umwandlung in ein Problem einer kontinuierlichen Größe y&sub1; (-l ∞ < yi < ∞) umgewandelt wird. Ein Nachteil dieses Verfahrens besteht darin, daß es sehr zeitautwendig ist. Ein von diesem Gesichtspunkt aus verbessertes Verfahren zum Wiederauffinden eines Minimums und Maximums wird unten beschrieben.
Die Minimierung der Energiegleichung (16) ist nicht auf das oben beschriebene Verfahren beschränkt; vielmehr ist als weiteres Verfahren beispielsweise das folgende Verfahren bekannt. Durch dieses Verfahren läßt sich aufgrund der Tatsache, daß es nicht erforderlich ist, die tanh-Funktion einzuführen, um eine Kontinuität der Variablen zu erreichen, in Abweichung von dem oben beschriebenen Verfahren eine hervorragende Recheneigenschaft erzielen. Durch das simulierte Glühverfahren wird anstelle der Minimierung der Energie die Maximierung der Wahrscheinlichkeit exp(-E/T) berücksichtigt, wobei T eine positive Konstante ist. Diese Wahrscheinlichkeit läßt sich unter Einführung einer kontinuierlichen Variablen wie folgt umformulieren:
Ein Beweis hierfür läßt sich unter Verwendung der folgenden Gleichung problemlos erbringen:
Ferner stellt (W)1/2ij eine (j, i)-Komponente der Quadratwurzel einer Matrix W dar. Um der Vereinfachung willen wird hier angenommen, daß der Schwellenwert θ 0 beträgt und die Kopplungskonstanten Wij bezüglich der Suffixe symmetrisch sind. Das wesentliche Merkmal des Algorithmus geht durch diese Annahme nicht verloren.
Wird die Kernfünktion des Integrals von Gl. (17) als eine Funktion von xi angesehen, so läßt sich der kleinste Wert davon deutlich zu
erhalten. Ferner gibt wenn die Kernfünktion eine Funktion von zi ist, aufgrund der Tatsache, daß es sich hierbei um eine nach unten gekrümmte Funktion zweiter Ordnung handelt, den größten Wert der Kernfunktion an. Hierbei ist θ eine stufenweise definierte Funktion, die list, wenn das Argument positiv ist, und -1, wenn das Argument negativ ist. Folglich ist
gültig, und dies drückt die Orundfunktion der neuralen Elemente aus. Dies bedeutet, daß es ausreicht, die Maximierung der durch 01. (17) gegebenen Kernfünktion bezüglich der kontinuierlichen Variablen zj durchzuführen.
Fig. 4(c) stellt die Beziehung zwischen dem anfanglichen neuralen Netwerk, bei dem der Zustand xj 431 des neuralen Elements über Wij 433 mit einem benachbarten Element xi 432 gekoppelt ist, und dem dazu aquivalenten Netzwerk, bei dem die kontinuierliche Variable zj 434 den Zustand von Elementen gemäß Gl. (17) darstellt, dar. Sämtliche Kopplungskonstanten im Ersatznetzwerk betragen 1. Der Zustand von Elementen xi 439 wird aus der Variablen zi 434 bestimmt, die unter Verwendung des Ersatznetzwerks durch eine Fal tungsoperation 437 davon mit der Quadratwurzel (W)1/2 der Kopplungskonstanten und eine Vergleichsoperation 438 berechnet wird.
Das Merkmal der so aufgebauten Ersatzschaltung ist, daß die Rechenzeit (CPU- Zeit) kurz ist, da es nicht erforderlich ist, wieder die tanh-Funktion, die eine Kontinuität der Funktion bewirkt, einzuführen, so wie es Hopfleld und Tank taten. Ferner ist es aufgrund der Tatsache, daß die durch Gl. (17) ausgedrückte Kernfünktion bezüglich zj eine Funktion zweiter Ordnung ist, möglich, vorab einen Näherungswert des Zustands zj, der den kleinsten Wert davon ergibt, zu schätzen, und außerdem ist es aufgrund der Tatsache, daß keine Minimaiwerte existieren, möglich, die Konvergenz vom Anfangszustand bis zu dem Zustand, in dem der kleinste Wert gegeben ist, zu schätzen. Bei dem Minimierungsproblem war es aufgrund der Tatsache, daß xi zweiwertig ist, extrem schwierig, den Anfangswert zu bestimmen, da zahllose Minimalwerte auftraten, und in vielen Fällen wurde kein geeigneter Anfangswert bestimmt, und es ließ sich kein Zustand des kleinsten Werts erhalten.
In Fig. 4(d) ist ein konkreter Algorithmus zum Durchführen des oben beschriebenen Verfahrens dargestellt.

[Algorithmus]

Beginn der Berechnung.
Die Quadratwurzel der gegebenen Kopplungskonstanten W wird erhalten. Als Beispiel wird
durch Erhalten der Lösung von
bestimmt (Block 441).
Der Anfangswert der kontinuierlichen Variablen zi (i = 1, 2, ---, N) wird gesetzt (Block 442).
Basierend auf zi wird aus
der Zustand xi des neuralen Elements bestimmt (Block 443). Hierbei ist e eine schrittweise Funktion, die 1 ist, wenn das Argument positiv ist, und -1, wenn es nicht positiv ist.
Basierend auf dem in bestimmten xi wird zi, das die durch Gl. (17) ausgedrückte Kernfunktion am größten macht, zum Beispiel durch das Monte-Carlo-Verfahren berechnet (Block 444).
Die Konvergenz wird beurteilt. Ist sie nicht vorhanden, so werden und wiederholt ausgeführt. Ist sie vorhanden, so fahrt der Prozeß mit dem nächsten Schritt fort (Block 445).
Abschluß der Berechnung

3. Speichernetzwerk

Die Informationen höherer Ordnung, wie etwa die durch das Netzwerk zum Vereinheitlichen von Merkmalen vereinheitlichte Figur, werden, wie in Fig. 5(a) dargestellt, in einem neuralen Netzwerk gespeichert. Ein Eingangsmuster 514 der Informationen höherer Ordnung wird in die unterste Eingangsschicht eingegeben und an die oberen Schichten weitergegeben, so daß durch die höchste Ausgangsschicht ein Ausgangsmuster 515 ausgegeben wird. In jeder der Schichten 511 befindliche neurale Elemente 512 sind ein- bzw. zweidimensional angeordnet, entsprechend dem Eingangsmuster. Ferner wird davon ausge gangen, daß der Zustand jedes der Elemente lediglich 2 Werte annimmt, das heißt 1, wenn es sich im Zündungszustand befindet, und -1, wenn es sich im Pausezustand befindet. Ist es mehrwertig, so kann dem durch ein Erhöhen der Anzahl von Elementen begegnet werden.
Die Hauptfiinktion des Speichernetzwerks besteht im Speichern der Beziehung zwischen den Ein- und Ausgangsmustern durch Lernen 518. Es wird beispielsweise gespei chert, in die Klasse das Eingangsmuster eingeteilt wird, wie etwa die Einteilung (Ausgangsmuster bildende Klassen), bzw. es wird die Beziehung zwischen von Hand geschriebenen Buchstaben und den diesen entsprechenden genauen Buchstaben, wie bei der Erkennung von von Hand geschriebenen Buchstaben, gespeichert. Es ist aber auch möglich, einen Steuergegenstand, dessen Verhalten unbekannt ist, in geeigneter Weise durch Lernen zu steuern.
Ein derartiges Verfahren zum Realisieren eines mehrschichtigen Netzwerks wurde bereits in "Parallel Distributed Processing I and II" (MIT press, 1986) entwickelt. In der Praxis ist seine Anwendung jedoch aufgrund der nachfolgend genannten Nachteile auf einen kleinen Bereich beschränkt.

(1) Synapsen-Kopplungsstruktur

Durch das in der oben dargelegten Veröffentlichung offenbarte Verfahren des Standes der Technik sind Synapsenkopplungen, vom Gesichtspunkt des Dispergierens des Spei chers auf sämtliche Synapsenkopplungen aus betrachtet, über sämtliche Elemente verteilt. Daher ist die von jeder Synapse unterstützte Informationsmenge klein, so daß selbst dann, wenn unvollständige Informationen gegeben sind, vollständige Informationen als assoziierter Speicher erinnert werden können. Da jedoch die zum Modifizieren der Synapsenkopplungen erforderliche Zeit in Abhängigkeit vom Lernen proportional zur Gesamtanzahl davon ist, ist eine sehr lange Rechenzeit erforderlich, so daß es sich hierbei um eine in der Praxis unerwünschte Struktur handelt.

(2) Lernalgorithmus

Bei dem in der oben dargelegten Veröffentlichung offenbarten Lernalgorithmus des Standes der Technik handelt es sich um eine Rückwärts-Ausbreitung. Durch dieses Verfahren wird zunächst ein geeigneter Anfangswert für die Synapsenkopplung festgelegt. Auf der Grundlage dieser Anfangs-Synapsenkopplung wird der Zustand von Elementen ausgehend von der unteren Schicht bis hin zur oberen Schicht nacheinander berechnet. Im allgemeinen wird aufgrund der Tatsache, daß der ausgegebene Wert von einem Lehrermuster 516 verschieden ist, die Differenz 517 zwischen diesen erhalten. Anschließend wird die Synapsen kopplung modifiziert 519, um die Differenz zu verringern. Das oben beschriebene Verfahren wird so lange wiederholt, bis die Differenz 0 beträgt. Ein derartiges Verfahren, durch das die Rückkopplungsfünktion das Wesentliche davon ist, ist intuitiv zu verstehen, und dessen Programmierung einfach. Vom Gesichtspunkt der Rechenzeit aus betrachtet ist die Wirksamkeit jedoch nicht hoch.

(3) Physiologische Kenntnis über den Speicher

Der oben beschriebene Speicher entspricht, im Hinblick auf die Plastizität der Synapsenkopplung, physiologisch einem Langzeit-Speicher. Durch physiologische Experimente wurde festgestellt, daß es neben dem Langzeit-Speicher einen Kurzzeit-Speicher gibt, für den keine Plastizität der Synapse angenommen wird. In einer gleichzeitigen technischen Anwendung der beiden Speichermechanismen verbirgt sich die Möglichkeit, ein Speicherverfahren zu erhalten, dessen Leistung höher ist als die des Speicherverfahrens des Standes der Technik.
Auf der Grundlage des oben beschriebenen Iiintergrunds schafft die vorliegende Erfindung ein neues Verfahren für den Speicher, wobei es sich hierbei um eine Abwandlung davon handelt. Im weiteren werden der Langzeit- und der Kurzzeit-Speicher getrennt erörtert.

3.1 Langzeit-Speicher

Im neuralen Netzwerk werden Daten bzw. Muster nicht so gespeichert wie sie sind, sonder sie werden verteilt, um im Netzwerk in Form von Werten der Synapsenkopplung gespeichert zu werden. Dies bedeutet, daß sie verteilt kodiert werden. Nun seien N Datensätze Ii(i=1, 2, ---, N) als Eingangsmuster gegeben. Im allgemeinen kann das Eingangsmuster entweder ein- oder zweidimensional sein, und es kann entweder zwei- oder mehrwertig sein. Ist es mehrwertig, so wird im weiteren aufgrund der Tatsache, daß sich die Eingangsdaten Ii durch Erhöhen der Anzahl der Datensätze in zweiwertige Daten umwandeln lassen, davon ausgegangen, daß Ii zweiwertig ist.
Der Prozeß, durch den sich das Eingangsmuster Ii 5144 in Richtung der oberen Schicht ausbreitet, läßt sich wie folgt formulieren. Für die nichtlineare Funktion F, geschrieben in der Form f = F(Tx), ist eine s-förmige Funktion mit einem Schwellenwert, dessen Ausgangswert f im Sättigungszustand ±1 beträgt, repräsentativ. Unter Bezeichnung des Ausgangs der Elemente innerhalb der Schicht l mit fi(l) wird die relationale Gleichung
erhalten, wobei Wij(l) den Wert der Synapsenkopplung zwischen dem Element i in der Schicht (l-1) und dem Element j in der Schicht e angibt. Hat Wij einen Wert für sämtliche j, so stellt dies dar, daß es Kopplungen mit sämtlichen Elementen in der Schicht (l-1) gibt. Die Summe davon über sämtliche Element in der Schicht (l-1) kann von der Anzahl der Datensätze N verschieden sein. Wird die durch Gl. (19) gegebene Relation nacheinander, ausgehend von der Eingangsschicht (l-1) bis hin zur Ausgangsschicht (l=L), angewandt, so läßt sich
erhalten.
Dementsprechend bedeutet eine Speicherung durch Lernen eine derartige Bestim mung der Synapsenkopplung Wij(l) (l = 2, 3, ---, L), daß der Ausgang Fi(L) von Gl. (20) gleich dem Lehrermuster di 516 ist. Gl. (20) stellt jedoch ein aus N Gleichungen bestehendes System dar (es sei hierbei angenommen, daß es auch N Ausgänge gibt), und wenn sämtliche Elemente miteinander gekoppelt sind, so existieren N²(L-1) unbekannte Koeffizi enten Wij(l). Dies bedeutet, daß die unbekannten Variablen übermäßig redundant sind. Es kann davon ausgegangen werden, daß die Informationsmenge pro Synapse eine Größe von N/N²(L-1) = 1/N(L-1) aufweist. Ist N oder L groß, so ist aufgründ der Tatsache, daß jede Synapse nur wenig Information unterstützt, eine flexible Verarbeitung, wie zum Beispiel ein assozijerter Speicher, möglich. Bei einem echten Gehirn ist jedoch aufgrund der Tatsache, daß N größer ist als 10 Milliarden, das oben dargelegte Verhältnis im wesentlichen gleich 0. Ferner sind beim Gehirn nicht samtliche neuralen Elemente durch die Synapsenkopplung miteinander gekoppelt. Dies legt nahe, daß eine Art von Struktur bei der Synapsenkopplung existiert. Ferner ist es, wenn ein uniformes neurales Netzwerk beim Gehirn in Erwägung gezogen wird, undenkbar, daß eine beliebige gegenstandsabhängige Struktur, die von der Art eines gegebenen Eingangs abhängig ist, darin ausgebildet wird.
Erfindungsgemaß ist die optimale Struktur der Synapsenkopplung auf der Grundlage der zerebralen physiologischen Kenntnis bestimmt. Bei dem auf technische Anwendungen abzielenden neuralen Netzwerk des Standes der Technik ändert sich jede der Synapsenkopplungen durch Lernen, jedoch sind durch jede Synapse unterstützte Informationen im Mittel völlig uniform. Dies bedeutet, daß die Abhängigkeit von Wij(l) von den Suffixen i und j nicht so groß ist. Aus diesem Grund sollten sämtliche Synapsen modifiziert werden, was es erschwert, vom Gesichtspunkt der Rechenzeit aus betrachtet hierfür in der Praxis eine Anwendung zu finden. Gegenwärtig schaffen zerebrale physiologische Experimente noch keine Klarheit bezüglich der genauen Struktur der Synapsenkopplung. In der gegenwärtigen Situation wird lediglich eine Art von statistischer, das heißt, makroskopischer Struktur verstanden. Da jedoch die makroskopische Struktur durch die Struktur der Synapsenstruktur bestimmt ist, ist es möglich, durch das unten beschriebene Verfahren Mutmaßungen über die mikroskopische Synapsenstruktur anzustellen.
Fig. 5(b) stellt ein Beispiel der gemäß "A quantitative Study of Synaptic Reorganization in Red Nucleus Neurons after Lesion of the Nucleus Interpositus of the Cat" von Murakami et al. (Brain Research, Vol 242, Seiten 41-53, 1982) experimentell erhaltenen makroskopischen Struktur dar. Die obere Figur stellt Änderungen der Anzahl von Synapsen T 522, an denen degenerative Anschlüsse von Gehirn-Rotkern-Synapsen befestigt sind, in Abhängigkeit vom Durchmesser R 524 des baumartigen Vorsprungs dar, während die untere Figur Änderungen des Durchmessers R 524 des baumartigen Vorsprungs in Abhängigkeit von der Distanz x 523 von der Mitte der Zelle mit dem baumartigen Vorsprung darstellt.
Bei der oberen Figur wird eine durch T R-α (α = 2/3) dargestellte Beziehung, bei der unteren Figur eine durch R x-β (β = 1) dargestellte Beziehung erhalten, wobei das Zeichen für eine proportionale Beziehung steht. Die oben beschriebenen Ergebnisse beziehen sich auf unter Verwendung einer Anzahl von Proben erhaltene statistische Größen.
Auf einen Blick scheinen die beiden Figuren voneinander unabhängig zu sein. Es existiert jedoch eine enge Beziehung zwischen diesen als Folgerung aus der Struktur der Synapsenkopplung. Es ist möglich, durch Darstellen dieser Tatsache auf die optimale Struktur der Synapsenkopplung zu schließen.
Wie in Fig. 5(c) dargestellt, handelt es sich bei der Verzweigung des baumartigen Vorsprungs um eine Gabelung. Durch n-maliges Gabeln ergeben sich insgesamt 2n Vorsprünge 531. Diese Verzweigung stellt ein Verzweigungsverfahren dar, das sich recht allgemein betrachten läßt. Das sich in dem baumartigen Vorsprung ausbreitende Signal ist eine Impulsfolge, die ein Informationen übertragendes Medium darstellt. Folglich sollte die Informationsübertragungs-Leistung für jeden Zweig verschieden sein. Ist beispielsweise der Querschnitt des baumartigen Vorsprungs an einen Kreis angenähert, so hängt die Übertragungsleistung vom Durchmesser R ab.
Nun ist der Durchmesser eines durch n Gabelungen erzeugten Zweigs durch Rn 532 dargestellt, während der Durchmesser eines durch die darauffolgende Gabelung erzeugten Zweigs durch Rn+1 533 dargestellt ist. Diese Zweige durchfiießende Informationssätze sind durch In 534 bzw. In+1535 dargestellt. Hier ist der Informationsfluß durch einen Fluß elektrischen Stroms in einer Ersatzschaltung ersetzt. Hierbei wird die in diesem Zweig aufgenommene Energie betrachtet. Die der elektrischen Leistung entsprechende Energie ist deutlich proportional zu In2/Rn2 wobei die Tatsache verwendet wird, daß der Widerstand umgekehrt proportional zur Querschnittsfläche des Vorsprungs 4πRn2 ist. Das durch diesen Zweig im Raum belegte Volumen ist gleich 4πRn2 x (Länge des Zweigs), und es ist denkbar, daß der lebende Körper dieses Volumen derart reguliert, daß es einen kleinstmöglichen Raum belegt. Eine Summation der zuvor dargelegten Energie und dieses Volumens über sämtliche Zweige ergibt:
wobei der Koeffizient eine positive Konstante zum Anpassen der Dimension der Ausdrücke ist. Die Minimierung dieser Größe drückt mathematisch aus, daß eine Übertragung einer gleichen Informationsmenge unter Verwendung einer kleinstmöglichen Energie und eines kleinstmöglichen Raums erreicht wird. Nun ist klar, daß unter der Annahme, daß die Länge und der Koefzzient konstant sind, die Formel (21), wenn die Beziehung
erfüllt ist, minimiert wird, indem das Differential der Formel (21) nach Rn gleich 0 gesetzt wird. Was den elektrischen Stromfluß durch die gegabelten Zweige anbelangt, so gilt In = 2In+1, und aus der Formel (22) wird zusammen damit
erhalten. Dies bedeutet, daß sich der Durchmesser des baumartigen Vorsprungs für jede Gabelung auf 1/ 2 verringert.
Wird der Durchmesser des anfänglichen baumartigen Vorsprungs ausgehend von der Zelle mit R&sub0; bezeichnet, so erscheinen, da R&sub0;/ 2n=Rn, nach n Gabelungen Zweige, wobei x die Länge samtlicher Zweige darstellt und ein Verhältnis Rn x-β verwendet wird. Die Formel (24) ist eine die Gesamtanzhl von Zweigen bei einer von der Mitte der Zelle aus gemessenen Distanz x darstellende Formel.
Obwohl die Formel (21) eine die niikroskopische Struktur der Synapsenkopplung betreffende Annahme darstellt, wird unten gezeigt, daß eine Reihe resultierender Formeln (22) bis (24), die auf der Grundlage dieser Annahme abgeleitet sind, Fig. 5(b) erklären können, die physiologische experimentelle Tatsachen darstellt. Wie in Fig. 5(c) dargestellt, wird eine Kugel mit einem Durchmesser L betrachtet. Die Gesamtanzahl Q der baumartigen Vorsprünge, die ihren Weg von einer Zelle innerhalb dieser Kugel zur Oberfläche davon finden, wird berechnet. Unter der Annahme, daß die Zellen gleichmäßig in dieser Kugel verteilt sind, läßt sich die Gesamtanzahl der baumartigen Vorsprünge, die ihren Weg zur Oberfläche der Kugel finden, wie folgt unter Verwendung der Formel (24) berechnen:
wobei xdx sin θdθdψ ein inkrementales Volumenelement innerhalb der Kugel darstellt und θ und Ψ unabhängige Winkel im polaren Koordinatensystem darstellen. Die Formel (25) zeigt an, daß die Abhängigkeit von Q vom Durchmesser L der Kugel L2β+2 beträgt.
Außerdem wird, ausgehend von einem anderen Gesichtspunkt, eine weitere Formel für Q hergeleitet. Die Gesamtanzahl von Q der baumartigen Vorsprünge steht in deutlicher Beziehung mit dem Durchmesser L der Kugel und der Anzahl T der Synapsenkopplungen an der Oberfläche der Kugel. Diese Beziehung ist generell ausgedrückt durch:
Die T-Abhängigkeit wird konzipiert, um die in Fig. 5(b) dargestellten experimentellen Tatsachen zu berücksichtigen. Nun wird anstelle der Kugel mit dem Durchmesser L eine Kugel kleinerer Größe mit einem Durchmesser L' = b-1L (b > 1) betrachtet. Zusammen mit dieser Transformation werden T und Q jeweils in durch T' = bklT und Q' =bk2Q gegebene Werte transformiert. Da sowohl T als auch Q an der Oberfläche der Kugel definierte Werte sind, gilt deutlich k&sub1; = 2 und k&sub2; = 2. Dies bedeutet, daß dann, wenn sämtliche Größen mit der Einheit der kleinen Größe L' gemessen werden, die zweidimensional ausgedrückten Größen T und Q gegenüber der anfänglichen Größe L proportional zum Oberflächenbereich zunehmen. Selbst wenn die Messung unter Verwendung der durch eine derartige Transformation erhaltenen Größe durchgeführt wird, bleibt die durch Gl. (26) ausgedrückte relationale Gleichung unverändert. Folglich werden die folgenden Gleichungen erhalten:
Da der Durchmesser L der Kugel eine beliebige Größe ist, sollte eine die oben dargelegte Gleichung für sämtliche L erfüllende Funktion f(L, T) erhalten werden. Das Ergebnis läßt sich wie folgt ausdrücken:
f(L, T) = b f(L T), (28)
wobei eine Funktion ist, die nicht nur durch Gl. (27) definierbar ist.
Nun ist die Anaahl T von Synapsen aus Experimenten abhängig von der Distanz x von der Mitte der Zelle, wobei T R&supmin;² x2β gilt. Unter Verwendung der Formel (24) wird, wenn die relationale Gleichung mittels der Formel Q x2β umgewandelt wird, eine weitere relationale Formel Q T2/α erhalten. Obwohl dies für einen baumartigen Vorsprung erhalten wurde, wird davon ausgegangen, daß es in ännlicher Weise für eine Anordnung einer Anzahl baumartiger Vorsprünge gültig ist. Diesmal stellt die unbekannte Funktion in Gl. (28) eine durch
ausgedrückte Abhängigkeit dar. Folglich wird Gl. (28) umgewandelt zu:
Dies ist eine weitere Formel, die die Gesamtazabl Q der baumartigen Vorsprünge ausdrückt. Aus der Abhängigkeit der Formeln (25) und (29) von L läßt sich erhalten. Wird in dieser relationalen Gleichung k&sub1; = k&sub2; = 2 gesetzt, so wird
erhalten. Diese relationale Gleichung ist nur für die experimentellen Formeln α =2/3 und β = 1 gültig, was zeigt, daß die Irüher angenommene mikroskopische Struktur der Synapsenkopplung richtig ist. Dies bedeutet, daß die optimale Struktur der Synapsenkopplung derart bestimmt ist, daß die durch die Formel (21) gegebene Funktion minimiert wird.
Da Informationen in Entsprechung mit elektrischem Strom gebracht werden, sind sie proportional zur Querschnittsfläche 4πRn2 des baumartigen Vorsprungs des Übertragungsmediums (Formel (22)), und die Informationsmenge, die für eine Verteilung übertragbar ist, beträgt 1/2. Fig. 5(d) stellt Anderungen des Verhältnisses der Informationsmenge 542, die übertragbar ist, in Abhängigkeit von der Anaahl von Verzweigungen 541 dar. Nach dieser Figur ist sie nach 6 Verzweigungen auf eine Größenordnung von 1% der anfänglichen Informationsmenge vermindert, was bedeutet, daß die Informationsübertragung im wesentlichen nicht möglich ist. Ferner ist sie nach etwa 3 Verzweigungen auf 10% vermindert. In der Praxis bedeutet dies, daß es ausreicht, 3 bis 4 Verzweigungen zu berücksichtigen. Wird beispielsweise ein Fall betrachtet, bei dem ein neurales Element 545 mit Elementen in der folgenden oberen Schicht 543 gekoppelt ist, so reicht es aus, lediglich die Kopplung mit einer Gruppe von Elementen 544 von 2&sup4; = 16 um ein Element, das genau über dem Element 545 angeordnet ist, zu berücksichtigen. Hierbei wird davon ausgegangen, daß ein baumartiger Vorsprung ausgehend vom mittleren Element in Richtung zu Elementen, die zu diesem nahe sind, in der Reihenfolge zunehmender Distanz nacheinander gegabelt ist.
Da die durch den baumartigen Vorsprung übertragene Informationsmenge durch die Größe Wij (Gl. (16)) der Synapsenkopplung in einem künstlichen neuralen Netzwerk ausgedrückt ist, sollte die Größe von Wu gemäß der in Fig. 5(d) dargestellten Tabelle variieren. Wenn beispielsweise Startpunkte Kopplungen von an gleichen Positionen in einer oberen und einer unteren Schicht, die nebeneinander liegen, befindlichen Elementen sind, so gilt Wnn(i),i / Wi,i = 0,5, Wsn(i),i / Wi,i / Wi,i = 0,5 etc.,wobei nn(i) das am dichtesten an einem Element befindliche Element und sn(i) das zweitdichteste Element darstellt. Selbstverständlich sollte dann, wenn der Speicher berücksichtigt wird, die Synapsenkopplung durch Lernen modifiziert werden. Es ist jedoch denkbar, daß der Grad einer dadurch durchgeführten Modifikation klein ist. Foglich kann davon ausgegangen werden, daß sich die oben beschriebenen Verhältnisse nicht so stark ändern. Im folgenden wird eine konkrete Lernregel betrachtet.
Das Rückwärtsausbreitungsverfahren, das ein Lernverfahren des Standes der Technik ist, ist in "Parallel Distributed Processing I and II" (MIT press, 1986) genau erörtert. Der Grundgedanke hierbei ist, daß die Synapsenkopplungen ausgehend von einer oberen Schicht bis hin zu einer unteren Schicht nacheinander bestimmt werden, so daß der folgende Quadratfehler e minimiert wird, wobei der durch G1. (20) gegebene Ausgang fi(L) verwendet wird.
Konkret werden de/dWij(l) = 0(l = L, L-1, ---, 2) durch das Verfahren des steilsten Abfalls nacheinander bestimmt. Durch das Rückwartsausbreitungsverfahren werden die zwischen sämtlichen Elementen ausgebildeten Synapsenkopplungen unter Verwendung von Gl. (32) eine nach der anderen korrigiert. Aus diesem Grund handelt es sich hierbei, da die erforderliche Rechenzeit proportional zur Anzahl der Synapsen N² (L-1) ist, nicht um ein in der Praxis wirksames Lernverfahren. Ist jedoch beispielsweise die Struktur der Synapsenkopplung wie in Fig. 5(d) dargestellt beschaffen, so beträgt die Gesamtanzahl der Kopplungen 16N(L-1) und ist somit 16/N-mal so klein wie die oben beschriebene Anzahl. Werden 1000 Elemente betrachtet, so beträgt erstere lediglich 1,6% der letzteren. Selbst wenn die Anzahl der Verzweigungen 5 beträgt, beträgt sie lediglich etwa 3,2%.

[Algorithmus]

Im folgenden wird unter Bezugnahme auf Fig. 5(e) das Verarbeitungsverfahren beschrieben.
Beginn der Berechnung
FesLegen von Anfangswerten für Zustände von Elementen fi(l) (l = 1, 2, ---, L)und Synapsenkopplungen Wij(l) (l =2, 3,-, L). (Block 551)
Entweder die Zustände von Elementen fi(l) werden, beginnend beim gegebenen Eingang, ausgehend von der unteren Schicht bis hin zur oberen Schicht nacheinander gemäß Gl. (19) berechnet, oder fi(l) wird durch Durchführen der Minimierung unter Verwendung der Formel (17) bestimmt (17). (Block 552)
Die Struktur der Synapsenkopplung gemäß der Anzahl der Verzweigungen wird, wie in Fig. 5(d) dargestellt, bestimmt, und für diese Synapsen werden ausgehend von der oberen Schicht bis hin zur unteren Schicht nacheinander ihre Kopplungskonstanten Wij(l)) korrigiert, so daß die Formel (32) minimiert wird. (Block 553)
Die Konvergenz wird beurteilt. Liegt keine Konvergenz vor, so werden und wiederholt, und liegt Konvergenz vor, so fährt das Verfahren mit dem folgenden Schritt , ENDE, fort. (Block 554)
Ende der Berechnung
Außer dem oben betrachteten Lernverfahren gibt es hierzu alternative Vorschläge, die unten dargelegt sind.

Alternativvorschlag 1

Das Rückwärtsausbreitungsverfahren des Standes der Technik und das durch den Algorithmus in Fig. 5(e) dargestellte Verfahren beruhen auf der Annahme, daß sämtliche Synapsenkopplungen Wij voneinander unabhängig sind. So wurde durch das oben betrach tete Lernverfahren auf der Grundlage der physiologischen Kenntnis die Struktur der vom Gesichtspunkt der übertragenen Informationen aus betrachtet erforderlichen und ausreichenden Kopplung bestimmt. Folglich wurde eine Verkürzung der zum Lernen erforderlichen Zeit ermöglicht. Bei einem künstlichen neuralen Netzwerk ist es jedoch möglich, die Anzhl der Synapsenkopplungen von einem anderen Gesichtspunkt aus zu verringern. Es sei nun angenommen, daß sämtliche neuralen Elemente zwischen verschiedenen Schichten gekoppelt sind. Die Synapsenkopplungen Wij(l) werden durch eine weitere Variable ξ&sub1;(l) erzeugt. Dies bedeutet, daß sie anstelle der anfänglichen N² Kopplungsvariablen durch eine Variable mit einer niedrigeren Dimension erzeugt werden. Wird deren Dimension mit M bezeichnet, so kann angenommen werden, daß:
wobei ω eine Erzeugungsfünktion und ξk (k = 1, 2, ..., M) eine Variable der Dimension M ist. Gl. (33) stellt eine Verallgemeinerung des in Fig. 5(a) dargestellten Verfahrens dar. Es wird ein Zustand betrachtet, in dem ein Element i in einer bestimmten Schicht mit jedem der Elemente in der zu dieser benachbarten oberen Schicht gekoppelt ist. Unter der Annahme, daß die Synapsenkopplung Wij einen elektrischen Strom und Rij einen Durchmesser des Querschnitts davon darstellt, kann Rij derart bestimmt werden, daß
minimiert wird, wobei dann, wenn Rij =0 gilt, davon ausgegangen wird, daß es zwischen (i, j) keine Kopplung gibt.

Alternativvorschlag 2

Durch die bis jetzt beschriebenen Verfahren werden dann, wenn ein Lehrermuster di 516 gegeben ist, die Synapsenkopplungen ausgehend von der oberen Schicht bis hin zur unteren Schicht nacheinander derart korrigiert, daß der Quadratfehler der Formel (32) minimiert wird. Außer einem derartigen Wiederholungsverfahren gibt es ein weiteres Verfahren, durch das die Synapsenkopplung schnell bestimmt werden kann. Dies bedeutet, daß sie analytisch bestimmt wird.
Die durch Gl. (20) ausgedrückte Funktion F ist eine nichtlineare Sättigungsfünktion. Dafür wird beispielsweise ein s-förmige Funktion verwendet. Kurz gesagt, läßt sich die s- förmige Funktion in einen gesättigten Teil und einen dazwischen gesetzten Teil, der in eine lineare Form umwandelbar ist, unterteilen. Diese lineare Umwandlung ist durch F = A + Bx angenähert. Nun wird unter Annahme eines Falls, bei dem sich sämtliche Elemente in diesem verhalten, die Synapsenkopplung bestimmt. Bei der vorliegenden Erfindung wird ein 3schichtiges neurales Netzwerk als Beispiel betrachtet. Wird Gl. (20) unter Verwendung dieser Näherung umgeschrieben, so wird
erhalten. Es reicht aus, Wij(3) und Wij(2), die diese Gleichung erfüllen, zu bestimmen. Sie lassen sich beispielsweise unter der Annahme einer trennbaren Synapsenkopplung, wie etwa Wij(3) = ni(3)ξi(2), wie folgt bestimmen:
wobei ξi eine Zufallsvariable ist, deren Mittelwert 0 und deren Varianz ² beträgt. Wird die so definierte Synapsenkopplung verwendet, so ist es nicht mehr nötig, das bei den Techniken des Standes der Technik erforderliche Verfahren zu wiederholen.
In der Praxis ist Gl. (36) aufgrund der Tatsache, daß sämtliche Elemente nicht in ihrem linearen Bereich arbeiten, dafür nicht gültig, und sie sollten getrennt behandelt werden.
Gl. (36) weist eine weitere Benutzungsweise auf Im allgemeinen wird durch das Rückwärtsausbreitungsverfahren etc. gemaß den Techniken des Standes der Technik ein besseres Ergebnis erzielt, wenn der Anfangswert der Synapsenkopplung unter Verwendung von Zufaliszahlen mit kleinen Werten erzeugt wird. Der Grund hierfür liegt darin, daß dann, wenn sich das Netzwerk im Anfangszustand im unstabilsten Zustand befindet, davon ausgegangen werden kann, daß der Wert schnell zu einem stabilen Zustand konvergiert. Dies bedeutet, daß Gl. (36) als Anfangswert für die Synapsenkopplung verwendet werden kann.

Alternativvorschlag 3

Durch das Verfahren des Standes der Technik wurde, obwohl es beim Berechnungsalgorithmus Unterschiede gab, dieser in einen Teil zum Berechnen des Zustands von Elementen und einen Teil zum Modifizieren der Synapsenkopplung durch Lernen unterteilt. Es ist jedoch, abgesehen von der Einfachheit des intuitiven Denkens, nicht erforderlich, diese getrennt zu berechnen. Hier wird ein Algorithmus dargestellt, der beide gleichzeitig ausführt. Sowohl das Lernen als auch der Teil zum Berechnen des Zustands von Elementen beruhen, ännlich wie das auf Gl. (32) beruhende, auf der Minimierung der Energie gemäß dem oben beschriebenen Gedanken von Hopfleld. Die Energie, für die sowohl der Zustand von Elementen als auch das Lernen berücksichtigt werden, ist dargestellt durch:
wobei k eine positive Konstante ist. Wird das Verfahren auf diese Weise formuliert, so ist es möglich, sowohl den Zustand von Elementen fi(l) 561 als auch die Synapsenkopplung Wij(l) 562 (Fig. 5(f)) gleichzeitig zu bestimmen. Dies bedeutet, daß aufgrund der Tatsache, daß die Wiederholung der Bestimmung des Zustandes von Elementen T Synapsenkopplung nicht mehr erforderlich ist, sondern diese gleichzeigig ausgeführt werden können, dieses Verfahren auch zum Realisieren von P&allelrechnern geeignet ist.
Es laßt sich eine einfachere Formel erhalten, wenn die zuvor eingeführte trennbare Synapsenkopplung Wij(l) = ξi(l)ξj(l-1) eingeführt wird, wobei ξi(l) eine neue Variable 563 darstellt. Wird diese Formel für Wij(l) in Gl. (37) eingesetzt, so erhält man
so daß sich die Anzahl der w bestimmenden Variablen auf N(L-1) verringert, wobei Fi(l) = ξi(l)fi(l) gilt.

3.2 Kurzzeit-Speicher

Kurz ausgedruckt, ist der Langzeit-Speicher eine Abbildung von Informationen auf Synapsenkopplungen bzw. eine Kodierung. Der Kurzzeit-Speicher speichert Informationen durch ein Verfahren, das von dem Mechanismus des Langzeit-Speichers völlig verschieden ist. Fig. 5(g) stellt Ergebnisse eines psychologischen Experiments an dem in "Human Information Processing; An Introduction to Psychology", 1977 von Lindsay und Norman offenbarten Speicher dar. 19 Versuchspersonen hörten sich 30 zusammenhanglose Wörter an, die ihnen mit einer Geschwindigkeit von 1 Wort pro Sekunde gegeben wurden. Jeder Versuchsperson wurde eine Zeit von 1,5 Minuten für jede Beendigung einer Darstellung von Listen gegeben. Sie wurden gebeten, sämtliche Wörter niederzuschreiben, an die sie sich erinnern konnten, wobei ihnen die Reihenfolge freigestellt wurde. 5 bis 10 Sekunden nach Beendigung des Niederschreibens der Wörter wurde eine neue Liste präsentiert. Der gleiche Ablauf wie oben beschrieben wurde 8omal wiederholt. Eine Reihenpositionskurve 573 ist eine Kurve, die erhalten wird, indem das Reproduktionsverhältnis 571 diesmal in Abhängigkeit von der die Reihenfolge, in der die Wörter gegeben wurden, angebenden Reihenposition 572 dargestellt wird. Das Merkmal dieser Kurve ist, daß das Reproduktionsverhältnis bis auf etwa das 7-te Wort, gezählt vom zuletzt gegebenen Wort, abnimmt und für die daurauf folgenden Wörter beinahe gleich bleibt. Der erstgenannte Teil wird in Entsprechung mit dem Kurzzeit-Speicher 575 gebracht, und der letztgenannte Teil wird in Entsprechung mit dem Langzeit-Speicher 574 gebracht.
Der Kurzzeit-Speicher ist ein Mechanismus, durch den einer Person gegebene Daten vorübergehend gespeichert werden. Gemäß einem bestimmten Kriterium werden aus diesen Daten benötigte Daten ausgewählt, für die das Verfahren zum Langzeit-Speicher fortschreitet. Der Speicher gemäß technischen Anwendungen des Standes der Technik war ein Langzeit-Speicher, und dem Kurzzeit-Speicher wurde keine Beachtung geschenkt. Folglich ist es erforderlich, zuvor notwendige Daten aus gegebenen Daten auszuwählen, bevor diese gespeichert werden. Dies bedeutet, daß die Beurteilung der Auswahl neu betrachtet werden sollte als eine Vorverarbeitung außerhalb des neuralen Netzwerks. Hingegen kann das neurale Netzwerk mit dem Mechanismus des Kurzzeit-Speichers einen derartigen Auswahlmechanismus im Netzwerk integrieren.
Ferner weist der Kurzzeit-Speicher einen wichtigen, den Durchgang zum Langzeit- Speicher betreffenden Aspekt auf Wie oben beschrieben, weist beim Kurzzeit-Speicher die Synapsenkopplung keine Plastizität auf, sondern ist konstant. Um in der Lage zu sein, Informationen mit einer unveränderbaren Synapsenkoplung zu speichern, sollte die Synapsenkopplung gemaß einer Regel bestimmt sein. Geht das Verfahren zum Langzeit-Speicher über, so wird daher, wenn die Kopplungsstruktur von dieser Regel stark abweicht, der folgende Kurzzeit-Speicher unmöglich. Dies bedeutet, daß der Näherungswert der Synapsenkopplung zum Zeitpunkt des Kurzzeit-Speichers bestimmt ist. Daher wird im folgenden ein Modell aufgebaut, das die psychologische Realisierung des Kurzzeit-Speichers, dargestellt in der Reihenpositionskurve, erläutern kann, und gleichzeitig wird die der Synapsenkopplung auferlegte Regel erklärt.
Ein das Verhalten des Zustands der neuralen Elemente darstellendes Gleichungssystem laßt sich durch Gl. (16) bzw. Gl. (19) beschreiben. Da beide Gleichungen aus Ersatzvorrichtungen hergeleitet sind, wird hier Gl. (16) betrachtet. Zunächst wird betrachtet, wie sich der Speicher im Kurzzeit-Speicher in Gl. (16) ausdrücken laßt. Da die Synapsenkopplung Wij invariant ist, kann sie nicht in Wij kodiert werden, wie dies beim Langzeit-Speicher der Fall ist. Daher wird der Kurzzeit-Speicher in Entsprechung mit dem Minimum von Gl. (16) gebracht. Gemäß der Reihenpositionskurve 573 sind aufgrund der Tatsache, daß sich gezeigt hat, daß etwa 7 Zustände gespeichert werden können, dementsprechend eine Anzahl von Minimalwerten um diese Azahl erforderlich. Dies bedeutet, daß die dafür der Synapsenkopplung auferlegte Bedingung erhalten wird. Unter der Annahme, daß Wij = konst. (unabhängig von i und j) gilt, und wenn die Anzahl der Elemente ausreichend groß ist, gibt, abhängig vom Vorzeichen des Schwellenwerts θ, xi = -1 bzw. xi = 1 den kleinsten Wert von Gl. (16) an. Wird der dynamische Prozeß von Gl. (16) betrachtet, so existieren keine anderen Minimalwerte als diese Werte, jedoch ist der Zustand, in dem sämtliche neuralen Elemente einen gleichen Wert autweisen, nur ein Speicher. Daher kann die Annahme, daß = konst. (unabhängig von i und j) gilt, die Reihenpositionskurve nicht erklären.
Der dynamische Prozeß zum Minimaiwert der Energie wird unter Verwendung der folgenden Wahrscheinlichkeitsgleichung gespeichert:
wobei P die Wabrscheinlichkeitsverteilung, mit der der Zustand zu einem Zeitpunkt t gleich {x} ist und ω die Übergangswahrscheinlichkeit darstellt. Die notwendige Bedingung, damit die oben dargelegte Währscheinlichkeitsgleichung eine stationäre Verteilung exp(-E({x})) ergibt, ist ausgedrückt durch:
Anstatt direkt Gl. (39) zu integrieren, wird der Mittelwert des Zustands xi
betrachtet.
Es wird hierbei angenommen, daß die Synapsenkopplung Wij die folgenden Werte annimmt (Fig. 5(h):
Wij = +1, p benachbarte Elemente
Wij = -1, r benachbarte Elemente
Nun wird als Experiment zum Erhalten der Reihenpositionskurve die Situation betrachtet, in der Wörter eines nach dem anderen Versuchspersonen gegeben werden. Diesmal werden die Gruppen neuraler Elemente 591 (Fig. 5(i)), die diesen Wörtern entsprechen, nacheinander in den Zündungszustand versetzt. Selbstverständlich können die Gruppen von Elementen gegenseitig überlappt sein. In jedem Fall entspricht die Tatsache, daß die Wörter nacheinander gegeben werden, der Tatsache, daß die Anzahl von Elementen, die in jedem der Elemente gekoppelt sind (Gruppe), ansteigt. Dies bedeutet, daß (p + r) ansteigt. Daher wird das Verhalten des Mittelwerts (Xi) des Zustands von Elementen in Abhängigkeit von p+r untersucht.
Gemäß Thouless, Anderson und Palmer Philosophical Magazine, Vol 35, Seite 583, 1977), ändert sich bei Ausführen von Gl. (40) der Mittelwert < xi> annähernd gemäß der folgenden Gleichung:
Im allgemeinen ist aufgrund der Tatsache, daß verschiedene < xi> -Werte verschiedenen stationären Zuständen entsprechen, die Anzahl der stationären Lösungen von Gl. (41) gleich der Anzahl von Kurzzeit-Speichern. Wie auch in "Digital dynamics and the simulation ofmagnetic systems" (Physical Review B, Vol 28, Seiten 2547 - 2554, 1983) von Choi und Huberman offenbart, ist das Ergebnis in Fig. 5(j) dargestellt. Ist die Anzahl von Elementen (p+r) 5101 klein, so gibt es nur einen stationären Zustand 5102. Die Gabelung findet mit ansteigendem (p+r) statt, so daß die Anzahl der stationären Zustände in Form eines Baums 5103, wie 2, 4, 8 etc., zunimmt. Wenn jedoch der Wert von (p+r) weiter ansteigt und den 8 ergebenden Wert überschreitet, so gibt es keine stationären Zustände, was einen chaotischen Zustand entstehen läßt. Dies bedeutet, daß es nicht mehr als 8 stationäre Zustände (Minimalwerte der Energie) in diesem neuralen Netzwerk gibt.
Anhand des oben beschriebenen Ergebnisses wurde erkannt, daß der Kurzzeit-Speicher unter Verwendung eines neuralen Netzwerks mit positiven und negativen Zufalls-Sy napsenkopplungen realisierbar ist. Ferner geht aus obiger Betrachtung hervor, daß beinahe zufällige Synapsenkopplungen auch für den Langzeit-Speicher angenommen werden können.
Im weiteren werden einige Ausführungsbeispiele der vorliegenden Erfindung erläutert, wobei sie in mehrere Punkte für verschiedene Anwendungsgegenstände gegliedert werden.

1. Erkennungsproblem

1.1 Erkennung von Laufbildern
1.2 Anfängliche visuelle Wahrnehmung

2. Steuerproblem

2.1 Bewegungssteuerung
2.2 Optimalsteuerung

3. Mathematisches Problem

3.1 Verfahren zum Lösen nichtstationärer partieller Differentialgleichungen.

1. Erkennungsproblem

1.1 Erkennung von Laufbildern
In Fig. 2 wurde ein neurales Netzwerk zur Verarbeitung von Informationen höherer Ordnung aufgebaut, wobei von einer Schaltung zum selektiven Extrahieren der Orientierung bei der visuellen Wahrnehmung in der Hirnrinde ausgegangen wurde. Hier wird ein neurales Netzwerk zum Erkennen von Laulbildern unter Anwendung dieses Netzwerks aufgebaut.
Gemäß der psychologischen Kenntnis sind beim Erkennen eines Gegenstands durch eine Person zusammenwirkende bzw. konkurrierende Aktionen physischer Signale (Bilder) eines Körpers, der einen zu erkennenden Gegenstand darstellt, und Vorstellungen (Bilder) erforderlich. Es gibt zahlreiche Fälle, bei denen die Erkennung nicht lediglich durch eines davon möglich ist. Dies bedeutet, daß Merkmale aus einer Anzahl physischer Signale, die in das System eintreten, extrahiert werden, wobei die physischen Signale vereinheitlicht werden und durch ihre Abstimmung mit dem Speicher eine signifikante Erkennung erfolgt. Folglich ist zusätzlich zu der in Fig. 2 dargestellten generellen Struktur ein Rückkopplungsmechanismus vom Speicher zur Merkmalvereinheitlichung erforderlich (Fig. 6(a)).
Primitive Merkmale werden aus dem Eingang mittels eines Netzwerks 611 zum Extrahieren von Merkmalen extrahiert und mittels eines Netzwerks 612 zum Vereinheitlichen von Merkmalen vereinheitlicht, und sie werden mit in einem Speichernetzwerk 613 gespeicherten Bildern abgestimmt. Bilder 621 und 622, die 2 in einer Einheitszeit gemessenen Rahmen entsprechen, werden als Einganginformation verglichen, um Anderungen der Gradation zu erhalten. Dieser Vergleich wird für jede Masche in den Bildern durchgeführt, um das Vorhandensein einer Bewegung zu bestätigen. Da jedoch die Bewegungsrichtung nicht bekannt ist, werden beim Eingangsbild 623 die Bildelemente, bei denen Änderungen stattfanden, markiert. Ferner existieren aufgrund der Tatsache, daß die Richtung durch dies allein nicht beurteilbar ist, Informationen bezüglich der ungefähren Richtung getrennt.
Die lineare Richtung der Bewegung wird aus dem so vorbereiteten Bild mittels des in Fig. 6 dargestellten Netzwerks 611 zum Extrahieren von Merkmalen extrahiert. Ferner bestimmt das Netzwerk 612 zum Vereinheitlichen von Merkmalen die Bewegungsrichtung unter Verwendung der extrahierten linearen Richtung als Gruppe von durchgehenden geraden Linien 631. Im allgemeinen gibt es jedoch keine unnatürliche Bewegung, wie durch 631 in Fig. 6(c) dargestellt. Dies bedeutet, daß Vorstellungen bezüglich der Bewegung, konkret gesagt, daß die Bewegung einer stetigen Kurve 632 folgt, etc. in ein Speichernetzwerk 613 eingegeben werden. Auf diese Weise entsteht eine stetige Kurve 632 durch deren Abstimmung.

1.2 Anfängliche visuelle Wahrnehmung

Verschiedene Verarbeitungen, wie etwa die Erkennung der Bewegungsrichtung, die Erkennung der Tiefe etc., bei der anfänglichen visuellen Wahrnehmung lassen sich als Umkehrproblem zum Problem der Bestimmung der Lösung aus den Eingangsdaten formulieren. Dies bedeutet, daß ein spontan aus dem Problem hergeleitetes Gleichungssystem, das der Gegenstand ist, und Grenzbedingungen, die auf einigen a priori vorhandenen Informationen beruhen, erforderlich sind, da die Lösung nicht allein durch das Gleichungssystem bestimmbar ist. Nun laßt sich bei Bezeichnung der zu erhaltenden Variable mit x und der Eingangsdaten mit 1 das Problem wie folgt als Minimierungsproblem formulieren:
wobei E&sub1; die dem Gleichungssystem entsprechende Energie, E&sub2; die den Grenzbedingungen entsprechende Energie und λ einen deren Verhältnis anzeigenden Parameter darstellt. Folglich ist das für Gl. (17) beschriebene Verfahren wirksam anwendbar.
Nachfolgend wird, um eine konkrete Aufstellung einer Formel zu untersuchen, die Wahrnehmung der Bewegungsrichtung untersucht. Da das (zweiwertige) Eingangsbild I bezüglich der Bewegungsrichtung konstant ist und unverändert bleibt, gilt wobei = (δ 1 δx, δ / δy), V = (Vx, Vy) gilt, t die Zeit, V den Differentialvektor und V den Geschwindigkeitsvektor der Bewegungsrichtung darstellt. Die Energie E&sub1; wird durch Integrieren des Quadrats der obigen Formel erhalten. Als nächstes werden als a priori Grenzbedingungen im Sinne einer Beseitigung des Rauschens angenommen, daß
gilt. Durch deren Addition wird
erhalten. Da das Bild in Form einer Masche unterteilt ist, läßt sich die obige Gleichung, wenn die Suffixe i und j, die Ganzzahlen darstellen, jeweils in der x- und der y-Richtung angebracht sind, umwandeln zu:
wobei
Ferner kann sie unter Verwendung von Vi = (Vxi, Vyi) wie folgt zusammengefaßt werden:
wobei sich Wij und hi aus der oben dargelegten Deflnitionsformel einfäch herleiten lassen.
Wird hier Gl. (17) angewandt, so läßt sich das Problem in das Maximierungsproblem der durch die folgende Formel ausgedrückten Wahrscheinlichkeit überführen:
Die Maximierung dieser Formel ist unter Anwendung des simulierten Glühverfahrens etc. ausführbar.

2.1 Bewegungssteuerung

Es ist der Eingang u(t) zum System derart zu bestimmen, daß er der Zielbahn dd(t) in Abhängigkeit von der Zeit folgt, wie für die Steuerung eines Roboter-Manipulators, um die Bewegungssteuerung durchzuführen (Fig. 7(a)).
Die nachfolgende Erläuterung erfolgt anhand eines Roboter-Manipulators als Beispiel. Wird nun ein n-dimensionaler Gelenkwinkelvektor mit θ bezeichnet, so laßt sich die Bewegungsgleichung wie folgt angeben:
wobei der erste Ausdruck im linken Glied ein Trägheitsausdruck; der zweite Ausdruck ein Ausdruck der Coriolis-Zentrifugalkratt; der dritte Ausdruck ein Gravitationsausdruck ist; und das rechte Glied das n-dimensionale Gelenkdrehmoment darstellt. Wird ferner der Richtungsvektor, der die Position des Schenkels des Manipulators angibt, mit x bezeichnet, so gelten nach den Grundlagen der Kinematik
wobei J(θ) eine Jacobische Determinante darstellt. Aus der Bewegungsgleichung bezüglich x laßt sich der Vektor P der auf den Schenkel wirkenden Kraft, zum Beispiel Bewegung, 20 wie folgt ausdrucken:
wobei T die Transposition der Matrix darstellt. Es ist die Zeitabhängigkeit des Gelenkwinkels u(t) derart zu bestimmen, daß die Position und die Richtung x(t) xd(t) folgt, um die Bewegungssteuerung durchzuführen Fig. 7(a)).
Für die Steuerung des Roboter-Manipulators ist jedoch die Bestimmung eines Modells mit vollkommener Genauigkeit aufgrund der Nichtlinearität der dynamischen Kennlinien und der Unbestimmtheit der Parameter sowie aufgrund der Nichtlinearität zwischen dem Betätigungsraum und dem Gelenkraum etc. beinahe unmöglich. Folglich ist es notwendig, zunächst die dynamischen Kennlinien des Systems mit Hilfe des neuralen Netzwerks zu bestimmen. Daher ist der dynamische Prozeß des neuralen Netzwerks mit der Abhängigkeit wie folgt definiert: wobei τ eine Zeitkonstante ist und θ die Schwellenfunktion darstellt. Ferner wird u in die Eingangsschicht eingegeben, und für die Ausgangsschicht ist es eine Komponente von xi(L) = x. Die Synapsenkopplung Wij(l) ist zeitabhängig oder konstant.
Sobald das neurale Schaltungsnetzwerk gelernt hat und das Lernen abgeschlossen ist, stellt Fig. 7(b) eine einfache Mitkopplungssteuerung dar. Dies bedeutet, daß, solange der Ausgang des Roboter-Manipulators von der Zielbahn xd(t) abweicht, uT unter Anwendung der Steuerregel des Gelenkdrehmoments in Abhängigkeit von der Differenz x-xd(t) berechnet wird. Ferner wird das Gelenkdrehmoment uN aus dem Eingang xd(t) zum neuralen Netzwerk berechnet, das noch nicht gelernt hat, und u = uTLuN wird in den Manipulator als externe Kraft eingegeben. Ist das Lernen vollständig abgeschlossen, wo wird aufgrund der Tatsache, daß u = uN (uT = 0) gilt, das Drehmoment uN vom neuralen Netzwerk direkt in den Manipulator eingegeben, und der Prozeß schreitet, ausgehend von der Rückkopplungs steuerung, zur Mittkopplungssteuerung.
Das Lernen im neuralen Netzwerk findet wie folgt statt. Wie beim Rückwärtsausbreitungsverfahren wird durch eines der Verfahren die Synapsenkopplung derart bestimmt, daß der Fehler minimiert wird, der wie folgt ausgedruckt ist:
Dies bedeutet, daß sich die Synapsenkopplung im Laufe der Zeit unter Anwendung der folgenden Formel ändert:
Bei einem anderen Verfahren ist das von Balakrishnan in der Optimalsteuerungstheorie vorgeschlagene &epsi;-Verfahren anwendbar. Dies bedeutet, daß dasjenige u zu bestimmen ist, das minimiert. Für die Eingangsschicht (l = 2) wird jedoch hierzu u addiert. Ein neurales Netzwerk, das dieses Problem löst, wird im folgenden Abschnitt als Problem der allgemeinen Optimalsteuerungstheorie genau beschrieben.

2.2 Optimalsteuerungsproblem

Es wird eine nützliche Anwendung des oben beschriebenen Verfahrens auf das Optimalsteuerungsproblem betrachtet, wobei der Großteil der Parallelverarbeitungsleistung des neuralen Netzwerks realisiert wird. Da das Optimalsteuerungsproblem generell als Minimie rung (Maximierung) einer bestimmten Auswertungsfunktion beschreibbar ist, läßt sich dieses Verfahren auf zahlreiche Probleme anwenden. Hier wird beispielhaft dargestellt, daß dieses Verfahren auf das von Balakrishnun vorgeschlagene &epsi;-Verfahren anwendbar ist.
Es wird davon ausgegangen, daß der dynamische Prozeß des Gegenstandssystems der folgenden Differentialgleichung folgt:
wobei x(t&sub0;) = x&sup0; gilt
und x(t) eine Zustandsvariable zu einem Zeitpunkt t, f eine gegebene Funktion, u(t) eine Prozeßvariable zu einem Zeitpunkt t und x&sup0; den Wert von x zum Anfangszeitpunkt t&sup0; darstellt. Hier wird die Minimierung von
betrachtet, wobei y eine gegebene Funktion darstellt und t&sub1; den Endzeitpunkt angibt. Das Problem besteht im Bestimmen der Prozeßvariablen u(t) und der Zustandsvariablen x(t), die die Auswertungsfünktion für ein dem oben beschriebenen dynamischen Prozeß folgendes System minimieren.
Durch das &epsi;-Verfahren wird das oben dargelegte Problem als Minimierungsproblem formuliert:
wobei ---- die Norm in einem geeigneten Raum darstellt. Nun ist bewiesen, daß, unter der Annahme, daß das innere Produkt (x, f) ≤ c (1 + x ²) lautet, wobei c eine Konstante ist, die Lösung, die E durch &epsi; T 0 minimiert, zur Lösung des Anfangsproblems konvergiert.
Um die Variablen, wie x, u etc., mit zweiwertigen Variablen Xi, Ui etc. auszudrükken, wird eine durch beschriebene Transformation durchgefülrrt, wobei Xi(0) = ±1, Ui = ±1 gilt. E ist also gegeben durch:
Wird die Zeit in Form einer Zeitmasche unterteilt, und drückt jedes Elemente Xi bzw. Vi aus, um die Abbildung auf das neurale Netzwerk durchzuführen, so wird ein in Fig. 8 dargestelltes Schema erhalten. Jede der Schichten stellt Xi und Vi zu einem gleichen Zeitpunkt dar, und die Kopplung zwischen verschiedenen Schichten ist abhängig vom gegebenen Problem und von der Struktur von fund g.
Für den Vergleich wurden unter Verwendung von 3 verschiedenen Arten von Plänen, die unten angegeben sind, die Minimalwerte der durch Gl. (92) definierten Funktion erhalten.
Die Anzahl der Monte-Carlo-Simulationen ist durch die Bezeichnung t dargestellt. Der größte Wert tmax von t betrug 1000. Ferner betrug für den Vergleich der kleinste Wert von Topt nicht 0, sondern er wurde auf 1/log(tmax+1) gesetzt, was den Wert von T gemäß (A) bei tmax darstellte. Fig. 13 stellt Simulationsergebnisse dar. Durch die Verfahren des Standes der Technik gemäß (A) wurde die Simulation für T&sub0; = 1,0 und 4,0 durchgeführt. Obwohl sie etwas unterschiedliche Werte zum Anfangszeitpunkt aufweisen, ergeben beide einen beinahe gleichen Wert E/N = -0,63 als Kosten bei tmax. Gemäß (C) war es jedoch möglich, Kosten von -0,90 zu erhalten, was deutlich unterhalb der durch andere Verfahren erhaltenen Kosten liegt. Obwohl davon ausgegangen wird, daß die niedrigen Kosten durch das Verfahren von (C) einfach durch Erhöhen der Temperatur erhalten wurden, ist die Situation jedoch völlig anders. Um dies zu beobachten, wurde die Simulation durch (B) bei einer hohen Temperatur T(t) = 5,0 durchgeführt. Infolge von signifikantem Rauschen wurde ein Ergebnis erhalten, das schlechter war als das durch das Verfahren des Standes der Technik erhaltene Ergebnis.

GEWERBLICHE VERWERTBARKEIT

Erfindungsgemaß läßt sich die folgende Wirkung erzielen.
Die Rechengeschwindigkeit bei Problemen der Erkennung von Bildern, Ton etc., Bewegungssteuerung, zeitabhängigen umfangreichen Zahlenrechnungen, die mittels eines Computers des Standes der Technik schwer zu lösen waren, läßt sich durch Einbeziehen einer inneren Struktur, die auf der physiologischen Kenntnis eines lebenden Körpers beruht bzw. sich an diese anlehnt, und durch ein neurales Netzwerk, dessen Grundprinzip in der parallelen zusammenwirkenden und konkurrierenden Aktion von Gruppen neuraler Elemente besteht, erhöhen.

BESCHRIFTUNG DER ZEICHNUNGEN

Fig. 1

1 Ausgangsinformationen zu anderen Neuronen
2 baumartiger Vorsprung
3 Eingangsinformationen von anderen Neuronen
4 Axon
5 Meningoscheide
6 Zellkörper
7 Synapse
11 Gehirn im lebenden Körper
12 neurales Netzwerk

Fig. 2

1 Zielinformationen
2 Eingangsinformationen
21 Schaltungsnetzwerk zum Extrahieren von Merkmalen
22 Schaltungsnetzwerk zum Vereinheitlichen von Merkmalen
23 Speicherschaltungsnetzwerk
24 Lernfünktion

Fig. 3

1 Orientierung (Grad)
2 Distanz von der Oberfläche, gemessen längs Elektroden-Einführungsweg (mm)
3 Oberfläche
4 weißer Stoff
5 Modulstruktür im VI-Feld

Fig. 4

1 Beginn
2 Ende
3 konvergent
4 nicht konvergent
414 von Schaltungsnetzwerk zum Extrahieren von Merkmalen
437 Multiplikations- und Additionsoperator
438 Vergleicher
441 Berechnen der Quadratwurzel der Kopplungskonstanten W
442 Setzen des Anfangswerts der kontinuierlichen Variablen Zi (i=1, 2, ..., N)
443 Bestimmen des Zustands Xi des neuralen Elements i mittels Formel (18)
444 Berechnen von Zi, das die durch Gl. (17) ausgedrückte Kernfunktion bei Verwendung des obigen Xi am grössten macht, z.B.durch Monte-Carlo-Verfahren.
445 Konvergenzbeurteilung

Fig. 5

1 baumartiger Vorsprung
2 Synapse
3 Zelle
4 Kugel mit Durchmesser L
5 Beginn
6 Ende
7 konvergent
8 nicht konvergent
9 Kurzzeit-Speicher
10 Langzeit-Speicher
11 Reproduktionsverhältnis
12 Reihenposition
13 Reihenpositionskurve
14 Synapsenkopplung Wij
516 Lehrermuster
515 Ausgangsmuster
519 Modifikation der Synapsenkopplung
518 Lernfünktion
514 Eingangsmuster
522 Azhhl der Synapsen, an denen degenerative Anschlüsse befestigt sind
521, 524 Durchmesser des baumartigen Vorsprungs R
523 Distanz von der Mitte der Zelle X
538 Anzahl der an der Oberfläche befestigten Synapsen
541 Anzahl der Verzweigungen
542 übertragbare Informationsmenge
551 Setzen von Anfangswerten für Zustände von Elementen fi(l) und Synapsenkopplungen Wij(l)
552 Berechnen von Zuständen von Elementen fi(l) von der unteren Schicht gemäß Formeln (19) bzw. (17)
553 Die Struktur der Synapsenkopplungen wird gemäss einer bestimmten Anzahl von Verzweigungen bestimmt, und für diese werden die Synapsenkopplungskonstanten derart korrigiert, daß Formel (32) minimiert wird.

Fig. 6

1 Eingangsinformation
613 Speicherschaltungsnetzwerk
612 Schaltungsnetzwerk zum Vereinheitlichen von Merkmalen
611 Schaltungsnetzwerk zum Extrahieren von Merkmalen
621 Rahmen 1
622 Rahmen2

Fig. 7

1 Gelenkwinkelvektor-Gleichung
2 Vektorgleichung der Position und Richtung des Schenkels
3, 5 Steuerregel des Gelenkdrehmoments
4 Roboter-Manipulator
6 neurales Schaltungsnetzwerk

Fig. 8

1 Zeit

Claims

1. Verfahren zur Erkennungsverarbeitung durch Einführen von neuralen Netzwerkstrukturen, die auf der physiologischen Kenntnis des lebenden Körpers beruhen oder aufgrund einer derartigen Kenntnis angenommen sind und parallele und kohkurrierende Aktionen von Gruppen neuraler Elemente als grundsätzliches Lernprinzip gestatten, bestehend aus folgenden Schritten:

(a) Extrahieren von Merkmalen, wobei aus zusammengesetzten Informationseinheiten (wie etwa Bildern) primitive Merkmale (wie etwa Linien, Kanten oder ebene Figuren) extrahiert werden,

(b) Vereinheitlichen von Merkmalen, wobei die extrahierten Merkmale in einem Lernschritt zu Informationseinheiten einer höheren Ordnung vereinheitlicht werden, die den Erkennungsprozeß dadurch gestatten, daß neu hinzugekommene zusammengesetzte Informationseinheiten mit bereits erlernten zusammengesetzten Informationseinheiten abgestimmt werden und

(c) Speichern, wobei die Informationseinheiten höherer Ordnung gespeichert werden,

wobei zum Schritt (a) des Extrahierens von Merkmalen folgende Teilschritte gehören:

(a1) es wird der Zustand fl(r) von neuralen Elementen (331) an einer zweidimensionalen Position r = (x, y) auf einer Schicht l (332) eines neuralen Netzwerks in Abhängigkeit von einer vom Benutzer definierbaren nicht-linearen Funktion F definiert, die die Kopplungsstärke (333) zwischen Elementen des neuralen Netzwerks mit linearen und nicht-linearen Ausgängen und zusätzlichem Rauschen ξl als

ausdrückt,

(a2) der Mittelwert des Zustands einer Gruppe von in einer unteren Schicht angeordneten neuralen Elementen wird gemäß

an eine obere Schicht weitergegeben,

(a3) aus der im Teilschritt (a1) angegebenen Gleichung wird eine Differentialgleichung

für die sogenannte Fokker-Planck-Wahrscheinlichkeit abgeleitet, wobei Pl(fl(r)) die Wahrscheinlichkeit angibt, daß der Zustand neuraler Elemente an einer Position r auf einer Schicht l gleich fl(r) ist, und wobei sich die stationäre Lösung dieser Gleichung für den Fall, daß l sehr groß ist, mit

wiedergeben läßt, wobei Tl-1 eine positive Konstante und die Energie H({fl-1}) die Kopplungsbeziehung zwischen neuralen Elementen in der Schicht l-1 wiedergibt und sich unter Verwendung von Fourier-Komponenten Fl-1(q) der Gleichung

ausdrücken läßt, in der q = - rl-1 die das Maximum der Wahrscheinlichkeit angebende Fourier-Frequenz ist,

(a4) bezüglich der Frequenzkomponenten der Fourier-transformierten Energie H und der besagten stationären Lösung werden die Merkmale der zusammengesetzten Informationseinheit gleichzeitig mit dem Schritt (a2) hierarchisch nacheinander extrahiert und

(a5) für die Merkmalsweitergabe unnötiges Rauschen wird eliminiert, wodurch die Wahrscheinlichkeit der Kopplungsstärke zwischen benachbarten neuralen Elementen invariant gehalten wird,

wobei zu dem Schritt (b) der Vereinheitlichung von Merkmalen folgende Teilschritte gehören:

(b1) es wird ein neurales Netzwerk mit mehreren Schichten (411, 412, 413) angeordnet, deren jede aus neuralen Elementen (415, 416, 417) besteht,

(b2) entsprechend einer vorbestimmten gegebenen Intention werden

die neuralen Elemente innerhalb einer Schicht und auch neurale Elemente unterer Schichten mit neuralen Elementen der nächst-höheren Schicht gekoppelt und

in Abhängigkeit vom Grad der Beziehung innerhalb jeder Schicht oder zwischen unterschiedlichen Schichten wird die jeweilige Elementkopplung dann, wenn die Relation benachbarter Merkmale zur Synthese zusammengesetzter Merkmale einer höheren Konzeptordnung positiv beitragt, ein positiver Kopplungswert (418) und im entgegengesetzten Fall ein negativer Wert (419) zugeordnet, und

(b3) die im Schritt (a) extrahierten elementaren Merkmale werden an neurale Elemente der Eingangsschicht (413) geleitet, wodurch ein Vorgang der Merkmals- Vereinheitlichung durch gleichzeitige und konkurrierende Aktionen in individuellen neuralen Elementen ausgeführt wird, und

wobei zu dem Schritt (c) des Speicherns folgende Teilschritte gehören:

(c1) Informationseinheiten höherer Ordnung werden durch Codierung als Wert neuraler Elementkopplung über lange Zeit gespeichert,

(c2) während des Schritts (b) erlernte Informationseinheiten höherer Ordnung werden gespeichert,

(c3) die neuralen Elemente in der Eingangsschicht werden entsprechend den Informationseinheiten höherer Ordnung gekoppelt,

(c4) die neuralen Elemente in den Zwischenschichten werden dazu veranlaßt, über die neuralen Elemente, deren Kopplungsstärke bereits erlernt worden ist, Informationen zu übertragen, und

(c5) die Kopplungsstärke des neuralen Netzwerks wird in Abhängigkeit von der Differenz zwischen den ermittelten Ausgangswerten aus der Ausgangsschicht und ihren Ausgangs-Sollwerten modifiziert.

2. Verfahren nach Anspruch 1, wobei der Schritt (b) der Merkmals-Vereinheitlichung aus einer Verarbeitung besteht, durch die ein Problem der Minimierung der Energie, bestehend aus einem Produkt der Synapsenkopplung (Wij) und einem Ausdruck zweiter Ordnung des Zustands (xixj) der Elemente sowie einem Produkt aus einem Schwellenwert (θ) und dem Zustand (xi) der Elemente gelöst wird, wobei die Elemente eine Funktion aufweisen, gemäß der, falls sämtliche in ein markiertes neurales Element (i) eingegebenen Informationen

größer sind als der Schwellenwert (θ), das Element gezündet ist bzw., falls sie kleiner sind, sich in einem Pause-Zustand befindet.

3. Verfahren nach Anspruch 2, wobei zur Lösung des Problems der Energieminimierung eine von einem hypothetischen neuralen Netzwerk (436) ausgeführte Verarbeitung gehört, bei der die Synapsenkopplung konstant ist und der Schwellenwert von der Quadratwurzel (W1/2) der ursprünglichen Synapsenkopplung (433) abhängt, wobei eine einen kontinuierlichen Wert (zj) annehmende neue Variable (434) eingeführt und eine neue Energie, die aus einem Ausdruck zweiter Ordnung dieser neuen Variablen und einem Produkt aus dieser neuen Variablen, der Quadratwurzel der Synapsenkopplung und dem ursprünglichen Zustand von Elementen betaeht, als

abgeleitet wird.

4. Verfahren nach Anspruch 1, wobei der Schritt (c) des Speicherns mittels einer Einrichtung erfolgt, die Speicher mit unterschiedlichen, einem Langzeitspeicher (574) und einem Kurzzeitspeicher (575) entsprechenden, jeweils psychologisch realisierten Mechanismen darstellt.

5. Verfahren nach Anspruch 4, wobei die Langzeit-Speicherverarbeitung unter Verwendung einer Einrichtung ausgeführt wird, die auf einer aus statistischen, experiinentellen physiologischen Tatsachen angenommenen Synapse-Kopplungsstruktur beruht, wozu die Abhängigkeit vom Durchmesser (R 524) des baumförmigen Vorsprungs an der Distanz (X 523) vom Mittelpunkt des Zellenkörpers als cerebrale physiologische Kenntnis sowie die Abhängigkeit der Anzahl (522) von an dem baumförmigen Vorsprung befestigten Synapsen vom Durchmesser (R 524) des baumförmigen Vorsprungs an der Befestigungsstelle gehören.

6. Verfahren nach Anspruch 5, wobei die Synapse-Kopplungsstruktur so bestimmt wird, daß die Informationsmenge (542), die sich durch die Kopplung zwischen einem vorgegebenen neuralen Element und den am nächsten benachbarten Elementen übertragen läßt, sukzessive derart abnimmt, daß der Betrag der Kopplung zwischen dem vorgegebenen neuralen Element und einem zweiten benachbarten Element 1/2 der Menge der vorhergehenden Information, der Kopplungsbetrag zwischen dem vorgegebenen neuralen Element und einem dritten benachbarten Element 1/4 der Menge der vorhergehenden Information usw. beträgt, und zwar auf der Basis des Optimierungsprinzips, gemäß dem die Summe des Energiebeadarfs für die Übertragung von Information über als Informations-Übertragungsmittel dienenden Axonen und der von den Axonen beanspruchte Raum minimiert wird.

7. Verfahren nach Anspruch 4, wobei zur Bestimmung geeigneter Werte (Wij(l)) für die Synapsen die Langzeit-Speicherverarbeitung dadurch ausgeführt wird,

daß die Synapsenkopplung zwischen der Eingangsschicht (l = 1) des neuralen Netzwerks und der nächst-höheren Schicht durch ein Produkt aus der Eingangsinformation (514) und einer Zufallsvariablen L; die Synapsenkopplung zwischen der Ausgangsschicht (l = L) und der nächst-niedrigeren Schicht (l = L-1) durch ein Produkt aus der Ausgangsinformation und einer Zufallsvariablen; und die Synapsenkopplung zwischen den übrigen Schichten durch ein Produkt aus zwei Arten von unabhängigen Zufallsvariablen als

ausgedrückt wird, oder

daß die Synapsenkopplungen aus zwei Arten von Zufallsvariablen erzeugt und diejenigen Zufallsvariablen für die Synapsenkopplung der untersten Schicht, ausgehend von der mit der mit der Ausgangsschicht gekoppelten Synapse, nacheinander derart bestimmt werden, daß die Differenz zwischen der Ausgangsinformation und der Zielinformation abnimmt.

8. Verfahren nach Anspruch 4, wobei die Kurzzeit-Speicherverarbeitung mittels Einrichtungen erfolgt, die bewirken, daß der Speicher den Minimalwerten der Energie für das neurale Netzwerk oder stationären Zuständen von aus dieser Energie abgeleiteten dynamischen Gleichungen entspricht.

9. Verfahren nach Anspruch 8, wobei zu der Kurzzeit-Speicherverarbeitung eine Verarbeitung zum Erhellen von psychologischen Tatsachen gehört, die durch Vorgabe von Zufallswerten für sämtliche Synapsenkopplungen bewirkt, daß stationäre Zustände der dynamischen Gleichungen auftreten, und die eine Erhöhung der Anzahl an stationären Zuständen (5103) auf eine bestimmte endliche Anzahl ermöglicht, indem die Anzahl von mit den neuralen Elementen gekoppelten Synapsenkopplungen erhöht wird, wobei der Zustand (5104) chaotisch ist, wenn sich keine stabilen Zustände realisieren lassen, obwohl die Anzahl an Kopplungen über die endliche Zahl hinaus erhöht wird.

10. Verfahren nach Anspruch 2, wobei die Lösung des Problems der Energieminimierung aus einer anfänglichen visuellen Wahrnungsverarbeitung, wie etwa der Erkennung der Bewegungsrichtung, Erkennung der Tiefe usw., sowie einer Verarbeitung zur Minimierung der Summe aus der Energie besteht, die auf einem System von Gleichungen, die aus der Tatsache, daß die Helligkeit des Bildes bezüglich der Bewegung usw. unverändert gehalten wird, spontan abgeleitet werden, und der Energie aufgrund von von Anfang an bestehenden Grenzbedingungen für die eindeutige Bestimmung der Lösung beruht.

11. Verfahren nach Anspruch 1, wobei zur Bewegungssteuerung, wie etwa der Steuerung eines Roboter-Manipulators mit Hilfe des neuralen Netzwerks, zu dem Zweck, einen Gegenstand so zu steuern, daß er einer dynamischen Gleichung folgt, die strukturell so bestimmt ist, daß ihre Bahn einer Zielbahn folgt, zunächst ein neurales Netzwerk zur Identifikation des Verhaltens des Gegenstands neu konstruiert und der Gegenstand mit Hilfe des neuralen Netzwerks zu dem Zeitpunkt gesteuert wird, zu dem der Ausgang des neuralen Netzwerks gleich dem Ausgang des Gegenstands ist.

12. Verfahren nach Anspruch 2, wobei die Lösung des Problems der Energieminimierung in einer Verarbeitung besteht, gemäß der

die Methode der negativen Lösung für die endlichen Zeitdifferenzen benutzt wird, für die die Stabilität der Lösung nicht-stationärer partieller Differentialgleichungen gesichert ist;

die endliche Differenzierung nach dem Raum unter Verwendung der Methode der endlichen Differenz und der endlichen Elemente effolgt;

den das neurale Netzwerk bildenden neuralen Elementen endlich differenzierte Variable zugeordnet werden; und

die aus den Gleichungen abgeleitete Mirmierung der Energie durch ein Netzwerk ausgeführt wird, das entsprechend der endlichen Zeitdifferenz mehrfach geschichtet ist.