DE69216077T2

DE69216077T2 - Praediktives selbst-organisierendes neuronales netzwerk

Info

Publication number: DE69216077T2
Application number: DE69216077T
Authority: DE
Inventors: Gail Carpenter; Stephen Grossberg; John Reynolds
Original assignee: Boston University
Current assignee: Boston University
Priority date: 1991-01-31
Filing date: 1992-01-30
Publication date: 1997-05-22
Anticipated expiration: 2012-01-31
Also published as: EP0569549A1; US5214715A; WO1992014200A1; DE69216077D1; EP0569549B1

Description

Hintergrund der Erfindung

Adaptive Resonanzarchitekturen sind neuronale Netzwerke, die in Echtzeit eigenständig stabile Erkennungskategorien als Antwort auf beliebige Folgen von Eingangsmustern organisieren. Die Grundprinzipien der adaptiven Resonanztheorie (ART) wurden von Grossberg in "Adaptive pattern classification and universal recording, II:Feedback, expectation, olfaction, and illusions.", Bioiogical Cybernetics, 23 (1976) Seite 187-202 vorgestellt. Eine Klasse von adaptiven Resonanzarchitekturen wurde seitdem als ein System von gewöhnlichen Differentialgleichungen durch Carpenter und Grossberg in "Category learning and adaptive pattern recognition: A neural network model, Procedings of the Third Army Conference on Applied Mathematics and Computing", ARO Report 86-1 (1985) Seite 37-56, und in "A massevely parallel archtitecture for a self-organizing neural pattern recognition machine.", Computer Vision, Graphics, and Image Processing, 37 (1987) Seite 54-115 charakterisiert. Eine Implementierung eines ART-Systems wird in der US-Anmeldung Ser. No. PCT/US86/02553, angemeldet am 26. Nov. 1986 von Carpenter und Grossberg, für ein "Mustererkennungssystem" vorgestellt. Ein als ART 2 bekanntes Netzwerk wird im US-Patent 4,914,708 von Carpenter und Grossberg dargelegt. Ein weiteres als ART 3 bekanntes Netzwerk wurde in der US-Patentanmeldung Nummer 07/464,247, angemeldet von Carpenter und Grossberg am 12 Januar 1990, vorgestellt.
Wie in Fig. 1 gezeigt ist, kodieren ART-Netzwerke zum Teil neue, bei 20 empfangene Eingangsmuster durch Veränderung der Gewichtungen oder der Spurfolgen des Langzeitspeichers (LTM) eines adaptiven bottom-up Filters 22. Dieses Filter ist in Pfaden eingebettet, die von einem Kennzeichendarstellungfeld (F&sub1;) zu einem Kategoriedarstellungsfeld (F&sub2;) des Kurzzeitspeichers führen. Im allgemeinen enthalten die Felder des Kurzzeitspeichers (STM) relativ zu jedem Eingangsmuster neue Muster. Der Langzeitspeicher andererseits definiert Muster, die von einigen der Eingangsmuster gelernt wurden, das heißt über eine relativ lange Zeitdauer. Diese bottom-up Filtereigenschaft wird mit vielen anderen Modellen der adaptiven Mustererkennung und des assoziativen Lernens geteilt. In einem ART-Netzwerk ist es jedoch ein zweites adaptives bottom-up Filter 24, das zu der bedeutenden Eigenschaft der Selbststabilisierung führt. Die bottom-up Eingabe für F&sub1; bildet ein Überlagerungsmuster und ermöglichen es dem Netzwerk, eine Überwachungsaktivierung, Musteranpassung und selbstjustierende Parallelsuche durchzuführen.
Die Felder F&sub1; und F&sub2; wie auch die adaptiven bottom-up und die top-down Filter sind innerhalb des Warnuntersystems des ART enthalten. Ein Hilfsorientierungsuntersystem 26 wird aktiv, wenn ein bottom-up Eingabe für F&sub1; nicht zu der gelernten top-down Überlagerung des Filters 24 paßt, die zu der aktiven Kategoriedarstellung bei F&sub2; gehört. In diesem Fall setzt das Orientierungsuntersystem die aktive Kategoriedarstellung schnell zurück. Dieses Rücksetzen bringt automatisch das Warnuntersystem dazu, mit einer parallelen Suche fortzufahren. Alternative Kategorien werden getestet, bis entweder eine passende Übereinstimmung gefunden wurde oder eine neue Kategorie eingeführt wurde. Die Suche bleibt wirkungsvoll, da die Suchstrategie durch das Filter 22 mittels des Lernprozesses adaptiv auf den neuesten Stand gebracht wird. Die Suche fährt im Vergleich zu der Lemrate schnell voran. Daher treten signifikante Veränderungen in den adaptiven bottom-up und top-down Filtern nur auf, wenn eine Suche endet und ein passendes F&sub1; Muster innerhalb des Systems in Resonanz gerät. Das System führt während vieler Eingabeversuche eine Suche durch. Danach wird jedoch der Suchmechanismus automatisch deaktiviert, wobei jede Eingabe direkten Zugriff auf seine Kategoriedarstellung hat.
Prinzipiell könnte jede neue Eingabe zu jeder Zeit eine neue Kategorie bilden: Bildsamkeit, oder die Fähigkeit für Veränderungen im LTM (Langzeitspeicher), bleibt unbestimmt intakt erhalten. Falls zu irgendeinem Zeitpunkt zum Beispiel eine neue Eingabe zu dem vorherigen gelernten Satz hinzugefügt wird, würde das System die eingeführten Kategorien suchen. Falls eine passende Übereinstimmung gefunden wurde, würde, falls notwendig, die LTM-Kategoriedarstellung neu definiert werden, um das neue Muster einzuarbeiten. Falls keine Übereinstimmung gefunden wurde, würde eine neue Kategorie gebildet, wobei zuvor unbestimmte LTM-Spuren das STM-Muster, welches durch den Eingabe eingeführt wurde, kodieren. Nichtsdestotrotz neigt der Code dazu sich zu stabilisieren, wenn die Kategoriestruktur zunehmend komplex wird, da dann jedes neue Muster mit zunehmender Wahrscheinlichkeit in eine eingeführte Kategorie paßt.
Das Kriterium für eine passende Übereinstimmung zwischen einem Eingangsmuster und einer gewählten Kategorieüberlagerung ist einstellbar. Das Übereinstimmungskriterium wird durch einen Überwachungsparameter bestimmt, der die Aktivierung des Orientierungsuntersystems steuert. Alle anderen Dinge mit gleicher, höherer Überwachung bringen ein strengeres Übereinstimmungskriterium mit sich, was wiederum den Eingang in feinere Kategorien aufteilt. Niedrige Überwachung toleriert größere top-down/ bottom-up Fehlübereinstimmung bei F&sub1;, was wiederum zu gröberen Kategorien führt. Zusätzlich ist bei jedem Überwachungspegel das Übereinstimmungskriterium selbstskalierend: eine kleine Fehlübereinstimmung kann toleriert werden, wenn das Eingangsmuster komplex ist, während die selbe kennzeichnende Fehlübereinstimmung eine Zurücksetzen auslösen würde, wenn das Eingangsignal nur ein paar Kennzeichen aufweist.
Das Orientierungsuntersystem ist eines der Mittel, durch welches ein ART-Netzwerk die aktive Regelung des Lernvorganges durchführt. Die Überwachungsverstärkungssteuerungen 28 und 30 bei F&sub1; und F&sub2; tragen ebenfalls zu dieser aktiven Regelung bei. Die Verstärkungssteuerung arbeitet, um die Empfindlichkeit für übereinstimmende Eingaben überalles einzustellen und die getrennten, synchronen Funktionen des ART-Systems zu koordinieren.
Es wird insbesondere auf den Artikel von Gail A. Carpenter (1989) Kapitel 23, Figur 18 Bezug genommen, welcher zwei gepaarte ART-Systeme offenbart, die durch einen Assoziativspeicher verbunden sind. Es gibt einen assoziativen Musterabruf von jedem ART-System zum anderen.
In diesem Dokument wurde kein Versuch unternommen, der Steuerung die Auswahl einer ersten Kennzeichendarstellung aus einer zweiten Darstellung zu erlauben. Es ist eine Aufgabe der vorliegenden Erfindung, es zu ermöglichen, diese Steuerung zu erzielen.
Die vorliegende Erfindung erlaubt es für die Assoziierung eines ersten Kennzeichendarstellungeingangsmusters, wie zum Beispiel der visuellen Darstellung eines Objekts, mit einer vorherbestimmten Bedeutung, wie zum Beispiel Geschmack. In dem offenbarten und beanspruchten System wird ein erstes Mustererkennungsuntersystem mit dem ersten Kennzeichendarstellung assoziiert und ein zweites Untersystem wird mit der vorherbestimmten Bedeutung assoziiert. Dennoch, um Verwirrung mit den ersten und zweiten Mustern in der Zeit zu verhindern, werden die ersten und zweiten Untersysteme und ihre Komponenten und Muster besser durch die Buchstaben A und B (und a und b) als durch die Begriffe erste und zweite gekennzeichnet.
In Übereinstimmung mit der vorliegenden Erfindung wird eine A-Kategoriedarstellung durch ein Mustererkennungsuntersystem, wie zum Beispiel einem ART-System, aus einer Kennzeichendarstellung ausgewählt. Die A-Kategoriedarstellung ist mit einer vorherbestimmten B-Kategoriedarstellung assoziiert. Bei einer ungenügenden Übereinstimmung zwischen einer vorhergesagten B- Kategoriedarstellung und einer Kontroll-B-Kategoriedarstellung wird das A-Mustererkennungsuntersystem zurückgesetzt, um eine andere A-Kategoriedarstellung auszuwählen. Vorzugsweise wird die Kontroll-B-Kategoriedarstellung von einer B-Kennzeichendarstellung mittels eines B-Mustererkennungssystems, wie zum Beispiel einem ART-System, definiert. Die vorherbestimmte B-Kategoriedarstellung kann dann die zweite Kennzeichenwiedergabe vorhersagen.
In Übereinstimmung mit bestimmten Kennzeichen der vorliegenden Erfindung weist das A-Mustererkennungssystem ein Kennzeichendarstellungfeld (F&sub1;) auf, welches Eingangsignale empfängt, die ein Eingangsmuster und Überlagerungssignale definiert.
Die A-Kategoriedarstellung in einem A-Kategoriedarstellungsfeld (F&sub2;) wird, basierend auf einem Muster, aus dem Kennzeichendarstellungfeld ausgewählt. Die Überlagerungssignale werden basierend auf der ausgewählten A-Kategoriedarstellung erzeugt. Bei einer ausreichenden Übereinstimmung zwischen den Überlagerungssignalen und den Eingangsignalen, werden die Überlagerungssignale an die Eingangsignale angepaßt. Bei einer ungenügenden Übereinstimmung wird die A-Kategoriedarstellungsauswahl zurückgesetzt. Vorzugsweise definiert ein ähnliches Mustererkennungsuntersystem, welches auf einen anderen Satz von Eingangsmustern anspricht, die Kontroll-B-Kategoriedarstellung.
Das Zurücksetzen der A-Kategoriedarstellung kann anfänglich auf einer ersten Stufe der Übereinstimmungsüberwachung gestützt werden, und diese Übereinstimmungsüberwachung kann bei einer fehlerhaften Übereinstimmung der vorhergesagten und der Kontroll-B-Kategoriedarstellung erhöht werden. Die Überwachung wird erhöht, um das Zurücksetzen der A-Kategoriedarstellungsauswahl zu bewirken, und die erhöhte Überwachung wird beibehalten, wobei die nachfolgende Auswahl einer A-Kategoriedarstellung als Eingabe für das Kennzeichendarstellungsfeld aufrechterhalten bleibt. Durch Erhöhung der Überwachung auf eine minimale Stufe, die notwendig ist, um die A-Kategoriedarstellung zurückzusetzen, werden anhaltende Fehler vermieden, während die Verallgemeinerung von Kategorien maximiert wird.
Vorhergesagte B-Kategoriedarstellungen und Kontroll-B-Kategoriedarstellungen sind vorzugsweise durch ein Eintragungsfeld assoziiert. Eine Eins-zu-Eins-Korrespondenz wird zwischen den Knoten des Eintragungsfelds und den Knoten eines B-Kategoriedarstellungfelds aufrechterhalten. Adaptive Eintragung wird von den Knoten eines A-Kategoriedarstellungsfelds zu den Knoten des Eintragungsfelds aufrecht erhalten. Die vorhergesagte B-Kategoriedarstellung, die zu der ausgewählten A-Kategoriedarstellung assoziiert ist, kann als die Kontroll-B-Kategoriedarstellung gelernt werden, die durch das B-Mustererkennungsuntersystem ausgewählt wurde. Im Betrieb können eine oder beide der Mustererkennungssysteme eine Eingabe empfangen und jede Eingabe kann der anderen folgen. Dort wo ein A-Eingangsmuster vor einem B-Eingangsmuster empfangen wurde, kann die vorhergesagte B-Kategoriedarstellung, die mit der ausgewählten A-Kategoriedarstellung assoziiert ist, das B-Mustererkennungssystem vorbereiten. Das B-Untersystem würde dann anfänglich die B-Kategoriedarstellung als die Kontroll-B-Kategoriedarstellung auswählen, wodurch bei einer fehlerhaften Übereinstimmung in dem B-Kennzeichendarstellungsfeld ein Zurücksetzen bewirkt wird.
Im Normalbetrieb werden A und B Eingaben den jeweiligen Mustererkennungsuntersystemen zugeführt. Jedes Untersystem erlaubt das Suchen, Auswählen und Lernen einer Kategoriedarstellung. Dennoch wird das Lernen in dem A-Untersystem durch das Zurücksetzen bei einer fehlerhaften Übereinstimmung zwischen einer B-Kategoriedarstellung , die durch ein A-Untersystem vorhergesagt wurde, und der aktuellen B-Kategoriedarstellung, die durch das B-Untersystem bestimmt wurde, unterbunden. Bei einem Zurücksetzen des A-Untersystems sucht und wählt dieses erneut aus. Ein Lernen des Untersystems wird nur erlaubt, nachdem eine Übereinstimmung bei der vorliegenden Überwachungsstufe innerhalb des A-Untersystems erhalten wurde und eine Übereinstimmung zwischen den Untersystemen erhalten wurde.
Vorzugsweise weisen die Eingaben für die Kennzeichendarstellungsfelder Vektoren der Kennzeichendarstellungen und Komplemente der Kennzeichendarstellungen auf.
Genauer gesagt lernt ein neues neuronales Netzwerk, ARTMAP genannt, selbständig beliebig viele, beliebig geordnete Vektoren in Erkennungskategorien basierend auf vorhergesagtem Erfolg einzuordnen. Dieses überwachte Lernsystem ist auf ein Paar Adaptiver Resonanztheoriemodule (ARTa und ARTb) aufgebaut, denen selbst organisierende stabile Erkennungskategorien als Antwort auf beliebige Folgen von Eingangsmustern zu eigen sind. Während Trainingsversuchen erhält das ARTa Modul einen Strom {a(p)} von Eingangsmuster, und ARTb erhält einen Strom {b(p)} von Eingangsmustern, wobei b(p) die korrekte Vorhersage gegeben durch a(p) ist. Diese ART-Module sind durch ein assoziatives Lernendes Netzwerk und eine interne Steuerung gekoppelt, die einen selbständigen Systembetrieb in Echtzeit sichert. Während Testversuche wurden die übrigen Muster a(p) ohne b(p) dargestellt, und deren Vorhersagen bei ARTb werden mit b(p) verglichen. Das ARTMAP-System lernte, als es auf einer Benchmark-Maschine mit lernender Datenbank mit beiden on-line und off-line Simulationen getestet wurde, um Größenordnungen schneller, effektiver, und genauer als andere Algorithmen, und erreichte 100% Genauigkeit nach einem Training von weniger als der Hälfte von Eingangsmustern in der Datenbank. Es erreichte diese Eigenschaften mittels einer internen Steuerung, welche in vereinigender Weise die vorhersagende Verallgemeinerung maximiert und die Vorhersagefehler minimiert, durch Verkoppelung des Vorhersageerfolgs mit der Kategoriegröße durch Ausprobieren von lediglich lokalen Operationen. Diese Berechnung erhöht die Überwachungsparameter a des ARTa durch die minimal benötigte Menge, um einen vorhergesagten Fehler bei ARTb zu korrigieren.
Der Parameter a kalibriert die minimale Zuversicht, die ARTa in einer Kategorie oder Hypothese haben muß, welche durch einen Eingabe a(p) aktiviert wurde, damit das ARTa eher diese Kategorie akzeptiert als durch einen automatisch gesteuerten Vorgang des Hypothesentest nach einem besseren zu suchen. Der Parameter a wird mit dem Übereinstimmungsgrad zwischen A(p) und der gelernten top-down Erwartung oder dem Prototyp verglichen, welcher nach der Aktivierung einer ARTa Kategorie ausgelesen wurde. Eine Suche findet statt, wenn der Übereinstimmungsgrad geringer als a ist. Das ARTMAP ist hierbei eine Art von selbst organisierendem Expertensystem, welches die Empfindlichkeit seiner Hypothesen basierend auf dem vorhergesagten Erfolg kalibriert. Demzufolge können seltene aber wichtige Ereignisse schnell und scharf unterschieden werden, selbst wenn sie häufigen Ereignissen mit anderen Ergebnissen ähnlich sind. Zwischen den Eingaben setzen die Versuche a auf eine Basisüberwachung a herab. Wenn a groß ist läuft das System in einem Erhaltungsmodus, bei welchem das System nur dann Vorhersagen macht, wenn es über das Ergebnis sicher ist. Dann treten sehr wenige Fehler aufgrund von Fehlalarmen in irgendeiner Lernstufe auf, da das System eine Asymptote ohne Geschwindigkeitsverlust erreicht. Da das ARTMAP-Lernen selbst stabilisierend ist, kann es fortfahren, eine oder mehr Datenbanken zu lernen, ohne seinen Stammspeicher zu verringern, bis seine volle Speicherkapazität verwendet wird.

Kurze Beschreibung der Zeichnungen

Obige und andere Aufgaben, Kennzeichen und Vorteile der Erfindung werden aus der folgenden genaueren Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung offensichtlich, wie sie in den begleitenden Zeichnungen dargestellt sind, bei denen sich gleiche Bezugszeichen in den verschiedenen Ansichten durchwegs auf gleiche Teile beziehen. Die Zeichnungen sind nicht notwendigerweise im Maßstab. Der Schwerpunkt wurde auf die Darstellung der Prinzipien der Erfindung gelegt.
Figur 1 ist ein Blockdiagramm eines herkömmlichen ART-Systems.
Figur 2 ist ein Blockdiagramm eines Systems, das die vorliegende Erfindung verkörpert.
Figur 3 ist eine detaillierte schematische Darstellung, welche bei den den ARTa und ARTb-Modulen gemäß Figur 2 verwendet werden kann.
Figur 4 ist eine schematische Darstellung des Assoziativspeichers und des F&sub2;-Felds von Figur 2 mit der zugehörigen inneren Steuerung.
Figur 5 ist eine schematische Darstellung des ARTa-Untersystems mit einer internen Steuerung der Überwachungsablaufverfolgung als Antwort auf ein Rücksetzsignal aus Figur 4.

Detaillierte Beschreibung eines bevorzugten Ausführungsbeispiels

Da wir uns frei in der Welt bewegen, können wir beiden, bekannten und neuen, Objekten Aufmerksamkeit schenken und wir können schnell über Testhypothesen lernen, neue Objekte zu erkennen und zu benennen ohne unsere Erinnerungen an bekannte Objekte unselektiv zu unterbrechen. Eine neu selbst organisierende neuronale Netzwerkarchitektur - vorhersagende ART- oder ARTMAP-Architektur genannt - ist fähig, eine schnelle, noch stabile Online-Erkennung zu lernen, eine Hypothese zu testen und adaptiv als Antwort auf einen beliebigen Strom von Eingangsmustern zu benennen.
Die Fähigkeit als Antwort auf einen beliebigen Strom von Eingaben stabil zu lernen wird von einem autonom lernenden Werkzeug verlangt, welches mit unerwarteten Vorgängen in einer nicht kontrollierbaren Umgebung fertig werden muß. Man kann die Fähigkeit des Werkzeugs, Eingangsfolgen zu verarbeiten, nicht einschränken, falls man die Umgebung, in welcher das Werkzeug erfolgreich funktionieren soll, nicht vorhersagen kann. Die menschliche Fähigkeit sich an aufregende Abenteuerfilme lebhaft zu erinnern, ist ein bekanntes Beispiel von schnellem Lernen in einer ungewohnten Umgebung.
Ein erfolgreiches autonomes Werkzeug muß fähig sein, etwas über seltene Ereignisse zu lernen, die wichtige Folgen haben, auch wenn diese seltenen Ereignisse häufigen Ereignissen mit sehr unterschiedliche Folgen ähnlich sind. Der Fortbestand hängt hierbei vom schnellen Lernen in einer nicht stationären Umgebung ab. Viele Lernschemas sind, im Gegensatz dazu, langsame Lernmodelle, die über individuelle Ereignisvorkommnisse mitteln und durch Lerninstabilitäten in einer nicht stationären Umgebung herabgesetzt sind.
Ein effektives Erkennungssystem muß fähig sein "vieles-auf- eins-zu-reduzieren" zu lernen. Zum Beispiel kann jedes der verschiedenen Exemplare eines Zeichensatzes für einen vorgeschriebenen Brief eine einzelne komprimierte Darstellung sein, die als eine visuelle Erkennungskategorie dient. Diese Exemplar-zu- Kategorie-Transformation ist ein Fall eines "vieles-auf-eins- zu-reduzieren"-Lernens. Zusätzlich können viele verschiedene Zeichensätze - einschließlich groß- und kleingeschriebene Zeichensätze und Schriften verschiedener Arten - alle zum gleichen verbalen Namen des Buchstabens führen. Dies ist eine zweite Wahrnehmung, bei welcher das Lernen ein "vieles-auf- eins-zu-reduzieren" sein kann.
Lernen kann ebenso ein "von-einem-auf-vieles" sein, so daß ein einzelnes Objekt viele verschiedene Vorhersagen oder Namen erzeugen kann. Zum Beispiel, wenn man eine Banane betrachtet, kann man diese als ein längliches Objekt, eine Frucht, eine Banane, eine gelbe Banane u.s.w. klassifizieren. Ein flexibles, auf Wissen basierendes System kann es daher benötigen, in seinem Speicher viele Vorhersagen für jedes Objekt darzustellen, um so die beste Vorhersage für jeden unterschiedlichen Zusammenhang, in welchen das Objekt eingebunden ist, zu machen.
Warum kann gerät ein autonomes Erkennungssystem nicht in das Lernen genau der Interpretation eines Objekts gefangen, die die dem System am hervorstechendste Voreinstellung wiedergibt? Ein Faktor ist die Fähigkeit dieses Systems seine Erkennung, sein Testen einer Hypothese und seine Benennungsvorgänge basierend auf seinen Vorhersageerfolg oder Mißerfolg zu reorganisieren.
Zum Beispiel kann eine Person eine visuelle Erkennungskategorie basierend auf dem Betrachten von Bananen verschiedener Farben lernen und diese Kategorie mit einem bestimmten Geschmack assoziieren. Aufgrund der Vielfältigkeit von Farbkennzeichen im Vergleich zu denen von visueller Form, kann diese gelernte Erkennungskategorie Formkennzeichen stärker in Betracht ziehen als Farbkennzeichen. Dennoch kann die Farbe Grün plötzlich und unerwartet ein wichtiger unterscheidender Vorhersagefaktor beim Geschmack einer Banane werden.
Der unterschiedliche Geschmack einer grünen Banane löst das Testen einer Hypothese aus, welches den Fokus der visuellen Aufmerksamkeit so verschiebt, daß den Farbeigenschaften der Banane ein größeres oder auffallenderes Gewicht gegeben wird ohne die Wichtigkeit der anderen Kennzeichen, die die Form einer Banane definieren, zu verneinen. Eine neue visuelle Erkennungskategorie kann sich hierdurch für grüne Bananen bilden und diese Kategorie dazu verwendet werden, den unterschiedlichen Geschmack grüner Bananen genau vorherzusagen. Die neue feinere Kategorie kann sich des weiteren bilden, ohne entweder die zuvor gelernte allgemeine Darstellung von Bananen oder deren Geschmackassoziierung neu zu kodieren.
Zukünftige Darstellungen, die neues Wissen über Bananen beinhalten, können sich ebenso bilden ohne deren Darstellungen zu zerspalten, die dazu verwendet werden, deren verschiedene Geschmäcker vorherzusagen. Auf diese Art stellt die vorhersagende Rückkopplung ein Mittel bereit, bei welchem sich die "von-einem-auf-vieles"-Erkennung und die Vorhersagecodes mit der Zeit mittels Testen einer Hypothese und Aufmerksamkeitsverschiebungen bilden können, die neues Erkennenlernen unterstützen, ohne unselektives Vergessen von vorherigem Wissen zu verstärken.
Die hier beschriebene Architektur bildet einen Teil der Adaptiven Resonanz-Theorie, oder ART, welche 19763,4 vorgestellt wurde, um zu analysieren, wie Netzwerke im Gehirn selbständig in Echtzeit über Veränderungen in der Welt auf schnelle aber stabile Weise lernen können. Seit dieser Zeit ist ART stetig als naturwissenschaftliche Theorie weiterentwickelt worden, um immer größere Datenbanken über kognitive Informationsverarbeitung und seine neuronalen Grundlagens&sup5;&supmin;&sup8; zu erklären und vorherzusagen. Eine parallele Entwicklung ist in einer Reihe von streng gekennzeichneten neuronalen Architekturen - ART 1, ART 2 und ART 3 genannt - mit zunehmend leistungsfähigem Lernen, Mustererkennung und der Fähigkeit, eine Hypothese1,9-11 zu testen, beschrieben worden.
Die vorliegende Klasse von Architekturen wird Vorhersagende ART-Architektur genannt, weil sie ART-Module in die Systeme einbringt, die lernen können, einen vorgeschriebenen m- dimensionalen Ausgangsvektor b mit einem gegebenen vorgeschriebenen n-dimensionalen Eingangsvektor a (Figur 2) vorherzusagen. Das vorliegende Beispiel einer Vorhersagenden ART wird ARTMAP genannt, weil seine Transformation aus Vektoren in n in Vektoren in m eine Karte definiert, die durch Beispiele aus korrelierten Paaren {a(p), b(p)} von aufeinanderfolgend dargebotenen Vektoren, p = 1, 2, ...¹² gelernt wird. Zum Beispiel können die Vektoren a(p) visuelle Darstellungen von Objekten kodieren und die Vektoren b(p) können deren vorhergesagte Folgerungen kodieren, wie zum Beispiel die verschiedenen Geschmäcker im obigen Bananenbeispiel. Der Grad der Codekomprimierung im Speicher ist ein Anzeichen der Systemfähigkeit aus Beispielen heraus zu verallgemeinern.
ARTMAP ist ein überwachtes Lernsystem. Bei einem überwachten Lernen wird bei jedem Trainingsversuch ein Eingangsvektor a(p) mit einem anderen Eingangsvektor b(p) assoziiert. Bei einem Testversuch wird ein neuer Eingabe a vorgelegt, der zuvor nie erfahren worden ist. Dieser Eingabe sagt einen Ausgangsvektor voraus. Die Systemleistungsfähigkeit wird durch Vergleich von b mit der korrekten Antwort bewertet. Diese Eigenschaft der Verallgemeinerung ist die Systemfähigkeit, Antworten auf einen Satz neuer Testeingaben a korrekt vorherzusagen.
Ein überblick über das System ist in Figur 2 dargestellt. Es beinhaltet zwei ART-Module ARTa und ARTb. Jedes Modul beinhaltet das gewöhnliche Kurzzeitspeicherfeld F1 für die Kennzeichendarstellung und das Kurzzeitspeicherfeld F2 für die Kategoriedarstellung. Daher beinhaltet ARTa Kurzzeitfelder F&sub1;a und F&sub2;a, während ARTb Kurzzeitspeicherfelder F&sub1;a und F&sub2;b beinhaltet. Daher wählt ein durch den Vektor a dargestelltes Muster durch ein adaptives Langzeitspeicherfilter 22a eine Kategoriedarstellung im Feld F&sub2; aus. Diese Kategoriedarstellung kann selbst ein Muster innerhalb von F&sub2;a sein, aber üblicherweise wird eine einzelne Kategorie ausgewählt. Im adaptiven Filter 22a wird jedes Element des Vektors in F&sub1;a in Richtung jedes Kategorieknotens von F&sub2;a gewichtet. Zur Klarstellung sind jedoch nur einige gewichtete Verbindungen 22a des adaptiven bottom-up Filters dargestellt. Eine Schablone von der ausgewählten Kategorie, welche ein zu erwartendes Muster definiert, wird durch ein adaptives top-down Filter 24a erzeugt. Top-down Gewichte werden von allen Knoten von F&sub2;a für alle Knoten von F&sub1;a vorgesehen, aber zur Klarstellung sind nur einige gewichtete Verbindungen 24a dargestellt.
Wie in einem herkömmlichen ART-System wird die top-down Schablone mit dem Eingangsvektor a in F&sub1;a gegen einen Überwachungsparameter verglichen. Falls die Übereinstimmung ausreicht, wie es durch ein internes Steuersystem bestimmt ist, wird die anfängliche Auswahl aufrechterhalten. Falls die Übereinstimmung ungenügend ist, so wird die zuvor ausgewählte Kategorie nicht länger in Erwägung gezogen und eine andere Kategorie wird durch ein adaptives bottom-up Filter ausgewählt. In dieser Hinsicht ist ARTa konventionell.
In Übereinstimmung mit der vorliegenden Erfindung wird ARTa mit einem anderen ART-Modul ARTb assoziiert. ARTb arbeitet in der gleichen Weise wie ARTa, erhält aber andere Eingaben. Zum Beispiel kann ARTa einen visuellen Darstellungsvektor erhalten, während ARTb einen Geschmackdarstellungsvektor empfängt. Die internen Steuersysteme der zwei ART-Systeme sind mittels des Steuersystems 25 auf die nachfolgend beschriebene Weise verbunden. Die Kategorien, welche durch die ARTa- und ARTb- Module von den zugehörigen Eingaben a und b ausgewählt wurden sind in einem Assoziativspeicher 26 assoziiert. Der Betrieb dieses Speichers als ein Eintragungsfeld wird nachfolgend beschrieben.
Das ARTMAP-System ist so ausgebildet, daß es gemeinsam unter schnellen Lernbedingungen in Echtzeit die Verallgemeinerung maximiert und einen Vorhersagefehler minimiert als Antwort auf eine beliebige Reihenfolge von Eingangsmustern. Bemerkenswerterweise kann das Netzwerk auf der nachfolgend beschriebenen Maschine mit lernender Benchmark-Datenbank eine 100% -Genauigkeit beim Testsatz erreichen. Jedes ARTMAP-System lernt genaue Vorhersagen schnell durchzuführen, im Sinne vom Verbrauchen von relativ wenig Computerzeit; und in flexibler Weise, im Sinne daß stabiles Lernen ein kontinuierliches neues Lernen auf einer oder mehrerer Datenbanken erlaubt, ohne vorheriges Wissen auszulöschen, bis die volle Speicherkapazität des Netzwerks verbraucht ist. In einem ARTMAP-Netzwerk wird die Speicherkapazität beliebig groß gewählt ohne die Stabilität des schnellen Lernens oder genauen Verallgemeinerns zu opfern.
Ein wichtiges Merkmal des ARTMAP-Design ist seine Fähigkeit nur mittels lokaler Operationen gemeinsam auf einer "Versuch für Versuch"-Basis die Verallgemeinerung zu maximieren und den Vorhersagefehler zu minimieren. Es handelt sich um diese Eigenschaft, welche es dem System gestattet, schnell über seltene Ereignisse zu lernen, die wichtige Folgerungen aufweisen, auch wenn diese häufigen Ereignissen mit unterschiedlichen Folgerungen sehr ähnlich sind. Die Eigenschaft baut auf ein Schlüsselmerkmal von allen ART-Systemen auf; nämlich dem Vorhandensein von einem Orientierungsuntersystem, welches auf das Unerwartete oder Neue eines Eingangsexemplars a mittels Betreiben eines Testzyklus einer Hypothese oder einer parallelen Speichersuche für eine bessere oder total neue Erkennungskategorie für a antwortet. Das Testen einer Hypothese wird durch das Orientierungsuntersystem ausgelöst, falls a eine Erkennungskategorie aktiviert, die eine gelernte Erwartung oder Prototyp ausliest, welche mit a nicht gut genug übereinstimmt. Das Maß der Übereinstimmung stellt eine analoge Messung für das vorhergesagte Vertrauen bereit, daß die ausgewählte Erkennungskategorie a darstellt oder für die Neuheit von a bezüglich der Hypothese, die symbolisch durch die Erkennungskategorie dargestellt wird. Dieser analoge Übereinstimmungswert wird bei dem Orientierungsuntersystem berechnet, wo er mit einem dimensionslosen Parameter, der Überwachung genannt wird, verglichen wird. Ein Zyklus des Testen der Hypothese wird ausgelöst, falls das Übereinstimmungsmaß kleiner als die Überwachung ist. Die Maximierung der Verallgemeinerung und die Minimierung des Vorhersagefehlers wird auf einer "Versuch für Versuch"-Basis durch Erhöhen des Überwachungsparameters als Antwort auf einen Vorhersagefehler in einem Trainingsversuch erreicht. Die minimale Veränderung die mit der Fehlerkorrektur übereinstimmt wird durchgeführt. Tatsächlich bewirkt der Vorhersagefehler, daß die Überwachung schnell ansteigt bis sie, in einem Vorgang, der Übereinstimmungsablaufverfolgung genannt wird, den analogen Übereinstimmungswert überschreitet.
Bevor jeder neue Eingabe ankommt, wird die Überwachung auf einen Grundüberwachungswert herabgesetzt. Das Setzen des Grundüberwachungswerts auf 0 maximiert die Codekomprimierung. Das System erreicht dies durch Gestatten eines "trainierten Ratens" bei jedem Versuch, auch wenn die Übereinstimmung zwischen Eingang und gelerntem Code mäßig ist. Die Suche folgt darauf, und es wird nur dann eine neue Kategorie eingeführt, wenn die in dieser forcierten Auswahlsituation gemachte Vorhersage sich als falsch herausstellt. Wenn Vorhersagefehler jedoch einen Nachteil mit sich bringen, kann die Basisüberwachung auf einen etwas höheren Wert gesetzt werden, wodurch die "Fehlalarm"-Rate verringert wird. Bei einer positiven Basisüberwachung antwortet das System auf eine Eingabe, welche das minimale Übereinstimmungskriterium nicht erfüllt mit "Ich weiß es nicht". Vorhersagefehler können hierdurch gering gemacht werden, jedoch mit Abnahme bei der Codekomprimierung. Die Suche endet, wenn das interne Steuersystem 24 entscheidet, daß ein umfassender Konsens erreicht worden ist.
ARTMAP erreicht seine Kombination von gewünschten Eigenschaften durch Arbeiten als eine Art selbst organisierendes Expertensystem. Es vereinigt die Grundfähigkeiten aller ART-Systeme selbständig das Testen einer Hypothese und die parallele Speichersuche für geeignete Erkennungscodes auszuführen. Das Testen einer Hypothese wird in einem ausgehaltenen Resonanzzustand beendet, der bestehen bleibt, solange eine Eingabe ungefähr konstant bleibt. Die Resonanz erzeugt einen Aufmerksamkeitsfokus, welcher das Bündel kritischer Kennzeichen auswählt, die der bottom-up-Eingabe und der top-down-Erwartung oder dem Prototyp gemeinsam sind, das heißt dem durch die in Resonanz befindliche Erkennungskategorie Ausgelesenen. Das Lernen des kritischen Kennzeichenmusters tritt in diesem in Resonanz befindlichem und aufmerksamen Zustand auf, und wird von nun an adaptive Resonanz genannt.
Der in Resonanz befindliche Aufmerksamkeitsfokus ist eine Folge einer Übereinsstimmungsregel, die 2/3 Regel&sup9; genannt wird. Diese Regel klärt, wie ein bottom-up Eingangsmuster auf überschwellige Weise seine Kennzeichendetektoren auf der Stufe F&sub1; eines ART Netzwerks aktivieren kann, gleichwohl eine top-down Erwartung die Stufe F&sub1; nur unterschwellig empfindlich machen oder vorbereiten kann. Unterschwellige Aktivierung bedeutet, daß F&sub1; keine Ausgangssignale erzeugen kann, die ein weiteres Verarbeiten der Eingabe veranlassen. Unterschwellige Aktivierung bedeutet, daß F&sub1; keine Ausgangssignale erzeugen kann, aber seine vorbereiteten Zellen leicht durch bottom-up-Eingaben aktiviert werden können. Zum Beispiel kann der verbale Befehl "Such die gelbe Banane" visuelle Kennzeichendetektoren vorbereiten , sensitiver auf visuelle Eingaben zu antworten, die eine gelbe Banane darstellen, ohne diese Zellen zu forcieren, vollständig aktiviert zu sein, was eine visuelle Halluzination bewirken würde.
Carpenter und Grossberg&sup6; haben gezeigt, daß die 2/3-Regel durch eine Art von analoger räumlicher Logik realisiert wurde. Diese logische Operation berechnet den räumlichen Zwischenraum der bottom-up und top-down-Information. Der räumliche Zwischenraum ist der Aufmerksamkeitsfokus. Es ist von Interesse, daß das unterschwellige top-down-Vorbereiten, welches eine Art von "Vorsatz" in einem ART-System initiiert, eine Art übereinstimmungsgesetz mit sich bringt, welches eine Art von "Logik" initiiert. Searle¹&sup7; und andere haben einige AI-Modelle kritisiert, weil sie die Absicht für die Logik opfern. In ART bringt die Absicht Logik mit sich.
Wie zuvor besprochen sind die Hauptelemente eines ARTMAP- Systems in Figur 2 dargestellt. Zwei Module ARTa und ARTb lesen Vektoreingaben a und b. Falls ARTa und ARTb nicht verbunden waren, würde jedes Modul Kategoriegruppierungen für getrennte Eingangssätze selbst organisieren. In der nachfolgend beschriebenen Anmeldung sind ARTa und ARTb schnell lernende ART 1 Module, die binäre Eingangsvektoren kodieren. ARTa und ARTb sind hier durch ein Zwischen-ART-Modul verbunden, das in vielerlei Hinsicht ART 1 ähnlich ist. Dieses Zwischen-ART-Modul beinhaltet ein Eintragungsfeld 26, welches das Lernen eines assoziativen Eintragungsfelds von ARTa Erkennungskategorien bis ARTb Erkennungskategorien steuert. Diese Karte assoziiert die Exemplare a und b nicht direkt, sondern assoziiert vielmehr die komprimierten und symbolischen Darstellungen der Familienexemplare a und b. Das Eintragungsfeld steuert ebenso die Übereinstimmungsablaufverfolgung des ARTa Überwachungsparameters. Eine Fehlübereinstimmung im Eintragungsfeld zwischen der ARTa-Kategorie, welche durch eine Eingabe a aktiviert wurde, und der ARTb-Kategorie, die durch die Eingabe b aktiviert wurde, erhöht die ARTa-Überwachung um die minimale Menge, die das System benötigt, um danach zu suchen und, falls notwendig, eine neue ARTa-Kategorie zu lernen, deren Vorhersage mit der ARTb- Kategorie übereinstimmt.
Dieses Zwischen-ART-Überwachungsrücksetzsignal ist eine Form der "Rückwärts-Ausbreitung" von Information, aber eine die sich von einer in einem Rückwärtsausbreitungsnetzwerk auftretenden Rückwärtsausbreitung unterscheidet. Zum Beispiel kann die durch eine Zwischen-ART-Rücksetzung initiierte Suche die Aufmerksamkeit auf einen neuen Cluster von visuellen Kennzeichen verschieben, die durch Lernen in eine neue ARTa-Erkennungskategorie eingebracht werden kann. Dieser Vorgang ist analog zum Lernen einer Kategorie für "grüne Bananen" basierend auf der "Geschmacks"-Rückkopplung. Dennoch "breiten" diese Ereignisse die Geschmackskennzeichen nicht "rückwärts" in die visuelle Darstellung der Bananen aus, wie es beim Verwenden des Rückwärtsausbreitungsnetzwerks auftreten kann. Vielmehr reorganisiert die Übereinstimmungsablaufverfolgung den Weg, auf welchem die visuellen Kennzeichen zum Zwecke der Vorhersage eines erwarteten Geschmacks gruppiert, besetzt, gelernt und erkannt werden.

ART-Module ARTa und ARTb

Jedes ART-Modul in Figur 2 setzt komprimierte Erkennungscodes als Antwort auf Eingangsmusterfolgen a und b fest. Assoziatives Lernen im Eintragungsfeld 26 verbindet Paare von Musterklassen über diese komprimierten Codes. Eine Art von Verallgemeinerung folgt direkt aus dieser Lernstrategie: Falls ein Vektor a mit einem Vektor b assoziiert wird, dann wird jeder andere Eingabe, der den Kategorieknoten von a aktiviert, die Kategorie des Musters b vorhersagen. Jedes ART-Modul kann dazu verwendet werden, die ARTa- und die ARTb-Kategorien selbst zu organisieren. In der nachfolgenden vergifteten Pilzanwendung sind a und b binäre Vektoren, so daß ARTa- und ARTb-Module ART 1 Module sein können. Die Hauptberechnungen eines ART 1 Moduls wird hier herausgestellt werden. Eine vollständige Definition von ART 1 Modulen, als Systeme von Differentialgleichungen, zusammen mit einer Analyse ihrer Netzwerkdynamik kann in Carpenter und Grossberg&sup9; gefunden werden. Für andere Anwendungen können ART 2 und ART 3 geeigneter sein.
In einem ART 1 Modul ist ein Eingabemuster I im Feld F&sub1; dargestellt und die Erkennungskategorie für 1 ist im Feld F&sub2; dargestellt. Wir betrachten den Fall, bei dem das konkurrierende Feld F&sub2; eine Wahl trifft, und bei dem das System in einem Schnell-Lern-Modus arbeitet, wie es nachfolgend definiert ist. Ein Simulationsalgorithmus ist unten dargestellt.
Figur 3 stellt die Hauptkomponenten eines ART 1 Moduls dar. Der binäre Vektor I bildet den bottom-up-Eingang für das Feld F&sub1; , dessen Aktivitätsvektor mit x bezeichnet ist. Das konkurrierende Feld F&sub2; ist so ausgebildet, daß es eine Wahl trifft. Adaptive Leitwege 22 führen von jedem F&sub1;-Knoten zu allen F&sub2;-Knoten, und Leitwege 24 führen von jedem F&sub2;-Knoten zu allen F&sub1;-Knoten. Nur Beispiel-Leitwege sind dargestellt. Ein Zurücksetzen tritt auf, wenn die Übereinstimmung zwischen x und I die Kriterien verfehlt, die durch den Überwachungsparameter eingeführt wurden. Alle Wege sind im angeregten Zustand, außer sie sind mit einem Minus-Zeichen gekennzeichnet. Ein Feld mit M Knoten F&sub1; mit Ausgangsvektoren x (x&sub1;, ..., xM,) registriert den F&sub0; T F&sub1; Eingangsvektor I (I&sub1;, ..., IM) . Jeder F&sub1; Knoten kann eine Eingabe von drei Quellen empfangen: der F&sub0; T F&sub1; bottom-up- Eingabe; nicht spezifizierte Verstärkungssteuerungen 25 und 30; und top-down Signale 24 von den N Knoten von F&sub2;, über ein F&sub2; T F&sub1; adaptives Filter. Ein Knoten gilt als aktiv, falls er ein Ausgangsignal gleich 1 erzeugt. Ein Ausgangssignal eines inaktiven Knoten ist gleich 0. In ART 1 ist ein F&sub1;-Knoten aktiv, falls zumindest 2 der 3 Eingangsignale groß sind. Diese Regel für die F&sub1;-Aktivierung wird die 2/3-Regel genannt. Die 2/3-Regel ist in ihrer einfachsten dimensionslosen Form wie folgt realisiert.
Der i-te F&sub1;-Knoten ist aktiv, wenn sein Nettoeingangssignal eine festgesetzte Schwelle überschreitet. Insbesondere ist otherwise
wobei der Term Ii die binäre F&sub0; T F&sub1;-Eingabe ist, der Term g&sub1; das binäre nicht spezifische F&sub1; Verstärkungssteuersignal, der Term Σyjzji die Summe der F&sub2; T F&sub1;-Signale yj über die Leitwege mit den adaptiven Gewichten zji und z eine Konstante wie z.B.
0 < z < 1 (2)
ist.
Das Signal g&sub1; aus der F&sub1; Verstärkungssteuerung 30 wird definiert durch falls aktiv ist und inaktiv is andenfalls
Es ist zu bemerken, daß die F&sub2; Aktivität die F&sub1; Verstärkung hemmt, wie in Figur 3 gezeigt ist. Diese Gesetze für die F&sub1; Aktivierung implizieren, daß falls F&sub2; inaktiv ist, falls andenfalls
Falls genau ein F&sub2;-Knoten aktiv ist, reduziert sich die Summe Σyjzji in (1) auf den einzigen Term zji, so daß falls andenfalls
Tj soll die Gesamteingabe von F&sub1; an den j-ten F&sub2;-Knoten sein, gegeben durch
wobei Zij die F&sub2; T F&sub1;-adaptiven Gewichte bezeichnet. Falls einige Tj > 0 sind, wird der F&sub2;-Auswahlindex J definiert durch
Tj = max{Tj:j = 1...N}. (7)
In einem typischen Fall ist ausschließlich J definiert. Dann erhält der F&sub2; Ausgangsvektor y = (y&sub1;, ..., yN)
Falls sich zwei oder mehr Indizes j die maximale Eingabe teilen, dann teilen sie sich gleichmäßig die gesamte Aktivität. Dieser Fall wird hier nicht betrachtet.
In einem Schnell-Lern-ART 1 erreichen die adaptiven Gewichtungen ihre neuen Asymptoten bei jeder Eingabedarbietung. Die Lerngesetze wie auch die Regeln für Auswahl und Suche werden praktischerweise mittels der nachfolgenden Gleichung beschrieben. Falls a ein binärer M-Vektor ist, wird die Norm von a durch
definiert.
Falls a und b zwei binäre Vektoren sind wird ein dritter binärer Vektor a b durch
(a b)&sub1; = 1 ai = 1 und bi = 1. (10)
definiert.
Schließlich soll a eine Teilmenge von b (a b) sein, falls a b =a ist.
Alles ART 1-Lernen wird durch die F&sub2;-Aktivität geschleust; das heißt, die aktiven Gewichtungen zji und Zij können sich nur verändern, wenn der J-te Knoten aktiv ist. Dann sind beide F&sub2; T F&sub1; und F&sub1; T F&sub2; Gewichte Funktionen des F&sub1;-Vektors wie folgt.
Die top-down F&sub2; T F&sub1; Gewichte in aktiven Leitwegen lernen x; das heißt , wenn der J-te F&sub2; Knoten aktiv ist, dann ist
zJi T xi. (11)
Alle anderen zji bleiben unverändert. Als Differentialgleichung festgesetzt ist diese Lernregel gleich
d/dtzJi = yj(xi - zji) (12)
In (12) wird das Lernen von zji durch yi geschleust. Wenn sich das yj-Tor öffnet - das heißt, wenn yj > 0 - dann beginnt das Lernen und zji wird von xi eingenommen. In Vektorenbegriffen, falls yj > 0 ist, dann nähert sich zj (zj1, zj2, ..., zjM) x an. Ein derartiges Gesetz wird daher manchmal "Lernen durch torgesteuerten steilen Abstieg" (learning by gated steepest descent) genannt. Es wird ebenso "outstar learning rule" genannt, und wurde 1969²³ in die Literatur über Aufbau neuronaler Modelle eingeführt.
Anfänglich sind alle zji maximal:
zji (0) = 1 (13)
Daher ist der top-down Gewichtungsvektor zj beim schnellen Lernen ein binärer Vektor bei Beginn und Ende einer jeden Eingabedarbietung. Mittels (4), (5), (10), (11), und (13) kann die F&sub1;-Vektoraktivität beschrieben werden als falls nicht aktiv ist falls der Knoten aktiv ist
Mittels (5) und (12), wenn der Knoten J aktiv ist, bewirkt das Lernen
zj TI zJ(alt) (15)
wobei zj(alt) bei Beginn der Eingabedarbietung zJ bezeichnet. Mittels (11) und (14) bleibt x während des Lernens konstant auch wenn zJ abnehmen könnte.
Das erste Mal, wenn ein F&sub2; Knoten J aktiv wird, gilt er als unbestimmt. Dann wird während des Lernens durch (13)-(15)
zJ T I. (16)
Danach gilt der Knoten J als bestimmt.
In Simulationen ist es günstig den adaptiven bottom-up F&sub1; T F&sub2; Gewichtungen Zji derart Anfangswerte zuzuordnen, daß die F&sub2;- Knoten zuerst in der Reihenfolge j = 1, 2, ...aktiv werden. Dies kann erreicht werden indem
Zij(0)=aj (17)
wobei
a&sub1;> a&sub2;...> aN (18)
Ähnlich dem top-down Gewichtungsvektor zJ, wird der bottom-up F&sub1; T F&sub2; Gewichtungsvektor zJ (z1J, ziJ, ..., zMj) proportional dem F&sub1; Ausgangsvektor x, wenn der F&sub2; Knoten J aktiv ist. Zusätzlich werden die bottom-up Gewichte dennoch invers zu x skaliert, so daß
ZiJ T xi/β+ x ' , (19)
wobei β > 0. Dieses F&sub1; T F&sub2; Lerngesetz, Weber Gesetztesregel&sup9; genannt, realisiert eine Art von Wettbewerb unter den Gewichtungen zj, die einem gegebenen F&sub2; Knoten J benachbart sind. Diese wettbewerbsmäßige Berechnung könnte alternativ in das F&sub1; Feld übertragen werden, wie es bei einem ART 2 der Fall ist. Mittels (14), (15) und (19) wird während des Lernens
Es ist erforderlich, daß die Anfangswerte klein genug sind, so daß ein Eingabe I, der mit einem zuvor gelernten Vektor ZJ perfekt übereinstimmt, den F&sub2; Knoten J eher auswählt als einen unbestimmten Knoten. Dies wird erreicht durch die Annahme, daß
0< αj= Zij(0)< 1/β+ I (21)
für alle F&sub0; T F&sub1; Eingaben I gilt. Wenn I zum erstenmal dargeboten wird, x = I, mittels (6), (15), (17) und (20), so ist der F&sub1; T F&sub2; Eingangsvektor T (T&sub1;, T&sub2;, ..., TN) gegeben durch falls j ein unbestimmter Knoten ist falls j ein bestimmter Knoten ist
In den nachfolgenden Simulationen, wird β als so klein angenommen, daß, unter unbestimmten Knoten, Tj durch die Größe von I zj relativ zu zj bestimmt wird. Falls β groß wäre, würde Tj primär von I zj abhängen. Zusätzlich werden die aj Werte als so klein angenommen, daß ein unbestimmter Knoten den maximalen Tj-Wert in (22) nur erzeugt, wenn I zj = 0 für alle bestimmten Werte gilt. Größere Werte von aj und bj spannen das System in Richtung einer früheren Auswahl unbestimmter Knoten vor, wenn nur mäßige Übereinstimmungen unter den bestimmten Knoten gefunden werden können. Eine vollständigere Behandlung dieses Aspekts eines ART 1 Systemdesigns wird durch Carpenter und Grossberg&sup9; gegeben.
Mittels (7), (21) und (22) kann ein bestimmter F&sub2; Knoten J ausgewählt werden, auch wenn die Übereinstimmung zwischen I und zj mäßig ist; die Übereinstimmung muß nur die Beste unter den Verfügbaren sein. Falls die Übereinstimmung zu mäßig ist, dann kann das ART 1 System selbständig das Testen einer Hypothese oder die Suche für einen besseren F&sub2; Erkennungscode ausführen. Dieser Suchvorgang wird durch das Orientierungsuntersystem vermittelt, welches die F&sub2;-Knoten als Antwort auf mäßige Übereinstimmungen bei F&sub1; (Figur 3) zurücksetzen kann. Das Orientierungsuntersystem ist eine Art von Neuheitsdetektor, der die Systemzuversicht mißt. Falls das Maß an Übereinstimmung zwischen bottom-up-Eingabe I und top-down Gewichtungsvektor zj zu gering ist, ist die Systemzuversicht in den durch J markierten Erkennungscode unzulänglich. Anders ausgedrückt, die Eingabe I ist zu unerwartet relativ zum top-down Vektor zj, welcher die Rolle einer gelernten top-down Erwartung spielt.
Eine unerwartete Eingabe löst einen Neuheits-Burst im Orientierungsuntersystem aus, welches eine unbestimmte Zurücksetz- Welle r vom Orientierungsuntersystem an F&sub2; sendet. Die Zurücksetz-Welle schließt den Knoten j so lange, wie der Eingang I eingeschaltet bleibt. Bei ausgeschaltetem J und einem in Ruhe befindlichen top-down F&sub2; T F&sub1; Signal kann F&sub1; wieder den Vektor x = I setzen, welcher zu einer Auswahl eines weiteren F&sub2; Knoten durch den adaptiven bottom-up F&sub2; T F&sub1; Filter führt. Dieses Testverfahren einer Hypothese führt zur Aktivierung einer Folge von F&sub2; Knoten bis einer ausgewählt wurde, dessen adaptiver Gewichtungsvektor eine passende Übereinstimmung mit I bildet, oder bis ein unbestimmter Knoten ausgewählt wurde. Die Suche findet so schnell statt, daß im wesentlichen kein Lernen in diesem Zeitmaß stattfindet. Gelernte Gewichtungen werden hierdurch gegen ein Neu-Kodieren durch mäßig übereinstimmende Eingaben gepuffert, welche nicht akzeptierbare F&sub2;-Erkennungscodes aktivieren. Während der Suche steuern daher zuvor gelernte Gewichtungen aktiv die Suche für einen besseren Erkennungscode ohne durch die Signale, die sie verarbeiten, verändert zu werden.
Wie zuvor bemerkt, wird das Übereinstimmungsmaß zwischen bottom-up Eingabe I und top-down Erwartung zJ im Orientierungsuntersystem bewertet, welches die Systemzuversicht mißt, ob die Kategorie J die Eingabe I angemessen darstellt. Eine Rücksetz- Welle wird nur ausgelöst wenn diese Zuversichtsmessung unterhalb eines dimensionslosen Parameters fällt, welcher Überwachungsparameter genannt wird. Der Überwachungsparameter kalibriert die Systemempfindlichkeit für unbestätigte Erwartungen.
Einer der Hauptgründe für die erfolgreiche Klassifizierung von nicht stationären Datenfolgen durch ARTMAP ist seine Fähigkeit den Überwachungsparameter basierend auf dem vorhergesagten Erfolg zu rekalibrieren. Wie dies funktioniert wird nachfolgend beschrieben. Momentan charakterisieren wir den ART 1 Suchvorgang mit einer gegebenen konstanten Überwachungsstufe.
In einem schnell lernenden ART 1 mit der Wahl bei F&sub2; tritt der Suchvorgang wie folgt auf:
Schritt 1 - Auswählen eines F&sub2; Knoten J, welcher Tj in (22) maximiert, und Auslesen seines top-down Gewichtungsvektors zJ.
Schritt 2 - Bei aktivem J, Vergleichen des F&sub1; Ausgangsvektors x = I zJ mit dem F&sub0; T F&sub1; Eingangsvektor I im Orientierungsuntersystem 26, 28 (Figur 3).
Schritt 3A - Vorausgesetzt daß I zJ nicht mit I auf der durch das Überwachungskriterium erforderlichem Stufe übereinstimmt, z.B., daß
x = I zJ < I 0 < I - x (23)
Dann tritt eine F&sub2; Rücksetzen auf: Knoten J wird für die Dauer des Eingabeintervalls, während der I eingeschaltet bleibt, geschlossen. Der Index des ausgewählten F&sub2; Knoten wird auf den zum nächsthöheren F&sub1; T F&sub2; Eingabewert Tj zugehörigen Wert zurückgesetzt. Bei einem aktiven neuen Knoten werden die Schritte 2 und 3A wiederholt, bis der ausgewählten Knoten das Resonanzkriterium in Schritt 3B erfüllt. Es ist zu bemerken, daß ein Zurücksetzen nie auftritt, wenn
≤ 0. (24)
Wenn (24) anhält, arbeitet ein ART-System als ob dort kein Orientierungsuntersystem vorhanden wäre.
Schritt 3B - Angenommen, daß I zJ das Resonanzkriterium erfüllt; z.B., daß gilt
x = I zJ ≥ I . (25)
Dann hört die Suche auf und der zuletzt gewählte F&sub2;-Knoten J bleibt aktiv bis die Eingabe I ausgeschaltet ist ( oder bis ansteigt). In diesem Resonanz genannten Zustand erreichen beide adaptiven F&sub1; T F&sub2; und F&sub1; T F&sub2;-Gewichtungen neue Werte falls I zJ(alt) ≠ zJ(alt). Es ist zu bemerken, daß keine Resonanz bei > 1 auftritt.
Falls ≤ 1, hört die Suche auf, wann immer I zJ, wie es der Fall ist, wenn ein unbestimmter Knoten J ausgewählt wird. Falls die Überwachung nahe 1 ist, dann tritt ein Rücksetzen auf, falls die F&sub2; T F&sub1; Eingabe das F&sub1; Aktivitätsmuster im Ganzen verändert; Die Resonanz erfordert es, daß I eine Untermenge von zJ sei. Falls die Überwachung nahe 0 ist, tritt ein Zurücksetzen nie auf. Die top-down Erwartung zJ des ersten ausgewählten F&sub2;- Knotens J wird dann von zJ(alt) bis I zJ(alt) neu kodiert, auch wenn I und zJ(alt) sehr verschiedene Vektoren sind.
Der Einfachheit halber ist ART 1 auf diskrete Darstellungsintervalle ausgelegt, während der eine Eingabe konstant ist und nach dem F&sub1; und F&sub2; Aktivitäten auf Null gesetzt werden. Diskrete Darstellungsintervalle sind in ART 1 mittels der F&sub1; und F&sub2; Verstärkungssteuersignale g&sub1; und g&sub2; (Figur 5) implementiert. Es wird angenommen, daß das F&sub2; Verstärkungssignal g&sub2;, ähnlich dem g&sub1; in (3), gleich 0 sei, falls F&sub0; inaktiv ist. Dann, wenn F aktiv wird, seien die g&sub2; und F&sub2; Signalschwellen als in einem Bereich liegend angenommen, wo der F&sub2; Knoten, der das größte Eingangssignal empfängt, aktiv werden kann. Wenn ein ART 1 System in eine Hierarchie eingebettet ist, kann F&sub2; Signale von Quellen, verschieden von F&sub1;, empfangen. Dies tritt in dem nachfolgend beschriebenen ARTMAP System auf. In einem derartigen System trifft F&sub2; immer noch eine Auswahl und Verstärkungssignale sind immer noch von F&sub0; erforderlich, um beide F&sub1; und F&sub2; Ausgangssignale zu erzeugen. In den Simulationen bleiben F&sub2; Knoten, die während der Suche zurückgesetzt wurden, ausgeschaltet, bis die Eingabe ausgeschaltet ist. Ein Echtzeit ART-Suchmechanismus, der mit kontinuierlich schwankenden analogen oder binären Eingaben variabler Dauer, schnellen und langsamen Lernen und komprimierten oder verteilten F&sub2; Codes fertig werden kann wird von Carpenter und Grossberg¹¹ beschrieben.

Das Eintragungsfeld

Ein Eintragungsfeldmodul verbindet die F&sub2;-Felder der ARTa und ARTb-Module. Figur 4 stellt die Hauptkomponenten des Eintragungsfelds dar. Wir werden ein derartiges System im Schnell- Lern-Modus mit einer Auswahl bei den Feldern F&sub2;a und F&sub2;b beschreiben. Wie bei den ART 1 und ART 2 Architekturen ihrerseits9, 10, führen viele Abwandlungen der Netzwerkarchitektur zu ähnlichen Berechnungen. In der ARTMAP Hierarchie sind ARTa, ARTb und Eintragungsfeldmodule alle mittels ART 1 Variablen und Parametern beschrieben. Indizes a und b kennzeichnen Begriffe in den ARTa und ARTb-Modulen, während Eintragungsfeldvariable und Parameter keinen derartigen Index aufweisen. Daher bezeichnen zum Beispiel a, b und die jeweiligen ARTa, ARTb und Eintragungsfeldüberwachungsparameter.
Beide, ARTa und ARTb, sind Schnell-Lern-ART 1 Module. Mit einem optionalen Zusatz kopieren sie das oben beschriebene Design. Dieser Zusatz, Komplementkodierung genannt, stellt beides dar, die "Ein"-Antwort auf einen Eingangsvektor und die "Aus"- Antwort auf diesen Vektor. Es hat sich gezeigt, daß diese Art der Kodierstrategie eine nutzbringende Rolle beim Suchen geeigneter Erkennungscodes als Antwort auf eine vorhergesagte Rückkopplung 24, 25 spielt. Um einen derartigen Code in seiner einfachsten Form darzustellen, soll der Eingangsvektor a selbst die Ein-Antwort und das Komplement von a, bezeichnet durch ac, die Aus-Antwort für jeden ARTa Eingangsvektor a darstellen. Falls a der binäre Vektor (a&sub1;, ..., aMa) ist, dann ist die Eingabe für das ARTa in dem 2Ma-dimensionalen binären Vektor
(a,ac) (a&sub1;,...,aMa,a&sub1;c,...,aMac) (26)
wobei
aic = 1 - ai. (27)
Die Verwendung der komplementären Kodierung zum Suchen eines ARTMAP Systems wird nachfolgend beschrieben. Es werden ebenso die Bedingungen gegeben, unter denen die komplementäre Kodierung nicht benötigt wird. Tatsächlich wurde die komplementäre Kodierung bei keinem der nachfolgend beschriebenen Simulationen benötigt und die ARTa-Eingabe war einfach der Vektor a.
In der nachfolgenden Diskussion des Eintragungsfeldmoduls, haben F&sub2;a-Knoten, indiziert mittels j = 1...Na, binäre Ausgangssignale; und F&sub2;b-Knoten, indiziert mittels k = 1...Nb, haben binäre Ausgangssignale ykb. Entsprechend ist der Index des aktiven F&sub2;a-Knoten mit J bezeichnet und der Index des aktiven F&sub2;b-Knoten ist mit K bezeichnet. Da das Eintragungsfeld die Schnittstelle ist, wo Signale von F&sub2;a und F&sub2;b aufeinander einwirken, ist es mit Fab bezeichnet. Die Knoten von Fab haben denselben Index k, k = 1, 2, ..., Nb wie die Knoten von F&sub2;b, da dort eine Eins-zu-Eins Korrespondenz zwischen diesen Knotensätzen besteht. Die Ausgangssignale von Fab-Knoten sind mit xk bezeichnet.
Jeder Knoten von Fab kann Eingaben von drei Quellen empfangen: F&sub2;a, F&sub2;b und der Eintragungsfeldverstärkungssteuerung 32 (Signal G). Der Fab Ausgangsvektor x befolgt die 2/3 Regel von ART 1; nämlich falls andenfalls
wobei der Term ykb das F&sub2;b-Ausgangssignal ist, der Term G ein binäres Verstärkungssteuersignal ist, der Term Σyjawjk die Summe von F&sub2;a T Fab Signalen yja über die Leitwege mit adaptiven Gewichtungen wjk ist, und w eine Konstante wie zum Beispiel
0< w< 1. (29)
ist.
Werte des Verstärkungssteuerungsignal G und der F&sub2;a T Fab Gewichtungsvektoren wj (wj1, ..., wjNb), j = 1...Na, werden nachfolgend bestimmt.
Ein Vergleich von (1) und (28) zeigt eine Analogie zwischen den Feldern F&sub2;b, Fab, und F&sub2;a in einem Eintragungsfeldmodul und jeweiligen Feldern F&sub0;, F&sub1;, und F&sub2; in einem ART 1 Modul an. Unterschiede zwischen diesen Modulen beinhalten die bidirektionalen nicht-adaptiven Verbindungen zwischen F&sub2;b und Fab im Eintragungsfeldmodul (Figur 4) im Vergleich zu den bidirektionalen adaptiven Verbindungen zwischen den Feldern F&sub1; und F&sub2; im ART 1 Modul (Figur 3). Diese unterschiedlichen Verbindungsschemas erfordern unterschiedliche Regeln für die Verstärkungssteuersignale G und g&sub1;.
Das Eintragungsfeldverstärkungssteuersignal G gehorcht der Gleichung falls beide aktiv sind andernfalls
Es ist zu bemerken, daß G ein anhaltend aktives, oder starres Signal ist, das nur ausgeschaltet wird, wenn beide ARTa und ARTb aktiv sind.
Falls ein aktiver F&sub2;a-Knoten J noch keine Vorhersage erlernt hat, so ist das ARTMAP System derart ausgebildet, daß es J lernen kann, irgendein ARTb-Muster vorherzusagen, falls eines aktiv ist oder aktiv wird, während J aktiv ist. Diesem Designzwang wird analog zu (13) durch Verwendung der Annahme Genüge getan, daß die anfänglichen F&sub2; T Fab Werte
wjk(0) = 1 (31)
für j = 1...Na und k = 1...Nb sind.
Die Regeln, die G und wj(0) lenken, ermöglichen es, die folgenden Eintragungsfeldeigenschaften zu erhalten. Falls beide ARTa und ARTb aktiv sind, dann kann das Lernen der ARTa T ARTb Assoziationen bei Fab stattfinden. Falls ARTb aktiv ist aber ARTa nicht, dann wird die ausgewählte ARTb Kategorie bei Fab dargestellt. Falls weder ARTa noch ARTb aktiv sind, dann ist Fab nicht aktiv. Mittels (28) - (31) realisiert die 2/3 Regel diese Eigenschaften in den folgenden vier Fällen.
1.) F&sub2;a aktiv und F&sub2;b aktiv - Falls beide, der F&sub2;a Kategorieknoten J und der F&sub2;b Kategorieknoten K aktiv sind, dann G = 0 durch (30). Dadurch gilt mittels (28) falls andernfalls
Alle xk = 0 für k ≠ K. Vielmehr gilt xK = 1 nur, wenn eine Assoziation zuvor im Leitweg vorn Knoten J zum Knoten K gelernt worden ist, oder falls J es noch nicht gelernt hat, irgendeine ARTb Kategorie vorherzusagen. Falls J irgendeine Kategorie, die anders ist als K, vorhersagt, dann gilt für alle xk = 0.
2.) F&sub2;a aktiv und F&sub2;b inaktiv - Falls der F&sub2;a Knoten J aktiv ist und F&sub2;b inaktiv ist, dann G = 1. Dadurch gilt falls andernfalls
Mittels (31) und (33), falls ein Eingabewert a den Knoten J in F&sub2;a aktiviert hat aber F&sub2;b noch nicht aktiv ist, aktiviert J alle Knoten k in Fab, falls J keine Vorhersagen gelernt hat. Falls zuvor ein Lernen aufgetreten ist, werden alle Knoten k aktiviert, deren adaptive Gewichtungen groß sind.
3.) F&sub2;b aktiv und F&sub2;a inaktiv - Falls der F&sub2;b Knoten K aktiv ist und F&sub2;a inaktiv ist, dann G = 1. Dadurch gilt falls andenfalls
In diesem Fall ist der Fab Ausgangsvektor x der gleiche wie der F&sub2;a Ausgangsvektor yb.
4.) F&sub2;a inaktiv und F&sub2;b inaktiv - Falls weder F&sub2;a noch F&sub2;b aktiv sind, ist die gesamte Eingabe für jeden Fab Knoten G = 1, so daß alle xk = 0 mittels (28).
Die F&sub2;b-Auswahl und Vorbereitung findet wie folgt statt. Falls ARTb eine Eingabe b empfängt während ARTa keine Eingabe aufweist, dann wählt F&sub2;b den Knoten K mit der größten F&sub1;b T F&sub2;b- Eingabe aus. Das Feld F&sub2;b aktiviert dann den K-ten Fab Knoten und die Fab T F&sub2;b Rückkopplungssignale unterstützen die ursprüngliche F&sub1;b T F&sub2;b Auswahl. Falls ARTa eine Eingabe a empfängt während ARTb keine Eingabe hat, wählt F&sub2;a einen Knoten J aus. Falls, aufgrund des vorherigen Lernens, einige wJK = 1 sind, während alle anderen wJK = 0 sind, sagen wir, daß a die ARTb
Kategorie K vorhersagt, sowie daß Fab seinen Signalvektor c nach F2&sub2;b sendet. Das Feld F&sub2;b wird hier mit Aufmerksamkeit vorbereitet oder sensibilisiert, aber das Feld bleibt so lange inaktiv wie ARTb keine Eingabe von F&sub0;b hat. Falls dann eine F&sub0;b T F&sub1;b Eingabe b ankommt, hängt die F&sub2;b Wahl von den Netzwerkparametern und dem Zeitverhalten ab. Es ist normalerweise anzunehmen, daß b dennoch gleichzeitig die F&sub1;b und F&sub2;b Verstärkungssteuersignale g&sub1;b und g&sub2;b (Figur 3) aktiviert. Dann verarbeitet F&sub2;b das von Fab vorbereitete x sobald F&sub1;² die Eingabe b verarbeitet, und F&sub2;b wählt den vorbereiteten Knoten K aus. Das Feld F&sub1;b erhält dann die F&sub2;b T F&sub1;b Erwartungseingabe zkb wie auch die F&sub0;b T F&sub1;b Eingabe b, welche zur Übereinstimmung oder Rücksetzung führen.
Die F&sub2;b T Fab Lerngestze sind folgende: Die adaptiven F&sub2;a T Fab Gewichtungen wjk beachten das outstar-Lerngesetz ähnlich dem, das die F&sub2; T F&sub1; Gewichtungen zji in (12) lenkt; nämlich,
Gemäß (35) erreicht der F&sub2;a T Fab Gewichtungsvektor wj den Fab- Aktivitätsvektor x, falls der J-te F&sub2;a-Knoten aktiv ist. Andernfalls bleibt wj konstant. Falls es der Knoten J noch nicht gelernt hat, eine Vorhersage zu machen, gleichen alle Gewichtungen wjk 1. Daraus folgt, daß die Kategoriewahlen in F&sub2;a die adaptiven Gewichtungen wjk nicht verändern bis diese Wahlen mit Kategoriewahlen in F&sub2;b assoziiert sind.

Zurücksetzen des Eintragungsfelds und Übereinstimmungsablaufverfolgung

Das Eintragungsfeld stellt die Steuerung bereit, die es dem ARTMAP-System erlaubt, verschiedene Kategorien für ziemlich ähnliche ARTa Eingaben, welche unterschiedliche Vorhersagen machen, festzulegen, während sie ebenso sehr verschiedene ARTa Eingaben erlauben, um Kategorien zu bilden, die die selben Vorhersagen treffen. Insbesondere wird das Eintragungsfeldorientierungsuntersystem 34, 36 nur aktiv, wenn ARTa eine Vorhersage trifft, welche nicht kompatibel zu dem aktuellen ARTb Eingang ist. Dieser Fehlübereinstimmungsvorgang aktiviert die Steuerungsstrategie, Übereinstimmungsablaufverfolgung genannt, welche den ARTa Überwachungsparameter a auf derartige Weise moduliert, daß das System vor wiederholtem Begehen von Fehlern bewahrt wird. Wie in Figur 4 dargestellt ist, löst eine Fehlübereinstimmung bei Fab, während F&sub2;b aktiv ist, ein Zwischen- ART-Rücksetzsignal R an ein ARTa-Orientierungsuntersystem aus. Dies tritt immer dann auf, wenn
x < yb , (36)
wobei den Eintragungsfeldüberwachungsparameter bezeichnet. Der gesamte Zyklus der a Einstellung geht mit der Zeit wie folgt voran. Bei Beginn jeder Eingabedarbietung gleicht a einer festgesetzten Grundüberwachung a. Wenn eine Eingabe a einen F&sub2;a Kategorieknoten J aktiviert und sich eine Resonanz einstellt, wird
xa = a zJa ≥ a a , (37)
wie in (25). Daher gibt es keine Zurücksetzung ra, die durch das ARTa Orientierungsuntersystem 38, 39 (Figur 5) erzeugt wird. Ein Zwischen-ART-Rücksetzsignal R wird an ARTa mittels (36) gesendet, falls die ARTb Kategorie, die durch a vorhergesagt wurde, nicht mit der aktiven ARTb Kategorie übereinstimmt. Das ART-Rücksetzzwischensignal R erhöht a auf einen Wert, der gerade hoch genug ist, daß (37) scheitert, so daß
Der Knoten J wird daher zurückgesetzt und eine ARTa Suche folgt. Die Übereinstimmungsablaufverfolgung fährt fort bis eine aktive ARTa-Kategorie beiden, dem ARTa Übereinstimmungskriterium (37) und dem analogen Eintragungsfeldübereinstimrnungskriterium, genügt. Die Übereinstimmungsablaufverfolgung erhöht die ARTa- Überwachung um die minimale Menge, die nötig ist, eine falsche ARTa T ARTb Vorhersage abzubrechen und eine Suche nach einer neuen ARTa-Kategorie anzutreiben, welche eine korrekte Vorhersage festsetzen kann. Wie im nachfolgenden Beispiel gezeigt ist, erlaubt es die Übereinstimmungsablaufverfolgung eine korrekte Vorhersage für aufeinanderfolgende Versuche zu machen, ohne die anfängliche Fehlerfolge zu wiederholen. Die Übereinstimmungsablaufverfolgung maximiert hierbei gemeinsam die Vorhersageverallgemeinerung und minimiert den Vorhersagefehler nur mittels lokaler Berechnungen auf einer Versuch-für- Versuch Basis.
Der Vorgang der Übereinstimmungsablaufverfolgung kann auf mehrere verschiedene Arten implementiert werden. Ein Weg ist es, eine Variation des Vektorintegration-zum-Endpunkt- oder VITE-Schaltkreises²&sup6; (Vector Integration to Endpoint) wie folgt zu verwenden. Es soll ein binäres ARTa Rücksetzsignal ra (Figur 5) der Gleichung falls andenfalls
wie in (23) gehorchen. Das komplementäre ARTa Resonanzsignal rac = 1 - ra. Signal R gleicht 1 während der ART-Zwischenpause; das heißt, wenn Ungleichheit aufrechterhalten bleibt. Die Größe des ARTa Überwachungsparameters a bei 38 wird durch die Übereinstimmungsablaufverfolgungsgleichung
bestimmt, wobei 7 » 1. Während der ART-Zwischenrücksetzung, wird R = ra = 1, was bewirkt, daß a ansteigt, bis rac = 0 wird. Dann wird a a > xa , wie es für die Übereinstimmungsablaufverfolgung (38) erforderlich ist. Es wird angenommen, daß dies mit einer geringeren Rate als die Knotenaktivierung, auch Kurzzeitspeicher (STM) genannt, eintrifft, und schneller als Lernen, auch Langzeitspeicher (LTM) genannt. Eine derartige Zwischenrate wird mittlerer Zeitspeicher genannt (MTM)¹¹. Daher wird die höhere Überwachung bei fortgesetzter Eingabe an F&sub0;a für eine nachfolgende Suche aufrechterhalten.
Eine ARTa Suche, welche durch Erhöhung von a gemäß (40) ausgelöst wird, wird beendet, falls einer der aktiven F&sub2;a Knoten J
a zJa ≥ a a . (41)
genügt.
Falls kein solcher Knoten existiert, schaltet F&sub2;a für den Rest der Eingabedarbietung ab. Insbesondere falls a zJa, macht die Übereinstimmungsablaufverfolgung a > 1, so daß a keine andere Kategorie aktivieren kann, um eine neue Vorhersage lernen zu können. Der folgende anomale Fall kann daher vorkommen. Angenommen, daß a = zJa, aber die ARTb-Eingabe b stimmt nicht mit der ARTb Erwartung ZKb überein, die zuvor mit J assoziiert wurde. Dann wird die Übereinstimmungsablaufverfolgung eine Neukodierung verhindern, welche a mit b assoziiert hätte. Das heißt, das ARTMAP-System mit dem Schnell-Lernen und der Auswahl wird die Vorhersage eines Exemplars nicht lernen, welches genau mit einem gelernten Prototypen übereinstimmt, wenn die neue Vorhersage den vorherigen Vorhersagen des Exemplars, welches den Prototyp erzeugt hat, widerspricht. Diese Situation tritt nicht auf, wenn alle ARTa-Eingaben a die gleiche Anzahl an l'sen, wie folgt, aufweisen.
Betrachtet man den Fall, bei welchem alle ARTa-Eingaben die gleiche Norm aufweisen:
a konstant. (42)
Wenn ein ARTa Kategorieknoten J einer Eingabe a übergeben wird, dann wird zJa = a . Danach , mittels der 2/3 Regel (15), kann zJa nur durch Vermindern der Zahl von 1-Einträgen und dadurch seiner Norm neu kodiert werden. Tritt dies einmal auf, so kann mittels (42) eine Eingabe a niemals eine Untermenge von zJa werden. Insbesondere kann die in dem vorherigen Abschnitt beschriebene Situation nicht erscheinen.
In den nachfolgend beschriebenen Simulationen haben alle alle ARTa Eingaben die Norm 22. Die Gleichung (42) kann ebenso durch Verwendung der Komplementkodierung erfüllt werden, da (a, ac) = Ma. Vorverarbeitete ARTa Eingaben mittels Komplementkodierung versichern daher, daß das System den Fall vermeidet, bei dem die Eingabe a eine geeignete Untermenge des aktiven ARTa Prototypen zJa ist und die gelernte Vorhersage der Kategorie J nicht mit dem korrekten ARTb Muster übereinstimmt.
Schließlich ist zu bemerken, daß beim Schnell-Lernen und bei der Auswahl mit ARTMAP ein ARTa-Kategorieknoten J permanent an den ersten ARTb-Kategorieknoten K übergeben wird, mit welchem er assoziiert ist. Dennoch kann sich der Satz von Eingabeexemplaren, welche Zugriff auf eine der Kategorien hat, mit der Zeit ändern, wie in dem in der Einleitung beschriebenen Bananenbeispiel.
Die Rolle der Übereinstimmungsablaufverfolgung wird durch das folgende Beispiel erläutert. Die in Tabelle 1 gezeigten Eingabepaare werden in der Reihenfolge (a(1), b(1)), (a(2), b(2)), (a(3), b(3)) präsentiert. Das durch die Übereinstimmungsablaufverfolgung gelöste Problem wird durch den Vektor a(2) erzeugt, der "zwischen" a(1) und a(3) liegt, wobei a(1) a(2) a(3), während a(1) and a(3) auf den selben ARTb-Vektor eingetragen sind. Angenommen, daß anstelle der Übereinstimmungsablaufverfolgung, lediglich das Eintragungsfeldorientierungsuntersystem das ART- Rücksetzsystem aktivierte. Dann würde die Kodierung wie folgt fortfahren. Tabelle 1
Tabelle 1: Gesetzte ARTa-Eingaben und ihre assoziierten ARTb- Eingaben.
Wähle a ≤ 0.6 und b > 0. Die Vektoren a(1) und dann b(1) werden dargeboten, Arta und ARTb Kategorien J = 1 und K= 1 aktiviert, und die Kategorie J = 1 lernt, die Kategorie K = 1 vorherzusagen, wodurch a(1) mit b(1) assoziiert wird. Als nächstes werden a(2) und dann b(2) dargeboten. Der Vektor a(2) aktiviert zuerst J = 1 ohne Rücksetzen, da
Dennoch sagt der Knoten J = 1 den Knoten K = 1 vorher. Da
führt die ARTb zur Aktivierung (Auswahl) eines unterschiedlichen F&sub2;b Knotens, K = 2. Aufgrund des Konflikts zwischen der Vorhersage (K = 1), die durch den aktiven F&sub2;a Knoten getroffen wurde, und dem momentan aktiven F&sub2;b Knoten (K = 2), setzt das Eintragungsfeldorientierungsuntersystem F&sub2;a zurück, aber ohne Übereinstimmungsablaufverfolgung. Damnach lernt ein neuer F&sub2;a Knoten (J = 2) den korrekten F&sub2;b Knoten (K = 2) vorherzusagen, wobei a(2) mit b(2) assoziiert wird.
Der Vektor a(3) aktiviert zuerst J = 2 ohne ein ARTa Rücksetzen, wodurch K = 2 vorhergesagt wird, mit z&sub2;b = b(2). Dennoch stimmt b(3) nicht mit z&sub2;b überein, was zur Aktivierung des F&sub2;b Knotens K = 1 führt, da b(3) = B(1). Da der vorhergesagte Knoten (k = 2) sich dann vom aktiven Knoten (k = 1) unterscheidet, setzt das Eintragungsfeldorientierungsuntersystem wieder F&sub2;a zurück. Bis dahin würde der F&sub2;a Knoten J = 1 immer noch ohne Übereinstimmungsablaufverfolgung aktiv werden, ohne nachfolgendes ARTa Rücksetzen, da z&sub1;a = a(1) und
Da der Knoten J = 1 korrekterweise den aktiven Knoten K = 1 vorhersagt, würde kein weiteres Rücksetzen oder neues Lernen auftreten. Bei nachfolgenden Vorhersageversuchen würde Vektor (3) noch einmal J = 2 und dann K = 2 aktivieren. Wenn der Vektor b(3) in einem Testversuch nicht präsentiert wird, würde der Vektor a(3) seine korrekte Vorhersage nicht gelernt haben; vielmehr würde b(2) unkorrekterweise vorhergesagt werden.
Bei der Übereinstimmungsablaufverfolgung, wenn a(3) präsentiert wird, bewirkt das Eintragungsfeldorientierungsuntersystem, daß a auf einen Wert ansteigt, der leicht größer ist als a(3) a(2) &supmin; ¹ = 0.8, während der Knoten J = 2 aktiv ist. Daher, nachdem der Knoten J = 2 zurückgesetzt wurde, wird der Knoten J = 1 ebenso zurückgesetzt, da
Das Zurücksetzen des Knotens J = 1 erlaubt es a(3) einen unbestimmten F&sub2;a-Knoten (J=3) auszuwählen, der dann mit dem aktiven F&sub2;b-Knoten assoziiert (K=1) wird. Da der Vektor a(3) beim neuen J=3 Knoten exakt gelernt wird, werden nachfolgende a(3)-Eingaben J=3 direkt bei jeder Überwachung auswählen; J=2 wird nicht zuerst ausgewählt. Danach sagt jede ARTa-Eingabe die korrekte ARTb-Ausgabe voraus, ohne Suche oder Fehler, die durch die niedrigere Überwachungsgrundstufe unberührt bleiben.
Falls eine hohe Überwachungsstufe anfänglich als Überwachungsgrundstufe gesetzt worden ist, würden a(1), a(2) und a(3) bei den Knoten J = 1, 2 und 3 gelernt werden, mit einem Zurücksetzen auf die Grundüberwachung und ohne dem Erfordernis eines Zurücksetzens von dem Eintragungsfeld. Dennoch würde in einem typischen System die hohe Grundüberwachung in kleineren Kategorien resultieren, das heißt in präziseren Kategorien für alle Eingabemuster. Daher gäbe es einen unnötigen Verlust bei der Verallgemeinerung. Durch Vorsehen einer niedrigen Überwachungsstufe, die wenn notwendig, bei einer Fehlübereinstimmung im Eintragungsfeld im Ablauf verfolgt wird, ist das System fähig die Verallgemeinerung bei niedriger Überwachungsstufe zu maximieren, während der Vorhersagefehler durch die Ablaufverfolgung für eine höhere Überwachung, wo erforderlich, minimiert wird. Bei der Wahl der Grundüberwachung muß man das Erfordernis für die Verallgemeinerung gegen das Risiko von frühen Vorhersagefehlern im Lernvorgang abwägen.
Das Werkzeug der ARTa-Komplementkodierung wird im nachfolgenden Beispiel dargestellt. Angenommen, daß die gesetzten Eingangspaare in Tabelle 7 einem ARTMAP-System in der Reihenfolge (a(3), b(³)), (a(2), b(2)), (a(1), b(1)) mit Übereinstimmungsablaufverfolgung aber ohne Komplementkodierung dargeboten werden. Wähle a< 0.5 und b> 0.
Die Vektoren a(3) und b(3) werden dargeboten und aktivieren die ARTa und ARTb Kategorien J=1 und K=1. Das System lernt b(3) vorherzusagen, bei gegebenen a(3), durch Assoziieren des F&sub2;a- Knotens J = 1 mit dem F&sub2;b-Knoten K = 1.
Als nächstes werden die Vektoren a(2) und b(2) dargeboten. Der Vektor a(2) aktiviert zuerst J =1 ohne Zurücksetzen, da a(2) z&sub1;a a(2) &supmin;¹ = 1≥ a = a. Dennoch sagt der Knoten J = 1 den Knoten K = 1 voraus. Wie im vorherigen Beispiel wird der F&sub2;b- Knoten, nachdem b(2) dargeboten wurde, aktiv und führt zu einer ART-Zwischenrücksetzung. Die Übereinstimmungsablaufverfolgung macht a > 1, so daß F&sub2;a abschaltet bis die Paare (a(2), b(2)) abschalten. Das Muster b(2) schaltet ab bis das Paar (a(2), b(2)) abschaltet. Das Muster b ist in ARTb als z&sub2;b kodiert, aber ein Lernen in den ARTa und Fab-Modulen tritt nicht auf.
Als nächstes aktiviert a(1) den J =1 ohne Rücksetzen, da a(1) z&sub1;a a(1) &supmin;¹ = 1≥ a = a. Da der Knoten J = 1 das korrekte Muster b(1) = z&sub1;b vorhersagt, folgt kein Rücksetzen. Lernen tritt dennoch auf, da zaa auf a(1) zusammenschrurnpft. Wenn jede Eingabe nur einmal dargeboten werden kann, lernt es a(2) nicht, b(2) vorherzusagen. Falls die Eingabepaare dennoch wiederholt dargeboten werden, erlaubt es die Übereinstimmungsablaufverfolgung, den ARTa 3 Kategorieknoten und eine genaue Eintragung einzurichten.
Bei der Komplementkodierung kann die korrekte Eintragung on- line für jedes a > 0 gelernt werden. Der kritische Unterschied ist durch die Tatsache bedingt, daß a(2) z&sub1;a a(2) &supmin;¹ nun vielmehr 5/6, wenn a(2) zuerst dargeboten wird, als wie zuvor einer 1 gleicht. Daher richtet jedes ARTa Rücksetzen (falls a > 5/6) oder jede Übereinstimmungsablaufverfolgung eher einen neuen ARTa-Knoten ein, als bei diesem Versuch abzuschalten. Beim nächsten Versuch richtet a(1) ebenso eine neue ARTa-Kategorie ein, welche auf b(1) eingetragen ist.

Simulationsalgorithmen

ART 1 Algorithmus

Das Schnell-Lern ART 1 mit binärem F&sub0; T F&sub1; Eingabevektor I und Auswahl bei F&sub2; kann durch Befolgen der nachfolgenden Regeln simuliert werden. Die Felder F&sub0; und F&sub1; haben M Knoten und Feld F&sub2; hat N Knoten.
Anfänglich sollen alle F&sub2; Knoten unbestimmt sein. Die Gewichtungen Zij in den F&sub1; T F&sub2; Leitwegen genügen anfänglich
Zij(0) = aj, (A1)
wobei Zj (Zlj, ..., Zmj) den bottom-down F&sub1; T F&sub2; Gewichtungsvektor. Die Parameter αj sind gemäß
α&sub1; > α&sub2; > ... > αN, (A2)
geordnet, wobei
0 < a&sub1; < 1/(β + I ) (A3)
für β > 0 und für jede zugelassene F&sub0; T F&sub1; Eingabe I. In den 20 Simulationen dieses Artikels sind αj und β klein.
Die Gewichtungen zji in den F&sub2; T F&sub1; Leitwegen genügt anfänglich
zjj (0) = 1 (A4)
Der top-down, F&sub2; T F&sub1; Gewichtungsvektor (zji, ..., zjM) wird als zj bezeichnet.
Der binäre F&sub1; Ausgangsvektor x (x&sub1;, ..., xM) ist gegeben zu falls nicht aktiv ist falls der te Knoten aktiv ist
Die Eingabe Tj von F&sub1; an jeden j-ten F&sub2; Knoten gehorcht falls j ein unbestimmter Knotenindex ist
Der Satz bestimmter F&sub2; Knoten und auf den neuesten Stand gebrachter Regeln für die Vektoren zj und Zj wird iterativ nachfolgend definiert.
Falls F&sub0; aktiv ist ( I > ), ist die Anfangswahl bei F&sub2; ein Knoten mit dem Index J, der
genügt.
Falls mehr als ein Knoten maximal ist, wird einer dieser zufällig ausgewählt. Nach einer Eingabedarbietung, bei welcher der Knoten J ausgewählt wird, wird J bestimmt. Der F&sub2; Ausgangsvektor wird durch y (Y1, ..., yN) bezeichnet.
Die ART 1 Suche endet aufgrund der Aktivierung einer F&sub2; Kategorie mit dem Index j = J, der den größten Tj Wert hat und der der Ungleichung
I zj ≥ I (A8)
genügt, wobei der ART 1 Überwachungsparameter ist. Falls ein derartiger Knoten existiert, bleibt dieser Knoten für den Rest der Eingabedarbietung aktiv, oder in Resonanz. Falls kein Knoten (A8) genügt, bleibt F&sub2; nach der Suche inaktiv bis I abschaltet.
Am Ende einer Eingabedarbietung genügt der F&sub2; T F&sub1; Gewichtungsvektor ZJ
ZJ = I ZJ(alt) , (A9)
wobei zJ(alt) zu Beginn der aktuellen Eingabedarbietung zJ bezeichnet. Der F&sub1; T F&sub2; Gewichtungsvektor ZJ genügt

ARTMAP Algorithmus

Das ARTMAP System beinhaltet zwei ART Module und ein ART- Zwischenmodul, welche durch die folgenden Regeln verbunden sind.
ARTa und ARTb sind Schnell-Lern ART 1 Module. Eingaben für ARTa können optional in der Komplementkodierungsform sein. Eingebunden in ein ARTMAP-System arbeiten diese Module, wie oben dargelegt, mit den folgenden Zusätzen. Zuerst kann der ARTa Überwachungsparameter a, während des ART-Zwischenrücksetzens gemäß der Übereinstimmungsablaufverfolgungsregel, erhöht werden. Zweitens kann das Eintragungsfeld Fab die ARTb vorbereiten. Das heißt, falls F eine uneinheitliche Eingabe an F&sub2;b in Abwesenheit einer F&sub0;b T F&sub1;b Eingabe b sendet, dann bleibt F&sub2;b inaktiv. Dennoch, sobald eine Eingabe b ankommt, wählt F&sub2;b den Knoten K aus, der die größte Fab T F&sub2;b Eingabe erhält. Der Knoten K wiederum sendet die top-down Eingabe zKb an F&sub1;b. Regeln für die Übereinstimmungsablaufverfolgung und die Komplementkodierung werden nachfolgend spezifiziert.
Es soll xa (x&sub1;a ... xMaa) den F&sub1;a Ausgangsvektor bezeichnen; ya (y&sub1;a ... yNaa) soll den F&sub2;a Ausgangsvektor bezeichnen; xb (x&sub1;b ... xMbb) soll den F&sub1;b Ausgangsvektor; und yb (y&sub1;b ... yNbb) soll den F&sub2;b Ausgangsvektor bezeichnen. Das Eintragungsfeld Fab hat Nb Knoten und den binären Ausgangsvektor x. Die Vektoren xa, ya, xb, yb und x werden zwischen den Eingabedarbietungen auf gesetzt.
Das Lernen des Eintragungsfelds findet wie folgt statt. Die Gewichtungen wj, mit j = 1 ...Na, in den F&sub2;a T Fab Leitwegen genügen anfänglich
wjk(0) = 1. (A11)
Jeder Vektor (wj1, ...wjNb) ist als wj bezeichnet. Während Resonanz, mit aktiver ARTa Kategorie J, wird wj T x. Beim Schnell-Lernen ist die Assoziierung dauerhaft, wenn J einmal gelernt hat, die ARTb Kategorie K vorherzusagen; z.B. wJK =1 für alle Zeiten.
Die Aktivierung des Eintragungsfelds erfolgt wie folgt. Der Fab Ausgangsvektor x beachtet falls der Knoten kativ ist und aktiv ist falls inaktiv und aktiv ist
Die Übereinstimmungsablaufverfolgung erfolgt wie folgt. Zu Beginn einer jeden Eingabedarbietung gleicht der ARTa Überwachungsparameter a einer Grundüberwachung a. Der Eintragungsfeldüberwachungsparameter ist . Falls
x < yb , (A13)
dann wird a erhöht bis es leicht größer als a zJa a &supmin;¹ ist. Dann
xa = a zJa < a a , (A14)
wobei a der momentane ARTa Eingabevektor und J der Index des aktiven F2a Knotens ist. Wenn dies auftritt, führt die ARTa Suche entweder zur Aktivierung eines neuen F&sub2;a Knotens J mit
xa = a zJa ≥ a a (A15)
und
x = yb wJ ≥ yb ; (A16)
oder, falls kein derartiger Knoten existiert, zum Abschalten des F&sub2;a für den Rest der Eingabedarbietung.
Das optionale Kennzeichen für eine Komplementkodierung ordnet die ARTa Eingaben als Vektoren
(a,ac) (a&sub1;...aMa,a&sub1;c...aMaa), (A17)
an, wobei
aic 1 - ai. (A18)
Die Komplementkodierung kann sinnvoll sein, wenn der folgende Satz von Umständen auftreten könnte: ein ARTa Eingabevektor a aktiviert einen F&sub2;a Knoten J, der zuvor mit einem F&sub2;b Knoten K assoziiert wurde; die momentane ARTb Eingabe b stimmt nicht mit zKb überein; und a ist eine Untermenge von zJa. Diese Umstände treten nie auf, wenn alle a konstant sind. Bei den Simulationen dieses Artikels, ist a 22. Bei Komplementkodierung ist (a,ac) Ma.

ARTMAP Verarbeitung

Die folgenden neun Fälle fassen die Schnell-Lern ARTMAP Systemverarbeitung mit Auswahl bei F&sub2;a und F&sub2;b und mit der Eintragungsfeldüberwachung > 0 zusammen. Eingaben a und b können alleine auftreten oder eine vor der anderen. Die Eingabe a könnte basierend auf früherem Lernen eine Vorhersage treffen oder keine Vorhersage treffen. Falls a eine Vorhersage trifft, kann diese Vorhersage von b bestätigt oder nicht bestätigt werden. Das System folgt den Regeln die im vorherigen Abschnitt dargelegt wurden unter der Annahme, wie in den Simulationen, daß alle a konstant sind und daß die Komplementkodierung nicht verwendet wird. Für jeden Fall sind die sich verändernden Gewichtungsvektoren ZJa, zKb und wK aufgelistet. Gewichtungsvektoren Zja und Zkb verändern sich gemäß (A11). Alle anderen Gewichtungen bleiben konstant.
Fall 1: nur a, keine Vorhersage. Die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten J, möglicherweise gefolgt von einer ARTa Suche. Alle F&sub2;a T Fab Gewichtungen wJk = 1. ARTb bleibt inaktiv. Beim Lernen zJa T zJa(alt) a.
Fall 2: nur a, mit Vorhersage. Die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten J. Gewichtung WJK = 1 während alle anderen wJK = 0, und x = wJ. F&sub2;b wird vorbereitet , bleibt aber inaktiv. Beim Lernen zJa T ZJa(alt) a.
Fall 3: nur b. Die Eingabe b aktiviert einen übereinstimmenden F&sub2;b Knoten K, möglicherweise gefolgt von einer ARTb Suche. Im Eintragungsfeld x = yb. ARTa bleibt inaktiv. Beim Lernen zJb T ZJb(alt) b.
Fall 4: a dann b, keine Vorhersage. Die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten J. möglicherweise gefolgt von einer ARTa Suche. Alle xk werden 1 und ARTb ist inaktiv wie im Fall 1. Die Eingabe b aktiviert dann einen übereinstimmenden F&sub2;b Knoten K, wie im Fall 3. Im Eintragungsfeld x T yb; das heißt, xK = 1 und andere xk = 0. Beim Lernen zJa T zJa(alt) a, zJb T zJb(alt) b, und wJ T yb; z.B., J lernt K vorherzusagen.
Fall 5: a dann b, mit bestätigter Vorhersage. Die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten J, welcher wiederum einen einzelnen Eintragungsfeldknoten K aktiviert und F&sub2;b vorbereitet, wie im Fall 2. Wenn die Eingabe b ankommt, wird der K- te F&sub2;b Knoten aktiv und die Vorhersage wird bestätigt; das heißt,
b zKb ≥ b b (A19)
Es ist zu bemerken, daß K nicht der F&sub2;b Knoten sein kann, den b ohne die Fab T F&sub2;b Vorbereitung ausgewählt hätte. Beim Lernen, zJa T ZJa(alt) a und zJb T zJb(alt) b.
Fall 7: a dann, b nicht bestätigte Vorhersage. Die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten, welcher wiederum einen einzelnen Eintragungsfeldknoten aktiviert und F&sub2;b vorbereitet, wie im Fall 5. . Wenn die Eingabe b ankommt, schlägt (A19) fehl, was zu einem Rücksetzen des F&sub2;b Knotens über ein ARTb Rücksetzen führt. Ein neuer F&sub2;b Knoten K, der mit b übereinstimmt, wird aktiv. Die Fehlübereinstimmung zwischen dem F&sub2;a T Fab Gewichtungsvektor und dem neuen F&sub2;b Vektor yb sendet mittels (A12) eine Eintragungsfeldaktivität x auf 0, was mittels (A13) zu einem Eintragungsfeldrücksetzen führt. Durch die Übereinstimmungsablaufverfolgung, wächst a bis (A14) anhält. Dies löst eine ARTa Suche aus, die fortfährt bis, für einen aktiven F&sub2;a Knoten J, wJK= 1 und (A15) anhält. Falls ein derartiger F&sub2;a Knoten aktiv wird, folgt ein Lernen, wodurch zJa T zJa(alt) a und zJb T zJb(alt) b gesetzt wird. Falls der F&sub2;a Knoten J unbestimmt ist, setzt das Lernen wJ T yb. Falls kein F&sub2;a Knoten J, der aktiv wird, (A15) und (A16) genügt, so schaltet F&sub2;a ab bis die Eingabe beendet ist. In diesem Fall, beim Lernen, zJb T zJb(alt) b.
Fall 7: b dann a, keine Vorhersage. Die Eingabe b aktiviert einen übereinstimmenden F&sub2;b Knoten K, dann X = yb, wie im Fall 3. Die Eingabe a aktiviert dann einen übereinstimmenden F&sub2;a Knoten J mit allen wJk 1. Im Eintragungsfeld bleibt x gleich yb. Beim Lernen zJa T zJa(alt) a,wJ T yb, und zKb T zKb(alt) b.
Fall 8: b dann a, mit bestätigter Vorhersage. Die Eingabe b aktiviert einen übereinstimmenden F&sub2;b Knoten K, dann x = yb, wie im Fall 7. Die Eingabe a aktiviert dann einen übereinstimmenden F&sub2;a Knoten J mit wJK = 1 und allen anderen wJk = 0. Beim Lernen zJa T zJa(alt) a, und zKb T zKb(alt) b.
Fall 9: b dann a, mit nicht bestätigter Vorhersage. Eingabe b aktiviert einen übereinstimmenden F&sub2;b Knoten K, dann x = yb und die Eingabe a aktiviert einen übereinstimmenden F&sub2;a Knoten wie im Fall 8. Dennoch schlägt (A16) fehl und x T 0, was zu einem Eintragungsfeldrücksetzen führt. Die Übereinstimmungsablaufverfolgung setzt a zurück wie im Fall 6, die ARTa Suche führt zur Aktivierung eines F&sub2;a Knotens (J), welcher entweder K vorhersagt oder keine Vorhersage trifft oder F&sub2;a abschaltet. Beim Lernen zKb T zKb(alt) b. Falls J existiert, zJa T zJa(alt) a; und falls J anfänglich keine Vorhersage trifft, wj Tyb, z.B., J lernt K vorherzusagen.

ARTMAP Simulationen: Unterscheiden von eßbaren und giftigen Pilzen.

Das ARTMAP System wurde auf einer Benchmark-Maschine mit lernender Datenbank getestet, die einen Satz von Vektoren in zwei Klassen unterteilt. Jeder Vektor a charakterisiert erkeunbare Kennzeichen eines Pilzes als binären Vektor und jeder Pilz wird als eßbar oder giftig klassifiziert. Die Datenbank stellt die 11 Arten von der Gattung Agaricus und die 12 Arten der Gattung Lepiota dar, die in The Audubon Society Field Guide to North American Mushrooms¹&sup9; beschrieben sind. Diese zwei Gattungen bilden die meisten der Pilze von der Familie Agaricaceae (Reihenfolge Agaricales, Klasse Hymenomycetes, Unterabteilung Basidiomycetes, Abteilung Eumycota), die in dem Field Guide beschrieben sind. Alle in der Datenbank dargestellten Pilze sind einander ähnlich: "Diese Pilze sind in einer einzigen Familie basierend auf einer Korrelation von Charakteristika angeordnet, welche mikroskopische und chemische Kennzeichen beinhalten..."¹&sup9; (Seite 500). Der Field Guide warnt, daß giftige und eßbare Sorten aufgrund ihrer sichtbaren Kennzeichen schwierig zu unterscheiden sein können. Zum Beispiel ist die giftige Sorte Agaricus californicus als ein "Doppelgänger" für den Wiesenpilz, Agaricus campestris, beschrieben, der " besser bekannt sein dürfte und mehr als andere wilde Pilze in Nordamerika gesammelt wird" (Seite 505). Diese Datenbank stellt daher einen Test bereit, wie ARTMAP und andere maschinelle Lernsysteme, der seltene aber wichtige Ereignisse von häufig auftretenden Ansammlungen ähnlicher Ereignisse unterscheidet, die zu unterschiedlichen Folgerungen führen.
Die Datenbank für 8124 Exemplare beschreibt jedes der 22 sichtbaren Kennzeichen eines Pilzes zusammen mit seiner Klassifikation als giftig (48.2%) oder eßbar (51.8%). Diese 8124 "hypothetischen Exemplare" geben Charakteristikränge innerhalb jeder Sorte wieder; zum Beispiel sind beide Agaricus californicus und Agaricus campestris als mit einer "weißen bis braunen Kappe" versehen beschrieben, so daß in der Datenbank jede Sorte zugehörige Sätze von Exemplarvektoren aufweist, die den Bereich der Kappenfarben darstellen. Es gibt 126 verschiedene Werte der 22 verschiedenen sichtbaren Kennzeichen. Eine Liste der sichtbaren Kennzeichen und ihrer möglichen Werte ist in Tabelle 2 gegeben. Zum Beispiel hat das sichtbare Kennzeichen der "Kappenform" sechs mögliche Werte. Demzufolge sind die Vektoreingaben für ARTa 126- binäre Elementvektoren, wobei jeder Vektor 22 l'sen und 104 0'en aufweist, um die Werte eines der 22 sichtbaren Kennzeichen eines Exemplars zu bezeichnen. Die ARTb Eingabevektoren sind (1, 0) für giftige Exemplare und (0, 1) für eßbare Exemplare.
Das ARTMAP System lernte die Testvektoren schnell und genau zu klassifizieren und die Systemleistung ist im Vergleich zu anderen Maschinenlernalgorithmen, die auf die selbe Datenbank angewendet werden, zu bevorzugen. Der STAGGER Algorithmus erreicht seine maximale Leistungsstufe von 95% Genauigkeit nach dem Unterwerfen von 1000 Trainingseingaben²&sup0;. Der HILLARY- Algorithmus erreichte ähnliche Ergebnisse²¹. Das ARTMAP-System erreichte durchwegs mehr als 99% Genauigkeit bei 1000 Exemplaren, selbst wenn "Ich weiß es nicht"-Antworten als Fehler gezählt werden. Eine Genauigkeit von 95% wurde normalerweise bei einem on-line Training von 300 - 400 Exemplaren erreicht und bei einem off-line Training mit 100 - 200 Exemplaren. In diesem Sinne war ARTMAP um eine Größenordnung wirkungsvoller als die alternativen Systeme. Zusätzlich, bei fortgesetztem Training, verbesserte sich die ARTMAP Vorhersagegenauigkeit auf 100%. Diese Ergebnisse sind nachfolgend herausgearbeitet.
Beinahe jede ARTMAP Simulation war in unter zwei Minuten auf einem IRIS 4D Computer fertig, bei einer Gesamtzeit im Bereich von einer Minute für kleine Trainingssätze bis zu zwei Minuten für große Trainingssätze. Dies ist vergleichbar mit 2-5 Minuten auf einem SUN 4 Computer. Jede zeitlich regulierte Simulation beinhaltete insgesamt 8124 Trainings- und Testmuster, die auf einem Time-Sharing-System mit nicht optimierten Code abgelaufen sind. Jede 1-2 minütige Berechnung beinhaltete Datenein- und Datenausgeben, Training, Test und Berechnung der vielfachen Simulationsindizes.
Das On-line Lernen bildet die Bedingungen eines Menschen oder einer Maschine nach, die in einer natürlichen Umgebung arbeitet. Eine Eingabe a kommt an und führt möglicherweise zu einer Vorhersage. Falls geschehen, kann die Vorhersage bestätigt werden oder nicht. Es folgt Lernen, abhängig von der Genauigkeit der Vorhersage. Information über vergangene Eingaben ist nur über den momentanen Systemzustand zugänglich. Simulationen des On-line Lernens durch das ARTMAP-System verwenden jedes Beispielpaar (a, b) für beide, als einen Testgegenstand und als einen Trainingsgegenstand. Die Eingabe a macht zuerst eine Vorhersage, die mit b verglichen wird. Das Lernen folgt, wie durch die internen Regeln der ARTMAP- Architektur befohlen.
Es wurden vier Arten der on-line Simulation durchgeführt mit zwei verschiedenen Grundeinstellungen der ARTa-Überwachungsparameter a: a =0 (forcierte Auswahlbedingung) und a = 0.7 (konservative Bedingung) ; und Verwendung von Musterersetzen oder keinem Musterersetzen. Bei Musterersetzen, wurde irgend eines der 8124 Eingabemuster zufällig für jede Eingabedarbietung ausgewählt. Ein gegebenes Muster könnte daher wiederholt angetroffen worden sein während andere immer noch nicht verwendet wurden. Bei keinem Musterersetzen wurde ein Muster aus dem Eingabepool entfernt nachdem es zum ersten Mal angetroffen wurde. Die Ersatzbedingung hatte den Vorteil, daß wiederholtes Erscheinen dazu neigt, die Vorhersagegenauigkeit zu verstärken. Die "kein Musterersetzen"-Bedingung hatte den Vorteil, daß aus einem ein wenig größeren Satz von Eingaben bei jedem Simulationspunkt gelernt wurde. Die Ersetzen- und nicht Ersetzen-Bedingung hatten ähnliche Leistungsindizes, alle anderen Dinge waren gleich. Jede der 4 Bedingungen lief unter 10 unabhängigen Simulationen. Bei a = 0, machte das System eine Vorhersage als Antwort auf jede Eingabe. Eine Einstellung von a = 0.7 erhöhte die Anzahl von "Ich weiß es nicht"-Antworten, erhöhte die Anzahl von ARTa Kategorien und verminderte die Rate falscher Vorhersagen auf nahezu 0%, selbst früh im Training. Die a = 0.7 Bedingung war im allgemeinen der a = 0 Bedingung überlegen, selbst wenn beide, falsche Vorhersagen und "Ich weiß es nicht"-Antworten, als Fehler gezählt wurden. Die primäre Ausnahme tauchte sehr früh im Training auf, wenn ein konservatives System die große Mehrheit seiner "keine Vorhersagen"- Antworten gibt.
Die Ergebnisse sind in Tabelle 3 zusammengefaßt. Jeder Eintrag gibt die Anzahl korrekter Vorhersagen über die 100 vorherigen Versuche (Eingabedarbietungen), gemittelt über die 10 Simulationen, wieder. Bei a = 0 unter der Kein-Ersetzen- Bedingung zum Beispiel, machte das System im Durchschnitt 94.9 korrekte Vorhersagen und 5.1 falsche Vorhersagen bei den Versuchen 201-300. In allen Fällen wurde eine 95% richtige- Vorhersagerate vor dem Versuch 400 erreicht. Bei a = 0 wurde bei Versuch 1400 eine konsequent richtige Vorhersagerate von über 99% erreicht, während bei a = 0.7 die konsequente 99% richtige Vorhersagerate früher bei Versuch 800 erreicht wurde. Jede Simulation wurde für 8100 Versuche wiederholt. In allen vier Fällen überschritt die minimale richtige Vorhersagerate 99.8% bei Versuch 2800. In allen Fällen, über die gesamten in Tabelle 2 zusammengefaßten 40 Simulationen, wurde eine 100% richtige Vorhersage bei den letzten 1300 Versuchen in jedem Durchlauf erreicht.
Beachte die relativ niedrige richtige Vorhersagerate für a = 0.7 bei den ersten 100 Versuchen. Im konservativen Modus treffen eine große Anzahl von Eingaben anfänglich keine Vorhersage. Bei = 0.7 wurde ein Gesamtdurchschnitt von nur 2 falschen Vorhersagen bei jedem Durchlauf von 8100 Versuchen gemacht. Beachte zudem, daß Tabelle 3 die Vorhersagegenauigkeit zu irgendeinem Zeitpunkt unterschätzt, da sich die Leitung fast immer während der 100 Versuche, über welche die Fehler tabellarisch geordnet sind, verbessert.
Beim off-line Lernen wird ein fester Trainingssatz wiederholt dem System dargeboten bis 100% Genauigkeit bei diesem Satz erreicht wurde. Bei Trainingssätzen deren Größe im Bereich von 1 bis 4000 Mustern liegt, wurde eine 100% Genauigkeit fast immer nach einer oder zwei Darbietungen eines jeden Trainingssatzes erreicht. Die Systemleistung wurde dann auf den Testsatz gemessen, welcher aus allen 8124 Mustern, die nicht im Trainingssatz beinhaltet waren, bestand. Während des Testens trat kein weiteres Lernen auf.
Die Rolle der wiederholten Trainingsatzdarbietungen wurde durch Vergleichssimulationen geprüft, die das 100% Trainingssatzgenauigkeitskriterium bei Simulationen verwendeten, welche nur eine einzige Darbietung einer jeden Eingabe während des Trainings verwendeten. Bei nur wenigen Erwartungen war die Leistung ähnlich. Tatsächlich wurde bei a = 0.7 und bei kleinen Trainingssätzen mit a = 0 eine 100% Trainingssatzgenauigkeit mit der einzelnen Eingabedarbietung erreicht, obwohl die Ergebnisse identisch waren. Leistungsunterschiede waren für a = 0 Simulationen mit Trainingssätzen mittlerer Größe (60 - 500 Muster) am größten, wenn 2-3 Trainingssatzdarbietungen dazu neigten, ein paar mehr ARTa gelernte Kategorieknoten hinzuzufügen. Daher kann auch nur eine einzelne Darbietung von Training- dann-Test-Eingaben, die on-line ausgeführt wird, gemacht werden, um genausogut zu funktionieren wie das off-line Training, welches wiederholte Darbietungen des Trainingssatzes verwendet. Dies ist ein wichtiger Vorzug des Schnell-Lernens, das durch eine Übereinstimmungsablaufverfolgungssuche gesteuert wird. Die in der Tabelle 4 zusammengefaßten Simulationen stellen das off-line Lernen mit a = 0 dar. In diesem forcierten Fall, führt jede ARTa Eingabe zu einer giftig- oder eßbar- Vorhersage. Die Anzahl von Testsatzfehlern bei kleinen Trainingssätzen war aufgrund der forcierten Auswahl relativ groß. Die Tabelle stellt die Systemleistung nach dem Training für Eingabesätze im Größenbereich von 3 bis 4000 Exemplare dar. Jede Linie zeigt den Durchschnitt der korrekten und falschen Testsatzvorhersagen über 10 unabhängige Simulationen dar plus dem Bereich der gelernten ARTa Kategorieanzahl.
Tabelle 4 faßt die Durchschnittsergebnisse über 10 Simulationen bei jeder Größe des Trainingssatzes zusammen. Zum Beispiel führte das System bei sehr kleinen 5-Mustern-Trainingssätzen zwischen 1 und 5 ARTa Kategorien ein und erzielte im Mittel 73.1% korrekte Antworten bei den übrigen 8119 Testmustern. Die Erfolgsraten lagen in einem Fall im Bereich von Zufall ( 51.8%, eine Kategorie), wo alle fünf Trainingssatzexemplare eßbar waren, bis zu einem erstaunlichen gut (94.2%, 2 Kategorien). Der Bereich der Erfolgsraten für das Schnell-Lern Training bei sehr kleinen Trainingssätzen stellt die statistische Eigenheit des Lernvorgangs dar. Intelligentes Abtasten des Trainingssatzes oder, wie hier, viel Glückbei der Auswahl der repräsentativen Muster kann die frühe Erfolgsrate dramatisch verändern. Zusätzlich ist die Entwicklung der internen Kategoriespeicherstruktur, die durch jeden Satz von ARTa Kategorieknoten und deren top-down gelernten Erwartungen dagestellt wird, durch die Auswahl der frühen Exemplare beeinflußt. Nichtsdestotrotz, ungeachtet der individuellen Eigenart der Lemraten und internen Darstellungen, konvergieren schließlich alle Systeme zur 100% Genauigkeit bei den Testsatzexemplaren , wobei nur (ungefähr) 1/600 der ARTa Kategorien verwendet wurden, wie es zu klassifizierende Eingaben gibt.
Wie im Fall der giftigen Pilze-Erkennung kann es für ein System wichtig sein, fähig zu sein "Ich weiß es nicht" auf eine neue Eingabe zu antworten, auch wenn dabei früh beim Lernen die gesamte Anzahl der richtigen Klassifizierungen abnimmt. Für höhere Werte der Grundüberwachung a erzeugt das ARTMAP-System mehr ARTa-Kategorien während des Lernens und wird weniger fähig, aus früherer Erfahrung zu verallgemeinern als wenn a gleich 0 ist. Während des Tests trifft ein konservatives Kodierungssystem mit a= 0.7 keine Vorhersage als Antwort auf Eingaben, die zu neu sind und hat daher anfänglich ein geringeres Maß richtiger Antworten. Dennoch ist die Anzahl falscher Antworten bei a =0.7 immer niedrig, auch bei sehr wenig Trainingsexemplaren, und die 99% richtige Antworten-Rate wird für beide, die forcierte Auswahl- ( a = 0) und die konservativen ( a = 0.7) Systeme bei Trainingssätzen kleiner als 1000 Exemplaren erreicht.
Tabelle 5 faßt die Simulationsergebnisse zusammen, die die Bedingungen aus Tabelle 4 wiederholen mit der Ausnahme, daß a = 0.7. Hier trifft eine Testeingabe, die keine 70% -Übereinstimmung mit irgendeiner gelernten Erwartung macht, eine "Ich weiß es nicht" Vorhersage. Im Vergleich mit dem a = 0 Fall aus Tabelle 4 zeigt Tabelle 5, daß größere Trainingssätze erforderlich sind, um eine richtige Vorhersagerate von uber 95% zu erreichen. Dennoch, aufgrund der Option, keine Vorhersage zu treffen, ist die Durchschnittstestsatzfehlerrate meistens kleiner als 1%, auch wenn der Trainingssatz sehr klein ist und nach 500 Trainigsversuchen geringer als 0.1% ist. Vielmehr wird eine 100% Genauigkeit unter Verwendung von nur (ungefähr) einem 1/130 der ARTa Kategorien, wie es zu klassifizierende Eingaben gibt, erreicht.
Jeder ARTMAP Kategoriekode kann als ein Satz von ARTa Kennzeichenwerte von 1 bis 22 sichtbaren Kennzeichen beschrieben werden, die aus 126 Kennzeichenwerten ausgewählt sind, welche mit der ARTb Identifikation als giftig oder eßbar assoziiert sind. Während dem Lernen steigt die Anzahl von Kennzeichenwerten, die eine gegebene Kategorie charakterisieren, monoton an, so daß eine Verallgemeinerung innerhalb einer gegebenen Kategorie zu einer Erhöhung neigt. Die Gesamtzahl der Klassen kann dennoch ebenfalls ansteigen, was zu einer Verminderung der Verallgemeinerung führt. Eine Erhöhung der Anzahl von Trainingsmustern führt hierbei zu einer Erhöhung der Kategorieanzahl und einer Verminderung der Anzahl der kritischen Kennzeichenwerte jeder eingeführten Kategorie. Das Gleichgewicht zwischen diesen sich gegenüberstehenden Tendenzen führt zu der endgültigen Netzstufe der Verallgemeinerung.
Tabelle 6 zeigt den Langzeitspeicheraufbau, der der 125-Muster forcierten-Auswahl-Simulation a = 0 unterliegt. Von den neun Kategorien, die am Ende der Trainingsphase eingeführt wurden, werden 4 als giftig (P) und 5 als eßbar (E) identifiziert. Die Kategorien 1, 5, 7 und 8 sind als giftig (P) und die Kategorien 2, 3, 4, 6, und 9 als eßbar (E) identifiziert. Jede ARTa Kategorie ordnet einen Kennzeichenwert einer Untermenge von 22 sichtbaren Kennzeichen zu. Zum Beispiel spezifiziert Kategorie 1 (giftig) Werte für 5 Kennzeichen und läßt die verbliebenen 17 Kennzeichen unspezifiziert. Der korrespondierende ARTa Gewichtungsvektor hat 5 Einsen und 121 Nullen. Es ist zu bemerken, daß die Kennzeichen, die die Kategorie 5 (giftig) charakterisieren, eine Untermenge von Kennzeichen bilden, die die Kategorie 6 (eßbar) charakterisieren. Dieser Kategorieaufbau gab 96.4% richtige Antworten für die 7999 Testsatzwerte, welche so unterteilt sind, wie es in der letzten Zeile von Tabelle 5 dargestellt ist. Wenn eine 100% Genauigkeit erreicht wurde, kodieren einige wenige Kategorien mit eine geringen Anzahl von spezifizierten Kennzeichen typischerweise große Cluster, während einige wenige Kategorien mit vielen spezifizierten Kennzeichen kleine Cluster von seltenen Mustern spezifizieren.
Tabelle 7 stellt die statistische Eigenart des Kodiervorgangs dar, welcher zu einer Vielzahl von Kategoriestrukturen führt, wenn das Schnell-Lernen verwendet wird. Die Testsatzvorhersagegenauigkeit der Simulation, die Tabelle 7 erzeugte, war ähnlich der der Tabelle 6, und jede Simulation hatte einen 125- Muster- Trainingssatz. Dennoch erzeugte die Simulation von Tabelle 7 nur 4 ARTa Kategorien, von denen nur eine (Kategorie 1) die gleiche Langzeitspeicherdastellung wie Kategorie 2 in Tabelle 6 hat. Es ist zu bemerken, daß auf dieser Kodierstufe, einige Kennzeichen ohne Information sind. Zum Beispiel sind keine Werte für die Kennzeichen 1, 2, 3, oder 22 in Tabelle 6 oder Tabelle 7 spezifiziert; und das Kennzeichen 16 (Schleier- Typ) hat immer den Wert "partiell". Dennoch ist die Leistung immer noch nur um die 96%. In seltenen Fällen von kleinen Kategorien können einige dieser Kennzeichen, später im Kodiervorgang, kritisch bei der Identifizierung von Exemplaren kleiner Kategorien werden.
Während die Erfindung insbesondere mit Bezug auf ein bevorzugtes Ausführungsbeispiel beschrieben wurde, wird es von einem Fachmann zu verstehen sein, daß verschiedene Veränderungen in Form und Details darin ausgeführt werden können ohne vom Schutzumfang der Erfindung abzuweichen, der durch die nachfolgenden Ansprüche definiert wird. Zum Beispiel würde, bei nur zwei Wahlmöglichkeiten, der giftigen oder ungiftigen als die zweite-Kategorie-Darstellung in der Simulation, wäre ein vollständiges ART-Mustererkennungssystem ARTb nicht erforderlich. In diesem einfachen Fall könnte ARTa, wie beschrieben, als Antwort auf einen einfachen Vergleich zurückgesetzt werden. Dennoch erlaubt die Verwendung eines zweiten Mustererkennungssystems ARTb einen sehr viel komplexeren Vergleich. Des weiteren kann irgendeines der ART Systeme in der vorliegenden Erfindung verwendet werden und die Erfindung kann auch bei anderen neuronalen Netzwerksystemen verwendet werden. Tabelle 2: 22 Sichtbare Kennzeichen und ihre 126 Werte Tabelle 3 Online Lernen Mittlere Anzahl von korrekten Vorhersagen bei den bisherigen 100 Versuchen Tabelle 4: Forciertes offline Auswahl-Lernen Tabelle 5: Konservatives offline Lernen
TEXT FEHLT Tabelle 6 Tabelle 6 (Fortsetzung) Tabelle 7

LITERATUR

[1] Carpenter, G.A. and Grossberg, S. (1988). The ART of adaptive pattern recognition by a self-organizing neural network. Computer, 21, 77-88.
[2] Grossberg, S. (1988a). Nonlinear neural networks: Principles, Mechanisms, and architectures, Neural Networks, 1, 17-61.
[3] Grossberg, S. (1976a). Adaptive pattern classification and universal recoding, I: Parallel development and coding of neural feature detectors. Biological Cybernetics, 23, 121-134.
[4] Grossberg, S. (1976b). Adaptive pattern classification and universal recoding, II: Feedback, expectation, olfaction, and illusions. Biological Cybernetics, 23, 187-202.
[5] Grossberg, S. (1982). Studies of mind and brain: Neural principles of learning, perception, development, cognition, and motor control. Boston: Reidel Press.
[6] Grossberg, S. (Ed.) (1987a). The adaptive brain, I: Cognition, learning, reinforcement, and rhythm. Amsterdam: Elsevier/North-Holland.
[7] Grossberg, S. (Ed.) (1987b). The adaptive brain, II: Vision, speech, language, and motor control. Amsterdam: Elsevier/North-Holland.
[8] Grossberg, S. (Ed.) (1988b). Neural networks and natural intelligence. Cambridge, MA: MIT Press.
[9] Carpenter, G.A. and Grossberg, S. (1987a). A massively parallel architecture for a selforganizing neural pattern recognition machine. Computer Vision, Graphics and Image Processing, 37, 54-115.
[10] Carpenter, G.A. and Grossberg, 6. (1987b). ART 2: Stable self-organization of pattern recognition codes for analog input patterns. Applied Optics, 26, 4919-4930.
[11] Carpenter, G.A., and Grossberg, S. (1990). ART 3: Hierarchical search using chemical transmitters in self-organizing pattern recognition architectures. Neural Networks, 3, 129- 152.
[12] Carpenter, G.A. (1989). Neural network models for pattern recognition and associative memory. Neural Networks, 2, 243-257.
[13] Parker. D.B. (1982). Learning-logic. Invention Report S81-64, File 1, Office of Technology Licensing, Stanford University.
[14] Rumelhart, D.E. and McClelland, J.L. (Eds.), (1986). Parallel distributed processing, Volume 1. Cambridge, MA: MIT Press.
[15] Werbos, P. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Cambridge, MA: Harvard University.
[16] Werbos, P. (1982). Applications of advances in nonlinear sensitivity analysis. In A.V. Balakrishnan, M. Thoma, R.F. Drenick, and F. Kozin (Eds.), Lecture notes in control and information sciences, Volume 38: System modeling and optimization. New York: Springer-Verlag.
[17] Searle, J.R. (1983). Intentionality, an essay in the philosophy of mind. Cambridge: Cambridge University Press.
[18] Schlimmer, J.S. (1987a). Mushroom database. UCI Repository of Machine Learning Databases. (aha ics.uci.edu)
[19] Lincoff, G.H. (1981). The Audubon Society field guide to North American mushrooms. New York: Alfred A. Knopf.
[20] Schlimmer, J.S. (1987b). Concept acquisition through representational adjustment (Technical Report 87-19). Doctoral dissertation, Department of Information and Computer Science, University of California at Irvine.
[21] Iba, W., Wogulis, J., and Langley, P. (1988). Trading off simplicity and coverage in incremental concept learning. In Proceedings of the 5th international conference on machine learning. Ann Arbor, MI: Morgan Kaufmann, 73-79.
[22] Kendall, M.G. and Stuart, A. (1966). Ihe advanced theory of statistics. Volume 3, New York: Haffner, Chapter 43.
[23] Grossberg, S. (1969). On learning and energy-entropy dependence in recurrent and nonrecurrent signed networks. Journal of statistical Physics, 1, 319-350.
[24] Grossberg, S. (1982). Processing or expected and unexpected events during conditioning and attention: A psychophysiological theory. Psychological Review, 89, 529-572.
[25] Grossberg, S. (1984). Some psychophysiological and pharmacological correlates of a developmental, cognitive, and motivational theory. In R. Karrer, J. Gohen, and P. Tueting (Eds.), Brain and information: Event related potentials. New York: New York Academy of Sciences, 58-151.
[26] Bullock, D. and Grossberg, S. (1988). Neural dynamics of planned arm movements: Emergent invariants and speed-accuracy properties during trajectory formation. Psychological Review, 95, 49-90.

Claims

1. Mustererkennungssystem mit einem A-Mustererkennungsuntersystem (ARTa) zum Suchen, Auswählen und Lernen einer A-Kategoriedarstellung (F&sub2;a) als Antwort auf ein A-Eingangsmuster (F&sub1;a) und Mitteln (yja) zur Vorhersage einer B-Kategoriedarstellung(Fab) aus einer ausgewählten A-Kategoriedarstellung, dadurch gekennzeichnet, daß:

das System Mittel (36) enthält, die aufgrund einer fehlerhaften Übereinstimmung zwischen einer vorhergesagten B-Kategoriedarstellung (Fab) und einer Kontroll-B-Kategoriedarstellung (F&sub2;b) die Auswahl einer neuen A-Kategoriedarstellung bewirken.

2. System nach Anspruch 1, bei welchem das A-Mustererkennungsuntersystem ein neuronales ART-Netzwerksystem ist mit:

einem Kennzeichendarstellungfeld (F&sub1;a) zur Aufnahme von Eingangsignalen, die ein A-Eingangsmuster definieren, und von Überlagerungssignalen (24a);

Mitteln (22a) zur Auswahl einer A-Kategoriedarstellung in einem A-Kategoriedarstellungfeld (F&sub2;a) basierend auf einem Muster aus dem Kennzeichendarstellungfeld (F&sub1;a);

Mitteln zur Erzeugung der Überlagerungsssignale (24a) basierend auf der ausgewählten A-Kategoriedarstellung;

Mitteln zum Anpassen der A-Kategoriedarstellungsauswahl (22a) und der Überlagerungssignale (24a) an die Eingangsignale; und

erste Rücksetzmittel (26) zum Zurücksetzen der A-Kategoriedarstellungauswahl bei einer ungenügenden Übereinstimmung zwischen dem Eingangsmuster und dem Überlagerungssignal.

3. System nach Anspruch 2, bei welchem das A-Mustererkennungsuntersystem die A-Kategoriedarstellungauswahl bei einer ungenügenden Übereinstimmung zwischen der A-Kategoriedarstellung und dem A-Eingangsmuster mit einer ersten Stufe der Übereinstimmungsüberwachung zurücksetzt und die für eine fehlerhafte Übereinstimmung verantwortlichen Mittel die Übereinstimmungsüberwachung erhöhen, wodurch ein Zurücksetzen der A- Kategoriewiedergabeauswahl, eine erhöhte Überwachung bei der nachfolgenden Auswahl einer A-Kategoriedarstellung und Übereinstimmung mit einem A-Eingangsmuster erhalten bleibt.

4. System nach Anspruch 2 oder 3, bei welchem die Mittel zur Vorhersage ein Eintragungsfeld (Fab) für Knoten aufweisen, wobei die Knoten des Eintragungsfelds eine Eins-zu-Eins-Korrespondenz mit Knoten eines B-Darstellungfelds (F&sub2;b) haben und adaptiv zu Knoten des A-Kategoriedarstellungfelds (F&sub2;a) eingetragen werden.

5. System nach einem der Ansprüche 2 bis 4, bei welchem das Eingangsmuster einen Vektor von Kennzeichendarstellungseigenschaften und Komplementäre der Kennzeichendarstellungseigenschaften aufweisen.

6. System nach einem der vorhergehenden Ansprüche, welches des weiteren aufweist: ein B-Mustererkennungsuntersystem (ARTb) zur Auswahl der Kontroll-B-Kategoriedarstellung als Antwort auf ein B-Eingangsmuster und zum Lernen der B-Kategoriedarstellung als Antwort auf ein B-Eingangsmuster.

7. System nach Anspruch 6, bei welchem die B-Kategoriedarstellung, die durch das B-Mustererkennungsuntersystem ausgewählt wurde, durch Mittel zur Vorhersage als eine vorhergesagte B-Kategoriedarstellung in Verbindung mit einer ausgewählten A-Kategoriedarstellung gelernt wird.

8. System nach Anspruch 6 oder 7, bei welchem die vorhergesagte B-Kategoriedarstellung in Verbindung mit einer ausgewählten A-Kategoriedarstellung das B-Mustererkennungsuntersystem vorbereitet, so daß anfänglich die vorhergesagte B-Kategoriedarstellung als die B-Kategoriedarstellung ausgewählt wird.

9. Mustererkennungsverfahren mit Suchen, Auswählen und Lernen einer A-Kategoriedarstellung (F&sub2;a) als Antwort auf ein A-Eingangsmuster, wobei eine B-Kategoriedarstellung (F&sub2;b) aus einem B-Eingabemuster ausgewählt und eine B-Kategoriedarstellung aus einer ausgewählten A-Kategoriedarstellung vorhergesagt wird, gekennzeichnet durch den Schritt:

als Antwort auf eine fehlerhafte Übereinstimmung zwischen einer vorhergesagten B-Kategoriedarstellung (Fab) und einer Kontroll-B-Kategoriedarstellung (F&sub2;b) wird die Auswahl einer neuen A-Kategoriedarstellung (F&sub2;a) bewirkt.