DE60130742T2

DE60130742T2 - Mustererkennung mit hierarchischen Netzen

Info

Publication number: DE60130742T2
Application number: DE60130742T
Authority: DE
Inventors: Heiko Dr. Wersing; Edgar Dr. Körner
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2001-05-28
Filing date: 2001-05-28
Publication date: 2008-07-17
Anticipated expiration: 2021-05-29
Also published as: EP1262907A1; DE60130742D1; US7308134B2; JP4083469B2; EP1262907B1; US20030002731A1; JP2002373333A

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen, ein Verfahren zum Trainieren eines hierarchischen Netzes, ein Computersoftwareprogramm zum Implementieren eines solchen Verfahrens, eine Mustererkennungsvorrichtung mit einem hierarchischen Netz und die Verwendung einer Mustererkennungsvorrichtung.
Die vorliegende Erfindung findet auf dem Gebiet einer Mustererkennung Anwendung, wobei das Muster auf eine optische, akustische oder eine andere digital darstellbare Art und Weise dargestellt sein kann.
Es wird zunächst der Hintergrund der Verarbeitungsarchitektur erklärt. Das Konzept eines konvergenten hierarchischen Codierens setzt voraus, dass ein sensorisches Verarbeiten in dem Gehirn in hierarchischen Stufen organisiert sein kann, wobei jede Stufe spezialisierte parallele Operationen, die von einem Eingangssignal von früheren Stufen abhängen, durchführt. Das konvergente hierarchische Verarbeitungsschema kann eingesetzt werden, um neuronale Darstellungen zu bilden, die zunehmend komplexe Merkmalskombinationen bis zu der sogenannten „Großmutterzelle", die lediglich dann, wenn ein spezifisches Objekt erkannt wird, vielleicht sogar unter spezifischen Sichtbedingungen, feuern kann, erfassen. Die Hauptkritik an diesem Typ eines hierarchischen Codierens besteht darin, dass derselbe aufgrund der großen Zahl von Kombinationen von Merkmalen, die unter unterschiedlichen Sichtbedingungen ein spezielles Objekt ausmachen, zu einer kombinatorischen Explosion der Möglichkeiten, die dargestellt werden müssen, führen kann (von der Malsburg, C. (1999), „The what and why of binding: The modeler's perspective", Neuron, 24, 95–104).
Mehrere Autoren haben in den letzten Jahren Lösungsansätze zum Erreichen einer invarianten Erkennung vorgeschlagen, um eine solche kombinatorische Explosion zu vermeiden. Die Hauptidee besteht darin, Zwischenstufen in einem hierarchischen Netz zu verwenden, um höhere Grade einer Invarianz bei Antworten, die dem gleichen Objekt entsprechen, zu erreichen, so dass die kombinatorische Komplexität wirksam reduziert wird.
Seit der Arbeit von Fukushima, der das Neocognitron als ein frühes Modell einer translationsinvarianten Erkennung vorgeschlagen hat, wurden zwei bedeutende Verarbeitungsmodi in der Hierarchie hervorgehoben: Merkmalselektive Neuronen sind empfindlich gegen spezielle Merkmale, die üblicherweise lokaler Natur sind. Sammelneuronen führen eine räumliche Integration über merkmalselektive Neuronen durch, die aufeinanderfolgend aktiviert werden, wenn auf den Stimulus eine Invarianztransformation angewandt wird. Wie durch Mel, B. W. & Fiser, J. (2000), „Minimizing binding errors using learned conjunctive features", Neural computation 12(4), 731–762, vor kurzem hervorgehoben wurde, stehen die kombinierten Stufen einer lokalen Merkmalsdetektierung und eines räumlichen Sammelns dem gegenüber, was als ein Stabilitäts-Selektivitäts-Dilemma bezeichnet werden könnte. Ein übermäßiges räumliches Sammeln führt einerseits zu komplexen Merkmalsdetektoren mit einer sehr stabilen Antwort unter Bildtransformationen. Die Selektivität des Detektors wird andererseits weitgehend reduziert, da ein räumliches Sammeln in einem großen Bereich zu viele schwache Beweise anhäufen kann, wobei die Wahrscheinlichkeit einer zufälligen Erscheinung des Merkmals zunimmt.
Die Glaubwürdigkeit des Konzepts einer hierarchischen Mitkopplungserkennung steht oder fällt, trotz ihrer konzeptionellen Anziehung und ihres neurobiologischen Nachweise, mit der erfolgreichen Anwendung auf ausreichend schwierige Realwelt-3D-Invarianzerkennungsprobleme. Das zentrale Problem besteht in der Formulierung eines durchführbaren Lernlösungsansatzes zum Optimieren der kombinierten Merkmalsdetektierungs- und Sammelstufen. Abgesehen von vielversprechenden Resultaten bei künstlichen Daten und von sehr erfolgreichen Anwendungen auf dem Gebiet der Erkennung eines handgeschriebenen Zeichens sind Anwendungen auf 3D-Erkennungsprobleme (Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. (1997), „Face recognition: A convolutional neural-network approach", IEEE Transactions an Neural Networks 8(1), 98–113) ungewöhnlich. Ein Grund besteht darin, dass das Verarbeiten von Realweltbildern Netzgrößen, die die Anwendung von standardmäßig überwachten Lernverfahren, wie einer Fehlerrückübertragung, üblicherweise undurchführbar machen, erfordert. Die Verarbeitungsstufen in der Hierarchie können ferner Netz-Nichtlinearitäten, wie Sieger-nimmt-Alles, die keine ähnliche Gradientenabstiegsoptimierung ermöglichen, enthalten. Von einer großen Wichtigkeit für das Verarbeiten innerhalb eines hierarchischen Netzes ist die eingesetzte Codierstrategie. Ein wichtiges Prinzip ist eine Redundanzreduzierung, das heißt eine Transformation des Eingangssignals, die die statistischen Abhängigkeiten unter Elementen des Eingangssignalstroms reduziert. Wavelet-artige Merkmale, die entweder durch Auferlegen spärlicher übervollständiger Darstellungen (Olshausen, B. A. & Field, D. J. (1997), „Sparse coding with an overcomplete basis set: A strategy employed in V1", Vision Research, 37, 3311–3325) oder durch Auferlegen einer statistischen Unabhängigkeit wie bei einer unabhängigen Komponenten-Analyse (Bell, A. J. & Sejnowski, T. J. (1997), „The 'independent components' of natural scenes are edge filters", Vision Research, 37, 3327–3338) den rezeptiven Feldern von V1-Zellen gleichen, wurden abgeleitet. Diese Zellen führen das visuelle Anfangsverarbeiten durch und werden daher den Anfangsstufen bei einem hierarchischen Verarbeiten zugeschrieben.
Abgesehen von einem Verständnis eines biologischen Sehens sind diese funktionellen Prinzipien ferner von einer großen Relevanz für das Gebiet eines technischen Computersehens. Obwohl eine ICA (= Independent Component Analysis = unabhängige Komponenten-Analyse) für eine Merkmalsdetektierung bei einem Sehen durch mehrere Autoren erörtert wurde, gibt es nur wenige Bezugnahmen auf ihre Nützlichkeit bei invarianten Objekterkennungsanwendungen. Bartlett, M. S. & Sejnowski, T. J. (1997), "Viewpoint invariant face recognition using independent component analysis and attractor networks", in M. C. Mozer, M. I. Jordan & T. Petsche (Herausgeber), „Advances in Neural Information Processing Systems", Band 9, S. 817, The MIT Press, zeigten, dass ICA-Darstellungen für eine Gesichtserkennung hinsichtlich einer Poseninvarianz und einer Klassifizierungsleistung Vorteile gegenüber PCA (= Principal Component Analysis = Haupt-Komponenten-Analyse)-basierten Darstellungen haben.
Es wird nun die Verwendung hierarchischer Netze für eine Mustererkennung erklärt.
Ein wesentliches Problem für die Anwendung auf Erkennungsaufgaben besteht darin, welche Codierprinzipien für die Transformation von Informationen in der Hierarchie verwendet werden und welche lokale Merkmalsdarstellung zum Darstellen von Objekten bei einer Invarianz optimal ist. Beide Eigenschaften sind nicht unabhängig und müssen zusammenarbeiten, um das gewünschte Ziel zu erreichen. Ein Lernen in tiefen hierarchischen Netzen steht trotz seiner konzeptionellen Anziehung immer noch mehreren bedeutenden Nachteilen gegenüber. Die folgende Übersicht wird die Probleme für die bedeutenden Lösungsansätze, die bisher betrachtet wurden, erörtern.
Fukushima, K. (1980), „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position", Biol. Cyb., 39, 139–202, führte mit dem Neocognitron ein Prinzip eines hierarchischen Verarbeitens für eine invariante Erkennung ein, das auf aufeinander folgenden Stufen eines lokalen Schablonenabgleichens und eines räumlichen Sammelns basiert. Das Neocognitron kann durch ein nicht-überwachtes, konkurrierendes Lernen trainiert werden, Anwendungen, wie eine Erkennung einer handgeschriebenen Ziffer, erforderten jedoch eine überwachte manuelle Trainingsprozedur. Ein sicherer Nachteil ist die kritische Abhängigkeit der Leistung von der geeigneten manuellen Trainingsmusterauswahl (Lovell, D., Downs, T. & Tsoi, A. (1997), „An evaluation of the neocognitron", IEEE Trans. Neur. Netw., 8, 1090–1105) für die Schablonenabgleichstufen. Die Notwendigkeit eines Eingreifens eines Lehrers während der Lernstufen hat das Training für komplexere Erkennungsszenarien, wie eine 3D-Objekterkennung, bisher undurchführbar gemacht.
Riesenhuber, M. & Poggio, T. (1999) „Are cortical models really bound by the "binding Problem"?", Neuron, 24, 87–93, hoben den Punkt hervor, dass hierarchische Netze mit geeigneten Sammeloperationen die kombinatorische Explosion von Kombinationszellen vermeiden können. Sie schlugen ein hierarchisches Modell mit ähnlichen Abgleich- und Sammelstufen wie bei dem Neocognitron vor. Ein Hauptunterschied besteht in den Nichtlinearitäten, die die Sendung von Mitkopplungsinformationen durch das Netz beeinflussen. Um das Überlagerungsproblem zu reduzieren, konzentriert sich in ihrem Modell eine komplexe Zelle auf das Eingangssignal der präsynaptischen Zelle, die das größte Eingangssignal liefert. Das Modell wurde auf die Erkennung künstlicher Büroklammerbilder und computerwiedergegebener Tier- und Autoobjekte (Riesenhuber, M. & Poggio, T. (1999b), „Hierarchical models of object recognition in cortex", Nature Neuroscience 2(11), 1019–1025) angewandt und verwendet ein lokales Aufzählungsschema zum Definieren von Zwischenkombinationsmerkmalen.
Von Y. Le Cun et al („Hand-written digit recognition with back-propagation network", 1990, in advances in neural information processing systems 2, S. 396–404) ist ein Mehrschicht-Netz bekannt. Ein Eingangsbild wird mit einem einzelnen Neuron, das ein lokales rezeptives Feld hat, abgetastet, und die Zustände dieses Neurons werden an entsprechenden Orten in einer Schicht, die als eine Merkmalsabbildung bezeichnet wird, gespeichert. Diese Operation ist äquivalent zu einer Faltung mit einem Kern einer kleinen Größe. Das Verfahren kann durch Implementieren der Merkmalsabbildung als eine Ebene von Neuronen, deren Gewichtsvektoren gezwungen sind, gleich zu sein, parallel durchgeführt werden. Das heißt, Einheiten in einer Merkmalsabbildung sind gezwungen, die gleiche Operation an unterschiedlichen Teilen des Bildes durchzuführen. Ein bestimmtes Niveau einer Verschiebungsinvarianz ist zusätzlich in dem System anwesend, da ein Verschieben des Eingangssignals das Resultat in der Merkmalsabbildung verschieben wird, diese jedoch sonst unverändert lassen wird. Es ist ferner vorgeschlagen, mehrere Merkmalsabbildungen, die dem gleichen Bild unterschiedliche Merkmale entnehmen, zu haben. Gemäß diesem Stand der Technik kann der Gedanke lokaler Faltungsmerkmalsabbildungen ebenfalls auf folgende versteckte Schichten angewandt werden, um Merkmale einer zunehmenden Komplexität und Abstraktion zu entnehmen. Mehrschichtige Faltungsnetze wurden auf Mustererkennungsaufgaben mit einem Fokus auf einer optischen Zeichenerkennung (siehe LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324 für eine umfassende Übersicht) breit angewandt. Ein Lernen optimaler Merkmale wird unter Verwendung des Rückübertragungsalgorithmus, bei dem Zwänge einer Translationsinvarianz durch ein gemeinsames Verwenden eines Gewichts explizit auferlegt werden, ausgeführt. Aufgrund der tiefen Hierarchien erfordert das Gradientenlernen jedoch eine beträchtliche Trainings-Zeit für große Trainings-Ensembles und große Netzgrößen. Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. (1997), "Face recognition: A convolutional neural-network approach", IEEE Transactions an Neural Networks 8(1), 98–113 haben das Verfahren angewandt, das mit einer vorherigen Vektorquantisierung, die auf selbstorganisierenden Abbildungen für eine Dimensionalitätsreduzierung basiert, erweitert wird, und haben eine verbesserte Leistung für eine Gesichtsklassifizierungs-Anordnung.
Es werden nun Anwendungen hierarchischer Modelle der invarianten Erkennung von Objekten kurz erklärt.
Die US-A-5,058,179 bezieht sich auf ein erzwungenes automatisches Hierarchie-Lernnetz für eine Zeichenerkennung. Eine hochgenaue, zuverlässige optische Zeichenerkennung wird dabei durch das hierarchisch geschichtete Netz mit mehreren Schichten mehrerer erzwungener Merkmalsdetektierungen für eine lokalisierte Merkmalsentnahme, auf die mehrere völlig verbundene Schichten für eine Dimensionalitätsreduzierung folgen, geboten. Die Zeichenklassifizierung wird in der letzten völlig verbundenen Schicht durchgeführt. Jede Schicht einer parallelen erzwungenen Merkmalsdetektierung weist eine Mehrzahl erzwungener Merkmalsabbildungen und eine entsprechende Mehrzahl von Kernen auf, wobei ein vorbestimmter Kern mit einer einzelnen erzwungenen Merkmalsabbildung direkt verwandt ist. Eine Unterprobennehmen kann von Schicht zu Schicht durchgeführt werden.
Die US-A-5,067,164 offenbart ebenfalls ein hierarchisches erzwungenes automatisches neuronales Lernnetz für eine Erkennung, das mehrere Schichten einer erzwungenen Merkmalsdetektierung hat und bei dem jede Schicht einer erzwungenen Merkmalsdetektierung eine Mehrzahl erzwungener Merkmalsabbildungen und eine entsprechende Mehrzahl von Merkmalsreduzierungsabbildungen umfasst. Jede Merkmalsreduzierungsabbildung ist mit lediglich einer erzwungenen Merkmalsabbildung in der Schicht zum Unterprobennehmen dieser erzwungenen Merkmalsabbildung verbunden. Einheiten in jeder erzwungenen Merkmalsabbildung der ersten erzwungenen Merkmalsdetektierungsschicht antworten als eine Funktion eines entsprechenden Kerns und unterschiedlicher Abschnitte des Pixelbilds des Zeichens, die in einem rezeptiven Feld, das der Einheit zugeordnet ist, registriert werden. Einheiten in jeder Merkmalsabbildung der zweiten erzwungenen Merkmalsdetektierungsschicht antworten als eine Funktion eines entsprechenden Kerns und unterschiedlicher Abschnitte einer individuellen Merkmalsreduzierungsabbildung oder einer Kombination mehrerer Merkmalsreduzierungsabbildungen in der ersten erzwungenen Merkmalsdetektierungsschicht, die in einem rezeptiven Feld der Einheit erfasst werden. Die Merkmalsreduzierungsabbildungen der zweiten erzwungenen Merkmalsdetektierungsschicht sind mit jeder Einheit der endgültigen Zeichenklassifizierungsschicht völlig verbunden. Kerne werden durch den Fehlerrückübertragungsalgorithmus während einer Netzinitialisierung oder eines Netztrainings automatisch gelernt. Ein Problem dieses Lösungslösungsansatzes besteht darin, dass ein Lernen für alle Kerne in der Hierarchie gleichzeitig durchgeführt werden muss, was ein Lernen für große Netze zu langsam macht. Dies hat die Anwendung dieser Art von Faltungsnetzen auf schwierigere Probleme einer dreidimensionalen invarianten Objekterkennung bisher ausgeschlossen.
Die US-A-6,038,337 offenbart ein Verfahren und eine Vorrichtung für eine Objekterkennung unter Verwendung eines hybriden neuronalen Netzsystems, das ein lokales Bildprobenentnehmen, ein neuronales selbstorganisierendes Abbildungsnetz für eine Dimensionsreduzierung und ein hybrides faltendes Netz aufweist. Das neuronale hybride faltende Netz liefert eine Teilinvarianz zu einer Translation, einer Drehung, einem Maßstab und einer Verformung. Das hybride faltende Netz entnimmt aufeinanderfolgend größere Merkmale in einem hierarchischen Satz von Schichten. Eine Gesichtserkennung von Frontalansichten ist als eine Beispielanwendung angegeben.
Angesichts des vorhergehenden Stands der Technik ist es die Aufgabe der vorliegenden Erfindung, bei großmaßstäblichen hierarchischen faltenden Netzen die Codiereffizienz zu verbessern und die Lernzwänge zu reduzieren.
Das Basiskonzept, um diese Aufgabe zu lösen, ist ein neuer Lösungsansatz zum Trainieren des hierarchischen Netzes, der eine statistische Einrichtung zum (inkrementellen) Lernen neuer Merkmalsdetektierungsstufen verwendet. Zweckmäßigerweise sollte die Verbesserung derart sein, dass nicht nur zweidimensionale Objekte, sondern auch dreidimensionale Objekte mit Variationen einer dreidimensionalen Drehung, einer Größe und von Beleuchtungsbedingungen erkannt werden können. Als ein weiterer Vorteil ist dieses Lernverfahren für beliebige Nichtlinearitäten zwischen Stufen in den hierarchischen faltenden Netzen realisierbar.
Die Technologie gemäß dem im Vorhergehenden erwähnten Stand der Technik kann im Gegensatz dazu lediglich ein Rückübertragungslernen für differenzierbare Nichtlinearitäten durchführen, was für den Netzentwurf bestimmte Beschränkungen darstellt.
Die Aufgabe wird mittels der Merkmale der unabhängigen Ansprüche gelöst. Die abhängigen Ansprüche entwickeln die zentrale Idee der vorliegenden Erfindung weiter.
Gemäß der vorliegenden Erfindung wird daher ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen vorgeschlagen. Zunächst wird eine Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung eines zu detektierenden Musters abtastet, gefaltet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Eine beliebige Nichtlinearität wird dann auf jede Merkmalsabbildung getrennt angewandt. Lokale Kombinationen von Merkmalen der Merkmalsabbildungen werden erfasst. Das Muster wird schließlich auf der Basis der erfassten lokalen Kombinationen klassifiziert (und daher erkannt). Gemäß der vorliegenden Erfindung für die lokale Kombination von Merkmalen (die einer Zwischenschicht eines Netzes entspricht) werden statistisch unabhängige Merkmale voreingestellt.
Die statistisch unabhängigen Merkmale werden mittels einer unabhängigen Komponenten-Analyse (ICA) von Faltungen von Trainings-Mustern vorbestimmt. Eine unabhängige Komponenten-Analyse liegt in dem Aufbau neuer Merkmale, die die unabhängigen Komponenten eines Datensatzes sind. Die unabhängigen Komponenten sind Zufallsvariablen von minimalen gegenseitigen Informationen, die aus linearen Kombinationen der Eingangsmerkmale aufgebaut sind. Es ist eine Tatsache der Informationstheorie, dass solche Variablen so unabhängig wie möglich sein werden.
Die statistisch unabhängigen Merkmale können alternativ oder zusätzlich mittels einer Haupt-Komponenten-Analyse (PCA) von Faltungen von Trainings-Mustern vorbestimmt werden. Eine Haupt-Komponenten-Analyse liegt in dem Aufbau neuer Merkmale, die die Hauptkomponenten eines Datensatzes sind. Die Hauptkomponenten sind Zufallsvariablen einer maximalen Varianz, die aus orthogonalen linearen Kombinationen der Eingangsmerkmale aufgebaut sind. Da dies lediglich eine Unkorreliertheit der resultierenden Merkmale sicherstellt, ist dies ein schwächerer Begriff von einer statistischen Unabhängigkeit als bei einer unabhängigen Komponenten-Analyse.
Um die Merkmalsabbildungen zu erzeugen, können eine Sieger-nimmt-Alles-Strategie und eine weitere nichtlineare Funktion auf das Resultat der Faltung angewandt werden. Die im Vorhergehenden beschriebenen statistischen Lernverfahren können ungeachtet der Art der kombinierten Sieger-nimmt-Alles-Nichtlinearität und weiterer Nichtlinearitäten angewandt werden.
Mindestens ein Sammelschritt, bei dem Merkmalsabbildungen einer fortschreitenden Abbildung lokal einer Durchschnittsbildung und einer Probenentnahme unterworfen werden, kann vorgesehen sein. Der Sammelschritt trägt zu der Invarianz der Erkennung unter Transformationen der unterschiedlichen Muster, die dem gleichen Objekt entsprechen, bei.
Der Schritt des Klassifizierens kann unter Verwendung einer einschichtigen sigmoidalen Funktion, die mit einem Gradientenabstiegsverfahren trainiert wird, bewirkt werden. (Es sei bemerkt, dass für ein Voreinstellen der statistisch unabhängigen Merkmale kein klassisches überwachtes Lernverfahren notwendig ist, so dass der Aufwand, der zum Einrichten des Systems benötigt wird, wesentlich reduziert wird). Der Schritt des Klassifizierens kann alternativ unter Verwendung eines Netzes von radialen Basisfunktionen, eines Nearest-Neighbour-Matching-Algorithmus oder eines Mehrschicht-Perzeptron-Netzes ausgeführt werden.
Die Schritte einer Merkmalsdetektierung, eines optionalen Sammelns und einer Kombination können mehrere Male wiederholt werden.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen vorgeschlagen. Eine Mehrzahl von Festmerkmal-Detektoren wird für das lokale Fenster, das über eine Darstellung des Musters abtastet, gefaltet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Lokale Kombinationen von Merkmalen der Merkmalsabbildungen werden erfasst, und das Muster wird auf der Basis der erfassten lokalen Kombinationen klassifiziert (und daher erkannt). Um die Merkmalsabbildungen zu erzeugen, wird eine Sieger-nimmt-Alles-Strategie auf das Resultat der Faltung angewandt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Trainieren eines hierarchischen Netzes vorgeschlagen. Das hierarchische Netz weist eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen, eine Einrichtung zum getrennten Anwenden einer nichtlinearen Funktion auf jede Merkmalsabbildung, eine Zwischeneinrichtung zum Erfassen lokaler Kombinationen einfacher Merkmale der Merkmalsabbildungen und eine Einrichtung zum Erkennen des Musters durch Klassifizieren desselben auf der Basis der erfassten lokalen Kombinationen auf. Gemäß der vorliegenden Erfindung wird die Einrichtung zum Erfassen lokaler Kombinationen inkrementell trainiert, derart, dass die statistische Unabhängigkeit der lokalen Kombinationen von Merkmalen gesteigert wird.
Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein Computersoftwareprogramm, das ein Verfahren, wie im Vorhergehenden dargelegt ist, implementiert, wenn dasselbe auf einer Rechenvorrichtung ausgeführt wird, vorgeschlagen.
Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird eine Mustererkennungsvorrichtung mit einem hierarchischen Netz vorgeschlagen. Das hierarchische Netz weist eine Einrichtung zum Eingeben einer Darstellung eines Musters (d. h. eines digitalen Fotos eines Objekts) auf. Eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen, ist ferner vorgesehen. Eine Zwischeneinrichtung erfasst lokale Kombinationen von Merkmalen der Merkmalsabbildungen. Eine Klassifizierungseinrichtung „erkennt" auf der Basis der erfassten lokalen Kombinationen das Muster. Die Einrichtung zum Erfassen lokaler Kombinationen ist für eine Verwendung einer Voreinstellung statistisch unabhängiger Merkmale entworfen.
Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird eine Mustererkennungsvorrichtung mit einem hierarchischen Netz vorgeschlagen, wobei das hierarchische Netz eine Einrichtung zum Eingeben einer Darstellung eines Musters aufweist. Eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, ist ferner vorgesehen, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Eine Zwischeneinrichtung erfasst lokale Kombinationen von Merkmalen der Merkmalsabbildungen. Die Einrichtung zum Klassifizieren erkennt schließlich auf der Basis erfasster lokaler Kombinationen das Muster. Die Faltungseinrichtung ist dadurch für eine Verwendung einer Sieger-nimmt-Alles-Strategie, um die Merkmalsabbildung zu erzeugen, entworfen.
Die Klassifizierungseinrichtung kann auf eine spezielle Vollansicht des Musters abgestimmt sein.
Das hierarchische Netz kann eine Sammeleinrichtung für ein lokales Durchschnittsbilden und ein Unterprobenentnehmen von Merkmalsabbildungen, die durch die Faltungseinrichtung erzeugt werden, aufweisen.
Die Klassifizierungseinrichtung kann entworfen sein, um eine sigmoidale Funktion, die mit einem Gradientenabstiegsverfahren trainiert wird, zu verwenden.
Die Klassifizierungseinrichtung kann entworfen sein, um ein Netz von radialen Basisfunktionen zu verwenden.
Die Klassifizierungseinrichtung kann auf einem Nearest-Neighbour-Matching-Verfahren basieren.
Die Klassifizierungseinrichtung kann auf einem Mehrschicht-Perzeptron-Netz basieren.
Das hierarchische Netz kann durch ein Parallelrechennetz implementiert sein.
Es ist wichtig, anzumerken, dass der Satz von Einrichtungen für die erste Merkmalsdetektierung, das optionale Sammeln und die Kombinationsschicht auf eine verkettete Art und Weise mehrere Male vorgesehen sein kann.
Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung kann eine Mustererkennungsvorrichtung, wie im Vorhergehenden definiert ist, für eine optische Erkennung von Zeichen oder Objekten, insbesondere für die optische Erkennung von dreidimensionalen Objekten, verwendet sein.
Weitere Merkmale, Aufgaben und Vorteile der vorliegenden Erfindung werden für den Fachmann bei einem Lesen der folgenden detaillierten Erklärung eines Ausführungsbeispiels der vorliegenden Erfindung zusammen mit den Figuren der beigefügten Zeichnungen offensichtlich.
1 erklärt das Vorstrukturieren eines Netzes gemäß der vorliegenden Erfindung, und
2 zeigt schematisch die Architektur eines hierarchischen Netzes gemäß der vorliegenden Erfindung.
Es wird zunächst das Vorstrukturieren eines Netzes gemäß der vorliegenden Erfindung unter Bezugnahme auf 1 gezeigt, die ferner dazu dient, die technischen Einrichtungen zum Implementieren der vorliegenden Erfindung zu demonstrieren. Bildern werden durch eine Probenentnahmevorrichtung 17, wie z. B. eine digitale Video- oder Fotokamera, Proben entnommen und dann dem hierarchischen Netz, auf das allgemein mit 16 Bezug genommen ist, zugeführt. Das hierarchische Netz 16 weist mindestens einen Satz auf, der eine einfache Merkmalsdetektierungsstufe 18 und eine Kombinationsmerkmalsdetektierungsstufe 19 aufweist. Diese Stufen 18, 19 können innerhalb des Netzes 18 mehrere Male wiederholt sein, worauf mit 20 schematisch Bezug genommen ist. Das endgültige Ausgangssignal des Netzes 18 wird dann der Klassifizierungseinrichtung 21, die das einer Probenentnahme unterworfene Bild durch Klassifizieren desselben erkennt, zugeführt.
Abgesehen von der neuen Struktur ist die vorliegende Erfindung ferner mit einem neuen Lösungsansatz zum Trainieren des hierarchischen Netzes befasst, wobei das Training eine statistische Einrichtung zum (inkrementellen) Lernen neuer Merkmalsdetektierungsstufen 19 verwendet. Das inkrementelle Lernen basiert auf einem Detektieren von zunehmend statistisch unabhängigen Merkmalen in höheren Stufen der Verarbeitungshierarchie. Da dieses Lernen nicht-überwacht ist, ist kein Lehrersignal notwendig, und die Erkennungsarchitektur kann für ein bestimmtes Erkennungsszenario vorstrukturiert sein. Lediglich die endgültige Klassifizierungseinrichtung 21 muss mit einem überwachten Lernen trainiert werden, was den Aufwand für die Anpassung an eine Erkennungsaufgabe erheblich reduziert.
Die hierarchische Modellarchitektur gemäß der vorliegenden Erfindung ist im Folgenden unter Bezugnahme auf 2 detailliert erklärt. Das Modell basiert auf einer Mitkopplungsarchitektur mit einem Gewichtsteilen und einer Folge merkmalsempfindlicher Abgleichstufen 2 und Sammelstufen 3.
Das Modell weist drei Stufen in der Verarbeitungshierarchie auf. Die erste Merkmalsabgleichstufe 2 besteht aus einer linearen vorzeichenunempfindlichen Anfangssummierung eines rezeptiven Feldes, einer Sieger-nimmt-Alles-Einrichtung zwischen Merkmalen in der gleichen Position und einer endgültigen nichtlinearen Schwellenfunktion. Es wird im Folgenden die Bezeichnungsweise übernommen, dass Vektorindizes über den Satz von Neuronen innerhalb einer speziellen Ebene einer speziellen Schicht laufen. Um antwortend auf einen Merkmalstyp l in einer Position (x,y) die Antwort ql1 (x, y) einer einfachen Zelle in der ersten Schicht 2 zu berechnen, wird zuerst der Bildvektor I mit einem Gewichtsvektor wl1 (x, y), der das rezeptive Feldprofil charakterisiert, multipliziert:
Das innere Produkt wird mit * bezeichnet, d. h. für ein 10×10-Pixelbild sind I und wl1 (x, y) 100-dimensionale Vektoren. Die Gewichte wl1 sind normiert und charakterisieren ein lokalisiertes rezeptives Feld in der Eingangsschicht des visuellen Feldes. Alle Zellen in einer Merkmalsebene l haben die gleiche rezeptive Feldstruktur, die durch wl1 (x, y) gegeben ist, jedoch verschobene rezeptive Feldmitten, wie bei einer klassischen Architektur eines gemeinsamen Verwendens von Gewichten oder einer klassischen Faltungsarchitektur (Fukushima, K. (1980), „Neocognitron: A selforganizing neural network model for a mechanism of pattern recognition unaffected by shift in position", Biol. Cyb., 39, 139–202; LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324).
Es wird bei einem zweiten Schritt ein weicher Sieger-nimmt-Alles (englisch: Winner-Take-All; WTA)-Mechanismus mit
durchgeführt, wobei M = max_k qk1 und rl1 (x, y) die Antwort nach der WTA-Einrichtung ist, die submaximale Antworten unterdrückt. Der Parameter 0 < γ₁ < 1 steuert die Stärke der Konkurrenz. Diese Nichtlinearität ist als ein Modell einer latenzbasierten Konkurrenz, die späte Antworten durch eine schnelle laterale Sperrung unterdrückt, motiviert.
Die Aktivität wird dann durch eine einfache Schwellenfunktion mit einer gemeinsamen Schwelle θ₁ für alle Zellen in der ersten Schicht 2 durchgelassen: sl1 (x, Y) = H(rl1 (x, y) – θ1) (3) wobei H(x) = 1, wenn x ≥ 0, und sonst H(x) = 0, und sl1 (x, y) die endgültige Aktivität des Neurons ist, das gegen ein Merkmal l in einer Position (x, y) in der ersten Schicht 2 empfindlich ist.
Die Aktivitäten der Schicht 3 von Sammelzellen sind durch cl1 (x, y) = tanh(g1(x, y)·sl1 ) (4)angegeben, wobei g₁(x, y) ein normierter gaußscher lokalisierter räumlicher Sammelkern mit einer Breite, die durch σ₁ charakterisiert wird, ist, der für alle Merkmale l identisch ist, und tanh die hyperbolische sigmoide Tangensübertragungsfunktion ist. Die optionale Sammelschicht 3 trägt zu der Invarianz der Erkennung unter Transformationen der unterschiedlichen Muster, die dem gleichen Objekt entsprechen, bei.
Die Merkmale in der Zwischenschicht 4 sind empfindlich gegen lokale Kombinationen 10, 11 der Merkmale 12, 13 in den Ebenen der vorhergehenden Schicht 3 (oder 2, falls keine Sammelschicht vorgesehen ist) und sind daher im Folgenden als Kombinationszellen benannt. Die kombinierte lineare Summation über vorhergehende Ebenen ist durch
gegeben, wobei wlk2 (x, y) der rezeptive Feldvektor der Sammelzelle des Merkmals l in einer Position (x, y) ist, der Verbindungen mit der Ebene k der Zellen der vorhergehenden Sammelschicht 3 beschreibt.
Nach der gleichen WTA-Prozedur mit einem Stärkeparameter γ₂ ist die Aktivität in der Sammelschicht 3 nach der Anwendung einer Schwellenfunktion mit einer gemeinsamen Schwelle θ₂ gegeben: sl2 (x, y) = H(rl2 (x, y) – θ2) (6)
Der Schritt von der Zwischenkombinationsschicht 4 zu der zweiten Sammelschicht 5 ist mit der Gleichung (4) identisch und ist durch cl2 (x, y) = tanh(g2(x, y)·sl2 ) (7)mit einem zweiten gaußschen räumlichen Sammelkern, der durch g₂(x, y) mit einem Bereich σ₂ charakterisiert ist, gegeben.
Neuronen in der endgültigen Schicht 15 sind gegen eine Vollansicht eines dargestellten Objekts, wie die ansichtsabgestimmten Einheiten (englisch: View-Tuned-Units; VTUs) 6 von Riesenhuber, M. & Poggio, T. (1999), „Are cortical models rally bound by the „binding Problem" "?, Neuron, 24, 87–93), die von einem Typ einer radialen Basisfunktion sind, empfindlich. Um ein gradientenbasiertes Lernen zu erleichtern, ist jedoch wieder eine sigmoide Nichtlinearität der Form:
gewählt, wobei ∅(x) = 1 + exp(–βx)^–1 eine sigmoide Fermi-Übertragungsfunktion ist und wlk3 Verbindungsvektor einer einzelnen ansichtsabgestimmten Zelle, die mit l indiziert ist, zu der vorhergehenden vollen Ebene k in der vorhergehenden Schicht ist. Um eine größere Flexibilität bei einer Antwort zu erlauben, hat jede Zelle 6 ihre eigene Schwelle θl3 . Jede VTU-Zelle 6 stellt eine spezielle Ansicht eines Objekts dar, eine Klassifizierung eines unbekannten Eingangsstimulus wird daher durch ein Nehmen der maximal aktiven VTU 6 in der endgültigen Schicht 15 durchgeführt. Wenn diese Aktivierung eine bestimmte Schwelle nicht überschreitet, kann das Muster als unbekannt oder als eine Störung abgewiesen werden.
Es ist wichtig, anzumerken, dass der Satz von Schichten, der aus der ersten Merkmalsdetektierungsschicht 3, der optionalen Sammelschicht 3 und der Kombinationsschicht 4 besteht, mehrere Male vorgesehen sein kann.
Es wird nun das Training eines hierarchischen Netzes gemäß der vorliegenden Erfindung erklärt. Das Training kann durch ein Versorgen des Netzes mit Trainings-Mustern bewirkt werden. Gemäß einem Beispiel besteht die Bibliothek von Trainings-Mustern aus 100 Objekten, die in 72 Ansichten mit aufeinanderfolgenden 5°-Drehungen aufgenommen sind.
Der Startpunkt ist eine geeignete Angleichung von Sammelbereichen σ₁, σ₂, Schwellen σ₁, σ₂ und Stärken γ₁, γ₂ der WTA-Konkurrenz. Diese Parameter charakterisieren die Gesamtqualität der Netz-Nichtlinearitäten. Bei einem zweiten Schritt werden dann die Parameter der Nichtlinearitäten konstant gehalten, und die Gewichtsstruktur der Zwischenschicht und der endgültigen Schichten in der Hierarchie wird modifiziert. Gemäß einem Beispiel basiert die Auswertung auf einer Klassifizierungsaufgabe der 100 Objekte der bekannten COIL-100-Datenbank (Nayar, S. K., Nene, S. A. & Murase, H. (1996), „Real-time 100 object recognition system", in Proc. Of ARPA Image Understanding Workshop, Palm Springs). Es wurde zuerst ein einfaches Paradigma für das Training der ansichtsabgestimmten Einheiten, das der RBF-Typ-Einstellung von Riesenhuber & Poggio ähnlich ist, befolgt.
Es sind für jedes der 100 Objekte 72 Ansichten, die bei folgenden Drehungen von 5° aufgenommen werden, verfügbar. Drei Ansichten bei Winkeln 0°, 120° und 240° sind als ein Trainings-Muster (eine Ansicht) für jedes Objekt aufgenommen, und es wird für jede Ansicht eine ansichtsabgestimmte Zelle übernommen, was insgesamt 300 VTUs ergibt. Für eine spezielle Parametereinstellung wird die Aktivierung der endgültigen Schicht 15 aufgezeichnet. Dieser Aktivitätsvektor wird für eine Nearest-Neighbour-Klassifizierung in dem hochdimensionalen Raum verwendet. Dies kann als ein Schablonenabgleichen in dem Raum, der durch die neuronalen Aktivitäten in der endgültigen Schicht 15 überspannt wird, betrachtet werden. Ein Training läuft einfach auf ein Speichern einer Schablone für jede Trainings-Ansicht hinaus.
Abweichend von der Arbeit von Riesenhuber & Poggio wird zuerst ein Verbindungsmuster für die Zellen der Kombinationsschicht 4, das auf einem Verbinden von lediglich zwei Neuronen der Sammelschicht 3 in der lokalen Nachbarschaft der vier benachbarten Neuronen der rezeptiven Feldmitte der Zelle der Kombinations-(Zwischen-)Schicht 4 innerhalb der Sammelschicht 3 basiert, betrachtet. Nach einem Weglassen symmetrischer Permutationen und Konfigurationen, bei denen sich die zwei Sammelneuronen in unterschiedlichen Orientierungsebenen befinden und die gleiche Position in dem rezeptiven Feld besetzen, werden 120 unterschiedliche paarweise Kombinationszellentypen für die Kombinationsschicht 4 erhalten. Bei einem erschöpfenden rasterartigen Durchsuchen über Parameterkombinationen nach einer festen Zahl von 3 VTUs pro Objekt kann eine optimale Einstellung für die Klassifizierungsleistung gefunden werden. Die resultierenden Parameter sind
θ₁ = 0,1; θ₂ = 0,95; σ₁ = 2,5; σ₂ = 2,5; γ₁ = 0,9 und γ₂ = 0,0.
Die resultierende Nearest-Neighbour-Klassifizierung ist zu 69% korrekt. Diese spezielle Parametereinstellung beinhaltet eine bestimmte Codierstrategie: Die erste Schicht 2 einfacher Randdetektoren 12, 13 kombiniert eine ziemlich niedrige Schwelle mit einer starken lokalen Konkurrenz zwischen Orientierungen. Das Resultat ist eine Art von „Segmentierung" des Eingangssignals in eine der vier unterschiedlichen Orientierungskategorien. Diese Merkmale werden innerhalb eines Bereichs, der mit der Größe der gaborschen rezeptiven Felder (Schicht 2) vergleichbar ist, gesammelt. Die paarweisen Kombinationszellen haben eine hohe Schwelle, die lediglich aktiviert wird, wenn beide präsynaptischen Zellen stark aktiv sind. Da γ₂ = 0, scheint ein weiteres WTA auf dem Niveau von Kombinationszellen unnötig zu sein, da die hohe Schwelle bereits eine starke Verspärlichung bewirkt.
Unter der Annahme, dass die Codierstrategie mit niedrigen Anfangsschwellen und einem starken WTA optimal ist, kann man ein Ensemble von Aktivitätsvektoren der Ebenen der Sammelschicht 3 für das volle Eingangsbild-Ensemble erzeugen. Man kann dann eine Zufallsauswahl von 20000 5 × 5-Flächen (englisch: patches) aus diesem Ensemble betrachten. Da es in der Sammelschicht 3 vier Ebenen gibt, bedeutet dies einen 5 × 5 × 4 = 100-dimensionalen Aktivitätsvektor. Man kann dann an diesem Ensemble lokaler Flächen sowohl eine Haupt-Komponenten-Analyse (PCA) als auch eine unabhängige Komponenten-Analyse (ICA) durchführen. Die ICA kann z. B. unter Verwendung des FastICA-Algorithmus (Hyvärinen, A. & Oja, E. (1997), „A fast fixed-point algorithm for independent component Analysis"; Neural Computation 9(7), 1483–1492) durchgeführt werden. Für sowohl die PCA als auch die ICA können alternativ 20 oder 50 Komponenten, die dann als die Gewichtsvektoren für die Verbindungen der resultierenden 20 oder 50 Merkmalsebenen verwendet werden, betrachtet werden. Nach einem Auswerten der Leistung des resultierenden Nearest-Neigbour-Klassifizierers kann man die Parameter der folgenden Schichten an σ₁ = 1,5; σ₂ = 1,5; θ₂ = 0,5; γ2 = 0 angleichen, was eine Anpassung an die ausgedehnteren rezeptiven 5 × 5-Felder der Kombinationsschicht-Neuronen widerspiegelt. Nach der Optimierung, die auf einer Nearest-Neighbour-Klassifizierung basiert, kann der Leistungsgewinn, der durch ein optimales Abstimmen der Antwort der ansichtsabgestimmten Einheiten auf ihre sigmoidale Übertragungsfunktion erhalten werden kann, untersucht werden. Man kann ein gradientenbasiertes überwachtes Lernen an dem Klassifizierer-Ausgangssignal der Neuronen der endgültigen Schicht durchführen. Das Zielausgangssignal für eine spezielle Ansicht i in dem Trainings-Satz war durch s l3 (i) = 0,9, wobei l der Index der VTU 6 ist, der am nächsten zu der dargestellten Ansicht ist, und durch s k3 (i) = 0,3 für die anderen Ansichten des gleichen Objekts gegeben ist. Es wird erwartet, dass alle anderen VTUs 6 auf einem Aktivierungsniveau von s l3 '(i) = 0,1 still sind. Das Training kann durch einen stochastischen Gradientenabstieg (siehe LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324) an der quadratischen Energiefunktion E = ∑i∑l(s l3 (i) – sl3 (Il))2 , wobei i die Trainings-Bilder zählt, durchgeführt werden.
Von einem besonderen Interesse bei einem invarianten Erkennungslösungsansatz ist die Fähigkeit einer Verallgemeinerung auf vorher nicht gesehenen Objektansichten. Einer der Hauptideen hinter hierarchischen Architekturen besteht darin, eine allmählich zunehmende Invarianz der neuronalen Aktivierung in späteren Stufen zu erreichen, wenn bestimmte Transformationen auf die Objektansicht angewandt werden. Die vorliegende Erfindung liefert eine beträchtliche Invarianz, die aus der hierarchischen Architektur gewonnen wird.
Es wird nun der Nearest-Neighbour-Klassifizierungslösungsansatz, der durch die VTUs 6 durchgeführt werden kann, erklärt. Ein Schablonenabgleich, der die Nearest-Neighbour-Suche mit einer euklidischen Metrik in dem Merkmalsraum, der das Bild darstellt, verwendet, ist ein unkomplizierter Lösungsansatz einer Bildklassifizierung. Der einfachste Lösungsansatz würde dann darin bestehen, die Trainings-Ansichten wie in einem fotografischen Speicher zu sammeln und dann VTUs 6, die eine Nearest-Neighbour-Suche nach dem Vollbild-Intensitätsvektor durchführen, zu verwenden. Bei zunehmenden Zahlen von Trainings-Vektoren wird klar erwartet, dass die Leistung zunimmt. Das Hauptproblem besteht in der ineffizienten Darstellung der Objektvertreter, die riesige Mengen an Daten für größere Zahlen von Objekten erfordert. Da man einen höheren Grad an Invarianz von dem hierarchischen Verarbeiten gemäß der vorliegenden Erfindung erwarten kann, kann der Schablonenabgleich auf der Aktivierung der gesammelten Kombinationszellen in der Schicht 5 basieren.
Die Klassifizierungsrate zeigt eine mäßige, fast lineare Zunahme mit der Zahl verfügbarer Ansichten, wenn ein direkter Schablonenabgleich auf die Bilddaten angewandt wird. Wenn man im Gegensatz dazu einen Nearest-Neighbour-Klassifizierer, der auf den Ausgangssignalen der Schicht 5 der vorgeschlagenen Hierarchie basiert, verwendet, kann bereits für moderate Zahlen von Trainings-Daten eine sehr rasche Zunahme, die sich dann hin zu einer perfekten Klassifizierung sättigt, beobachtet werden. Ein Verwenden des vollständigen Satzes von 120 Kombinationszellen führt zu einer ähnlichen Leistung wie ein Verwenden von 50 Zellen größter Varianz. Es ist von einem speziellen Interesse, dass eine ICA-basierte Bestimmung der Kombinationszellen bessere Resultate ergibt und die einfachen paarweise aufgebauten Kombinationszellen übertrifft.
Es wird im Folgenden das Abstimmen von ansichtsabgestimmten Einheiten 6 erklärt. Das Nächster-Nachbar-Abgleichen (englisch: nearest-neighbour matching) ist ein einfacher Lösungsansatz, der den Vorteil hat, dass keine zusätzliche Anpassung von Gewichten erforderlich ist. Die zusätzliche endgültige Schicht 15 sollte jedoch fähig sein, dem hochdimensionalen Aktivierungsmuster in der vorhergehenden Sammelschicht 5 mehr Informationen zu entnehmen. Um die Zahl verfügbarer ansichtsabgestimmter Einheiten 6 zu begrenzen, kann man eine Anordnung, bei der lediglich drei VTUs 6 für jedes Objekt verfügbar sind, verwenden. Die Gewichte und Schwellen dieser VTUs 6 können durch einen stochastischen Gradientenabstieg optimiert werden. Trotz einer kleinen Zahl von lediglich drei VTUs 6 erreicht die Optimierung abhängig von der Zahl verfügbarer Trainings-Muster eine vergleichbare Leistung. Die ICA-optimierten Merkmale ergeben hier wiederum die besten Resultate. Die Haupt-Komponenten-Analyse, die ein allgemeinerer varianzbasierter Auswahllösungsansatz als ein Wählen paarweiser Kombinationszellen mit einer maximalen Varianz ist, übertrifft das paarweise Modell, erreicht jedoch nicht das Niveau der ICA.
Ein zentrales Problem für eine Erkennung besteht darin, dass ein natürlicher Stimulus üblicherweise nicht nur das Objekt, das isoliert von einem Hintergrund zu erkennen ist, sondern auch eine große Menge an Störungen enthält. Es ist hauptsächlich die Menge an Störungen in der Umgebung, die die Fähigkeit des Zunehmens der Sammelbereiche, um eine größere Translationstoleranz für die Erkennung zu bekommen (siehe Mel, B. W. & Fiser, J. (2000), „Minimizing binding errors using learned conjunctive features", Neural computation 12(4), 731–762), begrenzt.
Der Einfluss von Störungen wird durch künstliches Erzeugen eines zufallsgestörten Hintergrunds, durch Ausschneiden der Objektbilder und deren Platzieren auf einem sich ändernden gestörten Hintergrundbild mit einer Zufallspositionsvarianz von vier Pixeln ausgewertet. Mit dieser Prozedur wird ein Bild-Ensemble für den Satz von 20 Objekten aus der COIL-20-Datenbank erzeugt, und es wird sowohl ein Training als auch ein Testen mit diesen Bildern durchgeführt. Das Ensemble wurde durch 200 Ansichten, die lediglich Störungen enthalten und bei denen erwartet wird, dass alle VTUs 6 still bleiben (d. h. ihr Trainings-Ausgangssignal wurde auf 0,1 eingestellt), vergrößert. Bei einem Einstellen einer Abweisungsschwelle von 0,2 für die endgültigen VTUs werden lediglich 1% der Störungsbilder fälschlicherweise als Objekte klassifiziert. Die falsche Abweisungsrate, d. h., wenn ein dargestelltes Objekt eine Schwellenaktivierung nicht überschreitet, ist kleiner als 1%. Die Gesamtklassifizierungsrate, die drei VTUs pro Objekt verwendet, ist mit dem größeren COIL-100-Satz vergleichbar. Dies betont die Fähigkeit des hierarchischen Netzes, über unterschiedliche Umgebungen ohne eine Notwendigkeit einer vorherigen Segmentierung zu verallgemeinern. Selbst mit lediglich drei Trainings-Ansichten kann eine zu 85% korrekte Klassifizierung erreicht werden.
Zusammengefasst gibt es eine laufende Diskussion über die Fähigkeiten hierarchischer neuronaler Mitkopplungsarchitekturen zum Durchführen einer invarianten Realwelt-3D-Objekterkennung. Obwohl eine Vielfalt hierarchischer Modelle existiert, sind geeignete überwachte und nicht-überwachte Lernverfahren immer noch ein Thema einer intensiven Forschung. Es ist ein Mitkopplungsmodell für eine Erkennung, das Komponenten, wie ein gemeinsames Verwenden von Gewichten, Sammelstufen und Sieger-nimmt-Alles-Nichtlinearitäten mit früheren Lösungsansätzen gemeinsam verwendet, sich jedoch auf neue Verfahren zum Bestimmen optimaler merkmalsdetektierender Zellen in Zwischenstufen des hierarchischen Netzes konzentriert, vorgeschlagen. Die unabhängige Komponenten-Analyse (ICA), die vorher meistens auf die Anfangsmerkmalsdetektierungsstufen angewandt wurde, ergibt auch für komplexe Zwischenmerkmale überlegene Resultate der Erkennungsleistung. Merkmale, die durch die ICA gelernt werden, führen zu besseren Resultaten als früher vorgeschlagene heuristisch gewählte Kombinationen einfacher Merkmale.

Claims

Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen, wobei das Verfahren folgende Schritte aufweist: a.) Falten einer Mehrzahl von Festmerkmal-Detektoren (2) mit einem lokalen Fenster (7), das über eine Darstellung (1) des Musters (8) abgetastet, um eine Mehrzahl von Merkmalsabbildungen (9) zu erzeugen, wobei die Merkmalsabbildungen (9) die Anwesenheit von einfachen voreingesteliten Merkmalen (12, 13) in der Darstellung (1) des Musters (8) erfassen, b.) Getrenntes Anwenden einer Nichtlinearitätsfunktion auf das Ausgangssignal von jeder Merkmalsabbildung (9), c.) Erfassen der Anwesenheit von voreingestellten lokalen Kombinationen (4) der einfachen Merkmale (12, 13) der Merkmalsabbildungen (9) in dem Resultat von Schritt b.), und d.) Erkennen des Musters (8) durch Klassifizieren (6) desselben auf der Basis der erfassten lokalen Kombinationen (4), dadurch gekennzeichnet, dass für die lokale Kombination (4) von Merkmalen bei dem Schritt c.) statistisch unabhängige Merkmale (10, 11) voreingestellt sind, wobei die statistisch unabhängigen Merkmale (10, 11) mittels einer unabhängigen Komponenten-Analyse von Faltungen von Merkmalsdetektoren über Trainings-Muster oder mittels einer Haupt-Komponenten-Analyse von Faltungen von Merkmalsdetektoren über Trainings-Muster vorbestimmt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, um die Merkmalsabbildungen (9) zu erzeugen, auf das Resultat der Faltung eine Sieger-nimmt-Alles-Strategie zwischen Merkmalen in der gleichen Position der Darstellung des Musters angewandt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass auf jede Merkmalsabbildung (9) eine nicht-differenzierbare Nichtlinearitätsfunktion angewandt wird.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch mindestens einen Sammelschritt (3), bei dem Merkmalsabbildungen (9) eines vorhergehenden Schritts einer lokalen Durchschnittsbildung (14) und einer Unterprobennahme unterworfen werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Schritt des Klassifizierens (6) unter Verwendung einer 1-schichtigen sigmoidalen Übertragungsfunktion, die mit einem Gradientenabstiegsverfahren trainiert wird, bewirkt wird.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Schritt des Klassifizierens (6) unter Verwendung eines Netzes von radialen Basisfunktionen, eines Nearest-Neighbour-Matching-Algorithmus oder eines Mehrschicht-Perzeptron-Netzes ausgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Ausgangssignal von Schritt b.) vor einem Anwenden des Schritts des Klassifizierens c.) mindestens einer weiteren Stufe zum Erzeugen von Merkmalsabbildungen (9) und Erfassen von lokalen Kombinationen (4) zugeführt wird.
Computersoftware-Programmprodukt, dadurch gekennzeichnet, dass dasselbe ein Verfahren nach einem der vorhergehenden Ansprüche implementiert, wenn dasselbe auf einer Rechenvorrichtung ausgeführt wird.
Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 für die optische Erkennung von Zeichen oder Objekten, die in digitalen Darstellungen anwesend sind.
Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 für die optische Erkennung von handgeschriebenen Ziffern (8).