DE60130742T2 - Mustererkennung mit hierarchischen Netzen - Google Patents

Mustererkennung mit hierarchischen Netzen Download PDF

Info

Publication number
DE60130742T2
DE60130742T2 DE60130742T DE60130742T DE60130742T2 DE 60130742 T2 DE60130742 T2 DE 60130742T2 DE 60130742 T DE60130742 T DE 60130742T DE 60130742 T DE60130742 T DE 60130742T DE 60130742 T2 DE60130742 T2 DE 60130742T2
Authority
DE
Germany
Prior art keywords
feature
features
pattern
local
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60130742T
Other languages
English (en)
Other versions
DE60130742D1 (de
Inventor
Heiko Dr. Wersing
Edgar Dr. Körner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Research Institute Europe GmbH
Original Assignee
Honda Research Institute Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Research Institute Europe GmbH filed Critical Honda Research Institute Europe GmbH
Publication of DE60130742D1 publication Critical patent/DE60130742D1/de
Application granted granted Critical
Publication of DE60130742T2 publication Critical patent/DE60130742T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen, ein Verfahren zum Trainieren eines hierarchischen Netzes, ein Computersoftwareprogramm zum Implementieren eines solchen Verfahrens, eine Mustererkennungsvorrichtung mit einem hierarchischen Netz und die Verwendung einer Mustererkennungsvorrichtung.
  • Die vorliegende Erfindung findet auf dem Gebiet einer Mustererkennung Anwendung, wobei das Muster auf eine optische, akustische oder eine andere digital darstellbare Art und Weise dargestellt sein kann.
  • Es wird zunächst der Hintergrund der Verarbeitungsarchitektur erklärt. Das Konzept eines konvergenten hierarchischen Codierens setzt voraus, dass ein sensorisches Verarbeiten in dem Gehirn in hierarchischen Stufen organisiert sein kann, wobei jede Stufe spezialisierte parallele Operationen, die von einem Eingangssignal von früheren Stufen abhängen, durchführt. Das konvergente hierarchische Verarbeitungsschema kann eingesetzt werden, um neuronale Darstellungen zu bilden, die zunehmend komplexe Merkmalskombinationen bis zu der sogenannten „Großmutterzelle", die lediglich dann, wenn ein spezifisches Objekt erkannt wird, vielleicht sogar unter spezifischen Sichtbedingungen, feuern kann, erfassen. Die Hauptkritik an diesem Typ eines hierarchischen Codierens besteht darin, dass derselbe aufgrund der großen Zahl von Kombinationen von Merkmalen, die unter unterschiedlichen Sichtbedingungen ein spezielles Objekt ausmachen, zu einer kombinatorischen Explosion der Möglichkeiten, die dargestellt werden müssen, führen kann (von der Malsburg, C. (1999), „The what and why of binding: The modeler's perspective", Neuron, 24, 95–104).
  • Mehrere Autoren haben in den letzten Jahren Lösungsansätze zum Erreichen einer invarianten Erkennung vorgeschlagen, um eine solche kombinatorische Explosion zu vermeiden. Die Hauptidee besteht darin, Zwischenstufen in einem hierarchischen Netz zu verwenden, um höhere Grade einer Invarianz bei Antworten, die dem gleichen Objekt entsprechen, zu erreichen, so dass die kombinatorische Komplexität wirksam reduziert wird.
  • Seit der Arbeit von Fukushima, der das Neocognitron als ein frühes Modell einer translationsinvarianten Erkennung vorgeschlagen hat, wurden zwei bedeutende Verarbeitungsmodi in der Hierarchie hervorgehoben: Merkmalselektive Neuronen sind empfindlich gegen spezielle Merkmale, die üblicherweise lokaler Natur sind. Sammelneuronen führen eine räumliche Integration über merkmalselektive Neuronen durch, die aufeinanderfolgend aktiviert werden, wenn auf den Stimulus eine Invarianztransformation angewandt wird. Wie durch Mel, B. W. & Fiser, J. (2000), „Minimizing binding errors using learned conjunctive features", Neural computation 12(4), 731–762, vor kurzem hervorgehoben wurde, stehen die kombinierten Stufen einer lokalen Merkmalsdetektierung und eines räumlichen Sammelns dem gegenüber, was als ein Stabilitäts-Selektivitäts-Dilemma bezeichnet werden könnte. Ein übermäßiges räumliches Sammeln führt einerseits zu komplexen Merkmalsdetektoren mit einer sehr stabilen Antwort unter Bildtransformationen. Die Selektivität des Detektors wird andererseits weitgehend reduziert, da ein räumliches Sammeln in einem großen Bereich zu viele schwache Beweise anhäufen kann, wobei die Wahrscheinlichkeit einer zufälligen Erscheinung des Merkmals zunimmt.
  • Die Glaubwürdigkeit des Konzepts einer hierarchischen Mitkopplungserkennung steht oder fällt, trotz ihrer konzeptionellen Anziehung und ihres neurobiologischen Nachweise, mit der erfolgreichen Anwendung auf ausreichend schwierige Realwelt-3D-Invarianzerkennungsprobleme. Das zentrale Problem besteht in der Formulierung eines durchführbaren Lernlösungsansatzes zum Optimieren der kombinierten Merkmalsdetektierungs- und Sammelstufen. Abgesehen von vielversprechenden Resultaten bei künstlichen Daten und von sehr erfolgreichen Anwendungen auf dem Gebiet der Erkennung eines handgeschriebenen Zeichens sind Anwendungen auf 3D-Erkennungsprobleme (Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. (1997), „Face recognition: A convolutional neural-network approach", IEEE Transactions an Neural Networks 8(1), 98–113) ungewöhnlich. Ein Grund besteht darin, dass das Verarbeiten von Realweltbildern Netzgrößen, die die Anwendung von standardmäßig überwachten Lernverfahren, wie einer Fehlerrückübertragung, üblicherweise undurchführbar machen, erfordert. Die Verarbeitungsstufen in der Hierarchie können ferner Netz-Nichtlinearitäten, wie Sieger-nimmt-Alles, die keine ähnliche Gradientenabstiegsoptimierung ermöglichen, enthalten. Von einer großen Wichtigkeit für das Verarbeiten innerhalb eines hierarchischen Netzes ist die eingesetzte Codierstrategie. Ein wichtiges Prinzip ist eine Redundanzreduzierung, das heißt eine Transformation des Eingangssignals, die die statistischen Abhängigkeiten unter Elementen des Eingangssignalstroms reduziert. Wavelet-artige Merkmale, die entweder durch Auferlegen spärlicher übervollständiger Darstellungen (Olshausen, B. A. & Field, D. J. (1997), „Sparse coding with an overcomplete basis set: A strategy employed in V1", Vision Research, 37, 3311–3325) oder durch Auferlegen einer statistischen Unabhängigkeit wie bei einer unabhängigen Komponenten-Analyse (Bell, A. J. & Sejnowski, T. J. (1997), „The 'independent components' of natural scenes are edge filters", Vision Research, 37, 3327–3338) den rezeptiven Feldern von V1-Zellen gleichen, wurden abgeleitet. Diese Zellen führen das visuelle Anfangsverarbeiten durch und werden daher den Anfangsstufen bei einem hierarchischen Verarbeiten zugeschrieben.
  • Abgesehen von einem Verständnis eines biologischen Sehens sind diese funktionellen Prinzipien ferner von einer großen Relevanz für das Gebiet eines technischen Computersehens. Obwohl eine ICA (= Independent Component Analysis = unabhängige Komponenten-Analyse) für eine Merkmalsdetektierung bei einem Sehen durch mehrere Autoren erörtert wurde, gibt es nur wenige Bezugnahmen auf ihre Nützlichkeit bei invarianten Objekterkennungsanwendungen. Bartlett, M. S. & Sejnowski, T. J. (1997), "Viewpoint invariant face recognition using independent component analysis and attractor networks", in M. C. Mozer, M. I. Jordan & T. Petsche (Herausgeber), „Advances in Neural Information Processing Systems", Band 9, S. 817, The MIT Press, zeigten, dass ICA-Darstellungen für eine Gesichtserkennung hinsichtlich einer Poseninvarianz und einer Klassifizierungsleistung Vorteile gegenüber PCA (= Principal Component Analysis = Haupt-Komponenten-Analyse)-basierten Darstellungen haben.
  • Es wird nun die Verwendung hierarchischer Netze für eine Mustererkennung erklärt.
  • Ein wesentliches Problem für die Anwendung auf Erkennungsaufgaben besteht darin, welche Codierprinzipien für die Transformation von Informationen in der Hierarchie verwendet werden und welche lokale Merkmalsdarstellung zum Darstellen von Objekten bei einer Invarianz optimal ist. Beide Eigenschaften sind nicht unabhängig und müssen zusammenarbeiten, um das gewünschte Ziel zu erreichen. Ein Lernen in tiefen hierarchischen Netzen steht trotz seiner konzeptionellen Anziehung immer noch mehreren bedeutenden Nachteilen gegenüber. Die folgende Übersicht wird die Probleme für die bedeutenden Lösungsansätze, die bisher betrachtet wurden, erörtern.
  • Fukushima, K. (1980), „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position", Biol. Cyb., 39, 139–202, führte mit dem Neocognitron ein Prinzip eines hierarchischen Verarbeitens für eine invariante Erkennung ein, das auf aufeinander folgenden Stufen eines lokalen Schablonenabgleichens und eines räumlichen Sammelns basiert. Das Neocognitron kann durch ein nicht-überwachtes, konkurrierendes Lernen trainiert werden, Anwendungen, wie eine Erkennung einer handgeschriebenen Ziffer, erforderten jedoch eine überwachte manuelle Trainingsprozedur. Ein sicherer Nachteil ist die kritische Abhängigkeit der Leistung von der geeigneten manuellen Trainingsmusterauswahl (Lovell, D., Downs, T. & Tsoi, A. (1997), „An evaluation of the neocognitron", IEEE Trans. Neur. Netw., 8, 1090–1105) für die Schablonenabgleichstufen. Die Notwendigkeit eines Eingreifens eines Lehrers während der Lernstufen hat das Training für komplexere Erkennungsszenarien, wie eine 3D-Objekterkennung, bisher undurchführbar gemacht.
  • Riesenhuber, M. & Poggio, T. (1999) „Are cortical models really bound by the "binding Problem"?", Neuron, 24, 87–93, hoben den Punkt hervor, dass hierarchische Netze mit geeigneten Sammeloperationen die kombinatorische Explosion von Kombinationszellen vermeiden können. Sie schlugen ein hierarchisches Modell mit ähnlichen Abgleich- und Sammelstufen wie bei dem Neocognitron vor. Ein Hauptunterschied besteht in den Nichtlinearitäten, die die Sendung von Mitkopplungsinformationen durch das Netz beeinflussen. Um das Überlagerungsproblem zu reduzieren, konzentriert sich in ihrem Modell eine komplexe Zelle auf das Eingangssignal der präsynaptischen Zelle, die das größte Eingangssignal liefert. Das Modell wurde auf die Erkennung künstlicher Büroklammerbilder und computerwiedergegebener Tier- und Autoobjekte (Riesenhuber, M. & Poggio, T. (1999b), „Hierarchical models of object recognition in cortex", Nature Neuroscience 2(11), 1019–1025) angewandt und verwendet ein lokales Aufzählungsschema zum Definieren von Zwischenkombinationsmerkmalen.
  • Von Y. Le Cun et al („Hand-written digit recognition with back-propagation network", 1990, in advances in neural information processing systems 2, S. 396–404) ist ein Mehrschicht-Netz bekannt. Ein Eingangsbild wird mit einem einzelnen Neuron, das ein lokales rezeptives Feld hat, abgetastet, und die Zustände dieses Neurons werden an entsprechenden Orten in einer Schicht, die als eine Merkmalsabbildung bezeichnet wird, gespeichert. Diese Operation ist äquivalent zu einer Faltung mit einem Kern einer kleinen Größe. Das Verfahren kann durch Implementieren der Merkmalsabbildung als eine Ebene von Neuronen, deren Gewichtsvektoren gezwungen sind, gleich zu sein, parallel durchgeführt werden. Das heißt, Einheiten in einer Merkmalsabbildung sind gezwungen, die gleiche Operation an unterschiedlichen Teilen des Bildes durchzuführen. Ein bestimmtes Niveau einer Verschiebungsinvarianz ist zusätzlich in dem System anwesend, da ein Verschieben des Eingangssignals das Resultat in der Merkmalsabbildung verschieben wird, diese jedoch sonst unverändert lassen wird. Es ist ferner vorgeschlagen, mehrere Merkmalsabbildungen, die dem gleichen Bild unterschiedliche Merkmale entnehmen, zu haben. Gemäß diesem Stand der Technik kann der Gedanke lokaler Faltungsmerkmalsabbildungen ebenfalls auf folgende versteckte Schichten angewandt werden, um Merkmale einer zunehmenden Komplexität und Abstraktion zu entnehmen. Mehrschichtige Faltungsnetze wurden auf Mustererkennungsaufgaben mit einem Fokus auf einer optischen Zeichenerkennung (siehe LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324 für eine umfassende Übersicht) breit angewandt. Ein Lernen optimaler Merkmale wird unter Verwendung des Rückübertragungsalgorithmus, bei dem Zwänge einer Translationsinvarianz durch ein gemeinsames Verwenden eines Gewichts explizit auferlegt werden, ausgeführt. Aufgrund der tiefen Hierarchien erfordert das Gradientenlernen jedoch eine beträchtliche Trainings-Zeit für große Trainings-Ensembles und große Netzgrößen. Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. (1997), "Face recognition: A convolutional neural-network approach", IEEE Transactions an Neural Networks 8(1), 98–113 haben das Verfahren angewandt, das mit einer vorherigen Vektorquantisierung, die auf selbstorganisierenden Abbildungen für eine Dimensionalitätsreduzierung basiert, erweitert wird, und haben eine verbesserte Leistung für eine Gesichtsklassifizierungs-Anordnung.
  • Es werden nun Anwendungen hierarchischer Modelle der invarianten Erkennung von Objekten kurz erklärt.
  • Die US-A-5,058,179 bezieht sich auf ein erzwungenes automatisches Hierarchie-Lernnetz für eine Zeichenerkennung. Eine hochgenaue, zuverlässige optische Zeichenerkennung wird dabei durch das hierarchisch geschichtete Netz mit mehreren Schichten mehrerer erzwungener Merkmalsdetektierungen für eine lokalisierte Merkmalsentnahme, auf die mehrere völlig verbundene Schichten für eine Dimensionalitätsreduzierung folgen, geboten. Die Zeichenklassifizierung wird in der letzten völlig verbundenen Schicht durchgeführt. Jede Schicht einer parallelen erzwungenen Merkmalsdetektierung weist eine Mehrzahl erzwungener Merkmalsabbildungen und eine entsprechende Mehrzahl von Kernen auf, wobei ein vorbestimmter Kern mit einer einzelnen erzwungenen Merkmalsabbildung direkt verwandt ist. Eine Unterprobennehmen kann von Schicht zu Schicht durchgeführt werden.
  • Die US-A-5,067,164 offenbart ebenfalls ein hierarchisches erzwungenes automatisches neuronales Lernnetz für eine Erkennung, das mehrere Schichten einer erzwungenen Merkmalsdetektierung hat und bei dem jede Schicht einer erzwungenen Merkmalsdetektierung eine Mehrzahl erzwungener Merkmalsabbildungen und eine entsprechende Mehrzahl von Merkmalsreduzierungsabbildungen umfasst. Jede Merkmalsreduzierungsabbildung ist mit lediglich einer erzwungenen Merkmalsabbildung in der Schicht zum Unterprobennehmen dieser erzwungenen Merkmalsabbildung verbunden. Einheiten in jeder erzwungenen Merkmalsabbildung der ersten erzwungenen Merkmalsdetektierungsschicht antworten als eine Funktion eines entsprechenden Kerns und unterschiedlicher Abschnitte des Pixelbilds des Zeichens, die in einem rezeptiven Feld, das der Einheit zugeordnet ist, registriert werden. Einheiten in jeder Merkmalsabbildung der zweiten erzwungenen Merkmalsdetektierungsschicht antworten als eine Funktion eines entsprechenden Kerns und unterschiedlicher Abschnitte einer individuellen Merkmalsreduzierungsabbildung oder einer Kombination mehrerer Merkmalsreduzierungsabbildungen in der ersten erzwungenen Merkmalsdetektierungsschicht, die in einem rezeptiven Feld der Einheit erfasst werden. Die Merkmalsreduzierungsabbildungen der zweiten erzwungenen Merkmalsdetektierungsschicht sind mit jeder Einheit der endgültigen Zeichenklassifizierungsschicht völlig verbunden. Kerne werden durch den Fehlerrückübertragungsalgorithmus während einer Netzinitialisierung oder eines Netztrainings automatisch gelernt. Ein Problem dieses Lösungslösungsansatzes besteht darin, dass ein Lernen für alle Kerne in der Hierarchie gleichzeitig durchgeführt werden muss, was ein Lernen für große Netze zu langsam macht. Dies hat die Anwendung dieser Art von Faltungsnetzen auf schwierigere Probleme einer dreidimensionalen invarianten Objekterkennung bisher ausgeschlossen.
  • Die US-A-6,038,337 offenbart ein Verfahren und eine Vorrichtung für eine Objekterkennung unter Verwendung eines hybriden neuronalen Netzsystems, das ein lokales Bildprobenentnehmen, ein neuronales selbstorganisierendes Abbildungsnetz für eine Dimensionsreduzierung und ein hybrides faltendes Netz aufweist. Das neuronale hybride faltende Netz liefert eine Teilinvarianz zu einer Translation, einer Drehung, einem Maßstab und einer Verformung. Das hybride faltende Netz entnimmt aufeinanderfolgend größere Merkmale in einem hierarchischen Satz von Schichten. Eine Gesichtserkennung von Frontalansichten ist als eine Beispielanwendung angegeben.
  • Angesichts des vorhergehenden Stands der Technik ist es die Aufgabe der vorliegenden Erfindung, bei großmaßstäblichen hierarchischen faltenden Netzen die Codiereffizienz zu verbessern und die Lernzwänge zu reduzieren.
  • Das Basiskonzept, um diese Aufgabe zu lösen, ist ein neuer Lösungsansatz zum Trainieren des hierarchischen Netzes, der eine statistische Einrichtung zum (inkrementellen) Lernen neuer Merkmalsdetektierungsstufen verwendet. Zweckmäßigerweise sollte die Verbesserung derart sein, dass nicht nur zweidimensionale Objekte, sondern auch dreidimensionale Objekte mit Variationen einer dreidimensionalen Drehung, einer Größe und von Beleuchtungsbedingungen erkannt werden können. Als ein weiterer Vorteil ist dieses Lernverfahren für beliebige Nichtlinearitäten zwischen Stufen in den hierarchischen faltenden Netzen realisierbar.
  • Die Technologie gemäß dem im Vorhergehenden erwähnten Stand der Technik kann im Gegensatz dazu lediglich ein Rückübertragungslernen für differenzierbare Nichtlinearitäten durchführen, was für den Netzentwurf bestimmte Beschränkungen darstellt.
  • Die Aufgabe wird mittels der Merkmale der unabhängigen Ansprüche gelöst. Die abhängigen Ansprüche entwickeln die zentrale Idee der vorliegenden Erfindung weiter.
  • Gemäß der vorliegenden Erfindung wird daher ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen vorgeschlagen. Zunächst wird eine Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung eines zu detektierenden Musters abtastet, gefaltet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Eine beliebige Nichtlinearität wird dann auf jede Merkmalsabbildung getrennt angewandt. Lokale Kombinationen von Merkmalen der Merkmalsabbildungen werden erfasst. Das Muster wird schließlich auf der Basis der erfassten lokalen Kombinationen klassifiziert (und daher erkannt). Gemäß der vorliegenden Erfindung für die lokale Kombination von Merkmalen (die einer Zwischenschicht eines Netzes entspricht) werden statistisch unabhängige Merkmale voreingestellt.
  • Die statistisch unabhängigen Merkmale werden mittels einer unabhängigen Komponenten-Analyse (ICA) von Faltungen von Trainings-Mustern vorbestimmt. Eine unabhängige Komponenten-Analyse liegt in dem Aufbau neuer Merkmale, die die unabhängigen Komponenten eines Datensatzes sind. Die unabhängigen Komponenten sind Zufallsvariablen von minimalen gegenseitigen Informationen, die aus linearen Kombinationen der Eingangsmerkmale aufgebaut sind. Es ist eine Tatsache der Informationstheorie, dass solche Variablen so unabhängig wie möglich sein werden.
  • Die statistisch unabhängigen Merkmale können alternativ oder zusätzlich mittels einer Haupt-Komponenten-Analyse (PCA) von Faltungen von Trainings-Mustern vorbestimmt werden. Eine Haupt-Komponenten-Analyse liegt in dem Aufbau neuer Merkmale, die die Hauptkomponenten eines Datensatzes sind. Die Hauptkomponenten sind Zufallsvariablen einer maximalen Varianz, die aus orthogonalen linearen Kombinationen der Eingangsmerkmale aufgebaut sind. Da dies lediglich eine Unkorreliertheit der resultierenden Merkmale sicherstellt, ist dies ein schwächerer Begriff von einer statistischen Unabhängigkeit als bei einer unabhängigen Komponenten-Analyse.
  • Um die Merkmalsabbildungen zu erzeugen, können eine Sieger-nimmt-Alles-Strategie und eine weitere nichtlineare Funktion auf das Resultat der Faltung angewandt werden. Die im Vorhergehenden beschriebenen statistischen Lernverfahren können ungeachtet der Art der kombinierten Sieger-nimmt-Alles-Nichtlinearität und weiterer Nichtlinearitäten angewandt werden.
  • Mindestens ein Sammelschritt, bei dem Merkmalsabbildungen einer fortschreitenden Abbildung lokal einer Durchschnittsbildung und einer Probenentnahme unterworfen werden, kann vorgesehen sein. Der Sammelschritt trägt zu der Invarianz der Erkennung unter Transformationen der unterschiedlichen Muster, die dem gleichen Objekt entsprechen, bei.
  • Der Schritt des Klassifizierens kann unter Verwendung einer einschichtigen sigmoidalen Funktion, die mit einem Gradientenabstiegsverfahren trainiert wird, bewirkt werden. (Es sei bemerkt, dass für ein Voreinstellen der statistisch unabhängigen Merkmale kein klassisches überwachtes Lernverfahren notwendig ist, so dass der Aufwand, der zum Einrichten des Systems benötigt wird, wesentlich reduziert wird). Der Schritt des Klassifizierens kann alternativ unter Verwendung eines Netzes von radialen Basisfunktionen, eines Nearest-Neighbour-Matching-Algorithmus oder eines Mehrschicht-Perzeptron-Netzes ausgeführt werden.
  • Die Schritte einer Merkmalsdetektierung, eines optionalen Sammelns und einer Kombination können mehrere Male wiederholt werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen vorgeschlagen. Eine Mehrzahl von Festmerkmal-Detektoren wird für das lokale Fenster, das über eine Darstellung des Musters abtastet, gefaltet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Lokale Kombinationen von Merkmalen der Merkmalsabbildungen werden erfasst, und das Muster wird auf der Basis der erfassten lokalen Kombinationen klassifiziert (und daher erkannt). Um die Merkmalsabbildungen zu erzeugen, wird eine Sieger-nimmt-Alles-Strategie auf das Resultat der Faltung angewandt.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Trainieren eines hierarchischen Netzes vorgeschlagen. Das hierarchische Netz weist eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen, eine Einrichtung zum getrennten Anwenden einer nichtlinearen Funktion auf jede Merkmalsabbildung, eine Zwischeneinrichtung zum Erfassen lokaler Kombinationen einfacher Merkmale der Merkmalsabbildungen und eine Einrichtung zum Erkennen des Musters durch Klassifizieren desselben auf der Basis der erfassten lokalen Kombinationen auf. Gemäß der vorliegenden Erfindung wird die Einrichtung zum Erfassen lokaler Kombinationen inkrementell trainiert, derart, dass die statistische Unabhängigkeit der lokalen Kombinationen von Merkmalen gesteigert wird.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein Computersoftwareprogramm, das ein Verfahren, wie im Vorhergehenden dargelegt ist, implementiert, wenn dasselbe auf einer Rechenvorrichtung ausgeführt wird, vorgeschlagen.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird eine Mustererkennungsvorrichtung mit einem hierarchischen Netz vorgeschlagen. Das hierarchische Netz weist eine Einrichtung zum Eingeben einer Darstellung eines Musters (d. h. eines digitalen Fotos eines Objekts) auf. Eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen, ist ferner vorgesehen. Eine Zwischeneinrichtung erfasst lokale Kombinationen von Merkmalen der Merkmalsabbildungen. Eine Klassifizierungseinrichtung „erkennt" auf der Basis der erfassten lokalen Kombinationen das Muster. Die Einrichtung zum Erfassen lokaler Kombinationen ist für eine Verwendung einer Voreinstellung statistisch unabhängiger Merkmale entworfen.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird eine Mustererkennungsvorrichtung mit einem hierarchischen Netz vorgeschlagen, wobei das hierarchische Netz eine Einrichtung zum Eingeben einer Darstellung eines Musters aufweist. Eine Einrichtung zum Falten einer Mehrzahl von Festmerkmal-Detektoren mit einem lokalen Fenster, das über eine Darstellung des Musters abtastet, ist ferner vorgesehen, um eine Mehrzahl von Merkmalsabbildungen zu erzeugen. Eine Zwischeneinrichtung erfasst lokale Kombinationen von Merkmalen der Merkmalsabbildungen. Die Einrichtung zum Klassifizieren erkennt schließlich auf der Basis erfasster lokaler Kombinationen das Muster. Die Faltungseinrichtung ist dadurch für eine Verwendung einer Sieger-nimmt-Alles-Strategie, um die Merkmalsabbildung zu erzeugen, entworfen.
  • Die Klassifizierungseinrichtung kann auf eine spezielle Vollansicht des Musters abgestimmt sein.
  • Das hierarchische Netz kann eine Sammeleinrichtung für ein lokales Durchschnittsbilden und ein Unterprobenentnehmen von Merkmalsabbildungen, die durch die Faltungseinrichtung erzeugt werden, aufweisen.
  • Die Klassifizierungseinrichtung kann entworfen sein, um eine sigmoidale Funktion, die mit einem Gradientenabstiegsverfahren trainiert wird, zu verwenden.
  • Die Klassifizierungseinrichtung kann entworfen sein, um ein Netz von radialen Basisfunktionen zu verwenden.
  • Die Klassifizierungseinrichtung kann auf einem Nearest-Neighbour-Matching-Verfahren basieren.
  • Die Klassifizierungseinrichtung kann auf einem Mehrschicht-Perzeptron-Netz basieren.
  • Das hierarchische Netz kann durch ein Parallelrechennetz implementiert sein.
  • Es ist wichtig, anzumerken, dass der Satz von Einrichtungen für die erste Merkmalsdetektierung, das optionale Sammeln und die Kombinationsschicht auf eine verkettete Art und Weise mehrere Male vorgesehen sein kann.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung kann eine Mustererkennungsvorrichtung, wie im Vorhergehenden definiert ist, für eine optische Erkennung von Zeichen oder Objekten, insbesondere für die optische Erkennung von dreidimensionalen Objekten, verwendet sein.
  • Weitere Merkmale, Aufgaben und Vorteile der vorliegenden Erfindung werden für den Fachmann bei einem Lesen der folgenden detaillierten Erklärung eines Ausführungsbeispiels der vorliegenden Erfindung zusammen mit den Figuren der beigefügten Zeichnungen offensichtlich.
  • 1 erklärt das Vorstrukturieren eines Netzes gemäß der vorliegenden Erfindung, und
  • 2 zeigt schematisch die Architektur eines hierarchischen Netzes gemäß der vorliegenden Erfindung.
  • Es wird zunächst das Vorstrukturieren eines Netzes gemäß der vorliegenden Erfindung unter Bezugnahme auf 1 gezeigt, die ferner dazu dient, die technischen Einrichtungen zum Implementieren der vorliegenden Erfindung zu demonstrieren. Bildern werden durch eine Probenentnahmevorrichtung 17, wie z. B. eine digitale Video- oder Fotokamera, Proben entnommen und dann dem hierarchischen Netz, auf das allgemein mit 16 Bezug genommen ist, zugeführt. Das hierarchische Netz 16 weist mindestens einen Satz auf, der eine einfache Merkmalsdetektierungsstufe 18 und eine Kombinationsmerkmalsdetektierungsstufe 19 aufweist. Diese Stufen 18, 19 können innerhalb des Netzes 18 mehrere Male wiederholt sein, worauf mit 20 schematisch Bezug genommen ist. Das endgültige Ausgangssignal des Netzes 18 wird dann der Klassifizierungseinrichtung 21, die das einer Probenentnahme unterworfene Bild durch Klassifizieren desselben erkennt, zugeführt.
  • Abgesehen von der neuen Struktur ist die vorliegende Erfindung ferner mit einem neuen Lösungsansatz zum Trainieren des hierarchischen Netzes befasst, wobei das Training eine statistische Einrichtung zum (inkrementellen) Lernen neuer Merkmalsdetektierungsstufen 19 verwendet. Das inkrementelle Lernen basiert auf einem Detektieren von zunehmend statistisch unabhängigen Merkmalen in höheren Stufen der Verarbeitungshierarchie. Da dieses Lernen nicht-überwacht ist, ist kein Lehrersignal notwendig, und die Erkennungsarchitektur kann für ein bestimmtes Erkennungsszenario vorstrukturiert sein. Lediglich die endgültige Klassifizierungseinrichtung 21 muss mit einem überwachten Lernen trainiert werden, was den Aufwand für die Anpassung an eine Erkennungsaufgabe erheblich reduziert.
  • Die hierarchische Modellarchitektur gemäß der vorliegenden Erfindung ist im Folgenden unter Bezugnahme auf 2 detailliert erklärt. Das Modell basiert auf einer Mitkopplungsarchitektur mit einem Gewichtsteilen und einer Folge merkmalsempfindlicher Abgleichstufen 2 und Sammelstufen 3.
  • Das Modell weist drei Stufen in der Verarbeitungshierarchie auf. Die erste Merkmalsabgleichstufe 2 besteht aus einer linearen vorzeichenunempfindlichen Anfangssummierung eines rezeptiven Feldes, einer Sieger-nimmt-Alles-Einrichtung zwischen Merkmalen in der gleichen Position und einer endgültigen nichtlinearen Schwellenfunktion. Es wird im Folgenden die Bezeichnungsweise übernommen, dass Vektorindizes über den Satz von Neuronen innerhalb einer speziellen Ebene einer speziellen Schicht laufen. Um antwortend auf einen Merkmalstyp l in einer Position (x,y) die Antwort ql1 (x, y) einer einfachen Zelle in der ersten Schicht 2 zu berechnen, wird zuerst der Bildvektor I mit einem Gewichtsvektor wl1 (x, y), der das rezeptive Feldprofil charakterisiert, multipliziert:
    Figure 00130001
  • Das innere Produkt wird mit * bezeichnet, d. h. für ein 10×10-Pixelbild sind I und wl1 (x, y) 100-dimensionale Vektoren. Die Gewichte wl1 sind normiert und charakterisieren ein lokalisiertes rezeptives Feld in der Eingangsschicht des visuellen Feldes. Alle Zellen in einer Merkmalsebene l haben die gleiche rezeptive Feldstruktur, die durch wl1 (x, y) gegeben ist, jedoch verschobene rezeptive Feldmitten, wie bei einer klassischen Architektur eines gemeinsamen Verwendens von Gewichten oder einer klassischen Faltungsarchitektur (Fukushima, K. (1980), „Neocognitron: A selforganizing neural network model for a mechanism of pattern recognition unaffected by shift in position", Biol. Cyb., 39, 139–202; LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324).
  • Es wird bei einem zweiten Schritt ein weicher Sieger-nimmt-Alles (englisch: Winner-Take-All; WTA)-Mechanismus mit
    Figure 00140001
    durchgeführt, wobei M = maxk qk1 und rl1 (x, y) die Antwort nach der WTA-Einrichtung ist, die submaximale Antworten unterdrückt. Der Parameter 0 < γ1 < 1 steuert die Stärke der Konkurrenz. Diese Nichtlinearität ist als ein Modell einer latenzbasierten Konkurrenz, die späte Antworten durch eine schnelle laterale Sperrung unterdrückt, motiviert.
  • Die Aktivität wird dann durch eine einfache Schwellenfunktion mit einer gemeinsamen Schwelle θ1 für alle Zellen in der ersten Schicht 2 durchgelassen: sl1 (x, Y) = H(rl1 (x, y) – θ1) (3) wobei H(x) = 1, wenn x ≥ 0, und sonst H(x) = 0, und sl1 (x, y) die endgültige Aktivität des Neurons ist, das gegen ein Merkmal l in einer Position (x, y) in der ersten Schicht 2 empfindlich ist.
  • Die Aktivitäten der Schicht 3 von Sammelzellen sind durch cl1 (x, y) = tanh(g1(x, y)·sl1 ) (4)angegeben, wobei g1(x, y) ein normierter gaußscher lokalisierter räumlicher Sammelkern mit einer Breite, die durch σ1 charakterisiert wird, ist, der für alle Merkmale l identisch ist, und tanh die hyperbolische sigmoide Tangensübertragungsfunktion ist. Die optionale Sammelschicht 3 trägt zu der Invarianz der Erkennung unter Transformationen der unterschiedlichen Muster, die dem gleichen Objekt entsprechen, bei.
  • Die Merkmale in der Zwischenschicht 4 sind empfindlich gegen lokale Kombinationen 10, 11 der Merkmale 12, 13 in den Ebenen der vorhergehenden Schicht 3 (oder 2, falls keine Sammelschicht vorgesehen ist) und sind daher im Folgenden als Kombinationszellen benannt. Die kombinierte lineare Summation über vorhergehende Ebenen ist durch
    Figure 00150001
    gegeben, wobei wlk2 (x, y) der rezeptive Feldvektor der Sammelzelle des Merkmals l in einer Position (x, y) ist, der Verbindungen mit der Ebene k der Zellen der vorhergehenden Sammelschicht 3 beschreibt.
  • Nach der gleichen WTA-Prozedur mit einem Stärkeparameter γ2 ist die Aktivität in der Sammelschicht 3 nach der Anwendung einer Schwellenfunktion mit einer gemeinsamen Schwelle θ2 gegeben: sl2 (x, y) = H(rl2 (x, y) – θ2) (6)
  • Der Schritt von der Zwischenkombinationsschicht 4 zu der zweiten Sammelschicht 5 ist mit der Gleichung (4) identisch und ist durch cl2 (x, y) = tanh(g2(x, y)·sl2 ) (7)mit einem zweiten gaußschen räumlichen Sammelkern, der durch g2(x, y) mit einem Bereich σ2 charakterisiert ist, gegeben.
  • Neuronen in der endgültigen Schicht 15 sind gegen eine Vollansicht eines dargestellten Objekts, wie die ansichtsabgestimmten Einheiten (englisch: View-Tuned-Units; VTUs) 6 von Riesenhuber, M. & Poggio, T. (1999), „Are cortical models rally bound by the „binding Problem" "?, Neuron, 24, 87–93), die von einem Typ einer radialen Basisfunktion sind, empfindlich. Um ein gradientenbasiertes Lernen zu erleichtern, ist jedoch wieder eine sigmoide Nichtlinearität der Form:
    Figure 00160001
    gewählt, wobei ∅(x) = 1 + exp(–βx)–1 eine sigmoide Fermi-Übertragungsfunktion ist und wlk3 Verbindungsvektor einer einzelnen ansichtsabgestimmten Zelle, die mit l indiziert ist, zu der vorhergehenden vollen Ebene k in der vorhergehenden Schicht ist. Um eine größere Flexibilität bei einer Antwort zu erlauben, hat jede Zelle 6 ihre eigene Schwelle θl3 . Jede VTU-Zelle 6 stellt eine spezielle Ansicht eines Objekts dar, eine Klassifizierung eines unbekannten Eingangsstimulus wird daher durch ein Nehmen der maximal aktiven VTU 6 in der endgültigen Schicht 15 durchgeführt. Wenn diese Aktivierung eine bestimmte Schwelle nicht überschreitet, kann das Muster als unbekannt oder als eine Störung abgewiesen werden.
  • Es ist wichtig, anzumerken, dass der Satz von Schichten, der aus der ersten Merkmalsdetektierungsschicht 3, der optionalen Sammelschicht 3 und der Kombinationsschicht 4 besteht, mehrere Male vorgesehen sein kann.
  • Es wird nun das Training eines hierarchischen Netzes gemäß der vorliegenden Erfindung erklärt. Das Training kann durch ein Versorgen des Netzes mit Trainings-Mustern bewirkt werden. Gemäß einem Beispiel besteht die Bibliothek von Trainings-Mustern aus 100 Objekten, die in 72 Ansichten mit aufeinanderfolgenden 5°-Drehungen aufgenommen sind.
  • Der Startpunkt ist eine geeignete Angleichung von Sammelbereichen σ1, σ2, Schwellen σ1, σ2 und Stärken γ1, γ2 der WTA-Konkurrenz. Diese Parameter charakterisieren die Gesamtqualität der Netz-Nichtlinearitäten. Bei einem zweiten Schritt werden dann die Parameter der Nichtlinearitäten konstant gehalten, und die Gewichtsstruktur der Zwischenschicht und der endgültigen Schichten in der Hierarchie wird modifiziert. Gemäß einem Beispiel basiert die Auswertung auf einer Klassifizierungsaufgabe der 100 Objekte der bekannten COIL-100-Datenbank (Nayar, S. K., Nene, S. A. & Murase, H. (1996), „Real-time 100 object recognition system", in Proc. Of ARPA Image Understanding Workshop, Palm Springs). Es wurde zuerst ein einfaches Paradigma für das Training der ansichtsabgestimmten Einheiten, das der RBF-Typ-Einstellung von Riesenhuber & Poggio ähnlich ist, befolgt.
  • Es sind für jedes der 100 Objekte 72 Ansichten, die bei folgenden Drehungen von 5° aufgenommen werden, verfügbar. Drei Ansichten bei Winkeln 0°, 120° und 240° sind als ein Trainings-Muster (eine Ansicht) für jedes Objekt aufgenommen, und es wird für jede Ansicht eine ansichtsabgestimmte Zelle übernommen, was insgesamt 300 VTUs ergibt. Für eine spezielle Parametereinstellung wird die Aktivierung der endgültigen Schicht 15 aufgezeichnet. Dieser Aktivitätsvektor wird für eine Nearest-Neighbour-Klassifizierung in dem hochdimensionalen Raum verwendet. Dies kann als ein Schablonenabgleichen in dem Raum, der durch die neuronalen Aktivitäten in der endgültigen Schicht 15 überspannt wird, betrachtet werden. Ein Training läuft einfach auf ein Speichern einer Schablone für jede Trainings-Ansicht hinaus.
  • Abweichend von der Arbeit von Riesenhuber & Poggio wird zuerst ein Verbindungsmuster für die Zellen der Kombinationsschicht 4, das auf einem Verbinden von lediglich zwei Neuronen der Sammelschicht 3 in der lokalen Nachbarschaft der vier benachbarten Neuronen der rezeptiven Feldmitte der Zelle der Kombinations-(Zwischen-)Schicht 4 innerhalb der Sammelschicht 3 basiert, betrachtet. Nach einem Weglassen symmetrischer Permutationen und Konfigurationen, bei denen sich die zwei Sammelneuronen in unterschiedlichen Orientierungsebenen befinden und die gleiche Position in dem rezeptiven Feld besetzen, werden 120 unterschiedliche paarweise Kombinationszellentypen für die Kombinationsschicht 4 erhalten. Bei einem erschöpfenden rasterartigen Durchsuchen über Parameterkombinationen nach einer festen Zahl von 3 VTUs pro Objekt kann eine optimale Einstellung für die Klassifizierungsleistung gefunden werden. Die resultierenden Parameter sind
    θ1 = 0,1; θ2 = 0,95; σ1 = 2,5; σ2 = 2,5; γ1 = 0,9 und γ2 = 0,0.
  • Die resultierende Nearest-Neighbour-Klassifizierung ist zu 69% korrekt. Diese spezielle Parametereinstellung beinhaltet eine bestimmte Codierstrategie: Die erste Schicht 2 einfacher Randdetektoren 12, 13 kombiniert eine ziemlich niedrige Schwelle mit einer starken lokalen Konkurrenz zwischen Orientierungen. Das Resultat ist eine Art von „Segmentierung" des Eingangssignals in eine der vier unterschiedlichen Orientierungskategorien. Diese Merkmale werden innerhalb eines Bereichs, der mit der Größe der gaborschen rezeptiven Felder (Schicht 2) vergleichbar ist, gesammelt. Die paarweisen Kombinationszellen haben eine hohe Schwelle, die lediglich aktiviert wird, wenn beide präsynaptischen Zellen stark aktiv sind. Da γ2 = 0, scheint ein weiteres WTA auf dem Niveau von Kombinationszellen unnötig zu sein, da die hohe Schwelle bereits eine starke Verspärlichung bewirkt.
  • Unter der Annahme, dass die Codierstrategie mit niedrigen Anfangsschwellen und einem starken WTA optimal ist, kann man ein Ensemble von Aktivitätsvektoren der Ebenen der Sammelschicht 3 für das volle Eingangsbild-Ensemble erzeugen. Man kann dann eine Zufallsauswahl von 20000 5 × 5-Flächen (englisch: patches) aus diesem Ensemble betrachten. Da es in der Sammelschicht 3 vier Ebenen gibt, bedeutet dies einen 5 × 5 × 4 = 100-dimensionalen Aktivitätsvektor. Man kann dann an diesem Ensemble lokaler Flächen sowohl eine Haupt-Komponenten-Analyse (PCA) als auch eine unabhängige Komponenten-Analyse (ICA) durchführen. Die ICA kann z. B. unter Verwendung des FastICA-Algorithmus (Hyvärinen, A. & Oja, E. (1997), „A fast fixed-point algorithm for independent component Analysis"; Neural Computation 9(7), 1483–1492) durchgeführt werden. Für sowohl die PCA als auch die ICA können alternativ 20 oder 50 Komponenten, die dann als die Gewichtsvektoren für die Verbindungen der resultierenden 20 oder 50 Merkmalsebenen verwendet werden, betrachtet werden. Nach einem Auswerten der Leistung des resultierenden Nearest-Neigbour-Klassifizierers kann man die Parameter der folgenden Schichten an σ1 = 1,5; σ2 = 1,5; θ2 = 0,5; γ2 = 0 angleichen, was eine Anpassung an die ausgedehnteren rezeptiven 5 × 5-Felder der Kombinationsschicht-Neuronen widerspiegelt. Nach der Optimierung, die auf einer Nearest-Neighbour-Klassifizierung basiert, kann der Leistungsgewinn, der durch ein optimales Abstimmen der Antwort der ansichtsabgestimmten Einheiten auf ihre sigmoidale Übertragungsfunktion erhalten werden kann, untersucht werden. Man kann ein gradientenbasiertes überwachtes Lernen an dem Klassifizierer-Ausgangssignal der Neuronen der endgültigen Schicht durchführen. Das Zielausgangssignal für eine spezielle Ansicht i in dem Trainings-Satz war durch s l3 (i) = 0,9, wobei l der Index der VTU 6 ist, der am nächsten zu der dargestellten Ansicht ist, und durch s k3 (i) = 0,3 für die anderen Ansichten des gleichen Objekts gegeben ist. Es wird erwartet, dass alle anderen VTUs 6 auf einem Aktivierungsniveau von s l3 '(i) = 0,1 still sind. Das Training kann durch einen stochastischen Gradientenabstieg (siehe LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998), „Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86, 2278–2324) an der quadratischen Energiefunktion E = ∑il(s l3 (i) – sl3 (Il))2 , wobei i die Trainings-Bilder zählt, durchgeführt werden.
  • Von einem besonderen Interesse bei einem invarianten Erkennungslösungsansatz ist die Fähigkeit einer Verallgemeinerung auf vorher nicht gesehenen Objektansichten. Einer der Hauptideen hinter hierarchischen Architekturen besteht darin, eine allmählich zunehmende Invarianz der neuronalen Aktivierung in späteren Stufen zu erreichen, wenn bestimmte Transformationen auf die Objektansicht angewandt werden. Die vorliegende Erfindung liefert eine beträchtliche Invarianz, die aus der hierarchischen Architektur gewonnen wird.
  • Es wird nun der Nearest-Neighbour-Klassifizierungslösungsansatz, der durch die VTUs 6 durchgeführt werden kann, erklärt. Ein Schablonenabgleich, der die Nearest-Neighbour-Suche mit einer euklidischen Metrik in dem Merkmalsraum, der das Bild darstellt, verwendet, ist ein unkomplizierter Lösungsansatz einer Bildklassifizierung. Der einfachste Lösungsansatz würde dann darin bestehen, die Trainings-Ansichten wie in einem fotografischen Speicher zu sammeln und dann VTUs 6, die eine Nearest-Neighbour-Suche nach dem Vollbild-Intensitätsvektor durchführen, zu verwenden. Bei zunehmenden Zahlen von Trainings-Vektoren wird klar erwartet, dass die Leistung zunimmt. Das Hauptproblem besteht in der ineffizienten Darstellung der Objektvertreter, die riesige Mengen an Daten für größere Zahlen von Objekten erfordert. Da man einen höheren Grad an Invarianz von dem hierarchischen Verarbeiten gemäß der vorliegenden Erfindung erwarten kann, kann der Schablonenabgleich auf der Aktivierung der gesammelten Kombinationszellen in der Schicht 5 basieren.
  • Die Klassifizierungsrate zeigt eine mäßige, fast lineare Zunahme mit der Zahl verfügbarer Ansichten, wenn ein direkter Schablonenabgleich auf die Bilddaten angewandt wird. Wenn man im Gegensatz dazu einen Nearest-Neighbour-Klassifizierer, der auf den Ausgangssignalen der Schicht 5 der vorgeschlagenen Hierarchie basiert, verwendet, kann bereits für moderate Zahlen von Trainings-Daten eine sehr rasche Zunahme, die sich dann hin zu einer perfekten Klassifizierung sättigt, beobachtet werden. Ein Verwenden des vollständigen Satzes von 120 Kombinationszellen führt zu einer ähnlichen Leistung wie ein Verwenden von 50 Zellen größter Varianz. Es ist von einem speziellen Interesse, dass eine ICA-basierte Bestimmung der Kombinationszellen bessere Resultate ergibt und die einfachen paarweise aufgebauten Kombinationszellen übertrifft.
  • Es wird im Folgenden das Abstimmen von ansichtsabgestimmten Einheiten 6 erklärt. Das Nächster-Nachbar-Abgleichen (englisch: nearest-neighbour matching) ist ein einfacher Lösungsansatz, der den Vorteil hat, dass keine zusätzliche Anpassung von Gewichten erforderlich ist. Die zusätzliche endgültige Schicht 15 sollte jedoch fähig sein, dem hochdimensionalen Aktivierungsmuster in der vorhergehenden Sammelschicht 5 mehr Informationen zu entnehmen. Um die Zahl verfügbarer ansichtsabgestimmter Einheiten 6 zu begrenzen, kann man eine Anordnung, bei der lediglich drei VTUs 6 für jedes Objekt verfügbar sind, verwenden. Die Gewichte und Schwellen dieser VTUs 6 können durch einen stochastischen Gradientenabstieg optimiert werden. Trotz einer kleinen Zahl von lediglich drei VTUs 6 erreicht die Optimierung abhängig von der Zahl verfügbarer Trainings-Muster eine vergleichbare Leistung. Die ICA-optimierten Merkmale ergeben hier wiederum die besten Resultate. Die Haupt-Komponenten-Analyse, die ein allgemeinerer varianzbasierter Auswahllösungsansatz als ein Wählen paarweiser Kombinationszellen mit einer maximalen Varianz ist, übertrifft das paarweise Modell, erreicht jedoch nicht das Niveau der ICA.
  • Ein zentrales Problem für eine Erkennung besteht darin, dass ein natürlicher Stimulus üblicherweise nicht nur das Objekt, das isoliert von einem Hintergrund zu erkennen ist, sondern auch eine große Menge an Störungen enthält. Es ist hauptsächlich die Menge an Störungen in der Umgebung, die die Fähigkeit des Zunehmens der Sammelbereiche, um eine größere Translationstoleranz für die Erkennung zu bekommen (siehe Mel, B. W. & Fiser, J. (2000), „Minimizing binding errors using learned conjunctive features", Neural computation 12(4), 731–762), begrenzt.
  • Der Einfluss von Störungen wird durch künstliches Erzeugen eines zufallsgestörten Hintergrunds, durch Ausschneiden der Objektbilder und deren Platzieren auf einem sich ändernden gestörten Hintergrundbild mit einer Zufallspositionsvarianz von vier Pixeln ausgewertet. Mit dieser Prozedur wird ein Bild-Ensemble für den Satz von 20 Objekten aus der COIL-20-Datenbank erzeugt, und es wird sowohl ein Training als auch ein Testen mit diesen Bildern durchgeführt. Das Ensemble wurde durch 200 Ansichten, die lediglich Störungen enthalten und bei denen erwartet wird, dass alle VTUs 6 still bleiben (d. h. ihr Trainings-Ausgangssignal wurde auf 0,1 eingestellt), vergrößert. Bei einem Einstellen einer Abweisungsschwelle von 0,2 für die endgültigen VTUs werden lediglich 1% der Störungsbilder fälschlicherweise als Objekte klassifiziert. Die falsche Abweisungsrate, d. h., wenn ein dargestelltes Objekt eine Schwellenaktivierung nicht überschreitet, ist kleiner als 1%. Die Gesamtklassifizierungsrate, die drei VTUs pro Objekt verwendet, ist mit dem größeren COIL-100-Satz vergleichbar. Dies betont die Fähigkeit des hierarchischen Netzes, über unterschiedliche Umgebungen ohne eine Notwendigkeit einer vorherigen Segmentierung zu verallgemeinern. Selbst mit lediglich drei Trainings-Ansichten kann eine zu 85% korrekte Klassifizierung erreicht werden.
  • Zusammengefasst gibt es eine laufende Diskussion über die Fähigkeiten hierarchischer neuronaler Mitkopplungsarchitekturen zum Durchführen einer invarianten Realwelt-3D-Objekterkennung. Obwohl eine Vielfalt hierarchischer Modelle existiert, sind geeignete überwachte und nicht-überwachte Lernverfahren immer noch ein Thema einer intensiven Forschung. Es ist ein Mitkopplungsmodell für eine Erkennung, das Komponenten, wie ein gemeinsames Verwenden von Gewichten, Sammelstufen und Sieger-nimmt-Alles-Nichtlinearitäten mit früheren Lösungsansätzen gemeinsam verwendet, sich jedoch auf neue Verfahren zum Bestimmen optimaler merkmalsdetektierender Zellen in Zwischenstufen des hierarchischen Netzes konzentriert, vorgeschlagen. Die unabhängige Komponenten-Analyse (ICA), die vorher meistens auf die Anfangsmerkmalsdetektierungsstufen angewandt wurde, ergibt auch für komplexe Zwischenmerkmale überlegene Resultate der Erkennungsleistung. Merkmale, die durch die ICA gelernt werden, führen zu besseren Resultaten als früher vorgeschlagene heuristisch gewählte Kombinationen einfacher Merkmale.

Claims (10)

  1. Verfahren zum Erkennen eines Musters mit einem Satz von Merkmalen, wobei das Verfahren folgende Schritte aufweist: a.) Falten einer Mehrzahl von Festmerkmal-Detektoren (2) mit einem lokalen Fenster (7), das über eine Darstellung (1) des Musters (8) abgetastet, um eine Mehrzahl von Merkmalsabbildungen (9) zu erzeugen, wobei die Merkmalsabbildungen (9) die Anwesenheit von einfachen voreingesteliten Merkmalen (12, 13) in der Darstellung (1) des Musters (8) erfassen, b.) Getrenntes Anwenden einer Nichtlinearitätsfunktion auf das Ausgangssignal von jeder Merkmalsabbildung (9), c.) Erfassen der Anwesenheit von voreingestellten lokalen Kombinationen (4) der einfachen Merkmale (12, 13) der Merkmalsabbildungen (9) in dem Resultat von Schritt b.), und d.) Erkennen des Musters (8) durch Klassifizieren (6) desselben auf der Basis der erfassten lokalen Kombinationen (4), dadurch gekennzeichnet, dass für die lokale Kombination (4) von Merkmalen bei dem Schritt c.) statistisch unabhängige Merkmale (10, 11) voreingestellt sind, wobei die statistisch unabhängigen Merkmale (10, 11) mittels einer unabhängigen Komponenten-Analyse von Faltungen von Merkmalsdetektoren über Trainings-Muster oder mittels einer Haupt-Komponenten-Analyse von Faltungen von Merkmalsdetektoren über Trainings-Muster vorbestimmt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, um die Merkmalsabbildungen (9) zu erzeugen, auf das Resultat der Faltung eine Sieger-nimmt-Alles-Strategie zwischen Merkmalen in der gleichen Position der Darstellung des Musters angewandt wird.
  3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass auf jede Merkmalsabbildung (9) eine nicht-differenzierbare Nichtlinearitätsfunktion angewandt wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch mindestens einen Sammelschritt (3), bei dem Merkmalsabbildungen (9) eines vorhergehenden Schritts einer lokalen Durchschnittsbildung (14) und einer Unterprobennahme unterworfen werden.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Schritt des Klassifizierens (6) unter Verwendung einer 1-schichtigen sigmoidalen Übertragungsfunktion, die mit einem Gradientenabstiegsverfahren trainiert wird, bewirkt wird.
  6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Schritt des Klassifizierens (6) unter Verwendung eines Netzes von radialen Basisfunktionen, eines Nearest-Neighbour-Matching-Algorithmus oder eines Mehrschicht-Perzeptron-Netzes ausgeführt wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Ausgangssignal von Schritt b.) vor einem Anwenden des Schritts des Klassifizierens c.) mindestens einer weiteren Stufe zum Erzeugen von Merkmalsabbildungen (9) und Erfassen von lokalen Kombinationen (4) zugeführt wird.
  8. Computersoftware-Programmprodukt, dadurch gekennzeichnet, dass dasselbe ein Verfahren nach einem der vorhergehenden Ansprüche implementiert, wenn dasselbe auf einer Rechenvorrichtung ausgeführt wird.
  9. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 für die optische Erkennung von Zeichen oder Objekten, die in digitalen Darstellungen anwesend sind.
  10. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 für die optische Erkennung von handgeschriebenen Ziffern (8).
DE60130742T 2001-05-28 2001-05-28 Mustererkennung mit hierarchischen Netzen Expired - Lifetime DE60130742T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01113014A EP1262907B1 (de) 2001-05-28 2001-05-28 Mustererkennung mit hierarchischen Netzen

Publications (2)

Publication Number Publication Date
DE60130742D1 DE60130742D1 (de) 2007-11-15
DE60130742T2 true DE60130742T2 (de) 2008-07-17

Family

ID=8177575

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60130742T Expired - Lifetime DE60130742T2 (de) 2001-05-28 2001-05-28 Mustererkennung mit hierarchischen Netzen

Country Status (4)

Country Link
US (1) US7308134B2 (de)
EP (1) EP1262907B1 (de)
JP (1) JP4083469B2 (de)
DE (1) DE60130742T2 (de)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374974B2 (en) * 2003-01-06 2013-02-12 Halliburton Energy Services, Inc. Neural network training data selection using memory reduced cluster analysis for field model development
JP4865557B2 (ja) 2003-08-15 2012-02-01 スカーペ テクノロジーズ アクティーゼルスカブ 有界三次元対象物の分類と空間ローカライゼーションのためのコンピュータ視覚システム
US20050058350A1 (en) * 2003-09-15 2005-03-17 Lockheed Martin Corporation System and method for object identification
JP2005352900A (ja) * 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
ITBG20050013A1 (it) * 2005-03-24 2006-09-25 Celin Technology Innovation Srl Metodo per il riconoscimento tra un primo oggetto ed un secondo oggetto rappresentati da immagini.
DE602005017376D1 (de) 2005-06-27 2009-12-10 Honda Res Inst Europe Gmbh Räumliche Annäherung und Objekterkennung für humanoiden Roboter
US8014590B2 (en) * 2005-12-07 2011-09-06 Drvision Technologies Llc Method of directed pattern enhancement for flexible recognition
US20070192267A1 (en) 2006-02-10 2007-08-16 Numenta, Inc. Architecture of a hierarchical temporal memory based system
US7702145B2 (en) * 2006-06-28 2010-04-20 Microsoft Corporation Adapting a neural network for individual style
US8009900B2 (en) * 2006-09-28 2011-08-30 Siemens Medical Solutions Usa, Inc. System and method for detecting an object in a high dimensional space
JP2008152619A (ja) * 2006-12-19 2008-07-03 Fuji Xerox Co Ltd データ処理装置およびデータ処理プログラム
US8068654B2 (en) * 2007-02-02 2011-11-29 Siemens Akteingesellschaft Method and system for detection and registration of 3D objects using incremental parameter learning
US8065244B2 (en) * 2007-03-14 2011-11-22 Halliburton Energy Services, Inc. Neural-network based surrogate model construction methods and applications thereof
US8117137B2 (en) 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
WO2008133951A2 (en) * 2007-04-24 2008-11-06 Massachusetts Institute Of Technology Method and apparatus for image processing
JP5184824B2 (ja) * 2007-06-15 2013-04-17 キヤノン株式会社 演算処理装置及び方法
US20090276385A1 (en) * 2008-04-30 2009-11-05 Stanley Hill Artificial-Neural-Networks Training Artificial-Neural-Networks
WO2009149126A2 (en) * 2008-06-02 2009-12-10 New York University Method, system, and computer-accessible medium for classification of at least one ictal state
AU2009279644B2 (en) * 2008-08-06 2012-08-23 Halliburton Energy Services, Inc. Systems and methods employing cooperative optimization-based dimensionality reduction
US9514388B2 (en) * 2008-08-12 2016-12-06 Halliburton Energy Services, Inc. Systems and methods employing cooperative optimization-based dimensionality reduction
TW201013546A (en) * 2008-09-19 2010-04-01 Altek Corp Hierarchical face recognition training method and hierarchical face recognition method thereof
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8290250B2 (en) 2008-12-26 2012-10-16 Five Apes, Inc. Method and apparatus for creating a pattern recognizer
US8160354B2 (en) * 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
US8229209B2 (en) * 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
JP5461064B2 (ja) * 2009-05-21 2014-04-02 日機装株式会社 形状推定システム、形状推定方法、プログラム及び記録媒体
JP2011107648A (ja) * 2009-11-20 2011-06-02 Fujifilm Corp レンズユニット
US11651277B2 (en) 2010-03-15 2023-05-16 Numenta, Inc. Sparse distributed representation for networked processing in predictive system
US9189745B2 (en) 2010-03-15 2015-11-17 Numenta, Inc. Temporal memory using sparse distributed representation
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US8645291B2 (en) 2011-08-25 2014-02-04 Numenta, Inc. Encoding of data for processing in a spatial and temporal memory system
US8825565B2 (en) 2011-08-25 2014-09-02 Numenta, Inc. Assessing performance in a spatial and temporal memory system
US9159021B2 (en) 2012-10-23 2015-10-13 Numenta, Inc. Performing multistep prediction using spatial and temporal memory system
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US8873838B2 (en) * 2013-03-14 2014-10-28 Google Inc. Method and apparatus for characterizing an image
US9754186B2 (en) * 2014-01-29 2017-09-05 Leidos Innovations Technology, Inc. Visual feature extraction methods and systems
US10198689B2 (en) 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
US9984326B1 (en) * 2015-04-06 2018-05-29 Hrl Laboratories, Llc Spiking neural network simulator for image and video processing
US10318878B2 (en) 2014-03-19 2019-06-11 Numenta, Inc. Temporal processing scheme and sensorimotor information processing
JP6582416B2 (ja) 2014-05-15 2019-10-02 株式会社リコー 画像処理装置、画像処理方法及びプログラム
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
CN105868678B (zh) * 2015-01-19 2019-09-17 阿里巴巴集团控股有限公司 人脸识别模型的训练方法及装置
JP6435581B2 (ja) * 2015-01-29 2018-12-12 パナソニックIpマネジメント株式会社 転移学習装置、転移学習システム、転移学習方法およびプログラム
JP6360802B2 (ja) * 2015-02-20 2018-07-18 株式会社デンソーアイティーラボラトリ ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両
WO2016141282A1 (en) * 2015-03-04 2016-09-09 The Regents Of The University Of California Convolutional neural network with tree pooling and tree feature map selection
JP2018514844A (ja) * 2015-03-11 2018-06-07 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 細胞画像および映像の深層畳み込みネットワークベースの分類のためのシステムおよび方法
US11334789B2 (en) * 2015-03-17 2022-05-17 Qualcomm Incorporated Feature selection for retraining classifiers
US9933264B2 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
US9934437B1 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for real-time collision detection
US10417555B2 (en) 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
US11423311B2 (en) 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks
US10460230B2 (en) 2015-06-04 2019-10-29 Samsung Electronics Co., Ltd. Reducing computations in a neural network
US10853738B1 (en) 2015-06-29 2020-12-01 Hrl Laboratories, Llc Inference circuit for improving online learning
CN106485259B (zh) * 2015-08-26 2019-11-15 华东师范大学 一种基于高约束高分散主成分分析网络的图像分类方法
US9424494B1 (en) 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
KR102487493B1 (ko) 2016-03-03 2023-01-11 구글 엘엘씨 로봇 파지용 심층 기계 학습 방법 및 장치
EP3414710B1 (de) * 2016-03-03 2022-11-02 Google LLC Tiefes maschinellen lernverfahren und vorrichtung für robotisches greifen
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN107529647B (zh) * 2016-12-02 2021-02-09 南京信息工程大学 一种基于多层无监督稀疏学习网络的云图云量计算方法
JP6214073B2 (ja) * 2017-03-16 2017-10-18 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN107316004A (zh) * 2017-06-06 2017-11-03 西北工业大学 基于深度学习的空间目标识别方法
EP3435246A1 (de) 2017-07-24 2019-01-30 Tata Consultancy Services Limited System und verfahren zur signalanalyse
CN107563414B (zh) * 2017-08-14 2018-05-29 北京航空航天大学 一种基于Kohonen-SVM的复杂设备退化状态识别方法
CN107890348B (zh) * 2017-11-21 2018-12-25 郑州大学 一种基于深度学习法心电节拍特征自动化提取及分类方法
US10713563B2 (en) 2017-11-27 2020-07-14 Technische Universiteit Eindhoven Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering
EP3540610B1 (de) * 2018-03-13 2024-05-01 Ivalua Sas Erkennungsverfahren für standardisierte formulare, zugehöriges computerprogrammprodukt, verarbeitungs- und lernsysteme
CN109492671B (zh) * 2018-10-16 2020-08-11 北京理工大学 一种基于lstm的多极化高分辨距离像目标识别方法
CN110059672B (zh) * 2019-04-30 2022-06-14 福州大学 一种对显微镜细胞图像检测模型进行增类学习的方法
CN111860064B (zh) * 2019-04-30 2023-10-20 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
US11681922B2 (en) 2019-11-26 2023-06-20 Numenta, Inc. Performing inference and training using sparse neural network
JP7451384B2 (ja) 2020-01-10 2024-03-18 東レエンジニアリング先端半導体Miテクノロジー株式会社 パターンエッジ検出方法、パターンエッジ検出装置、パターンエッジ検出をコンピュータに実行させるためのプログラムが記録された記録媒体
CN114945801A (zh) * 2020-01-10 2022-08-26 塔斯米特株式会社 图案边缘检测方法、图案边缘检测装置、记录有用于让计算机执行图案边缘检测的程序的记录介质
JP7441312B2 (ja) 2020-06-11 2024-02-29 富士フイルム株式会社 学習装置、学習方法、及びプログラム
CN111814794B (zh) * 2020-09-15 2020-12-04 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及存储介质
CN112215130B (zh) * 2020-10-10 2022-08-16 吉林大学 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822742A (en) * 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
US5067164A (en) * 1989-11-30 1991-11-19 At&T Bell Laboratories Hierarchical constrained automatic learning neural network for character recognition
US5058179A (en) * 1990-01-31 1991-10-15 At&T Bell Laboratories Hierarchical constrained automatic learning network for character recognition
JP2763398B2 (ja) * 1990-11-20 1998-06-11 キヤノン株式会社 パターン認識装置
US5500905A (en) * 1991-06-12 1996-03-19 Microelectronics And Computer Technology Corporation Pattern recognition neural network with saccade-like operation
US5293456A (en) * 1991-06-28 1994-03-08 E. I. Du Pont De Nemours And Company Object recognition system employing a sparse comparison neural network
US5774586A (en) * 1994-05-04 1998-06-30 Ncr Corporation Method and apparatus for standardization of inputs to word recognition systems
US5497430A (en) * 1994-11-07 1996-03-05 Physical Optics Corporation Method and apparatus for image recognition using invariant feature signals
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US6105015A (en) * 1997-02-03 2000-08-15 The United States Of America As Represented By The Secretary Of The Navy Wavelet-based hybrid neurosystem for classifying a signal or an image represented by the signal in a data system
CA2199588A1 (en) * 1997-03-10 1998-09-10 Efrem Hoffman Hierarchical data matrix pattern recognition and identification system
US5995644A (en) * 1997-06-30 1999-11-30 Siemens Corporate Research, Inc. Robust and automatic adjustment of display window width and center for MR images
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme

Also Published As

Publication number Publication date
EP1262907A1 (de) 2002-12-04
DE60130742D1 (de) 2007-11-15
US7308134B2 (en) 2007-12-11
JP4083469B2 (ja) 2008-04-30
EP1262907B1 (de) 2007-10-03
US20030002731A1 (en) 2003-01-02
JP2002373333A (ja) 2002-12-26

Similar Documents

Publication Publication Date Title
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
Jarrett et al. What is the best multi-stage architecture for object recognition?
DE60128029T2 (de) Gerät und Verfahren zur Detektion oder Erkennung von Mustern mittels einer Vielzahl von Merkmaldetektionselementen
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE69333811T2 (de) Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
Sinha et al. Optimization of convolutional neural network parameters for image classification
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
Verma et al. Facial expression recognition using Gabor filter and multi-layer artificial neural network
DE102007050568A1 (de) Verfahren und Einrichtung zur Objekterkennung in einem Bild
DE3938645C1 (de)
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE102019214402A1 (de) Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks
EP1180258B1 (de) Mustererkennung mittels prüfung zusätzlicher merkmale nach teilverarbeitung
Duffner et al. A neural scheme for robust detection of transparent logos in TV programs
DE202022107266U1 (de) Ein Gesichtserkennungssystem zur Unterscheidung zwischen ähnlichen Gesichtern
EP1281157A1 (de) Verfahren und anordnung zum ermitteln eines objekts in einem bild
DE202022104461U1 (de) Syntaxgeleitetes Erkennungssystem für mathematische Termini
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
DE19652925A1 (de) Verfahren und Vorrichtung zur orts- und größenunabhängigen Erfassung von Merkmalen aus einem Bild
EP1021787B1 (de) Verfahren zum lokalisieren von objekten in standbildern mit anwendung auf die lokalisierung von gesichtern
Singh et al. Fuzzy rule based classification and recognition of handwritten Hindi curve script
DE60223007T2 (de) Benutzung von Gruppendiversität zur automatischen Bestimmung von Merkmalen
Alradad Robust classification with convolutional neural networks

Legal Events

Date Code Title Description
8364 No opposition during term of opposition